High-Resolution Image Synthesis with Latent Diffusion Models

e_na 2025. 10. 16. 11:41

2025. 10. 16. 11:41

Abstract

기존 Diffusion 모델은 pixel space에서 작동한다는 점 때문에 optimization 과정에서 매우 큰 비용의 연산과 시간을 요구하였다. 이러한 단점을 개선하고자, 이번 논문에서 소개되는 Latent Diffusion Models(LDMs)은 (1) Autoencoder를 pixel space가 아닌 latent space(잠재 공간)에서 작동시키고, (2) cross-attention layers를 모델에 추가함으로써 기존 pixel-based Diffusion Models과 비교해 연산을 줄이고 높은 성능을 보였다.

+) Autoencoder는 인코더-디코더 모델 구조를 가지고 있으며, 잠재표현을 학습하여 입력과 출력를 최대한 동일하게 만드는 걸 목표로 한다

Introduction

컴퓨터 비전 분야에서 이미지 분석, 특히 높은 해상도 이미지를 분석하는 것은 매우 활발히 연구되는 분야 중 하나이다.

이와 관련된 연구를 보자면

- 높은 해상도 이미지를 분석하는 경우에는 대부분 likelihood 기반 모델을 사용하여 분석하는데, 이때 사용되는 AR(Autoregressive) transformers에 수많은 파라미터를 포함하고 있으며 그만큼 매우 많은 연산 비용을 요구하기도 한다.

- GAN의 경우, 복잡한 모델링 확장이 어렵기 때문에 데이터 다양성에 제약을 가진다.

- 최근 활발히 연구되는 Diffusion Models은 높은 성능과 효율성을 보이고 있는데, 다른 생성형 모델과 달리 비조건부 DMs조차도 다양한 이미지 처리 작업에 활용되고 있다.

그러나 이러한 DMs 또한 likelihood 기반 모델이기 때문에 모델링 과정에서 여전히 많은 계산 비용을 필요로 한다.

이러한 likelihood 기반 모델의 학습은 크게 두 단계로 나누어진다.

(1) prerceptual compression stage : 고주파 디테일 제거

(2) semantic compression stage : 데이터의 실제 의미, 개념적 구성 요소 학습

위 두 단계는 pixel space에서 이루어지는데 이때 높은 차원을 사용하여 자원 낭비의 문제가 발생한다.

따라서 효율적인 학습을 위한 새로운 공간의 확보가 필요하며 latent space가 등장한다.

=> Latent space를 도입한 Latent Diffusion Models(LDMs)의 훈련은 두 단계로 나누어진다.

(1) Autoencoder training : 낮은 차원의 효율적인 latent spacefmf 제공하는 autoencoder를 학습한다.

(2) DM training : latent space에서 DM을 학습하며 단일 네트워크 패스만으로도 효율적인 이미지 생성이 가능하다.

Method

Diffusion models은 denoising 과정을 통해 확률 분포 p(x)를 학습하는 모델이다.

1. Pixel Space에서 압축 단계
Pixel Space에서의 입력 이미지를 Latent Space에서의 압축된 잠재 표현(z)으로 변환한다.

이때 VAE(Variational Autoencoder)를 사용하여 속도를 크게 향상시켰다.

2. Latent Space에서 확산 과정
2-1) Diffusion process : 잠재 표현에 노이즈를 추가해 z_t를 만든다.
2-2) Denoising U-Net : 해당 모델에서는 백본 ε_θ 로 U-Net을 사용하였으며,
U-Net으로 노이즈 처리된 잠재 표현 z_t를 입력 받아 단계적으로 제거해 나간다.

3. Conditioning

2-2의 denoising 과정에서 조건을 주입해서 생성되는 이미지의 내용을 제어할 수 있다.
이때 인코딩된 텍스트 정보를 cross-attention으로 결합시킨다.

e_na studying