5 minute read

1. Introduction

Generative Adversarial Networks(GAN)GeneratorDiscriminator라는 두 가지 신경망이 적대적(Adversarial) 구조로 학습하는 딥러닝 기반 생성 모델입니다. 2014년 Ian Goodfellow 등1이 처음 제안했으며, 이후 이미지 생성, 비디오 합성, 의료 영상, 예술, 디자인 등 다양한 분야에서 큰 주목을 받고 있습니다.

이때 Generator는 랜덤 잠재 벡터(Latent Vector)로부터 가짜(Fake) 이미지를 생성하고, Discriminator는 입력된 이미지가 진짜(Real)인지 가짜(Fake)인지 판별합니다. 두 네트워크가 상호 경쟁을 하며 학습하는 과정을 Adversarial Training이라 부릅니다. 이러한 경쟁 과정 덕분에, 명시적 확률 분포를 직접 계산하지 않고도 높은 해상도의 이미지를 생성할 수 있다는 강점이 있으며, 기존 Variational Autoencoder(VAE)PixelRNN 등과 달리 복잡한 우도(Likelihood) 추정 단계가 필요 없습니다.

일반적으로 아래와 같은 미니맥스(Minimax) 게임 형태의 손실 함수를 사용합니다:

\[\min_{G} \max_{D} \; V(D,G) = \mathbb{E}_{x \sim p_\text{data}}[\log D(x)] + \mathbb{E}_{z \sim p(z)}[\log (1 - D(G(z)))].\]

이때 Generator는 Discriminator를 최대한 속이기 위해 가짜 이미지를 사실적으로 만들고, Discriminator는 가짜를 정확히 가려내려 합니다. 이 경쟁이 이상적으로 균형을 이루면, Generator가 만들어내는 분포가 실제 데이터 분포와 가까워집니다.


2. Background

2.1 GAN의 기본 개념

GAN은 두 네트워크 Generator(G)Discriminator(D)가 동시에 학습되며, 서로 반대되는 목적 함수를 가집니다.

  • Generator: 랜덤 노이즈((z))에서 실제 데이터와 유사한 이미지를 생성.
  • Discriminator: 입력된 이미지를 Real/Fake로 분류.

Minimax 구조 탓에 학습이 불안정해지기 쉽다는 문제가 있지만, 다양한 개선 기법 덕분에 현재는 고해상도 이미지를 사실적으로 생성할 정도로 발전했습니다.

2.2 GAN 이전의 대표적 생성 모델

GAN 이전에는 Variational Autoencoder(VAE)PixelRNN 계열 모델이 활용되었습니다.

  • VAE: 인코더-디코더 구조에서 잠재 공간을 확률적으로 학습하고, 샘플링을 통해 이미지를 생성. 다만 결과물이 비교적 흐리거나 저해상도인 경우가 많았습니다.
  • PixelRNN/PixelCNN: 픽셀 단위로 조건부 확률을 학습하여 이미지를 생성하지만, 연산량이 많고 학습이 복잡합니다.

이후 GAN의 등장으로 인해 Implicit하게 데이터 분포를 학습하여, Backpropagation만으로 사실감 높은 이미지를 만들어낼 수 있게 되었으며, 다양한 변형 모델이 쏟아졌습니다.


3. Taxonomy

GAN 연구에서 제안된 다양한 변형·확장 모델들을 몇 가지 기준으로 분류할 수 있습니다.

  1. 구조(Architecture) 중심 분류
    • DCGAN(Deep Convolutional GAN): 합성곱(Convolution) 기반 GAN 구조로 학습 안정성과 해상도를 높임2.
    • WGAN(Wasserstein GAN), LSGAN 등: JS 다이버전스 대신 Wasserstein 거리, 최소제곱 손실 등을 활용해 학습 불안정성과 모드 붕괴 문제를 완화34.
    • Progressive GAN, StyleGAN 계열: 해상도를 점진적으로 높이거나 잠재 벡터에 스타일 변조 기법을 도입하여 초고해상도·고품질 이미지를 생성56.
  2. 조건(Condition) 유무
    • Unconditional GAN: 오직 노이즈 벡터만으로 이미지를 생성.
    • Conditional GAN(cGAN): 클래스 라벨이나 텍스트 등 추가 정보를 조건으로 사용. AC-GAN, BigGAN 등이 대표적이며, 원하는 속성의 이미지를 세밀하게 생성 가능78.
  3. 용도(Application)별 분류
    • Image-to-Image Translation: Pix2Pix, CycleGAN 등에서 서로 다른 도메인의 이미지를 상호 변환910.
    • 초해상도(Super-Resolution): SRGAN, ESRGAN 등을 통해 저해상도 이미지를 고해상도로 복원11.
    • 3D 생성: 3D-aware GAN, NeRF-GAN 등 3차원 장면 생성 연구도 활발.

4. Literature Review

4.1 GAN의 역사적 발전

  • 2014년: GAN의 출발
    Ian Goodfellow 등1이 GAN을 최초로 제안. 완전연결층 기반으로 설계되어, 모드 붕괴나 학습 불안정성 등 초기 문제도 함께 노출.

  • 2015~2016: DCGAN
    Radford 등2이 합성곱 기반 DCGAN 구조로 전환하여, 훨씬 고해상도의 이미지와 안정적인 학습 결과를 달성.

  • 2017: WGAN 계열 및 안정성 개선
    Arjovsky 등3이 JS다이버전스 대신 Wasserstein 거리를 도입해 기울기 소실을 완화한 WGAN을 제안. 이어 Gradient Penalty를 더한 WGAN-GP4가 등장해 학습 안정성을 한층 높임.

  • 2017: Conditional GAN 응용 확대
    Mirza & Osindero의 cGAN 아이디어가 확장되어, AC-GAN7, Pix2Pix, CycleGAN910 등이 발표. 텍스트·스케치·클래스 라벨 등을 조건으로 고품질 이미지를 생성.

  • 2018: Progressive GAN
    NVIDIA의 Karras 등5이 낮은 해상도에서 시작해 점진적으로 해상도를 높이는 ProGAN 기법을 발표. 1024×1024급 고해상도 얼굴 이미지를 안정적으로 생성해 큰 반향을 일으킴.

  • 2018~2019: BigGAN, StyleGAN
    Brock 등8BigGAN은 대규모 파라미터와 거대 배치 사이즈로 ImageNet 전반에 걸쳐 뛰어난 생성 품질을 달성. Karras 등6StyleGAN은 잠재 공간을 스타일로 조절(AdaIN)하여 얼굴 속성 등을 정교하게 제어 가능한 아키텍처를 제시.

  • 2021 이후: 대체 아키텍처와 융합
    Convolution 없이 Transformer로만 구성된 TransGAN 시도, 사전학습된 모델(CLIP 등)과 결합한 StyleGAN-XL, 3D Scene(NeRF)과의 융합 등 다양한 확장이 진행 중.

4.2 이미지 생성 분야에서의 응용

  • 무조건부 이미지 생성: 얼굴, 풍경 등 특정 데이터셋을 학습해 다양한 이미지를 생성. 평가 지표로는 FID, IS 등을 많이 사용.
  • 조건부 이미지 생성: 텍스트 설명, 클래스 라벨 등을 활용해 원하는 속성을 갖춘 이미지를 생성. 예: AttnGAN, BigGAN, DALL·E 등.
  • 이미지-이미지 변환: Pix2Pix9, CycleGAN10을 통해 두 도메인 간 스타일·속성을 서로 바꿔치기.
  • 초해상도/복원: SRGAN, ESRGAN11 등을 통해 저해상도 이미지를 고해상도로 복원. 지각적 손실(VGG 기반)과 GAN 판별자를 함께 사용해 선명도 개선.
  • 기타: 의료영상 합성, 3D 객체 생성, 영상 합성(Deepfake), 음악·오디오 생성 등 다양한 영역으로 확장 중.

5. Challenges

GAN은 빠른 발전에도 불구하고 아직 해결해야 할 여러 문제들이 남아 있습니다.

  1. Mode Collapse(모드 붕괴)
    • Generator가 데이터 분포의 일부 모드만 반복적으로 생성하여 다양성이 결여되는 문제. WGAN 계열, PacGAN 등으로 완화했지만 완전한 해결은 어려움.
  2. 학습 불안정성
    • Minimax 게임 특성상 학습이 진동하거나 한쪽 네트워크만 과도하게 이기는 경우가 빈번. 하이퍼파라미터 선정이 까다롭고, 여전히 JS다이버전스 기반 구조에서 기울기 소실 문제가 발생할 수 있음.
  3. 평가 지표의 한계
    • FID, IS 등은 생성 이미지의 품질과 다양성을 어느 정도 측정하지만, 완전하지 않음. GAN의 분포 커버리지나 실제 지각 품질을 정량화하는 방법이 더 연구되어야 함.
  4. 대규모 학습 비용
    • BigGAN, StyleGAN-XL 등 고성능 모델은 수백만~수억 개 이상의 파라미터를 사용하며, 막대한 GPU/TPU 자원이 필요. 이는 연구 진입 장벽을 높임.
  5. 윤리적 문제
    • 사실적인 가짜 이미지·영상(딥페이크 등)이 등장하면서, 프라이버시·저작권·사회적 혼란 문제가 부각. GAN 결과물을 식별하거나 안전하게 활용하는 방안 마련 필요.

6. Future Works

  1. Mode Collapse 및 안정성 보장
    • 게임 이론적 분석으로 Generator-Discriminator 간 평형을 보장하는 새로운 최적화 전략이나, 다중 Discriminator 설계, 다양한 정규화 기법 등이 제안될 전망.
  2. 대규모 사전학습·멀티모달 통합
    • CLIP, LLM 등 거대 사전학습 모델과 결합해 텍스트, 오디오, 이미지 등을 함께 생성하는 멀티모달 생성 연구. StyleGAN-XL 등에서 이미 시도되고 있음.
  3. 새로운 아키텍처 탐색
    • Transformer 기반 TransGAN처럼 합성곱 없이 전역적 문맥을 학습하는 접근.
    • NeRF, 3D Scene과 결합해 3차원 객체·장면을 자연스럽게 합성하는 3D-aware GAN.
    • 확산 모델(Diffusion Model)과 GAN의 융합: 높은 분포 커버리지 + 빠른 생성 속도를 동시에 추구.
  4. 도메인 특화 연구
    • 의료 영상, 자율주행(복잡한 도로환경 합성), 예술·디자인(스타일 트랜스퍼, AR/VR) 등 다양한 산업 분야로 확대.
  5. 윤리·법적 고려
    • 고품질 합성이 실제 사회에서 악용될 가능성이 커짐에 따라, 워터마킹·딥페이크 식별 기술, 제도·정책적 규제도 함께 발전해야 할 필요성 대두.

7. Conclusion

GAN은 딥러닝 기반 생성 모델의 대표적인 예시로, 이미지·영상·오디오 등 각종 데이터를 사실적으로 합성할 수 있는 강력한 프레임워크로 자리매김했습니다.

  • 학습 불안정성, 모드 붕괴, 대규모 자원 소모 등의 한계가 완전히 해소된 것은 아니지만, WGAN·StyleGAN 등 핵심 연구를 통해 상당 부분 개선되어 왔습니다.
  • 최근에는 확산 모델(Diffusion Model) 등 다른 생성 기법이 부상하고 있지만, 빠른 생성 속도고해상도·고품질이라는 GAN의 이점을 극대화하고, 일부 단점을 상호 보완하는 형태의 하이브리드 연구가 활발하게 진행 중입니다.
  • GAN이 앞으로도 3D·멀티모달·사전학습 모델 등 다양한 영역과 결합하여 계속 진화할 것으로 기대되며, 동시에 윤리적 책임안전한 활용에 대한 고민 역시 함께 요구됩니다.

참고문헌

  1. Goodfellow, I. et al. (2014). Generative Adversarial Nets. NeurIPS 2

  2. Radford, A. et al. (2016). Unsupervised Representation Learning with Deep Convolutional Generative Adversarial Networks. ICLR 2

  3. Arjovsky, M. et al. (2017). Wasserstein GAN. ICML 2

  4. Gulrajani, I. et al. (2017). Improved Training of Wasserstein GANs. NeurIPS 2

  5. Karras, T. et al. (2018). Progressive Growing of GANs for Improved Quality, Stability, and Variation. ICLR 2

  6. Karras, T. et al. (2019). A Style-Based Architecture for GANs. CVPR 2

  7. Odena, A. et al. (2017). Conditional Image Synthesis with Auxiliary Classifier GANs. ICML 2

  8. Brock, A. et al. (2019). Large Scale GAN Training for High Fidelity Natural Image Synthesis. ICLR 2

  9. Isola, P. et al. (2017). Image-to-Image Translation with Conditional Adversarial Networks. CVPR 2 3

  10. Zhu, J.-Y. et al. (2017). Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks. ICCV 2 3

  11. Ledig, C. et al. (2017). Photo-Realistic Single Image Super-Resolution Using a Generative Adversarial Network. CVPR 2