이 강의는 2025년 봄학기에 스탠포드에서 진행된 강의로,
AI라는 넓은 분야 중 computer vision과 deep learning의 교집합에 해당되는 내용을 설명한 강의다.

이 강의는 딥러닝과 컴퓨터 비전 분야에서 기본 개념을 잘 설명한 강의로 매우 유명하며,
앞으로 전반적인 강의 중 주요한 내용만을 요약 및 정리하려 한다.
history of computer vision
1. Deep Learning Basics
- 이 섹션에선 Deep Learning 의 아주 기초적인 구조를 배운다.
우선 Computer vision이란, 컴퓨터가 이미지를 보고 이해할 수 있게 하는 것이다.
가장 근본적인 작업으로는 Image Classification(이미지 분류)가 있다.
이미지를 입력으로 받고 그에 해당하는 라벨을 출력으로 내보내는 것이다.
그렇다면 어떤 원리로 컴퓨터가 이 작업을 하도록 할 수 있을까?
가장 간단한 방법은 Linear Classification(선형 분류)를 이용하는 것이다.
가장 간단한 예시로 위 우측 그래프에서 이미지 하나가 2차원의 점이라고 생각해보자.
그리고 이미지가 가진 feature을 이용해 점 하나하나를 2차원에 위치시킨 것이다.
이 점들을 고양이 / 강아지로 분류하는 선 하나를 찾는 것을 선형 분류라고 한다.
그러나 실제론 데이터가 선 하나로 완벽히 분류되기 쉽지 않다.
즉 더 복잡한 모델이 필요하다.

더 복잡한 모델을 도입하다 보면 여러 문제를 직면하게 되는데 ex.overfitting, underfitting)
모델 복잡도를 다루기 위해 Regularization, Optimization 과 같은 방법들을 모델에 도입하게 될 것이다.
이런 방법들을 활용하면 단순히 입력 데이터 뿐만이 아니라, 모델이 보지 못한 새로운 데이터에 대해서도
잘 작동할 수 있게 모델을 발전시킬 수 있다.

위에서 설명한 선형 모델과 달리 Neural Networks는 여러 개의 레이어를 쌓은 형태이다.
Neural Networks는 선형 모델과 비선형 함수를 도입하였기 때문에 더 복잡한 문제를 풀 수 있다는 장점이 있다.
우리가 사용하는 대부분의 모델은 이런 Neural Networks 구조이다.
2. Perceiving and Understanding the Visual World
- 이 섹션에서는 computer vision 분야에서 AI가 적용되는 다양한 tasks, models에 대해 다룬다.
Computer vision을 이용한 task에는 위에서 얘기한 image classification 외에도 object detection, scene understanding, motion detection 등이 있다.
이러한 task를 수행하기 위해 우리는 다양한 모델들(MLP, CNNs, RNNs, transformers) 을 사용할 것이며 이에 대해 배울 것이다.
이번 학기에 새롭게 도입된 강의 주제로, Large Scale Distributed Training 에 대해서도 배울 것이다.
최근 Large Language Models, Large Vision Models라는 말을 많이 들어보았을 것이다.
이는 모델이 점점 커지는 경향성 때문이다.
이러한 모델들을 실제로 어떻게 학습하는지,
어떤 방법론(data parallelization, model parallelization)을 사용하는지,
어떤 문제들(synchronization)이 있는지에 대해 배울 것이다.
3. Generative and Interactive Visual Intelligence
1) Self-supervised learning

Large scale model 학습에 큰 도움을 준 학습 방법으로,
다량의 학습 데이터가 필요할 때, 정답 라벨 없이 학습 가능한 방법이다.
2) Generative Modeling
단순히 Recognization을 넘어서서 Generation까지 진행하는 방법이다.

심지어 텍스트가 주어졌을 때 이에 해당하는 이미지를 생성하는 모델링도 가능하다.
(Dall-E)

이 분야에서 대표적인 모델로 노이즈에서 이미지를 생성하는 방법을 학습하는 Diffusion 모델이 있다.
3) Vision Language Models

이 모델은 텍스트와 이미지를 shared representation space에서 연결하며,
캡션이나 이미지가 모델에 주어지면 해당하는 텍스트와 이미지 페어를 출력한다.
4) 3D Vision
2차원을 넘어서 3차원에서도 모델은 다양한 테스크를 수행할 수 있으며
이는 로보틱스나 AI VR에서 매우 중요하게 다뤄지고 있다.
5) Embodied Intelligence
실제 물리적인 세계에서 적용에 대해 다룬다.
4. Human-Centered Application and Implications
이렇게 AI와 컴퓨터 비전이 다양한 분야에서 발전해오고 있으며 영향력을 끼치고 있다.
이를 human-centered 관점에서 해석하고 적용하는 것 또한 매우 중요하게 여겨지며 현재 활발히 연구되고 있다.
'AI > CS231N' 카테고리의 다른 글
| [CS231N] Lecture 4: Neural Networks and Backpropagation (0) | 2026.05.30 |
|---|---|
| [CS231N] Lecture 3: Regularization and Optimization (0) | 2026.05.25 |
| [CS231N] Lecture 2: Image Classification with Linear Classifiers (0) | 2026.05.15 |