### 딥러닝 패러다임의 변화
- 첫째, 기존 머신러닝은 여러 단계의 서브 모듈로 구성<br>&rarr; 딥러능은 하나의 단일 모듈(end-to-end)로 문제를 해결함
  - 기존 음성 인식기: 음향 모델 + 언어모델 + 디코더
  - 딥러닝: 하나의 학습 데이터로 한꺼번에 학습
- 둘째, 기존 머신러닝은 데이터의 특징(feature)을 사람이 직접 지정<br>&rarr; 딥러닝은 사람이 인지하지 못한 특징까지도 찾아내고 인식함
  - 기존: 데이터의 특징이 잘 드러나도록 전처리 과정 필요
  - 딥러닝: 복잡한 비선형 데이터에 대해서도 잘 동작함

### 딥러닝의 단점
- 기존 머신러닝은 사람이 인지하는 특징으로 동작하므로 모델의 동작 방식을 쉽게 분석 가능함
- 딥러닝은 잘못된 예측에 대한 원인 분석이 어려움 &rarr; 심각한 단점

### 딥러닝 역사
- 세 번의 유행
- 1960s: AI의 문제 난이도 과소평가로 난관에 부딪쳐 좌초
- 1980s: 역전파 알고리즘으로 인공신경망 학습 문제 해결 &rarr; 성능 부족으로 좌초
- 2010s: 이미지넷의 우승으로 심층신경망(DNN)의 성능 확인
  - 2011: 구글이 음성인식에 DNN을 도입해 성능 개선
  - 2012: 힌튼 교수팀이 이미지넷 대회에서 AlexNet으로 우승
  - 2015: seq2seq와 어텐션으로 기계번역 정복
  - 2016: 알파고의 바둑계 제패
  - 2017: 프랜스포머 등장
    - "Attention is All You Need" 논문에서 출발
  - 2018: GAN으로 정밀한 이미지 합성 성공
  - 2020: GPT-3의 등장으로 대형 사전학습 언어모델(LLM) 시대 시작
  - 2022: 12월 ChatGPT가 알파고 이후 최대 딥러닝 이슈로 등장

- AI의 범위가 너무 넓어져서 모든 알고리즘을 이해하는 것은 사실상 불가능에 가까움

### 딥러닝의 큰 줄기
- 기본 DNN: 선형계층, 밀집층, 완전결합층
- CNN:: 이미지 처리
- RNN: 자연어 처리
- 강화학습: 게임, 제어
- 전이학습: 자연어 처리, 이미지 처리
- GAN: 이미지 처리
- LLM: 자연어 처리 &rarr; 범용(AGI)

### 인공지능 모델
- 입력 x가 주어질 때 출력 y를 반환하는 함수<br>
  $y=f(x)$
- 함수가 어떻게 동작할지 정해놓은 내용을 파라미터 $\theta$라고 함
  - 함수는 $\theta$의 구성에 따라 출력값 y가 결정됨
  - 함수가 1차 함수라면 $\theta$는 a와 b로 구성
  - 비선형 다차 함수라면 $\theta$는 각 차수의 계수들의 모음
- 우리 머리 속에는 동작 방식을 알 수 없는 함수 $f^*$가 있음.<br>
  ![image.png](attachment:31d08be5-ad66-42b2-99b1-10cc8acaf958.png)
- 우리는 왼쪽 그림을 보고 바로 숫자 7을 생각할 수 있음
- 그러나 머리 속의 함수 $f^*$가 어떻게 동작하는지는 모름.
- 방법은 함수의 파라미터 $\theta$를 바꿔가면서 이미지 데이터(x)를 넣어 결과 y를 확인<br>
  &rarr; 점점 정답인 7에 가깝게 함
  - 학습: 수집된 데이터 x와 y 쌍을 통해 함수 f가 x로부터 y로 가는 관계를 배우는 것
  - 결과로 얻는 것: 파라미터 $\theta$

### 좋은 인공지능 모델
- 일반화(generalization)를 잘하는 모델
  - 보지 못한(unseen) 데이터에 대해 좋은 예측을 하는 모델

### 일반적인 머신러닝 프로젝트의 진행 순서
- 문제 정의 &rarr; 데이터 수집 &rarr; 데이터 전처리 및 분석 &rarr; 알고리즘 적용 &rarr; 평가 &rarr; 배포
- 문제 정의: 단계를 나누고 simplify, x와 y를 정의
- 데이터 수집: 문제 정의에 따른 수집, 필요에 따라 레이블링
- 데이터 전처리 및 분석: 형태를 가공, 필요에 따라 EDA 수행
- 알고리즘 적용: 가설을 세우고 구현/적용
- 평가: 실험 설계, 테스트셋 구성
- 배포: RESTful API를 통한 배포, 상황에 따라 유지/보수

### 머신러닝
- 명시적으로 프로그래밍 되지 않은 동작을 데이터를 통해 스스로 학습해 실행하도록 하는 알고리즘

### 머신러닝의 종류
- 지도학습
  - 사람이 정답을 주고 학습하는 방법
- 비지도학습
  - 정답이 주어지지 않은 데이터의 특성을 알아내는 학습 방법
- 강화학습
  - 주어진 환경에서 보상을 통해 최적의 성능을 가지도록 학습하는 방법<br>ex) 알파고 

### 기존 머신러닝과 딥러닝 비교
- 기존 머신러닝
  - 데이터의 특징(feature)을 사람이 지정해 주고 학습하도록 함
- 딥러닝
  - 신경망을 이용해 스스로 특징을 찾아서 학습함

### 현재 딥러닝
- 초기의 딥러닝: 지도학습을 구현(CNN 계열)
- 알파고와 같은 게임류의 강화학습
- 자기주도 학습: RNN, VAE, GAN
- 트랜스포머 기반 모델이 주류를 이룸
  - LLM: BERT, GPT, LLaMa 등
- 최근에는 전이학습이 주도
  - LLM의 파인튜닝
    - 많은 딥러닝 전문가들이 일반 인공지능의 키(key)가 될 것으로 에상
  - RAG
    - 파인튜닝의 보완책
    - 최근 관심이 집중되고 있는 최신 기술<br>
      시스템이 복잡해지고 실시간 응답에 한계가 있음
- 생성형 AI의 발전 방향
  - LLM(언어모델) &rarr; 멀티모달 모델(이미지, 동영상) &rarr; phygical AI(로보틱스) &rarr; 월드 모델(물리, 상황)

### 딥러닝의 지도학습
- 회귀(regression)
  - 데이터의 추이(특징)를 함수식으로 추정 &rarr; 예측값 도출(실수값)
  - 독립 변수가 1차항: 선형 회귀(linear regression)
  - 예측값이 범주형: 로지스틱 회귀(logistic regression)
- 분류(classification)
  - 예측값이 몇 개의 가지수(미리 정해진 그룹의 수)로 정해지는 경우
  - 그룹이 2개: 이진 분류
  - 3개 이상: 다항 분류

### 학습 알고리즘 - 경사하강법
- 입력 x에 대한 결과 y의 최적화(optimization) &rarr; 오차의 최소값을 구하는 것이 최적화
- 최소값 문제
  - y가 목표값(정답)과의 오차값 &rarr; 최소값 문제 &rarr; 미분값(절대값 한정)의 최소값을 찾는 것
  - 기울기($\displaystyle\frac{\partial y}{\partial x}$)가 점점 작아지는 방향으로 조정 &rarr; 미분값이 0이 될 때까지

## 딥러닝 = 머신러닝 + 신경망

### (인공)신경망((Artificial) Neural Network: ANN)
- 신경 세포(뉴런)를 모방한 수학적 모델
  - 수상돌기: 입력
  - 축색돌기: 출력
  - 뉴런 간의 연결 강도: 가중치($w$)
- 신경 세포의 출력(축색돌기의 활성화): 수상돌기로 들어오는 모든 자극의 총합이 세포의 역치(threshold)를 넘을 때 출력(활성화)함
- 뉴런의 입력 = 입력 신호와 가중치의 곱들의 총합: $\sum w_{jk}y_j$
- 뉴런의 출력 = 활성화 함수의 출력 = 입력의 합이 기준치를 넘으면 출력됨
  - 활성화 함수: 계단함수, 부호함수, 시그모이드 함수 등
    - 출력값은 활성 상태와 비활성 상태, 두 가지 값이 있음
    - 활성화 함수(Activation Function): 입력 신호를 출력 신호로 변환하고 값이 정해져 있지 않음

### 뇌 신경망
- 뇌는 수많은 신경세포(뉴런)들이 서로 연결된 망(network) 구조
- 인공신경망(ANN)은 뇌 신경망을 모방하여 구성<br>
  ![image.png](attachment:8e64e7f6-b3b6-41a2-9992-30b08ba015f5.png)

### 역전파(Backpropagation)
- ANN을 안정적으로 학습할 수 있는 알고리즘
- ANN의 순방향(forward) 출력과 목표값의 오차(Error)를 구하고, 그 오차의 변화량(기울기: gradient)을 이용하여 출력층으로부터 역(backward)으로 거슬러 올라가면서 가중치($w$)를 조정함
  - $w_{jk}(p + 1) = w_{jk}(p) + \Delta w_{jk}(p)$
  - $\Delta w_{jk}(p) = \alpha \times y_i(p) \times \delta_k(p)$

### Pytorch에서 신경망 학습 구현
- torch.nn 패키지 제공
- forward() 메서드 자동실행
- 오차(손실)에 대해서 backward() 실행
- 오토그래드(autograd)가 모델의 각 계층의 가중치(매개변수)에 대해 자동으로 미분(gradient)을 계산하여 저장함
- 최적화기(optimizer)의 stop() 함수로 경사하강법(gradient descent)을 실행해 저장된 가중치의 경사값(gradient)으로 가중치(매개변수)들의 값을 조정함

### 머신러닝 핵심 과정
- 모델(model) 정의 &rarr; 모델 수식화(손실함수: 오차를 줄이기 위한 함수, loss) &rarr; 모델 학습(최적화: optimization) &rarr; 모델 평가(evaluation)

### 딥러닝의 구현
![image.png](attachment:ca95daea-7511-4433-89a6-e2924e9e6c0f.png)

### 손실함수
- 회귀 문제: MSE(Mean Square Error)
- 분류 문제: 교차 엔트로피(cross Entropy)

### 최적화
- Adam을 많이 사용
  - 최신 기술이면서, 적응형 학습률을 사용해 빠르게 학습됨

### 모델 평가
- 대부분 일반화(generalization) 평가를 이용함
  - 데이터셋을 학습용과 평가용으로 나누어 사용