## 요약
코드는 github에 다 공개되어있음  

## 표현을 학습하다
- 알고 있는 입력, 출력의 샘플로 부터 학습  
- 입력 데이터를 기반으로 기대 출력에 가깝게 만드는 유용한 **Representation**을 학습  

## Representation? 
- 데이터를 Encoding 하거나 묘사하기 위해 데이터를 바라보는 방법
    - ex) 컬러 이미지는 RGB 포맷이나 HSV 포맷으로 인코딩 될 수 있음
    - 어떤 표현으로 해결하기 힘든 문제가, 다른 표현으로는 쉽게 해결될 수도
        - 빨간색 픽셀을 택하는 문제는 RGB 포맷
        - 채도를 낮추는 문제는 HSV포맷
- 머신러닝 모델은 입력 데이터에서 **적절한 표현(Representation)**을 찾는 것
    - +ex) 2차원 좌표 데이터를 회전 시켜서 분류하는데 적합한 새로운 좌표를 부여하는 것도 이에 해당


## Deep
- 레이어를 거침에 따라 원본 입력(이미지)와는 점점 다른 표현으로 변환이 됨
- 연속된 필터를 통과한다고 생각하면 되고, 점점 정보들이 정제되는 과정이라 생각할 수 있음

## Learning
- 주어진 입력을 정확한 타겟으로 매핑하기 위해
- 각 층에 있는 가중치 값을 찾는 것!
- 찾는 다는 것은 **가중치를 조정** 한다는 것
    - 이를 위해선 관찰이 필요한데, 이를 위해 **Loss function** 혹은 **Objective function**을 정의
    - 이를 이용해 우리의 모델(신경망)이 예측한 값과 진짜 타겟 값의 차이를 계산 할 수 있음
    - 이후에 **Backpropagation**을 이용해서 가중치 업데이트(이를 구현한 것이 optimizer들)

데이터가 충분치 않을 때는 기존의 머신러닝 방법이 더 적합할 수 있으니    
딥러닝이라는 해머를 들고 모든 문제를 못처럼 바라보지 마라

## 머신러닝의 흐름 간략히
1. Probabilistic modeling(Bayes' theorem), Logistic Regression(Classification)
2. Kernel method
    - **SVM** ; 2개의 다른 범주에 속한 데이터 그룹 사이에 좋은 결정경계(**decision boundary**) 찾기
        1. 결정경계가 하나의 초평면(hyperplane)으로 표현될 수 있는 새로운 고차원 표현으로 데이터를 매핑
        2. 초평면과 각 클래스의 가장 가까운 데이터 포인트 사이의 거리가 최대가 되는 최선의 결정경계 찾기  
        'maximizing the margin'
    - 분류 문제를 간단히 만들기 위해 데이터를 고차원 표현으로 매핑하는 것은 좋아보이지만 구현이 어렵스
        - kernel trick을 쓰자
            - 새롭게 표현된 공간에서 좋은 결정 초평면을 찾기 위해 새로운 공간에 대응하는 데이터포인트의 실제 좌표를 구할 필요가 없음
            - 새로운 공간에서의 두 데이터 포인트 사이의 거리만 계산할 수 있으면 된다.
            - kernel function을 쓰면 이를 효율적으로 계산
                - 원본 공간에 있는 두 데이터 포인트를 명시적으로 새로운 표현으로 변환하지 않고 타깃 표현 공간에서 위치했을 때 거리를 매핑해주는 연산
                - but, 이 함수는 학습되는게 아닌 직접 만드는 것, 오직 분할 초평면만 학습됨
        - 대용량의 데이터에 대해 scalable하지 못함, feature engineering 작업이 중요한데 수동으로 해야함
3. Decision Tree, Random Forest, **Gradient Boosting Machine**

## Deep Learning
- Neural Net에 알 맞는 Activation Function
- Weight Initialization
- Optimization method
- etc ; 기울기를 더 잘 전파할 수 있는 
    - Batch norm 
    - Residual connection
    - Depthwise Separable Convolution

딥러닝이 피쳐 엔지니어링을 필요 없게 만든다면, kaggle에서 문제 풀 때도 deep learning 방법으로 피쳐를 먼저 뽑고  
해당 피쳐 대상으로 Gradient Boosting을 적용해볼까?

## 용어들
- Training / Test set
- Representation ; 일종의 데이터 처리 필터라 할 수 있는 Layer를 거쳐 추출되는 것
- Softmax Layer; 쉽게 말해 n개의 확률 점수가 들어 있는 배열을 반환하는 레이어
- Loss function ; 성능 측정
- Optimizer ; 네트워크 업데이트 알고리즘
- Tensor
    - 0D : scalar, ()
    - 1D : vector, (n,)
    - 2D : matrix, (m,n)
    - 축의 개수(랭크) ; .ndim
    - 텐서 조작
        - train_images[:, 7:-7, 7:-7] 정중앙 14x14 px만 자르기
- Batch
    - 보통 0번째 축이 sample axis
        - vector data: (samples, features)
        - sequence data: (samples, timesteps, features)
        - image data: (samples, height, width, channels) or (samples, channels, height, width)
            - 참고로 tensorflow 방식이 channel last 방식
        - video data: (samples, frames, height, width, chennels) or (samples, frames, channels, height, width)
    - 한번에 전체 데이터 처리 하지 않고 작은 batch로 나눔

## 텐서 연산
- element-wise operation ; 텐서에 속한 원소들에게 독립적으로 적용되는 연산
    - relu(dot(W, input) + b)
- broadcasting
    - 크기가 다른 두 텐서가 더해질 때
        1. 큰 텐서의 ndim에 맞도록 작은 텐서에 브로드캐스팅 축 추가
        2. 작은 텐서가 새 축을 따라 큰 텐서의 크기에 맞도록 반복됨
            - X: (32, 10), y: (10,)
            - y -> (1, 10) 축 추가하고, 32번 반복하면 (32, 10)이 됨
    - ex)
    ```py
    x = np.random.random((64,3,32,10))
    y = np.random.random((32,10))
    
    z = np.maximum(x, y)
    ```
- tensor product; dot operation
    - 벡터 끼리 dot을 수행 할 땐 내적이고
    - 벡터 x 매트릭스 끼리 할 때는 내적이긴 한데, 행렬 곱의 모양을 따르는 내적
    - (a, b, c, d) . (d,) -> (a, b, c)
    - (a, b, c, d) . (d, e) -> (a, b, c, e)
- 텐서 연산들이 조작하는 텐서의 내용은 기하학적 공간에 있는 좌표 포인트로 해석될 수 있음
    - 텐서에 어떤 매트릭스가 곱해지냐에 따라, 회전이 될 수도있고, 스케일링이 될 수도 있음
    - 이런 변환을 통해 적절한 데이터 표현을 찾아 나가는 것이라 할 수 있을 듯
    - 레이어를 거침에 따라 복합하게 꼬여있던 입력 데이터의 표현이 문제를 풀기 수월한 표현으로 조금씩 바뀜
        - 빨강/파랑 색종이 비유

## Gradient 기반 Optimization
- 신경망에 사용된 연산이 **미분 가능(differentiable)** 하다면, Weight에 대한 Loss의 Gradient를 계산해서 
    - weight을 gredient의 반대 방향으로 이동시킴으로써 Loss를 감소 시키게끔 업데이트 할 수 있다.
- 입력 벡터 x, 가중치 행렬 W, 타겟 y, 손실함수 Loss가 있을 때,
    - 입력 데이터(x)와 타겟(y)이 고정되어있다면 **loss 함수는 w를 손실 값에 매핑하는 함수**라 할 수 있음
        ```py
        y_pred = dot(W, x)
        loss_value = loss(y_pred, y)
        ```
    - 다시 말해, 특정 W에 대한 Loss의 **Gradient(W이 Loss에 얼마나 기여하는지의 정도)**를 구해서 W을 업데이트 할 수 있다.
        - **W_new = W_old - Learning_rate * Gradient(Loss)(W_old)**
        - W는 tensor
        - Gradient(Loss)(W_old)[i, j] 는 W_old의 i, j를 변경했을 때 Loss가 바뀌는 정도(방향과 크기)
        - 즉 Tensor인 **Gradient(Loss)(W_old)**는 **W_old에 대한 Loss(W_old)의 Gradient**이다 

## Stochastic Gradient Descent
mini-batch stochastic gradient
1. 랜덤한 훈련 샘플 데이터 x, y 추출
2. x로 네트워크를 실행, 예측 y_pred 구하기
3. y_pred와 y 사이의 오차 측정 Loss 계산
4. 네트워크의 가중치에 대한 Loss 함수의 그래디언트 계산(backward pass)
5. 그래디언트 반대 방향으로 가중치 업데이트 (W -= step * gradient)

step값을 적절히 골라야 local minimum에 갖히지 않는다고 함(너무 작으면...)

## 고차원 공간
- 뉴럴넷 알고리즘이 로컬 미니멈에 쉽게 갇힐 것 같지만,
- 고차원 공간에서는 대부분 saddle point로 나타나고, 로컬 미니멈은 매우 드물다고 한다.

## SGD의 변종
- Momentum 이용
    - 모멘텀 ; SGD의 2가지 문제점(수렴 속도, 로컬 미니멈) 해결
        - 어떤 네트워크의 파라미터 하나에 대한 손실 값의 곡선이 있을 때,
        - 파라미터 값에 따라 로컬 미니멈에 도달 할 수 있고, 왼쪽으로 가든 오른쪽으로 가든 손실이 증가하는 상황
        - 하지만 골짜기를 넘어 섰을 때 글로벌 미니멈이 존재할 때, 작은 학습률을 가진 SGD라면 로컬 미니멈을 벗어날 수 없다
            - 이 때, 모멘텀(관성)을 이용해서 이를 해결 할 수 있다.
            - 현재 기울기 값뿐만 아니라, 과거로 부터 누적된 기울기 값을 어느정도 고려해서 현재 가중치의 업데이트 정도를 판단한다.
        - 예시 구현
        ```py
        past_velocity = 0.
        momentum = 0.1
        while loss > 0.01:
            w, loss, gradient = get_current_params()
            velocity = momentum * past_velocity - learning_rate * gradient
            w = w + momentum * velocity - learning_rate * gradient
            past_velocity = velocity
            update_params(w)
        ```
- RMSProp, Adagrad...