# MLP

** 정의 **
- MLP : Multi-layer Perceptron : 지도학습 알고리즘으로 m 차원의 input 데이터를 입력받아 o 차원의 output 데이터를 반환한다. 
- 장점
   - 비선형 모델을 학습하는 기능
   - 부분적합을 활용하여 실시간으로 모델을 학습하는 기능
- 단점
   - 로컬 최소값이 둘 이상있는 비볼록(non-convex) 손실 함수가 있다. 서로 다른 무작위 가중치 초기화로 인해 유효성 검사 정확도가 달라질 수 있다.
   - 하이퍼파라미터, 레이어수, 반복수, 뉴런수 등을 조정해야한다.
   - 기능의 확장에 민감하다.
- MLP의 학습방식
   - 역전파를 사용하여 학습한다.
   - 경사하강법을 사용하여 훈련하고, 역전파를 사용하여 경사를 계산한다. 
- 확률값
   - 교차엔트로피(cross entropy loss function) 손실 함수를 사용하여 확률 추정치 벡터를 반환한다. 
- 출력함수
   - softmax 함수를 사용하여 출력함수로 적용하고 다중 클래스 분류 문제를 지원한다.
   - softmax 함수는 다변수 입력을 확률 처럼 보이게 해준다. (출력 값이 0~1사이의 값)
- 데이터 스케일링에 민감하다.
   - 입력 데이터의 값을 [0, 1]이나 [-1, 1] 로 스케일링 한다.
   - 또는 평균 0, 분산 1로 스케일링한다. (StandardScaler() 사용)
- solver
   - L-BFGS가 작은 데이터 세트에서 더 빠르다.
   - Adam은 큰 데이터 세트에서 강력하다. 빠르고 성능이 꽤 좋다.
   - SGD로 설정한 후 momentum, nesterovs_momentum, learning_rate를 설정하면 Adam이나 L-BGFS보다 성능이 더 좋을 수 있다. 

** clf 사용 **
- MLPClassifier 클래스는 역전파(backpropagation)를 사용하여 훈련하는 MLP 알고리즘을 구현한다.
- params
   - hidden_layer_sizes=(5, 2)
      - 이 hidden layer에 맞추어 앞 뒤로 다른 크기의 레이어가 생성된다.
   - warm_start=True, max_iter=1
       - 이전 학습을 다음 학습에서 사용가능
- clf.coefs_
   - input : 2x2
   - (2, 2), (5, 2), (2, 1)
   - output : 2x1

** algorithm **
- MLP는 SGD, Adam, LBGFS 방법을 사용하여 훈련한다. : solver
- 기본적으로 SGD는 손실함수의 기울기를 사용하여 w의 값을 업데이트 하는 방식
- Adam은 SGD와 같은 방식으로 매개변수를 업데이트하지만, 저차모멘트의 적응형 추정 방식으로 매개변수의 양을 자동으로 조정할 수 있다. 
- SGD와 Adam은 online과 mini-batch 학습을 지원한다.
- L-BFGS는 해시안 행렬(2차 도함수)을 근사화하는 solver이다. 매개변수 w를 업데이트하기 위해 해시안 행렬의 역을 근사화한다.
- L-BFGS는 online과 mini-batch 학습을 지원하지 않는다.
- 초기의 임의의 가중치로부터 가중치를 업데이트하면서 손실함수를 최소화해 나간다.
- 손실을 계산한 후 출력 레이어에서 이전 레이어로 역방향으로 손실값을 전파하고, 이 값보다 작은 매개변수를 찾기 위해 매개변수를 업데이트하는 과정을 반복한다. (역전파 backpropagation)
- MLPClassifier는 손실함수로 평균교차엔트로피 값을 사용한다.  MLPRegression은 손실함수로 평균제곱오류손실함수 값을 사용한다.
   - 손실함수에 복잡한 모델에 불이익을 주는 L2 정규화 페널티가 추가된다. 

** parameters **
- hidden_layer_sizes : 은닉층의 사이즈
- activation : 히든 레이어의 활성화함수
   - "identity" : non-op activation(무작동 활성화), 선형 병목 현상을 구현하는데 유용
   - "logistic" : 로지스틱 시그모이드 함수 값을 반환한다.
   - "tahn" : 하이퍼볼릭 탄젠트 함수값을 반환한다.
   - "relu": relu 함수값을 반환한다. 
- slover : 가중치 최적화를 위한 solver
   - "lbfgs" : quasi-newton 방법의 하나, 소규모 데이터에서 다른 solver보다 더 잘 작동할 수 있다.
   - "sgd" : 확률적 경사하강법
   - "adam" : sgd 기반의 가중치 최적화 방법, 디폴트 솔버, 수천개 샘플의 대규모 데이터 세트에서 잘 작동한다. 
- alpha : L2 정규화의 강도.
- batch_size : sgd, adam 솔버의 경우 사용할 수 있는 mini-batch의 크기
- learning_rate : 가중치 업데이트를 위한 학습률
   - "constant" : learning_rate_init에 의해 제공되는 일정한 학습률
   - "invscaling" : 학습률을 점진적으로 감소시키는 방식, power_t의 역 스케일링 지수를 사용하여 시간단계 t에서 학습률을 감소시킨다.
   - "adaptive" : 훈련 손실값이 계속 감소하면 학습률을 learning_rate_init으로 유지한다. 하지만 두번의 연속 에포크에서 손실함수를 tol 만큼 감소시키지 못하거나, early_stopping=True 일때 검증점수를 최소한 tol 만큼 높이지 못하면 학습률을 5로 나눈다.
- learning_rate_init : 초기학습률, sgd, adam인 경우 사용
- power_t : solver="sgd", learning_rate="invscaling" 인경우 사용, t에서 학습률이 감소된다.
- max_iter : 최대 반복 횟수, solver의 최적화는 tol(수렴) 또는 max_iter 까지 반복한다.
- shuffle : 각 반복에서 샘플을 섞을 지 여부를 정한다.
- tol : 최적화에 대한 허용오차, 
- momentum : solver="sgd"일때 경사하강법 업데이트, 0~1 사이의 값
- nestrovs_momentum : Nestrov의 모멘텀을 사용할 지 여부, True, False
- early_stopping : 검증 점수가 상승되지 않으면 훈련을 조기에 종료할지 여부. True, False
- n_iter_no_change : tol 값에 도달하지 못한 최대 에포크의 수. solver="sgd", "adam" 일떄 사용
- max_fun : solver="lbfgs" 일때 사용, tol, max_iter와 같이 솔버가 이 값에 도달할때까지 반복한다. 


In [1]:
from sklearn.neural_network import MLPClassifier

In [4]:
X = [[0, 0], [1, 1]]
y = [0, 1]

clf = MLPClassifier(solver="lbfgs", alpha=1e-5,
                   hidden_layer_sizes=(5, 2), random_state=1)
clf.fit(X, y)

In [8]:
clf.predict([[2, 2], [-1, -2], [1, 1]])

array([1, 0, 1])

In [9]:
clf.coefs_

[array([[-0.14196276, -0.02104562, -0.85522848, -3.51355396, -0.60434709],
        [-0.69744683, -0.9347486 , -0.26422217, -3.35199017,  0.06640954]]),
 array([[ 0.29164405, -0.14147894],
        [ 2.39665167, -0.6152434 ],
        [-0.51650256,  0.51452834],
        [ 4.0186541 , -0.31920293],
        [ 0.32903482,  0.64394475]]),
 array([[-4.53025854],
        [-0.86285329]])]

In [10]:
[coef.shape for coef in clf.coefs_]

[(2, 5), (5, 2), (2, 1)]

In [14]:
clf.predict_proba([[2, 2], [1, 2]])

array([[1.96718015e-04, 9.99803282e-01],
       [1.96718015e-04, 9.99803282e-01]])

In [11]:
clf_2 = MLPClassifier(solver="lbfgs", alpha=1e-5,
                     hidden_layer_sizes=(10, 2), random_state=1)
clf_2.fit(X, y)

In [13]:
[coef.shape for coef in clf_2.coefs_]

[(2, 10), (10, 2), (2, 1)]

In [19]:
X = [[0, 0], [1, 1]]
y = [0, 1]

clf_3 = MLPClassifier(hidden_layer_sizes=(15, ), random_state=1, 
                      max_iter=1, warm_start=True)

for i in range(10) : 
    clf_3.fit(X, y)
    print([coef.shape for coef in clf_3.coefs_])

[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]
[(2, 15), (15, 1)]


In [18]:
clf_3