# 확률적 경사 하강법

- 점진적 학습(온라인 학습) 알고리즘
- 확률적이란 말은 무작위하게 / 랜덤하게의 기술적인 표현
- 경사는 기울기
- 에포크(epoch) : 확률적 경사 하강법에서 훈련 세트를 한 번 모두 사용하는 과정
- 미니배치 경사 하강법 : 여러 개의 샘플을 사용해 경사 하강법을 수행하는 방식
- 배치 경사 하강법 : 한 번 경사로를 따라 이동하기 위해 전체 샘플을 사용
- 신경망 알고리즘에서 꼭 사용하는 알고리즘이 확률적 경사 하강법이나 미니배치 경사 하강법 

### 손실 함수 (실패율)

- 머신러닝 알고리즘이 얼마나 엉터리인지를 측정하는 기준
- 손실 함수를 작게 유지하는게 목표
- 확률적 경사 하강법이 최적화할 대상

### 로지스틱 손실 함수 (이진 크로스엔트로피 손실 함수)

- 이진 분류에 사용
- 다중 분류에는 크로스엔트로피 손실 함수를 사용
- 회귀 문제에는 평군 제곱 오차 손실 함수를 사용

In [2]:
import pandas as pd

df = pd.read_csv('data/Fish.csv')

In [3]:
fish_input = df[['Weight', 'Length2', 'Length3', 'Height', 'Width']]
fish_target = df[['Species']]

In [4]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(fish_input, fish_target)

In [5]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [6]:
from sklearn.linear_model import SGDClassifier

sc = SGDClassifier(loss='log_loss', max_iter=10)
# max_iter => 수행할 에포크 횟수를 지정
sc.fit(train_scaled, train_target)

print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))

0.865546218487395
0.95


  y = column_or_1d(y, warn=True)


In [7]:
sc.partial_fit(train_scaled, train_target)
print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))

0.7226890756302521
0.8


  y = column_or_1d(y, warn=True)


### 에포크와 과대 / 과소적합

- 에포크 횟수 적으면 모델이 훈련 세트를 덜 학습함 -> 과소적합
- 에포크 횟수 많으면 훈련 세트에 너무 잘 맞음 -> 과대적합
- 과대적합이 시작하기 전에 훈련을 멈추는 것을 `조기종료`라고 함