# 확률적 경사 하강법

* 점진적 학습 알고리즘
1. `fit()`: 훈련 ➡ 처음부터
2. `partial_fit`: 점진적으로 훈련 (단, 기존 학습은 유지시킨 채로)


## 데이터 준비

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
import pandas as pd
fish = pd.read_csv('/content/drive/MyDrive/인공지능 실무/fish_csv_data.csv')

In [5]:
fish_input = fish[['Weight','Length','Diagonal','Height','Width']].to_numpy()
fish_target = fish['Species'].to_numpy()

In [6]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = train_test_split(
    fish_input, fish_target, random_state=42)

In [7]:
from sklearn.preprocessing import StandardScaler

ss = StandardScaler()
ss.fit(train_input)
train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

# SGDClassifier
* 확률적 경사하강법: 랜덤한 값으로 목표 지점까지 가장 빠르게 가는 길을 찾는 방법 == 성능 향상을 목표로
* 훈련 세트에서 랜덤하게 하나의 샘플을 선택한 후 가장 빠른 경사를 선택함

1. 샘플을 하나씩 추출: 확률적 경사 하강법
2. 샘플을 여러 개 추출: 미니 배치 경사 하강법
3. 전체 샘플을 한꺼번에 추출: 배치 경사 하강법

* 에포크: 훈련 세트를 모두 사용하는 과정

* 손실 함수: 나쁜 정도를 평가 == 값이 작을수록 좋음


In [8]:
# 사이킷런에서 확률적 경사 하강법을 제공하는 대표적인 분류
# 분류 알고리즘에서의 확률 경사 하강법
from sklearn.linear_model import SGDClassifier

In [18]:
sc = SGDClassifier(loss='log_loss', max_iter=10, random_state=42)
sc.fit(train_scaled, train_target)

print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))

0.773109243697479
0.775




In [None]:
# 확률적 경사 하강법은 점진적 학습이 가능함 SGDClassifier

0.8151260504201681
0.825



`max_iter=10` ➡  /usr/local/lib/python3.10/dist-packages/sklearn/linear_model/_stochastic_gradient.py:744: ConvergenceWarning: Maximum number of iteration reached before convergence. Consider increasing max_iter to improve the fit.
  warnings.warn( 너무 낮은 값이라 알려줌 ➡`max_iter=100` ➡ 경고문 사라짐

#### 차이점 요약: (gpt)
* 훈련 방식:
  * max_iter: 전체 데이터셋을 여러 번 반복하여 훈련.
  * partial_fit: 데이터를 배치 단위로 나눠 점진적으로 훈련.

* 사용 상황:
  * max_iter: 데이터가 충분히 작아서 한 번에 모두 처리할 수 있을 때 사용.
  * partial_fit: 데이터가 크거나 실시간 데이터처럼 점진적 학습이 필요한 경우 사용.


* 메모리 사용:
  * max_iter: 메모리에 데이터셋 전체를 올려야 하기 때문에 큰 데이터셋에선 메모리 부담이 큼.
  * partial_fit: 메모리 효율적, 큰 데이터도 배치 단위로 처리 가능.