# 04-2. 확률적 경사 하강법 (p.199) (SGD: Stochastic Gradient Descent)

:  훈련 데이타가 한 번에 준비되는 것이 아니라 조금씩 전달된다는 것. 
=> 그렇다면 기존의 훈련 데이터에 새로운 데이터를 추가해서 훈련 시키면 되지 않을까?
`점진적 학습` => `확률적 경사 하강법` 

```
매개변수를 업데이트할 때 전체 데이터가 아닌 일부 데이터(한 개의 샘플)를 사용하는 최적화 알고리즘
```

> 📌 경사 하강법(Gradient Descent) 핵심 개념 정리

#### 🔹 1. 경사 하강법이란?
- **손실 함수(Loss Function)**의 값을 최소화하기 위해 가중치(모델 파라미터)를 조정하는 최적화 알고리즘.
- 손실 함수의 **기울기(Gradient)**를 이용하여 **최소값(Minimum)에 도달할 때까지 반복적으로 학습**.

---

#### 🔹 2. 손실 함수와 로그 함수의 특징
- **로그 함수는 0~1 사이에서 항상 음수 값을 가짐**.
- 예측이 정확할수록 로그 값이 **작아짐(절댓값은 커짐)**.
- 손실 함수를 최소화하기 위해, 로그 값이 음수가 되는 문제를 해결하기 위해 **손실 함수 앞에 음수(-)를 붙임**.
- 이를 통해 손실 값이 **항상 양수가 되며, 최적화 과정에서 경사 하강법이 올바르게 동작**.

---

#### 🎯 **결론**
✔ **경사 하강법은 머신러닝과 딥러닝에서 가장 중요한 최적화 알고리즘 중 하나**  
✔ **손실 함수의 기울기를 이용해 가중치를 점진적으로 조정하며, 최소 손실값을 찾는다**  
✔ **로그 함수의 특성상 음수를 붙여 손실 값을 양수로 변환하여 최적화가 원활하게 이루어지도록 한다**  

🚀 **즉, 경사 하강법은 손실 함수의 기울기를 이용해 점진적으로 최적점을 찾는 핵심 학습 방법이다!**  


---

In [2]:
#데이터를 불러와서 확률적 경사 하강법을 적용해보자.

import pandas as pd

df = pd.read_csv('data/Fish.csv')

In [132]:
fish_input = df[['Weight', 'Length2', 'Length3', 'Height', 'Width']]
fish_target = df[['Species']]

In [133]:
from sklearn.model_selection import train_test_split

train_input, test_input, train_target, test_target = \
train_test_split(fish_input, fish_target)

In [134]:
from sklearn.preprocessing import StandardScaler
# 정규화까지
ss = StandardScaler()
ss.fit(train_input)

train_scaled = ss.transform(train_input)
test_scaled = ss.transform(test_input)

In [135]:
# SGDClassifier 
# 확률적 경사하강법 적용하기
from sklearn.linear_model import SGDClassifier

sc = SGDClassifier(loss='log_loss', max_iter=100)
# 책에 나온 내용과 동일하게 코딩
# log_loss를 통해 음수화한다는 얘기, max_iter는 10번의 epoke(에포크)를 실행한다 => 10번의 그래프를 만든다. 
sc.fit(train_scaled, train_target)

print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))

# 지금하고 있는 데이터를 기반으로 한 번 더 학습해
# => 라는 코드를 아래에 이어서 써보겠음.

0.8403361344537815
0.85


  y = column_or_1d(y, warn=True)


In [136]:
sc.partial_fit(train_scaled, train_target)
print(sc.score(train_scaled, train_target))
print(sc.score(test_scaled, test_target))

# epoke를 더한다고 해서 (그래프를 더 많이 그려본다고 해서) 정확도가 엄청나게 높아지지는 않는다. (p.211)

0.7226890756302521
0.825


  y = column_or_1d(y, warn=True)
