## 머신러닝 기본 개념 복습

### 1. 데이터 구성
머신러닝 모델을 학습시키기 위해 전체 데이터를 다음과 같이 분할한다.

| 구분 | 목적 | 사용 시점 |
|:--:|:--|:--|
| **훈련(Training) 데이터** | 모델의 파라미터 학습에 사용 | 학습 단계 |
| **검증(Validation) 데이터** | 과적합 여부 확인, 하이퍼파라미터 조정 | 학습 중간 |
| **테스트(Test) 데이터** | 최종 성능 평가 | 학습 완료 후 |

---

### 2. 입력과 출력의 관계
- **입력 데이터:**  
  $X = (x_1, x_2, \dots, x_n)$

- **목표 출력(정답):**  
  $Y = (y_1, y_2, \dots, y_n)$

모델은 입력 $X$를 받아 예측값 $Y'$을 생성하고,  
예측값과 실제값의 차이를 통해 오차를 계산한다.

---

### 3. 모델 구조
모델은 함수 형태로 표현할 수 있다.

$$
Y' = f(X; W)
$$

- $f$: 모델 함수 (예: 선형 모델, 신경망 등)  
- $W$: 학습해야 할 파라미터(parameter)  
- 초기에는 $W$를 **랜덤(random)** 하게 설정한다.

---

### 4. 손실함수 (Loss Function)
예측값 $Y'$과 실제값 $Y$의 차이를 계산하여 모델의 성능을 측정한다.

$$
E = \sum_i (y_i - y'_i)^2
$$

- 오차가 클수록 모델의 성능이 낮음을 의미한다.  
- 대표적인 손실함수: 평균제곱오차(MSE, Mean Squared Error)

---

### 5. 최적화 (Optimization)
손실함수를 최소화하기 위해 파라미터 $W$를 업데이트한다.

$$
W := W - \eta \frac{\partial E}{\partial W}
$$

- $\eta$: 학습률(learning rate)  
- 손실이 줄어드는 방향(기울기 하강 방향)으로 파라미터를 조정한다.  
- 이 과정을 여러 번 반복하면서 최적의 $W$를 찾는다.

---

### 6. 학습 과정 요약

1. **데이터 준비:** 학습·검증·테스트 데이터 분리  
2. **모델 정의:** 입력 $X$ → 출력 $Y' = f(X; W)$  
3. **오차 계산:** $E = (Y - Y')^2$  
4. **최적화:** 경사하강법으로 $W$ 업데이트  
5. **검증:** Validation 데이터로 과적합 여부 확인  
6. **평가:** Test 데이터로 최종 성능 측정

---

### 7. 용어 정리

| 용어 | 의미 |
|:--|:--|
| **Batch** | 한 번의 학습에서 사용하는 데이터 묶음 |
| **Iteration** | 한 번의 파라미터 업데이트 과정 |
| **Epoch** | 전체 데이터를 한 번 학습하는 주기 |
| **Optimization** | 손실함수를 최소화하기 위한 과정 |
| **Parameter** | 모델이 학습을 통해 조정하는 값 (가중치 등) |

---

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

In [9]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris
from sklearn.model_selection import cross_val_score, KFold
from sklearn.preprocessing import StandardScaler

In [3]:
# iris 데이터 로드
iris = load_iris()
X, y = iris.data, iris.target

# 학습용/테스트용 데이터 분리
# test_size=0.3 (즉 30%를 테스트로 사용)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3)

# 분류 모델: KNN (k=3)
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

# 선형 분류 모델: SGDClassifier (선형분류기 예시로 사용)
clf = SGDClassifier()
clf.fit(X_train, y_train)

# 정확도 출력
print("kNN score: {:.2f}".format(knn.score(X_test, y_test)))
print("kNN score(train): {:.2f}".format(knn.score(X_train, y_train)))
print("Linear Reg score: {:.2f}".format(clf.score(X_test, y_test)))
print("Linear Reg score(train): {:.2f}".format(clf.score(X_train, y_train)))

kNN score: 0.96
kNN score(train): 0.96
Linear Reg score: 0.76
Linear Reg score(train): 0.72


In [4]:
# k를 1부터 9까지 바꿔가며 정확도 비교
for i in range(1, 10):
    knn = KNeighborsClassifier(n_neighbors=i)
    knn.fit(X_train, y_train)
    print("K가", i, "일 때 정확도: {:.4f}".format(knn.score(X_test, y_test)))

K가 1 일 때 정확도: 0.9556
K가 2 일 때 정확도: 0.9333
K가 3 일 때 정확도: 0.9556
K가 4 일 때 정확도: 0.9556
K가 5 일 때 정확도: 0.9778
K가 6 일 때 정확도: 0.9556
K가 7 일 때 정확도: 1.0000
K가 8 일 때 정확도: 0.9556
K가 9 일 때 정확도: 0.9778


In [7]:
cross_val_score(knn, X, y, cv=5).mean().round(4)

np.float64(0.9733)

In [8]:
cross_val_score(clf, X, y, cv=5).mean().round(4)

np.float64(0.7733)

In [10]:
sc = StandardScaler()
X_sc = sc.fit_transform(X)
cross_val_score(clf, X_sc, y, cv=5).mean().round(4)

np.float64(0.9)