#  머신러닝 더 빠르고 정확하게

머신러닝은 단순히 알고리즘만 아는 것으로 끝나지 않습니다.  
실제 현업에서는 **학습 속도가 느리거나**, **예측 성능이 기대보다 낮은 경우**가 자주 발생합니다.  

👉 이번 토픽은 모델 성능을 최적화하기 위한 핵심 기법들을 다룹니다:  
- 데이터 전처리  
- 정규화(Regularization)  
- 모델 평가와 하이퍼파라미터 튜닝  

## 학습 목표
이 토픽을 수강한 뒤, 수강생은 다음을 할 수 있어야 합니다:

- 다양한 데이터 전처리 기법을 이해하고 적용할 수 있다.  
- 정규화 기법(L1, L2)을 이해하고 활용할 수 있다.  
- 교차 검증과 하이퍼파라미터 튜닝을 통해 모델 성능을 평가하고 개선할 수 있다.  


## 목차

### 0. 들어가기
- 왜 "빠르고 정확하게"가 중요한가?  
- 데이터 전처리 → 정규화 → 모델 평가 & 튜닝으로 이어지는 흐름  


### 1. 데이터 전처리
- Feature Scaling
  - Normalization (0~1 범위)
  - Standardization (평균=0, 표준편차=1)
  - scikit-learn 실습
- One-hot Encoding
  - 범주형 데이터를 수치형으로 변환
  - pandas `get_dummies()` 실습



### 2. 정규화 (Regularization)
- Bias(편향) vs Variance(분산)  
- Bias-Variance Tradeoff 개념  
- 과적합 방지를 위한 정규화 기법
  - L1 정규화 (Lasso)
  - L2 정규화 (Ridge)
- scikit-learn 실습: Lasso, Ridge 회귀 비교



### 3. 모델 평가와 하이퍼파라미터 선택
- k겹 교차 검증 (k-Fold Cross Validation)  
  - scikit-learn `cross_val_score` 실습
- 그리드 서치 (Grid Search)  
  - scikit-learn `GridSearchCV` 실습
- 최적의 하이퍼파라미터 찾기  


### ✅ 체크포인트
- 전처리와 정규화는 모델 성능에 직접적으로 영향을 미친다.  
- Regularization은 과적합을 방지하는 핵심 도구이다.  
- 교차 검증과 그리드 서치는 모델 평가와 성능 개선의 표준 절차이다.  


# 0. 들어가기

머신러닝 모델을 "더 빠르고 정확하게" 만들기 위해 가장 먼저 해야 할 일은 **데이터 전처리(Data Preprocessing)** 입니다.  
- 현실 데이터는 크기 단위가 제각각 (예: 키=cm, 몸무게=kg, 월수입=만원)  
- 숫자 범위가 다르면, 모델이 특정 특성에 **과도하게 영향을 받음**  
- 따라서 데이터를 적절히 스케일링(Scaling)하고 변환해야 학습이 잘 이루어집니다.


### 예시: 특성 간 범위 차이 문제

데이터에 두 개의 특성이 있다고 합시다:

- \(x_1\): **키 비율** → 값의 범위: 0 ~ 1  
- \(x_2\): **년 수입** → 값의 범위: 4000 ~ 10000  

### 문제점
- 두 특성을 그대로 사용하면, 모델은 계산 과정에서 **값의 크기가 큰 $(x_2$) (1000~2000)** 에 더 큰 가중치를 부여하게 됨.  
- 실제로는 $(x_1$) (키 비율)도 중요한데, **숫자 스케일 차이 때문에 모델이 무시**할 수 있음.  


### 직관적 비유
- 어떤 학생의 성적을 예로 들어봅시다:
  - **과목 A (출석점수)**: 0~1점  
  - **과목 B (시험점수)**: 1000~2000점  

총점을 단순 합으로 계산하면?  
- 과목 A 점수는 아무리 변해도 1점 차이  
- 과목 B 점수는 최소 1000점 차이  

👉 당연히 **시험점수(과목 B)** 가 모든 결과를 좌우하게 됨 → 출석점수는 사실상 무시됨.  


### 해결 방법
- 데이터를 **스케일링**하여 두 특성이 비슷한 범위를 갖도록 변환해야 함.
- 예:
  - Min-Max Scaling → 모든 값을 0~1 사이로 맞춤  
  - Standardization → 평균=0, 표준편차=1로 변환  

이렇게 하면 모델이 **특성의 실제 중요도**를 제대로 반영할 수 있음.

# 1. 데이터 전처리

## 1.1 Feature Scaling (특성 스케일링)

### (1) Normalization (정규화)
- 데이터 값을 **0~1 사이로 압축**  
- 공식:  
  $$
  x' = \frac{x - x_{min}}{x_{max} - x_{min}}
  $$

In [None]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

data = np.array([[50], [200], [500]])
scaler = MinMaxScaler()
normalized = scaler.fit_transform(data)

print("원본 데이터:\n", data)
print("정규화 데이터:\n", normalized)

### (2) Standardization (표준화)
- 데이터의 평균=0, 표준편차=1로 맞춤  
- 공식:  
  
  $z = \frac{x - \mu}{\sigma}$

In [None]:
from sklearn.preprocessing import StandardScaler

data = np.array([[50], [200], [500]])
scaler = StandardScaler()
standardized = scaler.fit_transform(data)

print("표준화 데이터:\n", standardized)

👉 경사 하강법(Gradient Descent) 기반 모델은 **스케일링이 필수적**입니다.  
특성 범위가 다르면, 어떤 방향으로 먼저 학습할지 혼란이 생기기 때문입니다.  

## 1.2 One-hot Encoding (범주형 데이터 변환)

머신러닝 모델은 숫자만 처리할 수 있습니다.  
따라서 범주형 데이터(예: 성별=남/여, 지역=서울/부산/대구)는 **숫자 벡터**로 변환해야 합니다.  

- **문제점**: 단순히 "남=0, 여=1"처럼 하면, **순서/크기 관계가 생겨버림**  
- **해결책**: One-hot Encoding → 각 범주를 별도의 열로 분리, 해당 범주에만 1, 나머지는 0  

### 예시 (Gender 컬럼 변환 전/후)

| Index | Gender |
|-------|--------|
| 0     | Male   |
| 1     | Female |
| 2     | Female |
| 3     | Male   |

👇 One-hot Encoding 적용 후

| Index | Gender_Female | Gender_Male |
|-------|---------------|-------------|
| 0     | 0             | 1           |
| 1     | 1             | 0           |
| 2     | 1             | 0           |
| 3     | 0             | 1           |

In [None]:
import pandas as pd

df = pd.DataFrame({"Gender": ["Male", "Female", "Female", "Male"]})
encoded = pd.get_dummies(df, columns=["Gender"])

print(df)
print(encoded)

👉 결과:  
- "Male" → [1, 0]  
- "Female" → [0, 1]  

### ✅ 체크포인트
- Normalization: 데이터 범위를 0~1 사이로 맞춤  
- Standardization: 평균=0, 표준편차=1로 맞춤  
- One-hot Encoding: 범주형 데이터를 숫자 벡터로 변환  
- Feature Scaling은 경사 하강법의 효율을 높이고, One-hot Encoding은 범주형 데이터 처리를 가능하게 한다.

# 2. 정규화 (Regularization)

## 2.1 왜 정규화가 필요한가?
머신러닝 모델은 훈련 데이터에 너무 **과적합(overfitting)** 되거나,  
너무 단순해서 **과소적합(underfitting)** 되는 경우가 많습니다.  

- **과소적합(Underfitting)**: 모델이 단순 → 데이터 패턴을 잘 못 잡음  
- **과적합(Overfitting)**: 모델이 복잡 → 훈련 데이터에는 잘 맞지만 새로운 데이터에서는 성능이 떨어짐  

  <img src="image/overfitting.png" width="500">

이미지 출처 : https://www.geeksforgeeks.org/machine-learning/underfitting-and-overfitting-in-machine-learning/

👉 정규화(Regularization)는 **모델이 과적합되는 것을 막고, 일반화 성능을 높이는 방법**입니다.  

## 2.2 정규화 개념
정규화는 모델이 **불필요하게 큰 가중치**를 가지지 않도록 제약을 주어,  
과적합을 방지하고 일반화 성능을 높이는 방법입니다.  

- **L1 정규화 (Lasso Regression)**  
  - 가중치의 절댓값 합을 패널티로 부여  
  - 일부 가중치를 0으로 만들어 **특성 선택(feature selection)** 효과  

- **L2 정규화 (Ridge Regression)**  
  - 가중치의 제곱합을 패널티로 부여
  - 모든 가중치를 조금씩 줄여 안정적인 모델 생성

In [None]:
## 2.3 scikit-learn으로 과적합 문제 해결

from sklearn.linear_model import LinearRegression, Ridge, Lasso
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error
import numpy as np

# 샘플 데이터 생성
X = np.random.rand(100, 5) * 10
y = 3*X[:,0] + 2*X[:,1] - X[:,2] + np.random.randn(100)*2

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 선형 회귀
lr = LinearRegression().fit(X_train, y_train)
print("LinearRegression MSE:", mean_squared_error(y_test, lr.predict(X_test)))

# Ridge 회귀 (L2)
ridge = Ridge(alpha=1.0).fit(X_train, y_train)
print("Ridge MSE:", mean_squared_error(y_test, ridge.predict(X_test)))

# Lasso 회귀 (L1)
lasso = Lasso(alpha=0.1).fit(X_train, y_train)
print("Lasso MSE:", mean_squared_error(y_test, lasso.predict(X_test)))

## 2.4 L1, L2 직접 비교
- **L1 (Lasso)**: 일부 계수=0 → 불필요한 특성 제거 가능  
- **L2 (Ridge)**: 모든 계수를 작게 만들어 안정적인 모델  
- 실제로는 L1+L2 혼합한 **Elastic Net**도 많이 사용  


### ✅ 체크포인트
- 정규화는 과적합 방지와 일반화 성능 향상에 핵심적이다.  
- L1(Lasso): 가중치 절댓값 합 → 특성 선택 효과  
- L2(Ridge): 가중치 제곱합 → 안정적인 모델  
- `alpha` 값이 클수록 정규화 강도가 세지며, 너무 크면 과소적합 위험이 있다.  

# 3. 모델 평가와 하이퍼파라미터 선택

> 목적: **훈련 데이터에서만 잘 맞는 모델**을 피하고, **새로운 데이터에서도 일관되게 잘 작동(일반화)** 하도록 평가·튜닝한다.


## 3.1 왜 모델 평가가 중요한가?
- **훈련 성능 = 실제 성능 아님**: 훈련 데이터에 맞춘 점수는 낙관적일 수 있음(과적합).
- **일반화 확인**: 보지 못한 데이터(검증/테스트)에서 성능을 확인해야 함.
- **신뢰성**: 평가 절차가 재현 가능해야 하며, 데이터 누수(leakage)를 방지해야 함.

## 3.2 데이터 분할 전략

### (1) Hold-out 분할(예: **8:1:1 = train:valid:test**)
- **train**: 학습
- **valid**: 하이퍼파라미터 선택/모델 비교
- **test**: 최종 성능 보고(딱 1번만 사용)

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split

# 데이터 적재
# ------------------------------------------
iris = load_iris()
X, y = iris.data, iris.target

# ------------------------------------------
# 8:1:1 분할 (계층화 분할: 각 클래스 비율 유지)
# ------------------------------------------
X_train, X_temp, y_train, y_temp = train_test_split(
    X, y, test_size=0.2, stratify=y, random_state=42
)
X_valid, X_test, y_valid, y_test = train_test_split(
    X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42
)

print("train/valid/test:", X_train.shape, X_valid.shape, X_test.shape)

#### 변형 예시: **6:2:2**, **7:1.5:1.5** 등. 데이터가 적으면 교차 검증을 권장.

### (2) 시계열(순서형) 데이터
#### 1. 특징
- 데이터는 시간 순서대로 기록됨 (예: 주식 가격, 날씨 데이터, 센서 데이터).
- **순서가 중요**하므로 무작위 섞기(shuffle) 금지.  
- 항상 **과거 → 미래** 순서를 지켜서 학습해야 함.  


#### 2. 올바른 분할 방식 (Sliding Window)
- 일반 데이터 분할(`train_test_split`)은 무작위 추출이 가능하지만, 시계열은 순서를 보존해야 함.  
- **Sliding Window**: 일정 길이의 과거 데이터를 묶어서(train window) 그 직후 미래 구간을 예측(valid window).  
  - 예: "과거 3일 → 다음 1일 예측"  
- 장점: 입력 시퀀스 길이가 일정 → 딥러닝/머신러닝 모델 학습에 바로 활용 가능.

#### 3. 코드 예시: Sliding Window 데이터셋 만들기

In [None]:
import numpy as np

# 예제 시계열 데이터 (0 ~ 19)
series = np.arange(20)

def make_window_data(series, window=5, horizon=1):
    X, y = [], []
    for i in range(len(series) - window - horizon + 1):
        X.append(series[i:i+window])            # 과거 구간
        y.append(series[i+window:i+window+horizon])  # 예측 구간
    return np.array(X), np.array(y)

# 과거 5일 데이터를 사용해 다음 1일을 예측
X, y = make_window_data(series, window=5, horizon=1)

print("X shape:", X.shape)  # (샘플 수, window 크기)
print("y shape:", y.shape)  # (샘플 수, horizon 크기)
print("첫 번째 샘플 X:", X[0], "-> y:", y[0])

## 3.3 교차 검증(Cross Validation) 종류
- **KFold**: 무작위로 K분할 → 학습/검증 K회 반복 후 평균.
- **StratifiedKFold**: 분류에서 **클래스 비율 유지**.
    - **예시**: 암 환자 데이터(환자 10%, 정상인 90%) → 일반 KFold는 어떤 fold엔 환자가 아예 없을 수도 있음.  
- **GroupKFold**: 동일 그룹은 같은 폴드에만 배치.
    - **예시**: 남/녀 를 맞춰야 할때 동일한 사람의 사진이 2장이상 존재할때 같은 그룹(train/val/test)에 배치
- **TimeSeriesSplit**: 시계열 전용(시간 순서 유지).
- **RepeatedKFold/RepeatedStratifiedKFold**: KFold 교차검증을 여러 번 반복해 분산 감소.

In [None]:
from sklearn.model_selection import cross_val_score, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.datasets import load_iris
import numpy as np

iris = load_iris()

# 입력 특성 행렬(X)과 정답 벡터(y) 분리
# X : 꽃받침 길이, 꽃받침 폭, 꽃잎 길이, 꽃잎 폭 (4개의 특성)
# y : 붓꽃 품종 (0=setosa, 1=versicolor, 2=virginica)
X, y = iris.data, iris.target

# 로지스틱 회귀 모델 생성
# 분류(classification) 문제에 사용되는 선형 모델
# max_iter=200 : 학습 반복 횟수 제한 (기본값은 100, 수렴 문제 방지를 위해 늘림)
model = LogisticRegression(max_iter=200)

# StratifiedKFold : 각 클래스 비율(레이블 분포)을 유지하면서 데이터셋을 여러 조각으로 나누는 K-겹 교차검증 방법
# n_splits=5 → 데이터를 5개의 폴드(fold)로 나눔 (즉, 5번의 학습/평가 수행)
# shuffle=True → 데이터를 무작위로 섞은 후 분할 (데이터 순서에 의한 편향 방지)
# random_state=42 → 난수 시드를 고정하여 재현성 확보
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
scores = cross_val_score(model, X, y, cv=cv, scoring="accuracy")

# cross_val_score() : 교차 검증을 자동으로 수행해주는 함수
# 인자 설명:
#   model   : 사용할 학습 모델 (여기서는 로지스틱 회귀)
#   X, y    : 입력 데이터와 정답 레이블
#   cv      : 교차검증 분할 전략 (StratifiedKFold 객체)
#   scoring : 성능 평가 지표. 여기서는 'accuracy' (정확도)
#
# 실행 과정:
#   1. 데이터를 StratifiedKFold에 따라 5개의 폴드로 나눔
#   2. 각 폴드에 대해 1개는 테스트, 나머지 4개는 학습용으로 사용
#   3. 5번 반복하여 모델의 정확도를 계산
#   4. 각 반복에서의 정확도 점수를 배열 형태로 반환
print("교차 검증 점수:", scores)
print("평균 정확도:", np.mean(scores))

In [None]:
# 각 폴드의 인덱스 확인
for fold_idx, (train_index, test_index) in enumerate(cv.split(X, y), start=1):
    print(f"\n📂 Fold {fold_idx}")
    print(f"학습 데이터 인덱스 ({len(train_index)}개): {train_index[:10]} ...")  # 앞부분만 표시
    print(f"테스트 데이터 인덱스 ({len(test_index)}개): {test_index[:10]} ...")
    print(f"→ 테스트 데이터의 클래스 분포: {np.bincount(y[test_index])}")

#### **TIP**: 데이터 전처리(스케일링)는 반드시 **교차 검증 폴드 안에서** `fit`되어야 함 → `Pipeline` 사용!


## 3.4 평가 지표 선택 가이드

### 1) 분류(Classification)

#### 혼동행렬(Confusion Matrix) 표

| 실제 \ 예측 | 0 (Negative)         | 1 (Positive)         |
|-------------|-----------------------|-----------------------|
| **0 (Negative)** | **TN**: 진짜 음성 (정상 정답) | **FP**: 거짓 양성 (거짓 경보) |
| **1 (Positive)** | **FN**: 거짓 음성 (놓침)     | **TP**: 진짜 양성 (정상 검출) |

#### 혼동행렬(Confusion Matrix) 용어 정리
- **TP (True Positive)**: 실제 1이고, 예측도 1  
- **FP (False Positive)**: 실제 0인데, 예측이 1 (거짓 경보)  
- **TN (True Negative)**: 실제 0이고, 예측도 0  
- **FN (False Negative)**: 실제 1인데, 예측이 0 (놓침)

#### **지표 공식**  
 - Accuracy = (TP + TN) / (TP + FP + TN + FN)  
 - Precision = TP / (TP + FP)  
 - Recall = TP / (TP + FN)  
 - F1 = 2 · (Precision · Recall) / (Precision + Recall)

| 지표 | 정의/설명 | 장점 | 주의할 점 / 활용 상황 |
|------|-----------|------|------------------------|
| **Accuracy** | 전체 샘플 중 정답 비율 | 직관적, 해석 쉬움 | 클래스 불균형(예: 정상 99%, 이상 1%)에 매우 취약 |
| **Precision (정밀도)** | `예측=양성` 중 실제 양성 비율 | 잘못된 경보(오탐) 줄이는 데 중요 | 양성 놓침(미탐)에는 둔감 |
| **Recall (재현율)** | 실제 양성 중 예측=양성 비율 | 양성 놓치지 않는 게 중요할 때 유리 | 오탐(거짓 양성)이 많아질 수 있음 |
| **F1 Score** | Precision·Recall의 조화 평균 | Precision·Recall 균형 평가 | 해석은 다소 어렵지만 불균형 데이터에 자주 사용 |
| **ROC-AUC** | 모든 임계값에서 TPR vs FPR 곡선 아래 면적 | 임계값에 독립적, 전반적 성능 평가 | 클래스 극심 불균형일 때 과대평가될 수 있음 |
| **PR-AUC** | Precision-Recall 곡선 아래 면적 | 양성 클래스 희소할 때 유리 | ROC-AUC보다 해석 어렵지만 불균형 심할 때 필수 |
| **Top-k Accuracy** | 다중 클래스에서 상위 k개 예측 안에 정답 있는지 | 이미지 분류(예: Top-5 Accuracy)에서 유리 | k 설정 필요 |

### 2) 회귀(Regression)

| 지표 | 정의/설명 | 장점 | 주의할 점 / 활용 상황 |
|------|-----------|------|------------------------|
| **MAE (Mean Absolute Error)** | 절댓값 오차 평균 | 해석 직관적, 이상치 영향 적음 | 큰 오차에 둔감 |
| **MSE (Mean Squared Error)** | 제곱 오차 평균 | 미분/최적화에 유리 | 큰 오차에 과도한 패널티 |
| **RMSE (Root Mean Squared Error)** | 제곱 오차의 제곱근 | 원 단위 복원, 큰 오차 강조 | MAE보다 이상치 민감 |
| **R² (결정계수)** | 모델이 데이터 분산을 얼마나 설명하는지 (1=완벽) | 상대적 성능 비교에 유용 | 데이터 분포에 따라 음수가 될 수 있음 |

In [None]:
# scoring 예시: "accuracy", "f1_macro", "roc_auc_ovr", "neg_mean_absolute_error" 등

## 3.5 하이퍼파라미터란?
- **파라미터**: 모델이 **데이터로부터 학습**하는 값 (예: 선형회귀의 가중치, NN의 W, b)
- **하이퍼파라미터**: 사람이 **사전에 설정**하는 값 (예: 정규화 강도 C/alpha, 트리 깊이, 러닝레이트)

| 알고리즘 | 대표 하이퍼파라미터 | 의미/영향 |
|---|---|---|
| LogisticRegression | C, penalty, solver | 정규화 강도, 규제 형태 |
| SVM | C, kernel, gamma | 마진/복잡도 제어, 커널 폭 |
| RandomForest | n_estimators, max_depth, min_samples_split | 앙상블 크기/복잡도 |
| Ridge/Lasso | alpha | L2/L1 정규화 강도 |
| XGBoost/LightGBM | n_estimators, learning_rate, max_depth, subsample | 부스팅 단계/학습률/복잡도 |


## 3.6 그리드 서치(Grid Search) + 파이프라인(Pipeline) + 누수 방지

### 1) Grid Search란?
- 모델의 **하이퍼파라미터 후보 집합**을 정의하고,  
- 교차검증(Cross Validation)으로 모든 조합을 평가해 **최적 조합을 찾는 방법**.  

```python
from sklearn.model_selection import GridSearchCV
```

### 2) Pipeline이 필요한 이유

머신러닝 모델 학습에는 보통 이런 단계가 필요합니다:
```
[데이터] → [전처리기(예: 스케일러)] → [모델 학습]
```


#### ❌ 잘못된 방식 (누수 발생)
```python
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

scaler = StandardScaler()
scaler.fit(X)  # ⚠️ 전체 데이터로 평균/분산 학습 (X_train+X_test 모두 포함)

X_train_scaled = scaler.transform(X_train)
X_test_scaled  = scaler.transform(X_test)

model = SVC()
model.fit(X_train_scaled, y_train)
print(model.score(X_test_scaled, y_test))
```

- 여기서는 **테스트 데이터 정보까지 평균/분산 학습에 들어감**  
- 즉, 미래(테스트)의 정보를 미리 들여다본 셈 → 평가 점수가 실제보다 높게 나옴 (데이터 누수)


#### ✅ 올바른 방식 (Pipeline 사용)
```python
from sklearn.pipeline import Pipeline
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler

pipe = Pipeline([
    ('scaler', StandardScaler()),  # step 1: 전처리
    ('svc', SVC())                 # step 2: 모델
])

pipe.fit(X_train, y_train)     # 내부적으로:
# scaler.fit(X_train) + scaler.transform(X_train)
# svc.fit(X_train_scaled, y_train)

pipe.predict(X_test)           # 내부적으로:
# scaler.transform(X_test) (train에서 학습한 평균/분산만 사용)
# svc.predict(X_test_scaled)
```

- `fit`을 호출하면 → train 데이터에서만 **전처리 fit**  
- `predict`를 호출하면 → train에서 학습한 기준(평균/분산)으로 test 데이터 변환 후 예측  
- 따라서 **test 데이터는 오직 평가용으로만 사용** → 누수 자동 방지


### ✅ 왜 Pipeline이 중요한가?
- 전처리와 모델을 따로 두면, 사용자가 실수로 `fit(X 전체)` 같은 코드를 짤 수 있음 → 누수 발생  
- **Pipeline은 전처리와 모델을 한 덩어리로 묶어서**,  
  - 학습(train 단계)에서는 train 데이터로만 전처리 fit  
  - 검증/테스트 단계에서는 transform만 적용  
- 즉, **사용자가 따로 구분해줄 필요 없이** 자동으로 안전하게 동작  


### 3) GridSearchCV + Pipeline 사용법

```python
from sklearn.datasets import load_iris
from sklearn.model_selection import GridSearchCV
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVC

# 1. Pipeline 구성 (스텝에 이름 부여)
pipe = Pipeline([
    ('scaler', StandardScaler()),   #  step 1 전처리
    ('svc', SVC())                  #  step 2 모델
])

# 2. 탐색할 파라미터 (스텝이름__파라미터)
param_grid = {
    'svc__C': [0.1, 1, 10], # 'svc' 스텝의 C 파라미터
    'svc__kernel': ['linear', 'rbf'], # 'svc' 스텝의 kernel 파라미터
    'svc__gamma': ['scale', 'auto']
}

# 3. GridSearchCV 실행
grid = GridSearchCV(pipe, param_grid, cv=5, scoring='accuracy') # cv=5 : 5-fold 교차검증
grid.fit(*load_iris(return_X_y=True))

print("최적 파라미터:", grid.best_params_)
print("최적 성능:", grid.best_score_)
```


### 4) 핵심 정리
- **Pipeline**: 전처리 + 모델을 한 덩어리로 묶음.  
- **GridSearchCV**: 하이퍼파라미터를 전수조사해 최적값 선택.  
- **누수 방지**: 전처리는 fold별 train에서만 `fit`, valid/test는 `transform`만 적용.  
- **param_grid 키**: `스텝이름__파라미터` 형식으로 지정해야 함.  


### ✅ 요약 그림

```
[Raw Data] → [Scaler (fit on train only)] → [Model] → [Predict]
                ↑
                └─ Pipeline이 자동으로 누수 방지 보장
```


In [None]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.metrics import accuracy_score, f1_score

# ------------------------------------------
# 파이프라인: [스케일링 -> 로지스틱회귀]
# ------------------------------------------
pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("clf", LogisticRegression(max_iter=200))
])


# ------------------------------------------
# 하이퍼파라미터 그리드
#   - 파이프라인 스텝 이름 'clf__' 접두사로 접근
# ------------------------------------------
param_grid = {
    "clf__C": [0.01, 0.1, 1, 10, 100],
    "clf__penalty": ["l2"],            # liblinear/lbfgs 기준
    "clf__solver": ["liblinear", "lbfgs"]
}

# ------------------------------------------
# 교차 검증 설정(계층화 K-겹)
# ------------------------------------------
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

# ------------------------------------------
# GridSearchCV: scoring 변경 가능(불균형시 f1_macro 등 권장)
# ------------------------------------------
grid = GridSearchCV(
    estimator=pipe,
    param_grid=param_grid,
    cv=cv,
    scoring="accuracy",
    n_jobs=-1
)

grid.fit(X_train, y_train)

print("최적 하이퍼파라미터:", grid.best_params_)
print("검증 평균 점수(교차검증):", grid.best_score_)

# ------------------------------------------
# 선택된 최적 모델로 검증/테스트 평가
# ------------------------------------------
best_model = grid.best_estimator_
valid_pred = best_model.predict(X_valid)
test_pred  = best_model.predict(X_test)

print("VALID accuracy:", accuracy_score(y_valid, valid_pred))
print("TEST  accuracy:", accuracy_score(y_test,  test_pred))

> **왜 Pipeline인가?**  
> 스케일러를 train+valid 전체에 미리 `fit`해버리면 **검증 정보가 훈련에 새는 데이터 누수** 발생.  
> Pipeline은 각 폴드마다 **훈련 파트에만 fit → 검증 파트에 transform**을 자동 적용한다.

## 3.7 중첩 교차 검증(Nested CV): 과적합된 튜닝을 방지한 **공정한** 성능 추정
- **바깥(outer) CV**: 일반화 성능 추정
- **안쪽(inner) CV**: 하이퍼파라미터 선택(GridSearch)
- 장점: **튜닝 편향**을 줄인 “공정한” 최종 점수 획득

In [None]:
from sklearn.model_selection import cross_val_score, StratifiedKFold

outer_cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)
inner_cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)

pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("clf", LogisticRegression(max_iter=200))
])

param_grid = {"clf__C": [0.01, 0.1, 1, 10, 100]}
inner_search = GridSearchCV(pipe, param_grid, cv=inner_cv, scoring="f1_macro", n_jobs=-1)

# 바깥쪽에서 inner_search 자체를 평가(각 폴드마다 안쪽에서 튜닝 수행)
nested_scores = cross_val_score(inner_search, X, y, cv=outer_cv, scoring="f1_macro", n_jobs=-1)

print("Nested CV f1_macro:", nested_scores)
print("Nested CV 평균:", nested_scores.mean())

## 3.8 추가 팁 & 흔한 함정
- **Seed 고정**: `random_state` 고정 → 재현 가능성↑
- **클래스 불균형**: `stratify`, `class_weight='balanced'`, 적절 지표(F1, PR-AUC) 사용
- **베이스라인**: 간단 모델(로지스틱/리니어)로 기준 점수 만든 뒤 복잡도 증가
- **RandomizedSearchCV**: 큰 공간은 **랜덤 탐색**이 효율적
- **Bayesian Optimization**: 고성능 탐색 도구(Optuna, skopt 등)도 고려
- **특성 스케일링**: 거리/정규화 기반 모델(SVM, KNN, 로지스틱 등)엔 필수
- **데이터 누수**: 통합 전처리(스케일링/인코딩/선택)는 **반드시 Pipeline 안에서**!

## 3.9 요약 (Cheat Sheet)
- **분할**: 8:1:1(또는 교차 검증), 시계열/그룹은 전용 CV 사용
- **지표**: 문제 특성에 맞게 선택(불균형은 F1·PR-AUC)
- **튜닝**: Pipeline + (Grid/Randomized)Search, 검증 데이터로 비교
- **검증 강화**: Nested CV로 공정한 최종 성능 추정
- **누수 금지**: 전처리는 항상 폴드 내부에서 `fit`!

### ✅ 체크포인트
- [ ] 8:1:1 분할 또는 교차 검증으로 **일반화 성능**을 확인했는가?  
- [ ] 전처리·모델을 **Pipeline**으로 묶어 **누수**를 방지했는가?  
- [ ] 문제 특성에 맞는 **평가지표**를 선택했는가?  
- [ ] 합리적인 **하이퍼파라미터 공간**을 정의했는가?  
- [ ] (선택) **Nested CV**로 튜닝 편향을 줄였는가?

## 머신러닝 더 빠르고 정확하게 – 실습 문제

In [None]:
import pandas as pd
titanic = pd.read_csv("data/titanic.csv")

### 문제 1. Feature Scaling
Titanic 데이터셋에서 `Age` 컬럼을 불러와서 **정규화(Normalization)** 와 **표준화(Standardization)** 를 적용해보세요.  

<details>
<summary>정답 보기</summary>

```python
import pandas as pd
from sklearn.preprocessing import MinMaxScaler, StandardScaler

# 데이터 불러오기
titanic = pd.read_csv("titanic.csv")

age = titanic[["Age"]].dropna()# 결측치 제거

# 정규화
minmax = MinMaxScaler().fit_transform(age)
print("정규화 결과:\n", minmax[:5])

# 표준화
standard = StandardScaler().fit_transform(age)
print("표준화 결과:\n", standard[:5])
```
</details>

In [None]:
# 여기에 정답을 작성하세요


### 문제 2. One-hot Encoding
Titanic 데이터셋의 `Sex` 컬럼을 One-hot Encoding하여 새로운 DataFrame을 만들어보세요.  

<details>
<summary>정답 보기</summary>

```python
encoded = pd.get_dummies(titanic[["Sex"]], prefix="Sex")
print(encoded.head())
```
</details>

In [None]:
# 여기에 정답을 작성하세요


### 문제 3. L1 / L2 정규화
Titanic 데이터셋에서 `Pclass`, `Age`, `Fare`를 입력 변수로, `Survived`를 타깃 변수로 하여  
Lasso(L1)와 Ridge(L2) 회귀를 각각 적용해보고 성능(결정계수)을 비교하세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.linear_model import Lasso, Ridge
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# 간단한 전처리
df = titanic[["Survived", "Pclass",  "Survived", "Age", "Fare"]].dropna()
X = df[["Pclass", "Survived", "Fare"]]
y = df["Age"]

# 데이터 분할
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Ridge (L2)
ridge = Ridge(alpha=1.0)
ridge.fit(X_train, y_train)
print("Ridge score:", ridge.score(X_test, y_test)) # .score : R² (결정계수) 

# R² = 1 → 완벽하게 예측
# R² = 0 → 평균값으로 예측하는 것과 동일한 수준
# R² < 0 → 모델이 평균으로 예측하는 것보다 오히려 못함

# Lasso (L1)
lasso = Lasso(alpha=0.01)
lasso.fit(X_train, y_train)
print("Lasso score:", lasso.score(X_test, y_test))
```
</details>



In [None]:
# 여기에 정답을 작성하세요


### 문제 4. k겹 교차 검증
Titanic 데이터셋에서 `Pclass`, `Sex`, `Age`를 사용해 로지스틱 회귀를 학습하고, 5겹 교차 검증으로 평균 정확도를 구하세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import cross_val_score

# 간단한 전처리
df = titanic[["Survived", "Pclass", "Sex", "Age"]].dropna()
df = pd.get_dummies(df, columns=["Sex"])
X = df.drop("Survived", axis=1)
y = df["Survived"]

model = LogisticRegression(max_iter=200)
scores = cross_val_score(model, X, y, cv=5)

print("교차 검증 점수:", scores)
print("평균 정확도:", scores.mean())
```
</details>



In [None]:
# 여기에 정답을 작성하세요


### 문제 5. 그리드 서치
Titanic 데이터셋에서 로지스틱 회귀 모델을 사용하고, `C` 값 후보 [0.01, 0.1, 1, 10]에 대해 GridSearchCV로 최적 하이퍼파라미터를 찾아보세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.model_selection import GridSearchCV

param_grid = {"C": [0.01, 0.1, 1, 10]}
grid = GridSearchCV(LogisticRegression(max_iter=200), param_grid, cv=5)
grid.fit(X, y)

print("최적 파라미터:", grid.best_params_)
print("최적 성능:", grid.best_score_)
```
</details>

In [None]:
# 여기에 정답을 작성하세요


### 문제 6. 데이터 분할 (Train/Validation/Test)
Titanic 데이터셋을 **8:1:1 비율**로 학습, 검증, 테스트 세트로 나누어보세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.model_selection import train_test_split

df = titanic[["Survived", "Pclass", "Age", "Fare"]].dropna()
X = df.drop("Survived", axis=1)
y = df["Survived"]

# 8:2 분할 → 0.2 중 절반은 검증, 절반은 테스트
X_train, X_temp, y_train, y_temp = train_test_split(X, y, test_size=0.2, stratify=y, random_state=42)
X_valid, X_test, y_valid, y_test = train_test_split(X_temp, y_temp, test_size=0.5, stratify=y_temp, random_state=42)

print(X_train.shape, X_valid.shape, X_test.shape)
```
</details>




### 문제 7. 표준화 + 로지스틱 회귀
Titanic 데이터셋에서 `Age`, `Fare`를 입력 변수로 사용하고, **표준화(StandardScaler)**를 적용한 후 로지스틱 회귀를 학습하세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression

df = titanic[["Survived", "Age", "Fare"]].dropna()
X = df[["Age", "Fare"]]
y = df["Survived"]

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

model = LogisticRegression(max_iter=200)
model.fit(X_scaled, y)

print("모델 정확도:", model.score(X_scaled, y))

</details>

### 문제 8. ROC-AUC 평가
Titanic 데이터셋에서 `Pclass`, `Sex`, `Age`를 사용해 로지스틱 회귀를 학습하고, **ROC-AUC 점수**를 계산하세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.metrics import roc_auc_score

df = titanic[["Survived", "Pclass", "Sex", "Age"]].dropna()
df = pd.get_dummies(df, columns=["Sex"])
X = df.drop("Survived", axis=1)
y = df["Survived"]

model = LogisticRegression(max_iter=200)
model.fit(X, y)
probs = model.predict_proba(X)[:, 1]

print("ROC-AUC:", roc_auc_score(y, probs))
```
</details>



### 문제 9. 교차 검증 지표 변경
Titanic 데이터셋에서 로지스틱 회귀 모델을 학습하고, **교차 검증 시 Accuracy가 아닌 F1-score**를 사용해 평균 성능을 구하세요.  

<details>
<summary>정답 보기</summary>

```python 
scores = cross_val_score(LogisticRegression(max_iter=200), X, y, cv=5, scoring="f1")
print("평균 F1-score:", scores.mean())
```
</details>



### 문제 10. 파이프라인(Pipeline) 활용
Titanic 데이터셋에서 `Age`, `Fare`를 입력 변수로 사용하여,  
**[표준화 → 로지스틱 회귀]** 단계를 Pipeline으로 구성하고 정확도를 계산하세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.pipeline import Pipeline

pipe = Pipeline([
    ("scaler", StandardScaler()),
    ("clf", LogisticRegression(max_iter=200))
])

pipe.fit(X, y)
print("정확도:", pipe.score(X, y))
```
</details>



### 문제 11. Randomized Search
Titanic 데이터셋에서 로지스틱 회귀의 `C` 값을 [0.001, 0.01, 0.1, 1, 10, 100] 중에서,  
**RandomizedSearchCV**를 사용해 최적 하이퍼파라미터를 찾아보세요.  

<details>
<summary>정답 보기</summary>

```python
from sklearn.model_selection import RandomizedSearchCV

param_dist = {"C": [0.001, 0.01, 0.1, 1, 10, 100]}
search = RandomizedSearchCV(LogisticRegression(max_iter=200), param_dist, cv=5, n_iter=3, random_state=42)
search.fit(X, y)

print("최적 파라미터:", search.best_params_)
print("최적 점수:", search.best_score_)
```
</details>



### 문제 12. 특성 중요도 확인 (Lasso)
Titanic 데이터셋에서 `Pclass`, `Age`, `Fare`를 입력 변수로 하고,  
Lasso(L1) 회귀를 학습한 후 **계수(coefficient)** 값을 출력해보세요.  

<details>
<summary>정답 보기</summary>

```python
lasso = Lasso(alpha=0.01)
lasso.fit(X, y)

print("계수:", lasso.coef_)
```
</details>



### 문제 13. Confusion Matrix
Titanic 데이터셋에서 로지스틱 회귀 모델을 학습하고,  
**혼동 행렬(confusion matrix)**을 출력해보세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.metrics import confusion_matrix

model = LogisticRegression(max_iter=200)
model.fit(X, y)
y_pred = model.predict(X)

print(confusion_matrix(y, y_pred))
```
</details>



### 문제 14. Classification Report
Titanic 데이터셋에서 로지스틱 회귀 모델을 학습하고,  
**Precision, Recall, F1-score**를 포함한 Classification Report를 출력하세요.  

<details>
<summary>정답 보기</summary>

```python 
from sklearn.metrics import classification_report

print(classification_report(y, y_pred))
```
</details>

### 문제 15. Nested Cross Validation
Titanic 데이터셋에서 로지스틱 회귀 모델을 사용하고,  
안쪽(inner) 교차 검증으로 하이퍼파라미터를 튜닝한 뒤,  
바깥쪽(outer) 교차 검증으로 최종 성능을 평가하는 **Nested CV**를 구현하세요.  

<details>
<summary>정답 보기</summary>


```python
from sklearn.model_selection import GridSearchCV, cross_val_score, StratifiedKFold

param_grid = {"C": [0.01, 0.1, 1, 10]}
inner_cv = StratifiedKFold(n_splits=3, shuffle=True, random_state=42)
outer_cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

grid = GridSearchCV(LogisticRegression(max_iter=200), param_grid, cv=inner_cv)
nested_scores = cross_val_score(grid, X, y, cv=outer_cv)

print("Nested CV 점수:", nested_scores)
print("평균 점수:", nested_scores.mean())
```
</details>


### ✅ 체크포인트
- 전처리(스케일링, 원-핫 인코딩)는 모델 학습에 필수적이다.  
- 정규화(L1, L2)는 과적합을 방지하고 일반화 성능을 높인다.  
- k겹 교차 검증은 모델 안정성을 평가하는 좋은 방법이다.  
- Grid Search는 최적 하이퍼파라미터를 자동으로 찾아준다.  