In [None]:
### 스케일링(Scaling) 정리

| 구분 | 설명 | 사용 모델 예시 | 주의사항 | 파이썬 코드 예시 |
|------|------|----------------|-----------|------------------|
| **1. StandardScaler** | 평균을 0, 표준편차를 1로 맞추는 정규화 방식. | 선형회귀, 로지스틱회귀, SVM, PCA 등 | 이상치(Outlier)에 민감함 | ```python \nfrom sklearn.preprocessing import StandardScaler\nscaler = StandardScaler()\nX_scaled = scaler.fit_transform(X)\n ``` |
| **2. MinMaxScaler** | 데이터의 최솟값을 0, 최댓값을 1로 맞춤 (비율 유지) | 신경망(딥러닝), 거리 기반 모델(KNN, K-means) | 이상치가 있으면 0~1 범위 왜곡 가능 | ```python\nfrom sklearn.preprocessing import MinMaxScaler\nscaler = MinMaxScaler()\nX_scaled = scaler.fit_transform(X)\n``` |
| **3. RobustScaler** | 중앙값과 IQR(사분위 범위) 기준으로 스케일링 | 이상치가 많은 데이터 | 평균이 아닌 중앙값 중심이라 안정적 | ```python\nfrom sklearn.preprocessing import RobustScaler\nscaler = RobustScaler()\nX_scaled = scaler.fit_transform(X)\n``` |
| **4. MaxAbsScaler** | 절댓값 기준으로 -1~1 범위로 맞춤 | 희소행렬(Sparse Matrix) | 0 값이 많은 데이터에 적합 | ```python\nfrom sklearn.preprocessing import MaxAbsScaler\nscaler = MaxAbsScaler()\nX_scaled = scaler.fit_transform(X)\n``` |

---

### 언제 어떤 스케일러를 써야 할까?

| 데이터 특징 | 추천 스케일러 | 이유 |
|--------------|----------------|------|
| 이상치가 거의 없음 | StandardScaler | 평균, 표준편차 기준이라 일반적 |
| 이상치가 많음 | RobustScaler | 중앙값 기준이라 이상치 영향 적음 |
| 값의 범위가 정해진 입력 필요 (0~1) | MinMaxScaler | 모든 값을 0~1 사이로 압축 |
| 0이 많은 희소데이터 | MaxAbsScaler | 0값 유지하며 스케일링 |

---

### 실무 팁
- **훈련(train)** 데이터로 `fit()` 한 스케일러를,  
  **테스트(test)** 데이터에는 `transform()`만 적용해야 함.  
  (데이터 누수 방지)
- `Pipeline`을 사용하면 학습~예측까지 자동으로 같은 스케일러 적용 가능.  

```python
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

pipe = Pipeline([
    ('scaler', StandardScaler()),
    ('model', LinearRegression())
])
pipe.fit(X_train, y_train)
pred = pipe.predict(X_test)
