##  `SimpleImputer`의 `strategy` 매개변수 값

`SimpleImputer` 클래스는 누락된 값(Missing Values, `NaN`)을 대체(Impute)할 때 사용할 전략(Strategy)을 지정할 수 있습니다. `strategy` 매개변수에 줄 수 있는 값은 주로 **네 가지**가 있습니다.

이러한 전략들은 해당 \*\*열(Feature)\*\*의 값들을 기반으로 계산되어 누락된 값을 채우게 됩니다.

| `strategy` 값 | 설명 | 적용 가능 데이터 유형 |
| :--- | :--- | :--- |
| **`'mean'`** | 해당 열의 **평균값**으로 누락값을 대체합니다. | 수치형 (Numeric) |
| **`'median'`** | 해당 열의 **중앙값**으로 누락값을 대체합니다. | 수치형 (Numeric) |
| **`'most_frequent'`** | 해당 열에서 가장 \*\*자주 나타나는 값 (최빈값)\*\*으로 누락값을 대체합니다. | 수치형 및 범주형 (Numeric and Categorical) |
| **`'constant'`** | `fill_value` 매개변수에 지정된 **상수**로 누락값을 대체합니다. `fill_value`가 지정되지 않으면 수치형 데이터는 0, 문자열/범주형 데이터는 `'missing_value'`가 기본값으로 사용됩니다. | 수치형 및 범주형 (Numeric and Categorical) |

###  전략 선택에 대한 고려 사항

  * **`'mean'` (평균):** 데이터 분포가 정규 분포와 비슷하고 이상치(Outlier)의 영향이 크지 않을 때 적합합니다. **이상치가 있다면 결과가 왜곡될 수 있습니다.**
  * **`'median'` (중앙값):** 데이터에 **이상치가 존재하여 평균값이 왜곡될 가능성**이 있을 때, 이상치에 덜 민감한 중앙값을 사용하는 것이 좋습니다.
  * **`'most_frequent'` (최빈값):** **범주형 데이터**의 누락값을 채우는 가장 일반적인 방법이며, 수치형 데이터에도 적용할 수 있습니다.
  * **`'constant'` (상수):** 누락되었다는 사실 자체가 의미 있는 정보일 때, 예를 들어 새로운 범주 `'Missing'` (범주형)이나 특정 상수 값 (수치형)으로 대체하여 모델이 이 정보를 활용하도록 할 수 있습니다.

### 예시 코드 (중앙값 및 최빈값 사용)

```python
from sklearn.impute import SimpleImputer
import numpy as np
import pandas as pd

# 예시 데이터: 수치형에 NaN, 범주형에 NaN
data = {
    'A': [10, 20, 30, 100, np.nan],  # 수치형, 이상치(100) 있음
    'B': ['red', 'blue', 'red', np.nan, 'green'] # 범주형
}
X = pd.DataFrame(data)

# 1. 수치형 열 'A'에 중앙값(median) 전략 적용
imputer_median = SimpleImputer(strategy='median')
X['A_median'] = imputer_median.fit_transform(X[['A']])

# 2. 범주형 열 'B'에 최빈값(most_frequent) 전략 적용
imputer_mf = SimpleImputer(strategy='most_frequent')
X['B_mf'] = imputer_mf.fit_transform(X[['B']])

# 3. 상수(constant) 전략 적용 (수치형: -1, 범주형: 'Unknown')
imputer_const_num = SimpleImputer(strategy='constant', fill_value=-1)
X['A_const'] = imputer_const_num.fit_transform(X[['A']])

print(X)
```

  * `A` 열의 중앙값은 25.0이므로, `A_median`의 NaN은 25.0으로 채워집니다.
  * `B` 열의 최빈값은 'red'이므로, `B_mf`의 NaN은 'red'로 채워집니다.
