# 1. 스케일 조정

- 의사나무결정 기반 알고리즘은 스케일 조정에 영향을 받지 않음.
- 경사하강법 알고리즘을 구현하는 대부분의 머신 러닝과 최적화 알고리즘은 특성의 스케일이 같을 때 훨씬 성능이 좋아짐.
- 단위가 다른 변수들의 중요도를 더 쉽게 파악하기 위해 모든 변수를 동일한 기준으로 전처리.

`-` 이유.
- 예를들어 첫 번째 특성이 1에서 10 사이 스케일을 가지고 있고 두 번째 특성은 1에서 10만 사이 스케일을 가진다고 가정
    - `아달린에서 제곱 오차 함수를 이용한 알고리즘`은 대부분 두 번째 특성의 큰 오차에 맞추어 가중치를 최적화.
- `유클리드 거리 지표`를 사용한 k-최근접 이웃인 경우 샘플 간의 거리를 계산하면 두 번째 특성 축에 좌우될 것.

`-` 스케일 조정 대표적인 방법  
- `정규화` (normalization)  
- `표준화` (standardization)

A. **정규화**:
   - MinMaxScaling 변환의 특별한 경우 
   - **작동 원리**: 데이터를 0과 1 사이의 값으로 조정
   - **장점**: 원하는 범위 내로 데이터를 조정할 때 유용. 특히 신경망에서는 활성화 함수의 범위와 일치하도록 입력 값을 조정하는 데 유용. [sigmoid, tanh와 같은 활성화 함수의 출력값과 맞추는 용도]
   - **단점**: 이상치에 매우 민감하다. 이상치 때문에 전체 데이터의 스케일이 크게 영향받을 수 있음.

B. **표준화**:
   - `StandardScaler`
   - **작동 원리**: 데이터의 평균을 0, 표준편차를 1로 만드는 방식으로 조정.
   - **장점**: 가중치를 0 또는 0에 가까운 작은 난수로 초기화하여 가중치를 더 쉽게 학습 할 수 있음, 이상치에 MinMaxScaler보다 덜 민감함. 많은 통계적 기법들, 특히 PCA 같은 선형 알고리즘(경사 하강법 같은 최적화 알고리즘)에서 잘 작동함.
   - **단점**: MinMaxScaler와 달리, 표준화된 데이터의 값이 특정 범위 내에 있음을 보장하지 않음.

`-` **둘 중 어느 것을 선택할지 결정하기 위한 고려사항**:


- 이상치가 많으면 `StandardScaler`가 더 적합할 수 있다. 
- 모델의 알고리즘과 특성에 따라 선택해야 한다. 예를 들어, 신경망은 일반적으로 0과 1 사이의 값이나 -1과 1 사이의 값으로 입력을 받는 활성화 함수를 사용하므로 `MinMaxScaler`가 적합할 수 있다. 

결론적으로, 두 스케일링 방법 중 어느 것이 더 좋은지는 사용 사례와 데이터의 특성에 따라 다르기 때문에, 가능한 경우 둘 다 시도해보고 모델의 성능을 비교하는 것이 좋다. 

# 데이터

- 데이터 출처
  - https://www.kaggle.com/datasets/fedesoriano/stroke-prediction-dataset/data

In [2]:
import pandas as pd

In [34]:
data = pd.read_csv("healthcare-dataset-stroke-data.csv")
data = data.drop(['id'], axis=1)
data = data[data['gender'] != 'Other']
data.head()

df = data.copy()
df.loc[:, ["hypertension", "heart_disease", "stroke"]] = data.loc[:, ["hypertension", "heart_disease", "stroke"]].applymap(lambda x: "Yes" if x == 1 else "No")
df.head()

Unnamed: 0,gender,age,hypertension,heart_disease,ever_married,work_type,Residence_type,avg_glucose_level,bmi,smoking_status,stroke
0,Male,67.0,No,Yes,Yes,Private,Urban,228.69,36.6,formerly smoked,Yes
1,Female,61.0,No,No,Yes,Self-employed,Rural,202.21,,never smoked,Yes
2,Male,80.0,No,Yes,Yes,Private,Rural,105.92,32.5,never smoked,Yes
3,Female,49.0,No,No,Yes,Private,Urban,171.23,34.4,smokes,Yes
4,Female,79.0,Yes,No,Yes,Self-employed,Rural,174.12,24.0,never smoked,Yes


# 2. 실습

## A. 표준화

In [12]:
from sklearn.preprocessing import LabelEncoder
X = df.drop(["stroke"], axis=1)
y = LabelEncoder().fit_transform(df['stroke'])

In [15]:
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.compose import ColumnTransformer
scaler = StandardScaler()

onehot = OneHotEncoder(drop = 'first', handle_unknown='ignore', sparse_output=False)

ct = ColumnTransformer([('scaler', scaler, X.select_dtypes(include = "number").columns),
                        ('onehot', onehot, X.select_dtypes(exclude = "number").columns)], 
                       remainder='passthrough', n_jobs=-1)
ct

:::{.callout-important}   
- **참고** 
- 앞 장에서 배운 범주형 인코딩도 같이 적용.
:::

In [16]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42, stratify=y)

In [17]:
ct.fit_transform(X_train)

array([[-0.5304543 ,  0.20566087, -0.8199733 , ...,  0.        ,
         1.        ,  0.        ],
       [ 0.33840517, -1.25490055,  0.35207477, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.49752263,  1.04659017,  0.09066209, ...,  0.        ,
         1.        ,  0.        ],
       ...,
       [-1.21472057,  0.78103355, -0.61137349, ...,  1.        ,
         0.        ,  0.        ],
       [-1.5443042 , -0.54674956, -0.71302171, ...,  0.        ,
         0.        ,  0.        ],
       [-0.22187286, -1.65323548, -0.33736527, ...,  0.        ,
         0.        ,  0.        ]])

In [18]:
ct.transform(X_test)

array([[-0.5813587 ,  0.86955242, -0.62065442, ...,  0.        ,
         1.        ,  0.        ],
       [ 1.38719593, -0.01563631, -0.43415205, ...,  0.        ,
         1.        ,  0.        ],
       [ 0.73184298, -0.90082505,  0.44974544, ...,  0.        ,
         0.        ,  1.        ],
       ...,
       [-0.43161218,  0.29417974, -0.31305809, ...,  0.        ,
         1.        ,  0.        ],
       [-0.01618329, -1.25490055, -0.96670029, ...,  0.        ,
         1.        ,  0.        ],
       [-0.92671751,  0.33843918, -0.50862041, ...,  1.        ,
         0.        ,  0.        ]])

- 표준화 공식

In [30]:
ct.fit_transform(X_train)[:,0][:5]

array([-0.5304543 ,  0.33840517,  0.49752263,  0.96291411, -0.48138641])

In [33]:
ex = X_train.iloc[:,0].values
print('standardized:', ((ex - ex.mean()) / ex.std(ddof=0))[:5])

standardized: [-0.5304543   0.33840517  0.49752263  0.96291411 -0.48138641]


:::{.callout-important}   
- **참고**
- scaler은 훈련 셋으로만 학습하고 학습된 기준으로 테스트 셋 변환.
- `-` 스케일 변환 `.fit()`와 `.fit_transform()`은 입력으로 2차원 자료구조를 기대한다. (그중에서도 은근히 numpy array를 기대함)
:::

## B. 정규화

In [4]:
from sklearn.preprocessing import MinMaxScaler

In [5]:
# step 1
mmsclr = MinMaxScaler()

# step 2
X_train_norm = mmsclr.fit_transform(X_train)

# step 3
X_test_norm = mmsclr.transform(X_test)

In [6]:
X_train_norm[:, -1][:5]

array([0.19400856, 0.68259629, 0.71825963, 0.58273894, 0.29743224])

In [7]:
ex = X_train[:, -1]
print('normalized:', ((ex - ex.min()) / (ex.max() - ex.min()))[:5])

normalized: [0.19400856 0.68259629 0.71825963 0.58273894 0.29743224]


In [8]:
# 원본화
remmsclr = mmsclr.inverse_transform(X_train_norm).round(5)

## C. 다양한 scaler

### 1). `RobustScaler()` 

In [13]:
from sklearn.preprocessing import RobustScaler

- 특성 열마다 독립적으로 작용하며 각 값을 중간 값으로 뺀 다음 (데이터셋의 3사분위수와 - 1사분위수)로 나눠서 데이터셋의 스케일 조정.
  - 이상치가 많이 포함된 작은 데이터셋을 다룰 때 특히 도움이 됨.
  - 또환 과대적합이 되기 쉽다면 `RobustScaler`가 좋은 선택.
  - 극단적인 값과 이상치에 영향을 덜 받음.

In [16]:
# step 1
rbsclr = RobustScaler()

# step 2
X_train_robust = rbsclr.fit_transform(X_train)

# step 3
X_test_robust = rbsclr.transform(X_test)

In [17]:
X_train_robust[:, -1][:5]

array([-0.23094904,  1.05002338,  1.14352501,  0.78821879,  0.0402057 ])

In [18]:
ex = X_train[:, -1]
print('robust:', ((ex - np.percentile(ex, 50)) / (np.percentile(ex, 75) - np.percentile(ex, 25)))[:5])

robust: [-0.23094904  1.05002338  1.14352501  0.78821879  0.0402057 ]


### 2) MaxAbsScaler()

In [None]:
from sklearn.preprocessing import MaxAbsScaler

- 각 특성별로 데이터를 최대 절댓값으로 나눔. 따라서 각 특성의 최댓값은 1이며 [-1,1] 범위.
- 데이터를 중앙에 맞추지 않으므로 희소행렬 사용 가능 

In [None]:
# step 1
masclr = MaxAbsScaler()

# step 2
X_train_maxabs = masclr.fit_transform(X_train)

# step 3
X_test_maxabs = masclr.transform(X_test)

In [None]:
X_train_maxabs[:, -1][:5]

In [None]:
ex = X_train[:, -1]
print('MaxAbsScaler:', (ex / np.max(np.abs(ex)))[:5])

### 3) `Normalizer()`

In [None]:
from sklearn.preprocessing import Normalizer

- 특성별이 아닌 샘플별로 정규화 수행. 또한 희소 행렬도 처리 가능. 기본적으로 각 샘플의 L2노름이 1이 되도록 정규화.

In [None]:
# step 1
nrmsclr = Normalizer() # default: norm = 'l2', 'l1', 'max' 

# step 2
X_train_l2 = nrmsclr.fit_transform(X_train)

# step 3
X_test_l2 = nrmsclr.transform(X_test)

In [None]:
X_train_l2[0, :].round(3)

- 원래 특성을 제곱한 행을 하나 더 추가. (0 나눗셈 오류를 다루기 번거로우므로 편의상 0 제거)

In [None]:
# Normalizer는 행 기준이므로 바꿔줌
ex = X_train[0,:]

In [None]:
ex_2f = np.vstack((ex, ex**2))
ex_2f.shape

- L2: 샘플별 특성의 제곱 합을 제곱근으로 나눔

In [None]:
l2_norm = np.sqrt(np.sum(ex_2f ** 2, axis=1))
print(l2_norm)
(ex_2f / l2_norm.reshape(-1, 1))[0].round(3)

- L1: 샘플별 특성의 절댓값 합으로 나눔

In [None]:
# step 1
nrmsclr = Normalizer(norm = 'l1') # default: norm = 'l2', 'l1', 'max' 

# step 2
X_train_l1 = nrmsclr.fit_transform(X_train)
X_train_l1[0, :].round(3)

In [None]:
l1_norm = np.sum(np.abs(ex_2f), axis=1)
print(l1_norm)
(ex_2f / l1_norm.reshape(-1, 1))[0].round(3)

- max: 각 샘플의 최대 절댓값으로 나눔

In [None]:
# step 1
nrmsclr = Normalizer(norm = 'max') # default: norm = 'l2', 'l1', 'max' 

# step 2
X_train_max = nrmsclr.fit_transform(X_train)
X_train_max[0, :].round(3)

In [None]:
max_norm = np.max(np.abs(ex_2f), axis=1)
print(max_norm)
(ex_2f / max_norm.reshape(-1, 1))[0].round(3)