## 스케일링 예제

### 라이브러리 준비

In [47]:
!pip install scikit-learn
!pip install plotly
!pip install ipywidgets
!pip install chart_studio
!pip install cufflinks

Collecting cufflinks
  Using cached cufflinks-0.17.3-py3-none-any.whl
Collecting colorlover>=0.2.1 (from cufflinks)
  Using cached colorlover-0.3.0-py3-none-any.whl.metadata (421 bytes)
Using cached colorlover-0.3.0-py3-none-any.whl (8.9 kB)
Installing collected packages: colorlover, cufflinks
Successfully installed colorlover-0.3.0 cufflinks-0.17.3


In [48]:
# 분석도구
import numpy as np
import pandas as pd
# 시각화도구
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import chart_studio.plotly as py
import cufflinks as cf
cf.go_offline(connected=True)
# 경고 무시
import warnings
warnings.filterwarnings('ignore')

### 샘플 데이터 생성

In [6]:
# 샘플 데이터 생성
np.random.seed(2024)
X = np.random.rand(100, 3) * 100  # 100개의 샘플, 3개의 특성
X[:, 1] *= 12  # 두 번째 특성의 스케일을 10배로 증가
X[:, 2] += 100  # 세 번째 특성에 100을 더해 평균 이동

# DataFrame으로 변환
df = pd.DataFrame(X, columns=['특성1', '특성2', '특성3'])

print("생성된 샘플 데이터:")
print(df.describe())

생성된 샘플 데이터:
              특성1          특성2         특성3
count  100.000000   100.000000  100.000000
mean    50.698325   646.709015  149.666397
std     26.183394   343.098691   29.483443
min      1.778343    22.928337  100.376798
25%     28.854793   345.173916  125.053057
50%     49.019900   717.983968  147.839686
75%     74.309943   917.506860  175.089639
max     94.222314  1189.430241  199.974131


### 스케일링 수행

__표준화 (Standardization) : 평균을 0, 표준편차를 1로 변환__

* 정규 분포를 가정하는 알고리즘(예: 선형 회귀, 로지스틱 회귀, SVM)에 적합

In [56]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [57]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("표준화된 데이터:")
print(X_scaled_df.describe())

표준화된 데이터:
                특성1           특성2           특성3
count  1.000000e+02  1.000000e+02  1.000000e+02
mean  -6.450396e-16  3.930190e-16  1.987299e-15
std    1.005038e+00  1.005038e+00  1.005038e+00
min   -1.877772e+00 -1.827239e+00 -1.680194e+00
25%   -8.384542e-01 -8.832857e-01 -8.390247e-01
50%   -6.442560e-02  2.087855e-01 -6.226932e-02
75%    9.063213e-01  7.932472e-01  8.666328e-01
max    1.670649e+00  1.589791e+00  1.714901e+00


In [59]:
X_scaled_df.iplot(kind='box', orientation='h')

__정규화 (Normalization : 최소값을 0, 최대값을 1로 변환__

* 이미지 처리, 신경망의 입력층 등에서 자주 사용

In [63]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
X_scaled = scaler.fit_transform(X)

In [64]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("정규화된 데이터:")
print(X_scaled_df.describe())

정규화된 데이터:
              특성1         특성2         특성3
count  100.000000  100.000000  100.000000
mean     0.529185    0.534745    0.494889
std      0.283235    0.294126    0.296026
min      0.000000    0.000000    0.000000
25%      0.292896    0.276250    0.247760
50%      0.511029    0.595846    0.476548
75%      0.784601    0.766890    0.750149
max      1.000000    1.000000    1.000000


In [65]:
X_scaled_df.iplot(kind='box', orientation='h')

__최대 절대값 스케일링 (MaxAbs Scaling) : 각 특성의 최대 절대값을 1로 스케일링__

* 희소 데이터(sparse data)에 적합, 0을 중심으로 대칭적인 분포를 유지

In [93]:
from sklearn.preprocessing import MaxAbsScaler
scaler = MaxAbsScaler()
X_scaled = scaler.fit_transform(X)

In [94]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("최대 절대값 스케일링된 데이터:")
print(X_scaled_df.describe())

최대 절대값 스케일링된 데이터:
              특성1         특성2         특성3
count  100.000000  100.000000  100.000000
mean     0.538071    0.543713    0.748429
std      0.277890    0.288456    0.147436
min      0.018874    0.019277    0.501949
25%      0.306242    0.290201    0.625346
50%      0.520258    0.603637    0.739294
75%      0.788666    0.771383    0.875561
max      1.000000    1.000000    1.000000


In [95]:
X_scaled_df.iplot(kind='box', orientation='h')

__로버스트 스케일링 (Robust Scaling) : 중앙값(median)과 사분위 범위(IQR)를 사용__

* 이상치가 많은 데이터에 적합

In [69]:
from sklearn.preprocessing import RobustScaler
scaler = RobustScaler()
X_scaled = scaler.fit_transform(X)

In [70]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("로버스트 스케일링된 데이터:")
print(X_scaled_df.describe())

로버스트 스케일링된 데이터:
              특성1           특성2         특성3
count  100.000000  1.000000e+02  100.000000
mean     0.036925 -1.245341e-01    0.036508
std      0.576027  5.994740e-01    0.589238
min     -1.039300 -1.214425e+00   -0.948564
25%     -0.443626 -6.513867e-01   -0.455399
50%      0.000000 -1.006140e-16    0.000000
75%      0.556374  3.486133e-01    0.544601
max      0.994440  8.237273e-01    1.041927


In [71]:
X_scaled_df.iplot(kind='box', orientation='h')

__로그 변환 (Log Transformation) : 데이터에 로그를 취함__

* 지수적으로 증가하는 데이터, 오른쪽으로 치우친 분포

In [72]:
import numpy as np
X_scaled = np.log1p(X)  # log(1+x) to handle zero values

In [73]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("로그 변환된 데이터:")
print(X_scaled_df.describe())

로그 변환된 데이터:
              특성1         특성2         특성3
count  100.000000  100.000000  100.000000
mean     3.766916    6.228572    4.995532
std      0.679703    0.855960    0.200369
min      1.021855    3.175063    4.618844
25%      3.396331    5.846826    4.836701
50%      3.912421    6.577802    5.002870
75%      4.321581    6.822746    5.170993
max      4.556214    7.082070    5.303176


In [74]:
X_scaled_df.iplot(kind='box', orientation='h')

__제곱근 변환 (Square Root Transformation) : 데이터의 제곱근을 취함__

* 로그 변환보다 덜 극단적인 변환이 필요한 경우

In [75]:
import numpy as np
X_scaled = np.sqrt(X)

In [76]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("제곱근 변환된 데이터:")
print(X_scaled_df.describe())

제곱근 변환된 데이터:
              특성1         특성2         특성3
count  100.000000  100.000000  100.000000
mean     6.832115   24.206742   12.173974
std      2.015227    7.833022    1.214702
min      1.333545    4.788354   10.018822
25%      5.371646   18.578322   11.182708
50%      7.001421   26.794973   12.158934
75%      8.620253   30.290347   13.232144
max      9.706818   34.488117   14.141221


In [77]:
X_scaled_df.iplot(kind='box', orientation='h')

__박스-콕스 변환 (Box-Cox Transformation) : 데이터를 정규 분포에 가깝게 변환__

* 정규성 가정이 중요한 알고리즘에 사용

In [78]:
from scipy import stats
import numpy as np

# 각 열에 대해 개별적으로 Box-Cox 변환을 적용합니다.
X_scaled = np.zeros_like(df)
lambda_params = []

for i in range(df.shape[1]):
    X_scaled[:, i], lambda_param = stats.boxcox(df.iloc[:, i])
    lambda_params.append(lambda_param)

print("Box-Cox 변환에 사용된 lambda 값:", lambda_params)

Box-Cox 변환에 사용된 lambda 값: [0.7176740276840164, 0.8387553164730721, 0.6300906597156184]


In [79]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("Box-Cox 변환된 데이터:")
print(X_scaled_df.describe())

Box-Cox 변환된 데이터:
              특성1         특성2         특성3
count  100.000000  100.000000  100.000000
mean    21.199955  264.073779   35.493163
std      8.984627  124.994413    4.647588
min      0.712823   15.303977   27.373518
25%     14.167411  159.187978   31.675539
50%     21.368542  295.252638   35.375485
75%     29.287768  362.948109   39.533049
max     34.987360  451.519365   43.124409


In [80]:
X_scaled_df.iplot(kind='box', orientation='h')

__양자화 (Quantile Transformation) : 데이터를 균일 분포 또는 정규 분포로 변환__

* 이상치가 많거나 복잡한 분포를 가진 데이터

In [81]:
from sklearn.preprocessing import QuantileTransformer
scaler = QuantileTransformer(output_distribution='normal')
X_scaled = scaler.fit_transform(X)

In [82]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("양자화된 데이터:")
print(X_scaled_df.describe())

양자화된 데이터:
                특성1           특성2           특성3
count  1.000000e+02  1.000000e+02  1.000000e+02
mean   9.805667e-13  9.783196e-13  9.786261e-13
std    1.207630e+00  1.207630e+00  1.207630e+00
min   -5.199338e+00 -5.199338e+00 -5.199338e+00
25%   -6.745546e-01 -6.745546e-01 -6.745546e-01
50%    6.938894e-17  6.938894e-17  6.938894e-17
75%    6.745546e-01  6.745546e-01  6.745546e-01
max    5.199338e+00  5.199338e+00  5.199338e+00


In [83]:
X_scaled_df.iplot(kind='box', orientation='h')

__파워 변환 (Power Transformation) : Yeo-Johnson 또는 Box-Cox 변환을 사용__

* 정규성을 향상시키고자 할 때

In [84]:
from sklearn.preprocessing import PowerTransformer
scaler = PowerTransformer(method='yeo-johnson')
X_scaled = scaler.fit_transform(X)

In [85]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("파워 변환된 데이터:")
print(X_scaled_df.describe())

파워 변환된 데이터:
                특성1           특성2           특성3
count  1.000000e+02  1.000000e+02  1.000000e+02
mean   6.794565e-16  4.884981e-17 -2.100542e-15
std    1.005038e+00  1.005038e+00  1.005038e+00
min   -2.262206e+00 -1.997699e+00 -1.755455e+00
25%   -7.893526e-01 -8.439052e-01 -8.256474e-01
50%    1.682651e-02  2.502742e-01 -2.562468e-02
75%    9.054330e-01  7.950453e-01  8.736076e-01
max    1.545592e+00  1.508079e+00  1.650536e+00


In [86]:
X_scaled_df.iplot(kind='box', orientation='h')

__L1 정규화 (L1 Normalization) : 각 샘플의 L1 norm이 1이 되도록 스케일링__

* 텍스트 분류 등에서 사용

In [87]:
from sklearn.preprocessing import Normalizer
scaler = Normalizer(norm='l1')
X_scaled = scaler.fit_transform(X)

In [88]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("L1 정규화된 데이터:")
print(X_scaled_df.describe())

L1 정규화된 데이터:
              특성1         특성2         특성3
count  100.000000  100.000000  100.000000
mean     0.071596    0.702282    0.226122
std      0.051975    0.175675    0.142704
min      0.001971    0.094348    0.080783
25%      0.034757    0.632593    0.125699
50%      0.062439    0.765441    0.172714
75%      0.085093    0.819145    0.278029
max      0.340118    0.895381    0.721181


In [89]:
X_scaled_df.iplot(kind='box', orientation='h')

__L2 정규화 (L2 Normalization) : 각 샘플의 L2 norm이 1이 되도록 스케일링__

* 벡터의 방향만 중요한 경우

In [90]:
from sklearn.preprocessing import Normalizer
scaler = Normalizer(norm='l2')
X_scaled = scaler.fit_transform(X)

In [91]:
X_scaled_df = pd.DataFrame(X_scaled, columns=['특성1', '특성2', '특성3'])
print("L2 정규화된 데이터:")
print(X_scaled_df.describe())

L2 정규화된 데이터:
              특성1         특성2         특성3
count  100.000000  100.000000  100.000000
mean     0.098912    0.898855    0.310242
std      0.083279    0.175394    0.221803
min      0.002359    0.125738    0.094068
25%      0.043017    0.896621    0.151731
50%      0.080942    0.971477    0.219711
75%      0.114531    0.985869    0.411695
max      0.551138    0.994966    0.961119


In [92]:
X_scaled_df.iplot(kind='box', orientation='h')