## 스케일링

In [2]:
import numpy as np
import pandas as pd
import plotly.express as px

ModuleNotFoundError: No module named 'plotly'

## 샘플 데이터 생성

In [None]:
np.random.seed(1234)
X = np.random.rand(100,3) # 샘플 100개, 특성 3개
# 1번 특성과 차이를 두기
X[:,1] *= 12 # 2번 특성은 10배 이상 증가
X[:,2] += 100 # 3번 특성은 100을 더해 평균 이동 

df = pd.DataFrame(X, columns = ['Feature_A', 'Feature_B', 'Feature_C'])

# 분포 확인
print('--- 데이터 기초 통계량 ---')
display(df.describe())

df_melted = df.melt(var_name = 'Feature', value_name = 'Value')

fig = px.box(df_melted,
             x = 'Value',
             y = 'Feature',
             color = 'Feature',
             title = 'Data Distribution')
fig.show()

# 스케일링 수행
__표준화 (Standardization) : 평균을 0, 표준편차를 1로 변환__
* 정규 분포를 가정하는 알고리즘에 적합 (예 : 선형회귀, 로지스틱 회귀, SVM)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

# 1. 데이터 분할 / 전체 데이터를 8 : 2 비율로 나눈다.
X_train, X_test = train_test_split(df, test_size = 0.2, random_state = 1234)

# 2. 스케일러 정의 및 학습
ss = StandardScaler()

# fit은 train에만 데이터 누수 방지
X_train_ss = ss.fit_transform(X_train)
X_test_ss = ss.transform(X_test)

# 3. 결과 데이터 프레임 구축
df_train_ss = pd.DataFrame(X_train_ss, columns=X_train.columns)
df_test_ss = pd.DataFrame(X_test_ss, columns=X_test.columns)

print("--- [검증] Train 데이터 표준화 통계량 ---")
display(df_train_ss.describe().round(2)) # 정확히 mean=0, std=1

print("\n--- [검증] Test 데이터 표준화 통계량 (Train 기준 적용) ---")
display(df_test_ss.describe().round(2)) # 0과 1에 가깝지만 완벽히 일치하진 않음 (정상)

# 4. 시각화 
fig_ss = px.box(df_train_ss.melt(var_name='Feature', value_name='Value'), 
                 x="Value", y="Feature", color="Feature", 
                 title='Standardized Train Data')
fig_ss.show()

__정규화 (Normalization) : 최소값을 0으로 최대값을 1로 변환__
* KNN, 이미지 처리, 신경망의 입력측 등에서 사용

In [None]:
from sklearn.preprocessing import MinMaxScaler

# 2. 스케일러 정의 및 학습
mm = MinMaxScaler()

# fit은 train에만 데이터 누수 방지
X_train_mm = mm.fit_transform(X_train)
X_test_mm = mm.transform(X_test)

# 3. 결과 데이터 프레임 구축
df_train_mm = pd.DataFrame(X_train_mm, columns = X_train.columns)
df_test_mm = pd.DataFrame(X_test_mm, columns = X_test.columns)

print('--- [검증] Train 데이터 정규화 통계량 ---')
display(df_train_mm.describe())
print('\n--- [검증] Test 데이터 정규화 통계량 ---')
display(df_test_mm.describe())

# 4. 시각화
fig_mm = px.box(df_train_mm.melt(var_name = 'Feature', value_name = 'Value'),
                x = 'Value',
                y = 'Feature',
                color = 'Feature',
                title = 'Min_Max Scaled Train Data')
fig_mm.show()

__절대값 기준 정규화 (MaxAbs Scaler) : 절대값 최대치를 1로 스케일링__
* 희소(sparse)데이터, 텍스트 데이터의 TF-IDF에 적합, 0을 중심으로 대칭적인 분포 유지

In [None]:
from sklearn.preprocessing import MaxAbsScaler

# 2. 스케일러 정의 및 학습
mas = MaxAbsScaler()

# fit은 train에만 데이터 누수 방지
X_train_mas = mas.fit_transform(X_train)
X_test_mas = mas.transform(X_test)

# 3. 결과 데이터 프레임 구축
df_train_mas = pd.DataFrame(X_train_mas, columns = X_train.columns)
df_test_mas = pd.DataFrame(X_test_mas, columns = X_test.columns)

print('--- [검증] Train 데이터 MaxAbs 통계량 ---')
display(df_train_mas.describe())
print('\n--- [검증] Test 데이터 MaxAbs 통계량 ---')
display(df_test_mas.describe())

# 4. 시각화
fig_mas = px.box(df_train_mas.melt(var_name = 'Feature', value_name = 'Value'),
                x = 'Value',
                y = 'Feature',
                color = 'Feature',
                title = 'Max_Abs Scaled Train Data')
fig_mas.show()

__로버스트 스케일링 (Robust Scaling) : 중앙값 (median)과 사분위 범위 (IQR)를 사용__
* 이상치가 많은 데이터에 적합

In [None]:
from sklearn.preprocessing import RobustScaler

# 2. 스케일러 정의 및 학습
rs = RobustScaler()

# fit은 train에만 데이터 누수 방지
X_train_rs = rs.fit_transform(X_train)
X_test_rs = rs.transform(X_test)

# 3. 결과 데이터 프레임 구축
df_train_rs = pd.DataFrame(X_train_rs, columns = X_train.columns)
df_test_rs = pd.DataFrame(X_test_rs, columns = X_test.columns)

print('--- [검증] Train 데이터 Robust 통계량 ---')
display(df_train_rs.describe())
print('\n--- [검증] Test 데이터 Robust 통계량 ---')
display(df_test_rs.describe())

# 4. 시각화
fig_rs = px.box(df_train_rs.melt(var_name = 'Feature', value_name = 'Value'),
                x = 'Value',
                y = 'Feature',
                color = 'Feature',
                title = 'Robust Scaled Train Data')
fig_rs.show()

__로그 변환 (Log Transformation) : 데이터 왜곡 수정__
* 지수적으로 증가하는 데이터, 한쪽 꼬리가 늘어진 경우(왜도가 높을 때)에 정규분포로 변환

In [None]:
# 2. 로그 변환 수행 (log1p = log(1+x))
X_train_log = np.log1p(X_train)
X_test_log = np.log1p(X_test)

# 3. 결과 데이터 프레임 구축
X_train_log_df = pd.DataFrame(X_train_log, columns = df.columns)

print('--- [검증] 로그 변환 후 기초 통계량 ---')
display(X_train_log_df.describe())

# 4. 시각화
fig_log = px.histogram(X_train_log_df.melt(), 
                       x="value", color="variable", 
                       facet_col="variable", 
                       title="Distribution After Log Transformation",
                       ) 
fig_log.show()

__제곱근 변환 (Square Root Transformation) : 데이터에 제곱근을 취함__
* 로그 변환보다 덜 극단 적인 변환이 필요한 경우
* 포아송 분포를 따르는 데이터(특정 시간동안 발생하는 사건 수)를 정규화 할 때 쓰임


In [None]:
# 2. 제곱근 변환 수행 
X_train_sqrt = np.sqrt(X_train)
X_test_sqrt = np.sqrt(X_test)

# 3. 결과 데이터 프레임 구축
X_train_sqrt_df = pd.DataFrame(X_train_sqrt, columns=df.columns)

print("--- [검증] 제곱근 변환 후 기초 통계량 ---")
display(X_train_sqrt_df.describe())

# 4. 시각화
fig_sqrt = px.histogram(X_train_sqrt_df.melt(), 
                        x="value", color="variable", 
                        facet_col="variable", 
                        title="Distribution After Square Root Transformation",
                        )
fig_sqrt.show()

__박스-콕스 변환 (Box-Cox Transformation) : 데이터를 정규 분포에 가깝게 변환__
* 정규성 가정이 중요한 알고리즘에 사용, 양수 데이터만 가능

In [None]:
# 1. 박스-콕스 변환 및 람다 정의
from scipy import stats
X_train_bc = np.zeros_like(X_train)
X_test_bc = np.zeros_like(X_test)
lambdas = [] 

# 2. 최적 람다 찾기
for i in range(X_train.shape[1]):
    X_train_bc[:, i], lmbda = stats.boxcox(X_train.iloc[:, i])
    lambdas.append(lmbda)
    # 데이터 누수 방지를 위해 반드시 테스트 데이터에는 트레인에서 구한 람다를 쓴다.
    X_test_bc[:, i] = stats.boxcox(X_test.iloc[:, i], lmbda=lmbda)

# 3. 결과 데이터 프레임 구축
# 람다 값 확인 (0에 가까우면 로그, 0.5면 제곱근, 1이면 변환 거의 없음)
print(f"--- 각 특성별 최적화된 Lambda 값: {np.round(lambdas, 3)} ---")
df_train_bc = pd.DataFrame(X_train_bc, columns=df.columns)

# 4. 수치적 검증 (기초 통계량)
print("\n--- [검증] Box-Cox 변환 후 기초 통계량 (Train 기준) ---")
display(df_train_bc.describe())

# 5. 시각화
fig_bc = px.histogram(df_train_bc.melt(), 
                      x="value", 
                      color="variable", 
                      facet_col="variable", 
                      title="Box-Cox Transformation: Automating the Search for Normality",
                     ) 
fig_bc.show()

__양자화 (Quantile Transformation) : 데이터를 균일 분포 또는 정규 분포로 변환__
* 이상치가 많거나 복잡한 분포를 가진 데이터

In [None]:
# 1. 양자화
from sklearn.preprocessing import QuantileTransformer
qt = QuantileTransformer(output_distribution='normal', random_state = 1234) # output_distribution = normal -> 정규분포

# 2. 결과 데이터 프레임 구축
X_train_qt = qt.fit_transform(X_train)
X_test_qt = qt.transform(X_test)

df_train_qt = pd.DataFrame(X_train_qt, columns = df.columns)

print('--- [검증] 양자화 변환 후 기초 통계량 ---')
display(df_train_qt.describe())

# 3. 시각화
fig_qt = px.histogram(df_train_qt.melt(),
                      x = 'value',
                      color = 'variable',
                      facet_col = 'variable',
                      title = "Quantile Transformation: Forced Normal Distribution")
fig_qt.show()

__파워 변환 (Power Transformation) : Yeo-Johnson 또는 Box-Cox 변환 사용__
* 양수 데이터만 쓰이는 Box-Cox를 보완하여 음수도 가능

In [None]:
# 1. 파워변환
from sklearn.preprocessing import PowerTransformer
pt = PowerTransformer(method = 'yeo-johnson', standardize = True)

# 2. 결과 데이터 프레임 구축
X_train_pt = pt.fit_transform(X_train)
X_test_pt = pt.transform(X_test)

df_train_pt = pd.DataFrame(X_train_pt, columns = X_train.columns)

print(f'--- 각 특성별 최적 람다값 : {np.round(pt.lambdas_,3)} ---')
print('\n--- [검증] 파워 변환 후 기초 통계량 ---')
display(df_train_pt.describe())

# 3. 시각화
fig_pt = px.histogram(df_train_pt.melt(),
                      x = 'value',
                      color = 'variable',
                      facet_col = 'variable',
                      title = "Quantile Transformation: Forced Normal Distribution")
fig_pt.show()

__L1 정규화 (L1 Normalization) : 각 샘플의 L1 norm이 1이 되도록 스케일링__
* 텍스트 분류 등에서 사용


In [None]:
# 1. L1 정규화
from sklearn.preprocessing import Normalizer
import matplotlib.pyplot as plt
import seaborn as sns
l1 = Normalizer(norm = 'l1')

X_train_l1 = l1.fit_transform(X_train)
X_test_l1 = l1.transform(X_test)

# 2. 결과 데이터 프레임 구축
df_train_l1 = pd.DataFrame(X_train_l1, columns = X_train.columns)

print('--- [검증] L1 정규화 후 첫 번째 행의 합 ---')
print(df_train_l1.iloc[0].abs().sum())

display(df_train_l1.head().round(4))

# 3. 시각화
plt.figure(figsize=(18, 6))

# 타격 지점 1: 각 특성의 분포 변화 (KDE Plot)
plt.subplot(1, 3, 1)
for col in df_train_l1.columns:
    sns.kdeplot(df_train_l1[col], label=col, fill=True)
plt.title("Feature Distributions (L1 Normalized)")
plt.xlabel("Normalized Value (0 to 1)")
plt.legend()

# 타격 지점 2: 개별 샘플의 특성 비중 (Stacked Bar - 첫 10개 행)
# [Rationale] L1의 핵심은 행 내 합이 1이라는 점을 시각적으로 보여주는 것
plt.subplot(1, 3, 2)
df_train_l1.head(10).plot(kind='bar', stacked=True, ax=plt.gca())
plt.title("Sample-wise Feature Proportions (Top 10)")
plt.xlabel("Sample Index")
plt.ylabel("Proportion (Sum = 1)")
plt.legend(bbox_to_anchor=(1.05, 1), loc='upper left')

# 타격 지점 3: 정규화 전/후의 상관관계 유지 확인 (Heatmap)
plt.subplot(1, 3, 3)
sns.heatmap(df_train_l1.corr(), annot=True, cmap='RdBu_r', center=0)
plt.title("Feature Correlation Matrix")

plt.tight_layout()
plt.show()