In [110]:
#데이터 전처리: 데이터 정규화와 표준화 (비선형 변환 포함)

In [112]:
#1. 데이터 정규화(Normalization)
#정규화는 데이터의 범위를 0과 1 사이로 변환하는 과정.
# 이는 서로 다른 범위를 가진 데이터를 동일한 스케일로 맞추어 비교하기 쉽게 만듦.

In [115]:
#Min-Max 정규화
#Min-Max 정규화는 가장 일반적인 정규화 방법으로, 각 데이터의 최소값을 0, 최대값을 1로 변환.

In [119]:
#scikit-learn 라이브러리 설치
!pip install scikit-learn



In [123]:
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

#예시 데이터프레임 생성
data = {
    '특성1' : [10,20,30,40,50],
    '특성2' : [1,2,3,4,5]
}
df = pd.DataFrame(data)

#Min-Max 정규화
scaler = MinMaxScaler()
normalized_df = pd.DataFrame(scaler.fit_transform(df), columns = df.columns)

In [129]:
#출력
normalized_df

Unnamed: 0,특성1,특성2
0,0.0,0.0
1,0.25,0.25
2,0.5,0.5
3,0.75,0.75
4,1.0,1.0


In [132]:
#2. 데이터 표준화(Standardization)
#표준화(Standardization)는 데이터를 평균이 0, 표준편차가 1이 되도록 변환하는 과정임.
#이는 정규 분포를 가정한 많은 분석 기법에 유리.

In [136]:
#Z-점수 표준화
#데이터에서 평균을 빼고 표준편차로 나누어, 모든 데이터가 표준 정규분포(평균 0, 표준편차 1)를 따르도록 만듦.

from sklearn.preprocessing import StandardScaler

# Z-점수 표준화
scaler = StandardScaler()
standardized_df = pd.DataFrame(scaler.fit_transform(df), columns=df.columns)

In [138]:
#출력
standardized_df

Unnamed: 0,특성1,특성2
0,-1.414214,-1.414214
1,-0.707107,-0.707107
2,0.0,0.0
3,0.707107,0.707107
4,1.414214,1.414214


In [143]:
#3. 비선형 변황(Non-linear Transformation)
# 비선형 변환은 데이터의 비정상적인 분포를 정규분포에 가깝게 만들기 위해 사용.
# 대표적인 방법)
# 로그 변환, 제곱근 변화, 박스-콕스 변환

In [145]:
#로그(Log) 변환
# 로그 변환은 양의 데이터에서 주로 사용되며, 데이터의 분포를 좁히는 데 유용.
# 특히, 지수 분포를 가진 데이터를 다룰 때 효과적.

In [147]:
import numpy as pd

#로그 변환
df['특성1_log'] = np.log(df['특성1'])

In [151]:
#출력
df

Unnamed: 0,특성1,특성2,특성1_log
0,10,1,2.302585
1,20,2,2.995732
2,30,3,3.401197
3,40,4,3.688879
4,50,5,3.912023


In [154]:
#제곱근(Square Root) 변환
#제곱근 변환은 데이터의 분포를 평탄하게 만들기 위한 또 다른 방법.
#특히, 포아송 분포를 가진 데이터에서 사용됨.

In [156]:
#제곱근 변환
df['특성1_sqrt'] = np.sqrt(df['특성1'])

In [158]:
#출력
df

Unnamed: 0,특성1,특성2,특성1_log,특성1_sqrt
0,10,1,2.302585,3.162278
1,20,2,2.995732,4.472136
2,30,3,3.401197,5.477226
3,40,4,3.688879,6.324555
4,50,5,3.912023,7.071068


In [160]:
# 제곱근 변환을 통해 분포가 줄어드는 효과를 얻음.

In [163]:
#박스-콕스(Box-Cox) 변환
#박스-콕스 변환은 다양한 형태의 데이터 분포를 정규 분포에 가깝게 변환하기 위해 사용됨.
#이 방법은 양수 데이터에서만 사용 가능.

In [168]:
from scipy.stats import boxcox

#박스-콕스 변환
df['특성1_boxcox'], _ = boxcox(df['특성1'])

In [170]:
#출력
df

Unnamed: 0,특성1,특성2,특성1_log,특성1_sqrt,특성1_boxcox
0,10,1,2.302585,3.162278,5.651388
1,20,2,2.995732,4.472136,10.008082
2,30,3,3.401197,5.477226,13.708444
3,40,4,3.688879,6.324555,17.038108
4,50,5,3.912023,7.071068,20.116745


In [172]:
#박스-콕스 변환을 통해 데이터의 분포가 정규분포에 가까워지는 효과.

In [None]:
#요약
#정규화는 데이터의 범위를 0과 1 사이로 변환하는 과정으로, 주로 Min-Max 스케일링을 사용/
#표준화는 데이터를 평균이 0, 표준편차가 1이 되도록 변환하는 과정으로, Z-점수 표준화가 대표적
#비선형 변환은 로그, 제곱근, 박스-콕스 변환 등을 통해 비정상적인 데이터 분포를 정규 분포에 가깝게 변환