데이터 전처리

#  정규화 (Normalization):Min-Max 정규화

In [None]:
# 정규화는 데이터를 특정 범위(보통 [0, 1])로 스케일링하는 과정입니다. 
# 이는 각 특징(feature) 값들이 동일한 범위를 가지도록 합니다.

# 정규화(𝑋)= (𝑋 − 𝑋min) / (𝑋max − 𝑋min) 

## 준비

In [2]:
from sklearn.preprocessing import MinMaxScaler
import numpy as np

# 예시 데이터 (각 열은 하나의 특징을 나타냄)
# 데이터 준비

data = np.array([[100, 0.001],
                 [8, 0.05],
                 [50, 0.005]])

## 정규화

In [3]:
# MinMaxScaler를 사용한 정규화 (0 ~ 1 범위로)

scaler = MinMaxScaler()
normalized_data = scaler.fit_transform(data)

print(normalized_data)

[[1.         0.        ]
 [0.         1.        ]
 [0.45652174 0.08163265]]


## 계산과정 수학적 이해

### 원본 데이터

In [4]:

# 특징 1 (A)	특징 2 (B)
# 1	    100	0.001
# 2	    8	0.050
# 3	    50	0.005

### 정규화된 데이터

In [5]:
# MinMaxScaler 변환 과정 설명
# 특징 1 (A):
# 최소값: 𝑋min=8 ,최대값: 𝑋max=100
# 첫 번째 데이터(100)는 최대값이므로, 
# 𝑋= (100−8)/(100-8) =1.0로 변환됩니다.
# 두 번째 데이터(8)는 최소값이므로, 
# 𝑋′=(8−8)/(100−8)=0.0로 변환됩니다.
# 세 번째 데이터(50)는 중간값이므로, 
# 𝑋′=(50−8)/(100−8)= 0.490196로 변환됩니다.
# 특징 2 (B):
# 최소값: 𝑋min=0.001
# 최대값: 𝑋max=0.050

# 첫 번째 데이터(0.001)는 최소값이므로, 
# 𝑋′=(0.001−0.001)/(0.050−0.001)=0.0로 변환됩니다.
# 두 번째 데이터(0.050)는 최대값이므로, 
# 𝑋′=(0.050−0.001)/(0.050−0.001)=1.0 로 변환됩니다.
# 세 번째 데이터(0.005)는 중간값이므로, 
# 𝑋′=(0.005−0.001)/(0.050−0.001)=0.08 로 변환됩니다.

# 표준화(Standardization)

In [6]:
# 표준화는 데이터를 평균이 0, 표준편차가 1이 되도록 변환하는 과정입니다. 
# 이는 데이터가 평균 중심으로 모이고, 각 특징의 변동성을 동일하게 맞추는 데 사용됩니다.

# 이를 통해 각 특성이 동일한 스케일을 가지며, 데이터의 분포가 정규 분포를 따르도록 만듭니다. 
# 표준화는 머신러닝에서 특징 값의 범위를 균일하게 만들어주는 데 중요한 역할을 합니다.

# 표준화(X ′) =  (X−μ) / σ


## 준비

In [7]:
# 라이브러리
from sklearn.preprocessing import StandardScaler
import numpy as np

data = np.array([[100, 0.001],
                 [8, 0.05],
                 [50, 0.005]])

## 표준화 

In [8]:
scaler = StandardScaler()
standardized_data = scaler.fit_transform(data)

print(standardized_data)

[[ 1.25865951 -0.79521872]
 [-1.18774911  1.41038791]
 [-0.07091039 -0.61516919]]


## 계산과정 수학적 이해

In [9]:
# 표준화(X ′) =  (X−μ) / σ



# 특징 1 (A)	특징 2 (B)
# 1	100	0.001
# 2	8	0.050
# 3	50	0.005


# 표준화 과정을 수학적으로 설명
# 특징 1 (A):
# 평균과 표준편차를 계산한 후, 표준화 공식을 사용하여 각 데이터를 변환합니다.

# 평균 (𝜇) 계산:
#     𝜇𝐴= (100+8+50)/3=158/3= 52.67

# 표준편차 (𝜎) 계산 

# σ A​  ≈37.99


# 데이터 1 (100):
# 𝑋1′= (100−52.67)/37.99=47.33/37.99≈1.25

# 데이터 2 (8):
# 𝑋2′= (8−52.67)/37.99=−44.67/37.99≈−1.18

# 데이터 3 (50):
# 𝑋3′=(50−52.67)/37.99=−2.67/37.99 ≈−0.07


# 로그 변환 (Log Transformation)

In [10]:
# 로그 변환은 데이터의 분포가 매우 비대칭적일 때, 데이터의 분포를 정규 분포에 가깝게 하기 위해 사용됩니다. 
# 로그 변환은 큰 값들을 축소하는 효과를 줍니다.

In [11]:
import numpy as np

# 예시 데이터 (양수 데이터)
data = np.array([[1, 2], [2, 3], [3, 4], [4, 5]])

# 로그 변환 (log(x))
log_transformed_data = np.log1p(data)  # log1p는 log(1 + x)로 0에 가까운 값에서 안전하게 사용

print(log_transformed_data)

[[0.69314718 1.09861229]
 [1.09861229 1.38629436]
 [1.38629436 1.60943791]
 [1.60943791 1.79175947]]
