# 데이터 정제

## 결측치 처리

In [None]:
data = data.dropna() # 결측치 제거

data = data.fillna(titanic.mean()) # 평균값으로 대체

data = data.fillna(titanic.median()) #중앙값으로 대체

data = data.fillna(-1)  # 예를 들어, -1로 대체

data = data.fillna(method='ffill')  # 이전 값으로 대체 (forward fill)

data = data.fillna(titanic.mode().iloc[0]) # 최빈값으로 대체

## 이상치 처리

In [34]:
import numpy as np

# 데이터 생성
np.random.seed(42)
data = np.concatenate([np.random.randint(1, 10, 50), np.random.randint(10, 90, 45), np.random.randint(91, 100, 5)])

print("Original Data:")
print(data)

# 이상치 식별
std_dev = np.std(data)
mean = np.mean(data)
lower_bound = mean - 2 * std_dev
upper_bound = mean + 2 * std_dev
outliers = [x for x in data if x < lower_bound or x > upper_bound]

print("Identified Outliers:")
print(outliers)

Original Data:
[ 7  4  8  5  7  3  7  8  5  4  8  8  3  6  5  2  8  6  2  5  1  6  9  1
  3  7  4  9  3  5  3  7  5  9  7  2  4  9  2  9  5  2  4  7  8  3  1  4
  2  8 13 11 15 63 13 63 72 27 53 43 83 71 23 57 24 81 87 71 49 89 62 33
 35 69 50 38 24 54 74 80 18 10 17 72 20 17 44 44 42 14 50 37 16 82 81 92
 91 97 97 98]
Identified Outliers:
[89, 92, 91, 97, 97, 98]


In [36]:
# 이상치 평균값으로 대체
data_cleaned = np.where((data < lower_bound) | (data > upper_bound), round(mean), data)

print("Data with Outliers Replaced:")
print(data_cleaned)

Data with Outliers Replaced:
[ 7  4  8  5  7  3  7  8  5  4  8  8  3  6  5  2  8  6  2  5  1  6  9  1
  3  7  4  9  3  5  3  7  5  9  7  2  4  9  2  9  5  2  4  7  8  3  1  4
  2  8 13 11 15 63 13 63 72 27 53 43 83 71 23 57 24 81 87 71 49 28 62 33
 35 69 50 38 24 54 74 80 18 10 17 72 20 17 44 44 42 14 50 37 16 82 81 28
 28 28 28 28]


# 데이터 스케일링

### MinMaxScaler

이 스케일러는 데이터를 0과 1 사이로 변환합니다.  
(x-min(x)) / (max(x)-min(x))

In [2]:
import numpy as np
from sklearn.preprocessing import MinMaxScaler

# 예제 데이터 생성
np.random.seed(42)
data = np.random.rand(5, 3)  # 5행 3열의 랜덤 데이터

# 데이터프레임 생성 (예제 데이터를 사용할 때 주로 사용)
import pandas as pd
df = pd.DataFrame(data, columns=['Feature1', 'Feature2', 'Feature3'])

# 데이터 정규화
scaler = MinMaxScaler()
scaled_data = scaler.fit_transform(df)

# 정규화된 데이터 출력
normalized_df = pd.DataFrame(scaled_data, columns=df.columns)
print("Original Data:\n", df)
print("\nNormalized Data:\n", normalized_df)

Original Data:
    Feature1  Feature2  Feature3
0  0.374540  0.950714  0.731994
1  0.598658  0.156019  0.155995
2  0.058084  0.866176  0.601115
3  0.708073  0.020584  0.969910
4  0.832443  0.212339  0.181825

Normalized Data:
    Feature1  Feature2  Feature3
0  0.408669  1.000000  0.707690
1  0.698093  0.145608  0.000000
2  0.000000  0.909111  0.546888
3  0.839390  0.000000  1.000000
4  1.000000  0.206159  0.031736


### StandardScaler

이 스케일러는 데이터를 평균이 0이고 표준편차가 1이 되도록 변환합니다.  
(x - mean(x)) / std(x)

In [8]:
from sklearn.preprocessing import StandardScaler

# 데이터 정규화
scaler = StandardScaler()
scaled_data = scaler.fit_transform(df)

# 정규화된 데이터 출력
normalized_df = pd.DataFrame(scaled_data, columns=df.columns)
print("Original Data:\n", df)
print("\nNormalized Data:\n", normalized_df)

Original Data:
    Feature1  Feature2  Feature3
0  0.374540  0.950714  0.731994
1  0.598658  0.156019  0.155995
2  0.058084  0.866176  0.601115
3  0.708073  0.020584  0.969910
4  0.832443  0.212339  0.181825

Normalized Data:
    Feature1  Feature2  Feature3
0 -0.511541  1.314917  0.644253
1  0.308415 -0.735840 -1.176364
2 -1.669325  1.096761  0.230572
3  0.708716 -1.085336  1.396257
4  1.163735 -0.590502 -1.094719


### RobustScaler

RobustScaler는 중앙값(median)과 IQR(Interquartile Range)를 사용하여 특성들을 스케일링합니다.  
IQR은 데이터의 25번째 백분위수(Q1, 제1사분위수)와 75번째 백분위수(Q3, 제3사분위수) 사이의 범위를 나타냅니다.  
RobustScaler는 특성들의 중앙값을 0으로, IQR을 1로 만들어줍니다.  
이러한 특성 때문에 이상치(outliers)에 덜 민감한 특성이 있습니다. 이상치가 많은 데이터셋에 유용합니다.

In [10]:
from sklearn.preprocessing import RobustScaler

scaler = RobustScaler()
scaled_data = scaler.fit_transform(df)

# 정규화된 데이터 출력
normalized_df = pd.DataFrame(scaled_data, columns=df.columns)
print("Original Data:\n", df)
print("\nNormalized Data:\n", normalized_df)

Original Data:
    Feature1  Feature2  Feature3
0  0.374540  0.950714  0.731994
1  0.598658  0.156019  0.155995
2  0.058084  0.866176  0.601115
3  0.708073  0.020584  0.969910
4  0.832443  0.212339  0.181825

Normalized Data:
    Feature1  Feature2  Feature3
0 -0.671954  1.039734  0.237889
1  0.000000 -0.079307 -0.809061
2 -1.620756  0.920693  0.000000
3  0.328046 -0.270017  0.670330
4  0.700934  0.000000 -0.762111


### Normalizer

Normalizer는 각 특성 벡터를 유클리드 거리가 1이 되도록 변환합니다.  
이는 각 데이터 포인트를 벡터로 취급하고, 해당 벡터를 정규화하여 길이를 1로 만드는 작업입니다.  
이러한 정규화는 각 데이터 포인트를 단위 길이로 변환하여 다른 관점에서 비교할 때 유용합니다.  
예를 들어, 유사도 측정이나 클러스터링 알고리즘에서 사용될 수 있습니다.

In [20]:
from sklearn.preprocessing import Normalizer

# 예제 데이터 생성
data = [[1, 2],
     [3, 4],
     [5, 6]]

scaler = Normalizer()
scaled_data = scaler.fit_transform(data)

# 정규화된 데이터 출력
print("Original Data:\n", data)
print("\nNormalized Data:\n", scaled_data)

Original Data:
 [[1, 2], [3, 4], [5, 6]]

Normalized Data:
 [[0.4472136  0.89442719]
 [0.6        0.8       ]
 [0.6401844  0.76822128]]


# 차원축소

In [49]:
from sklearn.decomposition import PCA
import numpy as np

# 예시 데이터 생성
np.random.seed(42)
data = np.random.rand(10, 5)  # 100개의 샘플, 각 샘플은 5개의 특성으로 구성된 데이터

# PCA 모델 생성
pca = PCA(n_components=2)  # 2차원으로 축소

# PCA 모델을 사용하여 데이터 변환
transformed_data = pca.fit_transform(data)

print("Original Data Shape:", data.shape)
print(data)
print("Transformed Data Shape:", transformed_data.shape)
print(transformed_data)

Original Data Shape: (10, 5)
[[0.37454012 0.95071431 0.73199394 0.59865848 0.15601864]
 [0.15599452 0.05808361 0.86617615 0.60111501 0.70807258]
 [0.02058449 0.96990985 0.83244264 0.21233911 0.18182497]
 [0.18340451 0.30424224 0.52475643 0.43194502 0.29122914]
 [0.61185289 0.13949386 0.29214465 0.36636184 0.45606998]
 [0.78517596 0.19967378 0.51423444 0.59241457 0.04645041]
 [0.60754485 0.17052412 0.06505159 0.94888554 0.96563203]
 [0.80839735 0.30461377 0.09767211 0.68423303 0.44015249]
 [0.12203823 0.49517691 0.03438852 0.9093204  0.25877998]
 [0.66252228 0.31171108 0.52006802 0.54671028 0.18485446]]
Transformed Data Shape: (10, 2)
[[ 0.56141715 -0.16712381]
 [ 0.01600634  0.61358387]
 [ 0.88469781  0.08312493]
 [ 0.17512929  0.14441486]
 [-0.25376338 -0.04229751]
 [-0.09108191 -0.36621103]
 [-0.7391968   0.24596106]
 [-0.44240949 -0.26632862]
 [-0.09652537 -0.01912396]
 [-0.01427363 -0.2259998 ]]
