# 데이터 전처리

# Garbage In, Garbage Out

# 사이킷런의 ML 알고리즘에 적용하기 전에 데이터에 대해 미리 처리해야할 기본사항

* 결손값. 즉 NaN, Null 값은 허용되지 않는다
 - Drop
 - 대체값 선정

* 사이킷런 머신러닝 알고리즘은 문자열을 입력값으로 허용되지 않는다
 - Drop
 - 인코딩

## 데이터 인코딩

  * 레이블 인코딩(Label encoding)
    : 카테고리 피처를 코드형 숫자값으로 변환하는 방식

In [4]:
items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '믹서', '믹서']

In [3]:
from sklearn.preprocessing import LabelEncoder

In [5]:
encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)
print('encoding result : ', labels)

encoding result :  [0 1 4 5 3 2 2]


In [6]:
print('encoding class : ', encoder.classes_)

encoding class :  ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [None]:
# 원본이 있으므로 디코딩 가능
print('decoding class : ', encoder.inverse_transform([4, 5, 2, 0, 1, 1, 1, 3, 3]))

In [None]:
'''
# 주의
# LabelEncoder를 통한 레이블 인코딩은 label이 숫자로 증가하는 형태.
# 그러나 이 숫자 특성에 영향을 받는 ML 알고리즘(대표적 선형 회귀 알고리즘)일 경우는 적용하지 않아야 한다.
'''

* 원-핫 인코딩(One-Hot encoding)

: 고유값에 해당하는 컬럼에만 1을 표시하고 나머지는 0을 표시하는 방식

> 주의

1) 모든 문자열 값이 숫자형 값이어야함

2) 입력값으로 2차원 데이터가 필요함

In [7]:
items = ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '믹서', '믹서']

In [8]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)
print('encoding result : ', labels)

encoding result :  [0 1 4 5 3 2 2]


In [17]:
labels = labels.reshape(-1, 1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [2],
       [2]])

In [23]:
# one-hot encoding
from sklearn.preprocessing import OneHotEncoder

In [24]:
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)

OneHotEncoder()

In [25]:
oh_labels = oh_encoder.transform(labels)
oh_labels

<7x6 sparse matrix of type '<class 'numpy.float64'>'
	with 7 stored elements in Compressed Sparse Row format>

In [26]:
oh_labels.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [27]:
import pandas as pd

df = pd.DataFrame({'item': ['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서']})

pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


## 피처 스케일링

### 피처 스케일링 : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
## 대표적 방법 : 표준화(Standardization), 정규화(Normalization)

In [None]:
'''
# 표준화 : 데이터의 피처 각각이 평균 0이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환
# 정규화 : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념

# 사이킷런 정규화 (Normalize module) 
# : 보통 일반적인 정규화, 표준화는 피처 스케일링으로 통칭
  : 사이킷런 정규화는 선형대수 개념 정규화 - 벡터 정규화 지칭
'''

In [28]:
# 정규화
from sklearn.datasets import load_iris
import pandas as pd

In [29]:
iris = load_iris()
iris_data = iris.data
iris_data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [31]:
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [32]:
# feature 평균 
iris_df.mean()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

In [33]:
# feature 분산 값
iris_df.var()

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [None]:
'''
# SVM, 선형회귀, 로지스틱 회귀 알고리즘 등은 데이터가 가우시안 분포를 가지고 있다고 가정하고 설계(구현)된 알고리즘.
  사전에 표준화를 적용하면 예측 성능 향상에 중요한 요소가 될 수 있음
'''

In [34]:
# 표준화를 쉽게 하도록 지원하는 클래스 : StandardScaler
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
scaled_iris = scaler.transform(iris_df)

In [35]:
scaled_iris

array([[-9.00681170e-01,  1.01900435e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00, -1.31979479e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.38535265e+00,  3.28414053e-01, -1.39706395e+00,
        -1.31544430e+00],
       [-1.50652052e+00,  9.82172869e-02, -1.28338910e+00,
        -1.31544430e+00],
       [-1.02184904e+00,  1.24920112e+00, -1.34022653e+00,
        -1.31544430e+00],
       [-5.37177559e-01,  1.93979142e+00, -1.16971425e+00,
        -1.05217993e+00],
       [-1.50652052e+00,  7.88807586e-01, -1.34022653e+00,
        -1.18381211e+00],
       [-1.02184904e+00,  7.88807586e-01, -1.28338910e+00,
        -1.31544430e+00],
       [-1.74885626e+00, -3.62176246e-01, -1.34022653e+00,
        -1.31544430e+00],
       [-1.14301691e+00,  9.82172869e-02, -1.28338910e+00,
        -1.44707648e+00],
       [-5.37177559e-01,  1.47939788e+00, -1.28338910e+00,
        -1.31544430e+00],
       [-1.26418478e+00,  7.88807586e-01, -1.22655167e+00,
      

In [36]:
df_scaled_iris = pd.DataFrame(data=scaled_iris, columns=iris.feature_names)
df_scaled_iris

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444
...,...,...,...,...
145,1.038005,-0.131979,0.819596,1.448832
146,0.553333,-1.282963,0.705921,0.922303
147,0.795669,-0.131979,0.819596,1.053935
148,0.432165,0.788808,0.933271,1.448832


In [37]:
# 표준화된 데이터의 feature 평균값
df_scaled_iris.mean()

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

In [38]:
# 표준화된 데이터의 feature 분산값
df_scaled_iris.var()

sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64

## 정규화를 도와주는 클래스 : MinMaxScaler

* 데이터 값을 0과 1사이의 범위값으로 변환 (음수값이 있으면 -1에서 1값으로 변환)

* 데이터의 분포가 가우시안 분포가 아닐 경우에 적용해 볼 수 있다

In [41]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
scaler.fit(iris_df)
scaled_iris = scaler.transform(iris_df)

In [42]:
iris_df_scaled = pd.DataFrame(data=scaled_iris, columns=iris.feature_names)
iris_df_scaled

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625000,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.500000,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667
...,...,...,...,...
145,0.666667,0.416667,0.711864,0.916667
146,0.555556,0.208333,0.677966,0.750000
147,0.611111,0.416667,0.711864,0.791667
148,0.527778,0.583333,0.745763,0.916667


In [None]:
'''
# 학습 데이터와 테스트 데이터에 fit(), transform(), fit_transform() 적용시 유의사항
1) 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
2) 1)이 여의치 않는 환경이라면 테스트 데이터 변환 시에는 fit(), fit_transform()을 적용하지 않고
   학습 데이터에 이미 fit()된 Scaler 객체를 이용해서 transform() 으로 변환
'''