# 데이터 전처리

### Garbage In, Garbage Out

# 사이킷런의 ML 알고리즘에 적용하기 전에 데이터에 대해 미리 처리해야할 기본사항

* 결손값. 즉 NaN, Null 값은 허용되지 않는다

 - Drop
 - 대체값 선정

* 사이킷런 머신러닝 알고리즘 문자열을 입력값으로 허용되지 않는다

  - Drop
  - 인코딩 


In [None]:
## 데이터 인코딩 

 * 레이블 인코딩(Label encoding)

In [None]:
items = ['전자렌지','컴퓨터','믹서','TV','냉장고','냉장고','냉장고','선풍기','선풍기']

In [None]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)
print('encoding result :',  )

In [None]:
print('encoding class :', encoder.classes_)

In [None]:
# 원본이 있으므로 디코딩 가능
print('decoding class : ', encoder.inverse_transfrom([4,5,2,0,1,1,1,3,3]))

In [None]:
'''
# 주의
# LabelEncoder 를 통한 레이블 인코딩은 label이 숫자로 증가하는 형태.
# 그러나 이 숫자 특성에 영향을 받는 ML 알고리즘 (대표적 선형 회귀 알고리즘)일 경우는 적용하지 않아야 함.
'''

* 원-핫 인코딩(One-Hot encoding)

: 고유값에 해당하는 컬럼에만 1을 표시하고 나머지는 0을 표시하는 방식
    
    주의
     
1) 모든 문자열 값이 숫자형 값이어야함
2) 입력값으로 2차원 데이터가 필요함

In [3]:
items = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

In [4]:
from sklearn.preprocessing import LabelEncoder

encoder = LabelEncoder()
encoder.fit(items)

labels = encoder.transform(items)
print('encoding result :', labels )

encoding result : [0 1 4 5 3 3 2 2]


In [7]:
labels = labels.reshape(-1,1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]])

In [8]:
# one - hot encodig
from sklearn.preprocessing import OneHotEncoder

In [9]:
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)

OneHotEncoder()

In [10]:
oh_labels = oh_encoder.transform(labels)
oh_labels

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

In [17]:
import pandas as pd

df = pd.DataFrame({'item': ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']})
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


## 피처 스케일링

### 피처 스케일링 : 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
## 대표적 방법 : 표준화 (Standardization), 정규화(Normalizetion) 

In [None]:
'''
# 표준화 : 데이터의 피처 각각이 평균 0 이고 분산이 1인 가우시안 정규 분포를 가진 값으로 변환
# 정규화 : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념 
   : 사이킷런 정규화는 선형대수 개념 정규화 - 벡터 정규화 지칭
'''

In [18]:
# 표준화 
from sklearn.datasets import load_iris
import pandas as pd

In [19]:
iris = load_iris()
iris_data = iris.data
iris_data


In [20]:
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [21]:
# feature 분산 값
iris_df.var()

sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [None]:
'''
# SVM, 선형회귀 , 로지스틱 회귀 알고리즘 등은 데이터가 가우시안 분포를 가지고 있다고 가정하고 설계(구현)된 알고리즘.
사전에 표준화를 적용하면 예측 성능 향상에 중요한 요소가 될 수 있음
'''

In [22]:
# 표준화를 쉽게 하도록 지원하는 클래스 : StandardScaler
from sklearn.preprocessing import StandardScaler 

scaler = StandardScaler()
scaler.fit(iris_df)
scaled_iris = scaler.transform(iris_df)

In [23]:
print(scaled_iris)

[[-9.00681170e-01  1.01900435e+00 -1.34022653e+00 -1.31544430e+00]
 [-1.14301691e+00 -1.31979479e-01 -1.34022653e+00 -1.31544430e+00]
 [-1.38535265e+00  3.28414053e-01 -1.39706395e+00 -1.31544430e+00]
 [-1.50652052e+00  9.82172869e-02 -1.28338910e+00 -1.31544430e+00]
 [-1.02184904e+00  1.24920112e+00 -1.34022653e+00 -1.31544430e+00]
 [-5.37177559e-01  1.93979142e+00 -1.16971425e+00 -1.05217993e+00]
 [-1.50652052e+00  7.88807586e-01 -1.34022653e+00 -1.18381211e+00]
 [-1.02184904e+00  7.88807586e-01 -1.28338910e+00 -1.31544430e+00]
 [-1.74885626e+00 -3.62176246e-01 -1.34022653e+00 -1.31544430e+00]
 [-1.14301691e+00  9.82172869e-02 -1.28338910e+00 -1.44707648e+00]
 [-5.37177559e-01  1.47939788e+00 -1.28338910e+00 -1.31544430e+00]
 [-1.26418478e+00  7.88807586e-01 -1.22655167e+00 -1.31544430e+00]
 [-1.26418478e+00 -1.31979479e-01 -1.34022653e+00 -1.44707648e+00]
 [-1.87002413e+00 -1.31979479e-01 -1.51073881e+00 -1.44707648e+00]
 [-5.25060772e-02  2.16998818e+00 -1.45390138e+00 -1.31544430e

In [24]:
'''
# 학습 데이터와 테스트 데이터 fit(), transform(), fit_transform() 적용시 유의사항
1) 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리
2) 1) 이 여의치 않는 환경이라면 테스트 데이터 변환 시에는 fit(), fit_transform()을 적용하지 않고
학습 데이터에 이미 fit()된 Scaler 객체를 이용해서 transform() 으로 변환

'''

'\n# 학습 데이터와 테스트 데이터 fit(), transform(), fit_transform() 적용시 유의사항\n1) 가능하다면 전체 데이터의 스케일링 변환을 적용한 뒤 학습과 테스트 데이터로 분리\n2) 1) 이 여의치 않는 환경이라면 테스트 데이터 변환 시에는 fit(), fit_transform()을 적용하지 않고\n학습 데이터에 이미 fit()된 Scaler 객체를 이용해서 transform() 으로 변환\n\n'