<a href="https://colab.research.google.com/github/youkyung2/dataAnalysis/blob/master/sklearn_%EC%9D%84_%EC%9D%B4%EC%9A%A9%ED%95%9C_%EB%8D%B0%EC%9D%B4%ED%84%B0_%EC%A0%84%EC%B2%98%EB%A6%AC.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### ML 알고리즘 에서의 데이터 입력
* 결측값(NaN, Null)을 허용하지 않음

 --> Null 값은 고정된 다른 값으로 변환해야 함
* 문자열 값을 입력값으로 허용하지 않음

 --> 문자열 값을 인코딩해서 숫자형으로 변환해야 함

## **1. 데이터 인코딩**
**(1) 레이블 인코딩 (Label Incoding)**

 &nbsp;&nbsp;&nbsp;&nbsp; : 카테고리 피처를 코드형 숫자로 변환
* 단점
 - 일괄적인 숫자 값으로 변환이 되면서, 숫자값의 크고 작음에 대한 특성이 반영이 되어 몇몇 알고리즘에서 예측성능 떨어짐
 - 회귀알고리즘에는 적용하면 안됨
 - 트리계열의 알고리즘은 숫자특성을 반영하지 않으므로, 레이블 인코딩도 문제없음

* **Label Encoder** 클래스로 구현 : 객체 생성 후 fit(), transform()

In [3]:
from sklearn.preprocessing import LabelEncoder

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print('인코딩 변화값 : ', labels)

인코딩 변화값 :  [0 1 4 5 3 3 2 2]


* **classes_** : 변환된 인코딩 값에 대한 원본 값

In [4]:
print('인코딩 클래스 : ', encoder.classes_)

인코딩 클래스 :  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


* **inverse_transform()** : 인코딩된 값을 다시 디코딩

In [5]:
print('디코딩 원본 값 : ', encoder.inverse_transform(labels))

디코딩 원본 값 :  ['TV' '냉장고' '전자레인지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


**(2) 원-핫 인코딩(One-Hot Encoding)**

 &nbsp;&nbsp;&nbsp;&nbsp; : 피처값의 유형에 따라 새로운 피처를 추가해 고유값에 해당하는 칼럼에만 1을 표시하고, 나머징는 0으로 표시

* 주의점
  - OneHotEncoder 변환하기 전에 모든 문자열 값이 숫자형 값으로 변환이 되어있어야함
  - 입력값으로 2차원 데이터가 필요함


* **OneHotEncoder** 클래스로 구현 : 객체 생성 후 fit(), transform()

In [6]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items) # 숫자형 값으로 값 변환
labels = labels.reshape(-1, 1) # 입력값으로 2차원 데이터가 필요함!

In [7]:
# 원-핫 인코딩 적용
oh_encoder = OneHotEncoder(categories='auto')
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())

print('\n원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]

원-핫 인코딩 데이터 차원
(8, 6)


In [8]:
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]])

In [9]:
oh_labels

<8x6 sparse matrix of type '<class 'numpy.float64'>'
	with 8 stored elements in Compressed Sparse Row format>

* **get_dummies()** : 판다스에서 이용할 수 있는 원핫인코딩 API
* 사이킷런의 OneHotEncoder와는 달리 문자열 카테고리값을 숫자형으로 자동 변환해줌

In [10]:
import pandas as pd

df = pd.DataFrame({'item' : ['TV','냉장고','전자레인지','컴퓨터','선풍기','선풍기','믹서','믹서']})

df

Unnamed: 0,item
0,TV
1,냉장고
2,전자레인지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [11]:
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


## **2. 피처 스케일링과 정규화**

* **피처 스케일링(Feature Scaling)**
: 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업 (표준화, 정규화 등)

* **표준화(Standardization)**
: 데이터 피처의 각각이 평균이 0이고 분산이 1인 가우시안 정규분포를 가진 값으로 변환

* **정규화(Normalizition)**
: 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념 (즉, 개별 데이터 크기를 모두 똑같은 단위로 변경)

**(1) Standard Scaler**

 &nbsp;&nbsp;&nbsp;&nbsp; : 표준화를 쉽게 지원하기 위한 클래스로, 개별 피처를 평균이 0, 분산이 1인 값으로 변환

* RBF 커널을 이용하는 SVM, 선형회귀, 로지스틱회귀는 <br> 데이터가 '가우시안분포를 가지고 있다' 라는 가정 하에 구현을 했기 때문에, <br> 사전에 **표준화** 를 적용하는 것은 예측 향상에 중요한 요소이다 !!!

In [12]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [15]:
print('feature 들의 평균 값 : \n' , iris_df.mean())
print('\nfeature 들의 분산 값 : \n' , iris_df.var())

feature 들의 평균 값 : 
 sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값 : 
 sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [20]:
# StandardScaler 를 이용하여 표준화

from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
print(type(iris_scaled))
print(iris_scaled[:3])

# transform() 변환 시 스케일 변환된 데이터 셋트가 Numpy ndarray 로 반환되어 이를 데이터 프레임으로 변환
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
iris_df_scaled.head()

<class 'numpy.ndarray'>
[[-0.90068117  1.01900435 -1.34022653 -1.3154443 ]
 [-1.14301691 -0.13197948 -1.34022653 -1.3154443 ]
 [-1.38535265  0.32841405 -1.39706395 -1.3154443 ]]


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,-0.900681,1.019004,-1.340227,-1.315444
1,-1.143017,-0.131979,-1.340227,-1.315444
2,-1.385353,0.328414,-1.397064,-1.315444
3,-1.506521,0.098217,-1.283389,-1.315444
4,-1.021849,1.249201,-1.340227,-1.315444


In [25]:
print('feature 들의 평균 값 : \n',iris_df_scaled.mean(),sep='')
print('\nfeature 들의 분산 값 : \n',iris_df_scaled.var(),sep='')

# 모든 컬럼값의 평균이 0, 분산이 1에 아주 가깝게 변환되었음

feature 들의 평균 값 : 
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 분산 값 : 
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


**(2) MinMax Scaler**

 &nbsp;&nbsp;&nbsp;&nbsp; : 데이터값을 0과 1 사이의 범위 값으로 변환 (음수값이 있으면, -1에서 1값으로 변환)

* 데이터의 분포가 가우시안분포가 아닐 경우에 적용해볼 수 있음

In [27]:
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)
iris_df_scaled.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,0.222222,0.625,0.067797,0.041667
1,0.166667,0.416667,0.067797,0.041667
2,0.111111,0.5,0.050847,0.041667
3,0.083333,0.458333,0.084746,0.041667
4,0.194444,0.666667,0.067797,0.041667


In [29]:
print('feature 들의 최솟값 : \n',iris_df_scaled.min(),sep='')
print('\nfeature 들의 최댓값 : \n',iris_df_scaled.max(),sep='')

feature 들의 최솟값 : 
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature 들의 최댓값 : 
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
