### 데이터 인코딩  

머신러닝 알고리즘은 '숫자형'만 받아들여서 기존의 문자열 코드값들을 '숫자형'으로 바꿔주어야 함  
-레이블인코딩/ 원-핫 인코딩

#### 레이블 인코딩(Label encoding)  
레이블인코딩에서 우려할 점은 문자열값으로 숫자로 변환해줄 때 문자열 값일 때에는 서로 크기의 개념이 없었는데,  
0, 1, 2, 3 이런식으로 값끼리 서로 크기의 개념이 붙어져서 문제가 있을 수 있음(그러므로, 그런 문제시에는 원-핫인코딩을 사용)

In [1]:
from sklearn.preprocessing import LabelEncoder

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# LabelEncoder를 객체로 생성한 후 , fit( ) 과 transform( ) 으로 label 인코딩 수행. 
encoder = LabelEncoder()
encoder.fit(items) #trasform을 실행하기 전에 형태를 맞춰주는 작업
labels = encoder.transform(items) # trasform으로 값이 변환됨 (문자->숫자)
print('인코딩 변환값:',labels)

인코딩 변환값: [0 1 4 5 3 3 2 2]


In [2]:
print('인코딩 클래스:',encoder.classes_) # classes_ 하면, 변환하기 전의 고유값들을 순서대로 보여줌 

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


In [3]:
# 원본값 확인하고 싶을 때는 inverse_transform() 로 확인하기(괄호 안에 변환값 넣어주면 됨) 
print('디코딩 원본 값:',encoder.inverse_transform([0, 1, 2, 3, 4, 5,])) 

디코딩 원본 값: ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']


#### 원-핫 인코딩(One-Hot encoding)  
-조금 과정이 번잡함..(숫자값변환->2차원으로 변환-> 원-핫 인코딩 적용)  
-판다스에서 pd.get_dummies() 기능으로 더 쉽게 할 수 있음

In [8]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items=['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

# 1. 먼저 숫자값으로 변환을 위해 LabelEncoder로 변환하는게 필요함 
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items) #1차원 ndarray 형태임 

# 2. 2차원 데이터로 변환합니다. 
labels = labels.reshape(-1,1) #np.reshape() 기능 이용

# 원-핫 인코딩을 적용합니다. (백터로 인코딩이 됨)
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)

print('원-핫 인코딩 데이터')
print(oh_labels.toarray())
print('원-핫 인코딩 데이터 차원')
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


In [32]:
import pandas as pd

df = pd.DataFrame({'item':['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서'] })
df

Unnamed: 0,item
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [33]:
pd.get_dummies(df) #값의 고유값들로 칼럼이 만들어지고, 각 행마다 기존 값에 해당되는 부분은 1로 채워지고 나머지는 0으로 채워짐 

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


In [43]:
# 실제 데이터프레임으로도 해보기 _타이타닉 데이터
titanic_df = pd.read_csv('./titanic_train.csv')
titanic_df.head(3)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S


In [45]:
# 간단한 전처리(결측치 처리, object컬럼 중 categorical한 칼럼을 바꾸기_'Cabin' )
titanic_df['Age'].fillna(titanic_df['Age'].mean(),inplace=True)
titanic_df['Cabin'].fillna('N',inplace=True)
titanic_df['Embarked'].fillna('N',inplace=True)
titanic_df['Cabin'] = titanic_df['Cabin'].str[:1] # Cabin칼럼 값들에서 첫번째 문자만 빼와서 다시 Cabin칼럼에 반환 
# 지금은 필요없는 'PassengerId', 'Name', 'Ticket' 컬럼 삭제 
titanic_df.drop(columns=['PassengerId', 'Name', 'Ticket'], inplace=True)
titanic_df.head(3)

Unnamed: 0,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Cabin,Embarked
0,0,3,male,22.0,1,0,7.25,N,S
1,1,1,female,38.0,1,0,71.2833,C,C
2,1,3,female,26.0,0,0,7.925,N,S


In [48]:
# get_dummies() 괄호에 전체데이터를 넣으면 문자열인 컬럼을 모두 원-핫 인코딩 시켜줌 
pd.options.display.max_columns = 100 # (컬럼 다 보이도록 하는 옵션)
pd.get_dummies(titanic_df).head(3) #'Sex', 'Cabin', 'Embarked' 문자열 칼럼들이 모두 원-핫인코딩이 되었음 

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Cabin_A,Cabin_B,Cabin_C,Cabin_D,Cabin_E,Cabin_F,Cabin_G,Cabin_N,Cabin_T,Embarked_C,Embarked_N,Embarked_Q,Embarked_S
0,0,3,22.0,1,0,7.25,0,1,0,0,0,0,0,0,0,1,0,0,0,0,1
1,1,1,38.0,1,0,71.2833,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0
2,1,3,26.0,0,0,7.925,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1


In [47]:
# 원하는 칼럼만 원-핫 인코딩 할 수도 있음 
pd.get_dummies(titanic_df, columns=['Sex', 'Embarked']).head(3)
#'Sex','Embarked' 만 원-핫 인코딩이 되고,'Cabin'은 문자열칼럼인데도 그대로 있음. 

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Cabin,Sex_female,Sex_male,Embarked_C,Embarked_N,Embarked_Q,Embarked_S
0,0,3,22.0,1,0,7.25,N,0,1,0,0,0,1
1,1,1,38.0,1,0,71.2833,C,1,0,1,0,0,0
2,1,3,26.0,0,0,7.925,N,1,0,0,0,0,1


In [52]:
# 원-핫 인코딩된 데이터를 쓰고 싶으면 반환해야 함(반환해야 적용이 됨)
titanic_df_ohencod = pd.get_dummies(titanic_df)
titanic_df_ohencod.head(3)

Unnamed: 0,Survived,Pclass,Age,SibSp,Parch,Fare,Sex_female,Sex_male,Cabin_A,Cabin_B,Cabin_C,Cabin_D,Cabin_E,Cabin_F,Cabin_G,Cabin_N,Cabin_T,Embarked_C,Embarked_N,Embarked_Q,Embarked_S
0,0,3,22.0,1,0,7.25,0,1,0,0,0,0,0,0,0,1,0,0,0,0,1
1,1,1,38.0,1,0,71.2833,1,0,0,0,1,0,0,0,0,0,0,1,0,0,0
2,1,3,26.0,0,0,7.925,1,0,0,0,0,0,0,0,0,1,0,0,0,0,1


**-인코딩관련 추가내용)**  
-sklearn.preprocessing.LabelBinarizer(레이블인코딩+원핫인코딩)도 있음 (자세한내용->8.10 텍스트 분석 실습)  
-질문) LabelBinarizer와 pd.get_dummies와 차이점은?  
-답변) 큰 차이는 없습니다. 다만 get_dummies()는 여러 컬럼을 한꺼번에 원핫 인코딩 할 수 있습니다(DataFrame이 인자로 들어갈 수 있습니다. 여러컬럼 지정도 가능함.) 그런데, LabelBinarizer는 한 컬럼만 원핫 인코딩 할 수 있습니다.

### 피처 스케일링과 정규화  
피처마다 서로 단위가 다른 경우(ex-신장과 몸무게) 단위를 맞춰서 서로 비교가 가능하도록 하는 작업들(스케일링)을 해줘야 함 

#### StandardScaler  
데이터의 피처 각각이 평균 0, 분산 1인 가우시안 정규분포를 가진 값으로 변환하는 것을 의미(표준화)

In [53]:
from sklearn.datasets import load_iris
import pandas as pd
# 붓꽃 데이터 셋을 로딩하고 DataFrame으로 변환합니다. 
iris = load_iris() 
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)

print('feature 들의 평균 값')
print(iris_df.mean())
print('\nfeature 들의 분산 값')
print(iris_df.var())


feature 들의 평균 값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 분산 값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [62]:
from sklearn.preprocessing import StandardScaler

# StandardScaler객체 생성
scaler = StandardScaler()
# StandardScaler 로 데이터 셋 변환. fit( ) 과 transform( ) 호출.  
scaler.fit(iris_df) # 괄호안에 iris.data(ndarray형태)로 넣어줘도 됨(데이터프레임, ndarray형태 다 됨. 어떤 형태든 피처데이터 넣어주면됨, 2차원이어야 함)
iris_scaled = scaler.transform(iris_df)

#transform( )시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값') # 0값 나옴 
print(iris_df_scaled.mean().round()) # round() 안해줘도 되지만 안해주면 e값나오면서 소수점자리가 엄청 많아서 표현이 잘 안됨 
print('\nfeature 들의 분산 값') # 1값 나옴 (거의 1에 가까운 값들임)
print(iris_df_scaled.var())

feature 들의 평균 값
sepal length (cm)   -0.0
sepal width (cm)    -0.0
petal length (cm)   -0.0
petal width (cm)    -0.0
dtype: float64

feature 들의 분산 값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


#### MinMaxScaler  
-서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념(정규화)  
-데이터값을 0과 1사이의 범위값으로 변환(음수값이 있으면 -1에서 1값으로 변환)  
-즉 최소값 0, 최대값 1로 된다는 것(음수 있으면, 최소값 -1, 최대값 1이 된다는 것) 

In [66]:
from sklearn.preprocessing import MinMaxScaler

# MinMaxScaler객체 생성
scaler = MinMaxScaler()
# MinMaxScaler 로 데이터 셋 변환. fit() 과 transform() 호출.  
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

# transform()시 scale 변환된 데이터 셋이 numpy ndarry로 반환되어 이를 DataFrame으로 변환
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())

feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


#### 질문답변 추가설명 정리

**스켈링 적용시  궁금점 관련**  
-질문) 칼럼별로 분포를 뽑아서 분포에 맞는 스케일링을 적용하고 싶은데, 어떤 분포는 이 스케일링 방법을 사용하는 것이 효과적이다 이런 정보를 얻을 수 있을까 하여 질문을 드립니다.  
-답변)   
일반적으로 스케일링은 개별 feature내에서 데이터들이 skew되었거나, 서로 다른 feature들간 크기 단위들이 극명하게 차이가 날경우에 적용을 합니다. 하지만 머신러닝 알고리즘이 개선 되면서 스케일링의 효과가 생각보다 크지 않는 경우가 많습니다.  
사실 트리 계열(회귀 트리 포함)에서는 스케일링의 효과는 거의 미미합니다. 보통은 선형계열(선형회귀, 로지스틱 회귀, SVM, k-nearest)이나 딥러닝등을 적용할 때 스케일링을 고려합니다. 하지만 선형계열 조차 스케일링을 적용했을 때 성능이 조금 향상될때가 있고, 그렇지 못할 때가 있습니다. 때문에 스케일링을 직접 적용해 보는것 외에는 어떤 데이터 분포가 효과적이다라고 말씀드리기가 어렵습니다.  
경험적으로는 적은 데이터 셋에서는 일반적으로 선형계열이 트리 계열보다 약간 성능이 좋을 수 있습니다. 특히 회귀의 경우에 피처가 많지 않고 데이터 셋이 적으면 선형 계열 적용이 더 나을 수 있는데 이때 선형 계열 성능이 잘 나오지 않을 때(예를 들어 트리 계열보다 성능이 안나온다면) 스케일링등의 preprocessing 작업을 고려해 볼수 있습니다. 하지만 각 feature들이 어떤 분포를 가질때 어떤 스케일링을 적용하면 좋다라는 공식은 찾지 못했습니다. 또한 스케일링을 적용했을 때 반드시 성능이 좋아진다는 보장도 없습니다.  
또 하나, 딥러닝을 하신다면 특히 데이터 스케일링이 필요합니다(예를 들어 0 ~ 1사이 값으로). 이는 딥러닝이  비교적 큰 값을 가지면 상대적으로 최적화 하기 어려운 특성을 가지고 있기 때문입니다.  
결론적으로는 어떤 분포에 어떤 스케일링을 적용하면 좋다는 마법 공식은 없다고 생각합니다. 다만 알고리즘의 특성상 스케일링 적용이 필요할 수도 그렇지 않을 수도 있습니다. 일반적으로는 적용 전후 결과로 판단을 합니다.