<a href="https://colab.research.google.com/github/HwangHanJae/ml-definitive-guide-pratice/blob/main/data_preprocessing.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

데이터 인코딩
- Label encoding
  - 카테고리 피처를 코드형 숫자 값으로 변환
- One Hot encoding
  - 새로운 피처를 추가해 고유값에 해당하는 원래 칼럼에 1을 나머지는 0으로 만듬

In [1]:
#Label encoding
from sklearn.preprocessing import LabelEncoder

items = ["TV", "냉장고", "전자레인지", "컴퓨터","선풍기","선풍기","믹서","믹서"]
#LabelEncoder 객체를 생성한 후, fit()과 transform()으로 레이블 인코딩 수행

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
print("인코딩 변환값 : ", labels)

인코딩 변환값 :  [0 1 4 5 3 3 2 2]


TV는 0, 냉장고는 1, 전자레인지는 4, 컴퓨터는 5, 선풍기는 3, 믹서는 2로 변환

In [2]:
#문자열 값이 어떤 숫자 값으로 인코딩 되었는지 확인
print("인코딩 클래스 : ", encoder.classes_)

인코딩 클래스 :  ['TV' '냉장고' '믹서' '선풍기' '전자레인지' '컴퓨터']


In [3]:
#인코딩된 값을 디코딩
print("디코딩 원본 값 : ", encoder.inverse_transform([4,5,2,0,1,1,3,3]))

디코딩 원본 값 :  ['전자레인지' '컴퓨터' '믹서' 'TV' '냉장고' '냉장고' '선풍기' '선풍기']


Label encoding 주의사항
- 문자열이 숫자값으로 변환되면서 몇몇 ML알고리즘에서 적용할 경우에 숫자값의 크고 작음에 대한 특성 때문에 예측 성능이 떨어질 수 있음
- 숫자 2가 1보다 크기 때문에 가중치가 더 부여될 수 있음
- 선형회귀와 같은 ML알고리즘에는 적용하지 않아야 함
- 트리계열 ML알고리즘은 숫자의 이러한 특성을 반영하지 않기 때문에 별문제 없음

In [5]:
#OneHotEncoding
#1.변환전에 모든 문자열 값이 숫자형 값으로 변환되어야 함
#2. 입력 값으로 2차원 데이터가 필요함

from sklearn.preprocessing import OneHotEncoder, LabelEncoder
import numpy as np

items = ["TV", "냉장고", "전자레인지", "컴퓨터","선풍기","선풍기","믹서","믹서"]

#먼저 숫자값으로 변환하기 위해 LabelEncoder를 사용해 변환

encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
#2차원 데이터로 변환
labels = labels.reshape(-1,1)

#One-Hot encoding 적용
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print("원-핫 인코딩 데이터")
print(oh_labels.toarray())
print("원-핫 인코딩 데이터 차원")
print(oh_labels.shape)

원-핫 인코딩 데이터
[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫 인코딩 데이터 차원
(8, 6)


TV, 냉장고, 믹서, 선풍기, 전자레인지, 컴퓨터 순서

In [6]:
#pandas에서 one-hot-encoding 하기
#get_dummies()

#문자열을 숫자형으로 변환하지 않아도 됨

import pandas as pd

df = pd.DataFrame({"items" : ["TV", "냉장고", "전자레인지", "컴퓨터","선풍기","선풍기","믹서","믹서"]})
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자레인지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


피처 스케일링과 정규화

: 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
- 표준화(Standardization)
  - 평균 = 0, 분산이 1인 가우시안 정규분포를 가진 값으로 변환
  - z점수 = X - mean / std
  - SVM, 선형회귀, 로지스틱 회귀는 데이터가 정규분포를 가지고 있다고 가정했기에 해당 모델에 적용할때 예측 성능 향상에 기여할 수 있음
- 정규화(Normalizaion)
  - 일반적으로 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념
  - 대표적으로 MinMaxScaling
    - 데이터의 값을 0과 1사이로 변환
      - 음수값이 있다면 -1에서 1로 변환
      -데이터의 분포가 가우시안 분포가 아닐경우 적용해 볼 수 있음
  - 사이킷런의 Normalizer 모듈은 선형대수에서의 정규화 개념이 적용
    - 개별 벡터의 크기를 맞추기 위해 변환

- 표준화와 정규화를 피처 스케일링으로 지칭
- 선형대수 개념의 정규화를 벡터 정규화로 지칭


In [12]:
#표준화를 하기전 데이터
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns = iris.feature_names)
print("###표준화 적용 전####")
print("feature들의 평균값")
print(iris_df.mean())
print("\nfeature등의 분산값")
print(iris_df.var())

#StandardScaler 표준화를 지원하는 클래스
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

iris_df_scaled = pd.DataFrame(iris_scaled, columns = iris.feature_names)
print("\n###표준화 적용 후####")
print("feature들의 평균값")
print(iris_df_scaled.mean())
print("\nfeature들의 분산값")
print(iris_df_scaled.var())

###표준화 적용 전####
feature들의 평균값
sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature등의 분산값
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

###표준화 적용 후####
feature들의 평균값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature등의 분산값
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


표준화 적용 후를 보면 평균이 0에 가깝고, 분산이 1에 가깝게 변환된 것을 볼 수 있음


In [18]:
#최소최대정규화 적용 전
from sklearn.preprocessing import MinMaxScaler
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)
print("###최소최대정규화 적용 전###")
print("feature들의 최소값 : ")
print(iris_df.min())
print("\nfeature들의 최대값 : ")
print(iris_df.max())

#최소최대정규화 적용 후
scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
iris_df_scaled = pd.DataFrame(iris_scaled, columns = iris.feature_names)
print("\n###최소최대정규화 적용 전###")
print("feature들의 최소값 : ")
print(iris_df_scaled.min())
print("\nfeature들의 최대값 : ")
print(iris_df_scaled.max())

###최소최대정규화 적용 전###
feature들의 최소값 : 
sepal length (cm)    4.3
sepal width (cm)     2.0
petal length (cm)    1.0
petal width (cm)     0.1
dtype: float64

feature들의 최대값 : 
sepal length (cm)    7.9
sepal width (cm)     4.4
petal length (cm)    6.9
petal width (cm)     2.5
dtype: float64

###최소최대정규화 적용 전###
feature들의 최소값 : 
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대값 : 
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64
