### 1. LabelEncoder
* 문자를 0부터 시작하는 정수형 숫자로 바꿔주는 기능

In [3]:
from sklearn.preprocessing import LabelEncoder

items = ['준중형', '대형', '소형', '중형', '소형', '대형']
encoder = LabelEncoder()
# encoder.fit()
# labels = encoder.transform(itmes)
labels = encoder.fit_transform(items)
print(f'인코딩 변환값 {labels}')
print(f'변환된 Label 클래스 확인 {encoder.classes_}')
print(f'디코딩 원본 값 {encoder.inverse_transform([2, 0, 1, 3, 1, 0])}')

인코딩 변환값 [2 0 1 3 1 0]
변환된 Label 클래스 확인 ['대형' '소형' '준중형' '중형']
디코딩 원본 값 ['준중형' '대형' '소형' '중형' '소형' '대형']


### 2. OnehotEncoder
* 범주형 데이터를 숫자로 변환할때 사용하는 방법
* 범주형 데이터를 일괄적인 숫자로 변환했을 때 가중치가 부여될 수 있는 문제점을 해결하기 위한 방법
* 범주형 데이터의 종류 만큼의 열을 만들어서 해당 값에는 1(True), 해당되지 않는 값에는 0(False)으로 표기

In [9]:
from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['서울특별시', '강원도', '경기도', '경상북도']
encoder = LabelEncoder()
labels = encoder.fit_transform(items)
print(labels)
# 1차원 배열을 2차원 배열로 변환하기
labels_2d = labels.reshape(-1,1)
labels_2d

oh_encoder = OneHotEncoder()
oh_labels = oh_encoder.fit_transform(labels_2d)
oh_labels

print(oh_labels.shape)
print(oh_labels.toarray())

[3 0 1 2]
(4, 4)
[[0. 0. 0. 1.]
 [1. 0. 0. 0.]
 [0. 1. 0. 0.]
 [0. 0. 1. 0.]]


### 3. Pandas의 get_dummies() 함수

In [2]:
import pandas as pd

items = ['서울특별시', '강원도', '경기도', '경상북도']
df = pd.DataFrame({'sido':items})
df.head()
pd.get_dummies(df)

Unnamed: 0,sido_강원도,sido_경기도,sido_경상북도,sido_서울특별시
0,0,0,0,1
1,1,0,0,0
2,0,1,0,0
3,0,0,1,0


### Standard Scaler
* 데이터를 모델링을 하기 전에 스케일링 과정을 거쳐야 좀 더 예측을 잘 할수 있음
* StandardScaler는 평균과 표준편차를 사용해서 데이터 분산을 평준화 하는 방법

In [7]:
from sklearn.datasets import load_iris
import pandas as pd

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [8]:
# feature들의 평균값
print(iris_df.mean())
# feature들의 분산값
iris_df.var()

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64


sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64

In [10]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)
print(iris_scaled.shape)
iris_df_scaled = pd.DataFrame(data=iris_scaled)

(150, 4)


In [11]:
print(iris_df_scaled.mean())
iris_df_scaled.var()

0   -1.690315e-15
1   -1.842970e-15
2   -1.698641e-15
3   -1.409243e-15
dtype: float64


0    1.006711
1    1.006711
2    1.006711
3    1.006711
dtype: float64