# 데이터 전처리
1) 데이터 인코딩(범주형 데이터 라벨링)

In [1]:
from sklearn.preprocessing import LabelEncoder
items = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

In [2]:
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
# abc가나다 순서
labels

array([0, 1, 4, 5, 3, 3, 2, 2], dtype=int64)

In [3]:
# 한번에 같이 가능
labels = encoder.fit_transform(items)
labels

array([0, 1, 4, 5, 3, 3, 2, 2], dtype=int64)

In [4]:
# 인코딩 하기 전 데이터의 클래스를 보여줌
encoder.classes_

array(['TV', '냉장고', '믹서', '선풍기', '전자렌지', '컴퓨터'], dtype='<U4')

In [6]:
# 인코딩 하기 전 데이터를 전부 보여줌
encoder.inverse_transform([0, 1, 4, 5, 3, 3, 2, 2])

array(['TV', '냉장고', '전자렌지', '컴퓨터', '선풍기', '선풍기', '믹서', '믹서'], dtype='<U4')

In [7]:
# 숫자로 인코딩된 데이터를 다시 문자로 디코딩으로 바꾸는 함수
def get_name(model, num):
    return model.inverse_transform([num])[0]

In [8]:
get_name(encoder, 3)

'선풍기'

2) 원 핫 인코딩(One-hot encoding)

In [11]:
from sklearn.preprocessing import OneHotEncoder
items = ['TV','냉장고','전자렌지','컴퓨터','선풍기','선풍기','믹서','믹서']

In [12]:
# 숫자값으로 먼저 바꿔주기 워해 LabelEncoder로 변환
encoder = LabelEncoder()
labes = encoder.fit_transform(items) # 데이터프레임으로 나옴
labels.shape

(8, 1)

In [13]:
labels = labels.reshape(-1,1)
labels

array([[0],
       [1],
       [4],
       [5],
       [3],
       [3],
       [2],
       [2]], dtype=int64)

In [18]:
# 원-핫 인코딩
oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels = oh_encoder.transform(labels)
print('원-핫인코딩 데이터', oh_labels.toarray())
print('원-핫인코딩 데이터 차원', oh_labels.shape)

원-핫인코딩 데이터 [[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
원-핫인코딩 데이터 차원 (8, 6)


In [23]:
labels = LabelEncoder().fit_transform(items).reshape(-1,1)
one_hot_labels = OneHotEncoder().fit_transform(labels)
one_hot_labels.toarray()

array([[1., 0., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 0., 1.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0., 0.],
       [0., 0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0., 0.]])

In [24]:
import pandas as pd
df = pd.DataFrame({'items':items})
df

Unnamed: 0,items
0,TV
1,냉장고
2,전자렌지
3,컴퓨터
4,선풍기
5,선풍기
6,믹서
7,믹서


In [25]:
# get_dummies 메소드 자체가 원핫인코딩을 시켜버림
# 그래도 위의 과정은 기억할 수 있어야 함
pd.get_dummies(df)

Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자렌지,items_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


3) 피쳐 스케일링과 정규화
- 표준화 : 정규분포로 변환
- 정규화 : 최대 0 ~ 최소 1

In [28]:
from sklearn.datasets import load_iris
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data, columns=iris.feature_names)
print('feature 들의 평균 값\n', iris_df.mean())
print('\nfeature 들의 표준편차 값\n', iris_df.std())

feature 들의 평균 값
 sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64

feature 들의 표준편차 값
 sepal length (cm)    0.828066
sepal width (cm)     0.435866
petal length (cm)    1.765298
petal width (cm)     0.762238
dtype: float64


In [29]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [30]:
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature 들의 평균 값')
print(iris_df_scaled.mean())
print('\nfeature 들의 표준편차 값')
print(iris_df_scaled.std())

feature 들의 평균 값
sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64

feature 들의 표준편차 값
sepal length (cm)    1.00335
sepal width (cm)     1.00335
petal length (cm)    1.00335
petal width (cm)     1.00335
dtype: float64


In [32]:
# Min Max Scaler
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
iris_scaled = scaler.fit_transform(iris_df)

In [33]:
iris_df_scaled = pd.DataFrame(data=iris_scaled, columns=iris.feature_names)
print('feature들의 최소 값')
print(iris_df_scaled.min())
print('\nfeature들의 최대 값')
print(iris_df_scaled.max())

feature들의 최소 값
sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64

feature들의 최대 값
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


### # 연습문제
Iris 데이터에 대해서
- test 비율 20%
- 원핫인코딩(적용했더니 오류발생. 안하고 넘어감)
- MinMaxScaler 사용
- cv = 5
- 결정트리 모델 사용
- 하이퍼파라미터: max_depth, min_samples_leaf<br>

도출한 베스트 파라미터를 사용해서 테스트 데이터에 대해 정확도 측정하기 <br>

답: test 비율 짠다고 test_train_split을 사용하면 원핫인코딩과 MinMaxScaler를 테스트셋과 트레인셋 모두에게 사용하기 어려움

In [52]:
from sklearn.datasets import load_iris

iris = load_iris()

In [53]:
# MinMaxScaler 적용
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaled_iris = scaler.fit_transform(iris.data)

In [62]:
""" # 원핫인코딩
from sklearn.preprocessing import OneHotEncoder
encoder = OneHotEncoder()
# target 데이터를 항상 reshape()로 2차원을 만들어줘야 가능
encoded_iris = encoder.fit_transform(iris.target.reshape(-1,1))
encoded_iris.shape """
print(True)

True


In [60]:
# test 비율을 20%
from sklearn.model_selection import train_test_split
""" 여때까지는 y가 1차원이기 때문에 소문자로 썼는데
원핫인코딩 이후에는 3차원으로 바뀌기에 대문자로 사용
그런데 보통은 습관적으로 Y_test로 사용함 """
X_train, X_test, Y_train, Y_test = train_test_split(
    # 원한인코딩을 적용했더니 안되네?
    scaled_iris, iris.target, test_size = 0.2, random_state = 2021
    # X 데이터, Y 데이터
)

In [56]:
# 결정트리 모델
from sklearn.tree import DecisionTreeClassifier
dt_clf = DecisionTreeClassifier()

In [57]:
parameters = {
    'max_depth': [2,3,4],
    'min_samples_leaf': [1,2,3]
}

In [61]:
# GridSearchCv를 사용해 학습
from sklearn.model_selection import GridSearchCV
# 모델
grid_dtree = GridSearchCV(dt_clf, param_grid=parameters, cv=5, scoring='accuracy')
# 학습
grid_dtree.fit(X_train, Y_train)

GridSearchCV(cv=5, estimator=DecisionTreeClassifier(),
             param_grid={'max_depth': [2, 3, 4], 'min_samples_leaf': [1, 2, 3]},
             scoring='accuracy')

In [63]:
# 최적값들
print(f'최적 파라미터: {grid_dtree.best_params_}')
print(f'최고 정확도: {grid_dtree.best_score_}')

최적 파라미터: {'max_depth': 3, 'min_samples_leaf': 3}
최고 정확도: 0.9583333333333334


In [64]:
# 테스트 데이터에 대해서 정확도 측정
estimator = grid_dtree.best_estimator_
pred = estimator.predict(X_test)

In [66]:
from sklearn.metrics import accuracy_score
accuracy_score(Y_test, pred)

0.9333333333333333