In [1]:
import numpy as np
import pandas as pd
# 전체적인 환경설정 용도
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns

import matplotlib.font_manager as fm
font_name = fm.FontProperties(fname = 'C:\Windows\Fonts\malgun.ttf').get_name()
plt.rc('font', family = font_name)

mpl.rcParams['axes.unicode_minus'] = False

# 훈련용과 테스트용 데이터를 나누어준다.
from sklearn.model_selection import train_test_split

#pip install mglearn
import mglearn

from sklearn.neighbors import KNeighborsClassifier

## 1. 데이터 인코딩
    - 기계가 알아들을 수 있도록(숫자로) 데이터를 변경해준다.
    - Label Encoding, One-Hot encoding

In [3]:
from sklearn.preprocessing import LabelEncoder

In [8]:
# Label Encoding : 문자를 숫자로!

items = ['TV', '냉장고','전자렌지','선풍기','선풍기','믹서','믹서']
encoder=LabelEncoder()
encoder.fit(items)

print('인코딩 클래스:',encoder.classes_)

labels = encoder.transform(items)
print('인코딩 변환값 :',labels)

print('디코딩 원본값 :', encoder.inverse_transform([0,1,4,3,3,2,2]))

인코딩 클래스: ['TV' '냉장고' '믹서' '선풍기' '전자렌지']
인코딩 변환값 : [0 1 4 3 3 2 2]
디코딩 원본값 : ['TV' '냉장고' '전자렌지' '선풍기' '선풍기' '믹서' '믹서']


In [13]:
from sklearn.preprocessing import OneHotEncoder

items = ['TV', '냉장고','전자렌지','선풍기','선풍기','믹서','믹서']

# 우선 숫자로 변경
encoder = LabelEncoder()
encoder.fit(items)

Labels = encoder.transform(items)

labels = labels.reshape(-1,1)

oh = OneHotEncoder()
oh.fit(labels)
oh_labels = oh.transform(labels)
print(oh_labels.toarray())

print(oh_labels.shape)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0.]]
(7, 5)


In case you used a LabelEncoder before this OneHotEncoder to convert the categories to integers, then you can now use the OneHotEncoder directly.


In [14]:
# get_dummys와의 차이 : get_dummys는 판다스에서 제공하고 문자를 바로 숫자로 변경해주지만 반드시 데이터프레임 형태여야함
df = pd.DataFrame({'items': ['TV', '냉장고','전자렌지','선풍기','선풍기','믹서','믹서']})

pd.get_dummies(df)



Unnamed: 0,items_TV,items_냉장고,items_믹서,items_선풍기,items_전자렌지
0,1,0,0,0,0
1,0,1,0,0,0
2,0,0,0,0,1
3,0,0,0,1,0
4,0,0,0,1,0
5,0,0,1,0,0
6,0,0,1,0,0


## 2. 피처 스케일링 (feature scaling)
    - feature : 특성, 종속변수에 영향을 주는 컬럼을 말함
    - Tree 계열은 피처 스케일링에 영항이 적다.
    - 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
    - 표준화(Standardization) : 피처 각각의 평균이 0 이고 분산이 1 인 표준 정규분포를 가진 값으로 변환
    - 정규화(Nomalization) : 서로 다른 피처의 크기를 통일하기 위해 크기를 변환해주는 개념

#### StandardScaler

In [15]:
from sklearn.datasets import load_iris
iris = load_iris()

In [18]:
iris_data = iris.data
iris_df = pd.DataFrame(data = iris_data, columns = iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [19]:
print(iris_df.mean())
print(iris_df.var())

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [20]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [22]:
iris_df_scaled = pd.DataFrame(data = iris_scaled, columns = iris.feature_names)

print(iris_df_scaled.mean())
print(iris_df_scaled.var())

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


#### MinMaxScaler
    - 정규분포가 아닐 경우에 사용

In [33]:
from sklearn.preprocessing import MinMaxScaler

In [34]:
scaler = MinMaxScaler()

scaler.fit(iris_df)
iris_scaler = scaler.transform(iris_df)

In [36]:
iris_df_scaled = pd.DataFrame(data = iris_scaler, columns = iris.feature_names)

print(iris_df_scaled.min())
print(iris_df_scaled.max())

sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


## 3.교차검증
    - 훈련용 데이터 내에서 미리 테스트를 하고, 최종적으로 테스트를 해서 결과를 도출해봄
    - 시간이 오래걸린다.
    - K-Fold Cross validation
    - KFold, StratifiedKFold

In [38]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold


In [42]:
iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state = 156)

In [47]:
kfold = KFold(n_splits=5)


cv_accuracy = []
n_iter = 0

for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    accuracy = accuracy_score(y_test, pred)
    
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('\n#{0} {1}, {2}, {3}'.format(n_iter, accuracy, train_size, test_size))
    print('\n#{0} 검증셋 인덱스 :{1}'.format(n_iter, test_index))
    
    cv_accuracy.append(accuracy)
    
print('\n 평균 검증 정확도 :', np.mean(cv_accuracy))


#1 1.0, 120, 30

#1 검증셋 인덱스 :[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 0.9666666666666667, 120, 30

#2 검증셋 인덱스 :[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 0.8666666666666667, 120, 30

#3 검증셋 인덱스 :[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 0.9333333333333333, 120, 30

#4 검증셋 인덱스 :[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 0.7333333333333333, 120, 30

#5 검증셋 인덱스 :[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

 평균 검증 정확도 : 0.9


In [52]:
iris = load_iris()

iris_df = pd.DataFrame(data = iris.data, columns = iris.feature_names)

iris_df['label'] = iris.target
iris_df.head()

iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [53]:
kfold = KFold(n_splits = 3)

n_iter =0
for train_index, test_index  in kfold.split(iris_df):
    n_iter += 1
    label_train= iris_df['label'].iloc[train_index]
    label_test= iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    50
1    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 0    50
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 1    50
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 1    50
0    50
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    50
Name: label, dtype: int64


In [57]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits = 3)

n_iter =0
for train_index, test_index  in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train= iris_df['label'].iloc[train_index]
    label_test= iris_df['label'].iloc[test_index]
    print('## 교차 검증: {0}'.format(n_iter))
    print('학습 레이블 데이터 분포:\n', label_train.value_counts())
    print('검증 레이블 데이터 분포:\n', label_test.value_counts())

## 교차 검증: 1
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증: 2
학습 레이블 데이터 분포:
 2    33
1    33
0    33
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    17
1    17
0    17
Name: label, dtype: int64
## 교차 검증: 3
학습 레이블 데이터 분포:
 2    34
1    34
0    34
Name: label, dtype: int64
검증 레이블 데이터 분포:
 2    16
1    16
0    16
Name: label, dtype: int64


In [59]:
dt_clf = DecisionTreeClassifier(random_state = 156)

skfold = StratifiedKFold(n_splits=3)


cv_accuracy = []
n_iter = 0

for train_index, test_index in skfold.split(features, iris_df['label']):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    
    dt_clf.fit(X_train, y_train)
    pred = dt_clf.predict(X_test)
    n_iter += 1
    
    accuracy = accuracy_score(y_test, pred)
    
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('\n#{0} {1}, {2}, {3}'.format(n_iter, accuracy, train_size, test_size))
    print('\n#{0} 검증셋 인덱스 :{1}'.format(n_iter, test_index))
    
    cv_accuracy.append(accuracy)
    
print('\n 평균 검증 정확도 :', np.mean(cv_accuracy))


#1 0.9803921568627451, 99, 51

#1 검증셋 인덱스 :[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115 116]

#2 0.9215686274509803, 99, 51

#2 검증셋 인덱스 :[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82  83 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132 133]

#3 0.9791666666666666, 102, 48

#3 검증셋 인덱스 :[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  84  85
  86  87  88  89  90  91  92  93  94  95  96  97  98  99 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

 평균 검증 정확도 : 0.960375816993464


In [63]:
from sklearn.model_selection import cross_val_score, cross_validate

In [62]:
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state = 156)

data = iris_data.data
label = iris_data.target

scores = cross_val_score(dt_clf, data, label, scoring= 'accuracy', cv = 3)
print('\n 평균 검증 정확도 :', np.mean(cv_accuracy))


 평균 검증 정확도 : 0.960375816993464


## GridSearchCV
    - 성능이 가장 좋은 파라미터를 자동으로 찾아서 검증까지 해줌

In [64]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

In [65]:
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target,
                                                    test_size = 0.2, random_state = 121)

dtree = DecisionTreeClassifier()

In [66]:
params = {'max_depth' : [1,2,3], 'min_samples_split' : [2,3]}

In [67]:
grid_dtree = GridSearchCV(dtree, param_grid=params, refit=True, scoring= 'accuracy', cv = 3)

In [68]:
grid_dtree.fit(X_train, y_train)

GridSearchCV(cv=3, error_score='raise-deprecating',
             estimator=DecisionTreeClassifier(class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort=False, random_state=None,
                                              splitter='best'),
             iid='warn', n_jobs=None,
             param_grid={'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]},
             pre_dispatch='2*n_jobs', refit=True, return_

In [73]:
scores_df = pd.DataFrame(grid_dtree.cv_results_)
scores_df[['params', 'mean_test_score', 'rank_test_score']] 

Unnamed: 0,params,mean_test_score,rank_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1


In [74]:
print('최적의 파라미터 :', grid_dtree.best_params_)
print('최고의 정확도 :', grid_dtree.best_score_)

최적의 파라미터 : {'max_depth': 3, 'min_samples_split': 2}
최고의 정확도 : 0.975


In [76]:
estimator = grid_dtree.best_estimator_
pred = estimator.predict(X_test)

print('테스트 정확도 :', accuracy_score(y_test, pred))

테스트 정확도 : 0.9666666666666667
