In [1]:
import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns 

import matplotlib.font_manager as fm 
font_name = fm.FontProperties(fname="C:\\Windows\\Fonts\\malgun.ttf").get_name()
plt.rc("font",family=font_name)

mpl.rcParams["axes.unicode_minus"] = False

#------------------------------------------------------------------------------

from sklearn.model_selection import train_test_split

#pip install mglearn
import mglearn          # 머신러닝 학습을 위한 모듈

#  1. 데이터 인코딩

   + Label Encoding       : 문자를 숫자로 
   + One-Hot Encoding     : 특정 위치를 강조 
       - OnHotEncoder() > 기본적인 원핫인코딩
       - get_dummies()  > Pandas에서 원핫인코딩

In [2]:
# 라벨 인코딩
from sklearn.preprocessing import LabelEncoder

In [10]:
items = ['TV',"냉장고","전자렌지","컴퓨터","선풍기","선풍기","믹서","믹서"]

encoder = LabelEncoder()
encoder.fit(items)
# 카테고리화 classes   < 중복 제거 
print("인코딩 클래스 :", encoder.classes_)   

labels = encoder.transform(items)
print("인코딩 변환값 :",labels)

print("디코딩 원본값 : ", encoder.inverse_transform([0,1,4,5,3,3,2,2]))

인코딩 클래스 : ['TV' '냉장고' '믹서' '선풍기' '전자렌지' '컴퓨터']
인코딩 변환값 : [0 1 4 5 3 3 2 2]
디코딩 원본값 :  ['TV' '냉장고' '전자렌지' '컴퓨터' '선풍기' '선풍기' '믹서' '믹서']


In [14]:
# 원핫 인코딩
from sklearn.preprocessing import OneHotEncoder

In [22]:
items = ['TV',"냉장고","전자렌지","컴퓨터","선풍기","선풍기","믹서","믹서"]

# 원핫 인코딩을 하기 위해선 먼저 라벨 인코딩을 먼저 해야 한다.
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)

# 2차원 행렬로 변환
labels = labels.reshape(-1,1)

# 원핫 인코딩
oh = OneHotEncoder()
oh.fit(labels)
oh_labels = oh.transform(labels)
print(oh_labels.toarray())
print(oh_labels.shape)

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
(8, 6)


In [23]:
# get_dummies >> pandas 에서 원핫인코딩을 지원하는 메서드

df = pd.DataFrame({"item":['TV',"냉장고","전자렌지","컴퓨터","선풍기","선풍기","믹서","믹서"]})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_선풍기,item_전자렌지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


<hr/> 

#  2. 피처 스케일링(feature scaling)

   + 표준화(Standardization)
       - 피처(feature) 각각의 평균이 0이고 분산이 1인 표준정규분포를 가진 값으로 변환
   + 정규화(Normalization)
       - 서로 다른 피처의 크기를 토일하기 위해 크기를 변환해주는 개념
       - 단위가 다른 경우 (km 와 g을 비교할 때 단위를 맞추기 위해 사용)

<hr/>

컬럼 / 변수 / 퓌쳐

트리계열은 스케일링에 영향을 거의 받지 않음 

https://2-chae.github.io/category/1.ai/28
* 피처 : 종속변수에 영향을 주는 컬럼

### StandardScaler

In [33]:
from sklearn.datasets import load_iris
iris = load_iris()

In [35]:
iris_data = iris.data
iris_df = pd.DataFrame(data=iris_data,columns=iris.feature_names)
iris_df

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2
...,...,...,...,...
145,6.7,3.0,5.2,2.3
146,6.3,2.5,5.0,1.9
147,6.5,3.0,5.2,2.0
148,6.2,3.4,5.4,2.3


In [37]:
print(iris_df.mean())   # 평균
print(iris_df.var())    # 분산

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [44]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [45]:
iris_df_scaled = pd.DataFrame(data=iris_scaled,columns=iris.feature_names)

print(iris_df_scaled.mean())
print(iris_df_scaled.var())

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


### MinMaxScaler     : 정규분포가 아닐경우 사용 최소 0 최대 1 
                                0과 1사이 

In [46]:
from sklearn.preprocessing import MinMaxScaler

In [47]:
scaler = MinMaxScaler()

scaler.fit(iris_df)
iris_scaled = scaler.transform(iris_df)

In [48]:
iris_df_scaled = pd.DataFrame(data=iris_scaled,columns=iris.feature_names)

print(iris_df_scaled.min())
print(iris_df_scaled.max())

sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


# 교차 검증 

   +  K-Fold Cross Validation
   + KFold, StratifiedFold

In [49]:
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
from sklearn.model_selection import KFold

In [59]:
iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

In [63]:
kfold = KFold(n_splits=5) # n_splits=5   > 5등분 
cv_accuracy = []
n_iter = 0

for train_index,test_index in kfold.split(features):
    X_train, X_test = features[train_index],features[test_index]
    y_train, y_test = label[train_index],label[test_index]
    
    dt_clf.fit(X_train,y_train)
    pred= dt_clf.predict(X_test)
    n_iter += 1
    
    accuracy = accuracy_score(y_test,pred)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('\n#{} 교차 검증 정확도 :{}, 학습데이터크기 :{}, 검증데이터크기:{}'.format(n_iter, accuracy, train_size, test_size))
    print('#{} 검증 세트 인덱스:{}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
print("\n평균 검증 정확도 :",np.mean(cv_accuracy))


#1 교차 검증 정확도 :1.0, 학습데이터크기 :120, 검증데이터크기:30
#1 검증 세트 인덱스:[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 교차 검증 정확도 :0.9666666666666667, 학습데이터크기 :120, 검증데이터크기:30
#2 검증 세트 인덱스:[30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 교차 검증 정확도 :0.8666666666666667, 학습데이터크기 :120, 검증데이터크기:30
#3 검증 세트 인덱스:[60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 교차 검증 정확도 :0.9333333333333333, 학습데이터크기 :120, 검증데이터크기:30
#4 검증 세트 인덱스:[ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 교차 검증 정확도 :0.7333333333333333, 학습데이터크기 :120, 검증데이터크기:30
#5 검증 세트 인덱스:[120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]

평균 검증 정확도 : 0.9


In [68]:
iris = load_iris()

iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df["label"]=iris.target
iris_df.head()
iris_df["label"].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [74]:
kfold = KFold(n_splits=3)  
n_iter=0

for train_idx, test_idx in kfold.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_idx]
    label_test = iris_df['label'].iloc[test_idx]
    
    print('\n## 교차 검증: {}'.format(n_iter))
    print('학습레이블 데이터 분포:\n', label_train.value_counts())
    print('검증레이블 데이터 분포:\n', label_test.value_counts())


## 교차 검증: 1
학습레이블 데이터 분포:
 2    50
1    50
Name: label, dtype: int64
검증레이블 데이터 분포:
 0    50
Name: label, dtype: int64

## 교차 검증: 2
학습레이블 데이터 분포:
 2    50
0    50
Name: label, dtype: int64
검증레이블 데이터 분포:
 1    50
Name: label, dtype: int64

## 교차 검증: 3
학습레이블 데이터 분포:
 1    50
0    50
Name: label, dtype: int64
검증레이블 데이터 분포:
 2    50
Name: label, dtype: int64


### StratifiedKFold
   + 불균형한(imbalanced) 분포도를 가진 레이블 데이터 집합을 위한 K 폴드 방식임. KFold로 분할된 레이블 데이터 세트가 전체 레이블 값의 분포도를 반영하지 못하는 문제를 해결
   + 이를 위해 Stratified K 폴드는 원본 데이터의 레이블 분포를 먼저 고려한 뒤 이 분포와 동일하게 학습과 검증 데이터 세트를 분배한다.
   + 분류에는 웬만하면 StratifiedKFold 쓰는게 좋다고 한다. 회귀에서는 Stratified K 폴드가 지원되지 않음 그 이유는 회귀의 값은 이산값 형태의 레이블이 아닌 연속형 숫자이기 때문에 결정값별로 분포를 정하는게 의미가 없어서 그렇다.

In [75]:
from sklearn.model_selection import StratifiedKFold

skf = StratifiedKFold(n_splits=3)  
n_iter=0
#피처 데이터 세트뿐만 아니라 레이블 데이터 세트도 반드시 넣어줘야한다.
for train_idx, test_idx in skf.split(iris_df, iris_df['label']):
    n_iter += 1
    label_train = iris_df['label'].iloc[train_idx]
    label_test = iris_df['label'].iloc[test_idx]
    
    print('\n## 교차 검증: {}'.format(n_iter))
    print('학습레이블 데이터 분포:\n', label_train.value_counts())
    print('검증레이블 데이터 분포:\n', label_test.value_counts())


## 교차 검증: 1
학습레이블 데이터 분포:
 2    34
1    33
0    33
Name: label, dtype: int64
검증레이블 데이터 분포:
 1    17
0    17
2    16
Name: label, dtype: int64

## 교차 검증: 2
학습레이블 데이터 분포:
 1    34
2    33
0    33
Name: label, dtype: int64
검증레이블 데이터 분포:
 2    17
0    17
1    16
Name: label, dtype: int64

## 교차 검증: 3
학습레이블 데이터 분포:
 0    34
2    33
1    33
Name: label, dtype: int64
검증레이블 데이터 분포:
 2    17
1    17
0    16
Name: label, dtype: int64


In [78]:
# 붓꽃데이터를 StratifiedKFold로 겨환
dt_clf = DecisionTreeClassifier(random_state=156)

skfold = StratifiedKFold(n_splits=3) 
cv_accuracy = []
n_iter = 0

for train_index,test_index in skfold.split(features, label):
    X_train, X_test = features[train_index],features[test_index]
    y_train, y_test = label[train_index],label[test_index]
    
    dt_clf.fit(X_train,y_train)
    pred= dt_clf.predict(X_test)
    n_iter += 1
    
    accuracy = accuracy_score(y_test,pred)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    
    print('\n#{} 교차 검증 정확도 :{}, 학습데이터크기 :{}, 검증데이터크기:{}'.format(n_iter, accuracy, train_size, test_size))
    print('#{} 검증 세트 인덱스:{}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)
    
print("\n평균 검증 정확도 :",np.mean(cv_accuracy))


#1 교차 검증 정확도 :0.98, 학습데이터크기 :100, 검증데이터크기:50
#1 검증 세트 인덱스:[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 교차 검증 정확도 :0.94, 학습데이터크기 :100, 검증데이터크기:50
#2 검증 세트 인덱스:[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 교차 검증 정확도 :0.98, 학습데이터크기 :100, 검증데이터크기:50
#3 검증 세트 인덱스:[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]

평균 검증 정확도 : 0.9666666666666667


In [85]:
from sklearn.model_selection import cross_val_score #cross_validate( )
# cross_validate( ) << 여러개의 평가지표를 반환할 수 있다

In [86]:
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)

data = iris_data.data
label = iris_data.target

scores = cross_val_score(dt_clf, data, label, scoring='accuracy', cv=3)
print('검증별 정확도:', np.round(scores,4))
print('평균 정확도:', np.round(np.mean(scores),4))

검증별 정확도: [0.98 0.94 0.98]
평균 정확도: 0.9667


<hr/>

#  GridSearchCV 

   + 

In [103]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import GridSearchCV

In [104]:
# 학습 데이터와 테스트 데이터를 나눔.
iris = load_iris()
train_x, test_x, train_y, test_y = train_test_split(iris.data, iris.target, test_size=0.2, random_state=121)

dtree = DecisionTreeClassifier()

In [105]:
# dictionary 형태로 파라미터 설정
params = {'max_depth':[1,2,3], 'min_samples_split':[2,3]}

In [106]:
# param_grid의 하이퍼 파라미터를 3개의 train, valid set fold로 나누어 테스트 진행
grid_dtree = GridSearchCV(dtree, param_grid=params, cv=3, refit=True,scoring='accuracy')

# refit > 반복을 돌려서 가장 최적의 상태를 최후에 실행시켜 결과를 보여준다.
# cs =  > 교차 검증을 할 것인가?  default = 0 교차검증X

In [107]:
# 학습 시작
grid_dtree.fit(train_x, train_y)

GridSearchCV(cv=3, error_score=nan,
             estimator=DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort='deprecated',
                                              random_state=None,
                                              splitter='best'),
             iid='deprecated', n_jobs=None,
             param_grid={'max_depth': [1, 2, 3], 'min_samples_split': [2, 3]},

In [108]:
# GridSearchCV 결과를 DataFrame으로 변환
scores = pd.DataFrame(grid_dtree.cv_results_)
scores[['params','mean_test_score', 'rank_test_score']]

Unnamed: 0,params,mean_test_score,rank_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1


In [109]:
print('GridSearch 최적 파라미터: ', grid_dtree.best_params_)
print('GridSearch 최고 점수: ', grid_dtree.best_score_)

GridSearch 최적 파라미터:  {'max_depth': 3, 'min_samples_split': 2}
GridSearch 최고 점수:  0.975


In [110]:
# GridSearchCV의 refit으로 학습된 estimator 반환
estimator = grid_dtree.best_estimator_

# GridSearchCV의 best_estmator_ 는 이미 최적 학습이 됐으므로 별도 학습이 필요 없음
pred = estimator.predict(X_test)
print('테스트 데이터세트 정확도: {0: .4f}'.format(accuracy_score(y_test, pred)))

테스트 데이터세트 정확도:  0.9800
