In [1]:
# 사이킷런 : 대표적인 파이썬 머신러닝 라이브러리
import sklearn

# 1. 붓꽃 품종 분류
- 지도학습 : 레이블 데이터로 모델을 학습한 뒤, 테스트 데이터로 미지의 레이블을 예측하는 방법 
- sklearn.tree : 트리 기반 ML 알고리즘
- sklearn.model_selection : 학습, 검증, 예측 데이터로 데이터를 분리하거나 최적의 하이퍼 파라미터로 평가하기 위한 모듈의 모임
- 하이퍼 파라미터 : 머신러닝 알고리즘 별로 최적의 학습을 위해 직접 입력하는 파라미터

In [3]:
from sklearn.datasets import load_iris
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import train_test_split
import pandas as pd

In [9]:
# 레이블 = 타깃 ?
iris = load_iris()
iris_data = iris.data # 피처만으로 된 데이터를 가짐
iris_label = iris.target # 레이블(결정 값) 데이터를 가짐

print(iris_label)
print(iris.target_names)

iris_df = pd.DataFrame(iris_data, columns=iris.feature_names)
iris_df['label'] = iris.target
iris_df.head(3)

[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2
 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2
 2 2]
['setosa' 'versicolor' 'virginica']


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),label
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0


In [10]:
# 테스트 데이터: 학습 데이터로 학습된 모델의 성능 평가
# 1) 데이터 세트 분리 (학습, 테스트)
X_train, X_test, y_train, y_test = train_test_split(iris_data, iris_label, test_size=0.2, random_state=11)
# train_test_split(피처 데이터, 레이블 데이터)
# X : 피처 데이터 . y : 레이블 데이터

In [12]:
# 객체 생성
dt_clf = DecisionTreeClassifier(random_state=11)
# 2) 학습 수행 - fit()
dt_clf.fit(X_train, y_train)

DecisionTreeClassifier(random_state=11)

In [14]:
# 3) 테스트 데이터로 예측 수행 - predict()
pred =dt_clf.predict(X_test)

In [19]:
# 4) 예측 성능 평가 -> 여기서는 정확도로 측정
from sklearn.metrics import accuracy_score
accuracy_score(y_test, pred) # accuracy_score(실제 레이블, 예측 레이블)
'정확도: {0:.4f}'.format(accuracy_score(y_test, pred))

'정확도: 0.9333'

# 2. 사이킷런 기반 프레임워크
- Estimator : 지도학습의 모든 알고리즘을 구현한 클래스, Classifier(분류 알고리즘 구현) + Regressor(회귀 알고리즘 구현)
    - fit(), predict() 로 학습과 예측 결과 반환
    - evaluation 함수나 하이퍼 파리미터 튜닝을 지원하는 클래스의 경우 Estimator를 인자로 받는다.
- 비지도학습 (차원 축소, 클러스터링, 피처 추출)
    - fit() , transform() 적용, fit() : 입력 데이터의 형태에 맞춰 데이터를 변환하기 위한 사전 구조를 맞추는 작업
    - fit_transform() 도 있음

In [24]:
# 1) 내장된 예제 데이터 세트 : 분류나 회귀 연습 용도 / 분류나 클러스터링을 위한 표본 데이터의 생성 용도  
  # 일반적으로 딕셔너리 형 : 키는 보통5개, data, target, target_names, feature_names, DESCR : 데이터 세트의 설명 
iris_data = load_iris()
print(type(iris_data)) # Bunch 클래스는 딕셔너리 자료형과 유사
print(iris_data.keys())

<class 'sklearn.utils.Bunch'>
dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename'])


In [44]:
# 2) model_selection : 데이터 분리, 교차 검증 분할 및 평가, Estimator의 하이퍼 파리미터 튜닝

# 데이터 분리
dt_clf = DecisionTreeClassifier()
iris_data = load_iris()

X_train, X_test, y_train, y_test = train_test_split(iris_data.data,iris_data.target, test_size=0.3, random_state=121)
dt_clf.fit(X_train, y_train)
pred = dt_clf.predict(X_test)
accuracy_score(y_test,pred)

0.9555555555555556

In [48]:
print(X_test.shape)
print(X_train.shape)

(45, 4)
(105, 4)


In [38]:
# 교차 검증 : 여러 세트로 구성된 학습 데이터와 검증 데이터 세트에서 학습과 평가를 수행하는 것
# 검증 데이터를 별도로 두어 최종 평가 이전에 학습된 데이터를 다양하게 평가함
# 고정된 학습 , 테스트 데이터만 사용 -> 테스트 데이터에만 과도하게 최적화되게 모델을 유도하는 경향
# k 폴드 교차 검증 : 데이터를 k등분하여 k번의 예측 평가를 수행한 후, 그것의 평균으로 최종평가하는 것

from sklearn.model_selection import KFold
import numpy as np
iris = load_iris()
features = iris.data
label = iris.target
dt_clf = DecisionTreeClassifier(random_state=156)

kfold = KFold(n_splits=5)
cv_accuracy = []
print(features.shape[0])

150


In [40]:
# kfold.split -> 학습용/ 검증용 데이터 반환 
n_iter =0
for train_index, test_index in kfold.split(features):
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    dt_clf.fit(X_train,y_train)
    pred = dt_clf.predict(X_test)
    n_iter +=1
    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print("\n#{0} : 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}".format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)


#1 : 정확도 : 1.0, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#1 검증 세트 인덱스: [ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
 24 25 26 27 28 29]

#2 : 정확도 : 0.9667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#2 검증 세트 인덱스: [30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53
 54 55 56 57 58 59]

#3 : 정확도 : 0.8667, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#3 검증 세트 인덱스: [60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83
 84 85 86 87 88 89]

#4 : 정확도 : 0.9333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#4 검증 세트 인덱스: [ 90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119]

#5 : 정확도 : 0.7333, 학습 데이터 크기 : 120, 검증 데이터 크기 : 30
#5 검증 세트 인덱스: [120 121 122 123 124 125 126 127 128 129 130 131 132 133 134 135 136 137
 138 139 140 141 142 143 144 145 146 147 148 149]


In [43]:
print(np.mean(cv_accuracy))

0.9


In [61]:
# Stratified K 폴드 : 불균형한 분포도를 가진 레이블을 위한 K 폴드 방식
# 전체 레이블 값의 분포도를 반영하도록 -> split()에 레이블을 무조건 인자로 넣어야
import pandas as pd
iris =load_iris()
iris_df = pd.DataFrame(iris.data, columns = iris.feature_names)
iris_df['label'] =iris.target
iris_df['label'].value_counts()

2    50
1    50
0    50
Name: label, dtype: int64

In [62]:
from sklearn.model_selection import StratifiedKFold
skf = StratifiedKFold(n_splits=3)
n_iter=0

for train_index, test_index in skf.split(iris_df, iris_df['label']):
    n_iter +=1
    label_train = iris_df['label'].iloc[train_index]
    label_test = iris_df['label'].iloc[test_index]
    print(n_iter)
    print(label_train.value_counts())
    print(label_test.value_counts())

1
2    34
1    33
0    33
Name: label, dtype: int64
1    17
0    17
2    16
Name: label, dtype: int64
2
1    34
2    33
0    33
Name: label, dtype: int64
2    17
0    17
1    16
Name: label, dtype: int64
3
0    34
2    33
1    33
Name: label, dtype: int64
2    17
1    17
0    16
Name: label, dtype: int64


In [64]:
dt_clf = DecisionTreeClassifier(random_state=156)
skfold = StratifiedKFold(n_splits=3)
n_iter =0
cv_accuracy=[]

for train_index, test_index in skfold.split(features, label): # StratifiedKFold는 반드시 레이블 데이터 세트도 추가 입력!
    X_train, X_test = features[train_index], features[test_index]
    y_train, y_test = label[train_index], label[test_index]
    dt_clf.fit(X_train,y_train)
    pred = dt_clf.predict(X_test)
    n_iter +=1
    # 반복 시마다 정확도 측정
    accuracy = np.round(accuracy_score(y_test, pred), 4)
    train_size = X_train.shape[0]
    test_size = X_test.shape[0]
    print("\n#{0} : 정확도 : {1}, 학습 데이터 크기 : {2}, 검증 데이터 크기 : {3}".format(n_iter, accuracy, train_size, test_size))
    print('#{0} 검증 세트 인덱스: {1}'.format(n_iter, test_index))
    cv_accuracy.append(accuracy)


#1 : 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
#1 검증 세트 인덱스: [  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]

#2 : 정확도 : 0.94, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
#2 검증 세트 인덱스: [ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]

#3 : 정확도 : 0.98, 학습 데이터 크기 : 100, 검증 데이터 크기 : 50
#3 검증 세트 인덱스: [ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]


In [57]:
print(np.round(cv_accuracy, 4))
print(np.mean(cv_accuracy))

[0.98 0.94 0.98]
0.9666666666666667


In [71]:
# cross_val_score(estimator, X, y, scroring="예측성능평가지표"), cv="교차 검증 폴드 수"
# classifer가 입력될 경우 -> stratified  k 폴드 방식 / 회귀 -> k 폴드 방식
from sklearn.model_selection import cross_val_score, cross_validate
iris_data = load_iris()
dt_clf = DecisionTreeClassifier(random_state=156)
data = iris_data.data
label = iris_data.target

scores = cross_val_score(dt_clf, data, label, scoring="accuracy", cv=3)
print(np.round(scores,4))
print(np.round(np.mean(scores),4))
# cross_validate : 여러 개의 평가지표, 수행 시간 같이 제공

[0.98 0.94 0.98]
0.9667


In [75]:
# GridSearchCV : 교차 검증을 기반으로  최적의 하이퍼 파라미터를 찾는다.
grid_parameters = {'max_depth': [1,2,3],
                  'min_samples_split': [2,3]}
# GridSearchCV(estimator, param_grid, scoring, cv, refit)
from sklearn.model_selection import GridSearchCV

In [82]:
iris_data = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris_data.data, iris_data.target, test_size=0.2, random_state=121)
dtree = DecisionTreeClassifier()
parameters={'max_depth': [1,2,3], 'min_samples_split' : [2,3]}

import pandas as pd
grid_dtree = GridSearchCV(dtree, param_grid = parameters, cv=3, refit=True) # refit=True : 가장 좋은 파라미터로 재학습


In [84]:
grid_dtree.fit(X_train,y_train)

scores_df =pd.DataFrame(grid_dtree.cv_results_) # 결과를 cv_results_ 속성에 기록
scores_df[['params', 'mean_test_score', 'rank_test_score',
          'split0_test_score', 'split1_test_score', 'split2_test_score']]
# rank_test_score이 1

Unnamed: 0,params,mean_test_score,rank_test_score,split0_test_score,split1_test_score,split2_test_score
0,"{'max_depth': 1, 'min_samples_split': 2}",0.7,5,0.7,0.7,0.7
1,"{'max_depth': 1, 'min_samples_split': 3}",0.7,5,0.7,0.7,0.7
2,"{'max_depth': 2, 'min_samples_split': 2}",0.958333,3,0.925,1.0,0.95
3,"{'max_depth': 2, 'min_samples_split': 3}",0.958333,3,0.925,1.0,0.95
4,"{'max_depth': 3, 'min_samples_split': 2}",0.975,1,0.975,1.0,0.95
5,"{'max_depth': 3, 'min_samples_split': 3}",0.975,1,0.975,1.0,0.95


In [85]:
print(grid_dtree.best_params_) # 최적의 파라미터 값
print(grid_dtree.best_score_) # 그때의 정확도

{'max_depth': 3, 'min_samples_split': 2}
0.975


In [86]:
#refit=True일때 best_estimator_로 학습된 estimator 반환
estimator = grid_dtree.best_estimator_
pred = estimator.predict(X_test)
print(accuracy_score(y_test, pred))

0.9666666666666667


# 3. 데이터 인코딩
- 레이블 인코딩 : 카테고리 피처를 코드형 숫자 값으로 변환
- 원-핫 인코딩 : 새로운 피처를 추가해 고유 값에 해당하는 칼럼에만 1을 표시하고 나머지 칼럼에는 0을 표시하는 방식

In [87]:
from sklearn.preprocessing import LabelEncoder
items = ['TV', '냉장고', '전자레인지', '컴퓨터', '에어컨', '에어컨', '믹서', '믹서']
encoder = LabelEncoder()
encoder.fit(items)
labels=encoder.transform(items)
print(labels)

[0 1 4 5 3 3 2 2]


In [91]:
print(encoder.classes_) # 인코딩 확인 
print(encoder.inverse_transform([0 ,1, 4, 5, 3, 3, 2, 2]))
# 회귀와 같은 ML 알고리즘 -> 숫자 값이 클수록 가중치를 더 부여해 중요하게 인식하는 문제
# 트리는 상관 없음

['TV' '냉장고' '믹서' '에어컨' '전자레인지' '컴퓨터']
['TV' '냉장고' '전자레인지' '컴퓨터' '에어컨' '에어컨' '믹서' '믹서']


In [96]:
# 원 핫 인코딩
# 주의 1 ) OneHotEncoder로 변환하기 전에 모든 문자열 값이 숫자형 값으로 변환돼야
# 주의 2) 입력 값으로 2차원 데이터가 필요함

from sklearn.preprocessing import OneHotEncoder
import numpy as np

items = ['TV', '냉장고', '전자레인지', '컴퓨터', '에어컨', '에어컨', '믹서', '믹서']
# 숫자형 변환위해 LableEncoder로 변환
encoder = LabelEncoder()
encoder.fit(items)
labels = encoder.transform(items)
# 2차원 데이터 변환
labels=labels.reshape(-1,1)

oh_encoder = OneHotEncoder()
oh_encoder.fit(labels)
oh_labels=oh_encoder.transform(labels)
print(oh_labels.toarray())
print(oh_labels.shape)

[[1. 0. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 0. 1.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0. 0.]
 [0. 0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0. 0.]]
(8, 6)


In [97]:
# pandas 원 핫 인코딩 : get_dummies() -> 숫자형으로 변환 필요 X
import pandas as pd
df= pd.DataFrame({'item':['TV', '냉장고', '전자레인지', '컴퓨터', '에어컨', '에어컨', '믹서', '믹서']})
pd.get_dummies(df)

Unnamed: 0,item_TV,item_냉장고,item_믹서,item_에어컨,item_전자레인지,item_컴퓨터
0,1,0,0,0,0,0
1,0,1,0,0,0,0
2,0,0,0,0,1,0
3,0,0,0,0,0,1
4,0,0,0,1,0,0
5,0,0,0,1,0,0
6,0,0,1,0,0,0
7,0,0,1,0,0,0


# 4 피처 스케일링 
- 서로 다른 변수의 값 범위를 일정한 수준으로 맞추는 작업
- 표준화 : 평균 0, 분산 1인 가우시안 정규 분포를 가진 값으로 변환하는 것 - StandardScaler
- 정규화 : 서로 다른 피쳐 크기를 통일하기 위해 크기를 0~1로 변환하는 것 - MinMaxScaler

In [98]:
from sklearn.datasets import load_iris
import pandas as pd
iris = load_iris()
iris_data = iris.data
iris_df = pd.DataFrame(iris_data,columns=iris.feature_names)
print(iris_df.mean())
print(iris_df.var())

sepal length (cm)    5.843333
sepal width (cm)     3.057333
petal length (cm)    3.758000
petal width (cm)     1.199333
dtype: float64
sepal length (cm)    0.685694
sepal width (cm)     0.189979
petal length (cm)    3.116278
petal width (cm)     0.581006
dtype: float64


In [99]:
from sklearn.preprocessing import StandardScaler
scaler = StandardScaler()
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)
print(iris_df_scaled.mean())
print(iris_df_scaled.var())

sepal length (cm)   -1.690315e-15
sepal width (cm)    -1.842970e-15
petal length (cm)   -1.698641e-15
petal width (cm)    -1.409243e-15
dtype: float64
sepal length (cm)    1.006711
sepal width (cm)     1.006711
petal length (cm)    1.006711
petal width (cm)     1.006711
dtype: float64


In [102]:
from sklearn.preprocessing import MinMaxScaler
scaler = MinMaxScaler()
scaler.fit(iris_df)
iris_scaled=scaler.transform(iris_df)
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris.feature_names)
print(iris_df_scaled.min())
print(iris_df_scaled.max())

sepal length (cm)    0.0
sepal width (cm)     0.0
petal length (cm)    0.0
petal width (cm)     0.0
dtype: float64
sepal length (cm)    1.0
sepal width (cm)     1.0
petal length (cm)    1.0
petal width (cm)     1.0
dtype: float64


In [105]:
# 유의점 : 학습 데이터로 fit()이 적용된 스케일링 기준 정보를 그대로 테스트 데이터에 적용해야 함

train_array = np.arange(0, 11).reshape(-1,1)
test_array = np.arange(0,6).reshape(-1,1)
# 학습 : 0~10/ 테스트 : 0~5 / scaler의 fit(), transform() 2차원 데이터만 가능
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
print(np.round(train_array.reshape(-1),2))
print(np.round(train_scaled.reshape(-1),2))

scaler.fit(test_array)
test_scaled=scaler.transform(test_array)
print(np.round(test_array.reshape(-1),2))
print(np.round(test_scaled.reshape(-1),2))

[ 0  1  2  3  4  5  6  7  8  9 10]
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
[0 1 2 3 4 5]
[0.  0.2 0.4 0.6 0.8 1. ]


In [107]:
# 머신러닝 모델은 학습 데이터를 기반으로 학습되기 때문에 테스트 데이터는 학습 데이터의 스케일링 기준에 따라야 함
scaler = MinMaxScaler()
scaler.fit(train_array)
train_scaled = scaler.transform(train_array)
test_scaled=scaler.transform(test_array)

print(np.round(train_scaled.reshape(-1),2))
print(np.round(test_scaled.reshape(-1),2))

[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1. ]
[0.  0.1 0.2 0.3 0.4 0.5]
