In [None]:
## 머신러닝 개념(ML)
# 데이터를 기반으로 패턴을 하습하고 결과를 추론하는  알고리즘 기법
# 지도학습(Supervised learning), 비지도학습(Un-Supervised learning)
# 지도학습(분류, 회귀), 비지도학습(클러스터링, 차원축소)


## 머신러닝 용어(데이터의 형식: DataFrame)
# 피처(feature) : 데이터의 일반 속성
# 레이블, 클래스, 타켓 값, 결정 값 : 정답데이터

In [None]:
# %load ../module.py
#!/usr/bin/env python

# In[ ]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns

import platform

if platform.system() == 'Darwin': #맥
        plt.rc('font', family='AppleGothic') 
elif platform.system() == 'Windows': #윈도우
        plt.rc('font', family='Malgun Gothic') 
elif platform.system() == 'Linux': #리눅스 (구글 콜랩)
        plt.rc('font', family='Malgun Gothic') 

plt.rcParams['axes.unicode_minus'] = False #한글 폰트 사용시 마이너스 폰트 깨짐 해결



In [None]:
import sklearn
from sklearn.datasets import load_iris

print('sklearn version -' , sklearn.__version__)

sklearn version - 1.0.2


In [None]:
iris = load_iris()
print('type - ', type(iris)) # type bunch key, value
print('keys - ', iris.keys())

type -  <class 'sklearn.utils.Bunch'>
keys -  dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])


In [None]:
print('data - ', iris.data)
print('data type - ' , type(iris.data))

print()

print('feature_names - ', iris.feature_names)
print('feature_names type - ' , type(iris.feature_names))

In [None]:
print('target - ', iris.target)
print('target type - ' , type(iris.target))

In [None]:
print('target_names - ', iris.target_names)
print('target_names type - ' , type(iris.target_names))

In [None]:
print('feature, target를 이용해서 데이터프레임을 만들어보자')

iris_data = pd.DataFrame(data = iris.data,
                         columns = iris.feature_names)
iris_data['target'] = iris.target
iris_data


feature, target를 이용해서 데이터프레임을 만들어보자


Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [None]:
## 지도학습 - 분류(classification)
# step01 - 데이터 분리(training data, test data)
# step02 - 학습데이터를 기반으로 ML 알고리즘을 적용해 학습 모델을 생성
# step03 - 테스트데이터를 기반으로 분류예측을 수행
# step04 - 모델에 성능평가

In [9]:
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score


In [10]:
print('step 01.')
print()

X_train, X_test, y_train, y_test =  train_test_split(iris.data, 
                                                     iris.target, 
                                                     test_size=0.2, 
                                                     shuffle=True,
                                                     random_state=100
                                                    )



step 01.



In [11]:
X_train.shape, X_test.shape, y_train.shape, y_test.shape

((120, 4), (30, 4), (120,), (30,))

In [None]:
print('train data - ', X_train)
print()
print('train target -', y_test)

In [None]:
print('step 02. fit()')
print()

iris_dtc_model = DecisionTreeClassifier()
iris_dtc_model.fit(X_train, y_train)


In [None]:
print('setp 03 predict()')
print()

y_pred = iris_dtc_model.predict(X_test)
print('y_test - ', y_test)
print('y_pred - ', y_pred) # 예측 값

In [None]:
print('step 04. 예측정확도')
print()

print('acc - ', accuracy_score(y_test, y_pred))

In [None]:
print(type(iris_data))

In [None]:
# 데이터프레임 형식에서 학습데이터와 테스트데이터를 분리한다면

print('target - ', iris_data['target'])

In [None]:
iris_feature = iris_data.iloc[:, :-1]
iris_target = iris_data.iloc[:, -1]

print('isir_feature - ', type(iris_feature))
print('iris_target - ', type(iris_target))

In [None]:
X_train, X_test, y_train, y_test =  train_test_split(iris_feature, 
                                                     iris_target, 
                                                     test_size=0.2, 
                                                     shuffle=True,
                                                     random_state=100
                                                    )


In [None]:
iris_dtc_model = DecisionTreeClassifier()
iris_dtc_model.fit(X_train, y_train)

In [None]:
y_pred = iris_dtc_model.predict(X_train)
print('y_test - ', y_train)
print('y_pred - ', y_pred) # 예측 값

In [None]:
acc = accuracy_score(y_train, y_pred)
print('acc -', acc)

In [2]:
### 교차 검증(cross validation) 분류에서만
# 과적합(overffiting)을 방지하기위한 방법
# 데이터의 편중을 막기위해서
# KFold 방식
from sklearn.model_selection import KFold, StratifiedKFold, cross_validate, cross_val_score

 

In [7]:
fold_iris = load_iris()

features = fold_iris.data
label = fold_iris.target


In [None]:
print('5개의 폴더 세트로 분리하여 각 폴더 세트별 정확도를 확인해보자')
cv_acc = []
kfold = KFold(n_splits=5)

fold_dct_model = DecisionTreeClassifier()


for train_idx, test_idx in kfold.split(features):
    # print('train idx - ', train_idx)
    # print('test idx - ', test_idx)
    X_train, X_val = features[train_idx], features[test_idx]
    y_train, y_val = label[train_idx], label[test_idx]
    print('X_train - ', X_train)
    fold_dct_model.fit(X_train, y_train)
    fold_pred = fold_dct_model.predict(X_val)
    
    acc = accuracy_score(y_val, fold_pred)
    print('acc - ', acc)
    
    cv_acc.append(acc)
print('교차검증 평균 정확도 - ', np.mean(cv_acc))

5개의 폴더 세트로 분리하여 각 폴더 세트별 정확도를 확인해보자
X_train -  [[4.8 3.1 1.6 0.2]
 [5.4 3.4 1.5 0.4]
 [5.2 4.1 1.5 0.1]
 [5.5 4.2 1.4 0.2]
 [4.9 3.1 1.5 0.2]
 [5.  3.2 1.2 0.2]
 [5.5 3.5 1.3 0.2]
 [4.9 3.6 1.4 0.1]
 [4.4 3.  1.3 0.2]
 [5.1 3.4 1.5 0.2]
 [5.  3.5 1.3 0.3]
 [4.5 2.3 1.3 0.3]
 [4.4 3.2 1.3 0.2]
 [5.  3.5 1.6 0.6]
 [5.1 3.8 1.9 0.4]
 [4.8 3.  1.4 0.3]
 [5.1 3.8 1.6 0.2]
 [4.6 3.2 1.4 0.2]
 [5.3 3.7 1.5 0.2]
 [5.  3.3 1.4 0.2]
 [7.  3.2 4.7 1.4]
 [6.4 3.2 4.5 1.5]
 [6.9 3.1 4.9 1.5]
 [5.5 2.3 4.  1.3]
 [6.5 2.8 4.6 1.5]
 [5.7 2.8 4.5 1.3]
 [6.3 3.3 4.7 1.6]
 [4.9 2.4 3.3 1. ]
 [6.6 2.9 4.6 1.3]
 [5.2 2.7 3.9 1.4]
 [5.  2.  3.5 1. ]
 [5.9 3.  4.2 1.5]
 [6.  2.2 4.  1. ]
 [6.1 2.9 4.7 1.4]
 [5.6 2.9 3.6 1.3]
 [6.7 3.1 4.4 1.4]
 [5.6 3.  4.5 1.5]
 [5.8 2.7 4.1 1. ]
 [6.2 2.2 4.5 1.5]
 [5.6 2.5 3.9 1.1]
 [5.9 3.2 4.8 1.8]
 [6.1 2.8 4.  1.3]
 [6.3 2.5 4.9 1.5]
 [6.1 2.8 4.7 1.2]
 [6.4 2.9 4.3 1.3]
 [6.6 3.  4.4 1.4]
 [6.8 2.8 4.8 1.4]
 [6.7 3.  5.  1.7]
 [6.  2.9 4.5 1.5]
 [5.7 2.6 3.5 1. ]
 [5

In [None]:
print('기존 KFold 방식의 문제점 확인 -')
print()

fold_iris_frm = pd.DataFrame(data = fold_iris.data, 
                             columns = fold_iris.feature_names)
fold_iris_frm['target'] = fold_iris.target
fold_iris_frm

기존 KFold 방식의 문제점 확인 -



Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0
...,...,...,...,...,...
145,6.7,3.0,5.2,2.3,2
146,6.3,2.5,5.0,1.9,2
147,6.5,3.0,5.2,2.0,2
148,6.2,3.4,5.4,2.3,2


In [None]:
fold_iris_frm['target'].value_counts()

0    50
1    50
2    50
Name: target, dtype: int64

In [None]:
bad_fold_iris = KFold(n_splits = 3 ) 
n_iter = 0 

fold_dct_model = DecisionTreeClassifier()
for train_idx , test_idx in bad_fold_iris.split(fold_iris_frm) :
    n_iter += 1 
    
    label_train =  fold_iris_frm['target'].iloc[train_idx]
    label_val   =  fold_iris_frm['target'].iloc[test_idx]
    print('교차검증 횟수 - ' , n_iter)
    print()
    print('학습 레이블 데이터 분포 - \n' , label_train)
    print('검증 레이블 데이터 분포 - \n' , label_val)

교차검증 횟수 -  1

학습 레이블 데이터 분포 - 
 50     1
51     1
52     1
53     1
54     1
      ..
145    2
146    2
147    2
148    2
149    2
Name: target, Length: 100, dtype: int64
검증 레이블 데이터 분포 - 
 0     0
1     0
2     0
3     0
4     0
5     0
6     0
7     0
8     0
9     0
10    0
11    0
12    0
13    0
14    0
15    0
16    0
17    0
18    0
19    0
20    0
21    0
22    0
23    0
24    0
25    0
26    0
27    0
28    0
29    0
30    0
31    0
32    0
33    0
34    0
35    0
36    0
37    0
38    0
39    0
40    0
41    0
42    0
43    0
44    0
45    0
46    0
47    0
48    0
49    0
Name: target, dtype: int64
교차검증 횟수 -  2

학습 레이블 데이터 분포 - 
 0      0
1      0
2      0
3      0
4      0
      ..
145    2
146    2
147    2
148    2
149    2
Name: target, Length: 100, dtype: int64
검증 레이블 데이터 분포 - 
 50    1
51    1
52    1
53    1
54    1
55    1
56    1
57    1
58    1
59    1
60    1
61    1
62    1
63    1
64    1
65    1
66    1
67    1
68    1
69    1
70    1
71    1
72    1
73    1
74 

In [5]:
### [실습]
# 아이리스 이용하여 StratifiedGroupKFold 교차검증을 진행해 보자
# random_state = 200
# StratifiedGroupKFold(3,5) 평균 정확도 확인

fold_iris = load_iris()

features = fold_iris.data
label = fold_iris.target


In [3]:
print('StratifiedKFold 레이블 불균형을 해결하면서 교차검증 진행 -  ')
cv_acc = []

skf = StratifiedKFold(n_splits=3) 
fold_dct_model = DecisionTreeClassifier(random_state = 200)
n_iter = 0 

for train_idx , test_idx in skf.split(features, label) :
    n_iter +=1
    
    # print('train idx - '  , train_idx)
    # print('test idx  - '  , test_idx)
    
    X_train , X_val = features[train_idx] , features[test_idx] 
    y_train , y_val = label[train_idx] , label[test_idx]
    # print('X_train - ' , X_train)
    # print('X_val - ' , X_val)
    
    fold_dct_model.fit(X_train, y_train)
    fold_pred = fold_dct_model.predict(X_val)
    
    acc = accuracy_score(y_val , fold_pred)
    print("검증횟수 {} , 교차검증 정확도 {} , 학습데이터 크기 {} , 검증데이터 크기 {}".format(n_iter, acc , X_train.shape[0], X_val.shape[0]))
    cv_acc.append(acc) 
    
print()
print("*" * 50 )
print('교차검증 평균 정확도 - ' , np.mean(cv_acc))

StratifiedKFold 레이블 불균형을 해결하면서 교차검증 진행 -  
검증횟수 1 , 교차검증 정확도 0.98 , 학습데이터 크기 100 , 검증데이터 크기 50
검증횟수 2 , 교차검증 정확도 0.92 , 학습데이터 크기 100 , 검증데이터 크기 50
검증횟수 3 , 교차검증 정확도 1.0 , 학습데이터 크기 100 , 검증데이터 크기 50

**************************************************
교차검증 평균 정확도 -  0.9666666666666667


In [None]:
### 위 과정을 한번에 수행하는 함수가 : cross_val_score() 
# 인자로 에측모델, 피처세트, 레이블, 성능평가 지표, 폴더 수

In [183]:
fold_iris = load_iris()

features = fold_iris.data
label = fold_iris.target

dt_model = DecisionTreeClassifier(random_state=100)

In [194]:
print('성능평가 acc, 교차검증 5행 수행 -')
print('cross_val_score() -')
print()

scores =  cross_val_score(dt_model, features, label, scoring='accuracy', cv=5)

type(scores)
print(np.mean(scores))
print(scores.mean().round(2))


성능평가 acc, 교차검증 5행 수행 -
cross_val_score() -

0.9533333333333334
0.95


In [195]:
scores =  cross_validate(dt_model, features, label, scoring='accuracy', cv=5)

In [203]:
type(scores)

for key, value in scores.items():
    print(key, value)
print()
print('fit_time - ', scores['fit_time'])
print('score_time - ', scores['score_time'])
print('test_score - ', scores['test_score'])
print('mean - ', scores['test_score'].mean().round(2))

fit_time [0.00221014 0.00161791 0.00121284 0.00127697 0.00150323]
score_time [0.00077701 0.00040603 0.00054812 0.0003829  0.00034285]
test_score [0.96666667 0.96666667 0.9        0.93333333 1.        ]

fit_time -  [0.00221014 0.00161791 0.00121284 0.00127697 0.00150323]
score_time -  [0.00077701 0.00040603 0.00054812 0.0003829  0.00034285]
test_score -  [0.96666667 0.96666667 0.9        0.93333333 1.        ]
mean -  0.95
