## DecisionTreeClassifier

In [None]:
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# 1. 분류 데이터셋을 가져온다(1, 2, 3, 4중에 어디에 해당되는가? => 분류)
iris = load_iris()

# 2. 데이터 확인해보기
print(iris.keys())
print(iris['data'][:10, :]) # numpy형태로, 슬라이싱이 가능하다 - 데이터 프레임의 head(10)과 같은 역할
print(iris['data'].shape) # 데이터 전체 크기 확인

df = pd.DataFrame(iris['data'], columns = iris['feature_names'])
df.head()
df.info()
df.describe() # 요약통계량

In [None]:
# 3. 데이터를 훈련셋과 테스트셋으로 나누자.
X_train, X_test, y_train, y_test = train_test_split(iris['data'], iris['target'], test_size = 0.3, random_state=11)

# 모델 생성
clf = DecisionTreeClassifier(max_depth=5)

# 훈련세트를 기준으로 학습을 진행
clf.fit(X_train, y_train)

# 예측하기
y_pred = clf.predict(X_test)

# 평가하기
print('훈련셋 : ', clf.score(X_train, y_train))
print('테스트셋 : ', clf.score(X_test, y_test))

## Kfold
- 1. 구간을 나누고 결과를 한번에 확인하기 위해 빈 리스트 생성
- 2. for문 안에서 반복문이 시행될때 마다 모델을 생성하고 학습하며 평가하기
- 3. 빈 리스트에 평가 점수들을 추가해 한꺼번에 결과를 확인하고 평균값 확인해보기

In [181]:
from sklearn.model_selection import KFold
kfold = KFold(n_splits=5, shuffle=True) # 전체 구간을 5개로 나누겠다

iris_data = iris['data']
iris_target = iris['target']
train_score = []
test_score = []

n_iter = 0
for train_index, test_index in kfold.split(iris['data']):
    print(f'{n_iter}번째 -----')
    # print(train_index)
    print(test_index)
    n_iter += 1

    # 데이터 분할하기
    X_train = iris_data[train_index] # 전체 5개반 중에서 학습모델로 분류된 4개반에 대한 학습세트와
    X_test = iris_data[test_index] # 테스트 세트
    y_train = iris_target[train_index] # 전체 5개반 중에서 테스트모델로 분류된 1개반에 대한 학습세트와
    y_test = iris_target[test_index] # 테스트 세트

    model = DecisionTreeClassifier()
    model.fit(X_train, y_train)
    
    train_score.append(model.score(X_train, y_train))
    test_score.append(model.score(X_test, y_test))
print(train_score)
print(sum(test_score)/5)


0번째 -----
[  6  12  14  15  21  22  24  30  34  36  66  70  75  77  81  83  86  88
  93 101 103 107 110 121 125 126 127 135 143 149]
1번째 -----
[  0   4   9  11  32  33  37  43  48  54  58  61  63  65  69  74  79  90
  98 106 109 118 119 128 131 136 138 144 145 148]
2번째 -----
[  1   2  13  16  18  26  27  28  35  39  40  42  45  49  51  53  57  60
  62  76  94  95  99 102 108 117 122 133 137 139]
3번째 -----
[  3  10  23  31  41  50  52  56  64  71  72  84  85  87  89  92  96  97
 100 104 105 112 113 115 124 130 132 134 140 146]
4번째 -----
[  5   7   8  17  19  20  25  29  38  44  46  47  55  59  67  68  73  78
  80  82  91 111 114 116 120 123 129 141 142 147]
[1.0, 1.0, 1.0, 1.0, 1.0]
0.9466666666666667


## StratifiedKFold
- 불균형한 분포도를 가진 레이블 데이터 집합에 사용한다.
- 불균형하다 -> 특정 레이블 값이 특이하게 많거나 매우 적어서 값의 분포가 한쪽으로 치우치는 것을 말한다

In [241]:
from sklearn.model_selection import StratifiedKFold
kfold = StratifiedKFold(n_splits=3) # 전체 구간을 5개로 나누겠다

iris_data = iris['data']
iris_target = iris['target']
train_score = []
test_score = []

n_iter = 0
for train_index, test_index in kfold.split(iris_data, iris_target):
    print(f'{n_iter}번째 -----')
    # print(train_index)
    print(test_index)
    n_iter += 1

    # 데이터 분할하기
    X_train = iris_data[train_index] # 전체 5개반 중에서 학습모델로 분류된 4개반에 대한 학습세트와
    X_test = iris_data[test_index] # 테스트 세트
    y_train = iris_target[train_index] # 전체 5개반 중에서 테스트모델로 분류된 1개반에 대한 학습세트와
    y_test = iris_target[test_index] # 테스트 세트

    model = DecisionTreeClassifier()
    model.fit(X_train, y_train)
    
    train_score.append(model.score(X_train, y_train))
    test_score.append(model.score(X_test, y_test))
print(train_score)
print(sum(test_score)/3)

0번째 -----
[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  50
  51  52  53  54  55  56  57  58  59  60  61  62  63  64  65  66 100 101
 102 103 104 105 106 107 108 109 110 111 112 113 114 115]
1번째 -----
[ 17  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  67
  68  69  70  71  72  73  74  75  76  77  78  79  80  81  82 116 117 118
 119 120 121 122 123 124 125 126 127 128 129 130 131 132]
2번째 -----
[ 34  35  36  37  38  39  40  41  42  43  44  45  46  47  48  49  83  84
  85  86  87  88  89  90  91  92  93  94  95  96  97  98  99 133 134 135
 136 137 138 139 140 141 142 143 144 145 146 147 148 149]
[1.0, 1.0, 1.0]
0.9666666666666667
