### 분류분석
- 실제 분류와 예측 분류가 얼마나 일치하는가를 기반으로 알고리즘 성능을 평가

#### 정확도
- 실제 데이터에서 예측데이터가 얼마나 같은지 판단하는 지표
- 데이터 구성에 따라 머신러닝 모뎅릐 성능을 왜곡할 가능성이 존재

In [96]:
from sklearn.datasets import load_iris
import pandas as pd

In [97]:
iris_data = load_iris()

In [98]:
df = pd.DataFrame(iris_data['data'], columns=iris_data['feature_names'])
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [99]:
iris_target = iris_data['target']

In [100]:
from sklearn.model_selection import train_test_split

In [101]:
x_train, x_test, y_train, y_test = train_test_split(df, iris_target, test_size=0.3, stratify= iris_target, random_state=10)

In [102]:
df.isna().sum()

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

In [103]:
# 모델 학습
# 의사결정나무 사용해서 분류 분석
# 트리 깊이는 1, 3, 5, 7로 설정한 모델 네가지를 선택
from sklearn.tree import DecisionTreeClassifier
dtree_clf_7 = DecisionTreeClassifier(max_depth=7, random_state=10)
dtree_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=10)
dtree_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=10)
dtree_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=10)

In [104]:
import numpy as np

In [105]:
# 검증 평가 10회
from sklearn.model_selection import cross_val_score
scores = cross_val_score(dtree_clf_7, x_train, y_train, cv=10, scoring='accuracy')
print("교차 검증 정확도 : ", np.round(scores, 3))
print("평균 검증 정확도 : ", np.mean(scores))

교차 검증 정확도 :  [0.909 1.    0.909 0.909 0.909 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도 :  0.9236363636363638


In [106]:
scores = cross_val_score(dtree_clf_5, x_train, y_train, cv=10, scoring='accuracy')
print("교차 검증 정확도 : ", np.round(scores, 3))
print("평균 검증 정확도 : ", np.mean(scores))

교차 검증 정확도 :  [0.909 1.    0.909 0.909 0.909 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도 :  0.9236363636363638


In [107]:
scores = cross_val_score(dtree_clf_3, x_train, y_train, cv=10, scoring='accuracy')
print("교차 검증 정확도 : ", np.round(scores, 3))
print("평균 검증 정확도 : ", np.mean(scores))

교차 검증 정확도 :  [0.909 1.    0.818 0.818 0.818 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도 :  0.8963636363636365


In [108]:
scores = cross_val_score(dtree_clf_1, x_train, y_train, cv=10, scoring='accuracy')
print("교차 검증 정확도 : ", np.round(scores, 3))
print("평균 검증 정확도 : ", np.mean(scores))

교차 검증 정확도 :  [0.636 0.636 0.636 0.636 0.636 0.6   0.6   0.6   0.6   0.6  ]
평균 검증 정확도 :  0.6181818181818182


In [109]:
# 깊이가 5인 크리가 적합
# 학습
dtree_clf_5.fit(x_train, y_train)
# 예측
pred = dtree_clf_5.predict(x_test)

In [110]:
# 예측 정확도
from sklearn.metrics import accuracy_score

In [111]:
print("의사결정나무 깊이가 5인 예측정확도는", round(accuracy_score(y_test, pred), 2))

의사결정나무 깊이가 5인 예측정확도는 1.0


In [112]:
pred_df = pd.DataFrame(pred, columns=['Pred'])
test_df = pd.DataFrame(y_test, columns=['Test'])

In [113]:
pd.concat([pred_df, test_df], axis=1)

Unnamed: 0,Pred,Test
0,0,0
1,2,2
2,0,0
3,2,2
4,1,1
5,0,0
6,1,1
7,1,1
8,0,0
9,1,1


In [114]:
### load_wine 데이터에 로드해서 데이터 분할은 75:25
# 교차검증 1,3,5 확인하여 가장 높은 깊이를 선택
# 학습 -> 정확도 확인
from sklearn.datasets import load_wine

In [115]:
wine_data = load_wine()

In [116]:
wine_df = pd.DataFrame(wine_data['data'], columns=wine_data['feature_names'])
wine_target = wine_data['target']

In [117]:
x_train, x_test, y_train, y_test = train_test_split(wine_df, wine_target, test_size=0.25, random_state=20, stratify=wine_target)

In [118]:
dtree_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=10)
dtree_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=10)
dtree_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=10)

In [128]:
scores = cross_val_score(dtree_clf_5, x_train, y_train, cv=10, scoring='accuracy')
print("교차 검증 정확도 : ", np.round(scores, 3))
print("평균 검증 정확도 : ", np.mean(scores))

교차 검증 정확도 :  [0.929 1.    0.929 0.923 1.    0.923 0.846 0.923 0.846 1.   ]
평균 검증 정확도 :  0.9318681318681319


In [129]:
scores = cross_val_score(dtree_clf_3, x_train, y_train, cv=10, scoring='accuracy')
print("교차 검증 정확도 : ", np.round(scores, 3))
print("평균 검증 정확도 : ", np.mean(scores))

교차 검증 정확도 :  [0.929 1.    0.929 0.923 0.846 0.923 0.846 0.923 0.923 1.   ]
평균 검증 정확도 :  0.9241758241758241


In [130]:
scores = cross_val_score(dtree_clf_1, x_train, y_train, cv=10, scoring='accuracy')
print("교차 검증 정확도 : ", np.round(scores, 3))
print("평균 검증 정확도 : ", np.mean(scores))

교차 검증 정확도 :  [0.643 0.714 0.643 0.692 0.692 0.538 0.769 0.615 0.692 0.692]
평균 검증 정확도 :  0.6692307692307693


In [136]:
dtree_clf_5.fit(x_train, y_train)

pred = dtree_clf_5.predict(x_test)

print("의사결정나무(깊이5) 예측정확도 :", round(accuracy_score(y_test, pred), 2))

의사결정나무(깊이5) 예측정확도 : 0.93


In [137]:
test_df = pd.DataFrame(y_test, columns=['Test'])
pred_df = pd.DataFrame(pred, columns=['Pred'])
pd.concat([test_df, pred_df], axis=1)

Unnamed: 0,Test,Pred
0,1,0
1,2,2
2,1,1
3,1,1
4,2,2
5,1,1
6,2,2
7,0,0
8,0,0
9,0,0
