### 분류분석 
- 실제 분류와 예측 분류가 얼마나 일치하는가를 기반으로 알고리즘 성능을 평가

#### 정확도 
- 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표
- 데이터 구성에 따라 머신러닝 모델의 성능을 왜곡할 가능성이 존재 

In [None]:
from sklearn.datasets import load_iris
import pandas as pd

In [None]:
iris_data = load_iris()

In [None]:
df = pd.DataFrame(iris_data['data'], columns=iris_data['feature_names'])
df.head()

In [None]:
iris_target = iris_data['target']

In [None]:
from sklearn.model_selection import train_test_split

In [None]:
x_train, x_test, y_train, y_test = train_test_split(
    df, iris_target, 
    test_size=0.3, 
    stratify= iris_target, 
    random_state=10
)

In [None]:
df.isna().sum()

In [None]:
# 모델 학습 
# 의사결정나무 사용해서 분류 분석 
#  트리 깊이는 1, 3, 5, 7로 설정한 모델 네가지를 선택 
from sklearn.tree import DecisionTreeClassifier
dtree_clf_7 = DecisionTreeClassifier(max_depth=7, random_state=10)
dtree_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=10)
dtree_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=10)
dtree_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=10)

In [None]:
import numpy as np
import warnings
warnings.filterwarnings('ignore')

In [None]:
# 검증 평가 10회 
from sklearn.model_selection import cross_val_score
scores = cross_val_score(dtree_clf_7, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

In [None]:
scores = cross_val_score(dtree_clf_5, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

In [None]:
scores = cross_val_score(dtree_clf_3, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

In [None]:
scores = cross_val_score(dtree_clf_1, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

In [None]:
# 깊이가 5인 트리가 적합
# 학습
dtree_clf_5.fit(x_train, y_train)
# 예측
pred = dtree_clf_5.predict(x_test)

In [None]:
# 예측 정확도 
from sklearn.metrics import accuracy_score

In [None]:
print('의사결정나무 깊이가 5인 예측 정확도는 ', round(accuracy_score(y_test, pred), 2))

In [None]:
pred_df = pd.DataFrame(pred, columns=['Pred'])
test_df = pd.DataFrame(y_test, columns=['Test'])

In [None]:
pd.concat([pred_df, test_df], axis=1)

In [None]:
### load_wine 데이터에 로드해서 데이터 분할은 75:25
# 교차 검증 1,3,5 확인하여 가장 높은 깊이를 선택
# 학습 -> 정확도 확인 

In [None]:
from sklearn.datasets import load_wine

In [None]:
wine_data = load_wine()

In [None]:
wine_df = pd.DataFrame(wine_data['data'], columns=wine_data['feature_names'])
wine_target = wine_data['target']

In [None]:
# 데이터의 분할 75:25
x_train, x_test, y_train, y_test = train_test_split(
    wine_df, 
    wine_target, 
    test_size= 0.25, random_state=42, 
    stratify=wine_target
)

In [None]:
dtree_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=42)
dtree_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=42)
dtree_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=42)

In [None]:
scores = cross_val_score(dtree_clf_5, x_train, y_train, cv = 10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round( scores, 2 ))
print('평균 검증 정확도 : ', np.mean(scores))

In [None]:
scores = cross_val_score(dtree_clf_3, x_train, y_train, cv = 10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round( scores, 2 ))
print('평균 검증 정확도 : ', np.mean(scores))

In [None]:
scores = cross_val_score(dtree_clf_1, x_train, y_train, cv = 10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round( scores, 2 ))
print('평균 검증 정확도 : ', np.mean(scores))

In [None]:
# 깊이가 3인 트리를 선택 
dtree_clf_3.fit(x_train, y_train)

In [None]:
pred = dtree_clf_3.predict(x_test)
print("의사결정나무(깊이3) 예측 정확도 :", 
      round(accuracy_score(y_test, pred), 2) )

In [None]:
pred_df = pd.DataFrame(pred, columns=['pred'])
test_df = pd.DataFrame(y_test, columns=['test'])
pd.concat([pred_df, test_df], axis=1)