### 분류분석
- 실제 분류와 예측 분류가 얼마나 일치하는가를 기반을 알고리즘 성능을 평가

#### 정확도
- 실제 데이터에서 예측 데이터가 얼마나 같은지 판단하는 지표
- 데이터 구성에 따라 머신러닝 모델의 성능을 왜곡할 가능성이 존제

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

In [2]:
iris_data = load_iris()

In [3]:
df = pd.DataFrame(iris_data['data'], columns=iris_data['feature_names'])
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [4]:
iris_target = iris_data['target']

In [5]:
from sklearn.model_selection import train_test_split

In [6]:
x_train, x_test, y_train, y_test = train_test_split(
    df, iris_target,
    test_size=0.3,
    stratify=iris_target,
    random_state=10
)

In [7]:
df.isna().sum()

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

In [28]:
# 모델 학습
# 의사결정나무 사용해서 분류 분석
# 트리 깊이는 1, 3, 5, 7로 설정한 모델 네가지를 선택
from sklearn.tree import DecisionTreeClassifier
dtree_clf_7 = DecisionTreeClassifier(max_depth=7, random_state=10)
dtree_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=10)
dtree_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=10)
dtree_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=10)

In [9]:
import numpy as np

In [10]:
# 검증 평가 10회
from sklearn.model_selection import cross_val_score
scores = cross_val_score(dtree_clf_7, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

교차 검증 정확도 :  [0.909 1.    0.909 0.909 0.909 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도 :  0.9236363636363638


In [11]:
scores = cross_val_score(dtree_clf_5, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

교차 검증 정확도 :  [0.909 1.    0.909 0.909 0.909 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도 :  0.9236363636363638


In [12]:
scores = cross_val_score(dtree_clf_3, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

교차 검증 정확도 :  [0.909 1.    0.818 0.818 0.818 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도 :  0.8963636363636365


In [13]:
scores = cross_val_score(dtree_clf_1, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

교차 검증 정확도 :  [0.636 0.636 0.636 0.636 0.636 0.6   0.6   0.6   0.6   0.6  ]
평균 검증 정확도 :  0.6181818181818182


In [14]:
# 깊이가 5인 트리가 적합
# 학습
dtree_clf_5.fit(x_train, y_train)
# 예측
pred = dtree_clf_5.predict(x_test)

In [15]:
# 예측 정확도
from sklearn.metrics import accuracy_score

In [16]:
print("의사결정나무 깊이가 5인 예측 정확도는 ", round(accuracy_score(y_test, pred)))

의사결정나무 깊이가 5인 예측 정확도는  1


In [17]:
pred_df = pd.DataFrame(pred, columns=['Pred'])
test_df = pd.DataFrame(y_test, columns=['Test'])

In [18]:
pd.concat([pred_df, test_df], axis=1)

Unnamed: 0,Pred,Test
0,0,0
1,2,2
2,0,0
3,2,2
4,1,1
5,0,0
6,1,1
7,1,1
8,0,0
9,1,1


In [69]:
### load_wine 데이터 로드해서 데이터 분할은 75:25
# 교차 검증 1, 3, 5 확인하여 가장 높은 깊이를 선택
# 학습 -> 정확도 확인
from sklearn.datasets import load_wine
wine_data = load_wine()

In [70]:
df2 = pd.DataFrame(wine_data['data'], columns=wine_data['feature_names'])

In [71]:
wine_target = wine_data['target']

In [72]:
df2.head()

Unnamed: 0,alcohol,malic_acid,ash,alcalinity_of_ash,magnesium,total_phenols,flavanoids,nonflavanoid_phenols,proanthocyanins,color_intensity,hue,od280/od315_of_diluted_wines,proline
0,14.23,1.71,2.43,15.6,127.0,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065.0
1,13.2,1.78,2.14,11.2,100.0,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050.0
2,13.16,2.36,2.67,18.6,101.0,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185.0
3,14.37,1.95,2.5,16.8,113.0,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480.0
4,13.24,2.59,2.87,21.0,118.0,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735.0


In [73]:
x_train, x_test, y_train, y_test = train_test_split(
    df2, wine_target,
    test_size=0.25,
    stratify=wine_target,
    random_state=10
)

In [74]:
wtree_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=10)
wtree_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=10)
wtree_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=10)

In [75]:
scores = cross_val_score(wtree_clf_5, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

교차 검증 정확도 :  [0.929 0.929 0.857 0.923 0.769 0.846 1.    1.    0.846 1.   ]
평균 검증 정확도 :  0.9098901098901099


In [76]:
scores = cross_val_score(wtree_clf_3, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

교차 검증 정확도 :  [0.929 0.929 0.929 0.923 0.769 0.769 1.    1.    0.846 1.   ]
평균 검증 정확도 :  0.9093406593406593


In [77]:
scores = cross_val_score(wtree_clf_1, x_train, y_train, cv=10, scoring='accuracy')
print('교차 검증 정확도 : ', np.round(scores, 3))
print('평균 검증 정확도 : ', np.mean(scores))

교차 검증 정확도 :  [0.714 0.714 0.643 0.538 0.692 0.538 0.692 0.692 0.462 0.615]
평균 검증 정확도 :  0.6302197802197803


In [82]:
# 학습
wtree_clf_5.fit(x_train, y_train)
# 예측
pred2 = wtree_clf_5.predict(x_test)

In [83]:
print("의사결정나무 깊이가 5인 예측 정확도는 ", round(accuracy_score(y_test, pred2),2))

의사결정나무 깊이가 5인 예측 정확도는  0.96


In [84]:
pred_df_2 = pd.DataFrame(pred2, columns=['pred'])
test_df_2 = pd.DataFrame(y_test, columns=['test'])
pd.concat([pred_df_2, test_df_2], axis=1)

Unnamed: 0,pred,test
0,0,0
1,1,1
2,2,2
3,2,2
4,2,2
5,0,0
6,1,1
7,0,0
8,2,2
9,1,1
