### 분류 분석
- 실제 분류와 예측 분류가 얼마나 일치하는가를 기반으로 알고리즘 성능 평가

#### 정확도
- 실제 데이터에서 에측 데이터가 얼마나 같은지 판단하는 지표
- 데이터 구성에 따라 머신러닝 모델의 성능을 왜곡할 가능성이 존재

In [42]:
from sklearn.datasets import load_iris
import pandas as pd

In [43]:
iris_data = load_iris()

In [44]:
df= pd.DataFrame(iris_data['data'],columns=iris_data['feature_names'])
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [45]:
iris_target = iris_data['target']

In [46]:
# 데이터 분할
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(
    df,iris_target,
    test_size=0.3,
    stratify=iris_target,
    random_state=10
)

In [47]:
#결측치 확인
df.isna().sum()

sepal length (cm)    0
sepal width (cm)     0
petal length (cm)    0
petal width (cm)     0
dtype: int64

In [48]:
# 모델 학습
# 의사결정나무 사용-> 분류 분석
# 트리의 깊이는 너무 깊게하면 시간이 길어짐. 해당 코드에서는 1,3,5,7로 설정 모델 네가지 선택
from sklearn.tree import DecisionTreeClassifier
dctree_clf_7 = DecisionTreeClassifier(max_depth=7, random_state=10)
dctree_clf_5 = DecisionTreeClassifier(max_depth=5, random_state=10)
dctree_clf_3 = DecisionTreeClassifier(max_depth=3, random_state=10)
dctree_clf_1 = DecisionTreeClassifier(max_depth=1, random_state=10)

In [49]:
import numpy as np
# 검증 평가 10회
from sklearn.model_selection import cross_val_score
scores = cross_val_score(dctree_clf_7, x_train, y_train, cv=10,scoring='accuracy')
print('교차 검증 정확도: ',np.round(scores,3))
print('평균 검증 정확도: ',np.mean(scores))

교차 검증 정확도:  [0.909 1.    0.909 0.909 0.909 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도:  0.9236363636363638


In [50]:
scores = cross_val_score(dctree_clf_5, x_train, y_train, cv=10,scoring='accuracy')
print('교차 검증 정확도: ',np.round(scores,3))
print('평균 검증 정확도: ',np.mean(scores))

교차 검증 정확도:  [0.909 1.    0.909 0.909 0.909 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도:  0.9236363636363638


In [51]:
scores = cross_val_score(dctree_clf_3, x_train, y_train, cv=10,scoring='accuracy')
print('교차 검증 정확도: ',np.round(scores,3))
print('평균 검증 정확도: ',np.mean(scores))

교차 검증 정확도:  [0.909 1.    0.818 0.818 0.818 1.    1.    1.    0.8   0.8  ]
평균 검증 정확도:  0.8963636363636365


In [52]:
scores = cross_val_score(dctree_clf_1, x_train, y_train, cv=10,scoring='accuracy')
print('교차 검증 정확도: ',np.round(scores,3))
print('평균 검증 정확도: ',np.mean(scores))

교차 검증 정확도:  [0.636 0.636 0.636 0.636 0.636 0.6   0.6   0.6   0.6   0.6  ]
평균 검증 정확도:  0.6181818181818182


In [None]:
# 위에 결과를 보았을 때 깊이 5와 깊이 7의 평균 검증 정확도가 같으므로 깊이 5가 적합하다고 판단

# 학습
dctree_clf_5.fit(x_train,y_train)

# 예측
pred = dctree_clf_5.predict(x_test)

In [59]:
# 예측 정확도 확인
from sklearn.metrics import accuracy_score
print('의사결정나무 깊이가 5인 예측 정확도는 ',round(accuracy_score(y_test,pred),2))

의사결정나무 깊이가 5인 예측 정확도는  1.0


In [55]:
pred_df = pd.DataFrame(pred,columns=['Pred'])
test_df = pd.DataFrame(y_test,columns=['Test'])

In [56]:
pd.concat([pred_df,test_df],axis=1).head(10)

Unnamed: 0,Pred,Test
0,0,0
1,2,2
2,0,0
3,2,2
4,1,1
5,0,0
6,1,1
7,1,1
8,0,0
9,1,1


In [85]:
### load_wine 데이터에 로드해서 교차 검증 1,3,5 확인하여 가장 높은 깊이를 선택
# 학습 -> 정확도 확인

from sklearn.datasets import load_wine
from sklearn.tree import DecisionTreeClassifier
from sklearn.model_selection import cross_val_score

#데이터 로드
wine_data = load_wine()

wine_df= pd.DataFrame(wine_data['data'], columns=wine_data['feature_names'])
wine_target = wine_data['target']

In [86]:
# 데이터 분할
from sklearn.model_selection import train_test_split

x_train, x_test, y_train, y_test = train_test_split(
    wine_df,wine_target,
    test_size=0.25,
    stratify=wine_target,
    random_state=10
)

In [87]:
# 교차 검증을 위한 모델 생성
wine_tree_5 = DecisionTreeClassifier(max_depth=5, random_state=10)
wine_tree_3 = DecisionTreeClassifier(max_depth=3, random_state=10)
wine_tree_1 = DecisionTreeClassifier(max_depth=1, random_state=10)

In [88]:
import numpy as np
# 검증 평가(cv)는 10회
from sklearn.model_selection import cross_val_score
scores = cross_val_score(wine_tree_5, x_train, y_train, cv=10,scoring='accuracy')
print('교차 검증 정확도: ',np.round(scores,3))
print('평균 검증 정확도: ',np.mean(scores))

교차 검증 정확도:  [0.929 0.929 0.857 0.923 0.769 0.846 1.    1.    0.846 1.   ]
평균 검증 정확도:  0.9098901098901099


In [89]:
scores = cross_val_score(wine_tree_3, x_train,y_train,cv=10,scoring='accuracy')
print('교차 검증 정확도: ',np.round(scores,3))
print('평균 검증 정확도: ',np.mean(scores))

교차 검증 정확도:  [0.929 0.929 0.929 0.923 0.769 0.769 1.    1.    0.846 1.   ]
평균 검증 정확도:  0.9093406593406593


In [90]:
scores = cross_val_score(wine_tree_1, x_train,y_train,cv=10,scoring='accuracy')
print('교차 검증 정확도: ',np.round(scores,3))
print('평균 검증 정확도: ',np.mean(scores))

교차 검증 정확도:  [0.714 0.714 0.643 0.538 0.692 0.538 0.692 0.692 0.462 0.615]
평균 검증 정확도:  0.6302197802197803


In [91]:
# 가장 높은 정확도 dctree_clf_5 모델로 진행

# 학습
wine_tree_5.fit(x_train,y_train)

# 예측
pred = wine_tree_5.predict(x_test)
# 예측 정확도 확인
from sklearn.metrics import accuracy_score
print('의사결정나무 깊이가 5인 예측 정확도는 ',round(accuracy_score(y_test,pred),2))

의사결정나무 깊이가 5인 예측 정확도는  0.96


In [95]:
pred_df = pd.DataFrame(pred,columns=['Pred'])
test_df = pd.DataFrame(y_test,columns=['test'])
pd.concat([pred_df,test_df],axis=1).head(10)

Unnamed: 0,Pred,test
0,0,0
1,1,1
2,2,2
3,2,2
4,2,2
5,0,0
6,1,1
7,0,0
8,2,2
9,1,1
