##### 목표
 - 버섯의 특징을 활용해 독/식용 이진 분류해보자
 - Decision Tree 모델 활용해보자
 - Decision Tree 학습현황 시각화 & 과대적합 제어 (하이퍼 파라미터 튜닝)
 - 특성의 중요도를 파악 확인하기 (지니계수)

### 의사결정나무 불순도가 궁금해?
    - 지니계수가 낮으면 불순도가 낮다
![image.png](attachment:image.png)

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split

# tree 분류모델
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score

#### 데이터 불러오기

In [2]:
# 모든 컬럼을 표시
pd.options.display.max_columns = None

# data 변수에 담아주기
# data 폴더에 있는 mushroom 가져오기

data = pd.read_csv('./data/mushroom.csv')
data 
# stalk-root : ?데이터 들어있고, 모든 컬럼에는 문자열 데이터만 있다

Unnamed: 0,poisonous,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,stalk-root,stalk-surface-above-ring,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,e,e,s,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,e,c,s,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,e,c,s,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,e,e,s,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,t,e,s,s,w,w,p,w,o,e,n,a,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,e,k,s,n,f,n,a,c,b,y,e,?,s,s,o,o,p,o,o,p,b,c,l
8120,e,x,s,n,f,n,a,c,b,y,e,?,s,s,o,o,p,n,o,p,b,v,l
8121,e,f,s,n,f,n,a,c,b,n,e,?,s,s,o,o,p,o,o,p,b,c,l
8122,p,k,y,n,f,y,f,c,n,b,t,?,s,k,w,w,p,w,o,e,w,v,l


### 데이터 전처리 및 탐색
 - 문제(특성)와 답(레이블) 분리
 - x,y 간단한 통계량 확인
 - 머신러닝 모델은 숫자마을 인식할 수 있음 ; 문자=>숫자
 - 훈련셋, 테스트셋 분리

In [3]:
# 답 데이터 : poisonous,
# 문제 데이터 : 나머지
X = data.loc[:, 'cap-shape':]
y = data.loc[:, 'poisonous']
data

Unnamed: 0,poisonous,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,stalk-root,stalk-surface-above-ring,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
0,p,x,s,n,t,p,f,c,n,k,e,e,s,s,w,w,p,w,o,p,k,s,u
1,e,x,s,y,t,a,f,c,b,k,e,c,s,s,w,w,p,w,o,p,n,n,g
2,e,b,s,w,t,l,f,c,b,n,e,c,s,s,w,w,p,w,o,p,n,n,m
3,p,x,y,w,t,p,f,c,n,n,e,e,s,s,w,w,p,w,o,p,k,s,u
4,e,x,s,g,f,n,f,w,b,k,t,e,s,s,w,w,p,w,o,e,n,a,g
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
8119,e,k,s,n,f,n,a,c,b,y,e,?,s,s,o,o,p,o,o,p,b,c,l
8120,e,x,s,n,f,n,a,c,b,y,e,?,s,s,o,o,p,n,o,p,b,v,l
8121,e,f,s,n,f,n,a,c,b,n,e,?,s,s,o,o,p,o,o,p,b,c,l
8122,p,k,y,n,f,y,f,c,n,b,t,?,s,k,w,w,p,w,o,e,w,v,l


In [4]:
# x,y 간단한 통계량 확인
# 데이터프레임.describe()
print(y.describe())
X.describe()

count     8124
unique       2
top          e
freq      4208
Name: poisonous, dtype: object


Unnamed: 0,cap-shape,cap-surface,cap-color,bruises,odor,gill-attachment,gill-spacing,gill-size,gill-color,stalk-shape,stalk-root,stalk-surface-above-ring,stalk-surface-below-ring,stalk-color-above-ring,stalk-color-below-ring,veil-type,veil-color,ring-number,ring-type,spore-print-color,population,habitat
count,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124,8124
unique,6,4,10,2,9,2,2,2,12,2,5,4,4,9,9,1,4,3,5,9,6,7
top,x,y,n,f,n,f,c,b,b,t,b,s,s,w,w,p,w,o,p,w,v,d
freq,3656,3244,2284,4748,3528,7914,6812,5612,1728,4608,3776,5176,4936,4464,4384,8124,7924,7488,3968,2388,4040,3148


### X.describe()
- unique : 종류 개수
- top    : 가장 빈번한 항목
- freq   : 가장 빈번한 항목의 갯수

#### X.iloc[:,1].value_counts()
- 각항목별 더 자세한 값 확인

In [5]:
X.iloc[:,1].value_counts()

y    3244
s    2556
f    2320
g       4
Name: cap-surface, dtype: int64

# 데이터 전처리
## 1. 레이블 인코딩
![image-2.png](attachment:image-2.png)
## 2. 원핫 인코딩
![image-3.png](attachment:image-3.png)
 - 값의 크고 작음이 의미가 있을 때 : 레이블 인코딩
 - 값의 크고 작음이 의미가 없을 때 : 원핫 인코딩 (컬럼 개수가 늘어 성능이 떨어질 수 있다)


In [6]:
# 원핫 인코딩
# X만 하면 된다.
X_one_hot = pd.get_dummies(X)
X= X_one_hot

In [7]:
# 훈련셋, 테스트셋 분리 (7:3) ,랜덤 스테이트 7
X_train, X_test = train_test_split(X, test_size=0.3, random_state=7)
y_train, y_test = train_test_split(y, test_size=0.3, random_state=7)
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

SyntaxError: invalid syntax (3355260368.py, line 2)

### 모델링
 - 모델 생성
 - 모델 학습
 - 교차검증 진행해보기
 - 모델 예측 및 평가
 - 특성의 중요도 확인
 - 학습 현황 시각화 (tree-white box)
 - 과대적합을 제어하는 파라미터 연결해보기

In [None]:
# 하이퍼 파라미터를 별도 정의 X - 기본값으로 연결
# tree_model 변수에 모델 생성
tree_model = DecisionTreeClassifier()
tree_model.fit(X_train,y_train)
pre = tree_model.predict(X_test)


# accuracy_score 없어도 모델.score(X,y)로 정확도 예측 가능
print("accuracy_score 사용 :", accuracy_score(y_test, pre))
print("모델.score 사용 :",tree_model.score(X,y))

In [None]:
# 교차검증
from sklearn.model_selection import cross_val_score
cv_result = cross_val_score(tree_model, X_train, y_train, cv=5)
print(cv_result, cv_result.mean())

In [None]:
# feature importances 확인
# X 컬럼의 각 중요도를 확인한다
# 모든 중요도를 합치면 1이됨
fi = tree_model.feature_importances_
fi.shape

In [None]:
X_train.columns

In [None]:
# 중요도 => df 변환, 컬럼명 연결
fi_df = pd.DataFrame(fi, index=X_train.columns, columns=['feature_importances'])
fi_df.sort_values(by='feature_importances',ascending=False)