In [69]:
from sklearn.tree import DecisionTreeClassifier
import pandas as pd
import numpy as np

# Decision Tree Process :

    - 정확성을 예측하기 위해 발생할 수 있는 경우의 수를 tree 구조로 구성함

    - 구성한 tree 구조는 각각 Gini 계수를 계산하여 낮은 숫자가 나오는 것이  
      목표 

    - 정답으로 도출되는 class 및 종속변수는 다양한 요인인 독립변수 등에 
      영향을 미친다

    - 각각의 데이터를 기록하는 dataFrame을 구성하고, np.array를 통해
      배열로 종속변수와 독립변수에 입력한다.

    - DecisionTreeClassifier()로 classifier를 구성할때, train_test_split()
      을 통해 train과 test set을 나눈다.

    - predict() 통해 예측값을 도출하고, y_test로 나눈 정답으로 서로 
      비교한다. 그리고 정확도를 나타낸다.

In [71]:
tennis_data = pd.read_csv("playtennis.csv")

In [72]:
tennis_data

Unnamed: 0,Outlook,Temperature,Humidity,Wind,PlayTennis
0,Sunny,Hot,High,Weak,No
1,Sunny,Hot,High,Strong,No
2,Overcast,Hot,High,Weak,Yes
3,Rain,Mild,High,Weak,Yes
4,Rain,Cool,Normal,Weak,Yes
5,Rain,Cool,Normal,Strong,No
6,Overcast,Cool,Normal,Strong,Yes
7,Sunny,Mild,High,Weak,No
8,Sunny,Cool,Normal,Weak,Yes
9,Rain,Mild,Normal,Weak,Yes


In [73]:
'''
Outlook/Temperature/Humidity/Wind 독립변수 int 변환!
변환할때는 변수 대입해서!
'''
# Outlook
tennis_data.Outlook = tennis_data.Outlook.replace("Sunny", 0)
tennis_data.Outlook = tennis_data.Outlook.replace("Overcast", 1)
tennis_data.Outlook = tennis_data.Outlook.replace("Rain", 2)

# Temperature
tennis_data.Temperature = tennis_data.Temperature.replace('Hot', 0)
tennis_data.Temperature = tennis_data.Temperature.replace('Mild', 1)
tennis_data.Temperature = tennis_data.Temperature.replace('Cool', 2)

# Humidity
tennis_data.Humidity = tennis_data.Humidity.replace('Normal', 0)
tennis_data.Humidity = tennis_data.Humidity.replace('High', 1)

# Wind
tennis_data.Wind = tennis_data.Wind.replace('Weak', 0)
tennis_data.Wind = tennis_data.Wind.replace('Strong', 1)

'''
종속변수 int 변환
'''
tennis_data.PlayTennis = tennis_data.PlayTennis.replace('No', 0)
tennis_data.PlayTennis = tennis_data.PlayTennis.replace('Yes', 1)

tennis_data


Unnamed: 0,Outlook,Temperature,Humidity,Wind,PlayTennis
0,0,0,1,0,0
1,0,0,1,1,0
2,1,0,1,0,1
3,2,1,1,0,1
4,2,2,0,0,1
5,2,2,0,1,0
6,1,2,0,1,1
7,0,1,1,0,0
8,0,2,0,0,1
9,2,1,0,0,1


In [74]:
# 특정 column만 보이기
y = pd.DataFrame(tennis_data, columns=["playTennis"])
y

Unnamed: 0,playTennis
0,
1,
2,
3,
4,
5,
6,
7,
8,
9,


In [75]:
# 종속변수 배열화 및 입력
y = np.array( pd.DataFrame(tennis_data, columns=["PlayTennis"]))
y

array([[0],
       [0],
       [1],
       [1],
       [1],
       [0],
       [1],
       [0],
       [1],
       [1],
       [1],
       [1],
       [1],
       [0]], dtype=int64)

In [76]:
# 독립변수 배열화 및 입력
X = np.array(
    pd.DataFrame(tennis_data,
        columns=["Outlook","Temperature","Humidity","Wind"])
)
X

array([[0, 0, 1, 0],
       [0, 0, 1, 1],
       [1, 0, 1, 0],
       [2, 1, 1, 0],
       [2, 2, 0, 0],
       [2, 2, 0, 1],
       [1, 2, 0, 1],
       [0, 1, 1, 0],
       [0, 2, 0, 0],
       [2, 1, 0, 0],
       [0, 1, 0, 1],
       [1, 1, 1, 1],
       [1, 0, 0, 0],
       [2, 1, 1, 1]], dtype=int64)

In [77]:
# train/test set 구성
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y)

X_train

array([[1, 0, 0, 0],
       [0, 1, 0, 1],
       [0, 2, 0, 0],
       [2, 2, 0, 0],
       [2, 1, 1, 0],
       [0, 0, 1, 1],
       [1, 2, 0, 1],
       [1, 0, 1, 0],
       [2, 2, 0, 1],
       [0, 0, 1, 0]], dtype=int64)

In [78]:
y_train

array([[1],
       [1],
       [1],
       [1],
       [1],
       [0],
       [1],
       [1],
       [0],
       [0]], dtype=int64)

In [79]:
y_test

array([[1],
       [0],
       [1],
       [0]], dtype=int64)

In [80]:
# 의사결정 tree 알고리즘 classifier 초기화
from sklearn.tree import DecisionTreeClassifier
from sklearn import tree

dt_clf = DecisionTreeClassifier()

'''
DecisionTreeClassifier() 초기화를 통해 각 경우의 수마다 gini 계수를 
자동으로 계산하고, 높은 확률을 추출함.
여기서, 높은 확률은 낮은 gini 계수일수록 높음
'''
dt_clf

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [81]:
# train set을 각 경우의 수 마다 계산
dt_clf = dt_clf.fit(X_train, y_train)
dt_clf

DecisionTreeClassifier(ccp_alpha=0.0, class_weight=None, criterion='gini',
                       max_depth=None, max_features=None, max_leaf_nodes=None,
                       min_impurity_decrease=0.0, min_impurity_split=None,
                       min_samples_leaf=1, min_samples_split=2,
                       min_weight_fraction_leaf=0.0, presort='deprecated',
                       random_state=None, splitter='best')

In [82]:
# test set을 통한 예측값 출력!
dt_predict = dt_clf.predict(X_test)
dt_predict

array([1, 0, 1, 1], dtype=int64)

In [83]:
# confusion_matrix : 도출된 예측값과 실제값을 모든 경우의 수마다 대입하여 계산 
from sklearn.metrics import classification_report, confusion_matrix # 모델의 성능 평가를 위한 패키지
print(confusion_matrix(y_test, dt_predict))

[[1 1]
 [0 2]]


In [84]:
# tree 구조를 그려주는 graphviz 초기화
os.environ["PATH"]+=";C:/ai/program/Graphviz/bin/"
os.environ["PATH"]

'C:\\ProgramData\\Anaconda3\\envs\\test\\lib\\site-packages\\pywin32_system32;C:\\ProgramData\\Anaconda3\\envs\\test;C:\\ProgramData\\Anaconda3\\envs\\test\\Library\\mingw-w64\\bin;C:\\ProgramData\\Anaconda3\\envs\\test\\Library\\usr\\bin;C:\\ProgramData\\Anaconda3\\envs\\test\\Library\\bin;C:\\ProgramData\\Anaconda3\\envs\\test\\Scripts;C:\\ProgramData\\Anaconda3\\envs\\test\\bin;C:\\ProgramData\\Anaconda3\\condabin;C:\\ProgramData\\Anaconda3;C:\\ProgramData\\Anaconda3\\Library\\mingw-w64\\bin;C:\\ProgramData\\Anaconda3\\Library\\usr\\bin;C:\\ProgramData\\Anaconda3\\Library\\bin;C:\\ProgramData\\Anaconda3\\Scripts;C:\\Program Files (x86)\\NAT Service;C:\\ProgramData\\Oracle\\Java\\javapath;C:\\Program Files (x86)\\Common Files\\Intel\\Shared Libraries\\redist\\intel64\\compiler;C:\\Program Files (x86)\\Intel\\iCLS Client\\;C:\\Program Files\\Intel\\iCLS Client\\;C:\\Windows\\system32;C:\\Windows;C:\\Windows\\System32\\Wbem;C:\\Windows\\System32\\WindowsPowerShell\\v1.0\\;C:\\Program F

In [85]:
# graphviz 그래프 설정 (아래에서 재정의)
'''
dt_dot_data = tree.export_graphviz(
    dt_clf, #tree 알고리즘 classifier
    out_file=None,  #출력?저장?
    feature_names=["Outlook","Temp","Humidity","Wind"], # 독립변수
    class_names=['No','Yes'], # 종속변수
    filled=True, # 그래프 색깔넣기
    rounded=True, # 그래프 노드 둥근모양
    special_characters=True  # 글꼴 적용
)
'''

'\ndt_dot_data = tree.export_graphviz(\n    dt_clf, #tree 알고리즘 classifier\n    out_file=None,  #출력?저장?\n    feature_names=["Outlook","Temp","Humidity","Wind"], # 독립변수\n    class_names=[\'No\',\'Yes\'], # 종속변수\n    filled=True, # 그래프 색깔넣기\n    rounded=True, # 그래프 노드 둥근모양\n    special_characters=True  # 글꼴 적용\n)\n'

In [86]:
# graphviz에 넣는 독립변수 초기화
feature_names = tennis_data.columns.tolist() #데이터의 column을 리스트로
feature_names = feature_names[0:4]
feature_names

['Outlook', 'Temperature', 'Humidity', 'Wind']

In [87]:
# graphviz에 넣는 종속변수 초기화
target_names = np.array(["Not Play","Play"])
target_names

array(['Not Play', 'Play'], dtype='<U8')

In [88]:
# graphviz 그래프 설정
dt_dot_data = tree.export_graphviz(
    dt_clf, #tree 알고리즘 classifier
    out_file=None,  #출력?저장?
    feature_names=feature_names, # 독립변수
    class_names=target_names, # 종속변수
    filled=True, # 그래프 색깔넣기
    rounded=True, # 그래프 노드 둥근모양
    special_characters=True  # 글꼴 적용
)

In [89]:
# graphviz의 dot 언어를 Python 인터페이스로 제공하는 모듈임
import pydotplus
dt_graph = pydotplus.graph_from_dot_data(dt_dot_data)

In [90]:
# 시각화
'''
IPython 내에 정보를 보여주는 도구용 공용 API
Image : raw 데이터가 있는 PNG, JPEG 이미지 객체를 만드는 모듈
'''
from IPython.display import Image
Image(dt_graph.create_png())

InvocationException: GraphViz's executables not found

In [91]:
# confusion Matrix, ppt 610
# 예측값과 실제값을 각각 비교하고 Python이 confusion matrix로 보여줌
confusion_matrix(y_test, dt_predict)

array([[1, 1],
       [0, 2]], dtype=int64)

In [92]:
# 모델의 정확도계산
from sklearn.metrics import accuracy_score
acc = accuracy_score(y_test, dt_predict)
print('정확도:', acc)

정확도: 0.75
