###1) 의사결정나무 이해하기

###2) 의사결정나무 실습하기

건강검진 데이터를 가지고 음주 여부를 성별, 키, 체중 데이터를 기반으로 
의사결정나무로 학습하고, 결과를 통해 의사결정나무의 원리를 알아본다.

(1) 데이터 준비하기

In [None]:
#라이브러리 불러오기
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

#데이터 불러오기
df = pd.read_csv("국민건강보험공단_건강검진정보_20211229.csv", encoding='cp949')

#트리 예시를 만들기 위해 일부 특성만 추출하기
sample_df = df[['신장(5cm 단위)', '성별코드', '체중(5kg 단위)', '음주여부']]

#샘플 데이터 중 상위 10개 추출하기
sample_df[:10]

(2) 데이터 전처리하기

In [None]:
#info 정보로 결측치 확인하기
sample_df.info()

In [None]:
약 100만건의 데이터 중 음주여부 칼럼에 결측치가 일부 존재하여, 196건의 데이터를 드롭 처리하여 최종 학습 데이터로 준비한다.
Label 데이터에 편향이 심하지 않은지 불균형 여부도 확인한다.

In [None]:
#100만개 데이터 중 196개, 결측치가 포함된 행 삭제하기
sample = sample_df.dropna()

In [None]:
#결측치 다시 확인하기
sample.info()

In [None]:
#원핫 인코딩을 위해 데이터 object 형태로 변경하기
sample = sample.astype('str')

#label(결과, Y) 생성하기
y = sample.음주여부

#음주여부 학습 데이터 구성하기
X = sample.drop('음주여부', axis=1)

#label 데이터의 편향성 확인하기
y.value_counts()

In [None]:
#해당 데이터를 학습 데이터와 검증 데이터로 분리하기
x_train, x_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, shuffle=True, random_state=34)

(3) 의사결정나무 모델링하기

In [None]:
#의사결정나무 모델 불러오기
from sklearn.tree import DecisionTreeClassifier

#의사결정나무 모델 생성하기
dt = DecisionTreeClassifier(random_state=1001, max_depth=2)

#의사결정나무 학습히가
dt_model = df.fit(x_train, y_train)

#학습데이터 정확도 확인하기
print( dt_model.score(x_train, y_train) )

#검증데이터 정확도 확힌하기
print( df_model.score(x_valid, y_valid) )

(4) 의사결정나무 그래프 그리기

graphviz 라이브러리를 활용하여 학습된 의사결정나무 모델의 그래프를 출력한다.

In [None]:
#그래프 라이브러리 불러오기
import matplotlib.pyplot as plt

#트리 모양 그래프 작성을 위한 라이브러리 설치하기
!pip install graphviz

#그래프 라이브러리 불러오기
import graphviz

#사이킷런의 graphviz 지원 모듈 불러오기
from sklearn.tree import export_graphviz

#그래프 생성하기
tree_graph = graphviz.Source(export_graphviz(dt_model, 
                                             class_names=["X", "O"],
                                             feature_names=['height', 'sex', 'weight'],
                                             impurity=True,
                                             filled=True))

#그래프 출력하기
tree_graph

#그래프 파일 저장하기
tree_graph.render('tree_depth5', format="png")

###3) 불순도 알아보기

순도가 낮은 경우, 즉 다양한 데이터가 섞여 있는 경우를 말한다. 

예시 : 
과일바구니 2에서 3개의 레이블(사과, 바나나, 복숭아) 각각이 전체에서 차지하는 비율을 계산한다.
사과는 2/9, 바나나는 4/9, 복숭아는 3/9이다. 해당 비율을 모두 제곱하여 더한 후 전체의 1에서 빼준다.

In [None]:
#불순도 함수 생성하기
def gini(x) :
    n = x.sum()
    gini_sum = 0
    for key in x.keys() :
        gini_sum = gini_sum + (x[key]/n)*(x[key]/n)
    gini = 1-gini_sum
    return gini

#데이터 준비하기(불순도 예시)
과일바구니1 = ['사과']*9
과일바구니2 = ['사과', '바나나', '사과', '바나나', '바나나', '바나나', '복숭아', '복숭아', '복숭아']
과일바구니3 = ['사과', '바나나', '사과', '바나나', '사과', '복숭아', '복숭아', '사과', '복숭아']

의사결정나무는 지니계수와 같은 불순도 지표를 기반으로 각 노드에서 불순도를 최소화하는 최적의 분할 조건을 구하며 데이터를 학습한다.