# 결정 트리 (decision tree)
- 머신러닝 알고리즘 중에서 직관적으로 이해하기 쉬운 것으로 다중 분류에 많이 사용  
    - (XAI - 설명 가능한 인공지능 (Explainable Artificial Intelligence))
- 데이터 안에서 if/else 기반으로 규칙을 찾아 학습하여 트리 구조의 분류 규칙을 만듬
- 결정 트리의 구조는 규칙 조건(if)을 나타내는 규칙 노드 (decision node)와 분류가 결정된 클래스 값이 표시된 리프 노드 (leaf node)로 구성
- 데이터의 균일도를 계산하는 대표 적인 방법으로 정보 이득 지수와 지니 계수가 있음

| 매개변수 | 설명 | 기본값 / 참고 |
|-|-|-|
|`min_samples_split`|노드를 분할하기 위한 최소 샘플 데이터 개수|(default: 2)|
|`min_samples_leaf`|리프 노드가 되기 위한 최소 샘플 데이터 개수|
|`max_features`|최적의 분량을 위해 고려할 최대 피처 개수|- None: 모든 피처사용<br>- int: 사용할 피처 개수를 설정<br>- float: 사용할 피처 개수를 퍼센트로 설정<br>- sqrt: √(전체 피처 개수) 를 계산하여 설정<br>- auto: sqrt와 동일<br>- log: log₂(전체 피처 개수)를 계산하여 설정<br>|
|`max_depth`|트리의 최대 깊이||
|`max_leaf_nodes`|리프 노드에 들어가는 샘플 데이터의 최대 개수||

### 정보 이득 지수 (information gain index)
- 정보 이득(information)은 엔트로피(entropy) 개념을 기반으로 함  
    - 엔트로피: 데이터 집합의 혼잡도를 의미  
    - 데이터 집합에 다른 데이터 = 균일도가 떨어짐 → 혼잡도가 높아지므로 엔트로피가 높아짐  
    - 데이터 집합에 같은 데이터 = 균일도가 높아짐 → 혼잡도가 떨어지므로 엔트로피가 낮아짐  
- 정보 이득 지수: 혼잡도가 줄어들어 얻게 되는 이득을 의미하는 것으로, ‘1-엔트로피’로 계산
- 결정 트리: 정보 이득 지수가 높은 피처를 분할 기준으로 사용

[참고1](https://danbi-ncsoft.github.io/study/2018/12/06/entropy.html)
[참고2](https://ssoonidev.tistory.com/54)

### 지니 계수 (gini coefficient)
- 소득의 불균형 정도를 나타내는 것인데 머신러닝에서 지니 계수는 데이터의 순도를 나타내기 위해 사용
- 결정 트리에서는 지니 계수가 높을수록 순도가 낮은 데이터 집합을 의미
- 지니 계수가 0이면 완전 순수한 데이터 집합을 의미

[참고1](https://leedakyeong.tistory.com/entry/%EC%9D%98%EC%82%AC%EA%B2%B0%EC%A0%95%EB%82%98%EB%AC%B4Decision-Tree-CART-%EC%95%8C%EA%B3%A0%EB%A6%AC%EC%A6%98-%EC%A7%80%EB%8B%88%EA%B3%84%EC%88%98Gini-Index%EB%9E%80)

#### 결정 트리 분석의 장점
1) 결과를 해석하고 이해하기 쉬움
    - 간략한 설명만으로 결정 트리를 이해하는 것이 가능
2) 자료를 가공할 필요가 거의 없음
    - 다른 기법들의 경우 자료를 정규화 하거나 임의의 변수를 생성하거나 값이 없는 변수를 제거해야 하는 경우가 있음
3) 수치 자료와 범주 자료 모두 적용 가능
    - 다른 기법들은일반적으로오직한 종류의변수를갖는데이터셋을분석하는 것에특화
        - 일례로 신경망 학습은 숫자로 표현된 변수만을 다룰 수 있음
4) 화이트박스 모델을 사용
    - 모델에서 주어진 상황이 관측 가능하다면 불 논리를 이용하여 조건에 대해 쉽게 설명할 수 있음
5) 대규모의 데이터 셋에서도 잘 동작
    - 방대한 분량의 데이터를 일반적인 컴퓨터 환경에서 합리적인 시간 안에 분석 가능

#### 결정 트리 분석의 한계
1) 최적의 결정 트리를 학습하는 문제는 NP-완전(NP-Complete) 문제로 알려져 있음
    - 실질적인 결정 트리 학습 알고리즘은 각 노드에서의 부분 최적값을 찾아내는 *탐욕 알고리즘 같은 휴리스틱 기법을 기반*함
        - **최적 결정 트리를 알아낸다고 보장할 수는 없음**
2) 결정 트리 학습자가 훈련 데이터를 제대로 일반화하지 못할 경우 너무 복잡한 결정 트리를 만들 수 있음
    - *과적합(overfitting) 문제 발생* 가능
3) 데이터의 특성이 특정 변수에 수직/수평적으로 구분되지 못할 때 분류율이 떨어지고, 트리가 복잡해지는 문제가 발생
    - 신경망 등의알고리즘이여러 변수를동시에고려하지만 결정트리는한 개의변수만을선택
4) 약간의 차이에 따라 (레코드의 개수의 약간의 차이) 트리의 모양이 많이 달라질 수 있음
    - 예: 두 변수가 비슷한 수준의 정보력을 갖는다고 했을 때, 약간의 차이에 의해 다른 변수가 선택되면 이 후의 트리 구성이 크게 달라질 수 있음

## 목표:  스마트폰에서 수집한 센서 데이터를 분석하여 사람의 움직임을 분류 하는 모델을 생성 새로운 데이터에 대해 움직임 유형을 예측해서 분류

In [None]:
import numpy as np
import pandas as pd
pd.__version__

In [None]:
feature_name_df = pd.read_csv('./dataSet/UCI_HAR_Dataset/features.txt', sep = '\s+', header = None, names = ['index', 'feature_name'], engine = 'python')

In [None]:
feature_name_df.head()

In [None]:
feature_name_df.shape

In [None]:
#index 제거하고, feature_name만 리스트로 저장
feature_name = feature_name_df.iloc[:, 1].values.tolist()

In [None]:
feature_name[:5]

In [None]:
X_train = pd.read_csv('./dataSet/UCI_HAR_Dataset/train/X_train.txt', sep='\s+', names = feature_name, engine = 'python')
X_test = pd.read_csv('./dataSet/UCI_HAR_Dataset/test/X_test.txt', sep='\s+', names = feature_name, engine = 'python')
Y_train = pd.read_csv('./dataSet/UCI_HAR_Dataset/train/y_train.txt', sep='\s+', header = None, names = ['action'], engine = 'python')
Y_test = pd.read_csv('./dataSet/UCI_HAR_Dataset/test/y_test.txt' , sep = '\s+', header = None, names = ['action'], engine = 'python')

In [None]:
X_train.shape, Y_train.shape, X_test.shape, Y_test.shape

In [None]:
X_train.info()

In [None]:
X_train.head()

In [None]:
print(Y_train['action'].value_counts())

In [None]:
label_name_df = pd.read_csv('./dataSet/UCI_HAR_Dataset/activity_labels.txt', sep = '\s+', header = None, names = ['index', 'label'], engine = 'python')

In [None]:
#index 제거하고, feature_name만 리스트로 저장
label_name = label_name_df.iloc[:, 1].values.tolist()

In [None]:
label_name

In [None]:
from sklearn.tree import DecisionTreeClassifier

In [None]:
#결정 트리 분류 분석: 모델 생성
dt_HAR = DecisionTreeClassifier(random_state=156)

In [None]:
#결정 트리 분류 분석: 모델 훈련 - CPU에 따라 시간 소요!!
dt_HAR.fit(X_train, Y_train)

In [None]:
 #결정 트리 분류 분석: 평가 데이터에 예측 수행 -> 예측 결과로 Y_predict 구하기
Y_predict = dt_HAR.predict(X_test)

In [None]:
from sklearn.metrics import accuracy_score

In [None]:
accuracy = accuracy_score(Y_test, Y_predict)
print('결정 트리 예측 정확도: {0:.4f}'.format(accuracy))

In [None]:
print('결정 트리의 현재 하이퍼 매개변수: \n', dt_HAR.get_params())

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
params = {
    'max_depth' : [6, 8, 10, 12, 16, 20, 24]
}
grid_cv = GridSearchCV(dt_HAR, param_grid = params, scoring = 'accuracy', cv = 5, return_train_score = True)
grid_cv.fit(X_train, Y_train)

In [None]:
cv_results_df = pd.DataFrame(grid_cv.cv_results_)
cv_results_df[['param_max_depth', 'mean_test_score', 'mean_train_score']]

In [None]:
print('최고 평균 정확도: {0:.4f}, 최적 하이퍼 매개변수: {1}'.format(grid_cv.best_score_, grid_cv.best_params_))

In [None]:
params = {
    'max_depth' : [8, 16, 20],
    'min_samples_split' : [8, 16, 24]
}
grid_cv = GridSearchCV(dt_HAR, param_grid = params, scoring = 'accuracy', cv = 5, return_train_score = True)
grid_cv.fit(X_train, Y_train)

In [None]:
cv_results_df = pd.DataFrame(grid_cv.cv_results_)
cv_results_df[['param_max_depth', 'param_min_samples_split', 'mean_test_score', 'mean_train_score']]

In [None]:
print('최고 평균 정확도: {0:.4f}, 최적 하이퍼 매개변수: {1}'.format(grid_cv.best_score_, grid_cv.best_params_))

In [None]:
best_dt_HAR = grid_cv.best_estimator_
best_Y_predict = best_dt_HAR.predict(X_test)
best_accuracy = accuracy_score(Y_test, best_Y_predict)
print('best 결정 트리 예측 정확도: {0:.4f}'.format(best_accuracy))

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
feature_importance_values = best_dt_HAR.feature_importances_
feature_importance_values_s = pd.Series(feature_importance_values, index = X_train.columns)

In [None]:
feature_top10 = feature_importance_values_s.sort_values(ascending = False)[:10]

In [None]:
plt.figure(figsize = (10, 5))
plt.title('Feature Top 10')
sns.barplot(x = feature_top10, y = feature_top10.index)
plt.show()

### 결정 트리 모델의 트리 구조를 그림으로 시각화하기
1. Graphviz 패키지는 별도의 설치 작업이 필요
» [링크주소](https://graphviz.org/download/)
» Install Options: Add Graphviz to the system PATH for all users
3. 설치 경로를 환경 변수에 설정하고 Graphviz 패키지를 파이썬으로 사용하기 위해 파이썬 래퍼 모듈인 graphviz를 설치

In [None]:
import os
###설치 경로(예시: 'C:/Program Files/Graphviz/bin')를 PATH에 추가하기
# os.environ["PATH"] += os.pathsep + 'C:/Program Files/Graphviz/bin'

In [None]:
!pip install graphviz

In [None]:
from sklearn.tree import export_graphviz
#export_graphviz()의 호출 결과로 out_file로 지정된 tree.dot 파일 생성
export_graphviz(best_dt_HAR, out_file = "tree.dot", class_names = label_name, feature_names = feature_name, impurity = True, filled = True)

In [None]:
import graphviz
#위에서 생성된 tree.dot 파일을 Graphviz가 읽어서 시각화
with open("tree.dot") as f:
    dot_graph = f.read()
graphviz.Source(dot_graph)

In [None]:
graphviz.Source(dot_graph).render(filename='tree.png') # png로 저장