# 결정트리
- 가지 형태로 나눠서 분류
- 장점: 이해하기 쉽다. 스케일링, 정규화의 영향이 적다.
- 단점: 트리가 깊어질수록 과적합 가능성이 높다. 실제로 잘 사용하지 않는다(인사이트 얻는 정도로만)

# 어떤 기준으로 데이터를 나눠야 할까?
- **데이터가 균일하게 나눠지도록!**
- 데이터를 나누기 -> 균일도가 높은 데이터 세트를 선택하는 방식으로 차례로 나눠가는 것
- 정보의 균일도를 측정하는 기준: 엔트로피 지수, 지니 지수

## 엔트로피
1. 데이터의 혼잡도, 무질서도
2. 한 가지 값으로 균일할수록 엔트로피 값이 낮다.
3. 사전 엔트로피와 사후 엔트로피를 비교하는 방식 -> IGR(Information Gain Ratio)

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [3]:
# 엔트로피 예시
def entropy(x):
    return (-x*np.log2(x)).sum()



엔트로피 예시: 수업 출석률로 계산. 10번 중 7번 참석, 3번 불참 했을 경우

In [6]:
t=entropy(0.7)
f=entropy(0.3)
print(t+f)

0.8812908992306927


엔트로피 예시: 수업 출석률로 계산. 10번 중 9번 참석, 1번 불참 했을 경우

In [7]:
t=entropy(0.9)
f=entropy(0.1)
print(t+f)

0.4689955935892812


> **균일(참석이든 불참이든 한 가지 특성이 많은 것) 할 수록 엔트로피가 낮아진다.**

## 지니 지수
- 분류 작업에서의 불순도(데이터 집합의 혼잡도) 측정에 사용
- 결정트리의 학습 과정에서 각 노드마다 지니 지수를 계산하여 최적의 분할을 결정
- 지니 지수를 이용하여 불순도를 최소화하도록 트리를 구성함으로써 보다 정확한 예측을 할 수 있도록 하는 것
- 계산법: 1 - (클래스1의 비율)^2 - (클래스2의 비율)^2 - ... - (클래스N의 비율)^2

지니 지수 예시: 한 공간에 다른 반인 사람들이 모여 있을 경우

In [8]:
df_gn=pd.DataFrame({'중급반':[0,1,2,3,4],
             '기초반':[10,9,8,7,6]})
df_gn

Unnamed: 0,중급반,기초반
0,0,10
1,1,9
2,2,8
3,3,7
4,4,6


In [11]:
# 지니 지수 공식 이용
print(1- ((0/10)**2 + (10/10)**2))    # 0
print(1- ((1/10)**2 + (9/10)**2))     # 1
print(1- ((2/10)**2 + (8/10)**2))     # 2
print(1- ((3/10)**2 + (7/10)**2))     # 3
print(1- ((4/10)**2 + (6/10)**2))     # 4

0.0
0.17999999999999994
0.31999999999999984
0.42000000000000004
0.48


> **균일하지 않을수록 지니 지수가 높아진다**

## DT 알고리즘의 종류
1. CART( Classification and Regression Tree)
2. C4.5 C5.0
3. CHAID (카이제곱분석 방법으로)

- 이진분류/다중분류 + 수치형/범주형
> 각각의 경우마다 사용되는 알고리즘이 다 달라진다

> 기본적으로 디폴트는 **이진분류 CART** 방식! CART 지니계수로 진행한다.