In [None]:
"""

결정 트리  Decision Tree

결정 트리는 예/아니오로 답할 수 있는 어떤 질문들이 있고,
그 질문들의 답을 따라가면서 데이터를 분류하는 알고리즘이다.

이 경우 결정트리는 root node의 질문으로부터 출발하여, leaf node 즉 답에서 끝나게 된다.

"""

In [16]:
# if-else 문으로 결정 트리 구현

# 교툥사고 생존 여부를 예측하는 결정 트리 함수(0: 생존, 1: 사망)
def survival_classifier(seat_belt, highway, speed, age):
    if not seat_belt:        
        if highway:
            if speed > 100:
                if age > 50:
                    return 1
    
    return 0
    
# test code
print(survival_classifier(False, True, 110, 55))
print(survival_classifier(True, False, 40, 70))
print(survival_classifier(False, True, 80, 25))
print(survival_classifier(False, True, 120, 60))
print(survival_classifier(True, False, 30, 20))
print(survival_classifier(False, True, 110, 20))
print(survival_classifier(True, True, 150, 80))


1
0
0
1
0
0
0


In [None]:
"""

지니 불순도 Gini Impurity

머신 러닝 프로그램이 결정 트리를 만들 때에는 경험을 통해 내용을 직접 정해나가야 한다.
즉 데이터를 분류하며 각 위치에서 어떤 노드가 제일 고르는 것이다.

비교하자면,
선형 회귀 알고리즘의 목적이 학습 데이터를 가장 잘 나타낼 수 있는 일차식을 찾는 것이었다면,
결정 트리는 학습 데이터들을 가장 잘 분류할 수 있는 노드드를 찾아내는 것이다.

손실 함수 같은 개념이 필요한 것인데, 결정 트리에서는 gini impurity를 사용한다.

지니 불순도는 data set 안에 얼마나 다른 데이터들이 섞여있는지를 측정한다.
모든 data가 한 분류라면 100% 순수한 data set일 겻이며, 반반 섞여있을 경우 100% 불순한 data set일 것이다

GI = 1 - p(flu)^2 - p(not_flu)^

데이터 100개 [독감: 70개, 일반감기: 30개] 예시)
GI = 1 - 70/100^2 - 30/100^2 = 0.42

데이터 100개 [독감: 100개, 일반감기: 0개] 예시)
GI = 1 - 100/100^2 - 0/100^2 = 0

데이터 100개 [독감: 50개, 일반감기: 50개] 예시)
GI = 1 - 50/100^2 - 50/100^2 = 0.5

즉 값이 작을 수록 순수하고, 클 수록 불순한 data set이다.

지니 불순도가 어떻게 결정 트리의 노드를 정할 수 있는 것일까?

"""

In [24]:
# 지니 불순도 계산 실습

# 01
print(round((1 - (150/210) ** 2 - (60/210) ** 2),3))  # 소수점 넷 째 자리에서 반올림

# 02
print(round((1 - (600/1300) ** 2 - (700/1300) ** 2),3))

# 03
print(round((1 - (350/400) ** 2 - (50/400) ** 2),3))

0.408
0.497
0.219


In [25]:
"""

결정 트리에서 좋은 질문은 데이터를 잘 나누는 질문이다.
즉 나뉜 데이터가 순수할 수록, 지니 불순도가 낮을 수록 좋은 질문이다.
따라서 지니 불순도를 사용하여 질문 노드를 평가할 수 있다.

left node 와 right node의 비교 예시)
(GI(left) * data갯수) + (GI(right) * data갯수) = gini impurity 평균
     

"""

''

In [None]:
"""

1. 각 분류/질문 노드의 지니 불순도를 구한다.
2. 지니 불순도가 가장 낮은 노드 선택(root node로 이용) : '몸살 기운이 있나요?' 질문
  a. 선택한 질문으로 바로 분류를 한다.(독감/일반감기)
  b. 선택한 질문 아래 하위 질문 노드를 추가하여 지니 불순도를 추가로 낮춘다. : '고열이 있나요?' 질문 추가

"""

In [40]:
# 질문 노드 평가 계산 실습

# 01
print(round((((1 - (10/50) ** 2 - (40/50) ** 2) * 50) + ((1 - (60/75) ** 2 - (15/75) ** 2)* 75)) / (50 + 75), 3))

# 02
print(round((((1 - (40/45) ** 2 - (5/45) ** 2) * 45) + ((1 - (10/45) ** 2 - (35/45) ** 2)* 45)) / (45 + 45), 3))

# 03 : 가장 좋은 질문
print(round((((1 - (15/95) ** 2 - (80/95) ** 2) * 95) + ((1 - (90/90) ** 2 - (0/90) ** 2)* 90)) / (95 + 90), 3))

0.32
0.272
0.137


In [None]:
"""

모든 노드 만들기

학습 데이터를 가장 순수하게 만들어 주는(=지니 불순도가 가장 낮은) 분류 노드 or 질문 노드를 고르며 결정트리를 만들어 나간다.

트리의 깊이를 미리 정해줄 수도 있다. 이 경우 더이상 질문 노드를 추가하지 않고 분류 노드를 만들면 된다.


"""

In [None]:
# 속성이 숫자일 때의 질문 노드?

"""

위의 모든 내용들은 속성이 불린형 데이터였다. 
고열이 있는가? (Y/N)를
열이 몇 도인가? ___ 로 표현할 수 있는 것이다.




"""