# 의사결정 트리(Decision Trees)
+ 의사결정 트리는 마치 스무고개 게임처럼 동작한다.


+ Decision Tree Flowchart
    + Decision block(의사결정 블록, 사각형)
    + Terminal Block(단말블록, 타원형)
    + Branches(의사결정이나 단말영역과 연결, 화살표)


+ 장점
    + 적은 계산비용
    + 이해하기 쉬운 학습결과
    + 누락된 값이 있어도 처리 가능
    + 분류와 무관한 특징도 처리 가능


+ 단점
    + 과정합(overfitting)이 되기 쉬움 :  너무 복잡한 의사결정 트리


+ 적용
    + 수치형 값, 명목형 값

## 3.1 Tree construction

### ID3 알고리즘
1. 데이터를 가장 잘 나눌 수 있는 특징을 먼저 찾아서 데이터 집합을 하위 집합으로 분할
    + 정보이득(Information Gain)이 가장 큰 특징
    + 엔트로피(Entropy)가 가장 크게 낮아지는 특징
2. 해당 특징을 포함하는 노드 생성
3. 하위집합의 모든 데이터가 같은 클래스에 속하면 해당 하위집합에 대한 분류 종료
4. 2의 경우가 아니라면 이 하위집합에 대해 1을 적용
5. 모든 데이터가 분류될 때까지(=모든 하위집합에 대해) 1~4 반복
    + 재귀적 방법으로 해결

##  트리구조 생성 의사코드
### Genaral approach to Dicision Tree

1. Collect:
    + 모든 방법
2. Prepare
    + 명목형 값
    + 연속형 값(수치형)은 양자화를 통해 이산형 값으로 변환
3. Analyze:
    + 모든방법
    + 트리를 만든 후 시각적으로 트리를 검토
4. Training
    + 트리형태로 데이터를 구성
5. Test
    + 학습된 트리로 오류율(error rate) 계산
6. Use
    + 모든 지도학습에 사용 가능
    + 대개 데이터를 더 잘 이해하기 위해 사용

##  의사결정트리 알고리즘
+ ID3
+ C4.5
+ C5.0
+ CART
+ CHAID
+ MARS
+ 조건부 추론 트리

## 가장 적합한 분할 기준을 선택하는 방법
+ 정보이득
+ 지니불순도
+ 분산 감소

## 3.1.1 정보이득
+ 데이터를 분할하기 이전과 이후의 정보량(엔트로피) 변화
+ 정보이득이 가장 큰 특징에 대해 분할 수행
+ 정보이득으로 정보의 불확실성(엔트로피) 감소

### 개인 정보량과 엔트로피
+ 개별 정보량
    + 확률이 낮을수록 개별 정보량은 커진다 == 엔트로피가 커지는데 기여
        + 로그의 결과에 -1을 곱하는 이유
    + 밑이 2
        + 정보를 전달(표현)하는데 몇 자리 2진수(몇 비트)면 충분한가
+ 엔트로피
    + 정보에 대한 기댓값
    + 불확실한 정도, 무질서 정도
    + 확류이 낮은 사건이 많을 수록 정보의 엔트로피(불확실성)이 커진다
    + 정보의 불확실성(엔트로피)가 높다
        + 어떤 값(정보)가 나올 지 알기 힘들다
    + 엔트로피가 높은 원인
        + 모든사건의 확률이 균등하다
        + 확률이 낮은 사건이 많다
            + 정보가 다양하다

### 리스팅 3.1 데이터 집합의 섀넌 엔트로피를 계산하는 함수

In [1]:
import numpy as np

In [2]:
import trees

In [17]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [3]:
marinedata, labels = trees.createDataSet()

In [27]:
marinedata, labels

([[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']],
 ['no surfacing', 'flippers'])

In [28]:
numentries = len(marinedata); numentries

5

In [50]:
labelcounts = {}

#### 입력 데이터 집합(해양생물데이터)을 순회하면서 타겟라벨의 도수를 구한다.

In [51]:
i = 0

featvec = marinedata[i]; featvec

current_targetlabel = featvec[-1]; current_targetlabel

current_targetlabel not in labelcounts.keys()

if current_targetlabel not in labelcounts.keys():
    labelcounts[current_targetlabel] = 0
labelcounts

labelcounts[current_targetlabel] += 1
labelcounts

[1, 1, 'yes']

'yes'

True

{'yes': 0}

{'yes': 1}

In [52]:
i = 1

featvec = marinedata[i]; featvec

current_targetlabel = featvec[-1]; current_targetlabel

if current_targetlabel not in labelcounts.keys():
    labelcounts[current_targetlabel] = 0
labelcounts

labelcounts[current_targetlabel] += 1
labelcounts

[1, 1, 'yes']

'yes'

{'yes': 1}

{'yes': 2}

In [53]:
i = 2

featvec = marinedata[i]; featvec

current_targetlabel = featvec[-1]; current_targetlabel

if current_targetlabel not in labelcounts.keys():
    labelcounts[current_targetlabel] = 0
labelcounts

labelcounts[current_targetlabel] += 1
labelcounts

[1, 0, 'no']

'no'

{'no': 0, 'yes': 2}

{'no': 1, 'yes': 2}

In [54]:
i = 3

featvec = marinedata[i]; featvec

current_targetlabel = featvec[-1]; current_targetlabel

if current_targetlabel not in labelcounts.keys():
    labelcounts[current_targetlabel] = 0
labelcounts

labelcounts[current_targetlabel] += 1
labelcounts

[0, 1, 'no']

'no'

{'no': 1, 'yes': 2}

{'no': 2, 'yes': 2}

####  if 문과 카운트하는 문자을 하나로 표현가능
+ 사전의 get() 함수 활용

labelcounts[current_targetlabel] = labelcounts.get(current_targetlabel, 0) + 1

In [55]:
i = 4

featvec = marinedata[i]; featvec

current_targetlabel = featvec[-1]; current_targetlabel
labelcounts[current_targetlabel] = labelcounts.get(current_targetlabel, 0) + 1
labelcounts

[0, 1, 'no']

'no'

{'no': 3, 'yes': 2}

#### 섀넌 엔트로피 구하기

In [61]:
import math

In [71]:
shannonent = 0.0
i = 0

key = labelcounts.keys()[i]; key             

labelcounts[key]

prob = float(labelcounts[key]) / numentries; prob

math.log(prob, 2)

shannonent -= prob * math.log(prob, 2); shannonent

'yes'

2

0.4

-1.3219280948873622

0.5287712379549449

In [72]:

i = 1

key = labelcounts.keys()[i]; key             

labelcounts[key]

prob = float(labelcounts[key]) / numentries; prob

shannonent -= prob * math.log(prob,2); shannonent

'no'

3

0.6

0.9709505944546686

In [74]:
marinedata[0][-1] = 'maybe'; marinedata

[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [75]:
trees.calcShannonEnt(marinedata)

1.3709505944546687

## 3.1.2 데이터 집합 분할하기

In [109]:
retdataset = []

In [110]:
marinedata, labels = trees.createDataSet()
marinedata
labels

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

['no surfacing', 'flippers']

In [111]:
# 첫 번째 피처 : axis = 0
# 첫 번째 피처의 값이 1 : value=1

axis = 0
value = 1

In [112]:
i = 0

featvec = marinedata[i]; featvec
featvec[axis] == value

# 위 조건식이 참이므로
if featvec[axis] ==value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec

    featvec[axis+1:]

    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec

    retdataset.append(reducedfeatvec)
retdataset

[1, 1, 'yes']

True

[]

[1, 'yes']

[1, 'yes']

[[1, 'yes']]

In [113]:
i = 1

featvec = marinedata[i]; featvec
featvec[axis] == value

# 위 조건식이 참이므로
if featvec[axis] ==value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec

    featvec[axis+1:]

    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec

    retdataset.append(reducedfeatvec)
retdataset

[1, 1, 'yes']

True

[]

[1, 'yes']

[1, 'yes']

[[1, 'yes'], [1, 'yes']]

In [114]:
i = 2

featvec = marinedata[i]; featvec
featvec[axis] == value

# 위 조건식이 참이므로
if featvec[axis] ==value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec

    featvec[axis+1:]

    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec

    retdataset.append(reducedfeatvec)
retdataset

[1, 0, 'no']

True

[]

[0, 'no']

[0, 'no']

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [115]:
i = 3

featvec = marinedata[i]; featvec
featvec[axis] == value

# 위 조건식이 참이므로
if featvec[axis] ==value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec

    featvec[axis+1:]

    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec

    retdataset.append(reducedfeatvec)
retdataset

[0, 1, 'no']

False

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [117]:
i = 4

featvec = marinedata[i]; featvec
featvec[axis] == value

# 위 조건식이 참이므로
if featvec[axis] ==value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec

    featvec[axis+1:]

    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec

    retdataset.append(reducedfeatvec)
retdataset

[0, 1, 'no']

False

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [118]:
# 첫 번째 피처 값이 0인 데이터 집합을 구하기
trees.splitDataSet(marinedata, 0, 0)

[[1, 'no'], [1, 'no']]

In [119]:
# 두 번째 피처 값이 1인 데이터 집합을 구하기
axis = 1
value = 1
retdataset = []

In [120]:
i = 0

featvec = marinedata[i]; featvec
featvec[axis] == value

# 위 조건식이 참이므로
if featvec[axis] ==value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec

    featvec[axis+1:]

    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec

    retdataset.append(reducedfeatvec)
retdataset

[1, 1, 'yes']

True

[1]

['yes']

[1, 'yes']

[[1, 'yes']]

In [121]:
i = 1

featvec = marinedata[i]; featvec
featvec[axis] == value

# 위 조건식이 참이므로
if featvec[axis] ==value:
    del featvec[axis]; reducedfeatvec
    retdataset.append(featvec)
retdataset

[1, 1, 'yes']

True

[1, 'yes']

[[1, 'yes'], [1, 'yes']]

In [123]:
# 첫 번째 피처 값(라벨)이 1인 데이터 집합의 엔트로피 구하기
marinedata, labels = trees.createDataSet()
feat01 = trees.splitDataSet(marinedata, 0, 1); feat01

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [124]:
trees.calcShannonEnt(feat01)

0.9182958340544896

In [127]:
# 첫 번째 피처 값(라벨)이 0인 데이터 집합의 엔트로피 구하기
feat00 = trees.splitDataSet(marinedata, 0, 0); feat00
trees.calcShannonEnt(feat00)

[[1, 'no'], [1, 'no']]

0.0

In [128]:
# 두 번째 피처 값(라벨)이 0인 데이터 집합의 엔트로피 구하기
feat10 = trees.splitDataSet(marinedata, 1, 0); feat10
trees.calcShannonEnt(feat10)

[[1, 'no']]

0.0

In [129]:
# 첫 번째 피처 값(라벨)이 1인 데이터 집합의 엔트로피 구하기
feat11 = trees.splitDataSet(marinedata, 1, 1); feat11
trees.calcShannonEnt(feat11)

[[1, 'yes'], [1, 'yes'], [0, 'no'], [0, 'no']]

1.0