Splitting datasets one feature at a time

장점
* 적은 계산 비용
* 이해하기 쉬운 학습 결과
* 누락된 값 있어도 처리 가능
* 분류와 무관한 특징도 처리 가능

단점
* 과적합(overfitting)되기 쉬움: 너무 복잡한 의사결정 트리

적용
* 수치형 값, 명목형 값

## Tree construction
#### ID3 알고리즘
1. 데이터를 가장 잘 나눌 수 있는 특징을 먼저 찾아서 데이터 집합을 하위 집합으로 분할<br/>
 * 정보 이득(infomation Gain)이 가장 큰 특징
 * 엔트로피가 가장 크게 낮아지는 특징(복잡성, 불확실성) 
- 정보량이 너무 많으면 정보의 불확실성이 커져서, 판단할 수 없도록 한다.<br/>
2. 해당 특징을 포함하는 노드 생성</br>
3. 하위 집합의 모든 데이터가 같은 클래스에 속하면 해당 하위 집합에 대한 분류 종료<br/>
4. 2의 경우가 아니라면 이 하위 집합에 대해 1을 적용<br/>
5. 모든 데이터가 분류될 때까지(=모든 하위 집합에 대해) 1~4반복
 * 재귀적 방법으로 해결


#### General approach to Dicision Tree
1. Collet:
    * 모든 방법
2. Prepare:
    * 명목형 값
    * 연속형값은 양자화를 통해 이산형 값으로 변환
3. Analyze:
    * 모든 방법
    * 트리를 구성한 후 시각적으로 검토
4. Train:
    * 트리 형태로 데이터로 구축
5. Test:
    * 학습된 트리로 오류율 계산
6. use:
    * 데이터를 더 잘 이해하기 위해서 사용
    * 모든 지도학습에 사용 가능
    
양자화(Quantization)<br/>
http://www.ktword.co.kr/abbr_view.php?m_temp1=911


### # Information gain
    * 데이터를 분할하기 이전과 이후의 정보량(엔트로피) 변화
    * 정보 이득이 가장 큰 특징에 대해 분할 수행
    * 정보 이득으로 정보의 불확실성(엔트로피) 감소 
    
### 개별 정보량과 엔트로피
    * 개별 정보량
        * 확률이 낮을수록 개별 정보량은 커진다 == 엔트로피가 커지는데 기여
            * 로그의 결과에 -1을 곱한 이유
        * 밑이 2
            * 정보를 전달(표현)하는데 몇 자리 2진수(몇 비트)면 충분한가
            
    * 엔트로피
        * 정보에 대한 기댓값
        * 불확실한 정도, 무질서 정도 
        * 확률이 낮은 사건이 많을수록 정보의 엔트로피가 커진다. 
        * 정보의 불확실성(엔트로피)가 높다
            * 어떤 값(정보)가 나올 지 알기 힘들다
        * 엔트로피가 높은 원인
            * 모든 사건의 확률이 균등하다
            * 확률이 낮은 사건이 많다
                * 정보가 다양하다. 
                http://leosworld.tistory.com/8

#### tree.py를 참고

In [1]:
import numpy as np

In [2]:
import trees

In [3]:
from IPython.core.interactiveshell import InteractiveShell

InteractiveShell.ast_node_interactivity = 'all'

In [19]:
marinedata, labels = trees.createDataSet()

In [20]:
marinedata, labels

([[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']],
 ['no surfacing', 'flippers'])

In [21]:
numentries = len(marinedata)
numentries

5

In [22]:
labelcounts = {}

In [34]:
i = 0

In [35]:
featvec = marinedata[i]
print(featvec)

[1, 1, 'yes']


In [36]:
current_targetlabel = featvec[-1]
print(current_targetlabel)
type(current_targetlabel)

yes


str

In [37]:
current_targetlabel not in labelcounts.keys()

False

In [38]:
if current_targetlabel not in labelcounts.keys():
    labelcounts[current_targetlabel] = 0 # counting 하려는 것을 장착
labelcounts

{'no': 3, 'yes': 2}

In [39]:
labelcounts[current_targetlabel] += 1
labelcounts

{'no': 3, 'yes': 3}

####  이것으로 for의 첫번째 구문이 끝났다
#### 입력 데이터 집합(해양생물데이터)을 순회하면서 타겟 라벨의 빈도 횟수를 구한다.

In [87]:
i = 4 # 값을 바꾸어 가면서 확인

featvec = marinedata[i]; (featvec)
current_targetlabel = featvec[-1]; current_targetlabel
type(current_targetlabel)

if current_targetlabel not in labelcounts.keys():
    labelcounts[current_targetlabel] = 0 # counting 하려는 것을 장착
labelcounts

labelcounts[current_targetlabel] += 1
labelcounts

[0, 1, 'no']

'no'

str

{'maybe': 1, 'no': 5, 'yes': 1}

{'maybe': 1, 'no': 6, 'yes': 1}

#### if 문과 카운트 하는 문장을 하나로 표현 가능
사전에 get함수를 줌으로써 문장을 간결화 시키기

In [98]:
labelcounts = {}

In [103]:
i = 4

featvec = marinedata[i]; featvec
current_targetlabel = featvec[-1]; current_targetlabel

labelcounts[current_targetlabel] = labelcounts.get(current_targetlabel, 0) + 1
labelcounts

# if current_targetlabel not in labelcounts.keys():
#    labelcounts[current_targetlabel] = 0 # counting 하려는 것을 장착
# labelcounts

# labelcounts[current_targetlabel] += 1

[0, 1, 'no']

'no'

{'maybe': 1, 'no': 3, 'yes': 1}

#### 섀넌 엔트로피 구하기

In [104]:
import math

In [105]:
shannonent = 0.0

In [106]:
i = 0

In [107]:
key = labelcounts.keys()[i]; key # key의 목록에서 0번째를 가져와라

'maybe'

In [108]:
labelcounts[key] # labelcounts에 yes가 나타난 횟수

1

In [109]:
prob = float(labelcounts[key]) / numentries; prob # 확률이 나온다. 
# no가 나올 확률, Yes가 나올 확률

0.2

In [110]:
shannonent -= prob * math.log(prob, 2)
shannonent

0.46438561897747244

In [111]:
i = 1

key = labelcounts.keys()[i]; key 

labelcounts[key] 

prob = float(labelcounts[key]) / numentries; prob 

shannonent -= prob * math.log(prob, 2)
shannonent

'yes'

1

0.2

0.9287712379549449

In [112]:
marinedata[0][-1] = 'maybe'; marinedata

[[1, 1, 'maybe'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

In [113]:
trees.calcShannonEnt(marinedata)

1.3709505944546687

엔트로피 실행

In [147]:
retdataset = []

In [148]:
marinedata, labels = trees.createDataSet()
marinedata
labels

[[1, 1, 'yes'], [1, 1, 'yes'], [1, 0, 'no'], [0, 1, 'no'], [0, 1, 'no']]

['no surfacing', 'flippers']

In [149]:
# 첫 번째 피처 : axis = 0
# 첫 번째 피처의 값이 1: value=1

axis = 0
value = 1

In [150]:
i = 0

In [151]:
featvec = marinedata[i]; featvec

[1, 1, 'yes']

In [152]:
featvec[axis] == value

True

In [153]:
# 위 조건식이 참이므로
reducedfeatvec = featvec[:axis]; reducedfeatvec

[]

In [154]:
featvec[axis+1:]

[1, 'yes']

In [155]:
reducedfeatvec.extend(featvec[axis+1:])
reducedfeatvec

[1, 'yes']

In [156]:
retdataset.append(reducedfeatvec)
retdataset

[[1, 'yes']]

i = 3의 경우 참이 아니므로 추가되면 안된다. 

In [160]:
i = 4
featvec = marinedata[i]; featvec
featvec[axis] == value
# 위 조건식이 참이므로
if featvec[axis] == value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec
    featvec[axis+1:]
    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec
    retdataset.append(reducedfeatvec)
retdataset

[0, 1, 'no']

False

[[1, 'yes'], [1, 'yes'], [0, 'no']]

#### cone 간결화

In [165]:
featvec

[1, 1, 'yes']

In [166]:
del featvec[1]; featvec

[1, 'yes']

In [168]:
i = 0
featvec = marinedata[i]; featvec
featvec[axis] == value
# 위 조건식이 참이므로
if featvec[axis] == value:
    del featvec[axis]; reducedfeatvec
    retdataset.append(featvec)
retdataset

[1, 'yes']

False

[[1, 'yes']]

#### code 간결화 끝

In [162]:
# 첫 번째 피처 값이 0인 데이터 집합을 구하기
trees.splitDataSet(marinedata, 0, 0)

[[1, 'no'], [1, 'no']]

In [None]:
# 두 번째 피처 값이 1인 데이터 집합을 구해보자

In [163]:
axis = 1
value = 1
retdataset = []

In [164]:
i = 0
featvec = marinedata[i]; featvec
featvec[axis] == value
# 위 조건식이 참이므로
if featvec[axis] == value:
    reducedfeatvec = featvec[:axis]; reducedfeatvec
    featvec[axis+1:]
    reducedfeatvec.extend(featvec[axis+1:])
    reducedfeatvec
    retdataset.append(reducedfeatvec)
retdataset

[1, 1, 'yes']

True

[1]

['yes']

[1, 'yes']

[[1, 'yes']]

해당 feature값을 제외한 나머지를 만든다. <br/>
1, 1, 'yes' 중간에 1을 제외한 왼쪽에 1과 오른쪽에 'yes'

code 간결화

In [171]:
# 첫 번째 피처값(라벨)이 1인 데이터 집합의 엔트로피 구하기
marinedata, labels = trees.createDataSet()
feat01 = trees.splitDataSet(marinedata, 0, 1); feat01

[[1, 'yes'], [1, 'yes'], [0, 'no']]

In [172]:
trees.calcShannonEnt(feat01)

0.9182958340544896

In [175]:
# 첫 번째 피처 값이 0인 데이터 집합의 엔트로피
feat00 = trees.splitDataSet(marinedata, 0, 0); feat00
trees.calcShannonEnt(feat00)

[[1, 'no'], [1, 'no']]

0.0

In [176]:
trees.calcShannonEnt(feat00)

0.0

In [184]:
# 두 번째 피처 값이 1인 데이터 집합의 엔트로피
feat10 = trees.splitDataSet(marinedata, 1, 0); feat11
trees.calcShannonEnt(feat10)

[[1, 'yes'], [1, 'yes'], [0, 'no'], [0, 'no']]

0.0

In [185]:
trees.calcShannonEnt(feat10)

0.0

In [186]:
# 두 번째 피처 값이 0인 데이터 집합의 엔트로피
feat11 = trees.splitDataSet(marinedata, 1, 1); feat11
trees.calcShannonEnt(feat11)

[[1, 'yes'], [1, 'yes'], [0, 'no'], [0, 'no']]

1.0

In [187]:
trees.calcShannonEnt(feat11)

1.0