In [0]:
## 엔트로피 entropy

# 물리 열역학의 관점에서의 정의
# => 물질의 열적 상태를 나타내는 물리량의 하나
# => 보통 무질서도 라고 함
# => 엔트로피가 높으면 무질서도 증가

# 통계적 관점에서의 정의
# => 정보이득(information gain)의 혼잡도
# => 엔트로피가 높으면 정보이해가 어려워짐

# 학습데이터는 기본적으로 혼잡한 상태임
# 따라서, 어떤 조건으로 분류해야만 전체 혼잡도가
# 개선되는지 계산하고 그 조건을 찾아내서 실제로 정리함
# 정리한 결과에 대해 다시 계산해서 처리를 반복 적용함

# 정보이론information theory에서 정보의 불확실성을
# 수치로 나타낸 것을 엔트로피entropy라 함


# ex) x를 기준으로 y를 나누는 가장 좋은 방법은?
# x = [1, 2, 3, 4, 5, 6, 7, 8]
# y = [0, 0, 0, 1, 1, 1, 1, 1]


# 방법 1) 분류 기준 : x < 3.5  <= 최적의 조건
# 방법 2) 분류 기준 : x < 4.5  <= 오분류 조건


# 엔트로피의 식
# 복수의 현상(1~n)이 존재할 때 그 혼잡도를 나타내는 엔트로피 식은 
# -p(현상1) * log(p(현상1)) + 
# -p(현상2) * log(p(현상2)) +
# ... ...
# -p(현상n) * log(p(현상n)) 이다

# 참고 - 엔트로피는 일반적으로 자연로그를 이용해서 계산함!!
# 단!! 아래 예제에서는 2를 밑으로 하는 로그로 엔트로피를 계산했음



# ex) 확률 0.1의 현상이 10개 일어난 경우 엔트로피는?
# (0.1 * log2(0.1)) * 10 * -1 = 3.3219280948873626

import math
(0.1 * math.log2(0.1)) * 10 * -1


# ex) 확률 0.25의 현상이 4개 일어난 경우 엔트로피는?
(0.25 * math.log2(0.25)) * 4 * -1



# ex) 확률 0.5의 현상이 2개 일어난 경우 엔트로피는?
(0.5 * math.log2(0.5)) * 2 * -1



# ex) 10마리의 동물이 개인지 고양이인지 분류
# big   follow   walking   target
# yes   yes      yes       dog
# yes   yes      no        cat
# no    yes      yes       dog
# yes   yes      yes       dog
# no    no       yes       cat

# yes   no       yes       dog
# yes   no       yes       cat
# no    no       no        cat
# yes   yes      yes       dog
# no    yes      no        dog


# 1) target 엔트로피 계산
# 10마리 중 6마리는 개, 4마리는 고양이로 분류
# dog : cat = 6 : 4
# 개로 분류될 확률       : 6/10 = 0.6
# 고양이로 분류될 확률   : 4/10 = 0.4

# 따라서, 엔트로피
-(0.6 * log2(0.6)) -(0.4 * log2(0.4))
=> -(0.6 * math.log2(0.6)) -(0.4 * math.log2(0.4))
=> -0.44217935649972373 -0.5287712379549449
=> 0.9709505944546686 = 0.971



# 2) 덩치기준으로 분류시 엔트로피 계산

# 덩치가 큰 것으로 분류  
# 개 : 고양이 = 4 : 2
# 덩치가 큰 경우 개로 분류될 확률 : 4/6 = 0.6666666666666666
# 덩치가 큰 경우 고양이로 분류될 확률 : 2/6 = 0.3333333333333333
# 따라서, -(0.667 * log2(0.667)) -(0.333 * log2(0.333))
=> -(0.667 * math.log2(0.667)) -(0.333 * math.log2(0.333))
=> 0.9179621399872384 = 0.918


# 덩치가 작은것으로 분류
# 개 : 고양이 = 2 : 2
# 덩치가 작은 경우 개/고양이로 분류될 확률 2/4 = 0.5
=> -(0.5 * math.log2(0.5)) -(0.5 * math.log2(0.5))
=> 0.5 + 0.5 = 1.0


# 덩치로 분류했을때의 엔트로피는
# 개로 분류될 확률 x 덩치로 분류될 확률 과 
# 고양이로 분류될 확률 x 덩치로 분류될 확률을
# 더해준 결과값이 됨
0.6 * 0.918 + 0.4 * 1 = 0.9508



# 3) 따름기준으로 분류시 엔트로피 계산

# 잘 따름으로 분류  
# 개 : 고양이 = 5:1

# 잘따르는데 개로 분류될 확률
# 5/6 = 0.8333333333333334

# 잘 따르는데 고양이로 분류될 확률
# 1/6 = 0.16666666666666666
# 따라서, 
=> -(0.833 * math.log2(0.833)) -(0.167 * math.log2(0.167))
=> 0.21958846221401737 -0.43120735869540183
=> 0.220 + 0.431 = 0.651 



# 잘 안따름으로 분류
# 개 : 고양이 = 1:3

# 잘 안따르는데 개로 분류될 확률 
# 1/4 = 0.25 

# 잘 안따르는데 고양이로 분류되 확률
# 3/4 = 0.75
# 따라서, 
=> -(0.25 * math.log2(0.25)) -(0.75 * math.log2(0.75))
=> 0.5- 0.31127812445913283 = -0.811



# 덩치로 분류했을때의 엔트로피는
# (개로 분류될 확률 * 따름으로 분류될 확률) + 
# (고양이로 분류될 확률 * 따름으로 분류될 확률)

0.6 * 0.651 + 0.4 * 0.811 = 0.715




# 4) 산책기준으로 분류시 엔트로피 계산





0.6730116670092565

In [0]:
# 의사결정트리

# 의사결정트리 결정영역을 표시하기 위해
# mlxtend 패키지 설치
# pip install mlxtend
from mlxtend.plotting import plot_decision_regions


# 데이터 불러오기
catdog = pd.read_csv('c:/Java/data/catdog.txt')

# 탐색적 분석
catdog.info()
sns.countplot(catdog.target)
# sns.countplot(catdog['target'])
plt.show()

# 데이터 분석
data = catdog.iloc[:, 0:3]
target = catdog['target']

# 의사결정트리 분석
dtc = DecisionTreeClassifier(criterion='entropy') # , max_depth=4)
# criterion : 정보이득 알고리즘 지정
# max_depth : 의사결정 트리의 가지수 조정
dtc.fit(data, target)
print('훈련정확도', dtc.score(data, target))

# 의사결정나무 시각화
dot_data = tree.export_graphviz(dtc, out_file=None, feature_names=['big', 'follow', 'walking'],
                                class_names=['cat', 'dog'], filled=True, rounded=True)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf('catdog.pdf')
graph.write_png('catdog.png')

img = pltimg.imread('catdog.png')
plt.imshow(img)
plt.axis('off')
plt.show()


# 날씨 상황에 따라 골프 실행 여부 분석 (playgolf.txt)

# 데이터 불러오기
playgolf = pd.read_csv('c:/Java/data/playgolf.txt')

playgolf.info()
sns.countplot(playgolf.playGolf)
plt.show()

# 데이터 전처리
from sklearn.preprocessing import LabelEncoder
encoder = LabelEncoder()
playgolf['temp2'] = encoder.fit_transform(playgolf['temp'])
playgolf['outlook2'] = encoder.fit_transform(playgolf['outlook'])
playgolf['humidity2'] = encoder.fit_transform(playgolf['humidity'])
playgolf['windy2'] = encoder.fit_transform(playgolf['windy'])
playgolf['playGolf2'] = encoder.fit_transform(playgolf['playGolf'])
print(playgolf)

# 데이터 분리
data = playgolf.iloc[:, 6:10]
target = playgolf['playGolf2']

# 의사결정트리 분석
dtc = DecisionTreeClassifier(criterion='entropy', max_depth=3)
# criterion : 정보이득 알고리즘 지정
# max_depth : 의사결정 트리의 가지수 조정
dtc.fit(data, target)
print('훈련정확도', dtc.score(data, target))

# 의사결정나무 시각화
dot_data = tree.export_graphviz(dtc, out_file=None,
                                feature_names=['temp2', 'outlook2', 'humidity2', 'windy2'],
                                class_names=['no','yes'], filled=True, rounded=True)
graph = pydotplus.graph_from_dot_data(dot_data)
graph.write_pdf('playgolf.pdf')
graph.write_png('playgolf.png')

img = pltimg.imread('playgolf.png')
plt.imshow(img)
plt.axis('off')
plt.show()

# 1) target 엔트로피 계산
# 14개의 날씨 데이터 중 골프침yes/안침no의 횟수는 9/5임
# 골프칠 확률   : 9/14 = 0.6428571428571429
# 골프안칠 확률 : 5/14 = 0.35714285714285715
# 엔트로피는 : -(9/14 *log2(9/14)) -(5/14 * log2(5/14))
# -(0.64*np.log2(0.64)) -(0.36*np.log2(0.36)) = 0.94
entropy([9,5], base=2)

# 2) temp 기준으로 분류시 엔트로피 계산
# hot 로 분류 :  골프침:안침 = 2:2
# hot 골프칠 확률 : 2/4 = 0.5
# hot 골프안칠 확률 : 2/4 = 0.5
# 엔트로피 : -(0.5*math.log2(0.5)) *2 = 1
entropy([2,2], base=2)

# cool 분류 :  골프침:안침 = 3:1
# cool 골프칠 확률 : 3/4 = 0.75
# cool 골프안칠 확률 : 1/4 = 0.25
# 엔트로피 : -(0.75*math.log2(0.75)) -(0.25*math.log2(0.25)) = 0.8112781244591328 = 0.81
entropy([3,1], base=2)

# mild 분류 :  골프침:안침 = 4:2
# mild 골프칠 확률 : 4/6 = 0.67
# mild 골프안칠 확률 : 2/6 = 0.33
# 엔트로피 : -(0.67*math.log2(0.67)) -(0.33*math.log2(0.33)) = 0.9182958340544894 = 0.92
entropy([4,2], base=2)

# temp 분류했을 때의 엔트로피는
# (골프칠 확률 * temp로 분류될 확률) + (골프안칠 확률 * temp로 분류될 확률)
# (0.64*0.81)+(0.36*0.97)
# (4/14)*1 + (4/14)*0.81 + (6/14)*0.91 = 0.9071428571428571 = 0.91


# 3) outlook
# sunny로 분류 :  골프침:안침 = 2:3
# sunny일때 골프칠 확률 : 2/5 = 0.4
# sunny일때 골프안칠 확률 : 3/5 = 0.6
# 엔트로피 : -(0.4*math.log2(0.4)) -(0.6*math.log2(0.6)) = 0.9709505944546686 = 0.97
entropy([2,3], base=2)

# overcast로 분류 :  골프침:안침 = 4:0
# overcast일때 골프칠 확률 : 4/4 = 1
# overcast일때 골프안칠 확률 : 0/5 = 0
# 엔트로피 : -(1*math.log2(1)) -(0*math.log2(0)) = 0 (분류불가)
entropy([4,0], base=2)

# rain로 분류 :  골프침:안침 = 3:2
# rain일때 골프칠 확률 : 3/5 = 0.6
# rain일때 골프안칠 확률 : 2/5 = 0.4
# 엔트로피 : -(0.6*math.log2(0.6)) -(0.4*math.log2(0.4)) = 0.9709505944546686 = 0.97
entropy([3,2], base=2)

# outlook으로 분류했을 때의 엔트로피는
# high/overcast/rain 일때의 확률에 high/overcast/rain 일때
# 골프 칠/안칠 확률(엔트로피)을 곱해서 더해준 값
# (5/14)*0.97 + (4/14)*0 + (5/14)*0.97 = 0.69


# 4) humidity
# high 로 분류 : 골프침:안침 = 3:4
# 습도가 높을때 골프칠 확률 : 3/7 = 0.42857142857142855
# 습도가 높을때 골프안칠 확률 : 4/7 = 0.5714285714285714
# 엔트로피 : -(0.43*math.log2(0.43)) -(0.57*math.log2(0.57)) = 0.9858150371789198 = 0.98
entropy([3,4], base=2)

# normal      : 골프침:안침 = 6:1
# 습도가 보통일때 골프칠 확률 : 6/7 = 0.8571428571428571
# 습도가 보통일때 골프안칠 확률 : 1/7 = 0.14285714285714285
# 엔트로피 : -(0.86*math.log2(0.86)) -(0.14*math.log2(0.14)) = 0.584238811642856 = 0.58
entropy([6,1], base=2)

# 습도로 분류했을 때의 엔트로피는
# high/normal일때의 확률에 high/normal일때 골프 칠/안칠 확률(엔트로피)을 곱해서 더해준 값
# ((7/14)*0.58)+((7/14)*0.98) = 0.78


# 5) windy
# True 로 분류 : 골프침:안침 = 3:3
entropy([3,3], base=2) # 1

# False 로 분류 : 골프침:안침 = 6:2
# windy가 높을때 골프칠 확률 : 3/7 = 0.42857142857142855
# windy가 높을때 골프안칠 확률 : 4/7 = 0.5714285714285714
entropy([6,2], base=2) # 0.8112781244591328
# ((6/14)*1)+((8/14)*0.81) = 0.8914285714285715
