# 정보 이론(Information Theory)

## 학습 내용

* Information Content
* Entropy
* Kullback Leibler Divergence
* Cross Entropy Loss
* Decision Tree, Entropy

## Information Content

* 정보 이론(information theory) : 추상적인 '정보' 개념을 정량화하고 정보의 저장과 통신을 연구하는 분야

* 정보를 정량적으로 표현하기 위한 세가지 조건
1. 일어날 가능성이 높은 사건은 정보량이 낮고, 반드시 일어나는 사건에는 정보가 없는 것이나 마찬가지입니다.
2. 일어날 가능성이 낮은 사건은 정보량이 높습니다.
3. 두 개의 독립적인 사건이 있을 때, 전체 정보량은 각각의 정보량을 더한 것과 같습니다.

* 사건 x가 일어날 확률은 P(X = x)라고 할 때, 사건의 정보량(information content) I(x)는

$$I(x) = -log_{b}P(x)$$

In [1]:
import numpy as np
import math
import random

# 주머니 속에 들어있는 공의 개수입니다. 숫자를 바꾸면서 실험해보세요!
total = 1000
# 실험이 끝날 때까지 꺼낸 공의 개수
count = 1

# 1부터 total까지의 정수 중에서 하나를 뽑고 total과 같으면 실험 종료
# total=1000인 경우 1~999: blue / 1000: red
while True:
    sample = random.randrange(1,total+1)
    if sample == total:
        break
    count += 1

print('number of blue samples: '+str(count-1))
print('information content: '+str(-math.log(1/count)))

number of blue samples: 2416
information content: 7.790282380703483


## Entropy

* 엔트로피(entropy) : 특정 확률분포를 따르는 사건들의 정보량 기댓값
* = 직관적인 개념 : 무질서, 불확실성

### 이산적인 무작위 값들

* 이산확률변수 X : x_{1}, x_{2},...,x_{n} 중 하나의 값을 가짐
* 각각의 정보량에 확률을 곱한 후, 그 값을 모두 더한 값입니다.

$$H(X) = E_{X \sim P}[I(x)] = -\sum_{i=1}^{n}p_{i}logp_{i} (p_{i} := P(X = x_{i}))$$

### 연속적인 무작위 값들

* 유한합 대신 적분의 형태

$$h(X) = -\int p(x)logp(x)dx$$

* 연속 확률 변수의 엔트로피를 이산 확률 변수와 구분하여 미분 엔트로피(differential entropy)

## Kullback Leibler Divergence

* 두 확률 분포의 차이를 나타내는 지표
* P(x) : 실제 확률 분포
* Q(x) : 모델이 나타내는 확률 분포
* P(x)를 기준으로 계산된 Q(x)의 평균 정보량, P(x)를 기준으로 계산된 P(x)의 평균 정보량의 차이로 정의할 수 있습니다.
* = P(x) 대신 Q(x)를 사용했을 때 발생하는 엔트로피의 변화량을 나타내는 값입니다.

$$D_{KL}(P||Q) = E_{X \sim P}[-logQ(x)] - E_{X \sim P}[-log P(x)] = \sum P(x)log(\frac{P(x)}{Q(x)})$$

* 연속 확률 변수

$$D_{KL}(P||Q) =  \int P(x)log(\frac{P(x)}{Q(x)})dx$$