# 18강. 교차엔트로피

## 이론

- 엔트로피
    - 자기정보
    - 엔트로피
- 교차엔트로피
    - 교차엔트로피의 정의
    - 손실함수

(1) 엔트로피

(1)-1. 자기정보(Self-information): $i(A)$
   - $A$: 사건
   - $i(A) = log_{b} \left ( \frac {1} {P(A)} \right ) = -log_{b}P(A)$
       - 확률이 높은 사건: 정보가 많지 않음.
       
       
   - 정보의 단위
       - $b = 2$: bits
       - $b = e$: nats
       - $b = 10$: hartleys
       
       
   - 특성
       - $i(AB) = log_{b} \left ( \frac {1} {P(A)P(B)} \right ) = log_{b} \left ( \frac {1} {P(A)} \right ) + log_{b} \left ( \frac {1} {P(B)} \right ) =i(A) + i(B)$
       - $P(H) = \frac {1} {8}, P(T) = \frac {7} {8}$
           - $i(H)$ = 3비트, $i(T)$ = 0.193비트

(1)-2. 엔트로피(entropy)
> 자기 정보의 평균
$$H(X) = \sum_{j}P(A_{j})i(A_{j}) = -\sum_{j}P(A_{j})log_{2}P(A_{j})$$

- 특성
   - $0 \leq H(X) \leq log_{2} K$
       - $K$: 사건의 수
       
       
- 엔트로피
    1. 엔트로피의 활용
        - 평균비트수를 표현
        - 데이터 압축에 사용 가능
        
    2. 4가지 정보를 표현하는데 필요한 비트 수
        - 일반적으로 2비트
    3. $i(X)$를 활용하는 경우
        - 평균비트수
    

(2) 교차엔트로피
- 확률분포 $P$와 $Q$
    - $S = {A_{j}}$
        - $P(A_{j})$: 확률분포 $P$에서 사건 $A_{j}$가 발생할 확률
        - $Q(A_{j})$: 확률분포 $Q$에서 사건 $A_{j}$가 발생할 확률
        - $i(A_{j})$: 확률분포 $Q$에서 사건 $A_{j}$의 자기정보
            - $i(A_{j}) = -log_{2}Q(A_{j})$
            - 자기 정보는 $A_{j}$를 표현하는 비트 수
            - 잘못된 확률분포 $Q$를 사용하게 되면, 실제 최적의 비트 수를 사용하지 못하게 됨.


- 교차엔트로피 $H(P, Q)$
> 집합 $S$상에서 확률분포 $P$에 대한 확률분포 $Q$의 교차 엔트로피

    - 확률분포 $P$에서 $i(A_{j})$의 평균
        - $H(P, Q) = \sum_{j}P(A_{j})i(A_{j}) = -\sum_{j}P(A_{j})log_{2}Q(A_{j}) = -\sum_{x \in X}P(x)log_{2}Q(x)$
        - 이 값은 정확한 확률분포 $P$를 사용했을 때의 비트 수보다 크게 됨
            - $H(P, Q) = -\sum_{x \in X}P(x)log_{2}Q(x) \geq -\sum_{x \in X}P(x)log_{2}P(x) = H(P)$
        - 따라서, 이 값은 **$P$와 $Q$가 얼마나 비슷한지**를 표현
            - 같으면, $H(P, Q) = H(P)$ 
            - 다르면, $H(P, Q) > H(P)$


- 분류 문제에서의 손실함수
    - 분류문제
    > 주어진 대상이 A인지 아닌지를 판단.
    > 주어진 대상이 A, B, C, ... 중 어느 것인지를 판단
    
    - 기계학습에서는 주어진 대상이 각 그룹에 속할 확률을 제공
    
    - 원하는 답 P와 제시된 답 Q가 얼마나 다른지에 대한 척도 필요


- 손실함수의 예
    - 제곱합: $\sum(p_{i} - q_{i})^2$
        - 확률이 다를수록 큰 값을 가짐
        - 하지만 학습 속도 느림
    - **교차 엔트로피**: $H(P, Q)$
        - 확률이 다를수록 큰 값을 가짐
        - **제곱합 보다 학습 속도 빠름**
        - 분류 문제에서 주로 교차 엔트로피 사용

- 교차엔트로피 예제, $S = \{A, B\}$
    - 실제 상황
        - $P = [1, 0]$
            - $P(A) = 1, P(B) = 0$
        
    - 예측 $Q(X)$
        - $[0.8, 0.2]: Q(A) = 0.8, Q(B) = 0.2$
            - $H(P, Q) = -\sum_{x \in X} P(x)log_{2}Q(x) = -1 \times log_{2} 0.8 = 0.3219$
        - $[0.5, 0.5]: Q(A) = 0.5, Q(B) = 0.5$
            - $H(P, Q) = -\sum_{x \in X} P(x)log_{2}Q(x) = -1 \times log_{2} 0.5 = 1$
        - $[0.2, 0.8]: Q(A) = 0.2, Q(B) = 0.8$
            - $H(P, Q) = -\sum_{x \in X} P(x)log_{2}Q(x) = -1 \times log_{2} 0.2 = 2.32$

In [5]:
import numpy as np


def crossentropy(P, Q):
    return sum([-P[i]*np.log2(Q[i]) for i in range(len(P))])

P = [1, 0]

Q = [0.8, 0.2]
print(crossentropy(P, Q))

Q = [0.5, 0.5]
print(crossentropy(P, Q))

Q = [0.2, 0.8]
print(crossentropy(P, Q))

0.3219280948873623
1.0
2.321928094887362


In [6]:
import numpy as np


def crossentropy(P, Q):
    return sum([-P[i]*np.log2(Q[i]) for i in range(len(P))])

P =[1, 0, 0, 0]
Q = [0.7, 0.1, 0.1, 0.1]
print(crossentropy(P, Q))

0.5145731728297583
