Skip to content
Merged
Changes from all commits
Commits
File filter

Filter by extension

Filter by extension

Conversations
Failed to load comments.
Loading
Jump to
Jump to file
Failed to load files.
Loading
Diff view
Diff view
126 changes: 94 additions & 32 deletions _posts/2025-08-04-02.Information-Theory.md
Original file line number Diff line number Diff line change
Expand Up @@ -35,6 +35,68 @@ long contents .....

## 2.4 Jointly Distributed Random Variables

두 개의 확률변수 $X \in \mathcal{X},\ Y \in \mathcal{Y}$ 를 생각해보자. 이 확률 변수들의 결합 확률 분포(Joint Probability Distribution)의 확률 밀도 함수 (Probability mass function)는 다음과 같이 주어질 것이다.
$$
p_{X, Y}(x, y)= \mathrm{Pr} [X=x, Y=y]
$$
이 결합확률분포의 확률밀도함수 $p_{X,Y}(x,y)$는 $X, Y$가 동시에 특정한 값 $x, y$를 가질 확률을 말한다.

이때 특정한 확률변수 하나에 대해서만 (여기서는, $X$) 그 확률을 고려해볼 수 있는데, 이를 주변 확률 분포(Marginal Probability Distribution)이라 한다. 이 값은 다음과 같이 목표가 되는 확률변수 $X=x$에서 나머지 확률변수에 대한 확률밀도함수값의 가중합으로 구해진다.
$$
p_{X} (x)= \sum_{y\in \mathcal{Y} }^{}{p_{X, Y} (x, y)}
$$
다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고
$$
p_{X} (x) = \sum_{y\in \mathcal{Y} }^{}{p_{X\mid Y} (x\mid y)p_{Y} (y)} = \mathbb{E}[p_{X\mid Y} (x\mid Y)]
$$
이는 $X$에 대한 주변 확률 분포(이하, Marginal)가 조건부 확률의 $Y-$평균으로 간주할 수 있음을 보여준다.

---

이제 결합확률분포를 이루는 두 확률변수 $X, Y$에 각각 임의의 함수$f: X\to \mathbb{R}, g: Y\to \mathbb{R}$ 을 씌웠을 때의 기댓값을 생각해보자.
$$
\begin{align}
\mathbb{E}[f(X)+g(Y)] &= \sum_{x,y}^{}{[f(x)+g(y)]p_{X,Y}(x,y) } \\
&= \underbrace{ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) } }_{\text{term1} } + \underbrace{ \sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } }_{\text{term2} }
\end{align}
$$
위 식에서 $\text{term1}$에서 $f$는 확률변수 $X$에만 의존하고, $\text{term2}$에서 $g$는 확률변수 $Y$에만 의존하므로 각 항을 확률변수 $Y, X$에 대한 marginal로 쓸 수 있다.
$$
\begin{align}
\sum_{x,y}^{}{f(x)p_{X,Y}(x,y) }+\sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } &= \sum_{x}^{}{f(x)p_{X} (x)} + \sum_{y}^{}{g(y)} p_{Y} (y) \\
&= \mathbb{E}[f(X)] +\mathbb{E}[g(Y)]
\end{align}
$$
이로써 확률변수 $X, Y$가 결합확률분포를 이룰 때, 각 변수에 대한 함수의 기댓값은 항상, 심지어 $X, Y$가 서로 독립이 아닐 때에도, $\mathbb{E}[f(X) + g(Y)] = \mathbb{E}[f(X)]+\mathbb{E}[g(Y)]$의 선형성을 띰을 알 수 있다.

---

결합확률분포는 또한 다음의 특징을 가진다.
$$
p_{X,Y} (x,y)= p_{X} (x)\cdot p_{Y} (y) \iff X \perp\mkern-10mu\perp Y
$$
$\impliedby$ 방향은 독립의 정의에 의해 자연스럽게 도출된다. 따라서 $\implies$ 방향을 증명하기 위해, $\phi_{1}: X\to \mathbb{R}, \phi_{2}Y\to\mathbb{R}$인 두 함수 $\phi_{1}, \phi_{2}$에 대해
$$
p_{X, Y} (x, y)= \phi_{1} (x) \cdot\ \phi_{2} (y)
$$
를 만족한다고 가정하자.

$X, Y$ 각각의 marginal을 조건부 확률로 나타내면,
$$
\begin{align}
p_{X} (x) = \sum_{y}^{}{p_{X, Y} (x, y)} = \sum_{y}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{1} (x)\cdot \sum_{y}^{}{\phi_{2} (y)} = \phi_{1} (x) \cdot C_{Y} \\
p_{Y} (y) = \sum_{x}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{2} (y)\cdot \sum_{x}^{}{\phi_{1} (x)} = \phi_{2} (y) \cdot C_{X}
\end{align}
$$
이때, 전체 결합확률분포의 정규화 조건 $\sum_{}^{}{p_{X, Y}(x, y)}= 1$에 따라
$$
\sum_{X, Y}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{}\sum_{y}^{}{} \phi_{1}(x)\cdot \phi_{2} (y) = \left( \sum_{x}^{}{\phi_{1} (x)} \right) \cdot \left( \sum_{y}^{}{\phi_{2} (y)} \right) = C_{X} \cdot C_{Y} = 1
$$
$$
\therefore p_{X, Y} (x, y)= \cfrac{1}{C_{X} \cdot C_{Y} }\cdot \phi_{1} (x)\cdot \phi_{2} (y) = \cfrac{\phi_{1}(x)}{C_{X} }\cdot \cfrac{\phi_{2} (y)}{C_{Y} } = p_{X} (x)\cdot p_{Y} (y)
$$
$X, Y$가 서로 독립임을 알 수 있다.

### 2.4.1 Joint Entropy

> 결합 엔트로피(Joint Entropy)란?
Expand Down Expand Up @@ -195,27 +257,27 @@ H(X) \ge H(f(X))
\]
이다.

**증명.**
**증명.**
\[
H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81}
\]
또한,
\[
H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83}
\]
따라서 \(H(X) \ge H(f(X))\)이다.
따라서 \(H(X) \ge H(f(X))\)이다.
(\(f\)가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \(H(X)=H(f(X))\).)

---

## 정리 37 (Mutual information은 대칭적이다)

**정리.**
**정리.**
\[
I(X;Y) = I(Y;X)
\]

**증명.**
**증명.**
\[
\begin{aligned}
I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
Expand All @@ -229,12 +291,12 @@ I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\

## 정리 38 (Mutual information은 비음수이다)

**정리.**
**정리.**
\[
I(X;Y) \ge 0
\]

**증명.**
**증명.**
\[
\begin{aligned}
H(X) - H(X\mid Y)
Expand All @@ -245,8 +307,8 @@ H(X) - H(X\mid Y)
&= D\!\left(p*{X,Y} \,\|\, p*X p_Y\right) \ge 0 \tag{92}
\end{aligned}
\]
따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\).
여기서 \(p_X p_Y\)는 \(X\)와 \(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\).
여기서 \(p_X p_Y\)는 \(X\)와 \(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
또한 부등식 \(H(X) \ge H(X\mid Y)\)는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.

---
Expand All @@ -258,7 +320,7 @@ H(X) - H(X\mid Y)
I(X;Y) \ge I(f(X);Y)
\]

**증명.**
**증명.**
\[
\begin{aligned}
I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
Expand All @@ -268,7 +330,7 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
\end{aligned}
\]

**일반화.**
**일반화.**
\(X - Y - Z\)가 마르코프 체인(또는 \(X\)와 \(Z\)가 \(Y\)를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:

1. \(X - Y - Z \iff X\)와 \(Z\)가 \(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\) \tag{97}
Expand All @@ -279,14 +341,14 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\

## 정리 40 (데이터 처리 부등식 III)

**정리.**
**정리.**
만약 \(X - Y - Z\)가 마르코프 체인을 이룬다면,
\[
I(X;Z) \le I(Y;Z)
\]
또는 대칭적으로 \(I(Z;X) \le I(Z;Y)\).

**증명.**
**증명.**
\[
\begin{aligned}
I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
Expand All @@ -303,7 +365,7 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\

## 문제 29.

\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
**(b)** \(I(X, Y; Z) \ge I(X; Z)\).

## 풀이
Expand All @@ -314,12 +376,12 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
\[
I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
\]
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
먼저 \(X\)가 주는 정보량과, \(X\)를 알고 난 뒤 \(Y\)가 더 주는 추가 정보량으로 분해한 식이다.

### 2. 조건부 상호 정보의 비음성

항상
항상
\[
I(Y; Z \mid X) \ge 0
\]
Expand All @@ -334,12 +396,12 @@ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).

### 4. 등호 성립 조건

등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
\[
I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
\]
이어야 한다.
즉 “\(X\)를 조건으로 두었을 때 \(Y\)와 \(Z\)가 독립”이어야 한다.
이어야 한다.
즉 “\(X\)를 조건으로 두었을 때 \(Y\)와 \(Z\)가 독립”이어야 한다.
이 역시 \(Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.

---
Expand Down Expand Up @@ -373,15 +435,15 @@ H(X \mid g(Y)) = H(X \mid Y)
\[
H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
\]
이다.
이다.
즉, “\(g(Y)\)를 조건으로 \(X\)와 \(Y\)가 독립”이어야 한다.

### 3. 마르코프 사슬 해석

\[
I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
\]
이는 바로
이는 바로
\[
X \longrightarrow g(Y) \longrightarrow Y
\]
Expand All @@ -390,11 +452,11 @@ X \longrightarrow g(Y) \longrightarrow Y
### 4. 특수 사례

- \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
- 또 \(X\)와 \(Y\)가 본래 독립이라도
- 또 \(X\)와 \(Y\)가 본래 독립이라도
\[
H(X \mid g(Y)) = H(X) = H(X \mid Y)
\]
이므로 등호가 된다.
이므로 등호가 된다.
이 두 경우는 포함되지만, **유일한 경우는 아닙니다.**

---
Expand All @@ -403,7 +465,7 @@ X \longrightarrow g(Y) \longrightarrow Y

## 문제 42.

다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
**(b)** \(I(g(X); Y)\) vs. \(I(X; Y)\).

## 풀이
Expand Down Expand Up @@ -433,11 +495,11 @@ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\

### 4. 등호 성립 조건

등호가 되려면
등호가 되려면
\[
H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
\]
즉 “\(g(X)\)를 조건으로 \(X\)와 \(Y\)가 독립”일 때 등호가 된다.
즉 “\(g(X)\)를 조건으로 \(X\)와 \(Y\)가 독립”일 때 등호가 된다.
다시 말해 \(g(X)\)를 기준으로 \(X\)와 \(Y\)는 더 이상의 상호 정보(조건부)가 없다.

### 2.4.5 Conditional Mutual Information
Expand Down Expand Up @@ -587,11 +649,11 @@ i.i.d.가 아닌 경우 사용하는 모델들:

### 2.5.1 What is Markovian?

i.i.d. ←────────────|────────────→ Practical
i.i.d. ←────────────|────────────→ Practical
**1st-order Markov**

**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**
"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다.
**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**
"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다.
즉, 현재 상태는 **직전 상태에만 의존**하고, 그 이전의 상태에는 의존하지 않는다는 것입니다.

---
Expand Down Expand Up @@ -629,7 +691,7 @@ $$
- $X_{102} = 50$
- $X_{102} = 52$

추가로 $X_{100} = 50$이라는 정보를 안다고 해도,
추가로 $X_{100} = 50$이라는 정보를 안다고 해도,
$X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지 않습니다.**

이것은 **1차 마르코프 체인의 특성**과 정확히 일치합니다:
Expand All @@ -651,9 +713,9 @@ $X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지

**요약 구조**

i.i.d. ←────────────|────────────→ 현실 데이터
          ↑
        1st-order Markov
i.i.d. ←────────────|────────────→ 현실 데이터
          ↑
        1st-order Markov
   (현재 상태는 직전 상태에만 의존)

### 2.5.2 1st Order Markov Process
Expand Down