jungin7612 · Croksuter · Aug 4, 2025 · Aug 4, 2025
diff --git a/_posts/2025-08-04-02.Information-Theory.md b/_posts/2025-08-04-02.Information-Theory.md
@@ -35,6 +35,68 @@ long contents .....
 
 ## 2.4 Jointly Distributed Random Variables
 
+두 개의 확률변수 $X \in \mathcal{X},\ Y \in  \mathcal{Y}$ 를 생각해보자. 이 확률 변수들의 결합 확률 분포(Joint Probability Distribution)의 확률 밀도 함수 (Probability mass function)는 다음과 같이 주어질 것이다.
+$$
+p_{X, Y}(x, y)= \mathrm{Pr} [X=x, Y=y]
+$$
+이 결합확률분포의 확률밀도함수 $p_{X,Y}(x,y)$는 $X, Y$가 동시에 특정한 값 $x, y$를 가질 확률을 말한다.
+
+이때 특정한 확률변수 하나에 대해서만 (여기서는, $X$) 그 확률을 고려해볼 수 있는데, 이를 주변 확률 분포(Marginal Probability Distribution)이라 한다. 이 값은 다음과 같이 목표가 되는 확률변수 $X=x$에서 나머지 확률변수에 대한 확률밀도함수값의 가중합으로 구해진다.
+$$
+p_{X} (x)= \sum_{y\in \mathcal{Y} }^{}{p_{X, Y} (x, y)}
+$$
+다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률  $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고
+$$
+p_{X} (x) = \sum_{y\in \mathcal{Y} }^{}{p_{X\mid Y} (x\mid y)p_{Y} (y)} = \mathbb{E}[p_{X\mid Y} (x\mid Y)]
+$$
+이는 $X$에 대한 주변 확률 분포(이하, Marginal)가 조건부 확률의 $Y-$평균으로 간주할 수 있음을 보여준다.
+
+---
+
+이제 결합확률분포를 이루는 두 확률변수 $X, Y$에 각각 임의의 함수$f: X\to \mathbb{R}, g: Y\to \mathbb{R}$ 을 씌웠을 때의 기댓값을 생각해보자.
+$$
+\begin{align}
+\mathbb{E}[f(X)+g(Y)] &= \sum_{x,y}^{}{[f(x)+g(y)]p_{X,Y}(x,y) }  \\
+&= \underbrace{ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) } }_{\text{term1} } + \underbrace{ \sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } }_{\text{term2} }
+\end{align}
+$$
+위 식에서 $\text{term1}$에서 $f$는 확률변수 $X$에만 의존하고, $\text{term2}$에서 $g$는 확률변수 $Y$에만 의존하므로 각 항을 확률변수 $Y, X$에 대한 marginal로 쓸 수 있다.
+$$
+\begin{align}
+\sum_{x,y}^{}{f(x)p_{X,Y}(x,y) }+\sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } &= \sum_{x}^{}{f(x)p_{X} (x)} + \sum_{y}^{}{g(y)} p_{Y} (y) \\
+&= \mathbb{E}[f(X)] +\mathbb{E}[g(Y)]
+\end{align}
+$$
+이로써 확률변수 $X, Y$가 결합확률분포를 이룰 때, 각 변수에 대한 함수의 기댓값은 항상, 심지어 $X, Y$가 서로 독립이 아닐 때에도, $\mathbb{E}[f(X) + g(Y)] = \mathbb{E}[f(X)]+\mathbb{E}[g(Y)]$의 선형성을 띰을 알 수 있다.
+
+---
+
+결합확률분포는 또한 다음의 특징을 가진다.
+$$
+p_{X,Y} (x,y)= p_{X} (x)\cdot p_{Y} (y) \iff X \perp\mkern-10mu\perp  Y
+$$
+$\impliedby$ 방향은 독립의 정의에 의해 자연스럽게 도출된다. 따라서 $\implies$ 방향을 증명하기 위해, $\phi_{1}: X\to \mathbb{R}, \phi_{2}Y\to\mathbb{R}$인 두 함수 $\phi_{1}, \phi_{2}$에 대해
+$$
+p_{X, Y} (x, y)= \phi_{1} (x) \cdot\ \phi_{2} (y)
+$$
+를 만족한다고 가정하자.
+
+$X, Y$ 각각의 marginal을 조건부 확률로 나타내면,
+$$
+\begin{align}
+p_{X} (x) = \sum_{y}^{}{p_{X, Y} (x, y)} = \sum_{y}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{1} (x)\cdot \sum_{y}^{}{\phi_{2} (y)} =  \phi_{1} (x) \cdot C_{Y}  \\
+p_{Y} (y) = \sum_{x}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{2} (y)\cdot \sum_{x}^{}{\phi_{1} (x)} =  \phi_{2} (y) \cdot C_{X}
+\end{align}
+$$
+이때, 전체 결합확률분포의 정규화 조건 $\sum_{}^{}{p_{X, Y}(x, y)}= 1$에 따라
+$$
+\sum_{X, Y}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{}\sum_{y}^{}{} \phi_{1}(x)\cdot \phi_{2} (y) = \left( \sum_{x}^{}{\phi_{1} (x)}  \right) \cdot  \left( \sum_{y}^{}{\phi_{2} (y)}  \right)  = C_{X} \cdot C_{Y} = 1
+$$
+$$
+\therefore p_{X, Y} (x, y)= \cfrac{1}{C_{X} \cdot C_{Y} }\cdot \phi_{1} (x)\cdot \phi_{2} (y) = \cfrac{\phi_{1}(x)}{C_{X} }\cdot \cfrac{\phi_{2} (y)}{C_{Y} } = p_{X} (x)\cdot p_{Y} (y)
+$$
+$X, Y$가 서로 독립임을 알 수 있다.
+
 ### 2.4.1 Joint Entropy
 
 > 결합 엔트로피(Joint Entropy)란?
@@ -195,27 +257,27 @@ H(X) \ge H(f(X))
 \]
 이다.
 
-**증명.**  
+**증명.**
 \[
 H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81}
 \]
 또한,
 \[
 H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83}
 \]
-따라서 \(H(X) \ge H(f(X))\)이다.  
+따라서 \(H(X) \ge H(f(X))\)이다.
 (\(f\)가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \(H(X)=H(f(X))\).)
 
 ---
 
 ## 정리 37 (Mutual information은 대칭적이다)
 
-**정리.**  
+**정리.**
 \[
 I(X;Y) = I(Y;X)
 \]
 
-**증명.**  
+**증명.**
 \[
 \begin{aligned}
 I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
@@ -229,12 +291,12 @@ I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\
 
 ## 정리 38 (Mutual information은 비음수이다)
 
-**정리.**  
+**정리.**
 \[
 I(X;Y) \ge 0
 \]
 
-**증명.**  
+**증명.**
 \[
 \begin{aligned}
 H(X) - H(X\mid Y)
@@ -245,8 +307,8 @@ H(X) - H(X\mid Y)
 &= D\!\left(p*{X,Y} \,\|\, p*X p_Y\right) \ge 0 \tag{92}
 \end{aligned}
 \]
-따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\).  
-여기서 \(p_X p_Y\)는 \(X\)와 \(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.  
+따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\).
+여기서 \(p_X p_Y\)는 \(X\)와 \(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다.
 또한 부등식 \(H(X) \ge H(X\mid Y)\)는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다.
 
 ---
@@ -258,7 +320,7 @@ H(X) - H(X\mid Y)
 I(X;Y) \ge I(f(X);Y)
 \]
 
-**증명.**  
+**증명.**
 \[
 \begin{aligned}
 I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
@@ -268,7 +330,7 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
 \end{aligned}
 \]
 
-**일반화.**  
+**일반화.**
 \(X - Y - Z\)가 마르코프 체인(또는 \(X\)와 \(Z\)가 \(Y\)를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다:
 
 1. \(X - Y - Z \iff X\)와 \(Z\)가 \(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\) \tag{97}
@@ -279,14 +341,14 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\
 
 ## 정리 40 (데이터 처리 부등식 III)
 
-**정리.**  
+**정리.**
 만약 \(X - Y - Z\)가 마르코프 체인을 이룬다면,
 \[
 I(X;Z) \le I(Y;Z)
 \]
 또는 대칭적으로 \(I(Z;X) \le I(Z;Y)\).
 
-**증명.**  
+**증명.**
 \[
 \begin{aligned}
 I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
@@ -303,7 +365,7 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
 
 ## 문제 29.
 
-\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.  
+\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라.
 **(b)** \(I(X, Y; Z) \ge I(X; Z)\).
 
 ## 풀이
@@ -314,12 +376,12 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\
 \[
 I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X).
 \]
-이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을  
+이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을
 먼저 \(X\)가 주는 정보량과, \(X\)를 알고 난 뒤 \(Y\)가 더 주는 추가 정보량으로 분해한 식이다.
 
 ### 2. 조건부 상호 정보의 비음성
 
-항상  
+항상
 \[
 I(Y; Z \mid X) \ge 0
 \]
@@ -334,12 +396,12 @@ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z).
 
 ### 4. 등호 성립 조건
 
-등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면  
+등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면
 \[
 I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X
 \]
-이어야 한다.  
-즉 “\(X\)를 조건으로 두었을 때 \(Y\)와 \(Z\)가 독립”이어야 한다.  
+이어야 한다.
+즉 “\(X\)를 조건으로 두었을 때 \(Y\)와 \(Z\)가 독립”이어야 한다.
 이 역시 \(Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다.
 
 ---
@@ -373,15 +435,15 @@ H(X \mid g(Y)) = H(X \mid Y)
 \[
 H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0
 \]
-이다.  
+이다.
 즉, “\(g(Y)\)를 조건으로 \(X\)와 \(Y\)가 독립”이어야 한다.
 
 ### 3. 마르코프 사슬 해석
 
 \[
 I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y).
 \]
-이는 바로  
+이는 바로
 \[
 X \longrightarrow g(Y) \longrightarrow Y
 \]
@@ -390,11 +452,11 @@ X \longrightarrow g(Y) \longrightarrow Y
 ### 4. 특수 사례
 
 - \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립.
-- 또 \(X\)와 \(Y\)가 본래 독립이라도  
+- 또 \(X\)와 \(Y\)가 본래 독립이라도
   \[
   H(X \mid g(Y)) = H(X) = H(X \mid Y)
   \]
-  이므로 등호가 된다.  
+  이므로 등호가 된다.
   이 두 경우는 포함되지만, **유일한 경우는 아닙니다.**
 
 ---
@@ -403,7 +465,7 @@ X \longrightarrow g(Y) \longrightarrow Y
 
 ## 문제 42.
 
-다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.  
+다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라.
 **(b)** \(I(g(X); Y)\) vs. \(I(X; Y)\).
 
 ## 풀이
@@ -433,11 +495,11 @@ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\
 
 ### 4. 등호 성립 조건
 
-등호가 되려면  
+등호가 되려면
 \[
 H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X).
 \]
-즉 “\(g(X)\)를 조건으로 \(X\)와 \(Y\)가 독립”일 때 등호가 된다.  
+즉 “\(g(X)\)를 조건으로 \(X\)와 \(Y\)가 독립”일 때 등호가 된다.
 다시 말해 \(g(X)\)를 기준으로 \(X\)와 \(Y\)는 더 이상의 상호 정보(조건부)가 없다.
 
 ### 2.4.5 Conditional Mutual Information
@@ -587,11 +649,11 @@ i.i.d.가 아닌 경우 사용하는 모델들:
 
 ### 2.5.1 What is Markovian?
 
-i.i.d. ←────────────|────────────→ Practical  
+i.i.d. ←────────────|────────────→ Practical
 **1st-order Markov**
 
-**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**  
-"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다.  
+**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.**
+"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다.
 즉, 현재 상태는 **직전 상태에만 의존**하고, 그 이전의 상태에는 의존하지 않는다는 것입니다.
 
 ---
@@ -629,7 +691,7 @@ $$
 - $X_{102} = 50$
 - $X_{102} = 52$
 
-추가로 $X_{100} = 50$이라는 정보를 안다고 해도,  
+추가로 $X_{100} = 50$이라는 정보를 안다고 해도,
 $X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지 않습니다.**
 
 이것은 **1차 마르코프 체인의 특성**과 정확히 일치합니다:
@@ -651,9 +713,9 @@ $X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지
 
 **요약 구조**
 
-i.i.d. ←────────────|────────────→ 현실 데이터  
-          ↑  
-        1st-order Markov  
+i.i.d. ←────────────|────────────→ 현실 데이터
+          ↑
+        1st-order Markov
    (현재 상태는 직전 상태에만 의존)
 
 ### 2.5.2 1st Order Markov Process