From 6d05cd576aed8a00a8bd0939ff2b778faf3f91e2 Mon Sep 17 00:00:00 2001 From: =?UTF-8?q?=EC=B5=9C=ED=98=B8=EC=98=81?= Date: Mon, 4 Aug 2025 17:00:19 +0900 Subject: [PATCH] update feature/4.0 contents --- _posts/2025-08-04-02.Information-Theory.md | 126 +++++++++++++++------ 1 file changed, 94 insertions(+), 32 deletions(-) diff --git a/_posts/2025-08-04-02.Information-Theory.md b/_posts/2025-08-04-02.Information-Theory.md index fb1be7f3e0..c77dedbfe9 100644 --- a/_posts/2025-08-04-02.Information-Theory.md +++ b/_posts/2025-08-04-02.Information-Theory.md @@ -35,6 +35,68 @@ long contents ..... ## 2.4 Jointly Distributed Random Variables +두 개의 확률변수 $X \in \mathcal{X},\ Y \in \mathcal{Y}$ 를 생각해보자. 이 확률 변수들의 결합 확률 분포(Joint Probability Distribution)의 확률 밀도 함수 (Probability mass function)는 다음과 같이 주어질 것이다. +$$ +p_{X, Y}(x, y)= \mathrm{Pr} [X=x, Y=y] +$$ +이 결합확률분포의 확률밀도함수 $p_{X,Y}(x,y)$는 $X, Y$가 동시에 특정한 값 $x, y$를 가질 확률을 말한다. + +이때 특정한 확률변수 하나에 대해서만 (여기서는, $X$) 그 확률을 고려해볼 수 있는데, 이를 주변 확률 분포(Marginal Probability Distribution)이라 한다. 이 값은 다음과 같이 목표가 되는 확률변수 $X=x$에서 나머지 확률변수에 대한 확률밀도함수값의 가중합으로 구해진다. +$$ +p_{X} (x)= \sum_{y\in \mathcal{Y} }^{}{p_{X, Y} (x, y)} +$$ +다르게 바라보면, 다음과 같이 가능한 $y \in \mathcal{Y}$ 에 대한 조건부 확률 $p_{X\mid Y}(x\mid Y)$의 기댓값으로도 생각할 수 있고 +$$ +p_{X} (x) = \sum_{y\in \mathcal{Y} }^{}{p_{X\mid Y} (x\mid y)p_{Y} (y)} = \mathbb{E}[p_{X\mid Y} (x\mid Y)] +$$ +이는 $X$에 대한 주변 확률 분포(이하, Marginal)가 조건부 확률의 $Y-$평균으로 간주할 수 있음을 보여준다. + +--- + +이제 결합확률분포를 이루는 두 확률변수 $X, Y$에 각각 임의의 함수$f: X\to \mathbb{R}, g: Y\to \mathbb{R}$ 을 씌웠을 때의 기댓값을 생각해보자. +$$ +\begin{align} +\mathbb{E}[f(X)+g(Y)] &= \sum_{x,y}^{}{[f(x)+g(y)]p_{X,Y}(x,y) } \\ +&= \underbrace{ \sum_{x,y}^{}{f(x)p_{X,Y}(x,y) } }_{\text{term1} } + \underbrace{ \sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } }_{\text{term2} } +\end{align} +$$ +위 식에서 $\text{term1}$에서 $f$는 확률변수 $X$에만 의존하고, $\text{term2}$에서 $g$는 확률변수 $Y$에만 의존하므로 각 항을 확률변수 $Y, X$에 대한 marginal로 쓸 수 있다. +$$ +\begin{align} +\sum_{x,y}^{}{f(x)p_{X,Y}(x,y) }+\sum_{x,y}^{}{g(y)p_{X,Y}(x,y) } &= \sum_{x}^{}{f(x)p_{X} (x)} + \sum_{y}^{}{g(y)} p_{Y} (y) \\ +&= \mathbb{E}[f(X)] +\mathbb{E}[g(Y)] +\end{align} +$$ +이로써 확률변수 $X, Y$가 결합확률분포를 이룰 때, 각 변수에 대한 함수의 기댓값은 항상, 심지어 $X, Y$가 서로 독립이 아닐 때에도, $\mathbb{E}[f(X) + g(Y)] = \mathbb{E}[f(X)]+\mathbb{E}[g(Y)]$의 선형성을 띰을 알 수 있다. + +--- + +결합확률분포는 또한 다음의 특징을 가진다. +$$ +p_{X,Y} (x,y)= p_{X} (x)\cdot p_{Y} (y) \iff X \perp\mkern-10mu\perp Y +$$ +$\impliedby$ 방향은 독립의 정의에 의해 자연스럽게 도출된다. 따라서 $\implies$ 방향을 증명하기 위해, $\phi_{1}: X\to \mathbb{R}, \phi_{2}Y\to\mathbb{R}$인 두 함수 $\phi_{1}, \phi_{2}$에 대해 +$$ +p_{X, Y} (x, y)= \phi_{1} (x) \cdot\ \phi_{2} (y) +$$ +를 만족한다고 가정하자. + +$X, Y$ 각각의 marginal을 조건부 확률로 나타내면, +$$ +\begin{align} +p_{X} (x) = \sum_{y}^{}{p_{X, Y} (x, y)} = \sum_{y}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{1} (x)\cdot \sum_{y}^{}{\phi_{2} (y)} = \phi_{1} (x) \cdot C_{Y} \\ +p_{Y} (y) = \sum_{x}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{\phi_{1} (x)\cdot \phi_{2} (y)} = \phi_{2} (y)\cdot \sum_{x}^{}{\phi_{1} (x)} = \phi_{2} (y) \cdot C_{X} +\end{align} +$$ +이때, 전체 결합확률분포의 정규화 조건 $\sum_{}^{}{p_{X, Y}(x, y)}= 1$에 따라 +$$ +\sum_{X, Y}^{}{p_{X, Y} (x, y)} = \sum_{x}^{}{}\sum_{y}^{}{} \phi_{1}(x)\cdot \phi_{2} (y) = \left( \sum_{x}^{}{\phi_{1} (x)} \right) \cdot \left( \sum_{y}^{}{\phi_{2} (y)} \right) = C_{X} \cdot C_{Y} = 1 +$$ +$$ +\therefore p_{X, Y} (x, y)= \cfrac{1}{C_{X} \cdot C_{Y} }\cdot \phi_{1} (x)\cdot \phi_{2} (y) = \cfrac{\phi_{1}(x)}{C_{X} }\cdot \cfrac{\phi_{2} (y)}{C_{Y} } = p_{X} (x)\cdot p_{Y} (y) +$$ +$X, Y$가 서로 독립임을 알 수 있다. + ### 2.4.1 Joint Entropy > 결합 엔트로피(Joint Entropy)란? @@ -195,7 +257,7 @@ H(X) \ge H(f(X)) \] 이다. -**증명.** +**증명.** \[ H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81} \] @@ -203,19 +265,19 @@ H(X, f(X)) = H(X) + H(f(X)\mid X) = H(X) \tag{80--81} \[ H(X, f(X)) = H(f(X)) + H(X\mid f(X)) \ge H(f(X)) \tag{82--83} \] -따라서 \(H(X) \ge H(f(X))\)이다. +따라서 \(H(X) \ge H(f(X))\)이다. (\(f\)가 일대일 대응이고 전사이면 역함수가 존재하므로 이 경우에는 \(H(X)=H(f(X))\).) --- ## 정리 37 (Mutual information은 대칭적이다) -**정리.** +**정리.** \[ I(X;Y) = I(Y;X) \] -**증명.** +**증명.** \[ \begin{aligned} I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\ @@ -229,12 +291,12 @@ I(X;Y) &= H(X) - H(X\mid Y) \tag{84} \\ ## 정리 38 (Mutual information은 비음수이다) -**정리.** +**정리.** \[ I(X;Y) \ge 0 \] -**증명.** +**증명.** \[ \begin{aligned} H(X) - H(X\mid Y) @@ -245,8 +307,8 @@ H(X) - H(X\mid Y) &= D\!\left(p*{X,Y} \,\|\, p*X p_Y\right) \ge 0 \tag{92} \end{aligned} \] -따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\). -여기서 \(p_X p_Y\)는 \(X\)와 \(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다. +따라서 \(I(X;Y) = D(p*{X,Y}\,\|\,p_X p_Y) \ge 0\). +여기서 \(p_X p_Y\)는 \(X\)와 \(Y\)가 각각의 주변분포 \(p_X, p_Y\)를 가지지만 서로 독립인 \((X,Y)\)에 대한 분포이다. 또한 부등식 \(H(X) \ge H(X\mid Y)\)는 “조건부를 취하면 (불확실성이) 줄어들거나 유지된다”는 해석을 가질 수 있다. --- @@ -258,7 +320,7 @@ H(X) - H(X\mid Y) I(X;Y) \ge I(f(X);Y) \] -**증명.** +**증명.** \[ \begin{aligned} I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\ @@ -268,7 +330,7 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\ \end{aligned} \] -**일반화.** +**일반화.** \(X - Y - Z\)가 마르코프 체인(또는 \(X\)와 \(Z\)가 \(Y\)를 조건으로 주었을 때 조건부 독립)일 때, 다음이 서로 동치이다: 1. \(X - Y - Z \iff X\)와 \(Z\)가 \(Y\)를 주었을 때 독립이다. \((X \perp Z \mid Y)\) \tag{97} @@ -279,14 +341,14 @@ I(X;Y) &= H(Y) - H(Y\mid X) \tag{93} \\ ## 정리 40 (데이터 처리 부등식 III) -**정리.** +**정리.** 만약 \(X - Y - Z\)가 마르코프 체인을 이룬다면, \[ I(X;Z) \le I(Y;Z) \] 또는 대칭적으로 \(I(Z;X) \le I(Z;Y)\). -**증명.** +**증명.** \[ \begin{aligned} I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\ @@ -303,7 +365,7 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\ ## 문제 29. -\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라. +\(X, Y, Z\)가 결합 확률 분포를 가지는 임의의 확률 변수일 때, 다음 부등식을 증명하고 등호 성립 조건을 찾아라. **(b)** \(I(X, Y; Z) \ge I(X; Z)\). ## 풀이 @@ -314,12 +376,12 @@ I(Y;Z) &= H(Z) - H(Z\mid Y) \tag{100} \\ \[ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X). \] -이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을 +이는 “\(X, Y\)가 합쳐질 때 \(Z\)와 주고받는 정보량”을 먼저 \(X\)가 주는 정보량과, \(X\)를 알고 난 뒤 \(Y\)가 더 주는 추가 정보량으로 분해한 식이다. ### 2. 조건부 상호 정보의 비음성 -항상 +항상 \[ I(Y; Z \mid X) \ge 0 \] @@ -334,12 +396,12 @@ I(X, Y; Z) = I(X; Z) + I(Y; Z \mid X) \ge I(X; Z). ### 4. 등호 성립 조건 -등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면 +등호 \(I(X, Y; Z) = I(X; Z)\)가 되려면 \[ I(Y; Z \mid X) = 0 \iff Y \perp Z \mid X \] -이어야 한다. -즉 “\(X\)를 조건으로 두었을 때 \(Y\)와 \(Z\)가 독립”이어야 한다. +이어야 한다. +즉 “\(X\)를 조건으로 두었을 때 \(Y\)와 \(Z\)가 독립”이어야 한다. 이 역시 \(Y \to X \to Z\) 형태의 마르코프 사슬과 동치이다. --- @@ -373,7 +435,7 @@ H(X \mid g(Y)) = H(X \mid Y) \[ H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0 \] -이다. +이다. 즉, “\(g(Y)\)를 조건으로 \(X\)와 \(Y\)가 독립”이어야 한다. ### 3. 마르코프 사슬 해석 @@ -381,7 +443,7 @@ H(X \mid Y) - H(X \mid g(Y)) = I(X;Y \mid g(Y)) = 0 \[ I(X;Y \mid g(Y)) = 0 \iff X \perp Y \mid g(Y). \] -이는 바로 +이는 바로 \[ X \longrightarrow g(Y) \longrightarrow Y \] @@ -390,11 +452,11 @@ X \longrightarrow g(Y) \longrightarrow Y ### 4. 특수 사례 - \(g\)가 일대일 대응(가역)이면 당연히 \(g(Y) \leftrightarrow Y\) 양방향 복원이 가능하므로 등호 성립. -- 또 \(X\)와 \(Y\)가 본래 독립이라도 +- 또 \(X\)와 \(Y\)가 본래 독립이라도 \[ H(X \mid g(Y)) = H(X) = H(X \mid Y) \] - 이므로 등호가 된다. + 이므로 등호가 된다. 이 두 경우는 포함되지만, **유일한 경우는 아닙니다.** --- @@ -403,7 +465,7 @@ X \longrightarrow g(Y) \longrightarrow Y ## 문제 42. -다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라. +다음 부등식들 중 일반적으로 \( \ge, =, \le \) 중 어느 관계가 성립하는지 각각 표시하라. **(b)** \(I(g(X); Y)\) vs. \(I(X; Y)\). ## 풀이 @@ -433,11 +495,11 @@ I(g(X); Y) &= H(Y) - H(Y \mid g(X)) \\ ### 4. 등호 성립 조건 -등호가 되려면 +등호가 되려면 \[ H(Y \mid g(X)) = H(Y \mid X) \iff I(Y; X \mid g(X)) = 0 \iff Y \perp X \mid g(X). \] -즉 “\(g(X)\)를 조건으로 \(X\)와 \(Y\)가 독립”일 때 등호가 된다. +즉 “\(g(X)\)를 조건으로 \(X\)와 \(Y\)가 독립”일 때 등호가 된다. 다시 말해 \(g(X)\)를 기준으로 \(X\)와 \(Y\)는 더 이상의 상호 정보(조건부)가 없다. ### 2.4.5 Conditional Mutual Information @@ -587,11 +649,11 @@ i.i.d.가 아닌 경우 사용하는 모델들: ### 2.5.1 What is Markovian? -i.i.d. ←────────────|────────────→ Practical +i.i.d. ←────────────|────────────→ Practical **1st-order Markov** -**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.** -"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다. +**1차 마르코프 체인(first-order Markov chain)의 개념은, i.i.d. 가정과 실제 현실에서의 데이터 구조 사이를 연결해주는 중간 다리 역할을 합니다.** +"마르코프(Markov)"라는 말은 **1차 상관성(first-order correlation)**이 있다는 의미입니다. 즉, 현재 상태는 **직전 상태에만 의존**하고, 그 이전의 상태에는 의존하지 않는다는 것입니다. --- @@ -629,7 +691,7 @@ $$ - $X_{102} = 50$ - $X_{102} = 52$ -추가로 $X_{100} = 50$이라는 정보를 안다고 해도, +추가로 $X_{100} = 50$이라는 정보를 안다고 해도, $X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지 않습니다.** 이것은 **1차 마르코프 체인의 특성**과 정확히 일치합니다: @@ -651,9 +713,9 @@ $X_{102}$가 어떻게 될지를 예측하는 데 **아무런 도움이 되지 **요약 구조** -i.i.d. ←────────────|────────────→ 현실 데이터 -          ↑ -        1st-order Markov +i.i.d. ←────────────|────────────→ 현실 데이터 +          ↑ +        1st-order Markov    (현재 상태는 직전 상태에만 의존) ### 2.5.2 1st Order Markov Process