# Teoría de la información

La teoría de la información fue desarrollada originalmente dentro del contexto del cifrado de comunicaciones.

Desde el punto de vista de la probabilidad, la noción de información está relacionada a la ocurrencia de los eventos de un fenómeno. En este contexto, un evento da información si:

* Es desconocido para nosotros.

* A pesar de ser poco probables, terminan ocurriendo.

Por ejemplo, si para un día dado, el valor de un índice accionario varía dentro del intervalo $(-1.0\%, 1.0\%)$, (algo observado de manera común) entonces la información de este evento es poco relevante. En cambio, si la variación se sitúa dentro del intervalo $(-5\%, -2\%)$ (un suceso raramente observado), es claro que algo está ocurriendo en el mercado y por lo tanto, la ocurrencia de este evento, nos brinda mayor información.

## Caso discreto

**Definición (Información de un punto)**

Si $X$ es una variable aleatoria con función de densidad $p$, la información asociada a $x \in \mathcal{X}$, se define como:
$$
I(x) = -\log  p(x) 
$$

Dentro del contexto de teoría de la información, generalmente, el logaritmo considerado es $log_{2}$, sin embargo, desde el punto de vista de *machine learning*, la base considerada es el logaritmo natural.

---------

Como consecuencia de la definición de información, si $p(x, y)$ es la función de densidad conjunta de dos variables aleatorias independientes, $X$ y $Y$, entonces la información contenida en dos eventos independientes, es la suma de la información de cada evento
$$
- log p(x,y) = -log p(x) p(y) = I(x) + I(y)
$$

------------


Dadas dos variables $X, Y$, la cantidad de información provista por la ocurrencia del evento $Y=y$, acerca del evento $X=x$, se mide a través de la **información mútua** la cual se define como

**Definición(Información mútua)**

$$
I(x,y) = log \dfrac{p(x|y)}{p(x)} = I(y,x).
$$

De acuerdo a la definición de información mútua, si $X$ y $Y$ son independientes, entonces $I(x,y) = 0$, es decir, la ocurrencia de $y$ no brinda información sobre la ocurrencia de $x$. Por otro lado, si $p(x|y)=1$, entonces $I(x,y) = I(x)$.

--------

**Definición(Información condicional)**
$$
I(x|y) = -log p(x|y).
$$

de acuerdo a esta definición tenemos que 
$$
I(x,y) = I(x) - I(x|y).
$$

Por lo tanto, la información mútua puede interpretarse como la reducción en la incertidumbre de $x$ por haber observado el valor $y$.

------

**Definición(Entropía, caso discreto)**

La entropía de una variable $X$ se define como
$$
H(X) = E\left[- \log p(x) \right] = - \sum_{x \in \mathcal{X}}p(x)\log p(x)
$$
En el caso de que $p(x)=0$, se define $p(x)\log p(x) = 0$.

La entropía puede interpretarse como la cantidad de información promedio que transmite una variable.

En el contexto de teoría de la información, la entropía se considera como una medida de aleatoriedad de una fuente que emite símbolos al azar.

**Teorema (Entropía máxima, caso discreto)**

En el caso discreto, la distribución uniforme logra la máxima entropía. En esto caso, si $M$ es el número de posibles valores
$$
H[X] = \ln M.
$$

**Ejercicio**

Programe una función que calcule la entropía de una variable discreta con soporte finito.

**NOTA**: No puede utilizar *loops*

**Ejercicio**

Utilice el ejercicio anterior para comparar la entropía de una variable $Bin(N=5, p = \tfrac{1}{6})$ y la entropía de una variable uniforme en $\{0,1,2,3,4,5\}$.


In [1]:
import numpy as np
from scipy.stats import binom

def entropia_discreta(p_x):
    '''
    Función para calcular la entropía de una variable
    discreta con soporte finito
    
    ENTRADA
    p_x: np.array con las probabilidades de cada valor
    
    SALIDA
    float que representa la entropía
    '''
    
    return - np.sum(p_x * np.log(p_x))


In [2]:
#Una binomial (5, 1/6) toma valores en [0, 1, ... ,5]
np.random.seed(54321)
n = 5
p = 1.0 / 6
x = np.array(range(n + 1))
p_x_binom = binom.pmf(x, n = 5, p = 1.0/6)
entropia_binom = entropia_discreta(p_x_binom)

p_x_unif = np.repeat(1.0 /(n + 1) , repeats = n + 1)
entropia_unif= entropia_discreta(p_x_unif)

print("Binomial =", entropia_binom)
print("Uniforme =", entropia_unif)
print("Ln de n + 1 = ", np.log(n + 1))

Binomial = 1.1566631606305866
Uniforme = 1.7917594692280547
Ln de n + 1 =  1.791759469228055


**Analice el siguiente ejemplo**

In [3]:
from ipywidgets import interact, fixed
import ipywidgets as widgets
from scipy.stats import binom

def compara_entropia_binom(n1, n2, p = 0.5):
    entropia1 = binom.entropy(n = n1, p = p)
    entropia2 = binom.entropy(n = n2, p = p)
    
    #Ojo con np.round
    print("Entropia Binom 1 =", np.round(entropia1,4))
    print("Entropia Binom 2 =", np.round(entropia2,4))
    

In [4]:
n1_slider = widgets.IntSlider(min = 0, max = 20, step = 1, continuous_update = False)
n2_slider = widgets.IntSlider(min = 0, max = 20, step = 1, continuous_update = False)
interact(compara_entropia_binom, n1 = n1_slider, n2 = n2_slider, p = fixed(0.5))

interactive(children=(IntSlider(value=0, continuous_update=False, description='n1', max=20), IntSlider(value=0…

<function __main__.compara_entropia_binom(n1, n2, p=0.5)>

## Caso continuo

**Definición(Entropía, caso continuo)**

Si $X$ es una variable aleatoria continua, la entropía (diferencial) de $X$ se define como:

$$
H[X] = - \int p(x) \ln p(x)dx.
$$

**Teorema(Entropía máxima, caso continuo)**

En el caso continuo, la distribución gaussiana maximiza el valor de la entropía. En este caso, si $X \sim N(\mu, \sigma^2)$, entonces

$$
H[X] = \dfrac{1}{2}[1 + \ln(2 \pi \sigma^2)]
$$

**Observación**

Como se puede observar a través de la expresión de la entropía de una variable gaussiana, en el caso continuo, la entropía puede tomar valores negativos.

**Definición(Entropía condicional, caso continuo)**

Suponga que se tiene una distribución conjunta $p(x,y)$. Si se sabe el valor de $Y$, entonces la información adicional necesitada para especificar el valor de $X$ está dad por $-\ln p(y|x)$. La entropía condicional de $x$ dado $y$ se define como:

$$
H[X|Y] = - \int \int p(x,y) \ln p(x|y)dxdy.
$$

Si $H[X,Y]$ denota la entropía diferencial de $p(x,y)$, entonces

$$
H[X,Y] = H[X|Y] + H[Y]
$$

**Ejercicio**

Utilizando simulación, aproxime la entropía de una variable normal estándar y grafique el resultado de la aproximación utilizando $N$ simulaciones, $N \in \{10, 20, 30, ..., 1,000\}$.

Compare sus aproximaciones graficando el valor verdadero utilizando una recta horizontal de color rojo.


In [None]:
import numpy as np
import matplotlib.pyplot as plt
from scipy.stats import norm
np.random.seed(54321)

#Eje x está formado por los valores de N
N = list(range(10, 1000 + 10, 10))

#Para almacenar las aproximaciones
ent_aprox = []

for i in N:
    
    #Simula i observaciones
    puntos = norm.rvs(size = i)
    
    #Aproxima entropía
    p_x = norm.pdf(puntos)
    ent_aprox.append(-np.mean(np.log(p_x)))


#Grafica
plt.plot(N, ent_aprox, '-')
#Línea horizontal
plt.hlines(y = norm.entropy(), xmin = N[0], xmax = N[-1],
          color = 'red')

plt.show()


### Divergencia Kullback-Leibler

Imagine que desea estimar una distribución $p(x)$ (desconocida) utilizando como aproximación otra distribución $q(x)$. Para determinar que tan bien es $q$ relativa a $p$ es posible utilizar el cociente

$$
LR = \dfrac{p(x)}{q(x)}.
$$

este cociente nos dice que tan más probable es que el punto $x$ ocurra bajo la distribución $p$ relativo a la distribución $q$. Si $LR>1$, entonces el punto $x$  tiene mayor probabilidad bajo $p$ que bajo $q$, mientras que si $LR < 1$ tenemos el caso contrario.

Para una muestra de tamaño $n$, que proviene de $p$, se tiene que 

$$
LR = \Pi_{i=1}^{n} \dfrac{p(x_i)} {q(x_i)}.
$$


o equivalente a

$$
\ln LR = \sum_{i=1}^{n} \ln \left[ \dfrac{p(x_i)}{q(x_i)} \right]
$$

por lo tanto, si $q$ es una buena aproximación de $p$, se tiene que $\ln LR \approx 0$.


No sólo se busca que $LR = 0$ para una muestra de puntos de $p$, si no que buscamos que la igualdad se cumpla para todo $x$ en el soporte de $p$, promediando la ecuación anterior y haciendo que $n \rightarrow \infty$, se tiene la siguiente definición.


**Definición(Divergencia Kullback-Leibler)**

$$
KL(p||q) = E_{x \sim p}\left[\ln \left( \dfrac{p(x)}{q(x)} \right) \right]
$$

$$
KL(p||q) = -\int p(x) \ln \left( \dfrac{q(x)}{p(x)} \right)dx
$$

$$
KL(p||q) = \int p(x) \ln \left( \dfrac{p(x)}{q(x)} \right)dx
$$


En otras palabras, la divergencia de Kullback-Leibler nos dice que tan similar es $q$ cuando se evalua sobre muestras que provienen de $p$.

**NOTA:**

Observe que $KL(p||q) \neq KL(q||p)$ y por lo tanto, $KL$ no puede considerarse como una métrica.

**Teorema(Desigualdad de Jensen)**

Si $f$ es una función convexa, entonces se tiene que 

$$
f\left( E[X] \right) \leq E \left[f(X) \right].
$$

**Ejercicio**

Utilizando la desigualdad de Jensen, demuestre que $KL(p||q) \geq 0$.


**Ejercicio**

Utilizando simulación, calcule la divergencia KL para

* $p = N(\mu = 1, \sigma = 2)$

* $q = N(\mu = 2, \sigma = 2)$

In [None]:
import numpy as np
from scipy.stats import norm
import matplotlib.pyplot as plt
np.random.seed(54321)

#Partición del eje x
N = range(10, 1010, 10)

#para almacenar los valores estimados para cada tamaño de muestra
estimados = []

mu_1 = 1
mu_2 = 2
sig = 2
valor_verdadero = ((mu_1 - mu_2)**2) / (2*sig**2)

for n in N:
    
    #Muestra que proviene de la distribución p
    x = norm.rvs(loc = 1, scale = 2, size = n)
    
    #Calcula p(x), q(x)
    p = norm.pdf(x = x, loc = mu_1, scale = sig)
    q = norm.pdf(x = x, loc = mu_2, scale = sig)
    
    estimados.append(np.mean(np.log(p/q)))

#Crea la gráfica
plt.plot(N, estimados, '-', color = 'blue')
plt.hlines(y = valor_verdadero, xmin = N[0], xmax = N[-1], color = "red")
plt.show()

**KL en la práctica**

En la práctica, intentamos aproximar a la distribución $p$, utilizando una distribución $q$ parametrizada por un conjunto de parámetros $\theta$. Supoga que se tienen un conjunto de observaciones $x_1, \ldots, x_n$ que provienen de $p$, entonces

$$
KL(p||q) \approx \sum_{i=1}^{n} \left[ -\ln q(x_i|\theta) + \ln p(x_n) \right]
$$

ya que el término $\ln p(x_n)$ no depende de $\theta$, minimizar la divergencia de Kullback-Liebler es equivalente a maximizar la función de verosimilitud $\ln q(x_i|\theta)$.