# Temas

1. Preliminares
2. información y entropía

## Operador $\Sigma$

$\Sigma$ - Suma de $i$ elementos hasta $n$, donde $i$ el índice de sumación

$$
\sum_{i=m}^n x_i=x_1 + x_2 + \dots + x_n
$$

Donde $m$ es el límite inferior de la suma, y $n$ el límite superior de la suma. 
\pause

Ejemplo: sumar los valores de $x$ del 1 al 4

\begin{align*}
  x &= \{{\color{red}1_{[1]}}, {\color{blue}8_{[2]}}, {\color{orange}3_{[3]}}, 5_{[4]} \}\\
\sum_{i=2}^{4} &= {\color{blue}8} + {\color{orange}3} + 5 = 10
\end{align*}

En corchete coloco *el orden* (el índice) del elemento

## Probabilidad 

Si todos los resultados son igualmente posibles, la probabilidad de $A$

$$
\Pr_{\textrm{naïve}}(A) = \frac{\textnormal{veces que sale } A}{\textnormal{total de resultados (i.e., } A \cup A^c)} = \frac{|A|}{|S|}
$$

Donde por $|\cdot|$ entendemos la *cardinalidad*, o el número de elementos. 

\pause

Existen diferentes interpretaciones de la probabilidad. La más usada, la frecuentista, la define formalmente como el valor límite de $\Pr(A)$ cuando $|S|$ tiende a infinito. \pause

Por ejemplo, la probabilidad de obtener caras al lanzar una moneda es el límite de 

$$\Pr(caras)=\frac{\#caras}{N}$$

cuando el número de lanzamientos $N\rightarrow \infty$.

Algunas propiedades de $\Pr$ son:

1. $0\leq \Pr(A) \leq 1$ y $\sum \Pr(A) = 1$
2. Si $\emptyset$ es un conjunto nulo, entonces $\Pr(\emptyset)=0$.
2. Si $A \subset B$, entonces $\Pr(A)\leq \Pr(B)$.
3. Si $A^c$ denota el complemento de $A$, entonces $\Pr(A^c)=1-\Pr(A)$.
4. Si $A \cap B = \emptyset$ denota la intersección nula de $A$ y $B$, entonces $\Pr(A \cup B)=\Pr(A) + \Pr(B)$, $\Pr$ es aditiva para eventos disjuntos.
5. De otra manera, para eventos arbitrarios $A, B$, $\Pr(A \cup B)=\Pr(A) + \Pr(B)-\Pr(A\cap B)$. 
6. Dos eventos $A$ y $B$ son independientes si $\Pr(A \cup B)=\Pr(A)\Pr(B)$. 

## Operador esperanza $\text{E}[X]$

Valor esperado - (a.k.a. *media*, *esperanza*, o *promedio*) es una suma ponderada de los posibles resultados de nuestra variable aleatoria. Matemáticamente, si $x_1, x_2, x_3, \dots$ son todas distintos posibles valores que $X$ puede tomar, el valor esperado de $X$ es


\begin{align*}
  \text{E}[X] & = \sum\limits_i x_i p(X=x_i), \text{ si $x$ es discreta} \\
  \text{E}[X] & = \int_{\mathbb R} xf(x)dx, \text{ si $x$ es continua}  
\end{align*}

La multiplicación $x_ip(X=x_i)$ es el valor de $x_i$ por la probabilidad de que $x_i$ ocurra.

Por brevedad, podemos simplemente escribir $p(x_i)$ para el caso discreto. Para el caso continuo, $f(x)$ denota la función de densidad de probabilidad.

## Propiedades de los logaritmos

Los logaritmos solo están definidos para los números reales

$$
\log_b(x) = a, \forall x \in\mathbb{R} > 0
$$

Que se lee ``para todos los $x$ del conjunto $\mathbb{R}$ mayores que 0".

Un logaritmo se puede definir como el valor al que hay que elevar la base $b$ para obtener $x$.

\pause

Por ejemplo, $\log_2(16)=4$ ('4 es el logaritmo base 2 de 16'). Por lo tanto, para obtener 16 de nuevo elevamos 2 a la cuarta, $2^4=16$.

**Propiedad 2** $\log_b ( \frac{x}{y}) = \log_b(x) - \log_b(y)$

Esta propiedad es simplemente la operación inversa de la \textbf{Propiedad 1}. Esta propiedad permite expresar las razones (o proporciones) en términos de diferencias. 

Si, por ejemplo, $x>y$, el rango de valores que puede tomar $x/y$ va desde 1 a infinito. Por otro lado, si $x\leq y$, el rango de valores está entre 0 y 1. Las razones no son funciones simétricas. 

Los logaritmos sí. Si $x>y$, $\log_b(x/y) > 1$, si $x<y$, $\log_b(x/y)<0$. Si $x=y$, $\log_b(x/y)=0$. El último resultado implica que $\log_b(1)=0$

**Propiedad 4** Si $x < y$, $\log_b(x) < \log_b(y)$.

En palabras, esto significa que el $\log_b(x)$ es una función monotónica y estrictamente creciente de $x$: si $x$ crece, $\log_b(x)$ también crece.

# Información y entropía

Usualmente, por *información* nos referimos coloquialmente a la cantidad de datos que son guardados, enviados, recibidos o manipulados por algún medio.

. . .

Otra forma de concebir la información es como reducción de incertidumbre.

. . .

Por ejemplo, antes de leer un libro su contenido es desconocido. En ese sentido, nuestra incertidumbre es alta. La primera vez que lo leemos, esa incertidumbre con respecto al contenido disminuye y, al mismo tiempo, podríamos decir que ganamos información.

In [None]:
#| fig.width = 5

import numpy as np
import matplotlib.pyplot as plt 
def Ipx(x):
  return -np.log(x)

x = np.arange(0, 1, 0.01)
plt.plot(x, Ipx(x))