<a href="https://colab.research.google.com/github/institutohumai/cursos-python/blob/master/MatematicasParaIA/8_Aprendizaje_Estadistico/Desigualdad_Hoeffding.ipynb"><img src='https://colab.research.google.com/assets/colab-badge.svg'/></a>

# Desigualdades importantes (y útiles) en probabilidad

- Markov
- Chebyshev
- Hoeffding

# Markov
Si $X$ v.a. no-negativa y $t>0$:

$$ \mathbb{P}(X \geqslant t) \leqslant \dfrac{\mathbb{E}[X]}{t} $$

# Chebyshev

Si $X$ con valor esperado finito y $\sigma^{2} > 0$, para $t>0$:

$$ \mathbb{P}(|X-\mathbb{E}[X]| \geqslant t) \leqslant \dfrac{\mathbb{E}[(X-\mathbb{E}[X])^{2}]}{t^{2}} $$

# Hoeffding

Si $X_1, X_2, ..., X_n$ variables aleatorias independientes t.q. $a_i \leqslant X_i \leqslant b_i$ casi seguramente, entonces:

$$ \mathbb{P}(|S_n - \mathbb{E}[S_n] | \geqslant t) \leqslant 2 exp\left(-\dfrac{2t^2}{\sum_{i=1}^{n}(b_i - a_i)^2}\right) $$

Versión para promedios:

$$ \mathbb{P}(|\bar{X} - \mathbb{E}[\bar{X}] | \geqslant t) \leqslant 2 exp\left(-\dfrac{2t^2n^2}{\sum_{i=1}^{n}(b_i - a_i)^2}\right) $$
donde $\bar{X} = \dfrac{1}{n}\sum_{i=1}^{n} X_i$

Comparemos la 3 desigualdades con un pequeño ejemplo:

# Sea $X$ v.a. Binomial, n=100 y $p=0.8$ 

Para el primer ejemplo veremos los valores que toman las desigualdades al tomar una sola variable.

In [None]:
import numpy as np
import random 
import matplotlib.pyplot as plt

In [None]:
# Parámetros de la Binomial(n,p)
n = 100
p = 0.6

In [None]:
# Desigualdad de Markov
t = 80

markov = n*p/t
markov

In [None]:
las_t = list(range(1,101))
las_markov = [n*p/a for a in las_t]

plt.plot(las_t, las_markov)
plt.title('Markov variando "t"')

In [None]:
# Chebyshev
las_t = list(range(1,101))
las_chebyshev = [n*p*(1-p)/(t*t) for t in las_t]

plt.plot(las_t, las_chebyshev)
plt.title('Chebyshev variando "t"')

¿Son comparables los valores obtenidos con las desigualdades anteriores? ¿Porqué?

In [None]:
# Desigualdad de Hoeffding
las_t = list(range(1,101))
las_hoeffding = [2*np.exp(-2*t*t/(100)) for t in las_t]

plt.plot(las_t, las_hoeffding)
plt.title('Hoeffding variando "t"')

Comparativo para varios valores de $t$

In [None]:
las_t = list(range(2,11))

las_chebyshev = [n*p*(1-p)/(t*t) for t in las_t]
las_hoeffding = [2*np.exp(-2*t*t/(100)) for t in las_t]

plt.plot(las_t, las_hoeffding, label='hoeffding')
plt.plot(las_t, las_chebyshev, label='chebyshev')
plt.title('Hoeffding vs Chebyshev')
plt.legend()

# ¿Que poder tiene todo esto?

Problema: 

Uilizaremos el complemento de la desigualdad mencionada, si se cumple la Desigualdad de Hoeffding:

$$ \mathbb{P}(|\bar{X} - \mathbb{E}[\bar{X}] | \geqslant t) \leqslant 2 e^{-2t^2n} $$

 Entonces también se cumple:

$$ \mathbb{P}(|\bar{X} - \mathbb{E}[\bar{X}] | \leqslant t) \geqslant 1- 2 e^{-2t^2n} $$

Entonces, dado un valor de $t$ muy pequeño, queremos ver la cantidad de muestras necesarias para que el promedio de nuestra muestra se parezca al valor esperado de la muestra.

Recordemos que por Ley de Grandes Números, el promedio de muestras se parece al valor esperado real de la variable aleatoria.

Usemos que:

$$ 1 - 2 e^{-2t^2n} \geqslant 1 - \epsilon  ⇔ ϵ \geqslant 2 e^{-2t^2n} $$

lo que lleva a:

$$ n \geqslant \dfrac{ln(2 / \epsilon)}{2t^2} $$

Por lo que si queremos una precisión del 1% ($ \epsilon = 0.01$) en la probabilidad y de 2% en la diferencia de promedio y valor esperado de promedio ($t = 0.02$), necesitamos $6623$ muestras aproximadamente.

In [None]:
# Semilla para reproductibilidad si no la ponen , funcionará bien pero con otras simulaciones)
np.random.seed(0)
random.seed(0)
# Creación de muestra con 10 millones de entradas, 3 millones de unos (pelotas blancas) y 7 millones de ceros (pelotas negras)

total = 7000000 * [0] + 3000000 * [1]
random.shuffle(total)

In [None]:
# Parámetros a utilizar.
t = 0.02
eps = 0.01
hoeffding_amount = int(np.ceil(np.log(2 / eps) / (2 * t ** 2)))
print(f'Cantidad de muestras a tomar: {hoeffding_amount}')

In [None]:
subsample = np.random.choice(total, size=hoeffding_amount, replace=True)
print(subsample.mean())
# Result: 0.30590366903216065