# La desigualdad de [Chebyshev](https://medium.com/analytics-vidhya/illustration-with-python-chebyshevs-inequality-b34be151c547)

La desigualdad de Chebyshev es un teorema extremadamente útil cuando se combina con otros teoremas y es la base del intervalo de confianza. En este blog, ilustraré el teorema y cómo funciona usando Python.

Antes de empezar a codificar, veamos el teorema. La desigualdad de Chebyshev establece que, para una amplia clase de distribución de probabilidad, no más de una cierta cantidad de valores puede estar a más de una cierta distancia de la media, con la fórmula siguiente.

![](https://miro.medium.com/max/321/1*DJqMc1N7D9zgMdR78tr8Fw.jpeg)

Donde X es una variable aleatoria, μ es un valor esperado de X, σ es una desviación estándar de X y k > 0 (un valor constante).

Por ejemplo, la probabilidad de que la distancia al valor esperado sea mayor de 3 desviaciones estándar es menor o igual que uno sobre nueve.

![](https://miro.medium.com/max/335/1*QjRmtedHI3pQjGmfsjEtWg.jpeg)

Según las formulas antereiores, si k aumenta, la probabilidad disminuirá. Ilustraré el teorema usando Python, pero no lo usaré para la fórmula, sino que usaré Python para crear una población y mostrar cómo funciona el teorema.



In [1]:
# Primer paso: Cree una población de 1,000,000 de valores, yo uso una distribución gamma 
# con shape = 2 y scale = 2.
# Notar que el teorema también funciona con otra distribución, como la distribución uniforme.




In [2]:
# 2do paso : tomemos una muestra de 10000 valores




In [3]:
# 3er Paso : Cuente la muestra que tiene una distancia del valor esperado mayor que k desviación estándar 
# y use el conteo para calcular las probabilidades. Quiero representar una tendencia de probabilidades cuando
# k aumenta, por lo que uso un rango de k de 0.1 a 3.



In [4]:
# 4to paso : Graficamos e imprimimos el resultado 


A partir de la gráfica y el resultado, podemos ver que a medida que aumenta k, la probabilidad disminuye y la probabilidad de cada k sigue a la desigualdad. Además, solo es útil el caso de que k sea mayor que 1. Si k es menor que 1, el lado derecho de la desigualdad es mayor que 1, lo cual no es útil porque la probabilidad no puede ser mayor que 1.

Podemos usar la desigualdad de Chebyshev en muchas aplicaciones, podemos estimar una probabilidad de que los datos caigan en un rango de k desviaciones estándar. Por ejemplo, existe un 90% de probabilidad de que la siguiente muestra esté dentro de un rango de 3 desviaciones estándar.

# Ley debil de los grandes numeros

La ley débil de los grandes numeros establece que con un número suficientemente mayor de ensayos hay una probabilidad muy alta de que la media de observación se acerque al valor esperado. En otras palabras, a medida que el número de ensayos llega al infinito, la media de la observación converge a un valor esperado con una probabilidad muy alta.

![](https://miro.medium.com/max/379/1*D8IJGKIDItwMUYZ7eL_lCQ.jpeg)

Donde Xn es la media de n ensayos, μ es un valor esperado, ε es un margen de error mayor que 0. El detalle completo del teorema se puede encontrar en la [wikipedia](https://en.wikipedia.org/wiki/Law_of_large_numbers)

In [None]:
# paso 1 : Cree una distribución gamma con shape = 2 y scale = 2 como población.


In [None]:
# paso 2 : Establezca un tamaño de muestra en 100 al principio, muestree 50 veces y obtenga una media de cada vez,
# luego aumente el tamaño de la muestra en 500, repita estos pasos hasta que el tamaño de la muestra alcance los 8100.


In [None]:
# Paso 3 : grafiquemos un boxplot para cada tamaño de muestra






En la gráfica, podemos ver que a medida que aumenta el tamaño de la muestra, las distribuciones de la media muestral disminuyen y se centran en torno a un valor esperado.

In [None]:
# Mostramos media y desviacion estandar : para  las muestras de tamaño 100 y de tamaño 8100


In [None]:
# Veamos unos histogramas de la muestra de 100 elementos y de la muestra de 8100 elementos


Una última cosa, lo que debe tomar de este notebook es el hecho de que el tamaño de la muestra tiene un efecto enorme en la precisión de las medias de la muestra con los valores esperados. Si su estudio tiene un tamaño de muestra grande, la media de su muestra estará cerca de la media de la población.

# Teorema del limite central 

Referencias :

  * [Teoremas del límite.](https://personal.us.es/bassas/doc/pdf/mmi/temas/Tema11.pdf)
  * [Teorema Central del Límite](https://www.cimat.mx/~jortega/MaterialDidactico/EPyE10/Cap7LaV2.pdf)
  * [Limit theorems](http://www.cse.cuhk.edu.hk/~syzhang/course/Prob17/ch5.pdf)
  * [Law of Large Numbers](https://www.dartmouth.edu/~chance/teaching_aids/books_articles/probability_book/Chapter8.pdf)

Bibliografia :

  * [Probability Through Problems
](https://link.springer.com/book/10.1007/978-0-387-21659-1)

El teorema del límite central es un teorema fundamental de probabilidad y estadística. El teorema describe la distribución de la media de una muestra aleatoria proveniente de una población con varianza finita. Cuando el tamaño de la muestra es lo suficientemente grande, la distribución de las medias sigue aproximadamente una distribución normal. El teorema se aplica independientemente de la forma de la distribución de la población. Muchos procedimientos estadísticos comunes requieren que los datos sean aproximadamente normales. El teorema de límite central le permite aplicar estos procedimientos útiles a poblaciones que son considerablemente no normales. El tamaño que debe tener la muestra depende de la forma de la distribución original. Si la distribución de la población es simétrica, un tamaño de muestra de 5 podría producir una aproximación adecuada. Si la distribución de la población es considerablemente asimétrica, es necesario un tamaño de muestra más grande. Por ejemplo, la distribución de la media puede ser aproximadamente normal si el tamaño de la muestra es mayor que 50. Las siguientes gráficas muestran ejemplos de cómo la distribución afecta el tamaño de la muestra que se necesita.

## Muestras de una población uniforme
Una población que sigue una distribución uniforme es simétrica, pero marcadamente no normal, como lo demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 5 de esta población es aproximadamente normal debido al teorema del límite central, como lo demuestra el segundo histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta para ilustrar esta normalidad.

![](https://support.minitab.com/es-mx/minitab/18/central_limit_theorem_images_uniform_1.png) ![](https://support.minitab.com/es-mx/minitab/18/central_limit_theorem_images_uniform_subgroups_2.png)

## Muestras de una población exponencial
Una población que sigue una distribución exponencial es asimétrica y no normal, como lo demuestra el primer histograma. Sin embargo, la distribución de las medias de 1000 muestras de tamaño 50 de esta población es aproximadamente normal debido al teorema del límite central, como lo demuestra el segundo histograma. Este histograma de las medias de las muestras incluye una curva normal superpuesta para ilustrar esta normalidad.

![](https://support.minitab.com/es-mx/minitab/18/central_limit_theorem_images_exponential_3.png)![](https://support.minitab.com/es-mx/minitab/18/central_limit_theorem_images_exponential_subgroups_4.png)

**Usaremos Python para demostrar el teorema con los siguientes pasos**

In [None]:
# Paso 1
# Cree una población de 1000000 de valores, utilizo una distribución gamma con shape = 2 y scale = 2
# para mostrar que el teorema funciona con una distribución no normal




In [None]:
# Paso 2
# Tomemos una muestra de la distribución gamma con un tamaño de muestra de 500, calculamos la media y repita
# el paso 1000 veces (este es un número de muestreo). Repito este paso pero aumento el número de muestreos
# hasta que el número sea 50.000 veces.


In [None]:
# paso 3
# graficamos cada media muestral


Podemos ver en los gráficos que a medida que aumenta el número de muestras, la distribución se vuelve más suave. Este teorema es extremadamente poderoso porque podemos aplicarlo a cualquier población, por lo que si tenemos herramientas para trabajar con distribución normal, podemos usar esa herramienta con la media muestral de cualquier distribución, como calcular la probabilidad usando un área bajo una curva normal.

## Estandarizar/Normalizar la media muestral

Podemos cambiar la distribución de la media de la muestra a una distribución normal estándar restando cada media de la muestra con un valor esperado y dividiéndola por una desviación estándar.

Veamos esto en codigo 

In [None]:
# paso 1 :
# Usando la distribución del último muestreo


In [None]:
# Paso 2 : 
# Calcule la media y la desviación estándar de la media muestral.


In [None]:
# Paso 3 :
# Reste cada valor por la media y divídalo por la desviación estándar, de modo 
# que la media y la desviación estándar de la media de la muestra sea 0, 1 respectivamente.


In [None]:
# paso 4 :
# mostramos el resultado 


Una de las razones por las que estandarizamos la media muestral es la complejidad de una función de distribución normal. Tenemos que integrar la función complicada que puede llevar horas hacer, así que en su lugar, estandarizamos la distribución y usamos la tabla Z para encontrar un área debajo de la función.

## Tamaño de la muestra

La regla general del tamaño de la muestra es que debe ser mayor que 30 para que la media de la muestra se distribuya normalmente. Sin embargo, el teorema sigue funcionando si el tamaño de la muestra es inferior a 30 pero la población está distribuida normalmente. Ilustraré lo que sucederá si el tamaño de la muestra es menor que 30, 30 y mayor que 30.


In [None]:
# paso 1
# Muestra de la misma distribución gamma con 1 tamaño de muestra, calcule la media y 
# repita el paso 25.000 veces. Repito este paso pero aumento el tamaño de la muestra 
# hasta que alcance el tamaño de 1000 muestras.


In [None]:
# paso 2 
# Grafiquemos la media de cada muestra


A partir del gráfico, la distribución del tamaño de la muestra que es menor a 30 no se distribuye normalmente.

La idea es combinar este teorema con la desigualdad de Chebyshev y la ley débil de los números grandes, pero antes de ir allí, veamos el valor esperado y la desviación estándar de las medias muestrales.

## El valor esperado y la desviación estándar de las medias muestrales.

Suponga que X es una variable aleatoria independiente e idéntica distribuida con el valor esperado μ y la desviación estándar σ. Si tomamos una muestra de la muestra Xn, la expectativa y la varianza de X serán las siguientes.

![](https://miro.medium.com/max/437/1*ott3FA9HNRWCATfH-81GbA.jpeg)![](https://miro.medium.com/max/564/1*otR7TN90Sv2zCEQGuQjj-Q.jpeg)

Donde n es el tamaño de la muestra, n = 10 significa que usamos 10 datos y la media de la muestra es un promedio de 10 datos, el valor esperado y la varianza se pueden calcular como se indicó anteriormente.




In [None]:
## expect value of sample


Este es el resultado del código anterior. Si dividimos la desviación estándar de la población por la raíz cuadrada de n, el resultado estará cerca de una desviación estándar de la media muestral.


Sin embargo, se siente un poco contradictorio porque cómo una muestra puede tener una expectativa y una variación, es solo un número. Bueno, piense en esto, suponga que le pido que muestre la altura de un estudiante en una escuela, tendrá que golpear a todos los salones y elegir 1 estudiante en el salón. Antes de entrar al salón, ¿cuál es su expectativa de la altura del estudiante que elegirá? No lo sabes, ¿verdad? Entonces, ¿qué pasa si les digo que la altura promedio de los estudiantes en esta escuela es de 5 pies con una variación de 4 pulgadas? Ahora, su expectativa de la altura de un estudiante antes de elegir uno de ellos debe ser de 5 pies con una variación de 4 pulgadas. Si elige 10 estudiantes, la expectativa de la altura de esos estudiantes sería la suma de las expectativas de cada estudiante, que es lo mismo con el valor 5 pies, dividido por el número de estudiantes. Por lo tanto, intente pensar en una muestra como una variable aleatoria, no como un número.

Otra cosa que quiero mencionar es, según la fórmula, cuando el tamaño de la muestra aumenta, la varianza de la media de la muestra será menor, por lo que la varianza de la media de la muestra dependerá del tamaño de la muestra. Si la muestra es lo suficientemente grande, la media muestral estará cerca de su expectativa.

## Convergencia en medias muestrales

La desigualdad de Chebyshev funciona con una amplia clase de distribución de probabilidad y también funciona con una distribución normal. Podemos cambiar la desigualdad para trabajar con la media muestral de la siguiente manera.

![](https://miro.medium.com/max/645/1*hQWDcuhgeQn0QlRGPgF0Hg.jpeg)

Donde X barra es una media de la muestra, μ son los valores esperados de una media de la muestra, ε es el margen de error que es mayor que 0, σ es una desviación estándar de la población y n es un tamaño de muestra.

Usando la ley débil de números más grandes y esta fórmula, si el tamaño de la muestra llega al infinito, la probabilidad de que la diferencia entre la media de la muestra y el valor esperado sea mayor que un margen de error converge a cero.

**Usaré Python para mostrar el hecho de que a medida que aumenta el tamaño de la muestra, la media de la muestra se acerca más al valor esperado en el siguiente paso.**

In [None]:
# paso 1 :
#Utilice la misma distribución gamma para la población





In [None]:
# Paso 2 :
# Muestree de la población usando un tamaño de muestra de 10 a 20,000 paso por 20, luego calcule la diferencia entre
# la media de la muestra y la media de la población.


In [None]:
# Paso 3 
# grafiquemos estas diferencias


Podemos ver que a medida que aumenta el tamaño de la muestra, la diferencia disminuye.

También podemos usar la fórmula para encontrar un tamaño de muestra que pueda mantener un error de la media de la muestra dentro de un rango. Por ejemplo, si queremos que nuestra muestra tenga un error del 1% con una probabilidad del 95%, podemos establecer una desigualdad para que sea así.

![](https://miro.medium.com/max/474/1*QqtaSV0ii9npUSXSPoSAeQ.jpeg)

Trazaré otro gráfico para mostrar que la probabilidad de que la diferencia de las medias muestrales y la expectativa sea mayor de que el error disminuya a medida que aumenta el tamaño de la muestra.




In [None]:
# PAso 1
# Utilice la misma distribución gamma para la  población y establezca el error en 0,05.


In [None]:
# Paso2 :
# Muestre de la población 100 veces usando un tamaño de muestra de 100 a 10100, paso por 500, luego
# cuente la muestra que tiene las diferencias de valor medio y esperado mayores que el error.

# paso 3 
#Calcule  la probabilidad de cada tamaño de muestra y agregue la gráfica de probabilidad


In [None]:
# paso 4 :
# graficar las probabilidades


Las cosas que debes resaltar de este notebook son:

  * La media de la muestra será una distribución normal independientemente de la media de la población.

  * A medida que aumenta el tamaño de la muestra, la varianza de la media muestral se reduce.

  * Por lo tanto, la probabilidad de que la media de la muestra esté lejos de la expectativa también disminuye a medida que aumenta el tamaño de la muestra.

