# INTRODUCCIÓN AL CÁLCULO DE PROBABILIDAD
## LEY DE LOS GRANDES NÚMEROS Y TEOREMA CENTRAL DEL LÍMITE
### Madrid, 14 de febrero de 2022
### Ángeles Garrido

#Introducción: probabilidad y sentido común

La incertidumbre constituye una pieza fundamental del mundo real, y efectivamente, en parte hace la vida mucho más interesante, ya que sería muy aburrido si todo fuera perfectamente predecible. 
En gran ocasiones, para toda la incertidumbre que nos rodea, solemos aplicar lo que llamamos nuestro "sentido común". Por ejemplo, si al levantarnos por la mañana vemos que el día se encuentra nublado, este hecho no nos da la certeza de que comenzará a llover más tarde; sin embargo, nuestro sentido común puede inducirnos a cambiar nuestros planes y a actuar como si creyéramos que fuera a llover si las nubes son lo suficientemente oscuras o si escuchamos truenos, ya que nuestra experiencia nos dice que estos signos indicarían una mayor posibilidad de que el hecho de que fuera a llover más tarde realmente ocurra. Nuestro sentido común es algo tan arraigado en nuestro pensamiento, que lo utilizamos automáticamente sin siquiera ponernos a pensar en ello; pero muchas veces, el sentido común también nos puede jugar una mala pasada y hacernos elegir una respuesta incorrecta.

#Independencia: La ley de grandes números y el teorema central del límite
Una de las cosas más fascinantes sobre el estudio de la teoría de probabilidad es que si bien el comportamiento de un evento individual es totalmente impredecible, el comportamiento de una **cantidad suficientemente grande de eventos se puede predecir con un alto grado de certeza!**. Si tomamos el caso clásico del lanzamiento de una moneda, no podemos predecir con exactitud cuantas caras vamos a obtener después de 10 tiradas, tal vez el azar haga que obtengamos 7, 10, o 3 caras, dependiendo de la suerte que nos encontremos; pero si repetimos el lanzamiento un millón de veces, casi con seguridad que la cantidad de caras se aproximará a la verdadera probabilidad subyacente del experimento, es decir, al 50% de los lanzamientos. Este comportamiento es lo que en la teoría de probabilidad se conoce con el nombre de **ley de grandes números**; pero antes de poder definir esta ley, primero debemos describir otro concepto también muy importante, la **independencia de los eventos**.

#El concepto de independencia
En teoría de probabilidad, podemos decir que dos eventos son independientes cuando la probabilidad de cada uno de ellos no se ve afectada por el hecho de que el otro evento ocurra, es decir que no existe ninguna relación entre los eventos. En el lanzamiento de la moneda; la moneda no sabe, ni le interesa saber si el resultado del lanzamiento anterior fue cara; cada lanzamiento es un suceso totalmente aislado el uno del otro y la probabilidad del resultado va a ser siempre 50% en cada lanzamiento.

#Definiendo la ley de grandes números
Ahora que ya conocemos el concepto de independencia, estamos en condiciones de dar una definición más formal de la **ley de grandes números**, que junto con el **Teorema Central del Límite**, constituyen los cimientos de la teoría de probabilidad. Podemos formular esta ley de la siguiente manera: si se repite un experimento aleatorio, bajo las mismas condiciones, un número ilimitado de veces; y si estas repeticiones son independientes la una de la otra, entonces la frecuencia de veces que un evento A ocurra, convergerá con probabilidad 1 a un número que es igual a la probabilidad de que A ocurra en una sola repetición del experimento. 

Lo que esta ley nos enseña, es que la probabilidad subyacente de cualquier suceso aleatorio puede ser aprendido por medio de la experimentación, simplemente tendríamos que repetirlo una cantidad suficientemente grande de veces!. Un error que la gente suele cometer y asociar a esta ley, es la idea de que un evento tiene más posibilidades de ocurrir porque ha o no ha ocurrido recientemente. Esta idea de que las chances de un evento con una probabilidad fija, aumentan o disminuyen dependiendo de las ocurrencias recientes del evento, es un error que se conoce bajo el nombre de la **falacia de Montecarlo** o **falacia del apostador**.

Para entender mejor la ley de grandes números, experimentemos con algunos ejemplos en Python. Utilicemos nuevamente el ejemplo del lanzamiento de la moneda, en el primer ejemplo, la moneda va a tener la misma posibilidad de caer en cara o cruz; mientras que en el segundo ejemplo, vamos a modificar la probabilidad de la moneda para que salga cara solo en 1 de 6 veces.

#Importación de librerías

In [None]:
import matplotlib.pyplot as plt 
import numpy as np # importando numpy
import pandas as pd # importando pandas
import random as random #importando random

%matplotlib inline

#Ley de los grandes números


**IMPORTANTE**: Fijamos una semilla para replicar la aleatoriedad, en caso necesario

In [None]:
np.random.seed(12345)   # Para poder replicar el random

## Ejemplo 1: lanzamiento de una moneda con probabilidad de salir cara p = 0.5 (equiprobable)

In [None]:
# Ejemplo ley de grandes números
# moneda p=1/2 cara=1 cruz=0
resultados = []
for lanzamientos in range(1,10000):
    lanzamientos = np.random.choice([0,1], lanzamientos) 
    caras = lanzamientos.mean()  # media de las veces que salio cara (probabilidad de salir cara)
    resultados.append(caras)

# Representación gráfica
df = pd.DataFrame({ 'lanzamientos' : resultados})  #Definición de dataframe con la media de los lanzamientos

df.plot(title='Ley de grandes números',color='r',figsize=(8, 6))
plt.axhline(0.5)
plt.xlabel("Número de lanzamientos")
plt.ylabel("frecuencia caras")
plt.show()

## Ejemplo 2: lanzamiento de una moneda con probabilidad de salir cara 1 de cada 6 veces

In [None]:
# moneda p=1/6 cara=1 cruz=0
resultados = []
for lanzamientos in range(1,10000):
    lanzamientos = np.random.choice([0,1], lanzamientos, p = [5/6, 1/6]) 
    caras = lanzamientos.mean()
    resultados.append(caras)

# graficamente
df = pd.DataFrame({ 'lanzamientos' : resultados})

df.plot(title='Ley de grandes números',color='r',figsize=(8, 6))
plt.axhline(1/6)
plt.xlabel("Número de lanzamientos")
plt.ylabel("frecuencia caras")
plt.show()

Como estos ejemplos nos muestran, al comienzo, la frecuencia con la que vamos obteniendo caras va variando considerablemente, pero a medida que aumentamos el número de repeticiones, la frecuencia de caras se va estabilizando en la probabilidad subyacente el evento:

*   Ejemplo 1: 1 vez de cada 2 (p = 1/2)
*   Ejemplo 2: 1 vez de cada 6 (p = 1/6)

En los gráficos podemos ver claramente el comportamiento de la ley.

# TEOREMA CENTRAL DEL LÍMITE

El otro gran teorema de la teoría de probabilidad es el **Teorema central del límite**. Este teorema establece que el promedio de casi cualquier conjunto de variables independientes generadas al azar se aproximan a la Distribución Normal.

El Teorema del límite central explica por qué la **Distribución Normal** surge tan comúnmente y por qué es generalmente una **aproximación excelente para la media de casi cualquier colección de datos**. 

**OBSERVACIÓN**: Este notable hallazgo se mantiene verdadero sin importar la forma que adopte la distribución de datos original que tomemos. 

In [None]:
# Generación de muestras de diferentes distribuciones

muestra_size = 20000  # iteraciones realizadas
muestra_binomial = []
muestra_exp = []
muestra_possion = []
muestra_uniforme = []
mu = .9
lam = 1.0
size = 5000  #tamaño de la muestra de datos en cada iteración

# Generación de una muestra de datos con distribución: binomial, exponencial, uniforme y poisson
for i in range(1, muestra_size):
    # MUESTRA BINOMIAL 
    muestra = np.random.binomial(1, mu, size=size)
    muestra_binomial.append(muestra.mean())
    # MUESTRA EXPONENCIAL
    muestra = np.random.exponential(scale=2.0,size=size)
    muestra_exp.append(muestra.mean())
    # MUESTRA UNIFORME
    muestra = np.random.uniform(0,1, size=size)
    muestra_uniforme.append(muestra.mean())
    # MUESTRA POISSON
    muestra = np.random.poisson (lam=lam, size=size)
    muestra_possion.append(muestra.mean()) 

In [None]:
#Definición de un dataframe con las muestras de datos

df = pd.DataFrame({ 'binomial' : muestra_binomial, 
                    'poission' : muestra_possion,
                    'uniforme' : muestra_uniforme,
                    'exponencial' : muestra_exp})

In [None]:
# Representación gráfica de las DIFERENTES MUESTRAS
fig, axes = plt.subplots(nrows=2, ncols=2, figsize=(10,10))
df.binomial.hist(ax=axes[0,0], alpha=0.9, bins=1000)
df.exponencial.hist(ax=axes[0,1],bins=1000)
df.poission.hist(ax=axes[1,0],bins=1000)
df.uniforme.hist(ax=axes[1,1],bins=1000)
axes[0,0].set_title('Binomial')
axes[0,1].set_title('Poisson')
axes[1,0].set_title('Uniforme')
axes[1,1].set_title('Exponencial')
plt.show()