# Estadística para Data Science: Cuaderno clase 6

In [None]:
# Importando librerías

import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import scipy.stats as stats
import seaborn as sns




# recordando: Distribución Binomial y probabilidades:

Un experimento aleatorio donde solo se pueden obtener dos resultados, usualmente etiquetados como "éxito" o "fracaso", se puede llamar "ensayo de Bernoulli". 
Como un ensayo de Bernoulli tiene solo dos posibles resultados, se puede enmarcar como una pregunta de sí o no. Por ejemplo:

¿Es la primera carta de un mazo barajado un as?
¿Ganó Colo Colo su último partido?

La **distribución Binomial** con parámetros $n$ y $p$ es una **distribución de probabilidad discreta** del número de "eventos exitosos" en una secuencia de $n$ ensayos de Bernoulli, independientes entre sí, con una probabilidad fija $p$ de éxito (y $1-p$ de fracaso) en cada ensayo.


Si $X$ es una variable aleatoria discreta tal que $X\sim \operatorname {Binomial} (n,p)$ entonces

$$\operatorname {E} [X]=np$$
$$\operatorname {Var} [X]=np(1-p)$$


La función de probabilidad (o función de masa de probabilidad) 
de una Distribución Binomial es:

$$
P(k | p, n) = \frac{n!}{k! (n-k)!}  p^k (1-p)^{n-k}
$$ 
Y lo que hace esta función de masa de probabilidad es devolver la probabilidad de obtener exactamente $k$ eventos exitosos al hacer $n$ ensayos de un experimento donde la probabilidad de éxito está dada por $p$

La función de distribución acumulada de una variable aleatoria $X\sim \operatorname {Binomial} (n,p)$ está dada por
$$
F(k;n,p) = P(X \leq k) =  \sum_{i=0}^{k} \binom{n}{i} p^i (1-p)^{n-i} $$

Volviendo a los ejemplos que hemos visto, si consideramos el lanzamiento de una moneda como nuestro experimento aleatorio, y definimos como evento exitoso obtener cara, la probabilidad de obtener exactamente $k=2$ caras al lanzar $n=4$ monedas, asumiendo una moneda justa ($p=0.5$) está dada por:

$$
P(k=2 | p=0.5, n=4) = \frac{4!}{2! (4-2)!}  {\frac{1}{2}}^2 (1-\frac{1}{2})^{4-2} = \frac{4 \cdot 3 \cdot 2 \cdot 1}{\cdot 2 \cdot 1 \cdot 2 \cdot 1} \frac{1}{4} \frac{1}{4} = \frac{3}{8} 
$$

Por supuesto que esto podríamos haberlo calculado de muchas otras formas. Por ejemplo:

Al lanzar 4 monedas hay 16 posibles secuencias equiprobables:  

CCCC  
CCCS  
CCSC  
**CCSS**  
CSCC  
**CSCS**  
**CSSC**  
CSSS  
SCCC  
**SCCS**  
**SCSC**  
SCSS  
**SSCC**  
SSCS  
SSSC  
SSSS  
  
  
Luego 6 de 16 tienen dos caras, por tanto, la probabilidad es:
p = 6/16 = 3/8 

Si quisiéramos graficar la distribución de probabilidad de la cantidad de caras al lanzar $n=4$ monedas justas ($p(cara)=0.5$, podríamos hacerlo usando la función de masa de probabilidad para calcular las probabilidades de obtener $k=\{0,1,2,3,4\}$ caras $n=4$. Luego usando un poco de código:

In [None]:
# podemos hacer un factorial con math.factorial()
import math

n=4
p=0.5
k=range(n+1)
distribucion = []

In [None]:
k

In [None]:
for i in k:
    distribucion.append(
        math.factorial(n)/(math.factorial(i)*math.factorial(n-i))* 
    (p**i)*(1-p)**(n-i)) 

In [None]:
distribucion = pd.Series(distribucion)
print(distribucion)

In [None]:
dist_plot = distribucion.plot.bar( ylabel="Probabilidad" ,rot=0,xlabel="Numero de caras")

Esta distribución de probabilidad que acabamos de graficar no se está basando en datos observados, sino ocupando razonamiento matemático basado en que conocemos/asumimos el modelo probabilístico. Se pueden estudiar y comprender sin tirar ninguna moneda.

Las **distribuciones empíricas**, por otro lado, son las distribuciones de datos observados. Es decir, en este caso particular, lo que nos aparece al efectivamente tirar las 4 monedas y contar la cantidad de éxitos (caras). 

Ocupemos la funcion `muestreo_aleatorio` usada en las clases anteriores, para construir distribuciones empíricas del numero de caras que se obtienen al lanzar 4 monedas e ir acumulando datos. 


In [None]:
# importamos la librería random
import random

def muestreo_aleatorio(n, em):
    n=n
    em=em
    muestreo = [random.choice(em) for i in range(n)]
    muestreo = pd.Series(muestreo)
    return(muestreo)

Lancemos las 4 monedas una vez:

In [None]:
# definimos el espacio muestral y el n
em_moneda = ['C','S']
n=4
muestreo_aleatorio(n,em_moneda)

Ahora repitamos nuestro muestreo lanzando las 4 monedas unas 10 veces, contemos el número de caras cada vez y veamos como es la distribución:

In [None]:
# declaramos una lista vacía para almacenar los datos
lista_cantidad_caras =[]

for i in range(10):
    y = muestreo_aleatorio(n,em_moneda)  
    lista_cantidad_caras.append(sum(y == "C")) # sumamos la cantidad de caras

In [None]:
x = pd.Series(lista_cantidad_caras)
print(x) # esta es la cantidad de caras que salieron en cada ensayo

In [None]:
x_freq = x.value_counts().sort_index()
print(x_freq)
# esta es la cantidad de veces que salieron 0,1,2,3 y 4 caras en los 10 lanzamientos

Hagamos un gráfico de barras donde comparemos la distribución teórica con la empírica que acabamos de obtener.

In [None]:
x_prob = x_freq/len(x)
df = pd.DataFrame({'empirica_10': x_prob,
                   'teorica': distribucion})
ax = df.plot.bar( ylabel="Probabilidad" ,rot=0,xlabel="Numero de caras")

Ahora veamos otra distribución empírica repitiendo el lanzamiento de las 4 monedas no 10 veces sino 30 veces, y luego 1000 veces.

In [None]:
# declaramos una lista vacía para almacenar los datos
lista_cantidad_caras =[]

for i in range(1000):
    y = muestreo_aleatorio(n,em_moneda)  
    lista_cantidad_caras.append(sum(y == "C")) # sumamos la cantidad de caras
    
x_prob_30 = pd.Series(lista_cantidad_caras[0:30]).value_counts(normalize = True).sort_index()
x_prob_1000 = pd.Series(lista_cantidad_caras).value_counts(normalize = True).sort_index()

df['empirica_30'] = x_prob_30
df['empirica_1000'] = x_prob_1000
df = df[['empirica_10', 'empirica_30', 'empirica_1000','teorica']]
ax = df.plot.bar( ylabel="Probabilidad" ,rot=0,xlabel="Numero de caras",figsize=(12,5))

# La Distribución Normal

También llamada distribución Gaussiana o Campana de Gauss, una distribución normal es una distribución de probabilidad continua que aparece con mucha frecuencia en estadística y teoría de probabilidades. Es una distribución unimodal y simétrica, y se describe usando dos parámetros: El promedio de la distribución $\mu$ y la desviación estándar $\sigma$. La notación habitual es

$$
X \sim \mbox{N}(\mu,\sigma)
$$

La función de densidad de probabilidad de una Distribución Normal es:
$$
p(X | \mu, \sigma) = \frac{1}{\sqrt{2\pi}\sigma}  \exp \left( -\frac{(X - \mu)^2}{2\sigma^2} \right)
$$

### Distribución Normal estándar y estandarización de una variable

La distribución normal estándar es un caso especial de la función donde $\mu =0$ y $\sigma =1$. 
Es posible relacionar todas las variables aleatorias normales con la distribución normal estándar, ya que   
si $X\,\sim N(\mu ,\sigma)\,$ entonces  
$$Z = \frac{X - \mu}{\sigma} \!$$
es una variable aleatoria normal estándar: $Z\,\sim  N(0,1)\,$.
La transformación de una distribución $X\,\sim N(\mu ,\sigma)\,$  en una $N(0, 1)$ se llama normalización, estandarización o tipificación de la variable $X$.

Esta transformación es bien famosa y útil en muchas situaciones y no solo para una variable con distribución normal, ya que en términos generales, cualquier variable a la que se le aplique esta transformación queda medida en unidades estándar, es decir, en el número de desviaciones estándar sobre (o bajo) el promedio.

Ahora vamos a graficar una distribución normal con media $\mu = 0$ y desviación estándar $\sigma = 1$. A diferencia de la distribución binomial, la imagen de la distribución normal muestra una curva suave en lugar de barras "similares a histogramas". 


In [None]:


mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 4*sigma, mu + 4*sigma, 100)

fig = sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma))
# scipy.stats.norm.pdf(x,mu,sigma) es un método de scipy 
# que evalua la función de densidad de probabilidad de una normal
# de media mu, desviacion estándar sigma en los valores x.

plt.xlabel('Valores observados')
plt.ylabel('Densidad de probabilidad')

sns.despine() # para remover las líneas de arriba y la derecha.


### Algunas propiedades de la distribución normal

1. Es simétrica respecto de su media $\mu$.
2. La moda y la mediana son ambas iguales a la media $\mu$
3. Los puntos de inflexión de la curva se dan para $\mu -\sigma$ y $x=\mu +\sigma$.
4. Distribución de probabilidad en un entorno de la media:
en el intervalo $\mu -\sigma ,\mu +\sigma$ se encuentra comprendida, aproximadamente, el 68,26 % de la distribución;
en el intervalo $\mu -2\sigma ,\mu +2\sigma$ se encuentra, aproximadamente, el 95,44 % de la distribución;
en el intervalo $\mu -3\sigma ,\mu +3\sigma$ se encuentra comprendida, aproximadamente, el 99,74 % de la distribución.  
Estas propiedades son muy útiles para el establecimiento de intervalos de confianza. Veámoslo en un gráfico:

In [None]:
import numpy as np
import scipy.stats as stats
import seaborn as sns
import matplotlib.pyplot as plt

fig, axes = plt.subplots(1, 2, figsize=(15, 5), sharey=False)

mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma), ax=axes[0])


sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma), ax=axes[1])


x_fill1 = np.arange(-1, 1, 0.001)
x_fill2 = np.arange(-2, 2, 0.001)

y_fill1 = stats.norm.pdf(x_fill1,0,1)
y_fill2 = stats.norm.pdf(x_fill2,0,1)

axes[0].fill_between(x_fill1,y_fill1,0, alpha=0.2, color='blue')
axes[1].fill_between(x_fill2,y_fill2,0, alpha=0.2, color='blue')

axes[0].set_title("Shaded Area = 68.3%")
axes[1].set_title("Shaded Area = 95.4%")

axes[0].set(xlabel='Observed value', ylabel='Probability density')
axes[1].set(xlabel='Observed value', ylabel='Probability density')

sns.despine()

¿Qué pasa si movemos los parámetros $\mu$ y $\sigma$. Veámoslo gráficamente: 

In [None]:
# Primero, variemos mu
mu_1 = 4
mu_2 = 7
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(1, 10, 100)
y1 = stats.norm.pdf(x, mu_1, sigma)
y2 = stats.norm.pdf(x, mu_2, sigma)


fig = sns.lineplot(x = x, y = y1)
# estas dos líneas son para que compartan el mismo eje x y los ticks no se plotteen dos veces
ax2=fig.twinx()
ax2.tick_params(left=False, labelleft=False, top=False, labeltop=False,
                   right=False, labelright=False, bottom=False, labelbottom=False)



sns.lineplot(x = x, y = y2, ax=ax2, linestyle='--')
sns.despine()

In [None]:
# Ahora con sigma
mu = 5
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(1, 10, 100)
y1 = stats.norm.pdf(x, mu, 1)

variance = 2
sigma = np.sqrt(variance)
y2 = stats.norm.pdf(x, mu, 2)


fig = sns.lineplot(x = x, y = y1)

ax2=fig.twiny()
ax2.tick_params(left=False, labelleft=False, top=False, labeltop=False,
                   right=False, labelright=False, bottom=False, labelbottom=False)



sns.lineplot(x = x, y = y2, ax=ax2, linestyle='--')
sns.despine()


Al variar $\mu$ con $\sigma$ constante, la distribución se mueve en el eje X, estando siempre centrada en el nuevo $\mu$ pero manteniendo la misma forma.
Al variar $\sigma$ con $\mu$ constante, la distribución sigue centrada en el mismo punto, pero al aumentar $\sigma$ la distribución se va "ensanchando" o ampliando. Es importante notar que cuando ampliamos la distribución, la altura del peak se reduce. Esto tiene que suceder: de la misma manera que las alturas de las barras que usamos para graficar una distribución binomial discreta deben sumar 1, el área total bajo la curva para la distribución normal debe ser igual a 1.

## Recordemos: 

* Inferencia: Usar datos y razonamiento sobre la muestra para decir cosas sobre la población.
* Población: El conjunto completo de sujetos de interés
* Parámetro: una métrica de la población.
* Muestra: Un subconjunto de la población.
* Estadístico: una métrica de la muestra
* Estimador:  Un estadístico usado para estimar un parámetro desconocido de la población

## Muestreo Aleatorio Simple



Independientemente de cómo defina la población, el punto crítico es que la muestra es un subconjunto de la población, y nuestro objetivo es utilizar nuestro conocimiento de la muestra para sacar inferencias sobre las propiedades de la población. La relación entre los dos depende del procedimiento por el cual se seleccionó la muestra. Este procedimiento se denomina método de muestreo y es crucial entender por qué es importante.



![srs1](https://github.com/vmlandae/datasets_eds/blob/main/clase6/srs1.png?raw=true)
Imaginemos que tenemos una bolsa que contiene 10 fichas. Cada ficha tiene impresa una letra única, por lo que podemos distinguir entre las 10 fichas. Las fichas vienen en dos colores, blanco y negro. Este conjunto de fichas es la población de interés y se representa gráficamente a la izquierda de la figura.  Como vemos, hay 4 fichas negras y 6 blancas, pero siguiendo con la abstracción, no lo sabríamos a menos que miráramos dentro de la bolsa.
Imaginemos que sacamos 4 fichas, sin reposición, de la bolsa. Si quisiera, podría volver a colocar todas las fichas en la bolsa y repetir el experimento, como se muestra en el lado derecho de la figura. Cada vez se obtienen resultados diferentes, pero el procedimiento es idéntico en cada caso. Debido a que agitamos la bolsa antes de sacar las fichas, parece razonable pensar que todas las fichas tienen la misma probabilidad de ser seleccionadas. Un procedimiento en el que cada miembro de la población tiene la misma probabilidad de ser seleccionado se denomina muestra aleatoria simple. El hecho de que no hayamos vuelto a colocar las fichas en la bolsa después de sacarlas significa que no se puede observar lo mismo dos veces y, en tales casos, se dice que las observaciones se han muestreado sin reemplazo.

Consideremos otra forma de muestrear: Supongamos que mi sobrino abrió la bolsa y decidió sacar cuatro fichas negras sin volver a poner ninguna en la bolsa. Este esquema de muestreo sesgado se representa en la siguiente imagen. Ahora considera el valor probatorio de ver 4 fichas negras y 0 fichas blancas. Claramente, depende del esquema de muestreo. Si sabemos que el esquema de muestreo está sesgado para seleccionar solo fichas negras, entonces una muestra que consta solo de fichas negras no nos dice mucho sobre la población. Y peor todavía, si no sabemos que el esquema de muestreo está sesgado, las inferencias que podamos hacer sobre la población van a tener sesgos.


![brs](https://github.com/vmlandae/datasets_eds/blob/main/clase6/brs.png?raw=true)

Un tercer procedimiento diferente sería cuando cerramos los ojos, sacudimos la bolsa y sacamos una ficha, pero ahora registramos la observación y volvemos a poner la ficha en la bolsa. Nuevamente cerramos los ojos, sacudimos la bolsa y sacamos una ficha, y repetimos el procedimiento hasta tener las 4. Los conjuntos de datos generados de esta manera siguen siendo muestras aleatorias simples, pero debido a que volvemos a colocar las fichas en la bolsa se denomina muestreo con reemplazo. La diferencia entre esta situación y la primera es que es posible observar el mismo miembro de la población varias veces.

![srs2](https://github.com/vmlandae/datasets_eds/blob/main/clase6/srs2.png?raw=true)


Esto por supuesto es muy posible de hacer con fichas o dados pero no tanto con experimentos que involucran seres humanos, donde en general los muestreos tienden a ser sin reemplazo. Sin embargo, la mayor parte de la teoría estadística se basa en la suposición de que los datos surgen de una muestra aleatoria simple con reemplazo. En la vida real, esto usualmente no es muy importante, ya que si la población de interés es grande (de seguro más que 10 fichas), la diferencia entre el muestreo con y sin reemplazo es muy pequeña para preocuparse. La diferencia entre muestras aleatorias simples y muestras sesgadas, por otro lado, no es algo tan fácil de descartar.



## ¿Por qué la distribución normal es tan importante?

### Ley de los grandes números:
Esta ley aplica a muchos estadísticos, quizá el ejemplo más claro es cuando se aplica a la media de la muestra. Lo que establece la ley de los grandes números es que a medida que la muestra se hace más grande, la media de la muestra tiende a acercarse a la verdadera media de la población $\mu$. O, para decirlo con un poco más de precisión, a medida que el tamaño de la muestra "se acerca" al infinito ($N \to \infty$), la media de la muestra se acerca a la media de la población ($\bar{X} \to \mu $). Técnicamente, la ley de los grandes números pertenece a cualquier estadístico que pueda describirse como un promedio de cantidades independientes, como una proporción de una muestra, o como la varianza de una muestra, que se puede reescribir como una especie de promedio y, por lo tanto, está sujeta a la ley de los grandes números. Sin embargo, el valor mínimo de una muestra, por ejemplo, no puede escribirse como un promedio de nada y, por lo tanto, no se rige por la ley de los grandes números. 

### Teorema Central del Límite:


En condiciones muy generales, si $S_{n}$ es la suma de $n$ variables aleatorias independientes, con media conocida y varianza no nula pero finita, entonces la función de distribución de $S_{n}$ "se aproxima bien" a una distribución normal.   

Planteado de otra manera, la distribución muestral de un estadístico se refiere a la distribución de algun estadístico muestral entre muchas muestras extraídas de la misma población. Bajo el supuesto de independencia de las observaciones (que se puede asumir al hacer un muestreo aleatorio simple), esta distribución teórica (pues requiere de infinitos muestreos) distribuye normal y tiene ciertas propiedades.  
Gran parte de la estadística clásica se ocupa de hacer inferencias a partir de muestras (pequeñas) a poblaciones (muy grandes). Por lo general, una muestra se extrae con el objetivo de medir algo (con un estadístico de muestra) o modelar algo (con un modelo estadístico o de aprendizaje automático). Dado que nuestra estimación o modelo se basa en una muestra, podría haber un error; podría ser diferente si tomáramos una muestra diferente. Por lo tanto, estamos interesados en ver  cuán diferente podría ser; una preocupación clave es la variabilidad del muestreo. Si tuviéramos muchos datos, podríamos extraer muestras adicionales y observar la distribución de una muestra estadística directamente.


Todo esto suena un poco vago y a la vez abstracto: veámoslo en la práctica, y para eso volvemos sobre el concepto de Distribución de muestreo de un estadístico.


Veámoslo de manera más empírica: carguemos un set de datos nuevo.

## Datos Mineduc: rendimiento educacion básica y media 2021 en el Bío Bío.
Leamos el siguiente dataset

In [None]:
df_est = pd.read_csv("https://raw.githubusercontent.com/vmlandae/datasets_eds/main/clase5/rendimiento_2021_8va.csv")

Este dataset es un subconjunto de datos a nivel nacional del año 2021 facilitados por el mineduc en su [página de datos abiertos](https://datosabiertos.mineduc.cl/rendimiento-por-estudiante-2/), donde reportan el rendimiento por alumno de enseñanza básica y media. Este dataset fue filtrado y limpiado, para solo contener los estudiantes que se encontraban matriculados en instituciones de la Región del Bío Bío. La [documentación](https://github.com/vmlandae/datasets_eds/blob/main/clase5/ER%20Rendimiento%20por%20alumno%2C%20bases%20Web.pdf) nos permite revisar que es cada variable, pues no todas son tan intuitivas. 

In [None]:
df_est.columns.values

In [None]:
# SIT_FIN_R es la situación a final de año de un estudiante,
# donde P: promovido, R: reprobado, Y: Retirado, T: trasladado (se cambió de colegio) y 
# algunos datos en blanco sin información. Vamos a filtrar para dejar solo P,R,Y en el dataset
# porque así estamos contando a cada alumno solo una vez (los que se cambian tienen más de un registro)

df =  df_est.loc[df_est['SIT_FIN_R'].isin(['P','R','Y'])].reset_index()

In [None]:
print(df_est['MRUN'].nunique())
print(df_est.shape)      
print(df['MRUN'].nunique())
print(df.shape)

Estos datos son censales, por tanto si quisiéramos saber, por ejemplo, la proporción de alumnos de básica y media en la región del Bío Bío el año 2021 que asistieron a un establecimiento municipal, por ejemplo, me basta con calcularlo usando la variable `COD_DEPE2`, que cuando es 1, indica un colegio de dependencia municipal. Entonces

In [None]:
prop_municipal = round( (df['COD_DEPE2']==1).mean(),4)


No vamos a ver cual es el valor real todavía, sino que construiremos distribuciones de muestreo de la proporción haciendo muchos muestreos aleatorios simples (sin reemplazo) para $n=30$, $n=100$, $n=1000$ y $n=5000$, calculando la proporción estimada para cada muestreo y construyendo las tres distribuciones de muestreo de la proporción estimada. Luego, de estas distribuciones, vamos a ver como son las proporciones que estoy estimando con distintas muestras, y como finalmente se comparan con la proporción real.

In [None]:
# creamos variables para almacenar las proporciones estimadas de cada muestreo

municipal30 = []
municipal100 = []
municipal1000 = []
municipal5000 = []


for i in range(1000):
    municipal30.append((df['COD_DEPE2']==1).sample(30).mean())
    municipal100.append((df['COD_DEPE2']==1).sample(100).mean())
    municipal1000.append((df['COD_DEPE2']==1).sample(1000).mean())
    municipal5000.append((df['COD_DEPE2']==1).sample(5000).mean())

In [None]:
municipal30 = pd.Series(municipal30)
municipal100 = pd.Series(municipal100)
municipal1000 = pd.Series(municipal1000)
municipal5000 = pd.Series(municipal5000)
    
    


In [None]:
plt.rcParams['figure.figsize'] = (12,5)
plt.hist(municipal30, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'blue',alpha=0.4)
plt.title("Distribución de muestreo con n=30")
plt.show()    
plt.hist(municipal100, edgecolor = 'black', linewidth = 1.2, bins = 25,alpha=0.4)
plt.title("Distribución de muestreo con n=100")
plt.show()    

plt.hist(municipal1000, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'purple',alpha=0.4)
plt.title("Distribución de muestreo con n=1000")
plt.show()    
plt.hist(municipal5000, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'green',alpha=0.4)
plt.title("Distribución de muestreo con n=5000")
plt.show()    

In [None]:
plt.rcParams['figure.figsize'] = (12,5)
plt.hist(municipal30, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'blue',alpha=0.4)
plt.hist(municipal100, edgecolor = 'black', linewidth = 1.2, bins = 25,alpha=0.4)
plt.hist(municipal1000, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'purple',alpha=0.4)
plt.hist(municipal5000, edgecolor = 'black', linewidth = 1.2, bins = 25, color = 'green',alpha=0.4)
plt.title("Distribuciones de muestreo con distintos tamaños de muestra")
plt.show()    

In [None]:
print("\n para el muestreo con n=30, el promedio de la distribución muestral es:",
      round(municipal30.mean(),4), "\n y la desviación estándar de la distribución muestral es:",
      round(municipal30.std(),4),
      "\n para el muestreo con n=100, el promedio de la distribución muestral es:",
      round(municipal100.mean(),4), "\n y la desviación estándar de la distribución muestral es:",
      round(municipal100.std(),4),
      
      "\n para el muestreo con n=1000, el promedio de la distribución muestral es:",
      round(municipal1000.mean(),4), "\n y la desviación estándar de la distribución muestral es:",
      round(municipal1000.std(),4),
      "\n para el muestreo con n=5000, el promedio de la distribución muestral es:",
      round(municipal5000.mean(),4), "\n y la desviación estándar de la distribución muestral es:",
      round(municipal5000.std(),4))


Para proporciones, el teorema del límite central dice que cuando las observaciones son independientes y el tamaño de la muestra es lo suficientemente grande, la proporción de la muestra $\hat{p}$ tiende a seguir una distribución normal con la siguiente media y **error estándar** (que es la desviación estándar de esta distribución de muestreo):

$$\mu_{\hat{p}} = p $$  
  
  
$$SE_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}  }$$

El tamaño de la muestra se considera lo suficientemente grande para que el teorema del límite central aplique cuando $np \geq 10$ and $n(1 - p)\geq 10$.




In [None]:
prop_municipal

In [None]:
n=30
mu = prop_municipal 
sigma = np.sqrt(prop_municipal *(1-prop_municipal )/n)
x = np.linspace(0, 1, 100)
y1 = stats.norm.pdf(x, mu, sigma)

fig = sns.lineplot(x = x, y = y1)

ax2=fig.twinx()
ax2.tick_params(left=False, labelleft=False, top=False, labeltop=False,
                  right=False, labelright=False, bottom=False, labelbottom=False)

sns.histplot(x = municipal30, ax=ax2,stat="proportion")
                
sns.despine()

¡Fantástico!

### Recordemos 
Se deben cumplir ciertas condiciones para que aplique el TLC:

#### Independencia  
Las observaciones muestreadas deben ser independientes. Esto es difícil de verificar, pero es más posible si: 

* Se utiliza un **muestreo/asignación aleatorios** y
* En caso de muestreos sin remplazo, n < 10% de la población.

Ahora bien, en las aplicaciones en el mundo real, casi nunca observamos realmente la distribución de muestreo,y tampoco tengo el valor real de la proporción, y si podemos hacer el muestreo tantas veces como en este caso, podríamos haber calculado la proporción real directamente desde el dataset. Sin embargo, es bastante útil siempre pensar que un estimador puntual viene de esta distribución hipotética. Comprender la distribución de muestreo nos ayudará a caracterizar y dar sentido a los estimadores puntuales que sí podemos observar.

### Aplicación del teorema del límite central a un escenario del mundo real
Supongamos que no tuviéramos estos datos censales que estamos ocupando, y solo tuviésemos una muestra. No tendríamos como saber el parámetro de la proporción de la población, a menos que recolectáramos los datos ya fuera a través de una encuesta u otra forma, muy costoso y complicado de hacer por nosotros solos.  

Para hacerlo más realista, vamos a tomar una muestra aleatoria simple de $n=100$ y trabajar con ella, y vamos a tratar de estimar la proporción de estudiantes en colegios municipales de la población del Bío Bío con ella.

In [None]:
muestra_100 = df.sample(100)

En general, el promedio de una muestra (y la proporción de una muestra, que al final es un caso particular del promedio con unos y ceros) es un estimador puntual muy usado, ya que debido a sus propiedades se dice que es un buen estimador pues es *insesgado* (en promedio, el promedio de las medias muestrales es igual a la media poblacional) y *eficiente* (simplificando, que la varianza del estimador es más pequeña), propiedades matemáticas demostrables en las que no ahondaremos hoy. 
En fin, estimemos la proporción con nuestra muestra usando el promedio.

In [None]:
prop_estimada_municipales = (muestra_100['COD_DEPE2']==1).mean()

print(prop_estimada_municipales)

Suponiendo que solo tuviéramos esta información ¿la proporción de la muestra de la encuesta sería parte de una distribución de muestreo que distribuyera normal?   
Podemos comprobar las condiciones del Teorema del Límite Central:   
* Independencia. La encuesta es una muestra aleatoria simple de estudiantes de la región del Bío Bío, lo que significaría que las observaciones son independientes. 
* Condición de éxito-fracaso. Para verificar esta condición, necesitamos la proporción de la población, $p$, para verificar si tanto $np$ como $n(1-p)$ son mayores que 10. Sin embargo, en realidad no sabemos el valor del parámetro $p$!, ¡que es exactamente por lo que estamos tomado una muestra! En casos como estos, usamos $\hat{p}$, o sea,`prop_estimada_municipales` como nuestra siguiente mejor manera de verificar la condición de éxito-fracaso:

La proporción de la muestra, $\hat{p}$ actúa como un sustituto razonable de $p$ en este chequeo, y cada valor en este caso está por sobre el mínimo de 10
Esta aproximación también es útil cuando calculamos el error estándar de la proporción de la muestra:

$$SE_{\hat{p}} = \sqrt{\frac{p(1 - p)}{n}} \approx \sqrt{\frac{\hat{p}(1 - \hat{p})}{n}}  $$

In [None]:
se_phat = math.sqrt(prop_estimada_municipales*(1-prop_estimada_municipales)/100)
print(se_phat)

In [None]:
# comparando con los valores reales que conocemos:



### Intervalos de confianza para una proporción

La proporción de la muestra $\hat{p}$ provee un único valor posible para la proporción de la población $p$. 
Sin embargo, la proporción de la muestra no es perfecta y tendrá algún error estándar asociado a ella.
Cuando se establece un estimado para la proporción de la población, es una mejor práctica proveer un *rango posible de valores* en vez de entregar solo el estimador puntual


### Capturando el parámetro de la población

Usar solo un estimador puntual es como ir a pescar en un lago turbio con un arpón. Podemos tirar un arpón cuando vemos un pez, pero probablemente fallemos. Por otro lado, si tiramos una red en esa área, tenemos una buena posibilidad de atrapar al pez. Un intervalo de confianza es como pescar con una red y representa un rango de valores posibles donde posiblemente encontremos el parámetro de la población.
Si reportamos un estimador puntal $\hat{p}$, muy probablemente no demos con la proporción de la población exacta.
Por otra parte, si reportamos un rango de valores posibles, representando un intervalo de confianza tenemos una buena posibilidad de capturar el parámetro.



### Construyendo un intervalo de confianza del 95%

Nuestra proporción de la muestra $\hat{p}$ es el valor más plausible de la proporción de la población, por lo que tiene sentido construir un intervalo de confianza en torno a este estimador puntual. El error estándar provee una guía para cuán grande debiésemos hacer el intervalo de confianza.
El error estándar representa la desviación estándar del estimador puntual y cuando se satisfacen las condiciones del Teorema del Límite Central, el estimador puntual se aproxima a una distribución normal.
En una distribución normal, 95% de los datos están dentro de 1.96 desviaciones estándar del promedio.
Usando este principio, podemos construir un intervalo de confianza que se extienda en 1.96 veces el error estándar respecto de la proporción de la muestra para estar **95% seguros** de que el intervalo captura la proporción de la población:

$$point estimate \pm   1.96 \times  SE $$

$$\hat{p} \pm  1.96  \sqrt{\frac{p(1 -p)}{n}} $$

Pero, ¿qué significa “95% seguros”? Supongamos que tomamos muchas muestras y construimos un intervalo de confianza de 95% en cada una. Entonces, alrededor del 95% de esos intervalos contendría el parámetro, $p$.



### Cambiando el intervalo de confianza

Supongamos que queremos considerar intervalos donde el intervalo de confianza sea mayor a 95%, como un intervalo de confianza de 99%. Recordemos la analogía de intentar atrapar un pez: si queremos estar más seguros de que lo atraparemos, debiésemos usar una red más ancha. Para crear un nivel de confianza de 99%, también debemos ampliar nuestro intervalo de 95%. Por otro lado, si queremos un intervalo con un menor nivel de confianza, como 90%, podemos usar un intervalo ligeramente más angosto que nuestro intervalo original de 95%.


La estructura del intervalo de confianza de 95% provee una orientación sobre cómo hacer intervalos con diferentes niveles de confianza. El intervalo de confianza general de 95% para un estimador puntual que sigue una distribución normal es   
 $$point estimate \pm   1.96 \times  SE $$

Hay tres componentes en este intervalo: el estimador puntual, “1.96” y el error estándar.
La elección de 1.96 SE estaba basada en capturar 95% de los datos dado que el estimador está dentro de 1.96 veces el error estándar del parámetro alrededor del 95% de las veces. La elección de 1.96 corresponde a un intervalo de confianza de 95%.


### Intervalo de confianza usando un nivel de confianza cualquiera

Si un estimador puntual se aproxima bastante a un modelo normal con error estándar SE, entonces, un intervalo de confianza para el parámetro de la población es:  
$$point estimate \pm   z^{*} \times  SE $$  

donde $z^{*}$ corresponde al z-score que nos de el intervalo de confianza seleccionado.


### Margen de Error
En un intervalo de confianza, $z^{*}$ \times SE es denominado el margen de error.



## Teorema del límite central para el promedio:

La distribución del promedio de la muestra se puede aproximar bien a partir de un modelo normal:

$$ \bar{X} \sim \mbox{N}(\mu, SE ) $$


donde $SE$ representa el error estándar, que es definido como la desviación estándar de la distribución de muestreo, con muestras de tamaño $n$. Si $\sigma$ es desconocido, utilizamos $s$, que es la desviación estándar de la muestra (insesgada, o sea dividida por $n-1$). 
No profundizaremos en la prueba detallada de por qué $SE = \frac{\sigma}{\sqrt{n}}$, pero notemos que en la medida de $n$ aumenta, $SE$ disminuye. En la medida en que el tamaño de la muestra aumenta, podemos esperar que las muestran arrojen promedios de muestra más consistentes, dado que la variabilidad entre los promedios de la muestra sería menor. 


Se deben cumplir ciertas condiciones para que aplique el TLC:

Independiencia: Las observaciones muestreadas deben ser independientes. Esto es difícil de verificar, pero es más probable si:  
* Se utiliza un muestreo/asignación aleatorios y
* En caso de muestreos sin remplazo, n < 10% de la población.
* Sample size / skew: Ya sea que la distribución de la población sea normal o que sea “skewed”, el tamaño de la muestra es grande. Mientras más “skewed” sea la distribución de la población, necesitamos una muestra más grande para que aplique el CLT. 
* Para distribuciones moderadamente “skewed” n > 30 es aceptable

Esto también es difícil de verificar para la población,  pero podemos chequearlo utilizando los datos de la muestra y asumir que la muestra refleja lo que es la población.  


**Importante:**

El teorema del límite central dice que la distribución de probabilidad de la suma o el promedio de una gran muestra aleatoria extraída con reemplazo será aproximadamente normal, **independientemente de la distribución de la población de la que se extraiga la muestra.**
