# Estadística para Data Science: Cuaderno clase 5 p2


In [None]:
# Importando librerías

import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline
import numpy as np
import scipy.stats as stats
import seaborn as sns


Las fórmulas para las distribuciones binomial y normal son las siguientes. No las vamos a ocupar en el curso, pero como referencia las dejamos acá.


Distibución Binomial

$$
P(X | \theta, N) = \frac{N!}{X! (N-X)!}  \theta^X (1-\theta)^{N-X}
$$ 



Distribución Normal

$$
p(X | \mu, \sigma) = \frac{1}{\sqrt{2\pi}\sigma} \exp \left( -\frac{(X - \mu)^2}{2\sigma^2} \right)
$$

In [None]:
# importamos la librería random
import random

def muestreo_aleatorio(n, em):
    n=n
    em=em
    muestreo = [random.choice(em) for i in range(n)]
    muestreo = pd.Series(muestreo)
    return(muestreo)

## Lancemos monedas y dados para generar distribuciones muestrales de una proporción.

Ocupando la función que creamos, veamos la proporción de éxito de dos eventos distintos en dos espacios muestrales diferentes.

1. La proporción de caras al lanzar 10 monedas 1000 veces
2. La proporción de números menores que 6 al lanzar 3 dados 100000 veces

In [None]:
# 1.



Vamos a generar nuevamente un muestreo empírico y otro que muestrea de la distribución binomial teórica:

- `x_100_empirico` son 10000 muestreos de la suma de caras (ocupando la función que creamos) de 100 lanzamientos de monedas. Es decir, hacemos 100 lanzamientos de una moneda, sumamos la cantidad de caras y guardamos ese dato en el primer elemento de la lista. Luego repetimos lo mismo 9999 veces más y vamos agregando cada suma de caras al correspondiente elemento de la lista. Luego, convertimos esa lista a pandas.

- `x_100` Hace muestreos de una distribución binomial con parámetros específicos, donde `n` es el número de trials (en este caso, lanzamientos de monedas), `p` es la probabilidad de "exito" (en este caso, 0.5) y `size`  es el número de muestreos de una distribución binomial.


In [None]:

x = np.random.binomial(n=20, p=1/6, size=1000)

# Ve que pasa si aumentas el tamaño
# x = np.random.binomial(n=20, p=1/6, size=10000000)

skulls = sns.histplot(x, bins=20,binwidth=1)
skulls.set(xlim=(0,20))
plt.xticks(np.arange(min(x), 20, 1.0))
plt.show()


In [None]:
# completar
x_100_empirico = 


from numpy import random




x_100_empirico = np.array(x_100_empirico)

x_100 = random.binomial(n=100, p=1/2, size=10000)

In [None]:
fig, axes = plt.subplots(1, 2, figsize=(15, 5))
fig.suptitle('Coin Flips')


# Empírico (muestreos de monedas lanzadas)
sns.histplot(x_100_empirico, bins=20,binwidth=1,ax=axes[0])
axes[0].set_title('Empírico')
axes[0].set(xlim=(0,100))


# Muestreo Aleatorio de la distribución binomial correspondiente
sns.histplot(x_100, bins=20,binwidth=1, ax=axes[1])
axes[1].set_title('Binomial')
axes[1].set(xlim=(0,100))
plt.show()


## La Distribución Normal

También llamada distribución Gaussiana o Campana de Gauss, una distribución normal se describe usando dos parámetros: El promedio de la distribución $\mu$ y la desviación estándar $\sigma$. La notación habitual es

$$
X \sim \mbox{Normal}(\mu,\sigma)
$$

Hagámonos una idea de lo que significa que una variable se distribuya normalmente. Veamos la siguiente figura, que traza una distribución normal con media $\mu = 0$ y desviación estándar $\sigma = 1$. Ten en cuenta que, a diferencia de los gráficos para la distribución binomial, la imagen de la distribución normal muestra una curva suave en lugar de barras "similares a histogramas". Esta no es una elección arbitraria: la distribución normal es continua, mientras que la binomial es discreta. Por ejemplo, en el ejemplo de lanzamiento de dados de la última sección, era posible obtener 3 skulls o 4 skulls, pero era imposible obtener 3,9 skulls. Las cantidades continuas no tienen esta restricción. 

In [None]:
%matplotlib inline



mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
fig = sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma))
plt.xlabel('Observed Value')
plt.ylabel('Probability Density')

sns.despine()


In [None]:
%matplotlib inline

import numpy as np
import scipy.stats as stats
import pandas as pd
import seaborn as sns


mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(1, 10, 100)
y1 = stats.norm.pdf(x, 4, sigma)
y2 = stats.norm.pdf(x, 7, sigma)


fig = sns.lineplot(x = x, y = y1)
ax2=fig.twinx()
ax2.tick_params(left=False, labelleft=False, top=False, labeltop=False,
                   right=False, labelright=False, bottom=False, labelbottom=False)



sns.lineplot(x = x, y = y2, ax=ax2, linestyle='--')
sns.despine()



In [None]:
%matplotlib inline

import numpy as np
import scipy.stats as stats
import pandas as pd
import seaborn as sns


mu = 5

variance = 1
sigma = np.sqrt(variance)
x = np.linspace(1, 10, 100)
y1 = stats.norm.pdf(x, mu, 1)

variance = 2
sigma = np.sqrt(variance)
y2 = stats.norm.pdf(x, mu, 2)


fig = sns.lineplot(x = x, y = y1)

ax2=fig.twiny()
ax2.tick_params(left=False, labelleft=False, top=False, labeltop=False,
                   right=False, labelright=False, bottom=False, labelbottom=False)



sns.lineplot(x = x, y = y2, ax=ax2, linestyle='--')
sns.despine()



Una característica importante de la distribución normal: Independientemente de cuál sea la media real y la desviación estándar, el 68,3 % del área se encuentra dentro de 1 desviación estándar de la media. De manera similar, el 95,4 % de la distribución se encuentra dentro de las 2 desviaciones estándar de la media y el 99,7 % de la distribución se encuentra dentro de las 3 desviaciones estándar. 

In [None]:
import numpy as np
import scipy.stats as stats
import seaborn as sns

fig, axes = plt.subplots(1, 2, figsize=(15, 5), sharey=False)

mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma), ax=axes[0])


sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma), ax=axes[1])


x_fill1 = np.arange(-1, 1, 0.001)
x_fill2 = np.arange(-2, 2, 0.001)

y_fill1 = stats.norm.pdf(x_fill1,0,1)
y_fill2 = stats.norm.pdf(x_fill2,0,1)

axes[0].fill_between(x_fill1,y_fill1,0, alpha=0.2, color='blue')
axes[1].fill_between(x_fill2,y_fill2,0, alpha=0.2, color='blue')

axes[0].set_title("Shaded Area = 68.3%")
axes[1].set_title("Shaded Area = 95.4%")

axes[0].set(xlabel='Observed value', ylabel='Probability density')
axes[1].set(xlabel='Observed value', ylabel='Probability density')

sns.despine()



In [None]:

import numpy as np
import scipy.stats as stats
import seaborn as sns

fig, axes = plt.subplots(1, 2, figsize=(15, 5), sharey=False)

mu = 0
variance = 1
sigma = np.sqrt(variance)
x = np.linspace(mu - 3*sigma, mu + 3*sigma, 100)
sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma), ax=axes[0])


sns.lineplot(x = x, y = stats.norm.pdf(x, mu, sigma), ax=axes[1])


x_fill1 = np.arange(-4, -1, 0.001)
x_fill2 = np.arange(-1, 0, 0.001)

y_fill1 = stats.norm.pdf(x_fill1,0,1)
y_fill2 = stats.norm.pdf(x_fill2,0,1)

axes[0].fill_between(x_fill1,y_fill1,0, alpha=0.2, color='blue')
axes[1].fill_between(x_fill2,y_fill2,0, alpha=0.2, color='blue')

axes[0].set_title("Shaded Area = 15.9%")
axes[1].set_title("Shaded Area = 34.1%")

axes[0].set(xlabel='Observed value', ylabel='Probability density')
axes[1].set(xlabel='Observed value', ylabel='Probability density')

sns.despine()


## 2. Datos Mineduc: rendimiento educacion básica y media 2021
Lea el dataset

In [None]:
df_est = pd.read_csv("https://raw.githubusercontent.com/vmlandae/datasets_eds/main/clase5/rendimiento_2021_8va.csv")

Este dataset es un subconjunto de datos a nivel nacional del año 2021 facilitados por el mineduc en su página de datos abiertos, donde reportan el rendimiento por alumno de enseñanza básica y media, el cual fue filtrado para solo contener los estudiantes que se encontraban matriculados en instituciones de la Región del Bío Bío. Como podrás notar, la carga de datos se toma su tiempo, pues aun cuando está para solo una región, siguen siendo una gran cantidad de datos. La [documentación](https://github.com/vmlandae/datasets_eds/blob/main/clase5/ER%20Rendimiento%20por%20alumno%2C%20bases%20Web.pdf) nos permite revisar que es cada variable, pues no todas son tan intuitivas. 


Usa el atributo `.shape` del dataframe para saber cuantos casos hay en `df_est`, y cuantas variables tenemos. ¿Qué porcentaje del número de estudiantes de chile de básica y media del año 2021 son los estudiantes de la octava región?

Ahora, usando la variable `COD_ENSE2` vamos a filtrar a solo los alumnos que sean de educación media humanista científica en Jóvenes y en Adultos (es decir, valores 5 y 6 de la variable), asignándolo a un nuevo dataframe llamado `df_hc`. 

In [None]:
# Manera algo más larga
df_hc = df_est.loc[(df_est['COD_ENSE2'] == 5) | (df_est['COD_ENSE2'] == 6)]
df_hc

In [None]:
# Smart Way
df_hc = df_est.loc[df_est['COD_ENSE2'].isin([5,6])]
df_hc

In [None]:
df_hc.PROM_GRAL.hist()
