# Sprint 5 - Análisis Exploratorio de Datos (Ejercicios)
**Versión para estudiantes**

En estos ejercicios se busca aplicar los conocimientos adquiridos para el desarrollo de **Análisis Exploratorio de Datos**. En concreto, se van a tratar 3 aspectos conceptuales importantes:

* Ley de los grandes números
* Teorema del límite central
* Pruebas de hipótesis

## Ley de los grandes números

La Ley de los grandes números especifica que el estadístico $\bar\theta$ de una muestra de tamaño $n$ extraída de una población cualquiera, convergerá hacía el estadístico poblacional $\theta$ a medida que $n$ aumenta. En términos matemáticos si recurdas algo de límites esta definición sería así:

$$ \lim_{n\rightarrow \infty} \bar\theta = \theta $$

Si consideramos por ejemplo al estadístico **media**, lo que nos dice esta ley es que el promedio de una parte (muestra) de un conjunto de datos (población), será similar al promedio de todo el conjunto siempre que esa parte sea suficientemente grande.

Vamos a probar esto con nuestros conocimientos de Python.

### Ejercicio 1

Importa la librería **random** y genera 2,000 valores aleatorios entre 0 y 100 utilizando un bucle y la función `randint` de esta librería. Guarda estos valores en una lista llamada `poblacion`.

Calcula el promedio de esta población y guárdala en la variable `prom_poblacion`. Seguramente te sirve importar **numpy**.

Extrae una muestra aleatoria de tamaño 5 de tu población utilizando la función `sample` de la librería `random`. Guarda tu resultado en la variable `muestra`.

Calcula el promedio de esta muestra y guárdala en una variable `prom_muestra`.

Es posible que el promedio de la muestra obtenido no sea tan parecido al de la población. No te preocupes, usaremos la lógica de la ley de los grandes números para mejorar esta aproximación.

### Ejercicio 2

Crea una lista `promedios` que contenga cálculos del promedio de muestras de forma equivalente al realizado en el ejercicio anterior. Solamente que ahora considera como tamaño de las muestras valores que inicien en 5 y terminen en 1,500, con saltos de 5 unidades (es decir, 5, 10, 15, 20, 25, ..., 995, 1000, ..., 1495, 1500). 

Crea un dataframe con **pandas** que contenga dos columnas:

* La primera debe especificar los tamaños de muestra que utilizaste en el código anterior.
* La segunda debe especificar los valores guardados en tu lista `promedios`.

Grafica de forma simple la evolución de los promedios obtenidos a medida que se incrementa el tamaño de la muestra. Incluye una linea horizontal en color rojo que muestre el promedio de la población.

Si todo fue hecho correctamente hasta ahora, deberías evidenciar que el promedio de las muestras converge hacia el promedio de la población a medida que el tamaño de muestra aumenta. Justamente lo que indica la ley de los grandes números.

### Ejercicio 3

Intenta comprobar que esta ley igualmente se cumple para otros estadísticos como la desviación estandar. Puedes utilizar la función `np.std`.

## Teorema del límite central

El teorema del límite central especifica que la distribución del promedio de una muestra aleatoria extraída de una población, tenderá a ser *Normal* a medida que el tamaño de muestra $n$ se incrementa. Además esta distribución tendrá los siguientes parámetros:

* Centralidad en la media de la población.
* Error estandar $s = \sigma/\sqrt{n}$, donde $\sigma$ corresponde a la desviación estandar poblacional.

En términos más "casuales" aunque no tan precisos, este teorema nos dice que el promedio de cualquier variable sigue una distribución en forma de campana si se cuenta con la suficiente cantidad de observaciones.

Vamos a verificarlo con nuestros conocimientos de Python.

### Ejercicio 1

Simula el lanzamiento de un dado común utilizando nuevamente la función `randint`. Por si necesitas saberlo un dado común es aquel que tiene 6 caras y que al lanzarlo cada cara tiene igual probabilidad de salir.

Imagina ahora que lanzas el dado 50 veces. Guarda los resultados obtenidos en una lista llamada `lanzamientos`. 

Calcula el promedio de tus lanzamientos y guarda el resultado en la variable `prom_lanzamientos`.

Si has hecho todo bien hasta ahora, el promedio obtenido debería ser un valor cercano a $3.5$. ¿Podrías intuir por qué este valor?

### Ejercicio 2

Repite 10 veces este experimento de lanzar 50 dados. Guarda el promedio de cada una de estas iteraciones en una variable llamada `promedios`. 

**NOTA:** Vale señalar que para efectos de asimilar lo solicitado con la definición del Teorema del límite central, nuestro tamaño de muestra $n$ sería 10.  

Grafica estos resultados en un histograma simple que tenga aproximadamente $\sqrt{n}$ columnas. Recuerda que en este caso $n$ sería 10. 

El gráfico no parece sugerir que este promedio siga una distribución *Normal*. No te preocupes, vamos a llegar a ello con el Teorema del límite central.

### Ejercicio 3

Define la funcion `tlc` que automatice el proceso del ejercicio anterior, tomando como entrada un valor n y devolviendo un histograma. 

Utiliza tu función `tlc` para ver la distribución resultante en un tamaño de muestra $n$ de 100.

Repite el ejercicio con tamaños de muestra de 1,000 y 10,000.

Si todo se ha hecho correctamente, notarás que los últimos histogramas tienen una forma muy familiar: la de una distribución *Normal*. Justamente aquella predicha por el Teorema del limite central.

## Pruebas de hipótesis

### Ejercicio 1

Importa el dataset **iris**. En esta tabla encontrarás información de características asociadas a 3 tipologías de 150 variedades de flores. 

Mira en más detalle este dataset para que te familiarices con su contenido y estructura.

### Ejercicio 2

Has un resumen estadístico de tu dataset.

Al parecer el promedio de petal_length es un poco menor a 4 unidades. Comprueba estadísticamente esta hipótesis con una significancia del 1% y utilizando la función `ttest_1samp` de la librería **scipy**.

**HIPÓTESIS NULA Y ALTERNATIVA**

< Aquí tu respuesta >

Guarda el "estadístico de prueba" en la variable `est`, y que lo puedes encontrar en el atributo `statistic`.

### Ejercicio 3

Vamos a entender cómo funciona esta prueba t paso a paso. En primer lugar, guarda el promedio de la columna petal_length en la variable `prom`.

Calcula el error estandar $s$ de este promedio y guarda el resultado en la variable `error`. Recuerda que de acuerdo al Teorema del liímite central se cumple que

$$ s = \frac{\sigma}{\sqrt{n}} $$

donde $\sigma$ es la desviación poblacional que la podemos **aproximar** mediante la desviación de la columna petal_length. 

**NOTA:** Utiliza la función `np.std` e  incorpora el argumento `ddof = 1`. Esto es un ajuste importante dada la aproximación que estamos haciendo.

Estandariza la variable `prom` con centro en 4 y scala $s$ y guarda este resultado en la variable `prom_est`. Esto es, aplica la siguiente fórmula:

$$ prom_{est} = \frac{prom - 4}{error} $$

Si hiciste todo bien, el valor obtenido es el mismo que el estadístico de tu prueba t. Compruébalo ejecutando el siguiente código:

```py
prom_est == est
```

El *valor p* está directamente asociado con este promedio estandarizado puesto que corresponde a la probabilidad acumulada (cdf) asociada a este valor. Utiliza de función `t.cdf` de **scipy** para verificarlo.

**NOTA:** En dicha función incorpora el argumento `df` con un valor igual a $n - 1$.