# **Estadística inferencial con *Python***
---

Este es un quiz para practicar las habilidades adquiridas usando *Python* en estadística inferencial. Utilizaremos el [dataset 80 Cereals](https://www.kaggle.com/crawford/80-cereals) de *Kaggle*. Para esto, previamente hemos realizado un proceso de limpieza y traducción adecuado para el ejercicio.

Este conjunto de datos cuenta con información nutricional de una muestra de 80 cereales:

| Variable | Definición	| Valores | 
| --- | --- | --- |
| nombre | 	Nombre del producto  | 	Cadenas de texto |
| fabricante 	| Nombre del fabricante | 'Kelloggs', 'Quaker Oats', 'General Mills', 'Nabisco', etc  |
| calorias 	| Calorías por porción. 	| Numéricos |
| proteina |	Gramos de proteína. 	|Numéricos |
| grasa |	Gramos de grasas saturadas. 	| Numéricos|
| sodio |	Miligramos de sodio. 	|Numéricos |
| fibra dietaria |	Gramos de fibra dietaria. 	| Numéricos|
| carbohidratos |	Gramos de carbohidratos complejos. 	|Numéricos |
| potasio |	Miligramos de potasio. 	|Numéricos |
| vitaminas y minerales |	Porcentaje de vitaminas y minerales. 	|Numéricos |



In [9]:
# Importar librerías
import pandas as pd
import numpy as np
import scipy
from scipy import stats
import statsmodels.api as sm

## **0.  Leer el archivo de datos**
---

In [8]:
cereal_df = pd.read_csv('data/cereal.csv')

cereal_df.head()

In [7]:
cereal_df.info()

## **1. Valores nutricionales medios con confianza**
---
Usted es parte de un equipo que está trabajando en un análisis nutricional de la muestra de productos recolectada en el *dataset* de cereales. En un primer acercamiento se le encomienda la tarea de encontrar el valor promedio, en forma de intervalo de confianza, de la información nutricional de una variable dada (por ejemplo, el total de azúcar o calorias) de los productos de un fabricante específico de cereales.

Para esto, deberá definir la función **`valor_medio_intervalo`**, que tomará como entrada el nombre del **`fabricante`**, la columna o **`variable`** sobre la que debe realizar el cálculo y el nivel de **`confianza`** deseado para el cálculo del intervalo.

**Entradas:**
  * **`fabricante`**: Nombre del fabricante (**_Kelloggs_, _Quaker Oats_, _General Mills_, etc**).
  * **`variable`**: Nombre de la variable numérica sobre la que se realiza el cálculo (**azúcares, grasa, proteina, etc**).
  * **`confianza`**: Nivel **$\beta$** de confianza del intervalo.

**Salidas:**
  * **`inicio`**: Límite inferior del intervalo de confianza. 
  * **`final`**:  Límite superior del intervalo de confianza. 


Por ejemplo, si un miembro del equipo desea conocer el valor medio de **azúcar** del fabricante ***Kelloggs*** con un $95\%$ de confianza, el resultado de la ejecución debería ser el siguiente intervalo:

```python
>>> valor_medio_intervalo('Kelloggs', 'azúcar', 0.95)
(5.618939147403277, 9.511495635205419)
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>
<p>

* Recuerde la distinción entre nivel de **confianza** ($\beta$) y nivel de  **significancia** ($\alpha$).
* Puede realizar selección condicional en un eje y selección por etiquetas en otro con el atributo **`.loc`** para obtener el *dataset* seleccionando únicamente con los datos de interés.
* Consulte el material de estadística inferencial para saber cómo realizar un intervalo de confianza con **`statsmodels`**. No es necesario que utilice el método analítico.
</p>

In [None]:
# FUNCIÓN CALIFICADA valor_medio_intervalo: 

def valor_medio_intervalo(fabricante, variable, confianza):
  ### ESCRIBA SU CÓDIGO AQUÍ ### (~ 3 líneas de código)

  subconjunto = None           # Seleccione únicamente los datos de interés (fabricante, variable) a partir del dataset 'cereal_df'
  inicio, final  = None, None  # Ejecute la función estadística necesaria para obtener el intervalo de confianza.

  return inicio, final
  ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
valor_medio_intervalo('Kelloggs', 'calorias', 0.95)

**Salida esperada:**
```python
(99.08751461234769, 118.3037897354784)
```

## **2. ¿Existe alguna diferencia nutricional significativa entre los productos de *Kelloggs* y *General Mills*?**
---
Como parte del proceso de análisis se decide identificar si un fabricante ofrece productos cuyos valores nutricionales medios presenten diferencias significativas con respecto a los ingredientes y valores nutricionales de otro fabricante. En particular, tras un análisis exploratorio previo, se decidió explorar estas diferencias específicamente entre los fabricantes *Kelloggs* y *General Mills*. Esto obedece a que al explorar el conteo de valores por fabricante, se tiene que estos ofrecen un número similar de productos y son los más representativos en el mercado de cereales identificado.

In [None]:
#TEST_CELL
cereal_df['fabricante'].value_counts()

Por otro lado, si calculamos los valores medios de las variables numéricas agrupando por fabricante podemos notar algunas diferencias notables en varias de las variables medidas. 

**¿Alguna de estas diferencias es estadísticamente significativa?**

In [None]:
#TEST_CELL
cereal_df.groupby('fabricante').mean().loc[['Kelloggs', 'General Mills']]

En este ejercicio deberá escribir la función **`cereales_hipotesis_media`**. Esta función realiza un test de hipótesis sobre la diferencia de medias de una **`variable`** dada, con un nivel de **`confianza`** deseado, para los fabricantes ***Kelloggs*** y ***General Mills***. A partir de los resultados del test de hipótesis debe determinar:

*  Si se puede llegar o no a una **`conclusión`** significativa con el valor de confianza deseado.
*  El **`p-valor`** de la prueba.
*  El nombre del fabricante con **`mayor`** y **`menor`** valor según la media muestral, en ese orden.


**Entradas:**
  * **`variable`**: Nombre de la variable numérica sobre la que se realiza el cálculo (**azúcares, grasa, proteína, etc.**).
  * **`confianza`**: Nivel **$\beta$** de confianza del intervalo.

**Salidas:**
  * **`conclusión`**: Valor Booleano (`True` o `False`) indicando si hay una diferencia significativa. 
  * **`p_valor`**:  El **`p-valor`** de la prueba. 
  * **`mayor`**:  El nombre del fabricante con el valor mayor según la media muestral. 
  * **`menor`**:  El nombre del fabricante con el valor menor según la media muestral. 

Por ejemplo, si se deseara comparar la cantidad de **azúcar** con un valor de confianza del $95\%$, el resultado de la ejecución debería ser el siguiente:


```python
>>> cereales_hipotesis_media('azúcar', 0.95)
(False, 0.7577470989748843, 'General Mills', 'Kelloggs')
```




<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>
<p>

* Recuerde la distinción entre **confianza** ($\beta$) y **significancia** ($\alpha$).
* Consulte el material de estadística inferencial para saber cómo realizar un test de hipótesis con **`scipy`**. No es necesario que utilice el método analítico.
* Tenga en cuenta que el test está diseñado para identificar si **existe una diferencia significativa**, y no se conoce ni hipotetiza cuál de las dos debería ser mayor. ¿Qué tipo de *hipótesis* es esta y qué relación tiene con la significancia utilizada?
* Considere el tamaño de las muestras y demás factores. ¿Qué prueba de hipótesis discutida y ejemplificada en el material guía es la más apropiada?
</p>

In [None]:
# FUNCIÓN CALIFICADA cereales_hipotesis_media:

def cereales_hipotesis_media(variable, confianza):
  # Seleccionamos los fabricantes que nos interesan
  kelloggs = cereal_df.loc[cereal_df['fabricante'] == 'Kelloggs']
  general_mills = cereal_df.loc[cereal_df['fabricante'] == 'General Mills']

  ### ESCRIBA SU CÓDIGO AQUÍ ### (~ 5 líneas de código)
  stat, pvalor = None, None     # Ejecute la prueba estadística más apropiada. 

  conclusion = None          # Utilice el resultado de la prueba para determinar si la diferencia es significativa o no (conclusión).
  mayor, menor = None, None  # Asigne el nombre de cada fabricante a la variable correspondiente de acuerdo al resultado.
  
  
  ### FIN DEL CÓDIGO ###
  return conclusion, pvalor, mayor, menor

In [None]:
#TEST_CELL

cereales_hipotesis_media('azúcar', 0.95)

**Salida esperada:**
```python
(False, 0.7577470989748843, 'General Mills', 'Kelloggs')
```

Puede usar la siguiente celda de pruebas para probar su función. En esta se lleva a cabo la prueba en todas las variables con un nivel de confianza del $90\%$.

In [None]:
#TEST_CELL

confianza = 0.9
print(f'Con un valor de confianza de {confianza}')
print('-------------------------------------------')
for variable in cereal_df.select_dtypes(np.number).columns: # select_dtypes para tener en cuenta solo variables numéricas.
  conclusion, pvalor, mayor, menor = cereales_hipotesis_media(variable, confianza)
  if (conclusion):
    print(f'Los productos de {mayor} tienen mayor cantidad de {variable} que los de {menor} con un p-valor de {pvalor:.4f}.\n') #  :.4f para aproximar a 4 decimales.
  else:
    print(f'No se puede afirmar que existe una diferencia en la cantidad de {variable}. (p-valor: {pvalor:.4f})\n')

**Salida esperada:**
```python
Con un valor de confianza de 0.9
-------------------------------------------
No se puede afirmar que existe una diferencia en la cantidad de calorias. (p-valor: 0.6111)

No se puede afirmar que existe una diferencia en la cantidad de proteina. (p-valor: 0.3141)

Los productos de General Mills tienen mayor cantidad de grasa que los de Kelloggs con un p-valor de 0.0011.

No se puede afirmar que existe una diferencia en la cantidad de sodio. (p-valor: 0.2096)

No se puede afirmar que existe una diferencia en la cantidad de fibra dietaria. (p-valor: 0.0505)

No se puede afirmar que existe una diferencia en la cantidad de carbohidratos. (p-valor: 0.7344)

No se puede afirmar que existe una diferencia en la cantidad de azúcar. (p-valor: 0.7577)

No se puede afirmar que existe una diferencia en la cantidad de potasio. (p-valor: 0.4185)

No se puede afirmar que existe una diferencia en la cantidad de vitaminas y minerales. (p-valor: 0.9547)
```

¿Cómo se puede interpretar este resultado? Por favor, siempre analice e interprete sus hallazgos.