# **Análisis de correlaciones con *Python***
---

Este es un quiz para practicar las habilidades adquiridas usando *Python* en el análisis de correlación. Utilizaremos el [dataset 80 Cereals](https://www.kaggle.com/crawford/80-cereals) de *Kaggle*. Para esto, previamente hemos realizado un proceso de limpieza y traducción adecuado para el ejercicio.

Este conjunto de datos cuenta con información nutricional de una muestra de 80 cereales:

| Variable | Definición	| Valores | 
| --- | --- | --- |
| nombre | 	Nombre del producto  | 	Cadenas de texto |
| fabricante 	| Nombre del fabricante | 'Kelloggs', 'Quaker Oats', 'General Mills', 'Nabisco', etc  |
| calorias 	| Calorías por porción. 	| Numéricos |
| proteina |	Gramos de proteína. 	|Numéricos |
| grasa |	Gramos de grasas saturadas. 	| Numéricos|
| sodio |	Miligramos de sodio. 	|Numéricos |
| fibra dietaria |	Gramos de fibra dietaria. 	| Numéricos|
| carbohidratos |	Gramos de carbohidratos complejos. 	|Numéricos |
| potasio |	Miligramos de potasio. 	|Numéricos |
| vitaminas y minerales |	Porcentaje de vitaminas y minerales. 	|Numéricos |

Ejecute la siguiente celda para importar las librerías.

In [1]:
# Importar librerías
import pandas as pd
import numpy as np
from scipy import stats
import scipy

## **0.  Leer el archivo de datos**
---

In [3]:
### EJECUTAR ESTA CELDA SIN MODIFICARLA. SI FALLA, DEBE SEGUIR EL PROCEDIMIENTO DESCRITO ANTES.
cereal_df = pd.read_csv('data/cereal.csv')

cereal_df.head()

In [None]:
#TEST_CELL
cereal_df.info()

## **1. Información nutricional con mayor relación**
---
Este conjunto de datos refleja la información nutricional de distintos cereales. En él, se realizaron mediciones como cantidad de azúcar, calorías, grasas, fibra, entre otros. Una pregunta que se puede plantear es si existe una relación directa entre la magnitud de estas variables de información nutricional. 

Su tarea es identificar las variables de la información nutricional con mayor relación lineal con respecto a una variable dada. Para esto, implemente la función **`ingredientes_mas_relacionados`** que retorne un objeto *Series* de *pandas* cuyo índice sean las demás variables numéricas del *DataFrame* **`cereal_df`**, y cuyos valores sean la magnitud de los coeficientes de **correlación de *Pearson*** con respecto a la variable de entrada, ordenados de mayor a menor magnitud.

**Entrada:**
  * **`variable`:** Nombre de la variable sobre la cual se calculan las correlaciones.

**Salida:**
  * **`ingredientes`:** Objeto *Series* con las magnitudes de la correlación de cada variable numérica con la variable de entrada, ordenada de mayor a menor magnitud. Este objeto **NO** debe contener la **`variable`** usada como referencia.


Por ejemplo, si se desea obtener la serie con las correlaciones asociadas a la variable **"azúcar"**, el resultado de la ejecución sería el siguiente:

```python
>>> ingredientes_más_relacionados('azúcar')

calorias                 0.547685
proteina                 0.381669
carbohidratos            0.340435
grasa                    0.229358
fibra dietaria           0.165885
vitaminas y minerales    0.132193
sodio                    0.114690
potasio                  0.019051
Name: azúcar, dtype: float64
```

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>
<p>

* La matriz de correlación calculada con el método **`corr`** de un *DataFrame* es también un *DataFrame*.
* La magnitud de una correlación no es el valor del coeficiente. Por ejemplo, correlaciones negativas y positivas pueden tener la misma magnitud.
* Puede usar el método **`sort_values`** para ordenar un objeto de *pandas*.
* La correlación de una variable consigo misma es igual a $1.0$. Para esta tarea, ese valor es el mayor de todos y tiene que ser excluido. Se le recomienda esperar hasta el último paso para eliminar este registro por su conveniente ubicación.



</p>

In [None]:
# FUNCIÓN CALIFICADA ingredientes_más_relacionados

def ingredientes_mas_relacionados(variable):
  ### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1-6 líneas de código)
  
  matriz_corr = None     # Obtenga la matriz de correlación.
  serie = None           # Genere la serie a partir de la cual realizar las operaciones.

  # Modifique la serie teniendo en cuenta lo solicitado.
  # Tenga en cuenta su magnitud, contenido y orden.


  return serie
  ### FIN DEL CÓDIGO ###

In [None]:
#TEST_CELL
ingredientes_mas_relacionados('fibra dietaria')

**Salida esperada:**

---

```python
potasio                  0.906521
proteina                 0.498610
calorias                 0.355982
carbohidratos            0.355039
azúcar                   0.165885
sodio                    0.067327
vitaminas y minerales    0.028791
grasa                    0.020329
Name: fibra dietaria, dtype: float64
```

## **2. Correlación alta y significativa**
---
El cálculo de un estadístico en una muestra, como es el caso del coeficiente de correlación, puede estar influenciado por un sesgo o por la aleatoriedad del proceso de muestreo. Es importante validar si a partir de una muestra, la correlación calculada es estadísticamente significativa. Su tarea es implementar la función **`relación_alta_significativa`**, que evalúa si dos variables cualquiera del conjunto de datos **cereal_df** están correlacionadas significativamente, tomando como referencia el coeficiente de correlación de *Pearson*. 

La función tiene como parámetro opcional un valor entre $0.0$ a $1.0$ (**`min_mag`**) que representa la magnitud mínima que debe tener la correlación para ser considerada alta. La función debe retornar `True` si la relación entre las variables dadas es **alta y significativa**. De lo contrario, la función debe retornar **`False`**.

**Entradas:**
* **`var_a`:** Nombre de la primera variable en la relación.
* **`var_b`:** Nombre de la segunda variable en la relación.
* **`min_mag`:** Magnitud mínima que debe tener la correlación. Por defecto es **`0.5`**.
* **`confianza`:** Nivel de confianza esperado. Por defecto es **`0.95`**.

**Salidas:**
  
  * **`es_alta_significativa`:** Valor booleano retornando si se acepta **(`True`)** o no **(`False`)** la correlación. Es decir: si es alta y significativa.



Por ejemplo, si se desea saber si la relación de **"azúcar"** y **"grasa"** es alta y significativa, con los valores de confianza y magnitud mínima por defecto, el resultado de la ejecución sería el siguiente:


```python
>>> relación_alta_significativa('azúcar', 'grasa')
False
```
  
  

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>
<p>

* Recuerde la distinción entre la significancia $\alpha$ y la confianza $\beta$.
* Utilice algún método de **SciPy** para calcular correlaciones con su **p-valor**.
* Se debe validar que se cumple la condición de significancia y la condición de magnitud de la correlación. Si alguna no se cumple la correlación no es aceptada.
* Se debe evaluar que el valor obtenido tiene por lo menos cierta **magnitud**. Trate con especial cuidado los valores negativos. Recuerde que se debe revisar la **magnitud** de la correlación, y no su **dirección**.




</p>

In [None]:
# FUNCIÓN CALIFICADA relación_alta_significativa:

def relacion_alta_significativa(var_a, var_b, min_mag = 0.5, confianza = 0.95):
  ### ESCRIBA SU CÓDIGO AQUÍ ### (~ 2-4 líneas de código)
  
  corr, pvalor = None, None       # Calcule el coeficiente de correlación con su p-valor asociado.
  es_alta_significativa = None    # Utilice los resultados obtenidos para determinar si la correlación es aceptada.
  
  ### FIN DEL CÓDIGO ###

  return es_alta_significativa

In [None]:
#TEST_CELL
relacion_alta_significativa('calorias', 'azúcar')

**Salida esperada:**

---
```python
True
```

In [None]:
#TEST_CELL
relacion_alta_significativa('grasa', 'potasio')

**Salida esperada:**

---

```python
False
```

In [None]:
#TEST_CELL
relacion_alta_significativa('proteina', 'fibra dietaria', min_mag=0.45)

**Salida esperada:**

---

```python
True
```

In [None]:
#TEST_CELL
relacion_alta_significativa('calorias', 'azúcar', min_mag = 0.85)

**Salida esperada:**

---

```python
False
```