# Sesión 05: Análisis de correlación

Un medida útil para evaluar el grado de relación lineal entre dos variables cuantitativas es el coeficiente de correlación de Pearson. Este coeficiente puede tomar valores entre -1 y 1, donde valores positivos indican una relación directa, valores negativos indican una relación inversa, y cuanto más cercano sea a 0 más débil es esta relación. 

Para calcular un coeficiente de correlación de Pearson entre dos columnas se puede utilizar el método *corr()* de Pandas. Por ejemplo:
`correlacion = df['X'].corr(df['Y'])`  

Para calcular el coeficiente de correlación de Spearman se puede agregar como argumento:  
`correlacion = df['X'].corr(df['Y'], method='spearman')`  

In [None]:
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
df = pd.read_excel('https://github.com/adan-rs/AnalisisDatos/raw/main/s04_estadistica_descriptiva/data/b02_enigh2020.xlsx')

In [None]:
# Calcula la correlación entre "ing_cor" y "gasto_mon"
correlacion = df['ing_cor'].corr(df['gasto_mon'])
correlacion

Si se tiene un DataFrame *df* de variables cuantitativas se puede obtener la matriz de correlaciones utilizando `df.corr()`

In [None]:
var_cont = ["ing_cor", "gasto_mon", "edad_jefe", "tot_integ"]
matriz_corr = df[var_cont].corr()
matriz_corr

In [None]:
ax = sns.heatmap(matriz_corr, annot=True, cmap='Greens')
ax.set_title('Mapa de calor de las correlaciones');

## Prueba de hipótesis para la correlación

*¿Para qué se utiliza?* Se utiliza para evaluar si existe una relación o no entre dos variables cuantitativas. Esta prueba evalúa si el coeficiente de correlación de Pearson (r) entre las dos variables es significativamente diferente de cero.

*Variables*. Se consideran dos variables cuantitativas con escala de medición de razón o de intervalo.

*Hipótesis*. Las hipótesis son:
- Hipótesis nula (H0):  No existe una correlación entre las dos variables (r = 0).
- Hipótesis alternativa (H1): Existe una correlación entre las dos variables (r ≠ 0).

*Supuestos principales* 
- La relación entre ambas variables debe ser lineal.
- La distribución de los datos debe ser normal.

*Procedimiento*. Se recomienda utilizar la biblioteca *scipy.stats* debido a que permite obtener el valor p. Para ello se puede usar:  
`corr_coef, p_valor = pearsonr(df['X'], df['Y'])`

In [None]:
from scipy.stats import pearsonr

In [None]:
corr_coef, p_valor = pearsonr(df['ing_cor'], df['gasto_mon'])

In [None]:
print('Coeficiente de correlación: ', corr_coef) 
print('Valor p', p_valor)

Ejemplo de reporte de metodología y resultados:
> “Se realizó una prueba de correlación de Pearson para evaluar la relación entre el ingreso corriente y el gasto monetario. Se encontró una correlación positiva significativa entre ambas variables (r = 0.6184. p < 0.001)”

## Comentarios adicionales
El coeficiente de correlación de Spearman es una alternativa apropiada cuando las variables son ordinales, existen relaciones monótonas no lineales, o la distribución no es normal.  
`from scipy.stats import spearmanr`  
`corr_coef, p_value = spearmanr(x, y)`

El caso del "datasaurio" ilustra bien la importancia de graficar las variables
https://www.scientificamerican.com/article/what-this-graph-of-a-dinosaur-can-teach-us-about-doing-better-science/ 

## Práctica

Utilizando el mismo dataframe del ejemplo, realiza una prueba de hipótesis para la correlación para evaluar si existe una relación significativa entre el ingreso y alguna de las variables de gasto.