# Correlaciones en python

En esta sesion aprenderemos a calcular correlaciones utilizando python. Primeramente cargaremos un dataset

In [1]:
from sklearn.datasets import load_iris
import pandas as pd

data = load_iris()
df = pd.DataFrame(data.data, columns=data.feature_names)

df["target"] = data.target

In [2]:
## Podemos calcular directamente una matriz de correlacion de pearson

df.corr()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
sepal length (cm),1.0,-0.11757,0.871754,0.817941,0.782561
sepal width (cm),-0.11757,1.0,-0.42844,-0.366126,-0.426658
petal length (cm),0.871754,-0.42844,1.0,0.962865,0.949035
petal width (cm),0.817941,-0.366126,0.962865,1.0,0.956547
target,0.782561,-0.426658,0.949035,0.956547,1.0


Para mas detalles acerca del estadistico de correlacion usamos la libreria scipy stats

In [3]:
import scipy.stats as ss

In [4]:
## Correlacion de Pearson

coef, p = ss.pearsonr(df["sepal length (cm)"], df["petal length (cm)"])

print(f"Coeficiente de correlacion de Pearson: {coef} // p-value: {p}")

Coeficiente de correlacion de Pearson: 0.8717537758865833 // p-value: 1.0386674194496954e-47


In [5]:
## Correlacion de Spearman

coef, p = ss.spearmanr(df["sepal length (cm)"], df["petal length (cm)"])

print(f"Coeficiente de correlacion de Spearman: {coef} // p-value: {p}")

Coeficiente de correlacion de Spearman: 0.881898126434986 // p-value: 3.4430872780470036e-50


In [6]:
## Para correlacion entre una variable binaria y una continua, esta la correlacion de punto biserial

x = [0,1,0,0,1,0,1]
y = [5,10,2,3,17,2,18]

coef, p = ss.pointbiserialr(x, y)

print(f"Coeficiente de correlacion de punto biserial: {coef} // p-value: {p}")

Coeficiente de correlacion de punto biserial: 0.9212616274693874 // p-value: 0.003201477335157002


In [7]:
## Para variables ordinales (rankings) tenemos la correlacion de kendall-tau 

x1 = [12, 2, 1, 12, 2]
x2 = [1, 4, 7, 1, 0]

coef, p = ss.kendalltau(x1, x2)

print(f"Coeficiente de correlacion de kendall-tau: {coef} // p-value: {p}")

Coeficiente de correlacion de kendall-tau: -0.4714045207910316 // p-value: 0.2827454599327748


Hay mas coeficientes de correlacion, pueden revisarlos en: https://docs.scipy.org/doc/scipy/reference/stats.html#correlation-functions