# Relaciones y correlaciones

## Objetivos

Aprender a encontrar relaciones entre las columnas de nuestro Data Frame.

## Introducción

La correlación entraría en el EDA que hemos de aplicar a nuestros datos casi al commienzo para entender cómo se comportan. A diferencia de otras medidas, las medidas de relación entre variables como la covarianza o la correlación implica la existencia de más de una variable.

Conocer la relación que existe entre variables nos puede ayudar para la fase de selección de variables de cara a un modelo, para optimizar la recogida de datos, para detectar patrones interesantes y para generar mayor conocimiento sobre el problema.


Pandas nos permite calcular la correlación entre dos columnas, así como una matriz de correlación. También podemos explorar otros tipos de relaciones entre columnas además de la correlación lineal.

Ojo, [correlación no implica causalidad](http://www.tylervigen.com/spurious-correlations)

### Correlación entre dos columnas

Para calcular la correlación lineal entre dos columnas, usamos la función corr. Lo aplicamos a una columna y pasamos la otra columna como un argumento a la función.

En nuestro Data Set 'vehicles', nos gustaría calcular la correlación entre 'City MPG' y 'Highway MPG'.

In [2]:
import numpy as np
import pandas as pd

vehicles = pd.read_csv('Data/vehicles.csv')
vehicles['City MPG'].corr(vehicles['Highway MPG'])

0.9238555885288396

Una correlación cercana a 1 significa una fuerte relación lineal positiva entre las dos variables. Aquí la correlación es superior al 92%. Esto indica una fuerte relación lineal entre el rendimiento (MPG) entre ciudad y carretera de los vehículos.

### Matriz de Correlación


En lugar de calcular la correlación para cada par de columnas, podemos calcular todas las correlaciones a la vez. En nuestro caso no todas las correlaciones serán significativas. Por ejemplo, la columna de año podría contener un valor numérico pero es ordinal. Por lo tanto, la correlación de año con valores como MPG o costo de combustible por año igual no tiene mucho sentido. Ahí entra en juego el juicio de cada uno.

In [3]:
vehicles.corr()

Unnamed: 0,Year,Engine Displacement,Cylinders,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
Year,1.0,0.037876,0.082469,-0.221084,0.161818,0.267259,0.204751,-0.2223,-0.091913
Engine Displacement,0.037876,1.0,0.901858,0.789752,-0.740317,-0.715039,-0.746782,0.80352,0.769678
Cylinders,0.082469,0.901858,1.0,0.739517,-0.703866,-0.650287,-0.698648,0.752393,0.778153
Fuel Barrels/Year,-0.221084,0.789752,0.739517,1.0,-0.877752,-0.909664,-0.909743,0.986189,0.916208
City MPG,0.161818,-0.740317,-0.703866,-0.877752,1.0,0.923856,0.985457,-0.894139,-0.858645
Highway MPG,0.267259,-0.715039,-0.650287,-0.909664,0.923856,1.0,0.969392,-0.926405,-0.851404
Combined MPG,0.204751,-0.746782,-0.698648,-0.909743,0.985457,0.969392,1.0,-0.926229,-0.875185
CO2 Emission Grams/Mile,-0.2223,0.80352,0.752393,0.986189,-0.894139,-0.926405,-0.926229,1.0,0.930865
Fuel Cost/Year,-0.091913,0.769678,0.778153,0.916208,-0.858645,-0.851404,-0.875185,0.930865,1.0


La diagonal de una matriz de correlación es siempre 1, ya que cada variable tiene una correlación perfecta consigo misma. Podemos ver algunas relaciones interesantes. Por ejemplo, el desplazamiento del motor tiene más del 90% de correlación con el número de cilindros. El costo del combustible por año tiene una fuerte correlación negativa con el MPG combinado. Todos los grupos de MPG tienen una fuerte correlación entre sí.

### Otros tipos de Correlación

La función .corr de pandas permite tres tipos de correlación.

El primero que exploramos se llama correlación de Pearson. La correlación de Pearson evalúa la relación lineal entre dos variables continuas. Una relación es lineal cuando un cambio en una variable se asocia con un cambio proporcional en la otra variable.

Por ejemplo, imagina que tienes una fábrica de chocolate. Podría serte útil usar una correlación de Pearson para evaluar si los aumentos de temperatura en tus instalaciones de producción están asociados con una disminución en el espesor de las capas de chocolate.

Sin embargo, también podemos examinar los otros dos tipos de correlación.

#### Correlación de Spearman (medida no paramétrica de correlación)

La [correlación de Spearman](https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/correlation-and-covariance/a-comparison-of-the-pearson-and-spearman-correlation-methods/) evalúa [la relación monótona](https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-statistics/supporting-topics/basics/linear-nonlinear-and-monotonic-relationships/)  entre dos variables continuas u ordinales. En una relación monótona, las variables tienden a cambiar al mismo tiempo, pero no necesariamente a un ritmo constante. 

La correlación de Spearman suele utilizarse para evaluar relaciones en las que intervienen variables ordinales. Por ejemplo, podemos usar una correlación de Spearman para evaluar si el orden en que los empleados completan un ejercicio de prueba se relaciona con el número de meses que han estado trabajando en la empresa.


Con la correlación de Spearman solo estamos viendo si los datos se están moviendo en la misma dirección o en la dirección opuesta. Podemos medir la correlación de Spearman clasificando los datos de cada columna de mayor a menor y luego calcular la correlación de Pearson de esos rangos.

- Lo podemos utilizar cuando las dos variables que queremos asociar no tienen una distribución normal
- [Cuando son de tipo ordinal](https://www.monografias.com/trabajos85/coeficiente-correlacion-rangos-spearman/coeficiente-correlacion-rangos-spearman.shtml)
- Cuando la muestra es muy pequeña (menor de 30 casos)

In [5]:
vehicles.corr(method = 'spearman')

Unnamed: 0,Year,Engine Displacement,Cylinders,Fuel Barrels/Year,City MPG,Highway MPG,Combined MPG,CO2 Emission Grams/Mile,Fuel Cost/Year
Year,1.0,0.05137,0.068727,-0.214857,0.157137,0.266934,0.20508,-0.215108,-0.091437
Engine Displacement,0.05137,1.0,0.927979,0.827152,-0.848167,-0.75408,-0.824065,0.831333,0.794755
Cylinders,0.068727,0.927979,1.0,0.784595,-0.818672,-0.698356,-0.783362,0.788777,0.790481
Fuel Barrels/Year,-0.214857,0.827152,0.784595,1.0,-0.974144,-0.963335,-0.990364,0.995539,0.919069
City MPG,0.157137,-0.848167,-0.818672,-0.974144,1.0,0.93012,0.985062,-0.979787,-0.928713
Highway MPG,0.266934,-0.75408,-0.698356,-0.963335,0.93012,1.0,0.970769,-0.968693,-0.876067
Combined MPG,0.20508,-0.824065,-0.783362,-0.990364,0.985062,0.970769,1.0,-0.995258,-0.926078
CO2 Emission Grams/Mile,-0.215108,0.831333,0.788777,0.995539,-0.979787,-0.968693,-0.995258,1.0,0.922723
Fuel Cost/Year,-0.091437,0.794755,0.790481,0.919069,-0.928713,-0.876067,-0.926078,0.922723,1.0
