# Ciencia de Datos: *El Coeficiente de Correlación*



## Autor:
* Juan Esteban Orduz Chavez 
  - Estudiante de Matemáticas de la Universidad Distrital Francisco José de Caldas y cursante del Diplomado en Ciencia de Datos de la Universidad Nacional de Colombia
  - Correo: juaneschavez31@gmail.com

## Introducción

Dentro de la ciencia de datos, nos encontraremos muchas veces con la necesidad de responder preguntas utilizando información obtenida a partir de un conjunto de datos depurado. Para lograr esto, disponemos de conceptos provenientes de la teoría **Estadística**, los cuales podremos implementar mediante herramientas de **Software**. En esta clase, estudiaremos el concepto de *Coeficiente de Correlación* de la estadística, su definición, qué representa y cómo y para qué se usa.

Presentaremos cómo se pueden utilizar herramientas de software, más específicamente **Python**, para implementarlo en nuestros proyectos si es necesario. Asumimos que el lector tiene los conocimientos básicos de variable aleatoria y esperanza matemática, así como las utilidades básicas de Python. Cabe aclarar que toda la siguiente explicación se limita únicamente a variables aleatorias discretas.

![imagen](https://www.icog.es/cursos/wp-content/uploads/2020/09/phyton.png)

## Preliminares

### La Esperanza Matemática
También conocida como *Media Poblacional* o simplemente *Media*, esta representa el **Valor Medio** de alguna variable aleatoria $X$; es decir, una medida de tendencia central que resulta en el valor mas "recurrente" o "típico" alrededor del cual se agrupan una gran cantidad de puntos muestrales.

Formalmente, si $X$ es una variable aleatoria con distribución de probabilidad $f(x)$, donde los $x$ son puntos muestrales de $X$. La **Media** o **Valor Esperado** de $X$ es

$$\mu=E(X)=\sum_{i=1}^{n}x_if(x_i)$$

En el caso donde podamos asumir que todos los sucesos tienen la misma probabilidad de ocurrir, dicha esperanza equivale con la **Media Aritmética**

$$\mu=E(X)=\sum_{i=1}^{n}\frac{x_i}{n}$$

Esta coincidencia entre la Esperanza y el **Promedio** nos será útil para calcular la Desviación Estándar y el Coeficiente de Correlación para listas de un solo vector más adelante.
 
### La Desviación Estándar
Ya vimos una propiedad que nos muestra una *Medida de Tendencia Central*, ahora buscamos explicar la Desviación Estándar. Esta es una medida que nos permite observar la *Variabilidad* de un conjunto de datos, lo cual significa que nos permitira saber que tan "lejos" estan los puntos muestrales del **Valor Medio** o bien que tan "distantes" están dichos puntos entre ellos. 

Así, sea $X$ una variable aleatoria con distribución de probabilidad $f(x)$ y media $\mu$. La Desviación Estándar o también llamada **Varianza** de $X$ es

$$\sigma^2=E[(X-\mu)^2]=\sum_{i=1}^{n}(x_i-\mu)^2f(x)$$


### Diferencias en la Desviación Estandar y la Desviación Marginal
Gracias a la fórmula de Desviación Estándar, si volvemos a asumir que todos los sucesos tienen la misma probabilidad de ocurrir tendremos que diferenciar dos casos. El primero es el que ya conocemos, es decir si este valor se calcula en base a toda la población

$$\sigma=E[(X-\mu)^2]=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2}$$

Apartir de esta igualdad, podremos deducir una expresión más practica para calcularlo

$$\sigma^2=E(X^2)-\mu^2$$

En el caso de no tomar toda la población si no solo una muestra entonces se tendrá

$$s =\sqrt{\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\mu)^2}$$

Ahora bien, si existen dos listas o vectores en nuestro conjunto de datos podremos relacionarlos mediante la llamada **Desviación Marginal** o **Covariancia**, que es un valor de variabilidad en Espacios Muestrales de más de una dimensión, en el caso de ser bidimencional se dara como sigue:
Sean $X$ y $Y$ variables aleatorias con distribución de probabilidad conjunta $f(x,y)$. La **Covarianza** de $X$ y $Y$ es

$$\sigma_{XY}=E[(X-\mu_X)(Y-\mu_Y)]=\sum_{i=1}^{n}\sum_{j=1}^{m}(x_i-\mu_X)(y_j-\mu_Y)f(x,y)$$

Pero al igual que antes podremos reducir esto a una igualdad más utíl para nuestros cálculos

$$\sigma_{XY}=E(XY)-\mu_X\mu_Y$$

## El Coeficiente de Correlación
También llamado *Coeficiente de Correlación de Pearson* es (al igual que la desviación marginal) un término que expresa la **Covarianza** en una distribución bidimencional, pero resulta ser mas simple e ilustrativa de dicha covarianza.

Sean $X$ y $Y$ variables aleatorias con covarianza $\sigma_{XY}$ y desviaciones estándar $\sigma_X$ y $\sigma_Y$, respectivamente. El **Coeficiente de Correlación** de $X$ y $Y$ es

$$\rho_{XY}=\frac{\sigma_{XY}}{\sigma_X\sigma_Y}$$

Este coeficiente es bastante útil debido a las siguientes razones:

* $\rho_{XY}$ no depende de las unidades con las que se miden tanto $X$ como $Y$.


* Este satisface la desigualdad $-1\leq\rho_{XY}\leq1$ y $\rho_{XY}=0$ cuando $\sigma_{XY}=0$.

* Cuando $\rho_{XY}=-1$ o bien $\rho_{XY}=1$ existe, entre $X$ e $Y$ una dependencia lineal exacta, de manera tal que si     $Y\equiv a+bX$  entonces $\rho_{XY}=1$ si $b>0$ y $\rho_{XY}=-1$ si $b<0$.


Entonces, si asumimos que todos los sucesos tienen la misma probababilidad de ocurrir y dando porsentado que $X$ e $Y$ poseen el mismo cardinal, obtendremos, reduciendo la fracción obtendremos las fórmulas

$$\rho_{XY}=\frac{E(XY)-\mu_X\mu_Y}{\sqrt{E(X^2)-\mu_{X}^{2}}\sqrt{E(Y^2)-\mu_{Y}^{2}}}=\frac{\sum_{i,j=1}^{n} x_iy_j-\frac{\sum_{i=1}^{n}x_i\cdot\sum_{j=1}^{n}y_j}{n}}{\sqrt{\sum_{i=1}^{n} x_{i}^{2}-\frac{(\sum_{i=1}^{n}x_i)^2}{n}} \sqrt{\sum_{j=1}^{n}y_{j}^{2}-\frac{(\sum_{j=1}^{n}y_j)^2}{n}}}$$

Esta última expresión nos será muy útil a la hora de aplicar esta correlación en la práctica. 

## Ejemplo en Python
Dentro de Python, existen varias formas de calcular el Coeficiente de Correlación. Vamos a ilustrar un problema práctico con pocos datos para mostrar algunos de estos métodos:

Una tienda de zapatos quiere conocer qué tan relacionada está la edad de sus clientes con la cantidad de pares de zapatos que se compran a lo largo del mes. A través de un **Estudio Observacional** en la tienda, se tomaron y depuraron datos de los clientes, más específicamente su edad y la cantidad de pares de zapatos que compraron a lo largo del mes.

Buscamos ver si existe una correlación entre estas dos variables. Para ello, utilizaremos los resultados de dicho estudio que se ven en el siguiente *Array*, donde están agrupadas la Edad y la Cantidad de zapatos por cliente:

In [6]:
#En esta situación voy a crear un array que represente una cantidad pequeña de datos ya depurados y limpiados.
#Para ello utilizare las librerias de NumPy:
import numpy as np

#Generar datos aleatorios para edad y número de zapatos utilizando NumPy
edad = np.random.randint(18, 71, size=30)
num_zapatos = np.random.randint(0, 7, size=30)

# Crear el array combinando ambas variables
datos = np.column_stack((edad, num_zapatos))

# Imprimir el array generado
print(datos)

[[28  2]
 [32  0]
 [27  5]
 [19  0]
 [67  1]
 [55  6]
 [70  0]
 [60  2]
 [23  1]
 [24  6]
 [52  5]
 [23  3]
 [52  6]
 [30  3]
 [43  4]
 [62  4]
 [27  3]
 [49  3]
 [67  0]
 [42  5]
 [55  6]
 [61  0]
 [34  1]
 [33  4]
 [43  4]
 [24  1]
 [44  3]
 [61  0]
 [50  0]
 [56  5]]


### Los Distintos Métodos
Existen muchos métodos distintos para calcular el coeficiente de correlación 2 a 2 sobre un conjunto de vectores. Esto incluye, por supuesto, construir una función que lo determine a partir de Python "base" únicamente. Sin embargo, en este ejemplo en particular aprovecharemos el hecho de que ya tenemos a nuestra disposición la biblioteca NumPy (existen otras bibliotecas como pandas que nos permiten hacer lo mismo también, pero es mejor utilizar la menor cantidad de bibliotecas posibles).

Por medio de NumPy, mostraremos 2 métodos distintos para calcular el coeficiente de Pearson, como se muestra a continuación:

In [7]:
#Para el primer método utilizaremos los conceptos de desviación estadística y varianza.

#Para determinar las desviaciones estandar de cada variable utilizaremos la funcion .std() de NumPy:
Estd_Edad = edad.std()
Estd_Zap = num_zapatos.std()

#Para determinar la Varianza usando NumPy debemos realizar 2 pasos
#Primero, determinar la Matriz de Covarianza (ya que esta biblioteca esta pensada para la variación en multiples dimensiones)
#Esto lo haremos mediante la función np.cov():
Matriz_Covarianza = np.cov(edad, num_zapatos)
#De esta matriz extraeremos la primera entrada es decil la que relaciona la edad con el número de zapatos 
#(Esto en caso de tener más variables):
Covarianza = Matriz_Covarianza[0,1]

# Gracias a estos elementos podremos calcular el coeficiente de pearson usando la fórmula que vimos:
Coef_Pears = Covarianza/(Estd_Edad*Estd_Zap)

#Y la podremos ver asi:
print(Coef_Pears)

-0.06785196487806915


In [8]:
#El segundo método es mucho más sencillo y es utilizando el comando específico de np.corrcoef().
#Al igual que la covarianza esta función determina una matriz por estar pensada para muchos vectores:
Matriz_Coef = np.corrcoef(edad, num_zapatos)
#Como en la varianza, extraemos la primera entrada:
Alt_Coef_Pears = Matriz_Coef[0,1]

#De donde resulta
print(Alt_Coef_Pears)

-0.06559023271546684


# Concluciones y Notas
* Este ejemplo nos muestra la importancia de la muestra que tomemos y que esta puede estar sesgada. En este caso, nuestros datos se generaron de manera aleatoria, por lo que el valor del coeficiente de correlación podría haber sido distinto. Debemos tomar en cuenta qué elementos pueden sesgar los datos y, por tanto, nuestras deducciones.
* El coeficiente de Pearson nos muestra la posible correlación LINEAL entre dos listas, por lo que no nos es posible usarlo para descartar otros tipos de correlaciones.
* La correlación no implica causalidad, y aunque el coeficiente nos diga qué tan relacionados están dos vectores, este no nos dice CÓMO se relacionan ni el PORQUÉ se relacionan. Esto dependerá tanto de otras herramientas estadísticas como de la experiencia y conocimiento del negocio o tema en particular que se esté tratando.
* Habrá notado que el coeficiente difiere entre métodos. Esto se debe a las limitaciones de los números en máquina; entre más operaciones realice la máquina, más inexacto será el resultado. Por eso, considero mejor utilizar el segundo método por encima del primero, ya que dicho coeficiente está más cercano al valor real.
* No solo se puede usar NumPy para obtener estos resultados, sino que también existen otras bibliotecas (con especial mención a Pandas) que proporcionan las mismas o más herramientas para lo que se busque hacer de manera particular.

## Referencias:
*  walpole1995. Ronald E. Walpole and Raymond H. Myers and Sharon L. Myers and Keying Ye. Probability \& Statistics for Engineers \& Scientists. 1995. Prentice Hall, 9th edition. Upper Saddle River, NJ. 978-0134104925
* https://www.researchgate.net/publication/331640788_Tutorial_sobre_el_coeficiente_de_correlacion_lineal_de_Pearson_en_Internet
* https://en.wikipedia.org/wiki/Expected_value