# Correlación

## Introducción a la correlación

Cualquier conjunto de datos que queramos analizar tendrá diferentes campos (es decir, columnas) de múltiples observaciones (es decir, variables) que representan diferentes hechos. Las columnas de un conjunto de datos están, muy probablemente, relacionadas entre sí porque se recopilan del mismo evento. Un campo de registro puede o no afectar el valor de otro campo. Para examinar el tipo de relaciones que tienen estas columnas y analizar las causas y efectos entre ellas, tenemos que trabajar para encontrar las dependencias que existen entre las variables. La fuerza de dicha relación entre dos campos de un conjunto de datos se denomina correlación, que se representa mediante un valor numérico entre -1 y 1.


En otras palabras, la técnica estadística que examina la relación y explica si, y con qué fuerza, los pares de variables están relacionados entre sí se conoce como correlación. La correlación responde a preguntas como ¿cómo cambia una variable con respecto a otra?. Si cambia, ¿en qué grado o fuerza? Además, si la relación lineal entre esas variables es lo suficientemente fuerte, entonces podemos hacer predicciones para el comportamiento futuro.

Por ejemplo, la altura y el peso están relacionados; Es decir, las personas más altas tienden a ser más pesadas que las personas más bajas. Si tenemos una nueva persona que es más alta que la altura promedio que observamos antes, entonces es más probable que pese más que el peso promedio que observamos.

La correlación nos dice cómo las variables cambian juntas, tanto en la misma dirección como en direcciones opuestas y en que magnitud (es decir, la fuerza) de la relación. Para encontrar la correlación, calculamos el coeficiente de correlación de Pearson, simbolizado por $\rho$ (la letra griega rho). Esto se obtiene dividiendo la covarianza por el producto de las desviaciones estándar de las variables:
$$
\rho_{xy}=\dfrac{Cov[X,Y]}{\sigma_x\sigma_y}
$$

En cuanto a la fuerza de la relación, el valor de la correlación entre dos variables, *A* y *B*, varía entre +1 y -1. Si la correlación es +1, entonces se dice que es una correlación positiva / lineal perfecta (es decir, la variable *A* es directamente proporcional a la variable *B* en el mismo sentido), mientras que una correlación de -1 es una correlación negativa perfecta (es decir, la variable *A* es directamente proporcional a la variable *B* en sentido opuesto). Tenga en cuenta que se supone que los valores más cercanos a 0 no deben estar correlacionados en absoluto. Si los coeficientes de correlación están cerca de 1 en valor absoluto, entonces se dice que las variables están fuertemente correlacionadas; En comparación, se dice que aquellos que están más cerca de 0.5 están débilmente correlacionados.

Echemos un vistazo a algunos ejemplos usando diagramas de dispersión. Los diagramas de dispersión muestran cuánto afecta una variable por otra:

![fig61.png](attachment:fig61.png)

Como se muestra en el primer y último gráfico, cuanto más cercana sea la distancia entre los puntos de datos cuando se trazan para hacer una línea recta, mayor será la correlación entre las variables asociadas. Cuanto mayor sea la correlación entre ellos, más fuerte será la relación entre las variables. Cuanto más dispersos estén los puntos de datos cuando se graficen (sin crear patrones), menor será la correlación entre las dos variables. Aquí, debe observar los siguientes cuatro puntos importantes

- Cuando el gráfico de puntos de datos tiene una línea recta que pasa por el origen hasta los valores *x* e *y*, entonces se dice que las variables tienen una **correlación positiva**. 
- Cuando los puntos de datos se trazan para generar una línea que va desde un valor alto en el eje y hasta un valor alto en el eje *x*, se dice que las variables tienen una **correlación negativa**. 
- Una correlación perfecta tiene un valor de 1. 
- Una correlación negativa perfecta tiene un valor de -1.

A una correlación altamente positiva se le da un valor más cercano a 1. A una correlación altamente negativa se le da un valor más cercano a -1. En el diagrama anterior, +0.8 da una correlación positiva alta y -0.8 da una correlación negativa alta. Cuanto más cerca esté el número de 0 (en el diagrama, esto es +0.3 y -0.3), más débil será la correlación.

Antes de analizar la correlación en nuestro conjunto de datos, aprendamos sobre los diversos tipos de análisis.

## Tipos de análisis

En esta sección, vamos a explorar diferentes tipos de análisis. Comenzaremos con el análisis univariado, luego pasaremos al análisis bivariado y, finalmente, discutiremos el análisis multivariado. 

### Comprender el análisis univariado

¿Recuerda las variables con las que trabajamos en el Capítulo 4, Estadística Descriptiva, para las medidas de estadística descriptiva? Allí teníamos un conjunto de enteros que iban del 2 al 12. Calculamos la media, la mediana y el modo de ese conjunto y analizamos los patrones de distribución de los enteros. Luego, calculamos la media, la moda, la mediana y la desviación estándar de los valores disponibles en la columna de altura de cada tipo de conjunto de datos de automóviles. Tal análisis en un solo tipo de conjunto de datos se denomina **análisis univariante**.

El análisis univariado es la forma más sencilla de analizar datos. Significa que nuestros datos tienen un solo tipo de variable y que realizamos análisis sobre ella. El propósito principal del análisis univariado es tomar datos, resumir esos datos y encontrar patrones entre los valores. No trata de causas o relaciones entre los valores. Varias técnicas que describen los patrones encontrados en los datos univariados incluyen la tendencia central (es decir, la media, la moda y la mediana) y la dispersión (es decir, el rango, la varianza, los cuartiles máximo y mínimo (incluido el rango intercuartílico) y la desviación estándar).

Comencemos importando las bibliotecas necesarias y cargando el conjunto de datos:

In [1]:
#import libraries
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import numpy as np 

In [2]:
plt.rcParams['figure.figsize'] = (6, 4)
plt.rcParams['figure.dpi'] = 150

In [3]:
# loading data set as Pandas dataframe
df = pd.read_csv("automobile.csv")
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,?,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,?,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


In [4]:
# Limpieza de los datos

df_temp = df[df['normalized-losses']!='?']
normalised_mean = df_temp['normalized-losses'].astype(int).mean()
df['normalized-losses'] = df['normalized-losses'].replace('?',normalised_mean).astype(int)

df_temp = df[df['price']!='?']
normalised_mean = df_temp['price'].astype(int).mean()
df['price'] = df['price'].replace('?',normalised_mean).astype(int)

df_temp = df[df['horsepower']!='?']
normalised_mean = df_temp['horsepower'].astype(int).mean()
df['horsepower'] = df['horsepower'].replace('?',normalised_mean).astype(int)

df_temp = df[df['peak-rpm']!='?']
normalised_mean = df_temp['peak-rpm'].astype(int).mean()
df['peak-rpm'] = df['peak-rpm'].replace('?',normalised_mean).astype(int)

df_temp = df[df['bore']!='?']
normalised_mean = df_temp['bore'].astype(float).mean()
df['bore'] = df['bore'].replace('?',normalised_mean).astype(float)

df_temp = df[df['stroke']!='?']
normalised_mean = df_temp['stroke'].astype(float).mean()
df['stroke'] = df['stroke'].replace('?',normalised_mean).astype(float)

df['num-of-doors'] = df['num-of-doors'].replace('?','four')
df.head()

Unnamed: 0,symboling,normalized-losses,make,fuel-type,aspiration,num-of-doors,body-style,drive-wheels,engine-location,wheel-base,...,engine-size,fuel-system,bore,stroke,compression-ratio,horsepower,peak-rpm,city-mpg,highway-mpg,price
0,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495
1,3,122,alfa-romero,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500
2,1,122,alfa-romero,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500
3,2,164,audi,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950
4,2,164,audi,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450


### Guardar el archivo depurado en formato csv

In [5]:
df.to_csv('Automovile2.csv')

In [None]:
df.dtypes

Calculemos las medidas de tendencia central de la columna *height*. Recuerde que discutimos varias estadísticas descriptivas en el Capítulo 4, Estadística Descriptiva:



In [None]:
#calculate mean, median and mode of dat set height
mean = df["height"].mean()
median =df["height"].median()
mode = df["height"].mode()
print(mean , median, mode)

Ahora visualicemos este análisis en gráfico.

In [None]:
# Gráfico de la distribución
sns.FacetGrid(df).map(sns.histplot,"height",kde = True).add_legend()
plt.show()

En el gráfico anterior, podemos observar que la altura máxima de los coches oscila entre 53 y 57.

Ahora, hagamos lo mismo con el precio. Dado que el tipo de datos del precio es objeto, primero cambie el objeto al tipo de datos numérico.

In [None]:
# Gráfico de la distribución
sns.FacetGrid(df).map(sns.histplot,"price", kde=True).add_legend()
plt.show()

Del gráfico anterior, podemos decir que el precio oscila entre 5.000 y 45.000 dólares, pero el precio de la mayoría de los auto oscila entre 5.000 y 10.000 dólares.

El diagrama de caja también es una representación visual eficaz de medidas estáticas como la mediana y los cuartiles en el análisis univariado.

In [None]:
# Gráfico de caja y bigotes para el precio de los autos
sns.boxplot(x="price",data=df)
plt.show()

El borde derecho del cuadro es Q3 y el borde izquierdo del cuadro es Q1. Las líneas se extienden desde ambos lados de los límites del cuadro hacia el mínimo y el máximo. Sin embargo, según la convención que utiliza nuestra herramienta de trazado, es posible que solo se extiendan a una determinada estadística; cualquier valor más allá de estas estadísticas se marca como valor atípico (usando puntos).

Este análisis fue para un conjunto de datos con un solo tipo de variable. Ahora, echemos un vistazo a la siguiente forma de análisis para un conjunto de datos con dos tipos de variables, conocido como análisis bivariado.

### Análisis bivariante

Como su nombre indica, este es el análisis de más de un tipo de variable (es decir, exactamente dos). El análisis bivariado se utiliza para averiguar si existe una relación entre dos variables diferentes. Cuando creamos un diagrama de dispersión trazando una variable contra otra en un plano cartesiano (piense en los ejes *x* e *y*), nos da una imagen de lo que los datos están tratando de decirnos. Si los puntos de datos parecen ajustarse a la línea o curva, entonces existe una relación o correlación entre las dos variables. Generalmente, el análisis bivariado nos ayuda a predecir un valor para una variable (es decir, una variable dependiente) si somos conscientes del valor de la variable independiente.

Aquí hay un diagrama que muestra un diagrama de dispersión de dólares publicitarios y tasas de ventas durante un período de tiempo:

![fig62.png](attachment:fig62.png)

Este gráfico es el diagrama de dispersión para el análisis bivariado, donde los dólares de ventas y publicidad son dos variables. Al trazar un diagrama de dispersión, podemos ver que los valores de ventas dependen de los dólares de publicidad; Es decir, a medida que aumentan los dólares de publicidad, los valores de venta también aumentan. Esta comprensión de la relación entre dos variables nos guiará en nuestras predicciones futuras:

Veamos si la potencia es un factor dependiente para el precio de los automóviles o no:

In [None]:
# Gráficar la relación entre “housepower” y “price”
plt.scatter(df["price"], df["horsepower"])
plt.title("Gráfico de dispersión para caballos de fuerza vs precio")
plt.xlabel("Caballos de fuerza")
plt.ylabel("precio")
plt.show()

Como puede ver en el diagrama anterior, la potencia de los automóviles es un factor dependiente del precio. A medida que aumenta la potencia de un automóvil, el precio del automóvil también aumenta.

Un diagrama de caja también es una buena manera de ver algunas medidas estadísticas junto con la relación entre dos valores.

Ahora, dibujemos un diagrama de caja entre la ubicación del motor de los automóviles y su precio:

In [None]:
# Boxplot
sns.boxplot(x="engine-location",y="price",data=df)
plt.xlabel("Ubicación del motor")
plt.ylabel("precio")
plt.show()

Este diagrama muestra que el precio de los automóviles que tienen una ubicación del motor delantero es mucho menor que el de los automóviles que tienen una ubicación del motor trasero. Además, hay algunos valores atípicos que tienen una ubicación del motor delantero, pero el precio es mucho más alto.

A continuación, trace otro diagrama de caja con el rango de precios y el tipo de rueda del conductor:

In [None]:
#boxplot visualizar la distribución del "precio" con tipos de "ruedas motrices"
sns.boxplot(x="drive-wheels", y="price",data=df)
plt.show()

La figura anterior ilustra el rango de precios de automóviles con diferentes tipos de ruedas. El diagrama de caja muestra el precio promedio y mediano en los respectivos tipos de ruedas y algunos valores atípicos.

Esta fue una breve introducción, junto con algunos ejemplos prácticos de análisis bivariado. Ahora, aprendamos sobre un tipo de práctica más eficiente para el análisis de datos, multivariada

### Análisis multivariante

El análisis multivariante es el análisis de tres o más variables. Esto nos permite observar las correlaciones (es decir, cómo cambia una variable con respecto a otra) e intentar hacer predicciones para el comportamiento futuro con mayor precisión que con el análisis bivariado.

Inicialmente, exploramos la visualización del análisis univariado y el análisis bivariado; Asimismo, visualicemos el concepto de análisis multivariante.

Una forma común gráficar datos multivariados es hacer un diagrama de dispersión de matriz, conocido como gráfico de pares. Una gráfica de matriz o gráfica de pares muestra cada par de variables trazadas entre sí. El gráfico de pares nos permite ver tanto la distribución de variables individuales como las relaciones entre dos variables:

Podemos usar la función `scatter_matrix()` del paquete `pandas.tools.plotting` o la función `seaborn.pairplot()` del paquete seaborn para hacer esto:


In [None]:
# gráfico de pares con regresión de tipo de gráfico
sns.pairplot(df,height=1.5,vars=['normalized-losses','price','horsepower'],
             kind="reg")
plt.show()

Como se muestra en el diagrama anterior, el histograma en diagonal nos permite ilustrar la distribución de una sola variable. Los gráficos de regresión en los triángulos superior e inferior demuestran la relación entre dos variables. El gráfico del medio en la primera fila muestra el gráfico de regresión; Esto representa que no hay correlación entre las pérdidas normalizadas y el precio de los automóviles. En comparación, el gráfico de regresión media en la fila inferior ilustra que existe una gran correlación entre el precio y los caballos de fuerza.

Del mismo modo, podemos realizar un análisis multivariante utilizando un gráfico de pares especificando los colores, etiquetas, tipo de trazado, tipo de gráfico diagonal y variables. Entonces, hagamos otra trama de pares:


In [None]:
 #pair plot (matrix scatterplot) of few columns 
sns.set(style="ticks", color_codes=True)
sns.pairplot(df,height=1.5,vars=['symboling','normalized-losses','wheel-base'], 
             hue="drive-wheels")
plt.show()

Este es un par de registros de las columnas de símbolo, pérdidas normalizadas, distancia entre ejes y ruedas motrices.

Los gráficos de densidad en la diagonal nos permiten ver la distribución de una sola variable, mientras que los gráficos de dispersión en los triángulos superior e inferior muestran la relación (o correlación) entre dos variables.
El parámetro hue es el nombre de columna utilizado para las etiquetas de los puntos de datos; En este diagrama, el tipo de ruedas motrices está etiquetado por color. El gráfico situado más a la izquierda en la segunda fila muestra el gráfico de dispersión de las pérdidas normalizadas frente a la distancia entre ejes.

Como se discutió anteriormente, el análisis de correlación es una técnica eficiente para averiguar si alguna de las variables en un conjunto de datos multivariado está correlacionada. Para calcular el coeficiente de correlación lineal (Pearson) para un par de variables, podemos usar la función `dataframe.corr(method ='pearson')` del paquete pandas y la función `pearsonr()` del paquete `scipy.stats`:

Por ejemplo, para calcular el coeficiente de correlación para el precio y los caballos de fuerza, use lo siguiente:

In [None]:
from scipy import stats

corr = stats.pearsonr(df["price"], df["horsepower"])
print("p-value:\t", corr[1])
print("cor:\t\t", corr[0])

Aquí la correlación de estas dos variables es 0,7579, que está cerca de +1, por lo que podemos asegurarnos de que el precio y la potencia estén correlacionados de forma muy positiva. 

Usando pandas `corr` (se puede calcular la correlación de la función entre el registro numérico completo.

In [None]:
correlation = df.corr(method='pearson',numeric_only=True)
correlation

Visualicemos este análisis de correlación con el **mapa de calor**. El mapa de calor es la mejor técnica para hacer que esto se vea hermoso y más fácil de interpretar.

In [None]:
sns.heatmap(correlation,xticklabels=correlation.columns,
            yticklabels=correlation.columns)
plt.show()

Un coeficiente cercano a 1 significa que existe una correlación positiva muy fuerte entre las dos variables. La línea diagonal es la correlación de las variables entre sí, por lo que obviamente serán 1.

Esta fue una breve introducción, junto con algunos ejemplos prácticos de análisis multivariante. Ahora, vamos a practicarlos con el popular conjunto de datos, Titanic, que se utiliza con frecuencia para practicar el análisis de datos y los algoritmos de aprendizaje automático en todo el mundo.

### Análisis multivariado utilizando el conjunto de datos del Titánic

El 15 de abril de 1912, el transatlántico de pasajeros más grande jamás fabricado en ese momento chocó con un iceberg durante su viaje inaugural. Cuando el Titanic se hundió, mató a 1.502 de los 2.224 pasajeros y tripulantes. El archivo Titanic.csv (https://web.stanford.edu/class/archive/cs/cs109/cs109.1166/stuff/titanic.csv) contiene datos de 887 pasajeros reales del Titanic. Cada fila representa a una persona. Las columnas describen diferentes atributos sobre la persona en el barco donde la columna 
- *PassengerId* es una identificación única del pasajero, 
- *Survived* es el número que sobrevivió (1) o murió (0), 
- *Pclass* es la clase del pasajero (es decir, primera, segunda o tercera), 
- *Name* es el nombre del pasajero, 
- *Sex* es el sexo del pasajero, 
- *Age* es la edad del pasajero,  
- *Siblings/Spouses Aboard * es el número de hermanos/cónyuges a bordo del Titanic, 
- *Parents/Children Aboard* es el número de padres/hijos a bordo del Titanic, 
- *Ticket* es el número de billete, 
- *Fare* es la tarifa de cada billete, 
- *Cabin* es el número de cabina y 
- *Embarked* es donde el pasajero subió al barco (por ejemplo: **C** se refiere a Cherburgo,  **S** se refiere a Southampton, y **Q** se refiere a Queenstown).

In [None]:
# Cargar conjunto de datos

titanic=pd.read_csv("titanic.csv")
titanic.head()


In [None]:
titanic.shape


Echemos un vistazo a cuál es la cantidad de registros que faltan en el conjunto de datos.

In [None]:
total = titanic.isnull().sum().sort_values(ascending=False)
total

Todos los registros parecen estar bien, excepto *Embarked, Age* y *Cabin*. La función de cabina requiere más investigación para llenar tantos, pero no la usemos en nuestro análisis porque falta el 77%. Además, será bastante complicado lidiar con la función *Age*, que tiene 177 valores faltantes. No podemos ignorar el factor edad porque podría correlacionarse con la tasa de supervivencia. La variable *Embarcaked* solo tiene dos valores faltantes, que se pueden completar fácilmente.

Dado que las columnas *PassengerId, Ticket* y *Name* tienen valores únicos, no se correlacionan con una alta tasa de supervivencia.

In [None]:
# Porcentaje de mujeres que sobrevivieron
women = titanic.loc[titanic.Sex == 'female']["Survived"]
rate_women = sum(women)/len(women)

# Porcentaje de hombres que sobrevivieron
men = titanic.loc[titanic.Sex == 'male']["Survived"]
rate_men = sum(men)/len(men)

print(str(rate_women) +" % de mujeres que sobrevivieron" )
print(str(rate_men) + " % de hombres que sobrevivieron" )

Se puede ver que el número de supervivencia mujeres fue alto, por lo que el género podría ser el atributo que contribuya a analizar la supervivencia de cualquier variable (persona). Visualicemos esta información sobre las cifras de supervivencia en hombres y mujeres.

In [None]:
titanic['Survived'] = titanic['Survived'].map({0:"muere", 1:"sobrevive"})

fig, ax = plt.subplots(1, 2, figsize = (7, 5))
titanic["Sex"].value_counts().plot.bar(color = "skyblue", ax = ax[0])
ax[0].set_title("Número de Pasajeror por Sexo")
ax[0].set_ylabel("Población")
sns.countplot(x="Sex", data = titanic, hue = "Survived", ax = ax[1])
ax[1].set_title("Sexo: Sobrevive vs muere")
ax[1].set_ylabel("Población")
plt.show()

Visualicemos el número de supervivencia y muerte de diferentes Pclass.

In [None]:
fig, ax = plt.subplots(1, 2, figsize = (7, 5))
titanic["Pclass"].value_counts().plot.bar(color = "skyblue", ax = ax[0])
ax[0].set_title("Número de pasajeros por clase")
ax[0].set_ylabel("Población")
sns.countplot(x="Pclass", data = titanic, hue = "Survived", ax = ax[1])
ax[1].set_title("Clase: Sobrevivio vs muere")
ax[1].set_ylabel("Población")
plt.show()

Parece que el número de los pasajeros de la Clase 3 era alto y la mayoría de ellos no pudo sobrevivir. Los de la clase 2, el número de muertes es alto. Y en la clase 1, muestra que la mayoria de pasajeros sobrevivió.

In [None]:
titanic["Embarked"] = titanic["Embarked"].fillna("S")
titanic

In [None]:
fig, ax = plt.subplots(1, 2, figsize = (7, 5))
titanic["Embarked"].value_counts().plot.bar(color = "skyblue", ax = ax[0])
ax[0].set_title("Número de pasajeros embarcados")
ax[0].set_ylabel("Número")
ax[0].set_xlabel("Embarcado")
sns.countplot(x="Embarked", data = titanic, hue = "Survived", ax = ax[1])
ax[1].set_title("Embarcado: Sobrevivientes vs Muertos")
ax[1].set_ylabel("Número")
ax[1].set_xlabel("Embarcado")
plt.show()

La mayoría de los pasajeros parecían llegar al barco desde S (Southampton) y casi 450 de ellos no sobrevivieron.

Para visualizar los registros de edad, grafiquemos la distribución de datos utilizando el método `histplot()`. Como analizamos anteriormente, hay 177 valores nulos en los registros de edad, por lo que los eliminaremos antes de gráficar los datos:

In [None]:
sns.histplot(titanic['Age'].dropna(), kde=True)
plt.show()

Ahora hagamos el primer análisis multivariado del conjunto de datos titánico con variables *Survived, Pclass, Fear* y *Age*.

In [None]:

sns.set(style="ticks", color_codes=True)
sns.pairplot(titanic,height=2,vars = [ 'Fare','Age','Pclass'], hue="Survived")
plt.show()


Ahora veamos la tabla de correlación con el mapa de calor. Pero primero asigne registros *Embarcado* con valores enteros para que podamos incluir *Embrake* también en nuestro análisis de correlación.

In [None]:
titanic['Embarked'] = titanic['Embarked'].map({"S":1, "C":2,"Q":2,"NaN":0})
Tcorrelation = titanic.corr(method='pearson', numeric_only=True)
Tcorrelation

El resultado es bastante sencillo. Muestra la correlación entre las columnas individuales. Como puede ver, en esta tabla, *PassengerId* muestra una relación positiva débil con las columnas *Fare* y *Age*:


In [None]:
sns.heatmap(Tcorrelation,xticklabels=Tcorrelation.columns,
            yticklabels=Tcorrelation.columns, annot=True, 
            annot_kws={'size': 8},cmap="crest")
plt.show()

Hasta ahora, ha aprendido sobre la correlación y los tipos de análisis de datos. También ha realizado diferentes análisis sobre el conjunto de datos. Ahora tenemos que considerar de cerca los hechos antes de sacar conclusiones sobre el análisis basado en el resultado que obtenemos.


### La paradoja de Simpson

Por lo general, las decisiones que tomamos a partir de nuestro conjunto de datos están influenciadas por la salida de las medidas estadísticas que les aplicamos. Esos resultados nos informan sobre el tipo de correlación y las visualizaciones básicas del conjunto de datos. Sin embargo, a veces, las decisiones difieren cuando segregamos los datos en grupos y aplicamos medidas estadísticas, o cuando los agregamos y luego aplicamos medidas estadísticas. Este tipo de comportamiento anómalo en los resultados del mismo conjunto de datos generalmente se denomina paradoja de Simpson. En pocas palabras, la paradoja de Simpson es la diferencia que aparece en una tendencia de análisis cuando un conjunto de datos se analiza en dos situaciones diferentes: primero, cuando los datos se separan en grupos y, segundo, cuando los datos se agregan.

Aquí hay una tabla que representa la tasa de recomendación para dos consolas de juegos diferentes por hombres y mujeres individualmente y también combinados:

|	| Recomendación PS4 | Recomendación Xbox One |
|:---:|:---:|:---:|
| Hombres |	50/150=30% | 180/360=50% |
| Mujeres |	200/250=80% |	36/40=90% |
| Combinado	| 250/400=62.5% |	216/400=54% |

La tabla anterior presenta la tasa de recomendación de dos consolas de juegos diferentes: PS4 y Xbox One por hombres y mujeres, tanto individualmente como combinadas.

Supongamos que vas a comprar una consola de juegos que tiene una recomendación máxima. Como se muestra en la tabla anterior, Xbox One es recomendado por un mayor porcentaje de hombres y mujeres que la PS4. Sin embargo, utilizando los mismos datos cuando se combinan, la PS4 tiene un porcentaje recomendado más alto (62.5%) según todos los usuarios. Entonces, ¿cómo decidirías con cuál ir? Los cálculos se ven bien pero, lógicamente, la toma de decisiones no parece estar bien. Esta es la paradoja de Simpson. El mismo conjunto de datos aquí demuestra dos argumentos opuestos.

Bueno, el problema principal, en este caso, es que cuando solo vemos los porcentajes de los datos separados, no considera el tamaño de la muestra. Dado que cada fracción muestra el número de usuarios que recomendarían la consola de juegos por el número solicitado, es relevante considerar el tamaño completo de la muestra. El tamaño de la muestra en los datos separados de hombres y mujeres difiere en gran medida. Por ejemplo, las recomendaciones de hombres para la PS4 es 50, mientras que la recomendación para Xbox One es 180. Hay una gran diferencia en estos números. Xbox One tiene muchas más respuestas de hombres que de mujeres, mientras que el caso es el opuesto para la PS4. Debido a que menos hombres recomiendan la PlayStation, lo que resulta en una calificación promedio más baja para la PS4 cuando se combinan los datos, conduce a la paradoja.

Para llegar a una sola decisión con respecto a qué consola elegir, debemos decidir si los datos se pueden combinar o si debemos mirarlos por separado. En este caso, tenemos que averiguar qué consola tiene más probabilidades de satisfacer tanto a hombres como a mujeres. Puede haber otros factores que influyan en estas revisiones, pero no tenemos estos datos, por lo que buscamos el número máximo de buenas revisiones independientemente del sesgo de género. Aquí, agregar los datos tiene más sentido. Combinaremos la revisión e iremos con el promedio general. Dado que nuestro objetivo es combinar las revisiones y ver el promedio total, la agregación de los datos tiene más sentido.

Parece que la paradoja de Simpson es un problema descabellado que es teóricamente posible, pero nunca ocurre en la práctica porque nuestro análisis estadístico de los datos generales disponibles es preciso. Sin embargo, hay muchos estudios bien conocidos de la paradoja de Simpson en el mundo real.

Un ejemplo del mundo real es con tratamientos de salud mental como la depresión. La siguiente es una tabla sobre la efectividad de dos tipos de terapias administradas a los pacientes:

|	| Terapia *A* | Terapia *B*|
|:---:|:---:|:---:|
|Depresión leve |	81/87=93% |	234/270=87%|
|Depresión severa |	192/263=73% | 55/80=69%|
|Ambas | 273/350=78% | 289/350=83%| 

Como puede ver, en la tabla anterior, hay dos tipos de terapias: Terapia *A* y Terapia *B*. La terapia *A* parece funcionar mejor tanto para la depresión leve como para la severa, pero la agregación de los datos revela que el tratamiento *B* funciona mejor para ambos casos. ¿Cómo es esto posible? Bueno, no podemos concluir que los resultados después de la agregación de datos sean correctos, porque el tamaño de la muestra difiere en cada tipo de terapia. Para llegar a una decisión única sobre qué terapias debemos elegir, debemos pensar prácticamente: ¿cómo se generaron los datos? ¿Y qué factores influyen en los resultados que no se ven en absoluto?

En realidad, la depresión leve es considerada como un caso menos grave por los médicos y la terapia *A* es más barata que la terapia *B*. Por lo tanto, los médicos recomiendan la terapia más simple, *A*, para la depresión leve.

Los detalles y hechos de los dos tipos de terapia no se mencionan en nuestro conjunto de datos. El tipo de depresión y gravedad del caso conduce a variables de confusión (las variables de confusión son algo que no vemos en la tabla de datos, pero pueden determinarse mediante el análisis de fondo de los datos) porque afecta la decisión sobre qué tratamiento y método de recuperación seleccionar. Entonces, el factor que decide qué tratamiento funciona mejor para el paciente depende de la variable de confusión, que es la gravedad del caso aquí. Para determinar qué terapia funciona mejor, requerimos un informe de la gravedad de los casos y luego necesitamos comparar las tasas de recuperación con ambas terapias en lugar de datos agregados entre grupos.

Responder a las preguntas que queremos de un conjunto de datos a veces requiere más análisis que solo mirar los datos disponibles. La lección que hay que aprender de la paradoja de Simpson es que los datos por sí solos son insuficientes. Los datos nunca son puramente objetivos y tampoco lo es la gráfica final. Por lo tanto, debemos considerar si estamos obteniendo toda la historia cuando tratamos con un conjunto de datos.

Otro hecho que debe considerarse antes de concluir el análisis basado en la salida que obtenemos es que la correlación no implica causalidad. Esto es tan importante en el campo de las estadísticas que Wikipedia tiene un artículo separado sobre este tema.

### La correlación no implica causalidad

La correlación no implica que la causalidad sea una frase interesante que escuchará principalmente en estadísticas y cuando aprenda sobre ciencia de datos en detalle. Pero, ¿qué significa? Bueno, simplemente indica que solo porque dos cosas se correlacionan no siempre significa que una causa la otra. Por ejemplo, el invierno noruego es frío, y la gente tiende a gastar más dinero en comprar alimentos calientes como la sopa, que en verano. Sin embargo, esto no significa que el clima frío haga que las personas gasten más dinero en sopa. Por lo tanto, aunque el gasto de las personas en Noruega está relacionado con el clima frío, el gasto no es la causa del clima frío. Por lo tanto, la correlación no es causalidad.

Tenga en cuenta que hay dos términos esenciales en esta frase: correlación y causalidad. La correlación revela cuán fuertemente un par de variables están relacionadas entre sí y cambian juntas. La causalidad explica que cualquier cambio en el valor de una variable causará una diferencia en la cantidad de otra variable. En este caso, una variable hace que la otra variable suceda. Este fenómeno se conoce como causa y efecto. Por ejemplo, cuando haces ejercicio *(X)*, la cantidad de calorías *(Y)* que quemas es mayor cada minuto. Por lo tanto, *X* causa *Y*.

Según la teoría de la lógica, podemos decir lo siguiente:
$$X\rightarrow Y$$
El ejemplo más común que se encuentra en cualquier libro de análisis de datos es sobre las ventas de helados y el aumento y la caída de los homicidios. Según este ejemplo, como hay un aumento en las ventas de helados, hay un aumento en el número de homicidios. Según la correlación, estos dos eventos están altamente corelacionados. Sin embargo, el consumo de helado no está causando la muerte de las personas. Estas dos cosas no se basan en la teoría de causa y efecto. Por lo tanto, correlación no significa causalidad.

Entonces, ¿cuál es la conclusión de esta frase crítica? Bueno, en primer lugar, no debemos formar nuestras conclusiones demasiado rápido basadas en la correlación. Es esencial invertir algo de tiempo en encontrar los factores subyacentes de los datos para comprender cualquier factor crítico y oculto.