# **Análisis exploratorio y estadística**
# AE14 - Introducción a conceptos de correlación


En este notebook  utilizaremos principalmente le dataset del Titanic para  reforzar las visualizaciones desarrolladas en los notebook anteriores, e introducir el conceptos de correlación.


Como punto de partida importaremos nuestras 4 librerías.

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

## <font color='blue'>**Leyendo los datos**</font>

El código está adaptado para poder leer desde google drive, sin embargo, se puede modificar la ruta si es que se quiere trabajar en forma local.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [1]:
path = '/content/drive/MyDrive/Cursos/Estadistica/EstadisticaDescriptiva/data/'

trainFile = 'titanic_train.csv'

In [2]:
train_df = pd.read_csv(path + trainFile)

NameError: ignored

## <font color='blue'>**Nuestra estadística descriptiva**</font>

La siguiente, es el diccionario de datos del archivo:

1. Survival: Sobreviviente		0 = No, 1 = Si
2. Pclass: La clase del ticket	1 = 1st, 2 = 2nd, 3 = 3rd
3. Sex:	Sexo
4. Age: Edad en años
5. Sibsp:	Número de hermanas / cónyuges a bordo del Titanic
6. Parch:	Número de padres / hijos a bordo del Titanic
7. Ticket:	Número del ticket
8. Fare:	Tarifa de pasajero
9. Cabin: Número de cabina
10. Embarked: Puerto de embarque	C = Cherbourg, Q = Queenstown, S = Southampton

In [None]:
train_df.head()

In [None]:
train_df.describe().round(3).T

Qué puede decir de los distintos atributos? Cómo es la media y la mediana? Existe mucha diferencia entre ellas en algunas variables, por ejemplo **Survived**? Qué significa eso?

In [None]:
train_df.info()

## <font color='blue'>**Análisis categórico**</font>

Analicemos la variable __Survival__.

In [None]:
c_palette = ['tab:blue', 'tab:orange']

In [None]:
sns.countplot(y='Survived', data=train_df, palette=c_palette)
plt.show()

Analicemos la variable __Sex__, pero agregando la codición de si sobrevició o no. Sobrevivientes por sexo:

In [None]:
sns.countplot(y='Sex',hue='Survived', data=train_df, palette=c_palette)
plt.show()

En proporción sobrevivieron más mujeres que hombres. Sin embargo, es interesante explorar si esto se mantuvo bajo otras condiciones como por ejemplo donde embarcó o la clase en la que viajaba el pasajero.

### <font color='green'>**Actividad 1**</font>

Realice el mismo ejercicio anterior pero considere la variable **Embarked** y **Pclass**, siga diferenciando la visualización por la variable __Survived__.

Qué conclusión puede generar?

In [None]:
# Tu código aquí ...

# Variable Embarqued


In [None]:
# Variable Pclass



<font color='green'>Fin Actividad 1</font>

## <font color='blue'>**Análisis cuantitativo**</font>

Analicemos la variable __Age__.

In [None]:
c_palette = ['tab:blue', 'tab:orange']
c_palette3 = ['tab:blue', 'tab:orange','tab:green']

In [None]:
# Analisis univariado.
plt.figure(figsize=(6,10)) # Agrandamos la figura para hacerla más clara
sns.boxplot(y='Age', data=train_df, palette=c_palette)
sns.swarmplot(y='Age', data=train_df, color='r')
plt.show()

In [None]:
# Exploremos la edad pero considerando adicionalmente Survived
plt.figure(figsize=(12, 8)) # Agrandamos la figura para hacerla más clara
sns.boxplot(x='Survived', y='Age', data=train_df, palette=c_palette) # probar con boxprops=dict(alpha=.5)
sns.swarmplot(x='Survived', y='Age', data=train_df, color='r', alpha=0.4)
plt.show()

Visualmente no se observa que existió una diferencia marcada por la edad entre los sobrevivientes y los que no.

In [None]:
# Incoproremos la clase y el embarque para ver si existe relación entre la edad y estas variables.
plt.figure(figsize=(10, 8))
sns.boxplot(x='Embarked', y='Age', hue='Pclass',
            data=train_df, palette=c_palette3)
plt.show()

In [None]:
# Analicemos la relación entre Embarked, Age y Survived.

plt.figure(figsize=(10, 8))
sns.boxplot(x='Embarked', y='Age', hue='Survived',
            data=train_df, palette=c_palette)
plt.show()

### <font color='green'>**Actividad 2**</font>

1. Compare a través de un `boxplot` cómo es la dependencia entre la variable __Parch__, que representa el número de padres o hijos que viajaban, respecto de si sobrevivió o no.
2. Realice el mismo análisis para __SibSp__.

Incorpore también un _swarmplot_ para entender la cantidad de puntos relacionados.

Qué conclusión puede generar?

In [None]:
# Tu código aquí ...
# Pregunta 1. # Parent Child (Parch)


In [None]:
# Pregunta 2. Siblings Spouse (SibSp)


<font color='green'>Fin Actividad 2</font>

## <font color='blue'>**Análisis de correlación**</font>

###__¿Qué es la correlación?__<br>
La correlación es una medida estadística que expresa hasta qué punto dos variables están relacionadas linealmente (esto es, cambian conjuntamente a una tasa constante). Es una herramienta común para describir relaciones simples sin hacer afirmaciones sobre causa y efecto.

### __¿Cómo se mide la correlación?__<br>
Describimos la correlación mediante una __medida sin unidades__ llamada __coeficiente de correlación__, que va desde -1 a +1 y se indica mediante las letras $r$ o $\rho$ (para muestras o poblaciones respectivamente); este coeficiente cuantifica la intensidad de la relación. La significancia estadística se indica mediante un valor p. Por tanto, usualmente las correlaciones se escriben con dos números clave: $r$ y $p$.
Existen varios estadísticos desarrollados con el objetivo de medir este tipo de asociación, algunos de los más empleados son __Pearson__, __Spearman__ y __Kendall__.

* Cuanto más se aproxima $r$ a cero, más débil es la relación lineal.
* Los valores de $r$ positivos indican una correlación positiva, en la que los valores de ambas variables tienden a incrementarse juntos.
* Los valores de $r$ negativos indican una correlación negativa, en la que los valores de una variable tienden a incrementarse mientras que los valores de la otra variable descienden.
El valor $p$ aporta evidencia de que podemos concluir de manera significativa que es probable que el coeficiente de correlación de la población sea diferente a cero, basándonos en lo que hemos observado en la muestra.
* El que sea una "medida sin unidades" significa que la correlación tiene su propia escala: en nuestro ejemplo, el número de $r$ no está en la misma escala que la altura ni que la temperatura. Esto es diferente a otros estadísticos de resumen. Por ejemplo, la media de las medidas de altura está en la misma escala que su variable.

__¿Cuáles son algunas limitaciones del análisis de correlación?__<br>
La correlación no puede medir la presencia o el efecto de otras variables aparte de las dos que se están explorando. Es importante saber que la correlación no nos informa sobre causas y efectos. Además, la correlación no puede describir con precisión las relaciones curvilíneas.

### __Covarianza__
Para estudiar la relación lineal existente entre dos variables continuas es necesario disponer de parámetros que permitan cuantificar dicha relación. Uno de estos parámetros es la __covarianza__, que mide el grado de variación conjunta de dos variables aleatorias.

<br><br>
$$
\text{Covarianza}\: \text{muestral} = Cov(X,Y) = \frac{\sum_{i=1}^{n}(x_i-\bar{x})(y_i - \bar{y})} {N-1}$$
<br>
donde  $\bar{x}$  e  $\bar{y}$  son la media de cada variable, y $x_i$  e $y_i$  son los valores de las variables para la observación $i$ .


<br>
En la siguiente imagen vemos varios grupos de puntos $(x,y)$, con el coeficiente de correlación para cada grupo. Nótese que la correlación refleja la no linealidad y la dirección de la relación lineal. En la figura del centro, la varianza de $y$ es nula, por lo que la correlación es indeterminada.

<img src="https://drive.google.com/uc?export=view&id=1THxrficSNSUI3xx5U7nNdtKVZZv0zZBC" width='600'><br>
Image: Denis Boigelot

Valores positivos indican que las dos variables cambian en la misma dirección y, valores negativos, que lo hacen en direcciones opuestas.

La principal limitación de la covarianza es que, su magnitud, depende de las escalas en que se miden las variables estudiadas. Esto implica que no puede utilizarse para comparar el grado de asociación entre pares de variables medidas en distintas escalas. Una forma de evitar esta limitación, y poder hacer comparaciones, consiste en estandarizar la covarianza, generando lo que se conoce como coeficientes de correlación.


### __Significancia estadística__

Además del valor obtenido para el coeficiente de correlación, es necesario calcular su significancia estadística. Por muy cercano que sea el valor del coeficiente de correlación a  +1  o  −1 , si no es significativo, no se dispone de evidencias suficiente para afirmar que existe una correlación real, ya que el valor observado podría deberse a simple aleatoriedad.

El test paramétrico de significancia estadística empleado para el coeficiente de correlación es el t-test. Donde el estadístico t se obtiene acorde a la ecuación:
$$
t = \frac{r \sqrt{N - 2}} {\sqrt{1 - r^2}}
$$

donde, $r$ es el valor del coeficiente de correlación y $N = n_x + n_y$ es el número de observaciones disponibles de ambas variables. Los grados de libertad se calculan como  $df𝑓 = 𝑁 − 2$ (un grado de libertad menos por cada variable.

En este test, se considera como hipótesis nula ($H_0$ ) que las variables son independientes (coeficiente de correlación poblacional = 0), y como hipótesis alternativa ($H_1$), que sí existe relación (coeficiente de correlación poblacional $\ne$ 0).

### __Tamaño de efecto__

La correlación lineal, además del valor del coeficiente de correlación y de sus significancia, también tiene un tamaño de efecto asociado conocido como coeficiente de determinación $R^2$.

$R^2$  se interpreta como la cantidad de varianza de $Y$  explicada por $X$. En el caso del coeficiente de Pearson y el de Spearman, $R^2$  se obtiene elevando al cuadrado el coeficiente de correlación. En el caso de Kendall no se puede calcular de este modo.


### **Correlacion de Pearson**
La correlación de Pearson mide la relación lineal entre dos variables en base a la covarianza estandarizada. La definicion forma es:

$$ \rho_{X,Y} = \frac{cov(X,Y)}{\sigma_X \sigma_Y}$$


La anterior ecuación se corresponde con el coeficiente de Pearson poblacional ($\rho$ ). En la práctica, raramente se tiene acceso a toda la población, por lo que su valor se estima a partir de una muestra mediante el coeficiente de Pearson muestral ($r$): <br><br>

$$
r_{x,y} = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})} {\sqrt{\sum_{i=1}^{n}(x_i - \bar{x})^2 \sum_{i=1}^{n}(y_i - \bar{y})^2}}
$$

__Condiciones__

Las condiciones que se deben de cumplir para que el coeficiente de correlación de Pearson sea válido son:

* La relación que se quiere estudiar es de tipo lineal (de lo contrario, el coeficiente de Pearson no la puede detectar).

* Las dos variables deben de ser numéricas.

* Normalidad: ambas variables se tienen que distribuir de forma normal. En la práctica, se suele considerar válido aun cuando se alejan moderadamente de la normalidad.

* Homocedasticidad: la varianza de  $Y$ debe ser constante a lo largo de la variable  $X$. Esto se puede contrastar si en un scatterplot los valores de  $Y$  mantienen la misma dispersión en las distintas zonas de la variable  $X$ .

Veamos la correlación de las variables en el caso del dataset del Titanic.

In [None]:
# Eliminamos las variables categoricas
corr_df = train_df.drop(['PassengerId', 'Survived', 'Name', 'Sex', 'Ticket', 'Cabin', 'Embarked'], axis = 1)
corr_df['Age']

In [None]:
# Hay NaN, los rellenamos con la moda
corr_df['Age'] = corr_df['Age'].fillna(value=corr_df['Age'].mode()[0])
corr_df['Age']

In [None]:
plt.figure(figsize=(14,12))
plt.title('Correlación de Pearson', size = 15)
colormap = sns.diverging_palette(10, 220, as_cmap = True)
sns.heatmap(corr_df.corr(),
            square = True,
            annot = True,
            linewidths=0.1,vmax=1.0, linecolor='white',
            annot_kws={'fontsize':12 })
plt.show()

Considere la siguiente escala:

|Valor|Fuerza de la asociación|
|:---:|:----------------------|
|0    |Asociación nula        |
|0.1  |Asociación pequeña     |
|0.3  |Asociación mediana     |
|0.5  |Asociación moderada    |
|0.7  |Asociación alta        |
|0.9  |Asociación muy alta    |

Qué relación interesante aparece?<br>
Qué tipo relación hay entre las variables?<br>
Cuál de ellas tienen las correlaciones positivas o negativas más altas?