# EDA II

En el presente *notebook* se continua trabajando en el análisis de datos. Se traerán conceptos propios de la materia Estadística I y II (FCE-UBA).

**Temas:**
* Introducción a nueva librería: `scipy`
* Relaciones entre variables
    * Correlación lineal - Gráficos
    * Relaciones no lineales
    * Relaciones entre variables categóricas
* Análisis de distribuciones
    * Gráficamente
    * Comparacion de medias y desvios
    * Tests de media (T-test) y varianza (Test de Levene y Test de Barlett)
    * Test U de Mann-Whitney y  Test de Kolmogorov-Smirnov
    * QQ-Plots
    
<br>

***

## Análisis de Relaciones entre Variables

---
### Correlación

Para el cálculo de la Correlacón entre variables de un dataset podemos recurrir a 3 diferentes librerías:
* Pandas
* NumPy
* Scipy (esta librería está enfocada en temas de Estadística y Probabilidad - [Documentación Oficial](https://scipy.org/))

In [None]:
import pandas as pd
import numpy as np

from scipy import stats
from scipy.linalg import cholesky

In [None]:
rng = np.random.default_rng(9999)

In [None]:
# Matriz de correlación
corr_mat= np.array([[1.0, 0.6, 0.3, 0.4],
                    [0.6, 1.0, 0.5, 0.8],
                    [0.3, 0.5, 1.0, 0.2],
                    [0.4, 0.8, 0.2, 1.0]])


# Matriz de Descomposición de Cholesky
upper_chol = cholesky(corr_mat)

rnd = rng.normal(0.0, 1.0, size=(10000, 4))

data = rnd @ upper_chol

In [None]:
df = pd.DataFrame(data, columns=['Columna_1', 'Columna_2', 'Columna_3', 'Columna_4'])

In [None]:
df.head()

Una vez generado el df, se procede a calcular la correlación entre todas las variables disponibles

* **Pandas**

```python
df.corr() --> se puede elegir entre uno de los tres métodos de cómputo existentes: 'pearson', 'kendall', 'spearman'
```

In [None]:
df.corr()

In [None]:
# También es posible calcularlo solamente para cierto subconjunto de columnas

df[['Columna_1', 'Columna_3', 'Columna_4']].corr()

* NumPy

```python
np.corrcoef(x, y) --> donde 'x' e 'y' son vectores de datos. No se puede calcular para todo el df a la vez.
```


In [None]:
x = df['Columna_1']
y = df['Columna_3']

np.corrcoef(x, y)

* Scipy

```python
# Pearson's r
scipy.stats.pearsonr(x, y)[0]   

# Spearman's rho
scipy.stats.spearmanr(x, y)[0]  

# Kendall's tau
scipy.stats.kendalltau(x, y)[0] 
```
Se está tomando solo el primer elemento del cálculo ya que el segundo elemento de este es el 'p-value'.

Scipy devuelve:
1. el coeficiente de correlación
2. p-value

In [None]:
# Pearson's r
print('Coeficiente de correlación de Pearson:', stats.pearsonr(x, y)[0])

# Spearman's rho
print('Coeficiente de correlación de Spearman:', stats.spearmanr(x, y)[0])

# Kendall's tau
print('Coeficiente de correlación de Kendall:', stats.kendalltau(x, y)[0])

* Una forma efectiva para analizar esta métrica es mediante una **matriz de correlación**

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
# usando Seaborn

correlation_matrix = df.corr()

plt.figure(figsize=(7, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)

plt.title('Matriz de Correlación')

plt.show()


In [None]:
# usando Matplotlib 

plt.figure(figsize=(10, 8))
plt.matshow(correlation_matrix, cmap='coolwarm')

plt.xticks(range(len(correlation_matrix.columns)), correlation_matrix.columns, rotation='vertical')
plt.yticks(range(len(correlation_matrix.columns)), correlation_matrix.columns)

plt.colorbar()
plt.title('Matriz de Correlación')

plt.show()

* Otra forma de visualizarlo es mediante gráficos de dispersión (*scatter plots*)

In [None]:
fig, ax = plt.subplots(1,2,figsize=(20, 6))

sns.scatterplot(x=df['Columna_1'], y=df['Columna_2'], ax=ax[0])
sns.scatterplot(x=df['Columna_2'], y=df['Columna_4'], ax=ax[1])

ax[0].set_title('Scatter Columnas 1 y 2')
ax[1].set_title('Scatter Columnas 2 y 4')

plt.show()

---
### Relaciones no lineales

In [None]:
col_1 = rng.uniform(25, 80, size=10_000) * np.clip(rng.exponential(1, size = 10_000), 1, 3)
col_2 = col_1 * 1.25 + rng.normal(4, 8, size = 10_000) * 2
col_3 = rng.uniform(2, 4, size=10_000) * col_1**2 + rng.uniform(1, 2.5, size=10_000) * col_1 + rng.normal(2, 5, size = 10_000)
col_4 = 1 / (rng.uniform(2, 4, size=10_000) * col_1**2 + rng.uniform(1, 2.5, size=10_000) * col_1 + rng.normal(2, 5, size = 10_000))
df = pd.DataFrame(data = {'Columna_1': col_1, 'Columna_2': col_2, 'Columna_3': col_3, 'Columna_4': col_4})

In [None]:
correlation_matrix = df.corr()

plt.figure(figsize=(7, 6))
sns.heatmap(correlation_matrix, annot=True, cmap='coolwarm', fmt=".2f", linewidths=0.5)

plt.title('Matriz de Correlación')

plt.show()

In [None]:
fig, ax = plt.subplots(1,3,figsize=(20, 6))

sns.scatterplot(x=df['Columna_1'], y=df['Columna_2'], ax=ax[0])
sns.scatterplot(x=df['Columna_1'], y=df['Columna_3'], ax=ax[1])
sns.scatterplot(x=df['Columna_1'], y=df['Columna_4'], ax=ax[2])

ax[0].set_title('Scatter Columnas 1 y 2')
ax[1].set_title('Scatter Columnas 1 y 3')
ax[2].set_title('Scatter Columnas 1 y 4')

plt.show()

----
### Correlación entre variables categóricas

Para analizar la correlacón entre las variables categóricas se recurrirá al uso del Test Chi-Cuadrado, donde

* $H_0$: no existe relación entre la variable $i$ y la variable $j$
* $H_1$: existe relación entre la variable $i$ y la variable $j$ .

El test se aplica sobre una tabla de contingencia. Por ende, **es necesario tener una tabla de contingencia para poder realizar el test**.

| Columna 1 / Columna 2  | **Y** | **Z** |
|---|---------|---------|
| **A** |   A Y |   A Z |
| **B** |   B Y |   B Z |


In [None]:
# para ello importamos la siguiente función

from scipy.stats import chi2_contingency

In [None]:
# Ejemplo 1
tabla = np.array([[528, 472],
                  [723, 287]])

res = chi2_contingency(tabla)

print(f'Valor del test: {res.statistic}', f'p-value: {res.pvalue}', sep='\n')

print('Se rechaza la hipótesis nula. Existe relación entre las dos variables.')


In [None]:
# Ejemplo 2
tabla = np.array([[25, 390],
                  [2034, 1652]])

res = chi2_contingency(tabla)

print(f'Valor del test: {res.statistic}', f'p-value: {res.pvalue}', sep='\n')

print('Se rechaza la hipótesis nula. Existe relación entre las dos variables.')

In [None]:
# Ejemplo 3
tabla = np.array([[1000, 1023],
                  [900, 876]])

res = chi2_contingency(tabla)

print(f'Valor del test: {res.statistic}', f'p-value: {res.pvalue}', sep='\n')

print('No se rechaza la hipótesis nula. NO existe relación entre las dos variables.')

* Para generar la tabla de contingencia dado un conjunto de datos se recurre a la función `crosstab` de `Pandas`.

In [None]:
data = {'ESTUDIO': ['estudio', 'no estudio', 'estudio','estudio', 'no estudio',
                    'no estudio', 'estudio','estudio','no estudio', 'estudio',
                    'no estudio', 'estudio','estudio', 'no estudio', 'estudio',
                    'estudio','estudio','no estudio','estudio','estudio'],
        'APROBADO':  ['si','no','si','si','no',
                      'si','si','no','no','si',
                      'no','si','si','si','no',
                      'si','si','no','si','si'] 
        }

df = pd.DataFrame(data)

In [None]:
# genero la tabla de contingencia
tabla = pd.crosstab(index=df['ESTUDIO'], columns=df['APROBADO'])

display(tabla)

In [None]:
res = chi2_contingency(tabla)

print(f'Valor del test: {res.statistic}', f'p-value: {res.pvalue}', sep='\n')

print('Se rechaza la hipótesis nula. Existe relación entre las dos variables.')

***
***
## Análisis de distribuciones
***

In [None]:
# generar las muestras de datos para analizar
dist_A = rng.normal(5,3, size=10_000) # --> distribución Normal con mu=5 y sigma=3
dist_B = rng.normal(5.2,2.8, size=10_000) # --> distribución Normal con mu=5.2 y sigma=2.8
dist_C = rng.normal(8,3, size=10_000) # --> distribución Normal con mu=8 y sigma=3

* Primero se puede realizar un análisis visual mediante gráficos de las distribuciones.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sn

fig = plt.figure(constrained_layout=True, figsize=(18, 12))
gs = fig.add_gridspec(3, 3)

# Upper plot
f_ax1 = fig.add_subplot(gs[0, :])

sn.kdeplot(dist_A, color='#1f5ab8', ax=f_ax1, label='Dist A')
sn.kdeplot(dist_B, color='#db46e3', ax=f_ax1, label='Dist B')
sn.kdeplot(dist_C, color= '#e8d60c', ax=f_ax1, label='Dist C')

f_ax1.set_title('PDF')
f_ax1.legend()

#################################
# Subplot 1
#################################
f_ax2 = fig.add_subplot(gs[1, 0])
tf_ax2 = f_ax2.twinx()

sn.kdeplot(dist_A, color='#1f5ab8', ax=f_ax2, label='PDF')
sn.ecdfplot(dist_A, color='#1f5ab8', ax=tf_ax2, linestyle='--', label='ECDF')

f_ax2.set_title('Dist A')

handles, labels = f_ax2.get_legend_handles_labels()
handles2, labels2 = tf_ax2.get_legend_handles_labels()
f_ax2.legend(handles + handles2, labels + labels2, loc='upper right')

#################################
# Subplot 2
#################################
f_ax3 = fig.add_subplot(gs[1, 1])
tf_ax3 = f_ax3.twinx()

sn.kdeplot(dist_B, color='#db46e3', ax=f_ax3, label='PDF')
sn.ecdfplot(dist_B, color='#db46e3', ax=tf_ax3, linestyle='--', label='ECDF')

f_ax3.set_title('Dist B')

handles, labels = f_ax3.get_legend_handles_labels()
handles2, labels2 = tf_ax3.get_legend_handles_labels()
f_ax3.legend(handles + handles2, labels + labels2, loc='upper right')

#################################
# Subplot 3
#################################
f_ax4 = fig.add_subplot(gs[1, 2])
tf_ax4 = f_ax4.twinx()

sn.kdeplot(dist_C, color='#e8d60c', ax=f_ax4, label='PDF')
sn.ecdfplot(dist_C, color='#e8d60c', ax=tf_ax4, linestyle='--', label='ECDF')

f_ax4.set_title('Dist C')

handles, labels = f_ax4.get_legend_handles_labels()
handles2, labels2 = tf_ax4.get_legend_handles_labels()
f_ax4.legend(handles + handles2, labels + labels2, loc='upper right')

#################################

fig.suptitle('Análisis de las distribuciones')

plt.show()


* Otra forma posible de comparar las distribuciones es mediante sus medidas estadísticas de posición y dispersión.

In [None]:
for d in zip(['A', 'B', 'C'], [dist_A, dist_B, dist_C]):
    print('La media de la distribución {} es {} y varianza es {}.'.format(d[0], np.mean(d[1]), np.var(d[1])))

* Por medio de tests estadísticos podemos determinar si las muestras provienen de la misma distribución: *Test U de Mann-Whitney*.
    * $H_0$: las muestras provienen de la misma distribución.
    * $H_1$: las muestras no provienen de la misma distribución.

In [None]:
from scipy.stats import mannwhitneyu

stat, pvalue = mannwhitneyu(dist_A, dist_B)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

In [None]:
stat, pvalue = mannwhitneyu(dist_A, dist_C)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

* Es posible testear si la media de ambas muestras en la misma por medio del **T-test**.
  * $H_0$: las muestras provienen de distribuciones con la misma media.
  * $H_1$: las muestras no provienen de distribuciones con la misma media.

In [None]:
stat, pvalue = stats.ttest_ind(dist_A, dist_C,equal_var=True)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

Para el caso de A y C tiene sentido que la $H_0$ sea rechazada ya que las distribuciones poseen media 5 y 8, respectivamente.

In [None]:
stat, pvalue = stats.ttest_ind(dist_A, dist_B)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

En el caso de las distribuciones A y B (cuyas medias poblacionales son 5 y 5.2) vemos que, a pesar de la pequeña diferencia de medias, el test rechaza la $H_1$ de forma marcada.

Ahora se toma una sub-muestra de las muestras anteriores y se analiza los resultados del test.

In [None]:
sample_sizes = [20, 50, 100, 500, 1000, 2500, 5000]
alpha = 0.05

for size in sample_sizes: 

    sample_A = rng.choice(a=dist_A,replace=False,size=size)
    sample_B = rng.choice(a=dist_B,replace=False,size=size)
    
    stat, pvalue = stats.ttest_ind(sample_A, # --> muestra dist A
                                   sample_B # --> muestra dist B
                                  )
    
    print('-'*30, 'Tamaño de la muestra: {}'.format(size),sep='\n')
    print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))
    print('Media A: {:.4f} \t Media B: {:.4f}'.format(np.mean(sample_A), np.mean(sample_B)))

    if pvalue > alpha:
        print('No se rechaza la hipótesis nula.')
    else:
        print('Se rechaza la hipótesis nula.')


Los resultados permite observar que, a medida que aumenta el tamaño de la muestra, el valor de *p-value* decrece y el valor de estadístico aumenta. Esto se debe a que el tamaño de la muestra que se ingesta en el test posee un efecto sumamente importante en los resultados del mismo.

A mayor tamaño de muestra, más similar deberán ser las medias para que no se rechace la $H_0$.

* Es posible testear si la varianza de ambas muestras en la misma por medio del **Test de Barlett**.
  * $H_0$: las muestras provienen de distribuciones con la misma varianza.
  * $H_1$: las muestras no provienen de distribuciones con la misma varianza.

(*Para los casos donde las muestras difieren significativmante de una distribución normal el **Test de Levene** es más robusto.*)

In [None]:
stat, pvalue = stats.bartlett(dist_A, dist_B)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

In [None]:
stat, pvalue = stats.bartlett(dist_A, dist_C)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

* Otro test que permite analizar la diferencia entre distribuciones es el de **Kolmogorov-Smirnov** (o **Test KS**):
  * $H_0$: las muestras provienen de la misma distribución.
  * $H_1$: las muestras no provienen de la misma distribución.

In [None]:
stat, pvalue = stats.ks_2samp(dist_A, dist_B)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

In [None]:
stat, pvalue = stats.ks_2samp(dist_A, dist_C)

print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

alpha = 0.05

if pvalue > alpha:
    print('No se rechaza la hipótesis nula.')
else:
    print('Se rechaza la hipótesis nula.')

Los resultados de los tests se puede contrastar gráficamente.

In [None]:
fig, ax = plt.subplots(1,2, figsize=(18, 6))

ax1, ax2 = ax.flatten()

###############################
# Subplot izquierda
###############################

sn.ecdfplot(dist_A, color='#1f5ab8', label='Dist A', ax=ax1) 
sn.ecdfplot(dist_B, color='#db46e3', label='Dist B', ax=ax1)

ax1.set_title('CDF - Dist A y B')
ax1.set_ylim((-0.025, 1.025))
ax1.set_xlabel('Valores')
ax1.set_ylabel('Probabilidad')
ax1.legend()

###############################
# Subplot derecha
###############################

sn.ecdfplot(dist_A, color='#1f5ab8', label='Dist A', ax=ax2) 
sn.ecdfplot(dist_C, color='#e8d60c', label='Dist C', ax=ax2)

ax2.set_title('CDF - Dist A y C')
ax2.set_ylim((-0.025, 1.025))
ax2.set_xlabel('Valores')
ax2.set_ylabel('Probabilidad')
ax2.legend()

###############################
# Figura
###############################
plt.suptitle('Funciones de Densidad/Probilidad Acumulada')

plt.show()

Vale destacar que, al igual que los tests anteriores, el tamaño de la muestra influye en el output del test.

In [None]:
sample_sizes = [20, 50, 100, 500, 1000, 2500, 5000]
alpha = 0.05


for size in sample_sizes: 

    sample_A = rng.choice(a=dist_A,replace=False,size=size)
    sample_B = rng.choice(a=dist_B,replace=False,size=size)
    
    stat, pvalue = stats.ks_2samp(sample_A, # --> muestra dist A
                                   sample_B # --> muestra dist B
                                  )
    
    print('-'*30, 'Tamaño de la muestra: {}'.format(size),sep='\n')
    print('Valor del test={:.3f}, p-value={:.5f}'.format(stat, pvalue))

    if pvalue > alpha:
        print('No se rechaza la hipótesis nula.')
    else:
        print('Se rechaza la hipótesis nula.')

* Por medio del gráfico QQ (o QQ-Plot) podemos ver analizar las distribuciones en todo su dominio.

In [None]:
q=np.linspace(0, 100, 100)

qa = np.percentile(dist_A, q=q)
qb = np.percentile(dist_B, q=q)
qc = np.percentile(dist_C, q=q)

In [None]:
fig, ax = plt.subplots(1,2, figsize=(18, 6))

ax1, ax2 = ax.flatten()

###############################
# Subplot izquierda
###############################

# gráfico de puntos (QQ Plot)
ax1.scatter(qa,qb,c='#1e74c9', label='Percentiles')

# línea diagonal
x1= min(min(qa), min(qb))
x2= max(max(qa), max(qb))
y1=x1
y2=x2

ax1.plot((x1, x2), (y1, y2), linestyle='--', alpha = 0.85, color='#202326', label='Línea de coincidencia exacta')

ax1.set_xlabel('Valor de Percentiles - Dist A')
ax1.set_ylabel('Valor de Percentiles - Dist B')

ax1.legend()
ax1.set_title('QQ Plot (A y B)')

###############################
# Subplot derecha
###############################

# gráfico de puntos (QQ Plot)
ax2.scatter(qa,qc,c='#33d654', label='Percentiles')

# línea diagonal
x1= min(min(qa), min(qc))
x2= max(max(qa), max(qc))
y1=x1
y2=x2

ax2.plot((x1, x2), (y1, y2), linestyle='--', alpha = 0.85, color='#202326', label='Línea de coincidencia exacta')

ax2.set_xlabel('Valor de Percentiles - Dist A')
ax2.set_ylabel('Valor de Percentiles - Dist C')

ax2.legend()
ax2.set_title('QQ Plot (A y C)')

plt.show()