<a href="https://colab.research.google.com/github/franciscogarate/cdiae/blob/main/notebooks/6_Analisis_bivariante_California.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Analisis univariante y bivariante

El set de datos de los precios de las viviendas de California puede considerarse como el "Hola mundo" del análisis de regresión en machine learning.

In [None]:
!git clone https://github.com/franciscogarate/cdiae

In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

Leemos nuestro fichero de datos:

In [None]:
df = pd.read_feather('cdiae/data/03_model_input/california_housing_clean.ftr')
df.head()

<pre>
:Attribute Information:
    - MedInc:       ingreso mediano en la zona
    - HouseAge:     edad mediana de las casas en la zona
    - AveRooms:     número promedio de habitaciones por hogar
    - AveBedrms:    número promedio de dormitorios por hogar
    - Population:   población de la zona
    - AveOccup:     número promedio de miembros del hogar
    - Latitude:     latitud de la zona
    - Longitude:    longitud de la zona
</pre>

In [None]:
df.info()

### Mostramos los datos a estimar

In [None]:
target = df['target']
sns.histplot(target, bins=100, kde=True)

## **Analisis univariante**

In [None]:
num_cols = df.select_dtypes(include="number").columns.tolist()
df[num_cols].describe().T

In [None]:
for col in num_cols:
    plt.figure(figsize=(5,3))
    df[col].plot(kind="hist", bins=30, alpha=0.8)
    plt.title(f"Histograma: {col}")
    plt.xlabel(col); plt.ylabel("Frecuencia"); plt.grid(True, axis="y", alpha=0.3)
    plt.tight_layout()
    plt.plot()

## **Analisis bivariante**: Visualización de las correlaciones - Matriz de correlación (Pearson)
Parametros disponibles:

 - `df.corr(method='pearson')` # por defecto
 - `df.corr(method='spearman')`
 - `df.corr(method='kendall')`

Modo simple:

In [None]:
df.corr(method='spearman')

Modo visual con seaborn:

In [None]:
corr = df.corr(method='spearman').round(2)
ax = sns.heatmap(corr, cmap="coolwarm", annot=True, linewidths=.5)

Este gráfico nos sirve para identificar la multicolinealidad entre variables. Por ejemplo, AveRooms (Habitaciones)y AveBedrms (Dormitorios) tiene una correlacion del 0.84, por tanto, podriamos prescindir de una ellas para nuestro modelo.

### Analisis visual bivariante

In [None]:
plt.figure(figsize=(10,10))
for index, columns in enumerate(df.columns[:9]):
    plt.subplot(331+index)
    plt.scatter(df[columns], target, s=2)
    plt.title(columns, fontsize=8)
plt.show()

Se aprecian varias variables explicativas que pueden predecir el precio de una vivienda, la más llamativa sería los ingresos de la zona (MedInc), y el número de habitaciones (AveRooms), donde se aprecia visualmente que a mayores ingresos medios y mayor numero de habitaciones mayor precio.

Ordenamos aquellas variables con mayor correlación:


In [None]:
df.corr(method='pearson')['target'].sort_values(ascending=False)