# Comprensi√≥n y An√°lisis Exploratorio de Datos (EDA)

**Proyecto**: MLOps Pipeline - California Housing  
**Objetivo**: Realizar un an√°lisis exploratorio exhaustivo del dataset para comprender las caracter√≠sticas, distribuciones y relaciones entre variables.

Este notebook incluye:
- ‚úÖ Exploraci√≥n inicial de datos
- ‚úÖ An√°lisis univariable (distribuciones individuales)
- ‚úÖ An√°lisis bivariable (relaciones entre pares de variables)
- ‚úÖ An√°lisis multivariable (correlaciones y relaciones m√∫ltiples)
- ‚úÖ Identificaci√≥n de patrones y outliers
- ‚úÖ Conclusiones para la ingenier√≠a de caracter√≠sticas

## 1. Carga de Librer√≠as y Datos

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import json
import warnings
warnings.filterwarnings('ignore')

# Configuraci√≥n de visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")

print("‚úì Librer√≠as importadas exitosamente")

In [None]:
# Cargar configuraci√≥n y datos
with open('../config.json', 'r') as f:
    config = json.load(f)

df = pd.read_csv(f"../{config['data_file']}")

print(f"‚úì Dataset cargado: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")

## 2. Descripci√≥n General de los Datos

In [None]:
df.head()

In [None]:
df.shape

In [None]:
df.info()

In [None]:
null_count_total_bedrooms = df['total_bedrooms'].isnull().sum()
print(f"N√∫mero de valores nulos en 'total_bedrooms': {null_count_total_bedrooms}")
print(f"Porcentaje de nulos: {null_count_total_bedrooms/len(df)*100:.2f}%")

### üìä Observaciones Iniciales

El dataset cuenta con **10 campos**:
- **9 variables num√©ricas**: 5 tipo `int64` y 4 tipo `float64`
- **1 variable categ√≥rica nominal**: `ocean_proximity`

**Valores nulos:**
- El campo `total_bedrooms` es el √∫nico que contiene valores nulos: **207 registros** (~1% del dataset)
- A estos datos faltantes se les aplicar√° imputaci√≥n (media, mediana u otras t√©cnicas)

In [None]:
df['ocean_proximity'].value_counts()

### üèùÔ∏è Variable Categ√≥rica: ocean_proximity

**ocean_proximity** clasifica cada vivienda seg√∫n su cercan√≠a al oc√©ano.

**Hallazgos importantes:**
- La categor√≠a **"ISLAND"** tiene solo **5 registros** (casas en islas)
  - ‚ö†Ô∏è **Decisi√≥n a tomar**: Evaluar si mantener o eliminar estos registros por su baja representatividad
- Las categor√≠as m√°s frecuentes son:
  - **"<1H OCEAN"** e **"INLAND"** ‚Üí Mayor cantidad de registros
- La distribuci√≥n de las otras categor√≠as es relativamente equilibrada

## 3. An√°lisis Univariable

An√°lisis de cada variable individual para entender su distribuci√≥n, tendencia central y dispersi√≥n.

In [None]:
df.describe()

In [None]:
# Histogramas de todas las variables num√©ricas
df.hist(bins=30, figsize=(15,8), edgecolor='black')
plt.suptitle('Distribuciones de Variables Num√©ricas', fontsize=16, y=1.02)
plt.tight_layout()
plt.show()

In [None]:
# Boxplots para detectar outliers
numerical_cols = df.select_dtypes(include=np.number).columns

for col in numerical_cols:
    plt.figure(figsize=(10, 6))
    sns.boxplot(x=df[col], color='skyblue')
    plt.title(f'Boxplot de {col}')
    plt.xlabel(col)
    plt.grid(True, alpha=0.3)
    plt.show()

## 4. An√°lisis Bivariable

An√°lisis de relaciones entre pares de variables, especialmente con respecto a la variable objetivo `median_house_value`.

In [None]:
# Relaci√≥n entre ingreso mediano y valor de la vivienda
plt.figure(figsize=(10, 6))
sns.scatterplot(x='median_income', y='median_house_value', data=df, color='red', alpha=0.5)
plt.title('Relaci√≥n: Ingreso Mediano vs. Valor de Vivienda')
plt.xlabel('Median Income')
plt.ylabel('Median House Value (USD)')
plt.grid(True, alpha=0.3)
plt.show()

In [None]:
# Distribuci√≥n geogr√°fica de precios
plt.figure(figsize=(12, 8))
sns.scatterplot(x="longitude", y="latitude", data=df, hue="median_house_value", palette="coolwarm", alpha=0.6, s=20)
plt.title('Distribuci√≥n Geogr√°fica de Precios de Viviendas en California')
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.legend(title='Median House Value', bbox_to_anchor=(1.05, 1), loc='upper left')
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

In [None]:
# Violin plot: Precio por proximidad al oc√©ano
plt.figure(figsize=(12, 8))
sns.violinplot(x='ocean_proximity', y='median_house_value', data=df, palette='Set2')
plt.title('Distribuci√≥n de Precios seg√∫n Proximidad al Oc√©ano')
plt.xlabel('Ocean Proximity')
plt.ylabel('Median House Value (USD)')
plt.xticks(rotation=45)
plt.grid(True, alpha=0.3, axis='y')
plt.tight_layout()
plt.show()

## 5. An√°lisis Multivariable

An√°lisis de correlaciones y relaciones entre m√∫ltiples variables simult√°neamente.

In [None]:
# Matriz de correlaci√≥n
plt.figure(figsize=(15, 8))
numerical_df = df.select_dtypes(include=np.number)
correlation_matrix = numerical_df.corr()
sns.heatmap(correlation_matrix, annot=True, cmap="YlGnBu", fmt='.2f', linewidths=0.5, cbar_kws={'label': 'Correlaci√≥n'})
plt.title('Matriz de Correlaci√≥n de Variables Num√©ricas', fontsize=16, pad=20)
plt.tight_layout()
plt.show()

In [None]:
# Pairplot con la variable categ√≥rica
sns.pairplot(df.select_dtypes(include=np.number).join(df['ocean_proximity']), 
             hue='ocean_proximity', 
             diag_kind='kde',
             plot_kws={'alpha': 0.6},
             corner=True)
plt.suptitle('Pairplot: Relaciones entre Variables', y=1.02)
plt.show()

## 6. Conclusiones del EDA y Recomendaciones

### üîç **Hallazgos Principales:**

1. **Valores Nulos:**
   - `total_bedrooms` tiene 207 valores nulos (~1%)
   - **Acci√≥n**: Imputar con la mediana (m√°s robusta ante outliers)

2. **Outliers:**
   - Presentes en casi todas las variables num√©ricas
   - Especialmente en `population`, `total_rooms`, `total_bedrooms`
   - **Acci√≥n**: Evaluar t√©cnicas de transformaci√≥n (log, winsorization) o l√≠mites IQR

3. **Correlaciones Importantes:**
   - `median_income` tiene la correlaci√≥n m√°s fuerte con `median_house_value`
   - Correlaciones altas entre variables relacionadas (ej: `total_rooms` ‚Üî `total_bedrooms`)
   - **Acci√≥n**: Considerar crear features derivados (ej: rooms_per_household)

4. **Variable Categ√≥rica:**
   - `ocean_proximity`: Categor√≠a "ISLAND" con solo 5 registros
   - **Acci√≥n**: Considerar eliminar o combinar con otra categor√≠a

5. **Distribuci√≥n Geogr√°fica:**
   - Los precios m√°s altos est√°n concentrados en la costa (especialmente √°rea de San Francisco/LA)
   - **Acci√≥n**: Las coordenadas geogr√°ficas son features importantes

6. **Distribuciones:**
   - Varias variables tienen distribuciones sesgadas
   - **Acci√≥n**: Aplicar transformaciones logar√≠tmicas para normalizar

### üìã **Pr√≥ximos Pasos para Feature Engineering:**

1. ‚úÖ Imputar valores nulos en `total_bedrooms`
2. ‚úÖ Crear features derivados:
   - `rooms_per_household` = total_rooms / households
   - `bedrooms_per_room` = total_bedrooms / total_rooms
   - `population_per_household` = population / households
3. ‚úÖ Codificar `ocean_proximity` (One-Hot Encoding)
4. ‚úÖ Considerar transformaciones logar√≠tmicas
5. ‚úÖ Tratar outliers seg√∫n estrategia definida
6. ‚úÖ Normalizar/Escalar variables num√©ricas