# Carga de Datos - California Housing Dataset

Este notebook se encarga de la carga inicial de datos desde el archivo CSV.

**Objetivo**: Cargar el dataset y realizar una exploraci√≥n inicial b√°sica.

**Dataset**: California Housing - Predicci√≥n de precios de viviendas en California

**Autor**: MLOps Pipeline Project  
**Fecha**: Noviembre 2025

## 1. Importar Librer√≠as Necesarias

In [None]:
import pandas as pd
import numpy as np
import json
import warnings
warnings.filterwarnings('ignore')

# Para visualizaci√≥n b√°sica
import matplotlib.pyplot as plt
import seaborn as sns

# Configuraci√≥n de visualizaci√≥n
plt.style.use('seaborn-v0_8-darkgrid')
sns.set_palette("husl")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)
pd.set_option('display.float_format', lambda x: '%.2f' % x)

print("‚úì Librer√≠as importadas exitosamente")
print(f"Versi√≥n de pandas: {pd.__version__}")
print(f"Versi√≥n de numpy: {np.__version__}")

## 2. Cargar Configuraci√≥n del Proyecto

In [None]:
# Cargar configuraci√≥n desde config.json
with open('../config.json', 'r') as f:
    config = json.load(f)

print("=" * 80)
print("CONFIGURACI√ìN DEL PROYECTO")
print("=" * 80)
for key, value in config.items():
    print(f"{key:20s}: {value}")
print("=" * 80)

## 3. Cargar el Dataset

In [None]:
# Cargar el dataset desde el archivo CSV
data_path = f"../{config['data_file']}"
df = pd.read_csv(data_path)

print("=" * 80)
print("DATASET CARGADO EXITOSAMENTE")
print("=" * 80)
print(f"Archivo: {config['data_file']}")
print(f"Dimensiones: {df.shape[0]:,} filas √ó {df.shape[1]} columnas")
print(f"Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
print("=" * 80)

## 4. Exploraci√≥n Inicial de Datos

In [None]:
# Primeras filas del dataset
print("=" * 80)
print("PRIMERAS 10 FILAS DEL DATASET")
print("=" * 80)
df.head(10)

In [None]:
# Informaci√≥n general del dataset
print("=" * 80)
print("INFORMACI√ìN GENERAL DEL DATASET")
print("=" * 80)
df.info()

### 4.1 Descripci√≥n de las Columnas

In [None]:
print("=" * 80)
print("DESCRIPCI√ìN DE LAS COLUMNAS DEL DATASET")
print("=" * 80)
print("\nColumnas disponibles:")
for i, col in enumerate(df.columns, 1):
    print(f"  {i:2d}. {col}")

print("\n" + "=" * 80)
print("DICCIONARIO DE DATOS")
print("=" * 80)

column_descriptions = {
    'longitude': 'Longitud geogr√°fica (coordenada oeste-este)',
    'latitude': 'Latitud geogr√°fica (coordenada norte-sur)',
    'housing_median_age': 'Edad mediana de las viviendas en el bloque',
    'total_rooms': 'N√∫mero total de habitaciones en el bloque',
    'total_bedrooms': 'N√∫mero total de dormitorios en el bloque',
    'population': 'Poblaci√≥n total del bloque',
    'households': 'N√∫mero total de hogares/familias en el bloque',
    'median_income': 'Ingreso mediano de los hogares (en decenas de miles de USD)',
    'ocean_proximity': 'Proximidad al oc√©ano (categ√≥rica)',
    'median_house_value': 'üéØ VARIABLE OBJETIVO: Valor mediano de la vivienda (USD)'
}

for col, desc in column_descriptions.items():
    print(f"\n{col}:")
    print(f"  {desc}")

## 5. Valores Nulos y Tipos de Datos

In [None]:
# An√°lisis de valores nulos
print("=" * 80)
print("AN√ÅLISIS DE VALORES NULOS")
print("=" * 80)

null_counts = df.isnull().sum()
null_percentage = (df.isnull().sum() / len(df)) * 100

null_df = pd.DataFrame({
    'Columna': null_counts.index,
    'Valores Nulos': null_counts.values,
    'Porcentaje (%)': null_percentage.values,
    'Tipo de Dato': df.dtypes.values
}).sort_values('Valores Nulos', ascending=False)

print(null_df.to_string(index=False))

total_nulls = df.isnull().sum().sum()
total_cells = df.shape[0] * df.shape[1]
print(f"\n{'='*80}")
print(f"Total de valores nulos: {total_nulls:,} de {total_cells:,} celdas ({total_nulls/total_cells*100:.2f}%)")
print("=" * 80)

### 5.1 Clasificaci√≥n de Variables

In [None]:
# Clasificaci√≥n de variables
print("=" * 80)
print("CLASIFICACI√ìN DE VARIABLES")
print("=" * 80)

numeric_cols = df.select_dtypes(include=['int64', 'float64']).columns.tolist()
categorical_cols = df.select_dtypes(include=['object']).columns.tolist()

print(f"\nüìä Variables Num√©ricas ({len(numeric_cols)}):")
for col in numeric_cols:
    print(f"  ‚Ä¢ {col}")

print(f"\nüìÅ Variables Categ√≥ricas ({len(categorical_cols)}):")
for col in categorical_cols:
    unique_values = df[col].nunique()
    print(f"  ‚Ä¢ {col} ({unique_values} valores √∫nicos)")
    
print("\n" + "=" * 80)

## 6. Estad√≠sticas Descriptivas B√°sicas

In [None]:
# Estad√≠sticas descriptivas para variables num√©ricas
print("=" * 80)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES NUM√âRICAS")
print("=" * 80)
df.describe().T

In [None]:
# Estad√≠sticas para variables categ√≥ricas
print("=" * 80)
print("ESTAD√çSTICAS DESCRIPTIVAS - VARIABLES CATEG√ìRICAS")
print("=" * 80)

for col in categorical_cols:
    print(f"\n{col}:")
    print(f"  Valores √∫nicos: {df[col].nunique()}")
    print(f"  Distribuci√≥n:")
    value_counts = df[col].value_counts()
    for val, count in value_counts.items():
        percentage = (count / len(df)) * 100
        print(f"    ‚Ä¢ {val}: {count:,} ({percentage:.1f}%)")

## 7. Visualizaci√≥n Inicial

In [None]:
# Visualizaci√≥n de la distribuci√≥n de la variable objetivo
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Histograma
axes[0].hist(df['median_house_value'], bins=50, edgecolor='black', alpha=0.7)
axes[0].set_xlabel('Median House Value (USD)')
axes[0].set_ylabel('Frequency')
axes[0].set_title('Distribuci√≥n de Precios de Viviendas')
axes[0].grid(True, alpha=0.3)

# Boxplot
axes[1].boxplot(df['median_house_value'])
axes[1].set_ylabel('Median House Value (USD)')
axes[1].set_title('Boxplot de Precios de Viviendas')
axes[1].grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

print(f"\nVariable Objetivo: median_house_value")
print(f"  M√≠nimo: ${df['median_house_value'].min():,.2f}")
print(f"  M√°ximo: ${df['median_house_value'].max():,.2f}")
print(f"  Media: ${df['median_house_value'].mean():,.2f}")
print(f"  Mediana: ${df['median_house_value'].median():,.2f}")

In [None]:
# Visualizaci√≥n geogr√°fica de los datos
plt.figure(figsize=(12, 8))
scatter = plt.scatter(df['longitude'], df['latitude'], 
                     c=df['median_house_value'], 
                     cmap='viridis', 
                     alpha=0.4, 
                     s=10)
plt.colorbar(scatter, label='Median House Value (USD)')
plt.xlabel('Longitude')
plt.ylabel('Latitude')
plt.title('Distribuci√≥n Geogr√°fica de Precios de Viviendas en California')
plt.grid(True, alpha=0.3)
plt.show()

## 8. Resumen de la Carga de Datos

In [None]:
print("=" * 80)
print("RESUMEN DE LA CARGA DE DATOS")
print("=" * 80)
print(f"\n‚úì Dataset cargado exitosamente desde: {config['data_file']}")
print(f"‚úì Total de registros: {df.shape[0]:,}")
print(f"‚úì Total de caracter√≠sticas: {df.shape[1]}")
print(f"‚úì Variables num√©ricas: {len(numeric_cols)}")
print(f"‚úì Variables categ√≥ricas: {len(categorical_cols)}")
print(f"‚úì Valores nulos encontrados: {total_nulls:,} ({total_nulls/total_cells*100:.2f}%)")
print(f"‚úì Tama√±o en memoria: {df.memory_usage(deep=True).sum() / 1024**2:.2f} MB")

print(f"\nüìå Observaciones Iniciales:")
print(f"  ‚Ä¢ La variable 'total_bedrooms' tiene {df['total_bedrooms'].isnull().sum():,} valores nulos")
print(f"  ‚Ä¢ Hay {df['ocean_proximity'].nunique()} categor√≠as en 'ocean_proximity'")
print(f"  ‚Ä¢ Los precios var√≠an desde ${df['median_house_value'].min():,.0f} hasta ${df['median_house_value'].max():,.0f}")
print(f"  ‚Ä¢ Los datos est√°n distribuidos geogr√°ficamente por toda California")

print(f"\nüéØ Variable Objetivo: median_house_value")
print(f"\n‚úÖ Datos listos para el an√°lisis exploratorio (EDA)")
print("=" * 80)