# Notebook 1: Análisis Exploratorio de Datos y Preparación
## HabitAlpes - Predicción de Precios de Apartamentos

**Objetivos**:
- Comprensión profunda del dataset (10% de la calificación)
- Análisis exploratorio exhaustivo
- Identificación de patrones y relaciones

**Temas a cubrir**:
- Carga y exploración inicial de datos
- Análisis de valores faltantes
- Análisis de la variable objetivo (precio_venta)
- Análisis de características numéricas y categóricas
- Análisis de correlaciones
- Patrones geográficos
- Relación entre precio y características

## Configuración Inicial

In [None]:
# Importar librerías necesarias
import sys
sys.path.append('../src')

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
from IPython.display import display, Image, Markdown

# Importar funciones de utilidad
from utils import (
    cargar_datos,
    resumen_valores_faltantes,
    imprimir_encabezado,
    formatear_cop,
    calcular_estadisticas_basicas
)

# Configuración de visualización
%matplotlib inline
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)
plt.rcParams['font.size'] = 10

import warnings
warnings.filterwarnings('ignore')

print("✓ Librerías cargadas exitosamente")

## 1. Carga de Datos

Cargaremos el dataset de apartamentos que contiene información del mercado inmobiliario de Bogotá de los últimos 2 meses.

In [None]:
# Cargar el dataset
df = cargar_datos()

print(f"\nForma del dataset: {df.shape}")
print(f"Número de registros: {df.shape[0]:,}")
print(f"Número de características: {df.shape[1]:,}")

### 1.1 Primeras Filas del Dataset

In [None]:
# Mostrar las primeras 5 filas
display(df.head())

### 1.2 Información General del Dataset

In [None]:
# Información sobre tipos de datos y memoria
print("Información del Dataset:")
print("=" * 80)
df.info()

In [None]:
# Listar todas las columnas
print("\nColumnas del Dataset:")
print("=" * 80)
for i, col in enumerate(df.columns, 1):
    print(f"{i:2d}. {col}")

## 2. Análisis de Valores Faltantes

Es fundamental identificar y entender los valores faltantes en el dataset para tomar decisiones informadas sobre su tratamiento.

In [None]:
# Análisis de valores faltantes
faltantes = resumen_valores_faltantes(df)

if len(faltantes) > 0:
    print("\nColumnas con Valores Faltantes:")
    print("=" * 80)
    display(faltantes)
else:
    print("\n✓ No hay valores faltantes en el dataset")

In [None]:
# Visualizar valores faltantes si existen figuras generadas
figura_path = Path('../reports/figures/01_valores_faltantes.png')
if figura_path.exists():
    print("\nVisualización de Valores Faltantes:")
    display(Image(filename=str(figura_path)))
else:
    print("\nNota: Ejecutar src/01_analisis_exploratorio.py para generar las visualizaciones")

## 3. Análisis de la Variable Objetivo: precio_venta

La variable objetivo es `precio_venta` (precio de venta en COP). Analizaremos su distribución, estadísticas y presencia de valores atípicos.

In [None]:
# Estadísticas descriptivas del precio de venta
stats_precio = calcular_estadisticas_basicas(df['precio_venta'], 'Precio de Venta (COP)')

In [None]:
# Mostrar estadísticas adicionales
print("\nEstadísticas Adicionales de Precio de Venta:")
print("=" * 80)
print(f"Rango de precios: {formatear_cop(df['precio_venta'].min())} - {formatear_cop(df['precio_venta'].max())}")
print(f"Precio promedio: {formatear_cop(df['precio_venta'].mean())}")
print(f"Precio mediano: {formatear_cop(df['precio_venta'].median())}")
print(f"Desviación estándar: {formatear_cop(df['precio_venta'].std())}")

In [None]:
# Visualización de la distribución del precio de venta
figura_precio = Path('../reports/figures/02_distribucion_precio_venta.png')
if figura_precio.exists():
    print("\nDistribución del Precio de Venta:")
    display(Image(filename=str(figura_precio)))
else:
    print("\nNota: Ejecutar src/01_analisis_exploratorio.py para generar las visualizaciones")

### Interpretación de la Variable Objetivo:

**Observaciones clave**:
- La distribución del precio está sesgada a la derecha (asimetría positiva)
- Hay presencia de valores atípicos en el rango superior
- La mayoría de los apartamentos se concentran en el rango medio
- La transformación logarítmica muestra una distribución más normal

## 4. Análisis de Características Numéricas

Analizaremos las características numéricas principales: área, habitaciones, baños, parqueaderos, etc.

In [None]:
# Seleccionar columnas numéricas principales
columnas_numericas = ['area', 'habitaciones', 'banos', 'parqueaderos', 'piso', 'antiguedad']

# Estadísticas descriptivas
print("\nEstadísticas Descriptivas de Características Numéricas:")
print("=" * 80)
display(df[columnas_numericas].describe().T)

In [None]:
# Visualización de distribuciones
figura_numericas = Path('../reports/figures/03_distribucion_caracteristicas_numericas.png')
if figura_numericas.exists():
    print("\nDistribución de Características Numéricas:")
    display(Image(filename=str(figura_numericas)))
else:
    print("\nNota: Ejecutar src/01_analisis_exploratorio.py para generar las visualizaciones")

## 5. Análisis de Características Categóricas

Analizaremos las variables categóricas como localidad, tipo de propiedad, estrato, etc.

In [None]:
# Análisis de localidades
if 'localidad' in df.columns:
    print("\nDistribución por Localidad:")
    print("=" * 80)
    localidad_counts = df['localidad'].value_counts()
    print(f"Total de localidades: {len(localidad_counts)}")
    print(f"\nTop 10 Localidades:")
    display(localidad_counts.head(10))

In [None]:
# Visualización de localidades
figura_localidades = Path('../reports/figures/04_top_localidades.png')
if figura_localidades.exists():
    print("\nTop 15 Localidades:")
    display(Image(filename=str(figura_localidades)))

In [None]:
# Análisis de estrato socioeconómico
if 'estrato' in df.columns:
    print("\nDistribución por Estrato Socioeconómico:")
    print("=" * 80)
    estrato_counts = df['estrato'].value_counts().sort_index()
    display(estrato_counts)

## 6. Análisis de Amenidades

Análisis de amenidades disponibles en los apartamentos (piscina, gimnasio, ascensor, etc.)

In [None]:
# Identificar columnas de amenidades (binarias)
amenidades = ['piscina', 'gimnasio', 'ascensor', 'vigilancia', 'zona_social', 
              'salon_comunal', 'parqueadero_visitantes', 'zonas_verdes']

amenidades_disponibles = [col for col in amenidades if col in df.columns]

if amenidades_disponibles:
    print("\nDisponibilidad de Amenidades:")
    print("=" * 80)
    for amenidad in amenidades_disponibles:
        conteo = df[amenidad].sum()
        porcentaje = (conteo / len(df)) * 100
        print(f"{amenidad.capitalize():25s}: {conteo:6,} ({porcentaje:5.2f}%)")

In [None]:
# Visualización de amenidades
figura_amenidades = Path('../reports/figures/06_disponibilidad_amenidades.png')
if figura_amenidades.exists():
    print("\nDisponibilidad de Amenidades (Visualización):")
    display(Image(filename=str(figura_amenidades)))

## 7. Análisis de Correlaciones

Analizaremos las correlaciones entre las variables numéricas y su relación con el precio de venta.

In [None]:
# Calcular correlaciones con precio_venta
correlaciones = df.select_dtypes(include=[np.number]).corr()['precio_venta'].sort_values(ascending=False)

print("\nTop 15 Características Correlacionadas con Precio de Venta:")
print("=" * 80)
display(correlaciones.head(15))

In [None]:
# Visualización de correlaciones
figura_correlacion = Path('../reports/figures/07_correlacion_con_precio.png')
if figura_correlacion.exists():
    print("\nCorrelación con Precio de Venta (Top 20):")
    display(Image(filename=str(figura_correlacion)))

In [None]:
# Matriz de correlación
figura_matriz = Path('../reports/figures/08_matriz_correlacion.png')
if figura_matriz.exists():
    print("\nMatriz de Correlación (Características Principales):")
    display(Image(filename=str(figura_matriz)))

### Hallazgos Clave de Correlación:

**Variables con alta correlación positiva con precio**:
- Área (m²) - La correlación más fuerte
- Número de baños
- Número de habitaciones
- Estrato socioeconómico

**Implicaciones para el modelo**:
- El área es el predictor más importante
- Las características físicas tienen fuerte influencia
- La ubicación (estrato/localidad) es determinante

## 8. Análisis Geográfico

Análisis de patrones geográficos utilizando coordenadas y localidades.

In [None]:
# Estadísticas geográficas
if 'latitud' in df.columns and 'longitud' in df.columns:
    print("\nEstadísticas de Coordenadas:")
    print("=" * 80)
    print(f"Latitud  - Rango: {df['latitud'].min():.6f} a {df['latitud'].max():.6f}")
    print(f"Longitud - Rango: {df['longitud'].min():.6f} a {df['longitud'].max():.6f}")

In [None]:
# Visualización geográfica
figura_geo = Path('../reports/figures/09_distribucion_geografica.png')
if figura_geo.exists():
    print("\nDistribución Geográfica de Apartamentos (coloreado por precio):")
    display(Image(filename=str(figura_geo)))

In [None]:
# Precio promedio por localidad
figura_precio_localidad = Path('../reports/figures/10_precio_por_localidad.png')
if figura_precio_localidad.exists():
    print("\nPrecio Promedio por Localidad (Top 15):")
    display(Image(filename=str(figura_precio_localidad)))

## 9. Relación entre Precio y Características

Análisis detallado de cómo el precio varía según diferentes características.

In [None]:
# Precio por número de habitaciones
figura_hab = Path('../reports/figures/11_precio_por_habitaciones.png')
if figura_hab.exists():
    print("\nPrecio de Venta por Número de Habitaciones:")
    display(Image(filename=str(figura_hab)))

In [None]:
# Precio por estrato
figura_estrato = Path('../reports/figures/12_precio_por_estrato.png')
if figura_estrato.exists():
    print("\nPrecio de Venta por Estrato Socioeconómico:")
    display(Image(filename=str(figura_estrato)))

In [None]:
# Precio por metro cuadrado
figura_m2 = Path('../reports/figures/13_precio_por_metro_cuadrado.png')
if figura_m2.exists():
    print("\nPrecio por Metro Cuadrado:")
    display(Image(filename=str(figura_m2)))

## 10. Resumen Ejecutivo del EDA

### Hallazgos Principales:

1. **Dataset**:
   - 43,013 apartamentos con 46 características
   - Datos del mercado inmobiliario de Bogotá (últimos 2 meses)
   - Dataset relativamente completo con pocos valores faltantes

2. **Variable Objetivo (precio_venta)**:
   - Distribución asimétrica positiva (sesgada a la derecha)
   - Rango amplio de precios con presencia de valores atípicos
   - Mediana más representativa que la media debido a la asimetría

3. **Características más Relevantes**:
   - **Área**: Correlación más fuerte con el precio
   - **Ubicación**: Localidad y estrato son determinantes
   - **Características físicas**: Baños, habitaciones, parqueaderos
   - **Amenidades**: Piscina, gimnasio, ascensor agregan valor

4. **Patrones Geográficos**:
   - Clara segmentación de precios por localidad
   - Zonas premium (Usaquén, Chapinero) vs zonas económicas
   - El estrato refleja la calidad de la zona

5. **Consideraciones para Modelado**:
   - Necesidad de transformación logarítmica del precio
   - Importancia de incluir interacciones (área × estrato)
   - Variables categóricas (localidad) requieren encoding
   - Posible necesidad de ingeniería de características

### Próximos Pasos:

1. **Preprocesamiento**: Limpieza, tratamiento de valores faltantes
2. **Ingeniería de Características**: Crear variables derivadas
3. **Modelado**: Entrenar múltiples modelos ML
4. **Evaluación**: Métricas de rendimiento (MAE, RMSE, R², MAPE)
5. **Interpretabilidad**: SHAP y LIME
6. **Valor de Negocio**: ROI y recomendaciones

## Conclusión del Análisis Exploratorio

Este análisis exploratorio ha proporcionado una comprensión profunda del dataset de apartamentos en Bogotá. Los hallazgos clave nos permiten:

✅ **Entender la distribución y características del mercado inmobiliario**

✅ **Identificar las variables más relevantes para predecir precios**

✅ **Detectar patrones geográficos y socioeconómicos**

✅ **Preparar estrategias de preprocesamiento e ingeniería de características**

El siguiente notebook se enfocará en el preprocesamiento de datos, ingeniería de características, y entrenamiento de modelos de machine learning.