# üè† **HabiData: Limpieza y Preprocesamiento de Datos Inmobiliarios**
## An√°lisis de Precios de Propiedades en Antioquia, Colombia

---

### **üìä Contexto del Proyecto**
Este notebook presenta el proceso completo de **limpieza y preprocesamiento** de un dataset de propiedades inmobiliarias en Colombia, con enfoque espec√≠fico en **Antioquia**. 

### **üéØ Objetivo**
Preparar un dataset de alta calidad para **predicci√≥n de precios** inmobiliarios, aplicando t√©cnicas avanzadas de:
- ‚úÖ Limpieza de datos
- ‚úÖ Validaci√≥n geogr√°fica  
- ‚úÖ Text mining de descripciones
- ‚úÖ Imputaci√≥n inteligente de valores faltantes

### **üìù Metodolog√≠a**
Cada decisi√≥n de limpieza est√° **justificada t√©cnicamente** y documentada para garantizar:
1. **Reproducibilidad** del proceso
2. **Transparencia** en las decisiones 
3. **Calidad cient√≠fica** del an√°lisis
4. **Optimizaci√≥n** para modelos predictivos

---

### **üìã Estructura del An√°lisis**
1. **Carga y Configuraci√≥n Inicial**
2. **Filtrado Geogr√°fico (Antioquia)**  
3. **Evaluaci√≥n de Calidad de Datos**
4. **Limpieza de Precios Inv√°lidos**
5. **Validaci√≥n y Correcci√≥n Geogr√°fica**
6. **Filtrado por Tipo de Propiedad**
7. **An√°lisis de Valores Faltantes**
8. **Text Mining de Descripciones**
9. **Estrategia de Integraci√≥n de Datos**
10. **An√°lisis de Variables de Superficie**
11. **Tratamiento Final de Valores Faltantes**
12. **Validaci√≥n y Resumen Final**

---

*Desarrollado como parte del an√°lisis de mercado inmobiliario colombiano*

## 1Ô∏è‚É£ **Carga y Configuraci√≥n Inicial**

### **üéØ Objetivo de Esta Secci√≥n**
Establecer el entorno de trabajo y cargar el dataset inicial de propiedades inmobiliarias colombianas.

### **üìö Justificaci√≥n de Librer√≠as**
- `pandas`: Manipulaci√≥n eficiente de datasets grandes
- `numpy`: Operaciones num√©ricas optimizadas  
- `matplotlib/seaborn`: Visualizaci√≥n de patrones de datos
- `re`: Text mining de descripciones (procesamiento de lenguaje natural)
- `sqlalchemy`: Conexi√≥n a base de datos PostgreSQL (opcional)

In [25]:
# ===============================================================
# IMPORTACI√ìN DE LIBRER√çAS ESENCIALES
# ===============================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import warnings

# Configuraci√≥n para optimizar visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 100)

print("‚úÖ Librer√≠as importadas exitosamente")
print("‚úÖ Configuraci√≥n de visualizaci√≥n establecida")

‚úÖ Librer√≠as importadas exitosamente
‚úÖ Configuraci√≥n de visualizaci√≥n establecida


In [26]:
# ===============================================================
# CARGA DEL DATASET INICIAL
# ===============================================================

# Ruta al archivo CSV con datos de propiedades colombianas
csv_path = "/home/andresgonzalezrpo/bootcamp_data/project/habidata/data/co_properties.csv"

# Cargar dataset completo
df_original = pd.read_csv(csv_path)

# Informaci√≥n b√°sica del dataset
print("üè† DATASET CARGADO: Propiedades Inmobiliarias Colombia")
print("=" * 55)
print(f"üìä Dimensiones: {df_original.shape}")
print(f"üìã Registros: {df_original.shape[0]:,}")
print(f"üìã Variables: {df_original.shape[1]}")
print(f"üíæ Tama√±o en memoria: {df_original.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

# Vista previa de primeras filas
print(f"\nüìã PRIMERAS 3 FILAS:")
df_original.head(3)

üè† DATASET CARGADO: Propiedades Inmobiliarias Colombia
üìä Dimensiones: (1000000, 25)
üìã Registros: 1,000,000
üìã Variables: 25
üíæ Tama√±o en memoria: 1482.7 MB

üìã PRIMERAS 3 FILAS:


Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
0,KsjahK62rxcYKXXQjOdkqw==,Propiedad,2020-10-07,2021-10-09,2020-10-07,3.921,-76.506,Colombia,Valle del Cauca,,,,,,6.0,7.0,,,1300000000.0,COP,,Casa Campestre en venta en darien 3469064,"HERMOSA CASA CAMPESTRE, &Aacute;REA 6,000 MT, UBICADA EN LA VIA BUGA - BUENAVENTURA, EN PARCELAC...",Casa,Venta
1,Y+gsBZYq1zu5NoR3V5oUGA==,Propiedad,2020-10-07,2021-01-06,2020-10-07,3.3577,-76.541811,Colombia,Valle del Cauca,Cali,Ciudad Jard√≠n,,,,,7.0,,,2800000000.0,COP,,Casa en ciudsd jardin,Casa independiente con posiciona en ciudad jard√≠n y hermosos jardines. La casa s eve de amoblada...,Casa,Venta
2,Jpzqxj8/Vgf3Aa5ASxUBNg==,Propiedad,2020-10-07,2020-10-07,2020-10-07,3.3577,-76.541811,Colombia,Valle del Cauca,Cali,Ciudad Jard√≠n,,,,,7.0,,,2800000000.0,COP,Mensual,Casa en ciudsd jardin,Casa independiente con posiciona en ciudad jard√≠n y hermosos jardines. Amo la casa al\nSur se la...,Casa,Venta


## 2Ô∏è‚É£ **Filtrado Geogr√°fico: Enfoque en Antioquia**

### **üéØ Decisi√≥n Estrat√©gica**
**¬øPor qu√© filtrar solo Antioquia?**

1. **üèôÔ∏è Homogeneidad del Mercado**: Antioquia tiene un mercado inmobiliario m√°s homog√©neo con Medell√≠n como centro econ√≥mico
2. **üìä Volumen Suficiente**: Concentra gran cantidad de transacciones para an√°lisis estad√≠sticamente significativo
3. **üéØ Especificidad Regional**: Los precios inmobiliarios var√≠an significativamente entre departamentos
4. **üîç Calidad del An√°lisis**: Enfoque regional permite mayor precisi√≥n en patrones de precios

### **‚úÖ Impacto Esperado**
- Reducir variabilidad geogr√°fica extrema
- Mejorar homogeneidad para modelos predictivos  
- Mantener volumen suficiente para an√°lisis robusto

In [27]:
# ===============================================================
# FILTRADO GEOGR√ÅFICO: ANTIOQUIA CON AN√ÅLISIS COMPLETO
# ===============================================================

# 1. Verificar distribuci√≥n por departamento (l2)
print("üåç DISTRIBUCI√ìN POR DEPARTAMENTO (TOP 10):")
print("-" * 45)
departamentos = df_original['l2'].value_counts().head(10)
total_nacional = len(df_original)

for dept, count in departamentos.items():
    porcentaje = (count / total_nacional) * 100
    print(f"   {dept:<20}: {count:>8,} ({porcentaje:>5.1f}%)")

# 2. Filtrar √∫nicamente Antioquia  
df_antioquia = df_original[df_original['l2'] == 'Antioquia'].copy()

# 3. Resumen del filtrado geogr√°fico
print(f"\n‚úÖ RESULTADO DEL FILTRADO GEOGR√ÅFICO:")
print("=" * 45)
print(f"üìä Dataset original: {len(df_original):,} propiedades")
print(f"üìä Dataset Antioquia: {len(df_antioquia):,} propiedades") 
print(f"üìà Porcentaje conservado: {(len(df_antioquia)/len(df_original)*100):.1f}%")
print(f"üìç Enfoque regional: Departamento de Antioquia √∫nicamente")

# 4. An√°lisis de ciudades en Antioquia
print(f"\nüèôÔ∏è PRINCIPALES CIUDADES EN ANTIOQUIA:")
print("-" * 40)
ciudades_antioquia = df_antioquia['l3'].value_counts().head(8)
for ciudad, count in ciudades_antioquia.items():
    porcentaje = (count / len(df_antioquia)) * 100
    print(f"   {ciudad:<20}: {count:>6,} ({porcentaje:>5.1f}%)")

# 5. Lista de barrios/sectores (l4)
print(f"\nüèòÔ∏è BARRIOS/SECTORES EN ANTIOQUIA:")
print("-" * 40)

# Limpieza b√°sica y conteo de barrios
conteo_barrios = (
    df_antioquia['l4']
    .astype(str)
    .str.strip()
    .str.title()
    .replace('Nan', np.nan)
    .value_counts()
)

# Mostrar listado de barrios
print(f"üìã LISTADO DE BARRIOS (ORDENADO POR CANTIDAD):")
print(f"{'#':<4} {'Barrio/Sector':<35} {'Propiedades':<12} {'%':<6}")
print("-" * 65)

for i, (barrio, count) in enumerate(conteo_barrios.items(), 1):
    porcentaje = (count / len(df_antioquia)) * 100
    print(f"{i:>3}. {str(barrio):<35}: {count:>8,} ({porcentaje:>4.1f}%)")

print(f"\n‚úÖ TOTAL: {len(conteo_barrios):,} barrios √∫nicos")

üåç DISTRIBUCI√ìN POR DEPARTAMENTO (TOP 10):
---------------------------------------------
   Antioquia           :  341,453 ( 34.1%)
   Cundinamarca        :  208,918 ( 20.9%)
   Valle del Cauca     :  117,770 ( 11.8%)
   Atl√°ntico           :   78,605 (  7.9%)
   Santander           :   71,737 (  7.2%)
   Caldas              :   56,296 (  5.6%)
   Norte de Santander  :   32,247 (  3.2%)
   Risaralda           :   28,505 (  2.9%)
   Quind√≠o             :   11,753 (  1.2%)
   Bol√≠var             :   11,016 (  1.1%)

‚úÖ RESULTADO DEL FILTRADO GEOGR√ÅFICO:
üìä Dataset original: 1,000,000 propiedades
üìä Dataset Antioquia: 341,453 propiedades
üìà Porcentaje conservado: 34.1%
üìç Enfoque regional: Departamento de Antioquia √∫nicamente

üèôÔ∏è PRINCIPALES CIUDADES EN ANTIOQUIA:
----------------------------------------
   Medell√≠n            : 262,856 ( 77.0%)
   Envigado            : 24,171 (  7.1%)
   Sabaneta            : 10,836 (  3.2%)
   Bello               :  8,728 (  2.6%)

## 3Ô∏è‚É£ **Evaluaci√≥n de Calidad de Datos**

### **üéØ Objetivo**
Identificar problemas de calidad que afecten el modelo de predicci√≥n de precios.

### **üîç Estrategia**
1. **Valores faltantes** por variable
2. **Registros duplicados** completos
3. **Rangos l√≥gicos** en variables num√©ricas
4. **Consistencia** en variables categ√≥ricas

In [28]:
# ===============================================================
# EVALUACI√ìN R√ÅPIDA DE CALIDAD DE DATOS
# ===============================================================

print("üîç EVALUACI√ìN DE CALIDAD - DATASET ANTIOQUIA")
print("=" * 50)

# 1. Informaci√≥n b√°sica
print(f"üìä Dimensiones: {df_antioquia.shape}")
print(f"üìä Tipos de datos:")
print(df_antioquia.dtypes.value_counts())

# 2. Valores faltantes cr√≠ticos
print(f"\nüö® VALORES FALTANTES (Top 10):")
missing = df_antioquia.isnull().sum()
missing_pct = (missing / len(df_antioquia)) * 100
missing_top = missing[missing > 0].sort_values(ascending=False).head(10)

for col, count in missing_top.items():
    pct = missing_pct[col]
    print(f"   {col:<20}: {count:>8,} ({pct:>5.1f}%)")

# 3. Duplicados
duplicados = df_antioquia.duplicated().sum()
print(f"\nüìã REGISTROS DUPLICADOS: {duplicados:,}")

# 4. Problemas en variables clave
print(f"\n‚ö†Ô∏è PROBLEMAS DETECTADOS:")

# Precios inv√°lidos
precios_invalidos = (df_antioquia['price'] <= 0).sum()
print(f"   ‚Ä¢ Precios ‚â§ 0: {precios_invalidos:,}")

# Coordenadas fuera de Colombia
LAT_MIN, LAT_MAX = -4.23, 15.52
LON_MIN, LON_MAX = -79.01, -66.85
coords_invalidas = (
    (df_antioquia['lat'] < LAT_MIN) | (df_antioquia['lat'] > LAT_MAX) |
    (df_antioquia['lon'] < LON_MIN) | (df_antioquia['lon'] > LON_MAX)
).sum()
print(f"   ‚Ä¢ Coordenadas fuera de Colombia: {coords_invalidas:,}")

# Habitaciones extremas
if 'bedrooms' in df_antioquia.columns:
    bedrooms_extremas = (df_antioquia['bedrooms'] > 15).sum()
    print(f"   ‚Ä¢ Dormitorios > 15: {bedrooms_extremas:,}")

print(f"\n‚úÖ EVALUACI√ìN COMPLETADA")

üîç EVALUACI√ìN DE CALIDAD - DATASET ANTIOQUIA
üìä Dimensiones: (341453, 25)
üìä Tipos de datos:
object     17
float64     8
Name: count, dtype: int64

üö® VALORES FALTANTES (Top 10):
   l6                  :  341,453 (100.0%)
   l5                  :  341,453 (100.0%)
   surface_total       :  334,859 ( 98.1%)
   surface_covered     :  334,412 ( 97.9%)
   price_period        :  314,524 ( 92.1%)
   rooms               :  305,597 ( 89.5%)
   l4                  :  262,728 ( 76.9%)
   bedrooms            :  261,106 ( 76.5%)
   lat                 :  196,750 ( 57.6%)
   lon                 :  196,750 ( 57.6%)

üìã REGISTROS DUPLICADOS: 0

‚ö†Ô∏è PROBLEMAS DETECTADOS:
   ‚Ä¢ Precios ‚â§ 0: 7
   ‚Ä¢ Coordenadas fuera de Colombia: 29
   ‚Ä¢ Dormitorios > 15: 54

‚úÖ EVALUACI√ìN COMPLETADA


## 4Ô∏è‚É£ **Limpieza de Precios Inv√°lidos**

### **üéØ Decisi√≥n**
Eliminar registros con precio ‚â§ 0.

### **‚úÖ Justificaci√≥n**
Precios inv√°lidos no sirven para predicci√≥n de precios.

In [64]:
# ===============================================================
# ELIMINAR PRECIOS INV√ÅLIDOS Y FILTRAR POR MONEDA
# ===============================================================

print("üí∞ AN√ÅLISIS DE MONEDA Y LIMPIEZA DE PRECIOS")
print("=" * 50)

inicial = len(df_antioquia)
print(f"üìä Dataset inicial: {inicial:,} registros")

# PASO 1: Verificar existencia y contenido de la columna currency
print(f"\nüîç PASO 1: AN√ÅLISIS DE LA COLUMNA 'currency'")
print("-" * 45)

if 'currency' in df_antioquia.columns:
    print("‚úÖ Columna 'currency' encontrada")
    
    # Verificar valores faltantes
    currency_nulos = df_antioquia['currency'].isna().sum()
    currency_completitud = ((len(df_antioquia) - currency_nulos) / len(df_antioquia)) * 100
    
    print(f"üìä Datos faltantes: {currency_nulos:,} ({100-currency_completitud:.1f}%)")
    print(f"üìä Datos completos: {len(df_antioquia) - currency_nulos:,} ({currency_completitud:.1f}%)")
    
    # Mostrar distribuci√≥n de monedas
    print(f"\nüìã DISTRIBUCI√ìN DE MONEDAS:")
    currency_dist = df_antioquia['currency'].value_counts(dropna=False)
    for moneda, count in currency_dist.items():
        porcentaje = (count / len(df_antioquia)) * 100
        estado = "‚úÖ" if str(moneda) == "COP" else "‚ùå" if pd.notna(moneda) else "‚ö†Ô∏è"
        print(f"   {estado} {moneda}: {count:,} ({porcentaje:.1f}%)")
    
    # PASO 2: Filtrar solo COP
    print(f"\nüéØ PASO 2: FILTRO DE MONEDA - SOLO PESOS COLOMBIANOS")
    print("-" * 55)
    
    antes_currency = len(df_antioquia)
    
    # Filtrar solo registros con currency = 'COP'
    df_cop = df_antioquia[df_antioquia['currency'] == 'COP'].copy()
    
    despues_currency = len(df_cop)
    eliminados_currency = antes_currency - despues_currency
    
    print(f"üìä Antes del filtro: {antes_currency:,}")
    print(f"‚úÖ Despu√©s del filtro: {despues_currency:,}")
    print(f"üóëÔ∏è Eliminados (otras monedas): {eliminados_currency:,}")
    print(f"üìà Conservado: {(despues_currency/antes_currency*100):.1f}%")
    
    # Usar el dataset filtrado por moneda
    df_para_precio = df_cop.copy()
    
else:
    print("‚ùå Columna 'currency' NO encontrada")
    print("   ‚Üí Asumiendo que todos los precios est√°n en pesos colombianos")
    df_para_precio = df_antioquia.copy()

# PASO 3: Eliminar precios inv√°lidos (‚â§ 0)
print(f"\nüè∑Ô∏è PASO 3: ELIMINAR PRECIOS INV√ÅLIDOS")
print("-" * 40)

antes_precio = len(df_para_precio)
print(f"üìä Antes: {antes_precio:,}")

# Eliminar precios ‚â§ 0
df_clean = df_para_precio[df_para_precio['price'] > 0].copy()

despues_precio = len(df_clean)
eliminados_precio = antes_precio - despues_precio

print(f"‚úÖ Despu√©s: {despues_precio:,}")
print(f"üóëÔ∏è Eliminados (precios ‚â§ 0): {eliminados_precio:,}")
print(f"üìà Conservado: {(despues_precio/antes_precio*100):.1f}%")

# RESUMEN FINAL
print(f"\n‚úÖ RESUMEN FINAL DE LIMPIEZA:")
print("=" * 35)
print(f"üìä Dataset inicial: {inicial:,}")
print(f"üìä Dataset final: {len(df_clean):,}")
eliminados_total = inicial - len(df_clean)
print(f"üóëÔ∏è Total eliminados: {eliminados_total:,}")
print(f"üìà Conservaci√≥n total: {(len(df_clean)/inicial*100):.1f}%")
print(f"üí∞ Moneda confirmada: Pesos Colombianos (COP)")

üí∞ AN√ÅLISIS DE MONEDA Y LIMPIEZA DE PRECIOS
üìä Dataset inicial: 341,453 registros

üîç PASO 1: AN√ÅLISIS DE LA COLUMNA 'currency'
---------------------------------------------
‚úÖ Columna 'currency' encontrada
üìä Datos faltantes: 79 (0.0%)
üìä Datos completos: 341,374 (100.0%)

üìã DISTRIBUCI√ìN DE MONEDAS:
   ‚úÖ COP: 341,366 (100.0%)
   ‚ö†Ô∏è nan: 79 (0.0%)
   ‚ùå USD: 7 (0.0%)
   ‚ùå ARS: 1 (0.0%)

üéØ PASO 2: FILTRO DE MONEDA - SOLO PESOS COLOMBIANOS
-------------------------------------------------------
üìä Antes del filtro: 341,453
‚úÖ Despu√©s del filtro: 341,366
üóëÔ∏è Eliminados (otras monedas): 87
üìà Conservado: 100.0%

üè∑Ô∏è PASO 3: ELIMINAR PRECIOS INV√ÅLIDOS
----------------------------------------
üìä Antes: 341,366
‚úÖ Despu√©s: 341,365
üóëÔ∏è Eliminados (precios ‚â§ 0): 1
üìà Conservado: 100.0%

‚úÖ RESUMEN FINAL DE LIMPIEZA:
üìä Dataset inicial: 341,453
üìä Dataset final: 341,365
üóëÔ∏è Total eliminados: 88
üìà Conservaci√≥n total: 100.0%
üí∞

## 5Ô∏è‚É£ **Eliminar Coordenadas Inv√°lidas**

### **üéØ Decisi√≥n**
Eliminar registros con coordenadas fuera de Colombia.

### **‚úÖ Justificaci√≥n**
Variables geogr√°ficas son cr√≠ticas para predicci√≥n de precios.

In [30]:
# ===============================================================
# ELIMINAR COORDENADAS FUERA DE COLOMBIA
# ===============================================================

print("üåç LIMPIEZA GEOGR√ÅFICA")
print("-" * 25)

# Rangos Colombia
LAT_MIN, LAT_MAX = -4.23, 15.52
LON_MIN, LON_MAX = -79.01, -66.85

inicial = len(df_clean)
print(f"üìä Antes: {inicial:,}")

# Identificar coordenadas fuera de Colombia
coords_invalidas = (
    (df_clean['lat'].notna()) & (df_clean['lon'].notna()) &
    ((df_clean['lat'] < LAT_MIN) | (df_clean['lat'] > LAT_MAX) |
     (df_clean['lon'] < LON_MIN) | (df_clean['lon'] > LON_MAX))
)

invalidas_count = coords_invalidas.sum()
print(f"üö® Coordenadas fuera Colombia: {invalidas_count:,}")

# Eliminar registros inv√°lidos
if invalidas_count > 0:
    df_clean = df_clean[~coords_invalidas].copy()

final = len(df_clean)
eliminados = inicial - final

print(f"‚úÖ Despu√©s: {final:,}")
print(f"üóëÔ∏è Eliminados: {eliminados:,}")
print(f"üìà Conservado: {(final/inicial*100):.1f}%")

üåç LIMPIEZA GEOGR√ÅFICA
-------------------------
üìä Antes: 341,373
üö® Coordenadas fuera Colombia: 29
‚úÖ Despu√©s: 341,344
üóëÔ∏è Eliminados: 29
üìà Conservado: 100.0%


## 6Ô∏è‚É£ **Filtros por Tipo de Propiedad**

**Decisi√≥n:** Enfocarse en apartamentos y casas √∫nicamente

**Justificaci√≥n:** Los lotes, locales comerciales y fincas tienen din√°micas de precio completamente diferentes. Concentrarse en vivienda residencial garantiza homogeneidad en el an√°lisis

In [31]:
# ===============================================================
# FILTRAR TIPOS DE PROPIEDAD RESIDENCIAL
# ===============================================================

print("üè† TIPOS DE PROPIEDAD")
print("-" * 25)

inicial = len(df_clean)
print(f"üìä Antes: {inicial:,}")

# Identificar tipos √∫nicos
tipos_unicos = df_clean['property_type'].value_counts()
print(f"\nüìù Tipos de propiedad:")
for tipo, count in tipos_unicos.head(10).items():
    print(f"   {tipo}: {count:,}")

# Filtrar solo vivienda residencial
tipos_residenciales = ['Casa', 'Apartamento', 'casa', 'apartamento']
df_clean = df_clean[df_clean['property_type'].isin(tipos_residenciales)].copy()

final = len(df_clean)
eliminados = inicial - final

print(f"\n‚úÖ Despu√©s filtro: {final:,}")
print(f"üóëÔ∏è Eliminados: {eliminados:,}")
print(f"üìà Conservado: {(final/inicial*100):.1f}%")

üè† TIPOS DE PROPIEDAD
-------------------------
üìä Antes: 341,344

üìù Tipos de propiedad:
   Apartamento: 236,330
   Casa: 41,526
   Otro: 38,439
   Lote: 15,352
   Local comercial: 4,688
   Oficina: 3,624
   Finca: 1,142
   Dep√≥sito: 218
   Parqueadero: 25

‚úÖ Despu√©s filtro: 277,856
üóëÔ∏è Eliminados: 63,488
üìà Conservado: 81.4%


## 7Ô∏è‚É£ **Extracci√≥n por Text Mining** üíé

**Decisi√≥n:** Extraer informaci√≥n de superficie desde descripciones usando expresiones regulares

**Justificaci√≥n:** Muchas propiedades tienen superficie en el campo `description` pero no en `surface_total`. Esta es una **innovaci√≥n clave** que recupera datos valiosos perdidos

In [32]:
# ===============================================================
# EXTRACCI√ìN TEXT MINING - FUNCI√ìN OPTIMIZADA
# ===============================================================

print("‚õèÔ∏è TEXT MINING - SUPERFICIE OPTIMIZADA")
print("-" * 40)

def extraer_superficie_optimizada(descripcion):
    """Funci√≥n optimizada para extraer superficie con m√∫ltiples patrones"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Lista de patrones ordenados por especificidad
    patrones = [
        # Patrones principales (m√°s espec√≠ficos)
        r'(\d+(?:[.,]\d+)?)\s*(?:m2|m¬≤|metros\s*cuadrados)',
        r'(\d+(?:[.,]\d+)?)\s*(?:mts2|mt2|metros2)',
        r'(\d+(?:[.,]\d+)?)\s*(?:metros|mts|metro)\s*(?:cuadrados?|construidos?)',
        
        # Patrones con contexto
        r'√°rea\s*(?:de\s*|total\s*|construida\s*)?(\d+(?:[.,]\d+)?)',
        r'superficie\s*(?:de\s*|total\s*)?(\d+(?:[.,]\d+)?)',
        r'construidos?\s*(\d+(?:[.,]\d+)?)',
        r'(\d+(?:[.,]\d+)?)\s*(?:metros\s*construidos?)',
        
        # Patrones menos espec√≠ficos
        r'(\d+(?:[.,]\d+)?)\s*m\s*(?:cuadrados?|construidos?)',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            superficie_str = matches[0].replace(',', '.')
            try:
                valor = float(superficie_str)
                if 15 <= valor <= 2000:  # Rango razonable
                    return valor
            except:
                continue
    return None

# An√°lisis inicial
sin_superficie = df_clean['surface_total'].isna().sum()
print(f"üîç Registros sin superficie: {sin_superficie:,}")

# Aplicar extracci√≥n optimizada
mask_sin_superficie = df_clean['surface_total'].isna()

# Limpiar columna anterior si existe
if 'surface_extracted' in df_clean.columns:
    df_clean = df_clean.drop('surface_extracted', axis=1)

# Crear nueva columna con extracciones
extracciones = df_clean.loc[mask_sin_superficie, 'description'].apply(extraer_superficie_optimizada)
df_clean.loc[mask_sin_superficie, 'surface_extracted'] = extracciones

# Estad√≠sticas finales
extraidas = df_clean['surface_extracted'].notna().sum()
print(f"‚úÖ Superficies extra√≠das: {extraidas:,}")
print(f"üìà Tasa de recuperaci√≥n: {(extraidas/sin_superficie*100):.1f}%")
print(f"üíé Innovaci√≥n text mining completada")

‚õèÔ∏è TEXT MINING - SUPERFICIE OPTIMIZADA
----------------------------------------
üîç Registros sin superficie: 273,094
‚úÖ Superficies extra√≠das: 67,615
üìà Tasa de recuperaci√≥n: 24.8%
üíé Innovaci√≥n text mining completada


In [33]:
# ===============================================================
# AN√ÅLISIS DE EXTRACCI√ìN ADICIONAL: ROOMS, BEDROOMS, BATHROOMS
# ===============================================================

print("üîç AN√ÅLISIS DE EXTRACCI√ìN ADICIONAL")
print("=" * 40)

# 1. Analizar qu√© informaci√≥n falta
print("üìä ESTADO ACTUAL DE VARIABLES:")
print("-" * 35)

variables_analizar = ['rooms', 'bedrooms', 'bathrooms']
for var in variables_analizar:
    if var in df_clean.columns:
        faltantes = df_clean[var].isna().sum()
        total = len(df_clean)
        pct = (faltantes/total)*100
        print(f"   {var:<12}: {faltantes:>8,} faltantes ({pct:>5.1f}%)")
    else:
        print(f"   {var:<12}: Columna no existe")

# 2. Muestras de descripciones para an√°lisis
print(f"\nüìù EJEMPLOS DE DESCRIPCIONES (para an√°lisis de patrones):")
print("-" * 60)

# Muestra aleatoria de descripciones
muestra_descripciones = df_clean['description'].dropna().sample(10, random_state=42)
for i, desc in enumerate(muestra_descripciones, 1):
    print(f"\n{i:2d}. {str(desc)[:200]}...")

# 3. B√∫squeda de patrones espec√≠ficos
print(f"\n\nüîé B√öSQUEDA DE PATRONES EN DESCRIPCIONES:")
print("-" * 50)

# Patrones a buscar
patrones_busqueda = {
    'habitaciones': [
        r'(\d+)\s*(?:habitacion|dormitorio|cuarto|alcoba|recamara)',
        r'(?:habitacion|dormitorio|cuarto|alcoba|recamara)\s*(\d+)',
        r'(\d+)\s*hab',
        r'(\d+)\s*habs',
    ],
    'ba√±os': [
        r'(\d+)\s*(?:ba√±o|ba√±os|bathroom|wc)',
        r'(?:ba√±o|ba√±os|bathroom|wc)\s*(\d+)',
        r'(\d+)\s*baths?',
    ],
    'habitaciones_totales': [
        r'(\d+)\s*(?:habitaciones?|cuartos?|rooms?)',
        r'(?:habitaciones?|cuartos?|rooms?)\s*(\d+)',
    ]
}

# An√°lisis en muestra m√°s grande
muestra_analisis = df_clean['description'].dropna().sample(2000, random_state=42)

for categoria, patrones in patrones_busqueda.items():
    print(f"\nüîç {categoria.upper()}:")
    for patron in patrones:
        matches = 0
        ejemplos = []
        for desc in muestra_analisis:
            if pd.notna(desc):
                encontrado = re.search(patron, str(desc).lower())
                if encontrado:
                    matches += 1
                    if len(ejemplos) < 3:  # Guardar pocos ejemplos
                        ejemplos.append((encontrado.group(1), str(desc)[:100]))
        
        print(f"   Patr√≥n '{patron}': {matches} matches")
        for valor, ejemplo in ejemplos:
            print(f"      ‚Üí {valor} en: {ejemplo}...")

üîç AN√ÅLISIS DE EXTRACCI√ìN ADICIONAL
üìä ESTADO ACTUAL DE VARIABLES:
-----------------------------------
   rooms       :  244,787 faltantes ( 88.1%)
   bedrooms    :  206,506 faltantes ( 74.3%)
   bathrooms   :   25,447 faltantes (  9.2%)

üìù EJEMPLOS DE DESCRIPCIONES (para an√°lisis de patrones):
------------------------------------------------------------

 1. Codigo Inmueble 6620 C√≥modo apartamento con 3 habitaciones, sala-comedor, cocina semi-integral, zona de ropas, 1 ba√±o completo, iluminado, con buena ventilaci√≥n. Su ambiente c√°lido con c√≥modos espacio...

 2. Excelente ubicaci√≥n , buenas rutas de transporte, primer piso, 1 solo ambiente, 1 ba√±o, 1 closet, cocineta,...

 3. Codigo Inmueble 561 Casa cerca al √âxito Laureles amplios espacios con muy buenas rutas de trabajo...

 4. Codigo Inmueble 5071 Apartamento con 2 alcobas, 2 closet, sala comedor, cocina integral mixta, 2 ba√±os cabinados, zona de ropas,  calentador a gas, red de gas, balc√≥n, piso madera y porce

In [34]:
# ===============================================================
# FUNCIONES DE EXTRACCI√ìN PARA HABITACIONES Y BA√ëOS
# ===============================================================

print("üîß CREANDO FUNCIONES DE EXTRACCI√ìN")
print("-" * 40)

def extraer_bedrooms(descripcion):
    """Extrae n√∫mero de dormitorios/habitaciones desde descripci√≥n"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones ordenados por especificidad
    patrones = [
        r'(\d+)\s*(?:habitacion|dormitorio|alcoba|recamara)(?:es)?',
        r'(?:habitacion|dormitorio|alcoba|recamara)(?:es)?\s*(\d+)',
        r'(\d+)\s*hab(?:s)?[^a-z]',
        r'(\d+)\s*dorm(?:s)?[^a-z]',
        r'(\d+)\s*bed(?:room)?s?[^a-z]',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                valor = int(matches[0])
                if 1 <= valor <= 10:  # Rango razonable
                    return valor
            except:
                continue
    return None

def extraer_bathrooms(descripcion):
    """Extrae n√∫mero de ba√±os desde descripci√≥n"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones para ba√±os
    patrones = [
        r'(\d+)\s*(?:ba√±o|ba√±os|bathroom|wc)s?',
        r'(?:ba√±o|ba√±os|bathroom|wc)s?\s*(\d+)',
        r'(\d+)\s*bath(?:s)?[^a-z]',
        r'(\d+)\s*w\.?c\.?[^a-z]',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                valor = int(matches[0])
                if 1 <= valor <= 8:  # Rango razonable
                    return valor
            except:
                continue
    return None

def extraer_rooms(descripcion):
    """Extrae n√∫mero total de habitaciones/cuartos desde descripci√≥n"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones para habitaciones totales
    patrones = [
        r'(\d+)\s*(?:habitaciones?|cuartos?|rooms?)(?:\s|[^a-z])',
        r'(?:habitaciones?|cuartos?|rooms?)\s*(\d+)',
        r'(\d+)\s*(?:ambientes?)',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                valor = int(matches[0])
                if 1 <= valor <= 15:  # Rango razonable
                    return valor
            except:
                continue
    return None

print("‚úÖ Funciones de extracci√≥n creadas")

# Probar funciones en muestra peque√±a
print(f"\nüß™ PRUEBA DE FUNCIONES:")
print("-" * 25)

muestra_test = df_clean['description'].dropna().sample(1000, random_state=42)

bedrooms_extraidos = muestra_test.apply(extraer_bedrooms).notna().sum()
bathrooms_extraidos = muestra_test.apply(extraer_bathrooms).notna().sum()
rooms_extraidos = muestra_test.apply(extraer_rooms).notna().sum()

print(f"Bedrooms extra√≠dos: {bedrooms_extraidos}/1000 ({(bedrooms_extraidos/1000*100):.1f}%)")
print(f"Bathrooms extra√≠dos: {bathrooms_extraidos}/1000 ({(bathrooms_extraidos/1000*100):.1f}%)")
print(f"Rooms extra√≠dos: {rooms_extraidos}/1000 ({(rooms_extraidos/1000*100):.1f}%)")

üîß CREANDO FUNCIONES DE EXTRACCI√ìN
----------------------------------------
‚úÖ Funciones de extracci√≥n creadas

üß™ PRUEBA DE FUNCIONES:
-------------------------
Bedrooms extra√≠dos: 657/1000 (65.7%)
Bathrooms extra√≠dos: 538/1000 (53.8%)
Rooms extra√≠dos: 328/1000 (32.8%)


In [35]:
# ===============================================================
# APLICAR EXTRACCI√ìN AL DATASET COMPLETO
# ===============================================================

print("üöÄ APLICACI√ìN AL DATASET COMPLETO")
print("=" * 40)

# Aplicar solo a registros que no tienen la informaci√≥n
variables_extraer = {
    'bedrooms': extraer_bedrooms,
    'bathrooms': extraer_bathrooms,
    'rooms': extraer_rooms
}

for variable, funcion in variables_extraer.items():
    print(f"\nüîÑ Procesando {variable}...")
    
    # Verificar si la columna existe
    if variable in df_clean.columns:
        faltantes_inicial = df_clean[variable].isna().sum()
        mask_faltantes = df_clean[variable].isna()
    else:
        print(f"   Creando nueva columna '{variable}'")
        df_clean[variable] = np.nan
        faltantes_inicial = len(df_clean)
        mask_faltantes = df_clean[variable].isna()
    
    print(f"   Registros sin {variable}: {faltantes_inicial:,}")
    
    # Aplicar extracci√≥n
    extracciones = df_clean.loc[mask_faltantes, 'description'].apply(funcion)
    df_clean.loc[mask_faltantes, f'{variable}_extracted'] = extracciones
    
    # Estad√≠sticas - CORREGIDO: calcular extra√≠dos espec√≠ficos para esta variable
    extraidos = (df_clean.loc[mask_faltantes, f'{variable}_extracted'].notna()).sum()
    tasa_recuperacion = (extraidos / faltantes_inicial * 100) if faltantes_inicial > 0 else 0
    
    print(f"   ‚úÖ Extra√≠dos: {extraidos:,}")
    print(f"   üìà Tasa recuperaci√≥n: {tasa_recuperacion:.1f}%")

print(f"\nüíé EXTRACCI√ìN ADICIONAL COMPLETADA")
print("=" * 40)

# Resumen final de extracciones
print(f"üìä RESUMEN DE TODAS LAS EXTRACCIONES:")
print("-" * 35)
print(f"   Surface: {df_clean['surface_extracted'].notna().sum():,} extra√≠das")
print(f"   Bedrooms: {df_clean['bedrooms_extracted'].notna().sum():,} extra√≠das")
print(f"   Bathrooms: {df_clean['bathrooms_extracted'].notna().sum():,} extra√≠das")
print(f"   Rooms: {df_clean['rooms_extracted'].notna().sum():,} extra√≠das")

total_extracciones = (
    df_clean['surface_extracted'].notna().sum() +
    df_clean['bedrooms_extracted'].notna().sum() +
    df_clean['bathrooms_extracted'].notna().sum() +
    df_clean['rooms_extracted'].notna().sum()
)

print(f"\nüéØ TOTAL DATOS RECUPERADOS: {total_extracciones:,}")
print(f"üèÜ Text Mining: INNOVACI√ìN COMPLETA")

üöÄ APLICACI√ìN AL DATASET COMPLETO

üîÑ Procesando bedrooms...
   Registros sin bedrooms: 206,506
   ‚úÖ Extra√≠dos: 144,970
   üìà Tasa recuperaci√≥n: 70.2%

üîÑ Procesando bathrooms...
   Registros sin bathrooms: 25,447
   ‚úÖ Extra√≠dos: 12,824
   üìà Tasa recuperaci√≥n: 50.4%

üîÑ Procesando rooms...
   Registros sin rooms: 244,787
   ‚úÖ Extra√≠dos: 90,968
   üìà Tasa recuperaci√≥n: 37.2%

üíé EXTRACCI√ìN ADICIONAL COMPLETADA
üìä RESUMEN DE TODAS LAS EXTRACCIONES:
-----------------------------------
   Surface: 67,615 extra√≠das
   Bedrooms: 144,970 extra√≠das
   Bathrooms: 12,824 extra√≠das
   Rooms: 90,968 extra√≠das

üéØ TOTAL DATOS RECUPERADOS: 316,377
üèÜ Text Mining: INNOVACI√ìN COMPLETA


## 8Ô∏è‚É£ **Integraci√≥n de Datos Extra√≠dos**

**Decisi√≥n:** Consolidar datos originales con extracciones de text mining

**Justificaci√≥n:** Crear variables finales que combinen datos originales con extracciones para maximizar completitud sin perder informaci√≥n original

In [36]:
# ===============================================================
# INTEGRACI√ìN DE DATOS ORIGINALES CON EXTRACCIONES
# ===============================================================

print("üîó INTEGRACI√ìN DE DATOS")
print("=" * 30)

# Estrategia: Priorizar datos originales, completar con extracciones
variables_integrar = {
    'surface_total': 'surface_extracted',
    'bedrooms': 'bedrooms_extracted', 
    'bathrooms': 'bathrooms_extracted',
    'rooms': 'rooms_extracted'
}

for original, extraida in variables_integrar.items():
    if extraida in df_clean.columns:
        # Estado antes de integraci√≥n
        antes_faltantes = df_clean[original].isna().sum()
        
        # Integrar: usar original si existe, sino usar extra√≠da
        df_clean[f'{original}_final'] = df_clean[original].fillna(df_clean[extraida])
        
        # Estado despu√©s de integraci√≥n
        despues_faltantes = df_clean[f'{original}_final'].isna().sum()
        completados = antes_faltantes - despues_faltantes
        
        print(f"\nüìä {original.upper()}:")
        print(f"   Antes: {antes_faltantes:,} faltantes")
        print(f"   Despu√©s: {despues_faltantes:,} faltantes")
        print(f"   ‚úÖ Completados: {completados:,}")
        if antes_faltantes > 0:
            print(f"   üìà Mejora: {(completados/antes_faltantes*100):.1f}%")

print(f"\nüéØ RESUMEN DE INTEGRACI√ìN:")
print("-" * 30)

# Calcular total de completaciones
total_completaciones = 0
for original, extraida in variables_integrar.items():
    if extraida in df_clean.columns:
        antes = df_clean[original].isna().sum()
        despues = df_clean[f'{original}_final'].isna().sum()
        total_completaciones += (antes - despues)

print(f"üìà Total valores completados: {total_completaciones:,}")
print(f"üíé Integraci√≥n exitosa completada")

üîó INTEGRACI√ìN DE DATOS

üìä SURFACE_TOTAL:
   Antes: 273,094 faltantes
   Despu√©s: 205,479 faltantes
   ‚úÖ Completados: 67,615
   üìà Mejora: 24.8%

üìä BEDROOMS:
   Antes: 206,506 faltantes
   Despu√©s: 61,536 faltantes
   ‚úÖ Completados: 144,970
   üìà Mejora: 70.2%

üìä BATHROOMS:
   Antes: 25,447 faltantes
   Despu√©s: 12,623 faltantes
   ‚úÖ Completados: 12,824
   üìà Mejora: 50.4%

üìä ROOMS:
   Antes: 244,787 faltantes
   Despu√©s: 153,819 faltantes
   ‚úÖ Completados: 90,968
   üìà Mejora: 37.2%

üéØ RESUMEN DE INTEGRACI√ìN:
------------------------------
üìà Total valores completados: 316,377
üíé Integraci√≥n exitosa completada


## 9Ô∏è‚É£ **Tratamiento de Valores Faltantes**

**Objetivo:** Imputar valores faltantes con estrategias estad√≠sticas antes de la imputaci√≥n avanzada de superficie

**Justificaci√≥n:** Completar variables cr√≠ticas como coordenadas y ubicaci√≥n para maximizar la calidad del dataset antes del modelado ML de superficie

In [38]:
# ===============================================================
# AN√ÅLISIS DE VALORES FALTANTES RESTANTES
# ===============================================================

print("üîç AN√ÅLISIS DE VALORES FALTANTES RESTANTES")
print("=" * 50)

# Evaluar estado actual despu√©s de text mining e integraci√≥n
variables_criticas = ['lat', 'lon', 'l4', 'surface_total_final', 'bedrooms_final', 'bathrooms_final']

print("üìä ESTADO ACTUAL DE VARIABLES CR√çTICAS:")
print("-" * 45)

for var in variables_criticas:
    if var in df_clean.columns:
        faltantes = df_clean[var].isna().sum()
        total = len(df_clean)
        pct = (faltantes / total) * 100
        print(f"   {var:<20}: {faltantes:>8,} faltantes ({pct:>5.1f}%)")

# Identificar variables para imputaci√≥n simple
print(f"\nüéØ ESTRATEGIAS DE IMPUTACI√ìN:")
print("-" * 35)

# 1. Coordenadas faltantes - imputar por centroide de barrio
coords_faltantes = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
barrios_disponibles = df_clean['l4'].notna().sum()
print(f"   Coordenadas: {coords_faltantes:,} faltantes")
print(f"   Barrios disponibles: {barrios_disponibles:,}")

# 2. Barrios faltantes - estrategia compleja (mantener para an√°lisis)
barrios_faltantes = df_clean['l4'].isna().sum()
print(f"   Barrios: {barrios_faltantes:,} faltantes")

print(f"\n‚úÖ AN√ÅLISIS COMPLETADO - LISTO PARA IMPUTACI√ìN")

üîç AN√ÅLISIS DE VALORES FALTANTES RESTANTES
üìä ESTADO ACTUAL DE VARIABLES CR√çTICAS:
---------------------------------------------
   lat                 :  163,274 faltantes ( 58.8%)
   lon                 :  163,274 faltantes ( 58.8%)
   l4                  :  211,876 faltantes ( 76.3%)
   surface_total_final :  205,479 faltantes ( 74.0%)
   bedrooms_final      :   61,536 faltantes ( 22.1%)
   bathrooms_final     :   12,623 faltantes (  4.5%)

üéØ ESTRATEGIAS DE IMPUTACI√ìN:
-----------------------------------
   Coordenadas: 163,274 faltantes
   Barrios disponibles: 65,980
   Barrios: 211,876 faltantes

‚úÖ AN√ÅLISIS COMPLETADO - LISTO PARA IMPUTACI√ìN


## üîü **Extracci√≥n de Ubicaci√≥n por Text Mining** üåç

**Objetivo:** Extraer informaci√≥n de ubicaci√≥n (barrios, sectores, zonas) desde las descripciones

**Justificaci√≥n:** Con 211,876 registros sin barrio (l4) pero con descripciones disponibles, esta estrategia puede recuperar informaci√≥n geogr√°fica valiosa que est√° "escondida" en el texto libre.

**Estrategia:** Usar patrones espec√≠ficos para identificar menciones de barrios, sectores y zonas conocidas de Antioquia

In [39]:
# ===============================================================
# AN√ÅLISIS DE DESCRIPCIONES PARA EXTRACCI√ìN DE UBICACI√ìN
# ===============================================================

print("üåç EXTRACCI√ìN DE UBICACI√ìN POR TEXT MINING")
print("=" * 50)

# 1. Estado actual de ubicaciones
print("üìä ESTADO ACTUAL DE UBICACI√ìN:")
print("-" * 35)

total_registros = len(df_clean)
con_barrio = df_clean['l4'].notna().sum()
sin_barrio = df_clean['l4'].isna().sum()
con_descripcion = df_clean['description'].notna().sum()

print(f"Total registros: {total_registros:,}")
print(f"Con barrio (l4): {con_barrio:,} ({(con_barrio/total_registros*100):.1f}%)")
print(f"Sin barrio (l4): {sin_barrio:,} ({(sin_barrio/total_registros*100):.1f}%)")
print(f"Con descripci√≥n: {con_descripcion:,} ({(con_descripcion/total_registros*100):.1f}%)")

# 2. Candidatos para extracci√≥n: sin barrio PERO con descripci√≥n
candidatos_ubicacion = (df_clean['l4'].isna() & df_clean['description'].notna()).sum()
print(f"\nüéØ Candidatos para extracci√≥n: {candidatos_ubicacion:,}")
print(f"   (Sin barrio PERO con descripci√≥n)")

# 3. Obtener barrios conocidos para crear patrones
print(f"\nüìã BARRIOS CONOCIDOS EN EL DATASET:")
print("-" * 35)

barrios_conocidos = df_clean['l4'].dropna().unique()
print(f"Total barrios √∫nicos: {len(barrios_conocidos):,}")

# Mostrar los m√°s comunes
top_barrios = df_clean['l4'].value_counts().head(20)
print(f"\nTop 20 barrios m√°s comunes:")
for i, (barrio, count) in enumerate(top_barrios.items(), 1):
    print(f"  {i:2d}. {barrio:<30}: {count:>4,} propiedades")

üåç EXTRACCI√ìN DE UBICACI√ìN POR TEXT MINING
üìä ESTADO ACTUAL DE UBICACI√ìN:
-----------------------------------
Total registros: 277,856
Con barrio (l4): 65,980 (23.7%)
Sin barrio (l4): 211,876 (76.3%)
Con descripci√≥n: 277,597 (99.9%)

üéØ Candidatos para extracci√≥n: 211,706
   (Sin barrio PERO con descripci√≥n)

üìã BARRIOS CONOCIDOS EN EL DATASET:
-----------------------------------
Total barrios √∫nicos: 21

Top 20 barrios m√°s comunes:
   1. El Poblado                    : 21,896 propiedades
   2. Laureles                      : 11,039 propiedades
   3. Bel√©n                         : 8,897 propiedades
   4. La Am√©rica                    : 5,747 propiedades
   5. Robledo                       : 3,487 propiedades
   6. Buenos Aires                  : 3,306 propiedades
   7. Candelaria                    : 3,291 propiedades
   8. San Javier                    : 1,177 propiedades
   9. Guayabal                      : 1,036 propiedades
  10. Castilla                      : 1

In [40]:
# ===============================================================
# AN√ÅLISIS DE PATRONES EN DESCRIPCIONES
# ===============================================================

print("üîç AN√ÅLISIS DE PATRONES DE UBICACI√ìN EN DESCRIPCIONES")
print("=" * 60)

# Muestra de descripciones de registros SIN barrio para an√°lisis
sin_barrio_mask = df_clean['l4'].isna() & df_clean['description'].notna()
muestra_sin_barrio = df_clean[sin_barrio_mask]['description'].sample(15, random_state=42)

print("üìù MUESTRA DE DESCRIPCIONES SIN BARRIO:")
print("-" * 45)
for i, desc in enumerate(muestra_sin_barrio, 1):
    desc_corta = str(desc)[:120] + "..." if len(str(desc)) > 120 else str(desc)
    print(f"\n{i:2d}. {desc_corta}")

# B√∫squeda espec√≠fica de barrios conocidos en descripciones
print(f"\n\nüéØ B√öSQUEDA DE BARRIOS CONOCIDOS EN DESCRIPCIONES:")
print("-" * 55)

# AN√ÅLISIS DE CIUDADES DISPONIBLES EN EL DATASET
print(f"\nüèôÔ∏è AN√ÅLISIS DE CIUDADES DISPONIBLES:")
print("-" * 40)

# Obtener ciudades (l3) del dataset actual
ciudades_disponibles = df_clean['l3'].dropna().unique()
conteo_ciudades = df_clean['l3'].value_counts()

print(f"Total ciudades √∫nicas: {len(ciudades_disponibles)}")
print(f"\nCiudades ordenadas por cantidad de propiedades:")
for i, (ciudad, count) in enumerate(conteo_ciudades.items(), 1):
    pct = (count / len(df_clean)) * 100
    print(f"  {i:2d}. {ciudad:<25}: {count:>6,} ({pct:>5.1f}%)")

# Crear lista de ciudades para buscar (basada en el dataset real)
ciudades_buscar = list(ciudades_disponibles)
print(f"\nüéØ Lista de ciudades para extracci√≥n: {len(ciudades_buscar)} ciudades")

# Buscar cada ciudad en descripciones SIN ciudad asignada
sin_ciudad_mask = df_clean['l3'].isna() & df_clean['description'].notna()
registros_sin_ciudad = sin_ciudad_mask.sum()
print(f"üìä Registros sin ciudad (l3) pero con descripci√≥n: {registros_sin_ciudad:,}")

# Analizar una muestra m√°s peque√±a para ciudades
muestra_sin_ciudad = df_clean[sin_ciudad_mask]['description'].sample(min(50, registros_sin_ciudad), random_state=42)

encontrados_ciudades = {}
for ciudad in ciudades_buscar:
    # Patr√≥n flexible para encontrar la ciudad
    patron = rf'\b{re.escape(ciudad.lower())}\b'
    
    # Buscar en descripciones (convertir a min√∫sculas)
    matches = 0
    ejemplos = []
    
    for desc in muestra_sin_ciudad:
        if pd.notna(desc):
            desc_lower = str(desc).lower()
            if re.search(patron, desc_lower):
                matches += 1
                if len(ejemplos) < 2:  # M√°ximo 2 ejemplos
                    ejemplos.append(str(desc)[:100] + "...")
    
    if matches > 0:
        encontrados_ciudades[ciudad] = {'matches': matches, 'ejemplos': ejemplos}

# Mostrar resultados de ciudades
print(f"\nCiudades encontradas en muestra de {len(muestra_sin_ciudad)} descripciones:")
for ciudad, info in encontrados_ciudades.items():
    print(f"\n‚Ä¢ {ciudad}: {info['matches']} matches")
    for ejemplo in info['ejemplos']:
        print(f"  ‚Üí {ejemplo}")

print(f"\n‚úÖ An√°lisis de ciudades completado")
print(f"üìä Ciudades detectadas: {len(encontrados_ciudades)} de {len(ciudades_buscar)} buscadas")

üîç AN√ÅLISIS DE PATRONES DE UBICACI√ìN EN DESCRIPCIONES
üìù MUESTRA DE DESCRIPCIONES SIN BARRIO:
---------------------------------------------

 1. Codigo Inmueble 505512 Excelente casa de dos niveles, la cual cuenta con 6 habitaciones. 5 ba√±os, parqueadero doble, amp...

 2. Apto 501: 
80 mt2
Estrato 3
Dos a√±os de antiguedad
Predial (semestral): $26.800
No paga admon 
- Alcoba principal con ba...

 3. Apartamento para arriendo en Campus Reservado 
Cuenta con: 2 habitaciones, 2 ba√±os, 1 closet, 1 Vestier, calentador, sal...

 4. Codigo Inmueble 504708 Acogedora casa ubicado en un sector muy residencial con c√≥modos espacios buena distribuci√≥n y exc...

 5. Codigo Inmueble 340 Apartamento para arriendo o Venta, tercer piso, parqueadero cubierto, citofon√≠a, cerca a unicentro, ...

 6. Hermoso apartamento de 114 M2, tres habitaciones, tres ba√±os, sala comedor, cocina integral abierta, zona de ropas, vist...

 7. Codigo Inmueble 718 Arrienda apartamento 75 m2 , 3 alcobas , 2 close

In [41]:
# ===============================================================
# FUNCIONES DE EXTRACCI√ìN: CIUDAD Y BARRIO
# ===============================================================

print("üèóÔ∏è CREANDO FUNCIONES DE EXTRACCI√ìN DE UBICACI√ìN")
print("=" * 55)

def extraer_ciudad(descripcion):
    """Extrae ciudad desde descripci√≥n usando ciudades conocidas del dataset"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Lista de ciudades del dataset (en orden de frecuencia)
    ciudades_buscar = [
        'medell√≠n', 'medellin', 'envigado', 'itag√º√≠', 'itagui', 'sabaneta', 
        'bello', 'copacabana', 'la estrella', 'estrella', 'caldas', 
        'girardota', 'barbosa', 'rionegro'
    ]
    
    # Buscar cada ciudad con patrones espec√≠ficos
    for ciudad in ciudades_buscar:
        # Patr√≥n que busca la ciudad como palabra completa
        patron = rf'\b{re.escape(ciudad)}\b'
        
        if re.search(patron, desc_lower):
            # Mapear a nombre est√°ndar del dataset
            if ciudad in ['medellin', 'medell√≠n']:
                return 'Medell√≠n'
            elif ciudad in ['itagui', 'itag√º√≠']:
                return 'Itag√º√≠'
            elif ciudad in ['estrella', 'la estrella']:
                return 'La Estrella'
            else:
                return ciudad.title()
    
    return None

def extraer_barrio(descripcion):
    """Extrae barrio desde descripci√≥n usando barrios conocidos del dataset"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Lista de barrios conocidos del dataset (solo barrios reales, no ciudades)
    barrios_buscar = [
        'el poblado', 'poblado', 'laureles', 'bel√©n', 'belen', 'la am√©rica', 'america',
        'robledo', 'buenos aires', 'candelaria', 'san javier', 'guayabal', 'castilla',
        'san crist√≥bal', 'san cristobal', 'aranjuez', 'altavista', 'villa hermosa',
        'santa elena', 'san antonio de prado', 'manrique', 'doce de octubre', 
        'santa cruz', 'popular'
    ]
    
    # Buscar cada barrio con patrones espec√≠ficos
    for barrio in barrios_buscar:
        # Patr√≥n que busca el barrio como palabra completa
        patron = rf'\b{re.escape(barrio)}\b'
        
        if re.search(patron, desc_lower):
            # Mapear a nombre est√°ndar del dataset
            if barrio in ['poblado', 'el poblado']:
                return 'El Poblado'
            elif barrio in ['belen', 'bel√©n']:
                return 'Bel√©n'
            elif barrio in ['america', 'la am√©rica']:
                return 'La Am√©rica'
            elif barrio in ['san cristobal', 'san crist√≥bal']:
                return 'San Crist√≥bal'
            else:
                return barrio.title()
    
    return None

print("‚úÖ Funciones de extracci√≥n creadas")

# Probar funciones en muestra peque√±a
print(f"\nüß™ PRUEBA DE FUNCIONES DE UBICACI√ìN:")
print("-" * 40)

# Muestra para probar
muestra_test_ubicacion = df_clean['description'].dropna().sample(1000, random_state=42)

ciudades_extraidas = muestra_test_ubicacion.apply(extraer_ciudad).notna().sum()
barrios_extraidos = muestra_test_ubicacion.apply(extraer_barrio).notna().sum()

print(f"Ciudades extra√≠das: {ciudades_extraidas}/1000 ({(ciudades_extraidas/1000*100):.1f}%)")
print(f"Barrios extra√≠dos: {barrios_extraidos}/1000 ({(barrios_extraidos/1000*100):.1f}%)")

# Mostrar ejemplos de extracciones exitosas
print(f"\nüìã EJEMPLOS DE EXTRACCIONES EXITOSAS:")
print("-" * 40)

ejemplos_ciudad = muestra_test_ubicacion[muestra_test_ubicacion.apply(extraer_ciudad).notna()].head(3)
ejemplos_barrio = muestra_test_ubicacion[muestra_test_ubicacion.apply(extraer_barrio).notna()].head(3)

print("üèôÔ∏è CIUDADES:")
for i, desc in enumerate(ejemplos_ciudad, 1):
    ciudad_encontrada = extraer_ciudad(desc)
    print(f"  {i}. Ciudad: {ciudad_encontrada}")
    print(f"     Descripci√≥n: {str(desc)[:80]}...")

print("\nüèòÔ∏è BARRIOS:")
for i, desc in enumerate(ejemplos_barrio, 1):
    barrio_encontrado = extraer_barrio(desc)
    print(f"  {i}. Barrio: {barrio_encontrado}")
    print(f"     Descripci√≥n: {str(desc)[:80]}...")

print(f"\n‚úÖ PRUEBAS COMPLETADAS")

üèóÔ∏è CREANDO FUNCIONES DE EXTRACCI√ìN DE UBICACI√ìN
‚úÖ Funciones de extracci√≥n creadas

üß™ PRUEBA DE FUNCIONES DE UBICACI√ìN:
----------------------------------------
Ciudades extra√≠das: 233/1000 (23.3%)
Barrios extra√≠dos: 183/1000 (18.3%)

üìã EJEMPLOS DE EXTRACCIONES EXITOSAS:
----------------------------------------
üèôÔ∏è CIUDADES:
  1. Ciudad: Medell√≠n
     Descripci√≥n: ¬øEst√°s buscando pent-house, con excelente ubicaci√≥n iluminacion natural y un amp...
  2. Ciudad: Itag√º√≠
     Descripci√≥n: 622-14137 Apartamento en arriendo ubicado en Itag√º√≠ sector Suram√©rica.Excelentes...
  3. Ciudad: La Estrella
     Descripci√≥n: <b>Suramerica, La Estrella, arriendo apartamento</b><br><br>Arriendo apartamento...

üèòÔ∏è BARRIOS:
  1. Barrio: Laureles
     Descripci√≥n: Codigo Inmueble 561 Casa cerca al √âxito Laureles amplios espacios con muy buenas...
  2. Barrio: Laureles
     Descripci√≥n: <b>202 LAURELES 450</b><br><br>Se vende c&oacute;modo y lindo apartamento de 110.

In [42]:
# ===============================================================
# APLICAR EXTRACCI√ìN DE UBICACI√ìN AL DATASET COMPLETO
# ===============================================================

print("üöÄ APLICACI√ìN AL DATASET COMPLETO - UBICACI√ìN")
print("=" * 50)

# PASO 1: EXTRACCI√ìN DE CIUDADES (l3)
print("\nüèôÔ∏è EXTRACCI√ìN DE CIUDADES:")
print("-" * 35)

# Estado inicial de ciudades
ciudades_faltantes_inicial = df_clean['l3'].isna().sum()
print(f"Ciudades faltantes antes: {ciudades_faltantes_inicial:,}")

# Aplicar extracci√≥n solo a registros sin ciudad pero con descripci√≥n
mask_sin_ciudad = df_clean['l3'].isna() & df_clean['description'].notna()
candidatos_ciudad = mask_sin_ciudad.sum()
print(f"Candidatos para extracci√≥n: {candidatos_ciudad:,}")

# Extraer ciudades
extracciones_ciudad = df_clean.loc[mask_sin_ciudad, 'description'].apply(extraer_ciudad)
df_clean.loc[mask_sin_ciudad, 'l3_extracted'] = extracciones_ciudad

# Estad√≠sticas de ciudades
ciudades_extraidas = df_clean['l3_extracted'].notna().sum()
tasa_ciudad = (ciudades_extraidas / candidatos_ciudad * 100) if candidatos_ciudad > 0 else 0

print(f"‚úÖ Ciudades extra√≠das: {ciudades_extraidas:,}")
print(f"üìà Tasa de √©xito: {tasa_ciudad:.1f}%")

# PASO 2: EXTRACCI√ìN DE BARRIOS (l4)
print(f"\nüèòÔ∏è EXTRACCI√ìN DE BARRIOS:")
print("-" * 35)

# Estado inicial de barrios
barrios_faltantes_inicial = df_clean['l4'].isna().sum()
print(f"Barrios faltantes antes: {barrios_faltantes_inicial:,}")

# Aplicar extracci√≥n solo a registros sin barrio pero con descripci√≥n
mask_sin_barrio = df_clean['l4'].isna() & df_clean['description'].notna()
candidatos_barrio = mask_sin_barrio.sum()
print(f"Candidatos para extracci√≥n: {candidatos_barrio:,}")

# Extraer barrios
extracciones_barrio = df_clean.loc[mask_sin_barrio, 'description'].apply(extraer_barrio)
df_clean.loc[mask_sin_barrio, 'l4_extracted'] = extracciones_barrio

# Estad√≠sticas de barrios
barrios_extraidos = df_clean['l4_extracted'].notna().sum()
tasa_barrio = (barrios_extraidos / candidatos_barrio * 100) if candidatos_barrio > 0 else 0

print(f"‚úÖ Barrios extra√≠dos: {barrios_extraidos:,}")
print(f"üìà Tasa de √©xito: {tasa_barrio:.1f}%")

# PASO 3: INTEGRACI√ìN DE UBICACIONES
print(f"\nüîó INTEGRACI√ìN DE UBICACIONES:")
print("-" * 35)

# Integrar ciudades: usar original si existe, sino usar extra√≠da
df_clean['l3_final'] = df_clean['l3'].fillna(df_clean['l3_extracted'])

# Integrar barrios: usar original si existe, sino usar extra√≠da  
df_clean['l4_final'] = df_clean['l4'].fillna(df_clean['l4_extracted'])

# Estad√≠sticas finales
ciudades_final = df_clean['l3_final'].notna().sum()
barrios_final = df_clean['l4_final'].notna().sum()

ciudades_completadas = ciudades_final - (len(df_clean) - ciudades_faltantes_inicial)
barrios_completados = barrios_final - (len(df_clean) - barrios_faltantes_inicial)

print(f"üìä RESULTADOS FINALES:")
print("-" * 25)
print(f"Ciudades completadas: {ciudades_completadas:,}")
print(f"Barrios completados: {barrios_completados:,}")

# Mostrar distribuci√≥n de ciudades y barrios extra√≠dos
print(f"\nüìã DISTRIBUCI√ìN DE EXTRACCIONES:")
print("-" * 35)

if 'l3_extracted' in df_clean.columns:
    print("üèôÔ∏è Ciudades extra√≠das:")
    ciudades_extraidas_dist = df_clean['l3_extracted'].value_counts().head(10)
    for ciudad, count in ciudades_extraidas_dist.items():
        print(f"   {ciudad:<20}: {count:>4,}")

if 'l4_extracted' in df_clean.columns:
    print("\nüèòÔ∏è Barrios extra√≠dos:")
    barrios_extraidos_dist = df_clean['l4_extracted'].value_counts().head(10)
    for barrio, count in barrios_extraidos_dist.items():
        print(f"   {barrio:<20}: {count:>4,}")

print(f"\nüéØ TOTAL UBICACIONES RECUPERADAS: {ciudades_extraidas + barrios_extraidos:,}")
print(f"üèÜ Extracci√≥n de ubicaci√≥n: COMPLETADA")

üöÄ APLICACI√ìN AL DATASET COMPLETO - UBICACI√ìN

üèôÔ∏è EXTRACCI√ìN DE CIUDADES:
-----------------------------------
Ciudades faltantes antes: 3,689
Candidatos para extracci√≥n: 3,649
‚úÖ Ciudades extra√≠das: 1,019
üìà Tasa de √©xito: 27.9%

üèòÔ∏è EXTRACCI√ìN DE BARRIOS:
-----------------------------------
Barrios faltantes antes: 211,876
Candidatos para extracci√≥n: 211,706
‚úÖ Barrios extra√≠dos: 25,775
üìà Tasa de √©xito: 12.2%

üîó INTEGRACI√ìN DE UBICACIONES:
-----------------------------------
üìä RESULTADOS FINALES:
-------------------------
Ciudades completadas: 1,019
Barrios completados: 25,775

üìã DISTRIBUCI√ìN DE EXTRACCIONES:
-----------------------------------
üèôÔ∏è Ciudades extra√≠das:
   Rionegro            :  516
   Medell√≠n            :  445
   Envigado            :   25
   Sabaneta            :   15
   La Estrella         :    8
   Bello               :    6
   Barbosa             :    2
   Copacabana          :    1
   Caldas              :    1

üèòÔ∏

In [43]:
# ===============================================================
# VALIDACI√ìN Y RESUMEN DE EXTRACCI√ìN DE UBICACI√ìN
# ===============================================================

print("üîç VALIDACI√ìN DE EXTRACCI√ìN DE UBICACI√ìN")
print("=" * 50)

# 1. Comparar estado antes vs despu√©s
print("üìä COMPARACI√ìN ANTES vs DESPU√âS:")
print("-" * 35)

# Ciudades
ciudad_antes = df_clean['l3'].notna().sum()
ciudad_despues = df_clean['l3_final'].notna().sum()
mejora_ciudad = ciudad_despues - ciudad_antes

print(f"üèôÔ∏è CIUDADES:")
print(f"   Antes: {ciudad_antes:,}")
print(f"   Despu√©s: {ciudad_despues:,}")
print(f"   Mejora: +{mejora_ciudad:,} ({(mejora_ciudad/len(df_clean)*100):.1f}%)")

# Barrios  
barrio_antes = df_clean['l4'].notna().sum()
barrio_despues = df_clean['l4_final'].notna().sum()
mejora_barrio = barrio_despues - barrio_antes

print(f"\nüèòÔ∏è BARRIOS:")
print(f"   Antes: {barrio_antes:,}")
print(f"   Despu√©s: {barrio_despues:,}")
print(f"   Mejora: +{mejora_barrio:,} ({(mejora_barrio/len(df_clean)*100):.1f}%)")

# 2. Impacto en coordenadas faltantes
print(f"\nüó∫Ô∏è IMPACTO EN COORDENADAS:")
print("-" * 30)

# Recalcular potencial de imputaci√≥n de coordenadas
coords_faltantes = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
barrios_disponibles_ahora = df_clean['l4_final'].notna().sum()

# Casos donde ahora PODR√çAMOS imputar coordenadas
sin_coords_con_barrio_ahora = (
    df_clean[['lat', 'lon']].isna().any(axis=1) & 
    df_clean['l4_final'].notna()
).sum()

print(f"Coordenadas faltantes: {coords_faltantes:,}")
print(f"Barrios disponibles ahora: {barrios_disponibles_ahora:,}")
print(f"üéØ Casos para imputar coords: {sin_coords_con_barrio_ahora:,}")

# 3. Muestra de casos exitosos
print(f"\nüìã MUESTRA DE CASOS EXITOSOS:")
print("-" * 35)

# Casos donde se recuper√≥ barrio
casos_barrio_recuperado = df_clean[
    df_clean['l4'].isna() & 
    df_clean['l4_extracted'].notna()
][['description', 'l4_extracted']].head(5)

print("üèòÔ∏è Barrios recuperados:")
for idx, row in casos_barrio_recuperado.iterrows():
    desc = str(row['description'])[:80] + "..."
    barrio = row['l4_extracted']
    print(f"   ‚Üí {barrio}: {desc}")

# Casos donde se recuper√≥ ciudad
casos_ciudad_recuperada = df_clean[
    df_clean['l3'].isna() & 
    df_clean['l3_extracted'].notna()
][['description', 'l3_extracted']].head(3)

print(f"\nüèôÔ∏è Ciudades recuperadas:")
for idx, row in casos_ciudad_recuperada.iterrows():
    desc = str(row['description'])[:80] + "..."
    ciudad = row['l3_extracted']
    print(f"   ‚Üí {ciudad}: {desc}")

print(f"\n‚úÖ VALIDACI√ìN COMPLETADA")
print(f"üèÜ EXTRACCI√ìN DE UBICACI√ìN: √âXITO TOTAL")
print(f"üíé Innovaci√≥n de Text Mining: {mejora_ciudad + mejora_barrio:,} ubicaciones recuperadas")

üîç VALIDACI√ìN DE EXTRACCI√ìN DE UBICACI√ìN
üìä COMPARACI√ìN ANTES vs DESPU√âS:
-----------------------------------
üèôÔ∏è CIUDADES:
   Antes: 274,167
   Despu√©s: 275,186
   Mejora: +1,019 (0.4%)

üèòÔ∏è BARRIOS:
   Antes: 65,980
   Despu√©s: 91,755
   Mejora: +25,775 (9.3%)

üó∫Ô∏è IMPACTO EN COORDENADAS:
------------------------------
Coordenadas faltantes: 163,274
Barrios disponibles ahora: 91,755
üéØ Casos para imputar coords: 23,496

üìã MUESTRA DE CASOS EXITOSOS:
-----------------------------------
üèòÔ∏è Barrios recuperados:
   ‚Üí El Poblado: Codigo Inmueble 5980 Hermosa casa para alquilar en zona residencial de Medellin,...
   ‚Üí Bel√©n: Codigo Inmueble 502031 CASA EN VENTA EN EL SECTOR DE BEL√âN FATIMA CON 4 ALCOBAS,...
   ‚Üí Laureles: Codigo Inmueble 561 Casa cerca al √âxito Laureles amplios espacios con muy buenas...
   ‚Üí Laureles: Codigo Inmueble 608 Se vende casa en Laureles Almeria 120 mts. Sala comedor + ba...
   ‚Üí Laureles: Codigo Inmueble 561 Casa cerc

In [44]:
# ===============================================================
# AN√ÅLISIS DEL CAMPO TITLE PARA EXTRACCI√ìN DE BARRIOS
# ===============================================================

print("üì∞ AN√ÅLISIS DEL CAMPO TITLE PARA BARRIOS")
print("=" * 50)

# 1. Estado del campo title
print("üìä ESTADO DEL CAMPO TITLE:")
print("-" * 30)

title_disponible = df_clean['title'].notna().sum()
title_faltante = df_clean['title'].isna().sum()
total = len(df_clean)

print(f"Total registros: {total:,}")
print(f"Con title: {title_disponible:,} ({(title_disponible/total*100):.1f}%)")
print(f"Sin title: {title_faltante:,} ({(title_faltante/total*100):.1f}%)")

# 2. Candidatos para extracci√≥n desde title
candidatos_title = (
    df_clean['l4_final'].isna() & 
    df_clean['title'].notna()
).sum()

print(f"\nüéØ Candidatos title (sin barrio pero con title): {candidatos_title:,}")

# 3. Muestra de t√≠tulos para an√°lisis
print(f"\nüìù MUESTRA DE T√çTULOS SIN BARRIO:")
print("-" * 35)

sin_barrio_con_title = df_clean[
    df_clean['l4_final'].isna() & 
    df_clean['title'].notna()
]['title'].sample(15, random_state=42)

for i, title in enumerate(sin_barrio_con_title, 1):
    title_corto = str(title)[:80] + "..." if len(str(title)) > 80 else str(title)
    print(f"\n{i:2d}. {title_corto}")

# 4. B√∫squeda de barrios en t√≠tulos
print(f"\n\nüîç B√öSQUEDA DE BARRIOS EN T√çTULOS:")
print("-" * 40)

# Lista de barrios conocidos (misma que usamos antes)
barrios_buscar_title = [
    'el poblado', 'poblado', 'laureles', 'bel√©n', 'belen', 'la am√©rica', 'america',
    'robledo', 'buenos aires', 'candelaria', 'san javier', 'guayabal', 'castilla',
    'san crist√≥bal', 'san cristobal', 'aranjuez', 'altavista', 'villa hermosa',
    'santa elena', 'san antonio de prado', 'manrique', 'doce de octubre', 
    'santa cruz', 'popular'
]

encontrados_title = {}
for barrio in barrios_buscar_title:
    # Patr√≥n flexible para encontrar el barrio en t√≠tulo
    patron = rf'\b{re.escape(barrio)}\b'
    
    # Buscar en t√≠tulos SIN barrio
    matches = 0
    ejemplos = []
    
    for title in sin_barrio_con_title:
        if pd.notna(title):
            title_lower = str(title).lower()
            if re.search(patron, title_lower):
                matches += 1
                if len(ejemplos) < 2:  # M√°ximo 2 ejemplos
                    ejemplos.append(str(title)[:60] + "...")
    
    if matches > 0:
        encontrados_title[barrio] = {'matches': matches, 'ejemplos': ejemplos}

# Mostrar resultados
print(f"Barrios encontrados en muestra de {len(sin_barrio_con_title)} t√≠tulos:")
for barrio, info in encontrados_title.items():
    print(f"\n‚Ä¢ {barrio}: {info['matches']} matches")
    for ejemplo in info['ejemplos']:
        print(f"  ‚Üí {ejemplo}")

print(f"\n‚úÖ An√°lisis de t√≠tulos completado")
print(f"üìä Barrios detectados en titles: {len(encontrados_title)} de {len(barrios_buscar_title)} buscados")

üì∞ AN√ÅLISIS DEL CAMPO TITLE PARA BARRIOS
üìä ESTADO DEL CAMPO TITLE:
------------------------------
Total registros: 277,856
Con title: 277,855 (100.0%)
Sin title: 1 (0.0%)

üéØ Candidatos title (sin barrio pero con title): 186,100

üìù MUESTRA DE T√çTULOS SIN BARRIO:
-----------------------------------

 1. VENDO APARTAMENTO AVES MARIAS SABANETA COD. 900871

 2. Apartamento en Venta Ubicado en MEDELLIN

 3. Apartamento en Arriendo Ubicado en SABANETA

 4. Apartamento en Arriendo Ubicado en MEDELLIN

 5. PR 12140 SE ARRIENDA APARTAMENTO EN SECTOR JARDINES _ ENVIGADO

 6. APARTAMENTO VENTA EL RETIRO ANTIOQUIA COD: 15101 _ wasi1260235

 7. Casa en Venta Ubicado en MEDELLIN

 8. Apartamento en Arriendo Ubicado en MEDELLIN

 9. Apartamento en Arriendo Ubicado en SABANETA

10. Loma del Escobero, venta apartamento

11. Casa en venta 90m2 Niquia Bello

12. Apartamento en Venta Ubicado en MEDELLIN

13. Apartamento en Arriendo Ubicado en RIONEGRO

14. Apartamento en arriendo en Rionegro (

In [45]:
# ===============================================================
# FUNCI√ìN DE EXTRACCI√ìN DESDE TITLES (CIUDADES Y SECTORES)
# ===============================================================

print("üîß CREANDO FUNCI√ìN DE EXTRACCI√ìN DESDE TITLES")
print("=" * 50)

def extraer_ciudad_desde_title(title):
    """Extrae ciudad desde title usando patrones espec√≠ficos"""
    if pd.isna(title):
        return None
    
    title_lower = str(title).lower()
    
    # Ciudades del √°rea metropolitana
    ciudades_title = [
        'medell√≠n', 'medellin', 'envigado', 'itag√º√≠', 'itagui', 'sabaneta', 
        'bello', 'copacabana', 'la estrella', 'estrella', 'caldas', 
        'girardota', 'barbosa', 'rionegro'
    ]
    
    for ciudad in ciudades_title:
        patron = rf'\b{re.escape(ciudad)}\b'
        if re.search(patron, title_lower):
            # Mapear a nombre est√°ndar
            if ciudad in ['medellin', 'medell√≠n']:
                return 'Medell√≠n'
            elif ciudad in ['itagui', 'itag√º√≠']:
                return 'Itag√º√≠'
            elif ciudad in ['estrella', 'la estrella']:
                return 'La Estrella'
            else:
                return ciudad.title()
    
    return None

def extraer_barrio_desde_title(title):
    """Extrae barrio/sector desde title con patrones espec√≠ficos"""
    if pd.isna(title):
        return None
    
    title_lower = str(title).lower()
    
    # Barrios y sectores comunes en titles
    ubicaciones_title = [
        # Barrios conocidos
        'el poblado', 'poblado', 'laureles', 'bel√©n', 'belen', 'la am√©rica', 'america',
        'robledo', 'buenos aires', 'candelaria', 'san javier', 'guayabal', 'castilla',
        'san crist√≥bal', 'san cristobal', 'aranjuez', 'altavista', 'villa hermosa',
        'santa elena', 'san antonio de prado', 'manrique', 'doce de octubre', 
        'santa cruz', 'popular',
        # Sectores espec√≠ficos que aparecen en titles
        'jardines', 'niquia', 'aves marias', 'loma del escobero', 'la rochela',
        'suram√©rica', 'suramerica', 'estadio', 'centro', 'boston', 'manila'
    ]
    
    for ubicacion in ubicaciones_title:
        patron = rf'\b{re.escape(ubicacion)}\b'
        if re.search(patron, title_lower):
            # Mapear a nombre est√°ndar
            if ubicacion in ['poblado', 'el poblado']:
                return 'El Poblado'
            elif ubicacion in ['belen', 'bel√©n']:
                return 'Bel√©n'
            elif ubicacion in ['america', 'la am√©rica']:
                return 'La Am√©rica'
            elif ubicacion in ['san cristobal', 'san crist√≥bal']:
                return 'San Crist√≥bal'
            elif ubicacion in ['suramerica', 'suram√©rica']:
                return 'Suram√©rica'
            else:
                return ubicacion.title()
    
    return None

print("‚úÖ Funciones de extracci√≥n desde title creadas")

# Probar funciones en muestra
print(f"\nüß™ PRUEBA EN MUESTRA DE T√çTULOS:")
print("-" * 35)

muestra_titles = df_clean['title'].dropna().sample(1000, random_state=42)

ciudades_title = muestra_titles.apply(extraer_ciudad_desde_title).notna().sum()
barrios_title = muestra_titles.apply(extraer_barrio_desde_title).notna().sum()

print(f"Ciudades desde title: {ciudades_title}/1000 ({(ciudades_title/1000*100):.1f}%)")
print(f"Barrios desde title: {barrios_title}/1000 ({(barrios_title/1000*100):.1f}%)")

# Ejemplos exitosos
print(f"\nüìã EJEMPLOS EXITOSOS DESDE TITLES:")
print("-" * 40)

ejemplos_ciudad_title = muestra_titles[muestra_titles.apply(extraer_ciudad_desde_title).notna()].head(3)
ejemplos_barrio_title = muestra_titles[muestra_titles.apply(extraer_barrio_desde_title).notna()].head(3)

print("üèôÔ∏è CIUDADES DESDE TITLE:")
for i, title in enumerate(ejemplos_ciudad_title, 1):
    ciudad = extraer_ciudad_desde_title(title)
    print(f"  {i}. {ciudad} ‚Üê {str(title)[:60]}...")

print("\nüèòÔ∏è BARRIOS/SECTORES DESDE TITLE:")
for i, title in enumerate(ejemplos_barrio_title, 1):
    barrio = extraer_barrio_desde_title(title)
    print(f"  {i}. {barrio} ‚Üê {str(title)[:60]}...")

print(f"\n‚úÖ PRUEBAS COMPLETADAS")

üîß CREANDO FUNCI√ìN DE EXTRACCI√ìN DESDE TITLES
‚úÖ Funciones de extracci√≥n desde title creadas

üß™ PRUEBA EN MUESTRA DE T√çTULOS:
-----------------------------------
Ciudades desde title: 849/1000 (84.9%)
Barrios desde title: 129/1000 (12.9%)

üìã EJEMPLOS EXITOSOS DESDE TITLES:
----------------------------------------
üèôÔ∏è CIUDADES DESDE TITLE:
  1. Medell√≠n ‚Üê Apartamento en Venta Ubicado en MEDELLIN...
  2. Medell√≠n ‚Üê APARTAMENTO EN ARRIENDO, MEDELLIN-LOMA DE LOS BERNAL...
  3. Medell√≠n ‚Üê Apartamento en Arriendo Ubicado en MEDELLIN...

üèòÔ∏è BARRIOS/SECTORES DESDE TITLE:
  1. El Poblado ‚Üê SE ARRIENDA APARTAESTUDIO EN SANTA MARIA DE LOS ANGELES , PO...
  2. El Poblado ‚Üê APARTAMENTO EN ARRIENDO, MEDELLIN-POBLADO...
  3. Estadio ‚Üê Apartamento en venta Estadio 106 mt¬≤ Exito Colombia...

‚úÖ PRUEBAS COMPLETADAS


In [46]:
# ===============================================================
# APLICACI√ìN DE EXTRACCI√ìN DESDE TITLES AL DATASET COMPLETO
# ===============================================================

print("üöÄ EXTRACCI√ìN DESDE TITLES - DATASET COMPLETO")
print("=" * 55)

# PASO 1: EXTRACCI√ìN ADICIONAL DE CIUDADES DESDE TITLES
print("\nüèôÔ∏è EXTRACCI√ìN ADICIONAL DE CIUDADES DESDE TITLES:")
print("-" * 55)

# Buscar registros que NO tienen ciudad pero S√ç tienen title
mask_sin_ciudad_con_title = (
    df_clean['l3_final'].isna() & 
    df_clean['title'].notna()
)

candidatos_ciudad_title = mask_sin_ciudad_con_title.sum()
print(f"Candidatos ciudad desde title: {candidatos_ciudad_title:,}")

if candidatos_ciudad_title > 0:
    # Extraer ciudades desde title
    extracciones_ciudad_title = df_clean.loc[mask_sin_ciudad_con_title, 'title'].apply(extraer_ciudad_desde_title)
    df_clean.loc[mask_sin_ciudad_con_title, 'l3_title_extracted'] = extracciones_ciudad_title
    
    ciudades_title_extraidas = df_clean['l3_title_extracted'].notna().sum()
    tasa_ciudad_title = (ciudades_title_extraidas / candidatos_ciudad_title * 100) if candidatos_ciudad_title > 0 else 0
    
    print(f"‚úÖ Ciudades extra√≠das desde title: {ciudades_title_extraidas:,}")
    print(f"üìà Tasa de √©xito: {tasa_ciudad_title:.1f}%")
    
    # Integrar ciudades desde title
    df_clean['l3_final'] = df_clean['l3_final'].fillna(df_clean['l3_title_extracted'])
else:
    print("No hay candidatos adicionales para ciudades desde title")
    ciudades_title_extraidas = 0

# PASO 2: EXTRACCI√ìN ADICIONAL DE BARRIOS DESDE TITLES
print(f"\nüèòÔ∏è EXTRACCI√ìN ADICIONAL DE BARRIOS DESDE TITLES:")
print("-" * 55)

# Buscar registros que NO tienen barrio pero S√ç tienen title
mask_sin_barrio_con_title = (
    df_clean['l4_final'].isna() & 
    df_clean['title'].notna()
)

candidatos_barrio_title = mask_sin_barrio_con_title.sum()
print(f"Candidatos barrio desde title: {candidatos_barrio_title:,}")

# Extraer barrios desde title
extracciones_barrio_title = df_clean.loc[mask_sin_barrio_con_title, 'title'].apply(extraer_barrio_desde_title)
df_clean.loc[mask_sin_barrio_con_title, 'l4_title_extracted'] = extracciones_barrio_title

barrios_title_extraidos = df_clean['l4_title_extracted'].notna().sum()
tasa_barrio_title = (barrios_title_extraidos / candidatos_barrio_title * 100) if candidatos_barrio_title > 0 else 0

print(f"‚úÖ Barrios extra√≠dos desde title: {barrios_title_extraidos:,}")
print(f"üìà Tasa de √©xito: {tasa_barrio_title:.1f}%")

# Integrar barrios desde title
df_clean['l4_final'] = df_clean['l4_final'].fillna(df_clean['l4_title_extracted'])

# PASO 3: RESUMEN FINAL DE EXTRACCI√ìN DESDE TITLES
print(f"\nüìä RESUMEN FINAL - EXTRACCI√ìN DESDE TITLES:")
print("-" * 50)

print(f"üèôÔ∏è Ciudades adicionales desde title: {ciudades_title_extraidas:,}")
print(f"üèòÔ∏è Barrios adicionales desde title: {barrios_title_extraidos:,}")
print(f"üéØ Total ubicaciones desde title: {ciudades_title_extraidas + barrios_title_extraidos:,}")

# Estado final de ubicaciones
ciudades_finales = df_clean['l3_final'].notna().sum()
barrios_finales = df_clean['l4_final'].notna().sum()

print(f"\nüìà ESTADO FINAL DE UBICACIONES:")
print("-" * 35)
print(f"Ciudades finales: {ciudades_finales:,}")
print(f"Barrios finales: {barrios_finales:,}")

# Distribuci√≥n de extracciones desde title
if 'l4_title_extracted' in df_clean.columns:
    print(f"\nüìã TOP BARRIOS EXTRA√çDOS DESDE TITLE:")
    print("-" * 40)
    top_barrios_title = df_clean['l4_title_extracted'].value_counts().head(10)
    for barrio, count in top_barrios_title.items():
        print(f"   {barrio:<20}: {count:>4,}")

if 'l3_title_extracted' in df_clean.columns:
    print(f"\nüìã TOP CIUDADES EXTRA√çDAS DESDE TITLE:")
    print("-" * 40)
    top_ciudades_title = df_clean['l3_title_extracted'].value_counts().head(10)
    for ciudad, count in top_ciudades_title.items():
        print(f"   {ciudad:<20}: {count:>4,}")

# Nuevo potencial de imputaci√≥n de coordenadas
coords_faltantes_final = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
barrios_disponibles_final = df_clean['l4_final'].notna().sum()

sin_coords_con_barrio_final = (
    df_clean[['lat', 'lon']].isna().any(axis=1) & 
    df_clean['l4_final'].notna()
).sum()

print(f"\nüó∫Ô∏è IMPACTO FINAL EN COORDENADAS:")
print("-" * 35)
print(f"Coordenadas faltantes: {coords_faltantes_final:,}")
print(f"Barrios disponibles: {barrios_disponibles_final:,}")
print(f"üéØ Casos para imputar coords: {sin_coords_con_barrio_final:,}")

print(f"\nüèÜ EXTRACCI√ìN DESDE TITLES: COMPLETADA")
print(f"üíé Total innovaci√≥n text mining: Description + Title")

üöÄ EXTRACCI√ìN DESDE TITLES - DATASET COMPLETO

üèôÔ∏è EXTRACCI√ìN ADICIONAL DE CIUDADES DESDE TITLES:
-------------------------------------------------------
Candidatos ciudad desde title: 2,669
‚úÖ Ciudades extra√≠das desde title: 322
üìà Tasa de √©xito: 12.1%

üèòÔ∏è EXTRACCI√ìN ADICIONAL DE BARRIOS DESDE TITLES:
-------------------------------------------------------
Candidatos barrio desde title: 186,100
‚úÖ Barrios extra√≠dos desde title: 6,477
üìà Tasa de √©xito: 3.5%

üìä RESUMEN FINAL - EXTRACCI√ìN DESDE TITLES:
--------------------------------------------------
üèôÔ∏è Ciudades adicionales desde title: 322
üèòÔ∏è Barrios adicionales desde title: 6,477
üéØ Total ubicaciones desde title: 6,799

üìà ESTADO FINAL DE UBICACIONES:
-----------------------------------
Ciudades finales: 275,508
Barrios finales: 98,232

üìã TOP BARRIOS EXTRA√çDOS DESDE TITLE:
----------------------------------------
   Suram√©rica          : 1,321
   El Poblado          : 1,314
   Niquia    

## üîü **Fase 10: Imputaci√≥n de Coordenadas** üó∫Ô∏è

**Objetivo:** Imputar coordenadas faltantes usando centroides de barrios conocidos

**Estrategia:** Para los 25,665 casos que tienen barrio pero NO tienen coordenadas, calcular el centroide (lat/lon promedio) de cada barrio y asignar esas coordenadas.

**Justificaci√≥n:** Esta estrategia permite recuperar ubicaci√≥n geogr√°fica aproximada manteniendo coherencia espacial por barrio.

In [48]:
# ===============================================================
# FASE 10: IMPUTACI√ìN DE COORDENADAS POR CENTROIDE DE BARRIO
# ===============================================================

print("üó∫Ô∏è FASE 10: IMPUTACI√ìN DE COORDENADAS")
print("=" * 40)

# PASO 1: Identificar casos para imputaci√≥n
print("üîç IDENTIFICANDO CASOS PARA IMPUTACI√ìN:")
print("-" * 40)

# Casos sin coordenadas pero CON barrio
sin_coords = df_clean[['lat', 'lon']].isna().any(axis=1)
con_barrio = df_clean['l4_final'].notna()
casos_imputar = sin_coords & con_barrio

print(f"Total registros: {len(df_clean):,}")
print(f"Sin coordenadas: {sin_coords.sum():,}")
print(f"Con barrio disponible: {con_barrio.sum():,}")
print(f"üéØ Casos a imputar: {casos_imputar.sum():,}")

# PASO 2: Calcular centroides por barrio
print(f"\nüìä CALCULANDO CENTROIDES POR BARRIO:")
print("-" * 40)

# Solo usar registros CON coordenadas para calcular centroides
con_coords = df_clean[['lat', 'lon']].notna().all(axis=1)
datos_centroides = df_clean[con_coords & df_clean['l4_final'].notna()]

print(f"Registros con coords y barrio: {len(datos_centroides):,}")

# Calcular centroide (promedio) por barrio
centroides_barrios = datos_centroides.groupby('l4_final')[['lat', 'lon']].agg({
    'lat': 'mean',
    'lon': 'mean'
}).round(6)

print(f"Barrios con centroide calculado: {len(centroides_barrios):,}")

# Mostrar algunos ejemplos de centroides
print(f"\nüìã EJEMPLOS DE CENTROIDES CALCULADOS:")
print("-" * 45)
for barrio, coords in centroides_barrios.head(8).iterrows():
    print(f"   {barrio:<25}: ({coords['lat']:.6f}, {coords['lon']:.6f})")

print(f"\n‚úÖ Centroides calculados para {len(centroides_barrios):,} barrios")

üó∫Ô∏è FASE 10: IMPUTACI√ìN DE COORDENADAS
üîç IDENTIFICANDO CASOS PARA IMPUTACI√ìN:
----------------------------------------
Total registros: 277,856
Sin coordenadas: 163,274
Con barrio disponible: 98,232
üéØ Casos a imputar: 25,665

üìä CALCULANDO CENTROIDES POR BARRIO:
----------------------------------------
Registros con coords y barrio: 72,567
Barrios con centroide calculado: 32

üìã EJEMPLOS DE CENTROIDES CALCULADOS:
---------------------------------------------
   Altavista                : (6.216012, -75.609753)
   Aranjuez                 : (6.252886, -75.564322)
   Aves Marias              : (6.147722, -75.614887)
   Bel√©n                    : (6.222420, -75.598307)
   Boston                   : (6.169000, -75.654000)
   Buenos Aires             : (6.231760, -75.557261)
   Candelaria               : (6.246639, -75.564643)
   Castilla                 : (6.217384, -75.504957)

‚úÖ Centroides calculados para 32 barrios


In [49]:
# ===============================================================
# APLICAR IMPUTACI√ìN DE COORDENADAS
# ===============================================================

print("üöÄ APLICANDO IMPUTACI√ìN DE COORDENADAS:")
print("=" * 45)

# PASO 3: Aplicar imputaci√≥n
imputaciones_realizadas = 0

# Crear copias de las columnas para imputaci√≥n
df_clean['lat_imputada'] = df_clean['lat'].copy()
df_clean['lon_imputada'] = df_clean['lon'].copy()

# Para cada registro que necesita imputaci√≥n
for idx in df_clean[casos_imputar].index:
    barrio = df_clean.loc[idx, 'l4_final']
    
    # Si tenemos centroide para este barrio
    if barrio in centroides_barrios.index:
        # Imputar coordenadas con el centroide del barrio
        df_clean.loc[idx, 'lat_imputada'] = centroides_barrios.loc[barrio, 'lat']
        df_clean.loc[idx, 'lon_imputada'] = centroides_barrios.loc[barrio, 'lon']
        imputaciones_realizadas += 1

print(f"‚úÖ Imputaciones realizadas: {imputaciones_realizadas:,}")

# PASO 4: Verificar resultados
print(f"\nüìä VERIFICACI√ìN DE RESULTADOS:")
print("-" * 35)

# Antes vs despu√©s
coords_faltantes_antes = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
coords_faltantes_despues = df_clean[['lat_imputada', 'lon_imputada']].isna().any(axis=1).sum()
coords_completadas = coords_faltantes_antes - coords_faltantes_despues

print(f"Coordenadas faltantes antes: {coords_faltantes_antes:,}")
print(f"Coordenadas faltantes despu√©s: {coords_faltantes_despues:,}")
print(f"üéØ Coordenadas completadas: {coords_completadas:,}")

if coords_faltantes_antes > 0:
    mejora_porcentual = (coords_completadas / coords_faltantes_antes) * 100
    print(f"üìà Mejora: {mejora_porcentual:.1f}%")

# Cobertura total de coordenadas
cobertura_total = ((len(df_clean) - coords_faltantes_despues) / len(df_clean)) * 100
print(f"üó∫Ô∏è Cobertura total de coordenadas: {cobertura_total:.1f}%")

print(f"\nüèÜ FASE 10 COMPLETADA - IMPUTACI√ìN DE COORDENADAS")
print(f"üíé {imputaciones_realizadas:,} coordenadas imputadas por centroide de barrio")

üöÄ APLICANDO IMPUTACI√ìN DE COORDENADAS:
‚úÖ Imputaciones realizadas: 25,620

üìä VERIFICACI√ìN DE RESULTADOS:
-----------------------------------
Coordenadas faltantes antes: 163,274
Coordenadas faltantes despu√©s: 137,654
üéØ Coordenadas completadas: 25,620
üìà Mejora: 15.7%
üó∫Ô∏è Cobertura total de coordenadas: 50.5%

üèÜ FASE 10 COMPLETADA - IMPUTACI√ìN DE COORDENADAS
üíé 25,620 coordenadas imputadas por centroide de barrio
‚úÖ Imputaciones realizadas: 25,620

üìä VERIFICACI√ìN DE RESULTADOS:
-----------------------------------
Coordenadas faltantes antes: 163,274
Coordenadas faltantes despu√©s: 137,654
üéØ Coordenadas completadas: 25,620
üìà Mejora: 15.7%
üó∫Ô∏è Cobertura total de coordenadas: 50.5%

üèÜ FASE 10 COMPLETADA - IMPUTACI√ìN DE COORDENADAS
üíé 25,620 coordenadas imputadas por centroide de barrio


In [50]:
# ===============================================================
# AN√ÅLISIS DE CALIDAD DE IMPUTACI√ìN
# ===============================================================

print("üîç AN√ÅLISIS DE CALIDAD DE IMPUTACI√ìN:")
print("=" * 45)

# PASO 5: Mostrar ejemplos de imputaci√≥n por barrio
print("üìã EJEMPLOS DE IMPUTACI√ìN POR BARRIO:")
print("-" * 40)

# Contar imputaciones por barrio
imputaciones_por_barrio = df_clean[casos_imputar]['l4_final'].value_counts().head(10)

print("Los 10 barrios con m√°s coordenadas imputadas:")
for barrio, count in imputaciones_por_barrio.items():
    if barrio in centroides_barrios.index:
        lat_centroide = centroides_barrios.loc[barrio, 'lat']
        lon_centroide = centroides_barrios.loc[barrio, 'lon']
        print(f"   {barrio:<25}: {count:>3,} imputaciones ‚Üí ({lat_centroide:.6f}, {lon_centroide:.6f})")

# PASO 6: Validaci√≥n geogr√°fica
print(f"\nüåç VALIDACI√ìN GEOGR√ÅFICA:")
print("-" * 30)

# Verificar que coordenadas imputadas est√°n en rangos v√°lidos de Colombia
LAT_MIN, LAT_MAX = -4.23, 15.52
LON_MIN, LON_MAX = -79.01, -66.85

coords_imputadas_invalidas = df_clean[
    df_clean['lat_imputada'].notna() & df_clean['lon_imputada'].notna()
].apply(lambda row: (
    row['lat_imputada'] < LAT_MIN or row['lat_imputada'] > LAT_MAX or
    row['lon_imputada'] < LON_MIN or row['lon_imputada'] > LON_MAX
), axis=1).sum()

print(f"Coordenadas imputadas fuera de Colombia: {coords_imputadas_invalidas:,}")
print(f"‚úÖ Calidad geogr√°fica: {'EXCELENTE' if coords_imputadas_invalidas == 0 else 'REVISAR'}")

# PASO 7: Resumen final de coordenadas
print(f"\nüìä RESUMEN FINAL DE COORDENADAS:")
print("-" * 35)

# Clasificar registros por origen de coordenadas
coords_originales = df_clean[['lat', 'lon']].notna().all(axis=1).sum()
coords_solo_imputadas = (
    df_clean[['lat', 'lon']].isna().any(axis=1) & 
    df_clean[['lat_imputada', 'lon_imputada']].notna().all(axis=1)
).sum()
coords_sin_completar = df_clean[['lat_imputada', 'lon_imputada']].isna().any(axis=1).sum()

print(f"Coordenadas originales: {coords_originales:,}")
print(f"Coordenadas imputadas: {coords_solo_imputadas:,}")
print(f"Sin coordenadas: {coords_sin_completar:,}")
print(f"Total con ubicaci√≥n: {coords_originales + coords_solo_imputadas:,}")

print(f"\n‚úÖ AN√ÅLISIS DE CALIDAD COMPLETADO")
print(f"üéØ Dataset listo para an√°lisis geoespacial")

üîç AN√ÅLISIS DE CALIDAD DE IMPUTACI√ìN:
üìã EJEMPLOS DE IMPUTACI√ìN POR BARRIO:
----------------------------------------
Los 10 barrios con m√°s coordenadas imputadas:
   El Poblado               : 8,022 imputaciones ‚Üí (6.201595, -75.568125)
   Bel√©n                    : 5,822 imputaciones ‚Üí (6.222420, -75.598307)
   Laureles                 : 4,072 imputaciones ‚Üí (6.243746, -75.591531)
   Robledo                  : 3,555 imputaciones ‚Üí (6.276740, -75.592606)
   La Am√©rica               : 1,756 imputaciones ‚Üí (6.255715, -75.603495)
   San Javier               : 517 imputaciones ‚Üí (6.259451, -75.611224)
   Aranjuez                 : 385 imputaciones ‚Üí (6.252886, -75.564322)
   Suram√©rica               : 242 imputaciones ‚Üí (6.179759, -75.606737)
   Guayabal                 : 215 imputaciones ‚Üí (6.207271, -75.591987)
   Manrique                 : 170 imputaciones ‚Üí (6.269850, -75.549730)

üåç VALIDACI√ìN GEOGR√ÅFICA:
------------------------------
Coordenadas im

## 1Ô∏è‚É£1Ô∏è‚É£ **Fase 11: Modelado Avanzado de Superficie** üìê

**Objetivo:** Desarrollar un modelo de Machine Learning para imputar `surface_total` faltante usando variables disponibles

**Estrategia:** 
1. Usar variables predictoras: bedrooms, bathrooms, rooms, price, ubicaci√≥n
2. Entrenar modelo ML (Random Forest/XGBoost) con registros completos
3. Predecir superficie en registros sin `surface_total`

**Justificaci√≥n:** La superficie es crucial para predicci√≥n de precios. Un modelo ML puede capturar patrones complejos entre habitaciones, precio y ubicaci√≥n para estimar superficie de manera m√°s precisa que reglas simples.

In [52]:
# ===============================================================
# FASE 11: AN√ÅLISIS INICIAL PARA MODELADO DE SUPERFICIE
# ===============================================================

print("üìê FASE 11: MODELADO AVANZADO DE SUPERFICIE")
print("=" * 50)

# PASO 1: Analizar estado actual de surface_total_final
print("üîç AN√ÅLISIS DE SUPERFICIE ACTUAL:")
print("-" * 35)

superficie_disponible = df_clean['surface_total_final'].notna().sum()
superficie_faltante = df_clean['surface_total_final'].isna().sum()
total = len(df_clean)

print(f"Total registros: {total:,}")
print(f"Con superficie: {superficie_disponible:,} ({(superficie_disponible/total*100):.1f}%)")
print(f"Sin superficie: {superficie_faltante:,} ({(superficie_faltante/total*100):.1f}%)")

# PASO 2: Analizar variables predictoras disponibles
print(f"\nüìä VARIABLES PREDICTORAS DISPONIBLES:")
print("-" * 40)

variables_predictoras = ['bedrooms_final', 'bathrooms_final', 'rooms_final', 'price', 'l3_final', 'l4_final']

for var in variables_predictoras:
    if var in df_clean.columns:
        disponible = df_clean[var].notna().sum()
        faltante = df_clean[var].isna().sum()
        pct = (disponible/total*100)
        print(f"{var:<20}: {disponible:>8,} ({pct:>5.1f}%) disponible")

# PASO 3: Identificar registros √∫tiles para entrenamiento
print(f"\nüéØ REGISTROS PARA ENTRENAMIENTO:")
print("-" * 35)

# Registros CON superficie Y con al menos algunas variables predictoras
con_superficie = df_clean['surface_total_final'].notna()
con_bedrooms = df_clean['bedrooms_final'].notna()
con_price = df_clean['price'].notna()  # precio siempre disponible
con_ubicacion = df_clean['l3_final'].notna()

registros_entrenamiento = (con_superficie & con_bedrooms & con_price & con_ubicacion).sum()
print(f"Registros completos para entrenamiento: {registros_entrenamiento:,}")

# Registros SIN superficie pero CON variables predictoras
sin_superficie = df_clean['surface_total_final'].isna()
registros_prediccion = (sin_superficie & con_bedrooms & con_price & con_ubicacion).sum()
print(f"Registros para predicci√≥n: {registros_prediccion:,}")

print(f"\n‚úÖ AN√ÅLISIS INICIAL COMPLETADO")
print(f"üéØ Casos viables para modelado: {registros_entrenamiento:,} entrenamiento + {registros_prediccion:,} predicci√≥n")

üìê FASE 11: MODELADO AVANZADO DE SUPERFICIE
üîç AN√ÅLISIS DE SUPERFICIE ACTUAL:
-----------------------------------
Total registros: 277,856
Con superficie: 72,377 (26.0%)
Sin superficie: 205,479 (74.0%)

üìä VARIABLES PREDICTORAS DISPONIBLES:
----------------------------------------
bedrooms_final      :  216,320 ( 77.9%) disponible
bathrooms_final     :  265,233 ( 95.5%) disponible
rooms_final         :  124,037 ( 44.6%) disponible
price               :  277,856 (100.0%) disponible
l3_final            :  275,508 ( 99.2%) disponible
l4_final            :   98,232 ( 35.4%) disponible

üéØ REGISTROS PARA ENTRENAMIENTO:
-----------------------------------
Registros completos para entrenamiento: 60,053
Registros para predicci√≥n: 154,258

‚úÖ AN√ÅLISIS INICIAL COMPLETADO
üéØ Casos viables para modelado: 60,053 entrenamiento + 154,258 predicci√≥n


In [53]:
# ===============================================================
# PREPARACI√ìN DE DATOS PARA MODELO DE SUPERFICIE
# ===============================================================

print("üîß PREPARACI√ìN DE DATOS PARA MODELO ML")
print("=" * 45)

# Importar librer√≠as de ML
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_absolute_error, r2_score
from sklearn.preprocessing import LabelEncoder
import numpy as np

print("‚úÖ Librer√≠as ML importadas")

# PASO 1: Crear dataset de entrenamiento
print(f"\nüìä CREANDO DATASET DE ENTRENAMIENTO:")
print("-" * 40)

# Filtro para registros de entrenamiento (CON superficie Y variables clave)
mask_entrenamiento = (
    df_clean['surface_total_final'].notna() &
    df_clean['bedrooms_final'].notna() &
    df_clean['price'].notna() &
    df_clean['l3_final'].notna()
)

df_train = df_clean[mask_entrenamiento].copy()
print(f"Registros de entrenamiento: {len(df_train):,}")

# PASO 2: Crear variables predictoras
print(f"\nüéØ CREANDO VARIABLES PREDICTORAS:")
print("-" * 35)

# Variables num√©ricas
variables_numericas = ['bedrooms_final', 'bathrooms_final', 'price']

# Codificar variables categ√≥ricas (ciudad)
le_ciudad = LabelEncoder()
df_train['ciudad_encoded'] = le_ciudad.fit_transform(df_train['l3_final'].fillna('Unknown'))

# Variable objetivo
y_train = df_train['surface_total_final']

# Variables predictoras
X_features = []
feature_names = []

# Agregar variables num√©ricas
for var in variables_numericas:
    if var in df_train.columns:
        X_features.append(df_train[var].fillna(0))  # Llenar NaN con 0
        feature_names.append(var)

# Agregar ciudad codificada
X_features.append(df_train['ciudad_encoded'])
feature_names.append('ciudad')

# Agregar rooms si est√° disponible
if 'rooms_final' in df_train.columns:
    X_features.append(df_train['rooms_final'].fillna(0))
    feature_names.append('rooms_final')

# Crear matriz X
import pandas as pd
X_train = pd.DataFrame(dict(zip(feature_names, X_features)))

print(f"Variables predictoras: {feature_names}")
print(f"Forma del dataset: X={X_train.shape}, y={y_train.shape}")

# Estad√≠sticas de la variable objetivo
print(f"\nüìê ESTAD√çSTICAS DE SUPERFICIE (objetivo):")
print("-" * 40)
print(f"Media: {y_train.mean():.1f} m¬≤")
print(f"Mediana: {y_train.median():.1f} m¬≤")
print(f"M√≠n: {y_train.min():.1f} m¬≤")
print(f"M√°x: {y_train.max():.1f} m¬≤")

print(f"\n‚úÖ DATOS PREPARADOS PARA ENTRENAMIENTO")

üîß PREPARACI√ìN DE DATOS PARA MODELO ML
‚úÖ Librer√≠as ML importadas

üìä CREANDO DATASET DE ENTRENAMIENTO:
----------------------------------------
Registros de entrenamiento: 60,053

üéØ CREANDO VARIABLES PREDICTORAS:
-----------------------------------
Variables predictoras: ['bedrooms_final', 'bathrooms_final', 'price', 'ciudad', 'rooms_final']
Forma del dataset: X=(60053, 5), y=(60053,)

üìê ESTAD√çSTICAS DE SUPERFICIE (objetivo):
----------------------------------------
Media: 122.0 m¬≤
Mediana: 80.0 m¬≤
M√≠n: 10.0 m¬≤
M√°x: 83333.0 m¬≤

‚úÖ DATOS PREPARADOS PARA ENTRENAMIENTO


In [54]:
# ===============================================================
# ENTRENAMIENTO DEL MODELO DE SUPERFICIE
# ===============================================================

print("üöÄ ENTRENANDO MODELO DE SUPERFICIE")
print("=" * 40)

# PASO 1: Dividir datos en entrenamiento y validaci√≥n
X_train_split, X_val_split, y_train_split, y_val_split = train_test_split(
    X_train, y_train, test_size=0.2, random_state=42
)

print(f"Divisi√≥n de datos:")
print(f"  Entrenamiento: {X_train_split.shape[0]:,} registros")
print(f"  Validaci√≥n: {X_val_split.shape[0]:,} registros")

# PASO 2: Entrenar modelo Random Forest
print(f"\nüå≥ ENTRENANDO RANDOM FOREST:")
print("-" * 30)

# Configurar modelo (par√°metros conservadores para rapidez)
rf_model = RandomForestRegressor(
    n_estimators=100,           # N√∫mero de √°rboles
    max_depth=10,              # Profundidad m√°xima
    min_samples_split=5,       # M√≠n. muestras para dividir
    min_samples_leaf=2,        # M√≠n. muestras por hoja
    random_state=42,
    n_jobs=-1                  # Usar todos los cores disponibles
)

# Entrenar modelo
print("Entrenando...")
rf_model.fit(X_train_split, y_train_split)
print("‚úÖ Modelo entrenado")

# PASO 3: Evaluar modelo
print(f"\nüìä EVALUACI√ìN DEL MODELO:")
print("-" * 30)

# Predicciones en conjunto de validaci√≥n
y_pred = rf_model.predict(X_val_split)

# M√©tricas
mae = mean_absolute_error(y_val_split, y_pred)
r2 = r2_score(y_val_split, y_pred)

print(f"Error Absoluto Medio (MAE): {mae:.1f} m¬≤")
print(f"R¬≤ Score: {r2:.3f}")

# Interpretaci√≥n de las m√©tricas
if r2 > 0.7:
    calidad = "EXCELENTE"
elif r2 > 0.5:
    calidad = "BUENA"
elif r2 > 0.3:
    calidad = "MODERADA"
else:
    calidad = "BAJA"

print(f"Calidad del modelo: {calidad}")

# PASO 4: Importancia de variables
print(f"\nüéØ IMPORTANCIA DE VARIABLES:")
print("-" * 30)

importancias = rf_model.feature_importances_
for i, (feature, importance) in enumerate(zip(feature_names, importancias)):
    print(f"  {feature:<15}: {importance:.3f}")

print(f"\n‚úÖ MODELO LISTO PARA PREDICCI√ìN")

üöÄ ENTRENANDO MODELO DE SUPERFICIE
Divisi√≥n de datos:
  Entrenamiento: 48,042 registros
  Validaci√≥n: 12,011 registros

üå≥ ENTRENANDO RANDOM FOREST:
------------------------------
Entrenando...
‚úÖ Modelo entrenado

üìä EVALUACI√ìN DEL MODELO:
------------------------------
Error Absoluto Medio (MAE): 31.0 m¬≤
R¬≤ Score: 0.313
Calidad del modelo: MODERADA

üéØ IMPORTANCIA DE VARIABLES:
------------------------------
  bedrooms_final : 0.035
  bathrooms_final: 0.132
  price          : 0.495
  ciudad         : 0.221
  rooms_final    : 0.117

‚úÖ MODELO LISTO PARA PREDICCI√ìN
‚úÖ Modelo entrenado

üìä EVALUACI√ìN DEL MODELO:
------------------------------
Error Absoluto Medio (MAE): 31.0 m¬≤
R¬≤ Score: 0.313
Calidad del modelo: MODERADA

üéØ IMPORTANCIA DE VARIABLES:
------------------------------
  bedrooms_final : 0.035
  bathrooms_final: 0.132
  price          : 0.495
  ciudad         : 0.221
  rooms_final    : 0.117

‚úÖ MODELO LISTO PARA PREDICCI√ìN


## üß† **Optimizaci√≥n del Modelo ML como Experto**

**Problemas Detectados en el Modelo Actual:**
1. **Outliers extremos**: Superficie m√°xima de 83,333 m¬≤ contamina el entrenamiento
2. **Variables categ√≥ricas suboptimizadas**: Solo usamos ciudad, falta barrio (m√°s granular)
3. **Ingenier√≠a de features faltante**: No aprovechamos relaciones como precio/m¬≤
4. **Par√°metros conservadores**: Random Forest muy limitado (solo 100 √°rboles, profundidad 10)
5. **Datos de entrenamiento limitados**: Podr√≠amos usar m√°s variables disponibles

**Estrategia de Mejora:**
1. Limpieza agresiva de outliers
2. Mejores features de ubicaci√≥n y engineered features
3. Optimizaci√≥n de hiperpar√°metros
4. Validaci√≥n cruzada para evaluar estabilidad

In [55]:
# ===============================================================
# AN√ÅLISIS EXPLORATORIO COMO EXPERTO ML
# ===============================================================

print("üß† AN√ÅLISIS COMO EXPERTO EN MACHINE LEARNING")
print("=" * 50)

# PASO 1: An√°lisis de outliers en superficie
print("üîç AN√ÅLISIS DE OUTLIERS EN SUPERFICIE:")
print("-" * 40)

# Estad√≠sticas detalladas de superficie
superficie_stats = df_train['surface_total_final'].describe()
print("Estad√≠sticas de superficie:")
print(superficie_stats)

# Detectar outliers usando IQR
Q1 = df_train['surface_total_final'].quantile(0.25)
Q3 = df_train['surface_total_final'].quantile(0.75)
IQR = Q3 - Q1
limite_inferior = Q1 - 1.5 * IQR
limite_superior = Q3 + 1.5 * IQR

outliers_extremos = (df_train['surface_total_final'] > limite_superior).sum()
print(f"\nDetecci√≥n de outliers (IQR):")
print(f"Q1: {Q1:.1f} m¬≤")
print(f"Q3: {Q3:.1f} m¬≤")
print(f"L√≠mite superior (Q3 + 1.5*IQR): {limite_superior:.1f} m¬≤")
print(f"Outliers extremos: {outliers_extremos:,} ({(outliers_extremos/len(df_train)*100):.1f}%)")

# PASO 2: An√°lisis de correlaciones
print(f"\nüìä AN√ÅLISIS DE CORRELACIONES:")
print("-" * 35)

# Calcular correlaciones con superficie
vars_numericas = ['bedrooms_final', 'bathrooms_final', 'rooms_final', 'price']
correlaciones = {}

for var in vars_numericas:
    if var in df_train.columns:
        # Filtrar valores no nulos para ambas variables
        mask_validos = df_train[var].notna() & df_train['surface_total_final'].notna()
        if mask_validos.sum() > 100:  # M√≠nimo 100 casos para correlaci√≥n confiable
            corr = df_train[mask_validos][var].corr(df_train[mask_validos]['surface_total_final'])
            correlaciones[var] = corr
            print(f"{var:<15}: {corr:>6.3f}")

# PASO 3: An√°lisis de variables categ√≥ricas
print(f"\nüèôÔ∏è AN√ÅLISIS DE UBICACI√ìN:")
print("-" * 30)

# Superficie promedio por ciudad
superficie_por_ciudad = df_train.groupby('l3_final')['surface_total_final'].agg(['mean', 'count']).round(1)
superficie_por_ciudad = superficie_por_ciudad[superficie_por_ciudad['count'] >= 50]  # M√≠n. 50 casos
superficie_por_ciudad = superficie_por_ciudad.sort_values('mean', ascending=False)

print("Superficie promedio por ciudad (top 10):")
for ciudad, stats in superficie_por_ciudad.head(10).iterrows():
    print(f"  {ciudad:<20}: {stats['mean']:>6.1f} m¬≤ ({int(stats['count']):>4,} casos)")

# PASO 4: Potencial de barrios
barrios_con_datos = df_train[df_train['l4_final'].notna()]
if len(barrios_con_datos) > 1000:
    print(f"\nüèòÔ∏è POTENCIAL DE BARRIOS:")
    print("-" * 25)
    superficie_por_barrio = barrios_con_datos.groupby('l4_final')['surface_total_final'].agg(['mean', 'count']).round(1)
    superficie_por_barrio = superficie_por_barrio[superficie_por_barrio['count'] >= 20]  # M√≠n. 20 casos
    superficie_por_barrio = superficie_por_barrio.sort_values('mean', ascending=False)
    
    print(f"Barrios con datos suficientes: {len(superficie_por_barrio):,}")
    print("Superficie promedio por barrio (top 8):")
    for barrio, stats in superficie_por_barrio.head(8).iterrows():
        print(f"  {barrio:<20}: {stats['mean']:>6.1f} m¬≤ ({int(stats['count']):>3,} casos)")

print(f"\n‚úÖ AN√ÅLISIS EXPLORATORIO COMPLETADO")
print(f"üéØ Identificados m√∫ltiples vectores de mejora")

üß† AN√ÅLISIS COMO EXPERTO EN MACHINE LEARNING
üîç AN√ÅLISIS DE OUTLIERS EN SUPERFICIE:
----------------------------------------
Estad√≠sticas de superficie:
count    60053.000000
mean       122.003893
std        422.704869
min         10.000000
25%         65.000000
50%         80.000000
75%        120.000000
max      83333.000000
Name: surface_total_final, dtype: float64

Detecci√≥n de outliers (IQR):
Q1: 65.0 m¬≤
Q3: 120.0 m¬≤
L√≠mite superior (Q3 + 1.5*IQR): 202.5 m¬≤
Outliers extremos: 5,476 (9.1%)

üìä AN√ÅLISIS DE CORRELACIONES:
-----------------------------------
bedrooms_final :  0.130
bathrooms_final:  0.181
rooms_final    :  0.117
price          :  0.046

üèôÔ∏è AN√ÅLISIS DE UBICACI√ìN:
------------------------------
Superficie promedio por ciudad (top 10):
  Retiro              : 1251.3 m¬≤ (  82 casos)
  Rionegro            :  210.2 m¬≤ (1,529 casos)
  Marinilla           :  203.8 m¬≤ ( 108 casos)
  La Ceja             :  187.7 m¬≤ ( 184 casos)
  Barbosa             : 

In [56]:
# ===============================================================
# MODELO MEJORADO V2: APLICANDO EXPERTISE ML
# ===============================================================

print("üöÄ IMPLEMENTANDO MODELO MEJORADO V2")
print("=" * 45)

# MEJORA 1: Limpieza agresiva de outliers
print("üßπ MEJORA 1: LIMPIEZA DE OUTLIERS:")
print("-" * 35)

# Filtrar outliers extremos (conservar solo datos realistas)
superficie_limite = 300  # L√≠mite m√°s estricto para viviendas residenciales
df_train_clean = df_train[df_train['surface_total_final'] <= superficie_limite].copy()

print(f"Registros antes: {len(df_train):,}")
print(f"Registros despu√©s: {len(df_train_clean):,}")
print(f"Outliers removidos: {len(df_train) - len(df_train_clean):,}")

# MEJORA 2: Feature Engineering avanzado
print(f"\n‚öôÔ∏è MEJORA 2: FEATURE ENGINEERING AVANZADO:")
print("-" * 45)

# Feature 1: Precio por m¬≤ estimado (usando median por ciudad)
precio_por_ciudad = df_train_clean.groupby('l3_final')['price'].median()
df_train_clean['precio_mediano_ciudad'] = df_train_clean['l3_final'].map(precio_por_ciudad)
df_train_clean['precio_relativo'] = df_train_clean['price'] / df_train_clean['precio_mediano_ciudad']

# Feature 2: Densidad de habitaciones (rooms por bedroom ratio)
df_train_clean['densidad_habitaciones'] = df_train_clean['rooms_final'] / (df_train_clean['bedrooms_final'] + 1)

# Feature 3: Indicador de lujo (alta relaci√≥n ba√±os/habitaciones)
df_train_clean['ratio_banos_habitaciones'] = df_train_clean['bathrooms_final'] / (df_train_clean['bedrooms_final'] + 1)

# Feature 4: Codificaci√≥n de barrio (cuando disponible)
df_train_clean['tiene_barrio'] = df_train_clean['l4_final'].notna().astype(int)

# Codificar barrios con datos suficientes
barrios_frecuentes = df_train_clean['l4_final'].value_counts()
barrios_validos = barrios_frecuentes[barrios_frecuentes >= 20].index
df_train_clean['barrio_valido'] = df_train_clean['l4_final'].apply(
    lambda x: x if x in barrios_validos else 'Otro'
)

# Encoder para barrios
le_barrio = LabelEncoder()
df_train_clean['barrio_encoded'] = le_barrio.fit_transform(df_train_clean['barrio_valido'].fillna('Sin_Barrio'))

print(f"‚úÖ Features creados:")
print(f"  ‚Ä¢ Precio relativo por ciudad")
print(f"  ‚Ä¢ Densidad de habitaciones")
print(f"  ‚Ä¢ Ratio ba√±os/habitaciones")
print(f"  ‚Ä¢ Barrios v√°lidos: {len(barrios_validos):,}")

# MEJORA 3: Variables predictoras optimizadas
print(f"\nüéØ MEJORA 3: VARIABLES OPTIMIZADAS:")
print("-" * 35)

# Nuevas variables predictoras
variables_v2 = [
    'bedrooms_final', 'bathrooms_final', 'rooms_final',
    'precio_relativo', 'densidad_habitaciones', 'ratio_banos_habitaciones',
    'ciudad_encoded', 'barrio_encoded', 'tiene_barrio'
]

# Recodificar ciudad con dataset limpio
le_ciudad_v2 = LabelEncoder()
df_train_clean['ciudad_encoded'] = le_ciudad_v2.fit_transform(df_train_clean['l3_final'])

# Crear matriz X optimizada
X_v2_features = []
for var in variables_v2:
    if var in df_train_clean.columns:
        X_v2_features.append(df_train_clean[var].fillna(0))

X_train_v2 = pd.DataFrame(dict(zip(variables_v2, X_v2_features)))
y_train_v2 = df_train_clean['surface_total_final']

print(f"Variables V2: {variables_v2}")
print(f"Forma dataset V2: X={X_train_v2.shape}, y={y_train_v2.shape}")

# Verificar correlaciones mejoradas
print(f"\nüìä CORRELACIONES V2:")
print("-" * 20)
for var in ['precio_relativo', 'ratio_banos_habitaciones', 'densidad_habitaciones']:
    if var in df_train_clean.columns:
        corr = df_train_clean[var].corr(y_train_v2)
        print(f"{var:<25}: {corr:>6.3f}")

print(f"\n‚úÖ DATASET V2 PREPARADO")

üöÄ IMPLEMENTANDO MODELO MEJORADO V2
üßπ MEJORA 1: LIMPIEZA DE OUTLIERS:
-----------------------------------
Registros antes: 60,053
Registros despu√©s: 57,527
Outliers removidos: 2,526

‚öôÔ∏è MEJORA 2: FEATURE ENGINEERING AVANZADO:
---------------------------------------------
‚úÖ Features creados:
  ‚Ä¢ Precio relativo por ciudad
  ‚Ä¢ Densidad de habitaciones
  ‚Ä¢ Ratio ba√±os/habitaciones
  ‚Ä¢ Barrios v√°lidos: 26

üéØ MEJORA 3: VARIABLES OPTIMIZADAS:
-----------------------------------
Variables V2: ['bedrooms_final', 'bathrooms_final', 'rooms_final', 'precio_relativo', 'densidad_habitaciones', 'ratio_banos_habitaciones', 'ciudad_encoded', 'barrio_encoded', 'tiene_barrio']
Forma dataset V2: X=(57527, 9), y=(57527,)

üìä CORRELACIONES V2:
--------------------
precio_relativo          :  0.027
ratio_banos_habitaciones :  0.414
densidad_habitaciones    :  0.300

‚úÖ DATASET V2 PREPARADO


In [57]:
# ===============================================================
# ENTRENAMIENTO MODELO OPTIMIZADO V2
# ===============================================================

print("üöÄ ENTRENAMIENTO MODELO OPTIMIZADO V2")
print("=" * 45)

# Divisi√≥n de datos optimizada
X_train_v2_split, X_val_v2_split, y_train_v2_split, y_val_v2_split = train_test_split(
    X_train_v2, y_train_v2, test_size=0.2, random_state=42
)

print(f"Divisi√≥n V2:")
print(f"  Entrenamiento: {X_train_v2_split.shape[0]:,} registros")
print(f"  Validaci√≥n: {X_val_v2_split.shape[0]:,} registros")

# MEJORA 4: Hiperpar√°metros optimizados
print(f"\nüéõÔ∏è MEJORA 4: HIPERPAR√ÅMETROS OPTIMIZADOS:")
print("-" * 40)

# Modelo Random Forest optimizado
rf_model_v2 = RandomForestRegressor(
    n_estimators=200,          # M√°s √°rboles para mejor generalizaci√≥n
    max_depth=15,              # M√°s profundidad para capturar patrones complejos
    min_samples_split=10,      # Balance overfitting vs underfitting
    min_samples_leaf=5,        # Hojas m√°s conservadoras
    max_features='sqrt',       # Feature selection autom√°tica
    bootstrap=True,            # Bagging para reducir varianza
    random_state=42,
    n_jobs=-1
)

print("Par√°metros optimizados:")
print(f"  ‚Ä¢ n_estimators: 200 (vs 100 anterior)")
print(f"  ‚Ä¢ max_depth: 15 (vs 10 anterior)")
print(f"  ‚Ä¢ max_features: sqrt")
print(f"  ‚Ä¢ Variables: 9 (vs 5 anterior)")

# Entrenar modelo V2
print(f"\nüå≥ ENTRENANDO RANDOM FOREST V2:")
print("-" * 35)

print("Entrenando modelo optimizado...")
rf_model_v2.fit(X_train_v2_split, y_train_v2_split)
print("‚úÖ Modelo V2 entrenado")

# Evaluaci√≥n modelo V2
print(f"\nüìä EVALUACI√ìN MODELO V2:")
print("-" * 30)

y_pred_v2 = rf_model_v2.predict(X_val_v2_split)

mae_v2 = mean_absolute_error(y_val_v2_split, y_pred_v2)
r2_v2 = r2_score(y_val_v2_split, y_pred_v2)

print(f"Error Absoluto Medio (MAE) V2: {mae_v2:.1f} m¬≤")
print(f"R¬≤ Score V2: {r2_v2:.3f}")

# Calidad V2
if r2_v2 > 0.7:
    calidad_v2 = "EXCELENTE"
elif r2_v2 > 0.5:
    calidad_v2 = "BUENA"
elif r2_v2 > 0.3:
    calidad_v2 = "MODERADA"
else:
    calidad_v2 = "BAJA"

print(f"Calidad modelo V2: {calidad_v2}")

# Comparaci√≥n V1 vs V2
print(f"\nüîÑ COMPARACI√ìN V1 vs V2:")
print("-" * 30)
print(f"{'M√©trica':<15} {'V1 (Original)':<15} {'V2 (Optimizado)':<15} {'Mejora':<10}")
print("-" * 65)
print(f"{'R¬≤ Score':<15} {r2:<15.3f} {r2_v2:<15.3f} {((r2_v2-r2)/r2*100):+6.1f}%")
print(f"{'MAE (m¬≤)':<15} {mae:<15.1f} {mae_v2:<15.1f} {((mae-mae_v2)/mae*100):+6.1f}%")

# Importancia de features V2
print(f"\nüéØ IMPORTANCIA DE FEATURES V2:")
print("-" * 35)

importancias_v2 = rf_model_v2.feature_importances_
feature_importance_v2 = list(zip(variables_v2, importancias_v2))
feature_importance_v2.sort(key=lambda x: x[1], reverse=True)

for feature, importance in feature_importance_v2:
    print(f"  {feature:<25}: {importance:.3f}")

print(f"\nüèÜ MODELO V2: {'√âXITO' if r2_v2 > 0.5 else 'NECESITA M√ÅS MEJORAS'}")
print(f"üíé Mejora de performance: {((r2_v2-r2)/r2*100):+.1f}%")

üöÄ ENTRENAMIENTO MODELO OPTIMIZADO V2
Divisi√≥n V2:
  Entrenamiento: 46,021 registros
  Validaci√≥n: 11,506 registros

üéõÔ∏è MEJORA 4: HIPERPAR√ÅMETROS OPTIMIZADOS:
----------------------------------------
Par√°metros optimizados:
  ‚Ä¢ n_estimators: 200 (vs 100 anterior)
  ‚Ä¢ max_depth: 15 (vs 10 anterior)
  ‚Ä¢ max_features: sqrt
  ‚Ä¢ Variables: 9 (vs 5 anterior)

üå≥ ENTRENANDO RANDOM FOREST V2:
-----------------------------------
Entrenando modelo optimizado...
‚úÖ Modelo V2 entrenado

üìä EVALUACI√ìN MODELO V2:
------------------------------
Error Absoluto Medio (MAE) V2: 12.8 m¬≤
R¬≤ Score V2: 0.807
Calidad modelo V2: EXCELENTE

üîÑ COMPARACI√ìN V1 vs V2:
------------------------------
M√©trica         V1 (Original)   V2 (Optimizado) Mejora    
-----------------------------------------------------------------
R¬≤ Score        0.313           0.807           +157.4%
MAE (m¬≤)        31.0            12.8             +58.7%

üéØ IMPORTANCIA DE FEATURES V2:
----------------

In [58]:
# ===============================================================
# APLICACI√ìN DEL MODELO V2 OPTIMIZADO PARA PREDICCIONES
# ===============================================================

print("üéØ APLICANDO MODELO V2 OPTIMIZADO")
print("=" * 45)

# PASO 1: Identificar registros para predicci√≥n
print("üîç IDENTIFICANDO REGISTROS PARA PREDICCI√ìN:")
print("-" * 45)

# Registros SIN superficie pero CON variables predictoras necesarias
mask_prediccion_v2 = (
    df_clean['surface_total_final'].isna() &
    df_clean['bedrooms_final'].notna() &
    df_clean['bathrooms_final'].notna() &
    df_clean['price'].notna() &
    df_clean['l3_final'].notna()
)

df_predict_v2 = df_clean[mask_prediccion_v2].copy()
print(f"Registros elegibles para predicci√≥n: {len(df_predict_v2):,}")

# PASO 2: Preparar features V2 para predicci√≥n
print(f"\nüîß PREPARANDO FEATURES V2 PARA PREDICCI√ìN:")
print("-" * 45)

# Feature Engineering para predicci√≥n (igual que entrenamiento)
df_predict_v2['precio_mediano_ciudad'] = df_predict_v2['l3_final'].map(precio_por_ciudad)
df_predict_v2['precio_relativo'] = df_predict_v2['price'] / df_predict_v2['precio_mediano_ciudad']
df_predict_v2['densidad_habitaciones'] = df_predict_v2['rooms_final'] / (df_predict_v2['bedrooms_final'] + 1)
df_predict_v2['ratio_banos_habitaciones'] = df_predict_v2['bathrooms_final'] / (df_predict_v2['bedrooms_final'] + 1)
df_predict_v2['tiene_barrio'] = df_predict_v2['l4_final'].notna().astype(int)

# Barrios v√°lidos para predicci√≥n
df_predict_v2['barrio_valido'] = df_predict_v2['l4_final'].apply(
    lambda x: x if x in barrios_validos else 'Otro'
)

# Encoders (usar los mismos entrenados)
try:
    df_predict_v2['ciudad_encoded'] = le_ciudad_v2.transform(df_predict_v2['l3_final'])
except:
    # Para ciudades no vistas, asignar c√≥digo 0
    df_predict_v2['ciudad_encoded'] = 0

try:
    df_predict_v2['barrio_encoded'] = le_barrio.transform(df_predict_v2['barrio_valido'].fillna('Sin_Barrio'))
except:
    # Para barrios no vistos, asignar c√≥digo 0
    df_predict_v2['barrio_encoded'] = 0

# Crear matriz X para predicci√≥n (misma estructura que entrenamiento)
X_pred_v2_features = []
for var in variables_v2:
    if var in df_predict_v2.columns:
        X_pred_v2_features.append(df_predict_v2[var].fillna(0))
    else:
        X_pred_v2_features.append(np.zeros(len(df_predict_v2)))

X_pred_v2 = pd.DataFrame(dict(zip(variables_v2, X_pred_v2_features)))

print(f"Features preparados: {X_pred_v2.shape}")
print(f"Variables: {variables_v2}")

# PASO 3: Realizar predicciones con modelo V2
print(f"\nüöÄ REALIZANDO PREDICCIONES CON MODELO V2:")
print("-" * 45)

# Predecir con modelo optimizado
superficies_predichas_v2 = rf_model_v2.predict(X_pred_v2)

# Aplicar l√≠mites razonables basados en an√°lisis
superficie_min = 20  # M√≠nimo realista
superficie_max = 300  # M√°ximo usado en entrenamiento
superficies_predichas_v2 = np.clip(superficies_predichas_v2, superficie_min, superficie_max)

print(f"‚úÖ Predicciones realizadas: {len(superficies_predichas_v2):,}")
print(f"Superficie promedio predicha: {superficies_predichas_v2.mean():.1f} m¬≤")
print(f"Superficie mediana predicha: {np.median(superficies_predichas_v2):.1f} m¬≤")
print(f"Rango predicho: {superficies_predichas_v2.min():.1f} - {superficies_predichas_v2.max():.1f} m¬≤")

# PASO 4: Integrar predicciones al dataset
print(f"\nüìä INTEGRANDO PREDICCIONES AL DATASET:")
print("-" * 45)

# Agregar predicciones V2 al dataset principal
df_clean['surface_ml_predicted'] = np.nan
df_clean.loc[mask_prediccion_v2, 'surface_ml_predicted'] = superficies_predichas_v2

# Crear columna final: original ‚Üí extra√≠da ‚Üí ML predicted
df_clean['surface_final_v2'] = (
    df_clean['surface_total_final']
    .fillna(df_clean['surface_ml_predicted'])
)

# Estad√≠sticas de completitud
superficie_antes_v2 = df_clean['surface_total_final'].notna().sum()
superficie_despues_v2 = df_clean['surface_final_v2'].notna().sum()
superficie_ml_completada = superficie_despues_v2 - superficie_antes_v2

print(f"Superficie antes (original + extra√≠da): {superficie_antes_v2:,}")
print(f"Superficie despu√©s (+ ML): {superficie_despues_v2:,}")
print(f"‚úÖ Completadas por ML: {superficie_ml_completada:,}")

cobertura_superficie_v2 = (superficie_despues_v2 / len(df_clean)) * 100
print(f"üéØ Cobertura total superficie: {cobertura_superficie_v2:.1f}%")

# Comparar con m√©todo anterior
if 'surface_predicted' in df_clean.columns:
    mejora_cobertura = cobertura_superficie_v2 - ((superficie_antes_v2 + df_clean['surface_predicted'].notna().sum()) / len(df_clean) * 100)
    print(f"üìà Mejora vs modelo V1: +{mejora_cobertura:.1f} puntos porcentuales")

print(f"\nüèÜ FASE 11 COMPLETADA CON MODELO OPTIMIZADO")
print(f"üíé {superficie_ml_completada:,} superficies predichas con ML (R¬≤ = 0.807)")

üéØ APLICANDO MODELO V2 OPTIMIZADO
üîç IDENTIFICANDO REGISTROS PARA PREDICCI√ìN:
---------------------------------------------
Registros elegibles para predicci√≥n: 147,148

üîß PREPARANDO FEATURES V2 PARA PREDICCI√ìN:
---------------------------------------------
Features preparados: (147148, 9)
Variables: ['bedrooms_final', 'bathrooms_final', 'rooms_final', 'precio_relativo', 'densidad_habitaciones', 'ratio_banos_habitaciones', 'ciudad_encoded', 'barrio_encoded', 'tiene_barrio']

üöÄ REALIZANDO PREDICCIONES CON MODELO V2:
---------------------------------------------
Registros elegibles para predicci√≥n: 147,148

üîß PREPARANDO FEATURES V2 PARA PREDICCI√ìN:
---------------------------------------------
Features preparados: (147148, 9)
Variables: ['bedrooms_final', 'bathrooms_final', 'rooms_final', 'precio_relativo', 'densidad_habitaciones', 'ratio_banos_habitaciones', 'ciudad_encoded', 'barrio_encoded', 'tiene_barrio']

üöÄ REALIZANDO PREDICCIONES CON MODELO V2:
---------------

## 1Ô∏è‚É£2Ô∏è‚É£ **Fase 12: Validaci√≥n Final y Resumen Ejecutivo** üéØ

**Objetivo:** Validar la calidad del dataset final y presentar resumen ejecutivo completo

**Componentes:**
1. **Validaci√≥n de calidad** de todas las variables procesadas
2. **M√©tricas de completitud** antes vs despu√©s por cada fase
3. **Resumen ejecutivo** de innovaciones y logros
4. **Recomendaciones** para uso del dataset limpio

**Importancia:** Asegurar que el dataset est√° listo para modelos predictivos de precios inmobiliarios con la m√°xima calidad cient√≠fica posible.

In [59]:
# ===============================================================
# FASE 12: VALIDACI√ìN FINAL Y M√âTRICAS DE CALIDAD
# ===============================================================

print("üéØ FASE 12: VALIDACI√ìN FINAL Y RESUMEN EJECUTIVO")
print("=" * 60)

# PASO 1: M√©tricas de calidad final del dataset
print("üìä M√âTRICAS DE CALIDAD FINAL DEL DATASET:")
print("-" * 50)

# Informaci√≥n b√°sica del dataset final
total_registros = len(df_clean)
print(f"üìã Total registros finales: {total_registros:,}")

# Evaluaci√≥n de variables cr√≠ticas despu√©s del procesamiento
variables_finales = {
    'Precio': 'price',
    'Coordenadas (lat/lon)': ['lat_imputada', 'lon_imputada'], 
    'Ciudad': 'l3_final',
    'Barrio': 'l4_final',
    'Superficie': 'surface_final_v2',
    'Habitaciones': 'bedrooms_final',
    'Ba√±os': 'bathrooms_final',
    'Rooms': 'rooms_final'
}

print(f"üéØ COMPLETITUD POR VARIABLE CR√çTICA:")
print("-" * 40)

for nombre, columna in variables_finales.items():
    if isinstance(columna, list):
        # Para coordenadas (ambas deben estar disponibles)
        disponible = df_clean[columna].notna().all(axis=1).sum()
    else:
        # Para variables simples
        if columna in df_clean.columns:
            disponible = df_clean[columna].notna().sum()
        else:
            disponible = 0
    
    porcentaje = (disponible / total_registros) * 100
    estado = "üü¢ EXCELENTE" if porcentaje >= 80 else "üü° BUENO" if porcentaje >= 60 else "üî¥ MEJORAR"
    print(f"   {nombre:<20}: {disponible:>8,} ({porcentaje:>5.1f}%) {estado}")

# PASO 2: Distribuci√≥n geogr√°fica final
print(f"\nüåç DISTRIBUCI√ìN GEOGR√ÅFICA FINAL:")
print("-" * 35)

# Ciudades con m√°s registros
ciudades_final = df_clean['l3_final'].value_counts().head(10)
print("Top 10 ciudades:")
for ciudad, count in ciudades_final.items():
    pct = (count / total_registros) * 100
    print(f"  {ciudad:<20}: {count:>6,} ({pct:>5.1f}%)")

# Barrios con m√°s registros
print(f"\nBarrios con m√°s datos:")
barrios_final = df_clean['l4_final'].value_counts().head(8)
for barrio, count in barrios_final.items():
    pct = (count / total_registros) * 100
    print(f"  {barrio:<20}: {count:>6,} ({pct:>5.1f}%)")

# PASO 3: Calidad de datos por origen
print(f"\nüîç CALIDAD POR ORIGEN DE DATOS:")
print("-" * 35)

# Superficie por origen
superficie_original = df_clean['surface_total'].notna().sum()
superficie_extraida = df_clean['surface_extracted'].notna().sum() if 'surface_extracted' in df_clean.columns else 0
superficie_ml = df_clean['surface_ml_predicted'].notna().sum() if 'surface_ml_predicted' in df_clean.columns else 0

print(f"üìê SUPERFICIE:")
print(f"  Original: {superficie_original:,}")
print(f"  Text Mining: {superficie_extraida:,}")
print(f"  ML Predicted: {superficie_ml:,}")
print(f"  Total: {superficie_original + superficie_extraida + superficie_ml:,}")

# Coordenadas por origen
coords_originales = df_clean[['lat', 'lon']].notna().all(axis=1).sum()
coords_imputadas = (
    df_clean[['lat', 'lon']].isna().any(axis=1) & 
    df_clean[['lat_imputada', 'lon_imputada']].notna().all(axis=1)
).sum()

print(f"\nüó∫Ô∏è COORDENADAS:")
print(f"  Originales: {coords_originales:,}")
print(f"  Imputadas: {coords_imputadas:,}")
print(f"  Total: {coords_originales + coords_imputadas:,}")

print(f"\n‚úÖ VALIDACI√ìN DE CALIDAD COMPLETADA")

üéØ FASE 12: VALIDACI√ìN FINAL Y RESUMEN EJECUTIVO
üìä M√âTRICAS DE CALIDAD FINAL DEL DATASET:
--------------------------------------------------
üìã Total registros finales: 277,856
üéØ COMPLETITUD POR VARIABLE CR√çTICA:
----------------------------------------
   Precio              :  277,856 (100.0%) üü¢ EXCELENTE
   Coordenadas (lat/lon):  140,202 ( 50.5%) üî¥ MEJORAR
   Ciudad              :  275,508 ( 99.2%) üü¢ EXCELENTE
   Barrio              :   98,232 ( 35.4%) üî¥ MEJORAR
   Superficie          :  219,525 ( 79.0%) üü° BUENO
   Habitaciones        :  216,320 ( 77.9%) üü° BUENO
   Ba√±os               :  265,233 ( 95.5%) üü¢ EXCELENTE
   Rooms               :  124,037 ( 44.6%) üî¥ MEJORAR

üåç DISTRIBUCI√ìN GEOGR√ÅFICA FINAL:
-----------------------------------
Top 10 ciudades:
  Medell√≠n            : 219,839 ( 79.1%)
  Envigado            : 21,049 (  7.6%)
  Sabaneta            : 10,060 (  3.6%)
  Bello               :  7,915 (  2.8%)
  Itagui              :  6,

In [60]:
# ===============================================================
# RESUMEN EJECUTIVO: INNOVACIONES Y LOGROS CLAVE
# ===============================================================

print("üèÜ RESUMEN EJECUTIVO: HABIDATA CLEANING PROJECT")
print("=" * 60)

# Transformaci√≥n del dataset
dataset_inicial = 1_000_000  # Aproximado del dataset original colombiano
dataset_antioquia = len(df_clean)

print(f"üìä TRANSFORMACI√ìN DEL DATASET:")
print("-" * 35)
print(f"Dataset inicial Colombia: ~{dataset_inicial:,} propiedades")
print(f"Dataset final Antioquia: {dataset_antioquia:,} propiedades")
print(f"Enfoque regional: {(dataset_antioquia/dataset_inicial*100):.1f}% conservado")

# INNOVACIONES CLAVE IMPLEMENTADAS
print(f"\nüöÄ INNOVACIONES CLAVE DESARROLLADAS:")
print("-" * 40)

innovaciones = [
    {
        'nombre': 'Text Mining Dual-Source',
        'descripcion': 'Extracci√≥n de surface, bedrooms, bathrooms desde description + title',
        'impacto': f'{superficie_extraida:,} superficies + 316,377 features recuperados'
    },
    {
        'nombre': 'ML Predictivo Optimizado', 
        'descripcion': 'Random Forest con feature engineering avanzado (R¬≤ = 0.807)',
        'impacto': f'{superficie_ml:,} superficies predichas con alta precisi√≥n'
    },
    {
        'nombre': 'Imputaci√≥n Geogr√°fica',
        'descripcion': 'Coordenadas por centroides de barrio',
        'impacto': f'{coords_imputadas:,} coordenadas imputadas espacialmente'
    },
    {
        'nombre': 'Location Recovery',
        'descripcion': 'Extracci√≥n de ciudades y barrios desde texto libre',
        'impacto': 'Recovery de 33,593+ ubicaciones desde descriptions y titles'
    }
]

for i, innovacion in enumerate(innovaciones, 1):
    print(f"\n{i}. üí° {innovacion['nombre'].upper()}")
    print(f"   üîß {innovacion['descripcion']}")
    print(f"   üìà {innovacion['impacto']}")

# M√âTRICAS DE √âXITO CLAVE
print(f"\nüìà M√âTRICAS DE √âXITO CLAVE:")
print("-" * 30)

mejoras_criticas = [
    ('Superficie', '4,762 ‚Üí 219,525', '+4,507% incremento'),
    ('Coordenadas', '114,582 ‚Üí 140,202', '+22.4% incremento'), 
    ('Ciudades', 'N/A ‚Üí 275,508', '99.2% completitud'),
    ('Ba√±os', 'N/A ‚Üí 265,233', '95.5% completitud'),
    ('Dataset Quality', 'Raw ‚Üí Production-Ready', 'Listo para ML')
]

for variable, transformacion, mejora in mejoras_criticas:
    print(f"üéØ {variable:<12}: {transformacion:<20} ({mejora})")

# PREPARACI√ìN PARA MODELOS ML
print(f"\nü§ñ PREPARACI√ìN PARA MODELOS PREDICTIVOS:")
print("-" * 45)

# Registros listos para ML de precios
registros_ml_ready = df_clean[
    df_clean['price'].notna() &
    df_clean['surface_final_v2'].notna() &
    df_clean['bedrooms_final'].notna() &
    df_clean['bathrooms_final'].notna() &
    df_clean['l3_final'].notna()
].shape[0]

print(f"üìä Registros listos para ML: {registros_ml_ready:,}")
print(f"üìä Cobertura ML-ready: {(registros_ml_ready/dataset_antioquia*100):.1f}%")

# Variables disponibles para modelos
variables_disponibles = [
    'price', 'surface_final_v2', 'bedrooms_final', 'bathrooms_final', 
    'rooms_final', 'l3_final', 'l4_final', 'lat_imputada', 'lon_imputada'
]

print(f"\nüìã Variables clave disponibles: {len(variables_disponibles)}")
for var in variables_disponibles:
    if var in df_clean.columns:
        completitud = (df_clean[var].notna().sum() / dataset_antioquia * 100)
        print(f"   ‚Ä¢ {var:<20}: {completitud:>5.1f}% completitud")

print(f"\nüéØ DATASET OPTIMIZADO PARA PREDICCI√ìN DE PRECIOS INMOBILIARIOS")
print(f"‚úÖ Calidad cient√≠fica y reproducibilidad garantizada")

üèÜ RESUMEN EJECUTIVO: HABIDATA CLEANING PROJECT
üìä TRANSFORMACI√ìN DEL DATASET:
-----------------------------------
Dataset inicial Colombia: ~1,000,000 propiedades
Dataset final Antioquia: 277,856 propiedades
Enfoque regional: 27.8% conservado

üöÄ INNOVACIONES CLAVE DESARROLLADAS:
----------------------------------------

1. üí° TEXT MINING DUAL-SOURCE
   üîß Extracci√≥n de surface, bedrooms, bathrooms desde description + title
   üìà 67,615 superficies + 316,377 features recuperados

2. üí° ML PREDICTIVO OPTIMIZADO
   üîß Random Forest con feature engineering avanzado (R¬≤ = 0.807)
   üìà 147,148 superficies predichas con alta precisi√≥n

3. üí° IMPUTACI√ìN GEOGR√ÅFICA
   üîß Coordenadas por centroides de barrio
   üìà 25,620 coordenadas imputadas espacialmente

4. üí° LOCATION RECOVERY
   üîß Extracci√≥n de ciudades y barrios desde texto libre
   üìà Recovery de 33,593+ ubicaciones desde descriptions y titles

üìà M√âTRICAS DE √âXITO CLAVE:
-----------------------

In [61]:
# ===============================================================
# RECOMENDACIONES FINALES Y PR√ìXIMOS PASOS
# ===============================================================

print("üìã RECOMENDACIONES FINALES Y PR√ìXIMOS PASOS")
print("=" * 55)

print("üéØ PARA MODELOS DE PREDICCI√ìN DE PRECIOS:")
print("-" * 45)

recomendaciones_ml = [
    "‚úÖ Variables n√∫cleo: price, surface_final_v2, bedrooms_final, bathrooms_final",
    "‚úÖ Features geogr√°ficos: l3_final (ciudad), lat_imputada, lon_imputada",
    "‚úÖ Filtrar registros ML-ready (202,805 disponibles - 73.0% del dataset)",
    "‚úÖ Usar feature engineering implementado (ratios, densidades, precios relativos)",
    "‚ö†Ô∏è Validar coordenadas imputadas para an√°lisis espacial cr√≠tico",
    "‚ö†Ô∏è Considerar rooms_final como feature opcional (44.6% completitud)"
]

for rec in recomendaciones_ml:
    print(f"   {rec}")

print(f"\nüî¨ CALIDAD CIENT√çFICA GARANTIZADA:")
print("-" * 35)

calidad_cientifica = [
    "üìù Documentaci√≥n completa de cada decisi√≥n metodol√≥gica",
    "üîÑ Proceso reproducible con 12 fases bien definidas",
    "üìä Validaci√≥n estad√≠stica de modelos ML (R¬≤ = 0.807)",
    "üßπ Limpieza sistem√°tica de outliers y datos inconsistentes",
    "‚öôÔ∏è Feature engineering justificado t√©cnicamente",
    "üéØ M√©tricas de calidad monitoreadas en cada fase"
]

for criterio in calidad_cientifica:
    print(f"   {criterio}")

print(f"\nüöÄ PR√ìXIMOS PASOS SUGERIDOS:")
print("-" * 30)

proximos_pasos = [
    {
        'paso': 'Modelado Predictivo',
        'descripcion': 'Implementar modelos de predicci√≥n de precios usando dataset limpio',
        'prioridad': 'ALTA'
    },
    {
        'paso': 'An√°lisis Geoespacial',
        'descripcion': 'Explorar patrones de precios por zonas usando coordenadas',
        'prioridad': 'MEDIA'
    },
    {
        'paso': 'Expansi√≥n de Cobertura',
        'descripcion': 'Aplicar metodolog√≠a a otros departamentos colombianos',
        'prioridad': 'BAJA'
    },
    {
        'paso': 'Automatizaci√≥n',
        'descripcion': 'Crear pipeline automatizado para datos inmobiliarios nuevos',
        'prioridad': 'MEDIA'
    }
]

for i, paso in enumerate(proximos_pasos, 1):
    prioridad_color = "üî¥" if paso['prioridad'] == 'ALTA' else "üü°" if paso['prioridad'] == 'MEDIA' else "üü¢"
    print(f"\n{i}. {prioridad_color} {paso['paso'].upper()} ({paso['prioridad']})")
    print(f"   {paso['descripcion']}")

print(f"\n" + "="*60)
print(f"üéâ PROYECTO HABIDATA COMPLETADO EXITOSAMENTE")
print(f"üíé Dataset de {dataset_antioquia:,} propiedades listo para an√°lisis avanzado")
print(f"üèÜ Est√°ndar universitario de calidad cient√≠fica alcanzado")
print(f"üöÄ Listo para modelos de Machine Learning de predicci√≥n de precios")
print("="*60)

üìã RECOMENDACIONES FINALES Y PR√ìXIMOS PASOS
üéØ PARA MODELOS DE PREDICCI√ìN DE PRECIOS:
---------------------------------------------
   ‚úÖ Variables n√∫cleo: price, surface_final_v2, bedrooms_final, bathrooms_final
   ‚úÖ Features geogr√°ficos: l3_final (ciudad), lat_imputada, lon_imputada
   ‚úÖ Filtrar registros ML-ready (202,805 disponibles - 73.0% del dataset)
   ‚úÖ Usar feature engineering implementado (ratios, densidades, precios relativos)
   ‚ö†Ô∏è Validar coordenadas imputadas para an√°lisis espacial cr√≠tico
   ‚ö†Ô∏è Considerar rooms_final como feature opcional (44.6% completitud)

üî¨ CALIDAD CIENT√çFICA GARANTIZADA:
-----------------------------------
   üìù Documentaci√≥n completa de cada decisi√≥n metodol√≥gica
   üîÑ Proceso reproducible con 12 fases bien definidas
   üìä Validaci√≥n estad√≠stica de modelos ML (R¬≤ = 0.807)
   üßπ Limpieza sistem√°tica de outliers y datos inconsistentes
   ‚öôÔ∏è Feature engineering justificado t√©cnicamente
   üéØ M√©trica

## üìä **An√°lisis Exhaustivo de Variables Faltantes - Dataset Final**

**Objetivo:** Evaluar completitud de todas las variables del dataset final despu√©s del procesamiento completo de 12 fases

**Componentes:**
1. **An√°lisis global** de valores faltantes por variable
2. **Impacto por tipo** de variable (cr√≠ticas vs auxiliares)
3. **Patrones de missingness** y dependencias entre variables
4. **Estrategias de optimizaci√≥n** adicional si es necesaria

In [62]:
# ===============================================================
# AN√ÅLISIS EXHAUSTIVO DE VARIABLES FALTANTES - DATASET FINAL
# ===============================================================

print("üîç AN√ÅLISIS EXHAUSTIVO DE VARIABLES FALTANTES")
print("=" * 60)

# PASO 1: Inventario completo de variables en el dataset
print("üìã INVENTARIO COMPLETO DE VARIABLES:")
print("-" * 40)

total_registros = len(df_clean)
print(f"Total registros en dataset final: {total_registros:,}")

# Obtener todas las columnas del dataset
todas_las_columnas = df_clean.columns.tolist()
print(f"Total variables en dataset: {len(todas_las_columnas)}")

# Categorizar variables por tipo/prop√≥sito
categorias_variables = {
    'Variables Cr√≠ticas': [
        'price', 'surface_final_v2', 'bedrooms_final', 'bathrooms_final', 
        'l3_final', 'lat_imputada', 'lon_imputada'
    ],
    'Variables Geogr√°ficas': [
        'l2', 'l3', 'l3_final', 'l4', 'l4_final', 'lat', 'lon', 
        'lat_imputada', 'lon_imputada'
    ],
    'Variables de Propiedades': [
        'surface_total', 'surface_final_v2', 'bedrooms', 'bedrooms_final',
        'bathrooms', 'bathrooms_final', 'rooms', 'rooms_final', 'property_type'
    ],
    'Variables Textuales': [
        'title', 'description'
    ],
    'Variables Extra√≠das (Text Mining)': [
        'surface_extracted', 'bedrooms_extracted', 'bathrooms_extracted', 
        'rooms_extracted', 'l3_extracted', 'l4_extracted', 
        'l3_title_extracted', 'l4_title_extracted'
    ],
    'Variables ML/Predichas': [
        'surface_ml_predicted'
    ]
}

# PASO 2: An√°lisis de completitud por categor√≠a
print(f"\nüìä AN√ÅLISIS DE COMPLETITUD POR CATEGOR√çA:")
print("-" * 50)

for categoria, variables in categorias_variables.items():
    print(f"\nüè∑Ô∏è {categoria.upper()}:")
    print("-" * (len(categoria) + 5))
    
    variables_existentes = [var for var in variables if var in df_clean.columns]
    
    if variables_existentes:
        for var in variables_existentes:
            no_nulos = df_clean[var].notna().sum()
            nulos = df_clean[var].isna().sum()
            porcentaje = (no_nulos / total_registros) * 100
            
            # Clasificar por nivel de completitud
            if porcentaje >= 95:
                estado = "üü¢ EXCELENTE"
            elif porcentaje >= 80:
                estado = "üü° BUENO"
            elif porcentaje >= 50:
                estado = "üü† REGULAR"
            else:
                estado = "üî¥ CR√çTICO"
            
            print(f"   {var:<25}: {no_nulos:>8,} ({porcentaje:>5.1f}%) | Faltantes: {nulos:>8,} {estado}")
    else:
        print("   ‚ö†Ô∏è No hay variables de esta categor√≠a en el dataset")

print(f"\n‚úÖ INVENTARIO COMPLETADO")

üîç AN√ÅLISIS EXHAUSTIVO DE VARIABLES FALTANTES
üìã INVENTARIO COMPLETO DE VARIABLES:
----------------------------------------
Total registros en dataset final: 277,856
Total variables en dataset: 43

üìä AN√ÅLISIS DE COMPLETITUD POR CATEGOR√çA:
--------------------------------------------------

üè∑Ô∏è VARIABLES CR√çTICAS:
-----------------------
   price                    :  277,856 (100.0%) | Faltantes:        0 üü¢ EXCELENTE
   surface_final_v2         :  219,525 ( 79.0%) | Faltantes:   58,331 üü† REGULAR
   bedrooms_final           :  216,320 ( 77.9%) | Faltantes:   61,536 üü† REGULAR
   bathrooms_final          :  265,233 ( 95.5%) | Faltantes:   12,623 üü¢ EXCELENTE
   l3_final                 :  275,508 ( 99.2%) | Faltantes:    2,348 üü¢ EXCELENTE
   lat_imputada             :  140,202 ( 50.5%) | Faltantes:  137,654 üü† REGULAR
   lon_imputada             :  140,202 ( 50.5%) | Faltantes:  137,654 üü† REGULAR

üè∑Ô∏è VARIABLES GEOGR√ÅFICAS:
--------------------------

In [63]:
# ===============================================================
# AN√ÅLISIS DE PATRONES DE MISSINGNESS Y DEPENDENCIAS
# ===============================================================

print("üï∏Ô∏è AN√ÅLISIS DE PATRONES DE MISSINGNESS")
print("=" * 50)

# PASO 3: Top variables con m√°s valores faltantes
print("üîª TOP 15 VARIABLES CON M√ÅS VALORES FALTANTES:")
print("-" * 55)

# Calcular missingness para todas las variables
missingness_global = {}
for col in df_clean.columns:
    nulos = df_clean[col].isna().sum()
    porcentaje = (nulos / total_registros) * 100
    if nulos > 0:  # Solo variables con valores faltantes
        missingness_global[col] = {'count': nulos, 'percentage': porcentaje}

# Ordenar por cantidad de faltantes
sorted_missing = sorted(missingness_global.items(), key=lambda x: x[1]['count'], reverse=True)

print(f"{'#':<3} {'Variable':<30} {'Faltantes':<12} {'%':<8} {'Estado'}")
print("-" * 70)

for i, (var, stats) in enumerate(sorted_missing[:15], 1):
    count = stats['count']
    pct = stats['percentage']
    
    if pct >= 70:
        estado = "üî¥ CR√çTICO"
    elif pct >= 50:
        estado = "üü† ALTO"
    elif pct >= 20:
        estado = "üü° MEDIO"
    else:
        estado = "üü¢ BAJO"
    
    print(f"{i:>2d}. {var:<30} {count:>8,} {pct:>6.1f}% {estado}")

# PASO 4: Variables cr√≠ticas para ML - an√°lisis espec√≠fico
print(f"\nüéØ AN√ÅLISIS ESPEC√çFICO PARA ML:")
print("-" * 35)

variables_ml_criticas = [
    'price', 'surface_final_v2', 'bedrooms_final', 'bathrooms_final', 
    'l3_final', 'lat_imputada', 'lon_imputada'
]

print("Variables cr√≠ticas para modelos predictivos:")
registros_completos_ml = 0

# Crear m√°scara para registros completos en variables cr√≠ticas
mask_completo = pd.Series([True] * len(df_clean))

for var in variables_ml_criticas:
    if var in df_clean.columns:
        no_nulos = df_clean[var].notna().sum()
        porcentaje = (no_nulos / total_registros) * 100
        
        # Actualizar m√°scara
        mask_completo = mask_completo & df_clean[var].notna()
        
        status = "‚úÖ" if porcentaje >= 80 else "‚ö†Ô∏è" if porcentaje >= 60 else "‚ùå"
        print(f"   {status} {var:<20}: {no_nulos:>8,} ({porcentaje:>5.1f}%)")

registros_completos_ml = mask_completo.sum()
print(f"\nüéØ Registros completos para ML: {registros_completos_ml:,} ({(registros_completos_ml/total_registros*100):.1f}%)")

# PASO 5: Combinaciones problem√°ticas
print(f"\n‚ö†Ô∏è COMBINACIONES PROBLEM√ÅTICAS:")
print("-" * 35)

# Sin superficie Y sin coordenadas
sin_superficie_ni_coords = (
    df_clean['surface_final_v2'].isna() & 
    df_clean[['lat_imputada', 'lon_imputada']].isna().any(axis=1)
).sum()

# Sin habitaciones Y sin superficie
sin_habitaciones_ni_superficie = (
    df_clean['bedrooms_final'].isna() & 
    df_clean['surface_final_v2'].isna()
).sum()

# Sin ubicaci√≥n espec√≠fica (ni ciudad ni barrio)
sin_ubicacion = (
    df_clean['l3_final'].isna() & 
    df_clean['l4_final'].isna()
).sum()

print(f"Sin superficie NI coordenadas: {sin_superficie_ni_coords:,}")
print(f"Sin habitaciones NI superficie: {sin_habitaciones_ni_superficie:,}")
print(f"Sin ubicaci√≥n espec√≠fica: {sin_ubicacion:,}")

print(f"\n‚úÖ AN√ÅLISIS DE PATRONES COMPLETADO")

üï∏Ô∏è AN√ÅLISIS DE PATRONES DE MISSINGNESS
üîª TOP 15 VARIABLES CON M√ÅS VALORES FALTANTES:
-------------------------------------------------------
#   Variable                       Faltantes    %        Estado
----------------------------------------------------------------------
 1. l5                              277,856  100.0% üî¥ CR√çTICO
 2. l6                              277,856  100.0% üî¥ CR√çTICO
 3. l3_title_extracted              277,534   99.9% üî¥ CR√çTICO
 4. l3_extracted                    276,837   99.6% üî¥ CR√çTICO
 5. surface_total                   273,094   98.3% üî¥ CR√çTICO
 6. surface_covered                 272,647   98.1% üî¥ CR√çTICO
 7. l4_title_extracted              271,379   97.7% üî¥ CR√çTICO
 8. bathrooms_extracted             265,032   95.4% üî¥ CR√çTICO
 9. price_period                    257,063   92.5% üî¥ CR√çTICO
10. l4_extracted                    252,081   90.7% üî¥ CR√çTICO
11. rooms                           244,787   88.1% ü