# üè† **HabiData: Limpieza y Preprocesamiento de Datos Inmobiliarios**
## An√°lisis de Precios de Propiedades en Antioquia, Colombia

---

### **üìä Contexto del Proyecto**
Este notebook presenta el proceso completo de **limpieza y preprocesamiento** de un dataset de propiedades inmobiliarias en Colombia, con enfoque espec√≠fico en **Antioquia**. 

### **üéØ Objetivo**
Preparar un dataset de alta calidad para **predicci√≥n de precios** inmobiliarios, aplicando t√©cnicas avanzadas de:
- ‚úÖ Limpieza de datos
- ‚úÖ Validaci√≥n geogr√°fica  
- ‚úÖ Text mining de descripciones
- ‚úÖ Imputaci√≥n inteligente de valores faltantes

### **üìù Metodolog√≠a**
Cada decisi√≥n de limpieza est√° **justificada t√©cnicamente** y documentada para garantizar:
1. **Reproducibilidad** del proceso
2. **Transparencia** en las decisiones 
3. **Calidad cient√≠fica** del an√°lisis
4. **Optimizaci√≥n** para modelos predictivos

---

### **üìã Estructura del An√°lisis**
1. **Carga y Configuraci√≥n Inicial**
2. **Filtrado Geogr√°fico (Antioquia)**  
3. **Evaluaci√≥n de Calidad de Datos**
4. **Limpieza de Precios Inv√°lidos**
5. **Validaci√≥n y Correcci√≥n Geogr√°fica**
6. **Filtrado por Tipo de Propiedad**
7. **An√°lisis de Valores Faltantes**
8. **Text Mining de Descripciones**
9. **Estrategia de Integraci√≥n de Datos**
10. **An√°lisis de Variables de Superficie**
11. **Tratamiento Final de Valores Faltantes**
12. **Validaci√≥n y Resumen Final**

---

*Desarrollado como parte del an√°lisis de mercado inmobiliario colombiano*

## 1Ô∏è‚É£ **Carga y Configuraci√≥n Inicial**

### **üéØ Objetivo de Esta Secci√≥n**
Establecer el entorno de trabajo y cargar el dataset inicial de propiedades inmobiliarias colombianas.

### **üìö Justificaci√≥n de Librer√≠as**
- `pandas`: Manipulaci√≥n eficiente de datasets grandes
- `numpy`: Operaciones num√©ricas optimizadas  
- `matplotlib/seaborn`: Visualizaci√≥n de patrones de datos
- `re`: Text mining de descripciones (procesamiento de lenguaje natural)
- `sqlalchemy`: Conexi√≥n a base de datos PostgreSQL (opcional)

In [1]:
# ===============================================================
# IMPORTACI√ìN DE LIBRER√çAS ESENCIALES
# ===============================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import warnings

# Configuraci√≥n para optimizar visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 100)

print("‚úÖ Librer√≠as importadas exitosamente")
print("‚úÖ Configuraci√≥n de visualizaci√≥n establecida")

‚úÖ Librer√≠as importadas exitosamente
‚úÖ Configuraci√≥n de visualizaci√≥n establecida


In [2]:
# ===============================================================
# CARGA DEL DATASET INICIAL
# ===============================================================

# Ruta al archivo CSV con datos de propiedades colombianas
csv_path = "../data/co_properties.csv"

# Cargar dataset completo
df_original = pd.read_csv(csv_path)

# Informaci√≥n b√°sica del dataset
print("üè† DATASET CARGADO: Propiedades Inmobiliarias Colombia")
print("=" * 55)
print(f"üìä Dimensiones: {df_original.shape}")
print(f"üìã Registros: {df_original.shape[0]:,}")
print(f"üìã Variables: {df_original.shape[1]}")
print(f"üíæ Tama√±o en memoria: {df_original.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

# Vista previa de primeras filas
print(f"\nüìã PRIMERAS 3 FILAS:")
df_original.head(3)

üè† DATASET CARGADO: Propiedades Inmobiliarias Colombia
üìä Dimensiones: (1000000, 25)
üìã Registros: 1,000,000
üìã Variables: 25
üíæ Tama√±o en memoria: 1482.7 MB

üìã PRIMERAS 3 FILAS:


Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
0,KsjahK62rxcYKXXQjOdkqw==,Propiedad,2020-10-07,2021-10-09,2020-10-07,3.921,-76.506,Colombia,Valle del Cauca,,,,,,6.0,7.0,,,1300000000.0,COP,,Casa Campestre en venta en darien 3469064,"HERMOSA CASA CAMPESTRE, &Aacute;REA 6,000 MT, UBICADA EN LA VIA BUGA - BUENAVENTURA, EN PARCELAC...",Casa,Venta
1,Y+gsBZYq1zu5NoR3V5oUGA==,Propiedad,2020-10-07,2021-01-06,2020-10-07,3.3577,-76.541811,Colombia,Valle del Cauca,Cali,Ciudad Jard√≠n,,,,,7.0,,,2800000000.0,COP,,Casa en ciudsd jardin,Casa independiente con posiciona en ciudad jard√≠n y hermosos jardines. La casa s eve de amoblada...,Casa,Venta
2,Jpzqxj8/Vgf3Aa5ASxUBNg==,Propiedad,2020-10-07,2020-10-07,2020-10-07,3.3577,-76.541811,Colombia,Valle del Cauca,Cali,Ciudad Jard√≠n,,,,,7.0,,,2800000000.0,COP,Mensual,Casa en ciudsd jardin,Casa independiente con posiciona en ciudad jard√≠n y hermosos jardines. Amo la casa al\nSur se la...,Casa,Venta


## 2Ô∏è‚É£ **Filtrado Geogr√°fico: Enfoque en Antioquia**

### **üéØ Decisi√≥n Estrat√©gica**
**¬øPor qu√© filtrar solo Antioquia?**

1. **üèôÔ∏è Homogeneidad del Mercado**: Antioquia tiene un mercado inmobiliario m√°s homog√©neo con Medell√≠n como centro econ√≥mico
2. **üìä Volumen Suficiente**: Concentra gran cantidad de transacciones para an√°lisis estad√≠sticamente significativo
3. **üéØ Especificidad Regional**: Los precios inmobiliarios var√≠an significativamente entre departamentos
4. **üîç Calidad del An√°lisis**: Enfoque regional permite mayor precisi√≥n en patrones de precios

### **‚úÖ Impacto Esperado**
- Reducir variabilidad geogr√°fica extrema
- Mejorar homogeneidad para modelos predictivos  
- Mantener volumen suficiente para an√°lisis robusto

In [7]:
# ===============================================================
# FILTRADO GEOGR√ÅFICO: ANTIOQUIA CON AN√ÅLISIS COMPLETO
# ===============================================================

# 1. Verificar distribuci√≥n por departamento (l2)
print("üåç DISTRIBUCI√ìN POR DEPARTAMENTO (TOP 10):")
print("-" * 45)
departamentos = df_original['l2'].value_counts().head(10)
total_nacional = len(df_original)

for dept, count in departamentos.items():
    porcentaje = (count / total_nacional) * 100
    print(f"   {dept:<20}: {count:>8,} ({porcentaje:>5.1f}%)")

# 2. Filtrar √∫nicamente Antioquia  
df_antioquia = df_original[df_original['l2'] == 'Antioquia'].copy()

# 3. Resumen del filtrado geogr√°fico
print(f"\n‚úÖ RESULTADO DEL FILTRADO GEOGR√ÅFICO:")
print("=" * 45)
print(f"üìä Dataset original: {len(df_original):,} propiedades")
print(f"üìä Dataset Antioquia: {len(df_antioquia):,} propiedades") 
print(f"üìà Porcentaje conservado: {(len(df_antioquia)/len(df_original)*100):.1f}%")
print(f"üìç Enfoque regional: Departamento de Antioquia √∫nicamente")

# 4. An√°lisis de ciudades en Antioquia
print(f"\nüèôÔ∏è PRINCIPALES CIUDADES EN ANTIOQUIA:")
print("-" * 40)
ciudades_antioquia = df_antioquia['l3'].value_counts().head(8)
for ciudad, count in ciudades_antioquia.items():
    porcentaje = (count / len(df_antioquia)) * 100
    print(f"   {ciudad:<20}: {count:>6,} ({porcentaje:>5.1f}%)")

# 5. Lista de barrios/sectores (l4)
print(f"\nüèòÔ∏è BARRIOS/SECTORES EN ANTIOQUIA:")
print("-" * 40)

# Limpieza b√°sica y conteo de barrios
conteo_barrios = (
    df_antioquia['l4']
    .astype(str)
    .str.strip()
    .str.title()
    .replace('Nan', np.nan)
    .value_counts()
)

# Mostrar listado de barrios
print(f"üìã LISTADO DE BARRIOS (ORDENADO POR CANTIDAD):")
print(f"{'#':<4} {'Barrio/Sector':<35} {'Propiedades':<12} {'%':<6}")
print("-" * 65)

for i, (barrio, count) in enumerate(conteo_barrios.items(), 1):
    porcentaje = (count / len(df_antioquia)) * 100
    print(f"{i:>3}. {str(barrio):<35}: {count:>8,} ({porcentaje:>4.1f}%)")

print(f"\n‚úÖ TOTAL: {len(conteo_barrios):,} barrios √∫nicos")

üåç DISTRIBUCI√ìN POR DEPARTAMENTO (TOP 10):
---------------------------------------------
   Antioquia           :  341,453 ( 34.1%)
   Cundinamarca        :  208,918 ( 20.9%)
   Valle del Cauca     :  117,770 ( 11.8%)
   Atl√°ntico           :   78,605 (  7.9%)
   Santander           :   71,737 (  7.2%)
   Caldas              :   56,296 (  5.6%)
   Norte de Santander  :   32,247 (  3.2%)
   Risaralda           :   28,505 (  2.9%)
   Quind√≠o             :   11,753 (  1.2%)
   Bol√≠var             :   11,016 (  1.1%)

‚úÖ RESULTADO DEL FILTRADO GEOGR√ÅFICO:
üìä Dataset original: 1,000,000 propiedades
üìä Dataset Antioquia: 341,453 propiedades
üìà Porcentaje conservado: 34.1%
üìç Enfoque regional: Departamento de Antioquia √∫nicamente

üèôÔ∏è PRINCIPALES CIUDADES EN ANTIOQUIA:
----------------------------------------
   Medell√≠n            : 262,856 ( 77.0%)
   Envigado            : 24,171 (  7.1%)
   Sabaneta            : 10,836 (  3.2%)
   Bello               :  8,728 (  2.6%)

## 3Ô∏è‚É£ **Evaluaci√≥n de Calidad de Datos**

### **üéØ Objetivo**
Identificar problemas de calidad que afecten el modelo de predicci√≥n de precios.

### **üîç Estrategia**
1. **Valores faltantes** por variable
2. **Registros duplicados** completos
3. **Rangos l√≥gicos** en variables num√©ricas
4. **Consistencia** en variables categ√≥ricas

In [11]:
# ===============================================================
# EVALUACI√ìN R√ÅPIDA DE CALIDAD DE DATOS
# ===============================================================

print("üîç EVALUACI√ìN DE CALIDAD - DATASET ANTIOQUIA")
print("=" * 50)

# 1. Informaci√≥n b√°sica
print(f"üìä Dimensiones: {df_antioquia.shape}")
print(f"üìä Tipos de datos:")
print(df_antioquia.dtypes.value_counts())

# 2. Valores faltantes cr√≠ticos
print(f"\nüö® VALORES FALTANTES (Top 10):")
missing = df_antioquia.isnull().sum()
missing_pct = (missing / len(df_antioquia)) * 100
missing_top = missing[missing > 0].sort_values(ascending=False).head(10)

for col, count in missing_top.items():
    pct = missing_pct[col]
    print(f"   {col:<20}: {count:>8,} ({pct:>5.1f}%)")

# 3. Duplicados
duplicados = df_antioquia.duplicated().sum()
print(f"\nüìã REGISTROS DUPLICADOS: {duplicados:,}")

# 4. Problemas en variables clave
print(f"\n‚ö†Ô∏è PROBLEMAS DETECTADOS:")

# Precios inv√°lidos
precios_invalidos = (df_antioquia['price'] <= 0).sum()
print(f"   ‚Ä¢ Precios ‚â§ 0: {precios_invalidos:,}")

# Coordenadas fuera de Colombia
LAT_MIN, LAT_MAX = -4.23, 15.52
LON_MIN, LON_MAX = -79.01, -66.85
coords_invalidas = (
    (df_antioquia['lat'] < LAT_MIN) | (df_antioquia['lat'] > LAT_MAX) |
    (df_antioquia['lon'] < LON_MIN) | (df_antioquia['lon'] > LON_MAX)
).sum()
print(f"   ‚Ä¢ Coordenadas fuera de Colombia: {coords_invalidas:,}")

# Habitaciones extremas
if 'bedrooms' in df_antioquia.columns:
    bedrooms_extremas = (df_antioquia['bedrooms'] > 15).sum()
    print(f"   ‚Ä¢ Dormitorios > 15: {bedrooms_extremas:,}")

print(f"\n‚úÖ EVALUACI√ìN COMPLETADA")

üîç EVALUACI√ìN DE CALIDAD - DATASET ANTIOQUIA
üìä Dimensiones: (341453, 25)
üìä Tipos de datos:
object     17
float64     8
Name: count, dtype: int64

üö® VALORES FALTANTES (Top 10):
   l6                  :  341,453 (100.0%)
   l5                  :  341,453 (100.0%)
   surface_total       :  334,859 ( 98.1%)
   surface_covered     :  334,412 ( 97.9%)
   price_period        :  314,524 ( 92.1%)
   rooms               :  305,597 ( 89.5%)
   l4                  :  262,728 ( 76.9%)
   bedrooms            :  261,106 ( 76.5%)
   lat                 :  196,750 ( 57.6%)
   lon                 :  196,750 ( 57.6%)
   l6                  :  341,453 (100.0%)
   l5                  :  341,453 (100.0%)
   surface_total       :  334,859 ( 98.1%)
   surface_covered     :  334,412 ( 97.9%)
   price_period        :  314,524 ( 92.1%)
   rooms               :  305,597 ( 89.5%)
   l4                  :  262,728 ( 76.9%)
   bedrooms            :  261,106 ( 76.5%)
   lat                 :  196,750 ( 57

## 4Ô∏è‚É£ **Limpieza de Precios Inv√°lidos**

### **üéØ Decisi√≥n**
Eliminar registros con precio ‚â§ 0.

### **‚úÖ Justificaci√≥n**
Precios inv√°lidos no sirven para predicci√≥n de precios.

In [12]:
# ===============================================================
# ELIMINAR PRECIOS INV√ÅLIDOS
# ===============================================================

print("üè∑Ô∏è LIMPIEZA DE PRECIOS")
print("-" * 25)

inicial = len(df_antioquia)
print(f"üìä Antes: {inicial:,}")

# Eliminar precios ‚â§ 0
df_clean = df_antioquia[df_antioquia['price'] > 0].copy()

final = len(df_clean)
eliminados = inicial - final

print(f"‚úÖ Despu√©s: {final:,}")
print(f"üóëÔ∏è Eliminados: {eliminados:,}")
print(f"üìà Conservado: {(final/inicial*100):.1f}%")

üè∑Ô∏è LIMPIEZA DE PRECIOS
-------------------------
üìä Antes: 341,453
‚úÖ Despu√©s: 341,373
üóëÔ∏è Eliminados: 80
üìà Conservado: 100.0%
‚úÖ Despu√©s: 341,373
üóëÔ∏è Eliminados: 80
üìà Conservado: 100.0%


## 5Ô∏è‚É£ **Eliminar Coordenadas Inv√°lidas**

### **üéØ Decisi√≥n**
Eliminar registros con coordenadas fuera de Colombia.

### **‚úÖ Justificaci√≥n**
Variables geogr√°ficas son cr√≠ticas para predicci√≥n de precios.

In [13]:
# ===============================================================
# ELIMINAR COORDENADAS FUERA DE COLOMBIA
# ===============================================================

print("üåç LIMPIEZA GEOGR√ÅFICA")
print("-" * 25)

# Rangos Colombia
LAT_MIN, LAT_MAX = -4.23, 15.52
LON_MIN, LON_MAX = -79.01, -66.85

inicial = len(df_clean)
print(f"üìä Antes: {inicial:,}")

# Identificar coordenadas fuera de Colombia
coords_invalidas = (
    (df_clean['lat'].notna()) & (df_clean['lon'].notna()) &
    ((df_clean['lat'] < LAT_MIN) | (df_clean['lat'] > LAT_MAX) |
     (df_clean['lon'] < LON_MIN) | (df_clean['lon'] > LON_MAX))
)

invalidas_count = coords_invalidas.sum()
print(f"üö® Coordenadas fuera Colombia: {invalidas_count:,}")

# Eliminar registros inv√°lidos
if invalidas_count > 0:
    df_clean = df_clean[~coords_invalidas].copy()

final = len(df_clean)
eliminados = inicial - final

print(f"‚úÖ Despu√©s: {final:,}")
print(f"üóëÔ∏è Eliminados: {eliminados:,}")
print(f"üìà Conservado: {(final/inicial*100):.1f}%")

üåç LIMPIEZA GEOGR√ÅFICA
-------------------------
üìä Antes: 341,373
üö® Coordenadas fuera Colombia: 29
‚úÖ Despu√©s: 341,344
üóëÔ∏è Eliminados: 29
üìà Conservado: 100.0%


## 6Ô∏è‚É£ **Filtros por Tipo de Propiedad**

**Decisi√≥n:** Enfocarse en apartamentos y casas √∫nicamente

**Justificaci√≥n:** Los lotes, locales comerciales y fincas tienen din√°micas de precio completamente diferentes. Concentrarse en vivienda residencial garantiza homogeneidad en el an√°lisis

In [14]:
# ===============================================================
# FILTRAR TIPOS DE PROPIEDAD RESIDENCIAL
# ===============================================================

print("üè† TIPOS DE PROPIEDAD")
print("-" * 25)

inicial = len(df_clean)
print(f"üìä Antes: {inicial:,}")

# Identificar tipos √∫nicos
tipos_unicos = df_clean['property_type'].value_counts()
print(f"\nüìù Tipos de propiedad:")
for tipo, count in tipos_unicos.head(10).items():
    print(f"   {tipo}: {count:,}")

# Filtrar solo vivienda residencial
tipos_residenciales = ['Casa', 'Apartamento', 'casa', 'apartamento']
df_clean = df_clean[df_clean['property_type'].isin(tipos_residenciales)].copy()

final = len(df_clean)
eliminados = inicial - final

print(f"\n‚úÖ Despu√©s filtro: {final:,}")
print(f"üóëÔ∏è Eliminados: {eliminados:,}")
print(f"üìà Conservado: {(final/inicial*100):.1f}%")

üè† TIPOS DE PROPIEDAD
-------------------------
üìä Antes: 341,344

üìù Tipos de propiedad:
   Apartamento: 236,330
   Casa: 41,526
   Otro: 38,439
   Lote: 15,352
   Local comercial: 4,688
   Oficina: 3,624
   Finca: 1,142
   Dep√≥sito: 218
   Parqueadero: 25

‚úÖ Despu√©s filtro: 277,856
üóëÔ∏è Eliminados: 63,488
üìà Conservado: 81.4%


## 7Ô∏è‚É£ **Extracci√≥n por Text Mining** üíé

**Decisi√≥n:** Extraer informaci√≥n de superficie desde descripciones usando expresiones regulares

**Justificaci√≥n:** Muchas propiedades tienen superficie en el campo `description` pero no en `surface_total`. Esta es una **innovaci√≥n clave** que recupera datos valiosos perdidos

In [20]:
# ===============================================================
# EXTRACCI√ìN TEXT MINING - FUNCI√ìN OPTIMIZADA
# ===============================================================

print("‚õèÔ∏è TEXT MINING - SUPERFICIE OPTIMIZADA")
print("-" * 40)

def extraer_superficie_optimizada(descripcion):
    """Funci√≥n optimizada para extraer superficie con m√∫ltiples patrones"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Lista de patrones ordenados por especificidad
    patrones = [
        # Patrones principales (m√°s espec√≠ficos)
        r'(\d+(?:[.,]\d+)?)\s*(?:m2|m¬≤|metros\s*cuadrados)',
        r'(\d+(?:[.,]\d+)?)\s*(?:mts2|mt2|metros2)',
        r'(\d+(?:[.,]\d+)?)\s*(?:metros|mts|metro)\s*(?:cuadrados?|construidos?)',
        
        # Patrones con contexto
        r'√°rea\s*(?:de\s*|total\s*|construida\s*)?(\d+(?:[.,]\d+)?)',
        r'superficie\s*(?:de\s*|total\s*)?(\d+(?:[.,]\d+)?)',
        r'construidos?\s*(\d+(?:[.,]\d+)?)',
        r'(\d+(?:[.,]\d+)?)\s*(?:metros\s*construidos?)',
        
        # Patrones menos espec√≠ficos
        r'(\d+(?:[.,]\d+)?)\s*m\s*(?:cuadrados?|construidos?)',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            superficie_str = matches[0].replace(',', '.')
            try:
                valor = float(superficie_str)
                if 15 <= valor <= 2000:  # Rango razonable
                    return valor
            except:
                continue
    return None

# An√°lisis inicial
sin_superficie = df_clean['surface_total'].isna().sum()
print(f"üîç Registros sin superficie: {sin_superficie:,}")

# Aplicar extracci√≥n optimizada
mask_sin_superficie = df_clean['surface_total'].isna()

# Limpiar columna anterior si existe
if 'surface_extracted' in df_clean.columns:
    df_clean = df_clean.drop('surface_extracted', axis=1)

# Crear nueva columna con extracciones
extracciones = df_clean.loc[mask_sin_superficie, 'description'].apply(extraer_superficie_optimizada)
df_clean.loc[mask_sin_superficie, 'surface_extracted'] = extracciones

# Estad√≠sticas finales
extraidas = df_clean['surface_extracted'].notna().sum()
print(f"‚úÖ Superficies extra√≠das: {extraidas:,}")
print(f"üìà Tasa de recuperaci√≥n: {(extraidas/sin_superficie*100):.1f}%")
print(f"üíé Innovaci√≥n text mining completada")

‚õèÔ∏è TEXT MINING - SUPERFICIE OPTIMIZADA
----------------------------------------
üîç Registros sin superficie: 273,094
‚úÖ Superficies extra√≠das: 67,615
üìà Tasa de recuperaci√≥n: 24.8%
üíé Innovaci√≥n text mining completada
‚úÖ Superficies extra√≠das: 67,615
üìà Tasa de recuperaci√≥n: 24.8%
üíé Innovaci√≥n text mining completada


In [21]:
# ===============================================================
# AN√ÅLISIS DE EXTRACCI√ìN ADICIONAL: ROOMS, BEDROOMS, BATHROOMS
# ===============================================================

print("üîç AN√ÅLISIS DE EXTRACCI√ìN ADICIONAL")
print("=" * 40)

# 1. Analizar qu√© informaci√≥n falta
print("üìä ESTADO ACTUAL DE VARIABLES:")
print("-" * 35)

variables_analizar = ['rooms', 'bedrooms', 'bathrooms']
for var in variables_analizar:
    if var in df_clean.columns:
        faltantes = df_clean[var].isna().sum()
        total = len(df_clean)
        pct = (faltantes/total)*100
        print(f"   {var:<12}: {faltantes:>8,} faltantes ({pct:>5.1f}%)")
    else:
        print(f"   {var:<12}: Columna no existe")

# 2. Muestras de descripciones para an√°lisis
print(f"\nüìù EJEMPLOS DE DESCRIPCIONES (para an√°lisis de patrones):")
print("-" * 60)

# Muestra aleatoria de descripciones
muestra_descripciones = df_clean['description'].dropna().sample(10, random_state=42)
for i, desc in enumerate(muestra_descripciones, 1):
    print(f"\n{i:2d}. {str(desc)[:200]}...")

# 3. B√∫squeda de patrones espec√≠ficos
print(f"\n\nüîé B√öSQUEDA DE PATRONES EN DESCRIPCIONES:")
print("-" * 50)

# Patrones a buscar
patrones_busqueda = {
    'habitaciones': [
        r'(\d+)\s*(?:habitacion|dormitorio|cuarto|alcoba|recamara)',
        r'(?:habitacion|dormitorio|cuarto|alcoba|recamara)\s*(\d+)',
        r'(\d+)\s*hab',
        r'(\d+)\s*habs',
    ],
    'ba√±os': [
        r'(\d+)\s*(?:ba√±o|ba√±os|bathroom|wc)',
        r'(?:ba√±o|ba√±os|bathroom|wc)\s*(\d+)',
        r'(\d+)\s*baths?',
    ],
    'habitaciones_totales': [
        r'(\d+)\s*(?:habitaciones?|cuartos?|rooms?)',
        r'(?:habitaciones?|cuartos?|rooms?)\s*(\d+)',
    ]
}

# An√°lisis en muestra m√°s grande
muestra_analisis = df_clean['description'].dropna().sample(2000, random_state=42)

for categoria, patrones in patrones_busqueda.items():
    print(f"\nüîç {categoria.upper()}:")
    for patron in patrones:
        matches = 0
        ejemplos = []
        for desc in muestra_analisis:
            if pd.notna(desc):
                encontrado = re.search(patron, str(desc).lower())
                if encontrado:
                    matches += 1
                    if len(ejemplos) < 3:  # Guardar pocos ejemplos
                        ejemplos.append((encontrado.group(1), str(desc)[:100]))
        
        print(f"   Patr√≥n '{patron}': {matches} matches")
        for valor, ejemplo in ejemplos:
            print(f"      ‚Üí {valor} en: {ejemplo}...")

üîç AN√ÅLISIS DE EXTRACCI√ìN ADICIONAL
üìä ESTADO ACTUAL DE VARIABLES:
-----------------------------------
   rooms       :  244,787 faltantes ( 88.1%)
   bedrooms    :  206,506 faltantes ( 74.3%)
   bathrooms   :   25,447 faltantes (  9.2%)

üìù EJEMPLOS DE DESCRIPCIONES (para an√°lisis de patrones):
------------------------------------------------------------

 1. Codigo Inmueble 6620 C√≥modo apartamento con 3 habitaciones, sala-comedor, cocina semi-integral, zona de ropas, 1 ba√±o completo, iluminado, con buena ventilaci√≥n. Su ambiente c√°lido con c√≥modos espacio...

 2. Excelente ubicaci√≥n , buenas rutas de transporte, primer piso, 1 solo ambiente, 1 ba√±o, 1 closet, cocineta,...

 3. Codigo Inmueble 561 Casa cerca al √âxito Laureles amplios espacios con muy buenas rutas de trabajo...

 4. Codigo Inmueble 5071 Apartamento con 2 alcobas, 2 closet, sala comedor, cocina integral mixta, 2 ba√±os cabinados, zona de ropas,  calentador a gas, red de gas, balc√≥n, piso madera y porce

In [24]:
# ===============================================================
# FUNCIONES DE EXTRACCI√ìN PARA HABITACIONES Y BA√ëOS
# ===============================================================

print("üîß CREANDO FUNCIONES DE EXTRACCI√ìN")
print("-" * 40)

def extraer_bedrooms(descripcion):
    """Extrae n√∫mero de dormitorios/habitaciones desde descripci√≥n"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones ordenados por especificidad
    patrones = [
        r'(\d+)\s*(?:habitacion|dormitorio|alcoba|recamara)(?:es)?',
        r'(?:habitacion|dormitorio|alcoba|recamara)(?:es)?\s*(\d+)',
        r'(\d+)\s*hab(?:s)?[^a-z]',
        r'(\d+)\s*dorm(?:s)?[^a-z]',
        r'(\d+)\s*bed(?:room)?s?[^a-z]',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                valor = int(matches[0])
                if 1 <= valor <= 10:  # Rango razonable
                    return valor
            except:
                continue
    return None

def extraer_bathrooms(descripcion):
    """Extrae n√∫mero de ba√±os desde descripci√≥n"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones para ba√±os
    patrones = [
        r'(\d+)\s*(?:ba√±o|ba√±os|bathroom|wc)s?',
        r'(?:ba√±o|ba√±os|bathroom|wc)s?\s*(\d+)',
        r'(\d+)\s*bath(?:s)?[^a-z]',
        r'(\d+)\s*w\.?c\.?[^a-z]',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                valor = int(matches[0])
                if 1 <= valor <= 8:  # Rango razonable
                    return valor
            except:
                continue
    return None

def extraer_rooms(descripcion):
    """Extrae n√∫mero total de habitaciones/cuartos desde descripci√≥n"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones para habitaciones totales
    patrones = [
        r'(\d+)\s*(?:habitaciones?|cuartos?|rooms?)(?:\s|[^a-z])',
        r'(?:habitaciones?|cuartos?|rooms?)\s*(\d+)',
        r'(\d+)\s*(?:ambientes?)',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                valor = int(matches[0])
                if 1 <= valor <= 15:  # Rango razonable
                    return valor
            except:
                continue
    return None

print("‚úÖ Funciones de extracci√≥n creadas")

# Probar funciones en muestra peque√±a
print(f"\nüß™ PRUEBA DE FUNCIONES:")
print("-" * 25)

muestra_test = df_clean['description'].dropna().sample(1000, random_state=42)

bedrooms_extraidos = muestra_test.apply(extraer_bedrooms).notna().sum()
bathrooms_extraidos = muestra_test.apply(extraer_bathrooms).notna().sum()
rooms_extraidos = muestra_test.apply(extraer_rooms).notna().sum()

print(f"Bedrooms extra√≠dos: {bedrooms_extraidos}/1000 ({(bedrooms_extraidos/1000*100):.1f}%)")
print(f"Bathrooms extra√≠dos: {bathrooms_extraidos}/1000 ({(bathrooms_extraidos/1000*100):.1f}%)")
print(f"Rooms extra√≠dos: {rooms_extraidos}/1000 ({(rooms_extraidos/1000*100):.1f}%)")

üîß CREANDO FUNCIONES DE EXTRACCI√ìN
----------------------------------------
‚úÖ Funciones de extracci√≥n creadas

üß™ PRUEBA DE FUNCIONES:
-------------------------
Bedrooms extra√≠dos: 657/1000 (65.7%)
Bathrooms extra√≠dos: 538/1000 (53.8%)
Rooms extra√≠dos: 328/1000 (32.8%)


In [25]:
# ===============================================================
# APLICAR EXTRACCI√ìN AL DATASET COMPLETO
# ===============================================================

print("üöÄ APLICACI√ìN AL DATASET COMPLETO")
print("=" * 40)

# Aplicar solo a registros que no tienen la informaci√≥n
variables_extraer = {
    'bedrooms': extraer_bedrooms,
    'bathrooms': extraer_bathrooms,
    'rooms': extraer_rooms
}

for variable, funcion in variables_extraer.items():
    print(f"\nüîÑ Procesando {variable}...")
    
    # Verificar si la columna existe
    if variable in df_clean.columns:
        faltantes_inicial = df_clean[variable].isna().sum()
        mask_faltantes = df_clean[variable].isna()
    else:
        print(f"   Creando nueva columna '{variable}'")
        df_clean[variable] = np.nan
        faltantes_inicial = len(df_clean)
        mask_faltantes = df_clean[variable].isna()
    
    print(f"   Registros sin {variable}: {faltantes_inicial:,}")
    
    # Aplicar extracci√≥n
    extracciones = df_clean.loc[mask_faltantes, 'description'].apply(funcion)
    df_clean.loc[mask_faltantes, f'{variable}_extracted'] = extracciones
    
    # Estad√≠sticas
    extraidos = df_clean[f'{variable}_extracted'].notna().sum()
    tasa_recuperacion = (extraidos / faltantes_inicial * 100) if faltantes_inicial > 0 else 0
    
    print(f"   ‚úÖ Extra√≠dos: {extraidos:,}")
    print(f"   üìà Tasa recuperaci√≥n: {tasa_recuperacion:.1f}%")

print(f"\nüíé EXTRACCI√ìN ADICIONAL COMPLETADA")
print("=" * 40)

# Resumen final de extracciones
print(f"üìä RESUMEN DE TODAS LAS EXTRACCIONES:")
print("-" * 35)
print(f"   Surface: {df_clean['surface_extracted'].notna().sum():,} extra√≠das")
print(f"   Bedrooms: {df_clean['bedrooms_extracted'].notna().sum():,} extra√≠das")
print(f"   Bathrooms: {df_clean['bathrooms_extracted'].notna().sum():,} extra√≠das")
print(f"   Rooms: {df_clean['rooms_extracted'].notna().sum():,} extra√≠das")

total_extracciones = (
    df_clean['surface_extracted'].notna().sum() +
    df_clean['bedrooms_extracted'].notna().sum() +
    df_clean['bathrooms_extracted'].notna().sum() +
    df_clean['rooms_extracted'].notna().sum()
)

print(f"\nüéØ TOTAL DATOS RECUPERADOS: {total_extracciones:,}")
print(f"üèÜ Text Mining: INNOVACI√ìN COMPLETA")

üöÄ APLICACI√ìN AL DATASET COMPLETO

üîÑ Procesando bedrooms...
   Registros sin bedrooms: 206,506
   ‚úÖ Extra√≠dos: 144,970
   üìà Tasa recuperaci√≥n: 70.2%

üîÑ Procesando bathrooms...
   Registros sin bathrooms: 25,447
   ‚úÖ Extra√≠dos: 144,970
   üìà Tasa recuperaci√≥n: 70.2%

üîÑ Procesando bathrooms...
   Registros sin bathrooms: 25,447
   ‚úÖ Extra√≠dos: 12,824
   üìà Tasa recuperaci√≥n: 50.4%

üîÑ Procesando rooms...
   Registros sin rooms: 244,787
   ‚úÖ Extra√≠dos: 12,824
   üìà Tasa recuperaci√≥n: 50.4%

üîÑ Procesando rooms...
   Registros sin rooms: 244,787
   ‚úÖ Extra√≠dos: 90,968
   üìà Tasa recuperaci√≥n: 37.2%

üíé EXTRACCI√ìN ADICIONAL COMPLETADA
üìä RESUMEN DE TODAS LAS EXTRACCIONES:
-----------------------------------
   Surface: 67,615 extra√≠das
   Bedrooms: 144,970 extra√≠das
   Bathrooms: 12,824 extra√≠das
   Rooms: 90,968 extra√≠das

üéØ TOTAL DATOS RECUPERADOS: 316,377
üèÜ Text Mining: INNOVACI√ìN COMPLETA
   ‚úÖ Extra√≠dos: 90,968
   üìà Ta

## 8Ô∏è‚É£ **Integraci√≥n de Datos Extra√≠dos**

**Decisi√≥n:** Consolidar datos originales con extracciones de text mining

**Justificaci√≥n:** Crear variables finales que combinen datos originales con extracciones para maximizar completitud sin perder informaci√≥n original

In [26]:
# ===============================================================
# INTEGRACI√ìN DE DATOS ORIGINALES CON EXTRACCIONES
# ===============================================================

print("üîó INTEGRACI√ìN DE DATOS")
print("=" * 30)

# Estrategia: Priorizar datos originales, completar con extracciones
variables_integrar = {
    'surface_total': 'surface_extracted',
    'bedrooms': 'bedrooms_extracted', 
    'bathrooms': 'bathrooms_extracted',
    'rooms': 'rooms_extracted'
}

for original, extraida in variables_integrar.items():
    if extraida in df_clean.columns:
        # Estado antes de integraci√≥n
        antes_faltantes = df_clean[original].isna().sum()
        
        # Integrar: usar original si existe, sino usar extra√≠da
        df_clean[f'{original}_final'] = df_clean[original].fillna(df_clean[extraida])
        
        # Estado despu√©s de integraci√≥n
        despues_faltantes = df_clean[f'{original}_final'].isna().sum()
        completados = antes_faltantes - despues_faltantes
        
        print(f"\nüìä {original.upper()}:")
        print(f"   Antes: {antes_faltantes:,} faltantes")
        print(f"   Despu√©s: {despues_faltantes:,} faltantes")
        print(f"   ‚úÖ Completados: {completados:,}")
        if antes_faltantes > 0:
            print(f"   üìà Mejora: {(completados/antes_faltantes*100):.1f}%")

print(f"\nüéØ RESUMEN DE INTEGRACI√ìN:")
print("-" * 30)

# Calcular total de completaciones
total_completaciones = 0
for original, extraida in variables_integrar.items():
    if extraida in df_clean.columns:
        antes = df_clean[original].isna().sum()
        despues = df_clean[f'{original}_final'].isna().sum()
        total_completaciones += (antes - despues)

print(f"üìà Total valores completados: {total_completaciones:,}")
print(f"üíé Integraci√≥n exitosa completada")

üîó INTEGRACI√ìN DE DATOS

üìä SURFACE_TOTAL:
   Antes: 273,094 faltantes
   Despu√©s: 205,479 faltantes
   ‚úÖ Completados: 67,615
   üìà Mejora: 24.8%

üìä BEDROOMS:
   Antes: 206,506 faltantes
   Despu√©s: 61,536 faltantes
   ‚úÖ Completados: 144,970
   üìà Mejora: 70.2%

üìä BATHROOMS:
   Antes: 25,447 faltantes
   Despu√©s: 12,623 faltantes
   ‚úÖ Completados: 12,824
   üìà Mejora: 50.4%

üìä ROOMS:
   Antes: 244,787 faltantes
   Despu√©s: 153,819 faltantes
   ‚úÖ Completados: 90,968
   üìà Mejora: 37.2%

üéØ RESUMEN DE INTEGRACI√ìN:
------------------------------
üìà Total valores completados: 316,377
üíé Integraci√≥n exitosa completada


In [28]:
# ===============================================================
# VALIDACI√ìN DETALLADA DE LA INTEGRACI√ìN 
# ===============================================================

print("üîç VALIDACI√ìN DETALLADA DE INTEGRACI√ìN")
print("=" * 50)

# Verificar que la l√≥gica de integraci√≥n sea correcta
variables_validar = ['surface_total', 'bedrooms', 'bathrooms', 'rooms']

for var in variables_validar:
    var_final = f'{var}_final'
    var_extracted = f'{var}_extracted'
    
    if var_final in df_clean.columns:
        print(f"\nüîé VALIDANDO {var.upper()}:")
        print("-" * 25)
        
        # 1. Verificar que los valores originales se mantienen
        original_disponible = df_clean[var].notna()
        valores_originales_mantenidos = (
            df_clean.loc[original_disponible, var] == 
            df_clean.loc[original_disponible, var_final]
        ).all()
        
        print(f"   ‚úÖ Valores originales mantenidos: {valores_originales_mantenidos}")
        
        # 2. Verificar que extracciones van donde falta original
        if var_extracted in df_clean.columns:
            sin_original = df_clean[var].isna()
            con_extraido = df_clean[var_extracted].notna()
            
            # Casos donde NO hab√≠a original PERO S√ç hay extra√≠do
            casos_llenados = sin_original & con_extraido
            valores_extraidos_correctos = (
                df_clean.loc[casos_llenados, var_extracted] == 
                df_clean.loc[casos_llenados, var_final]
            ).all()
            
            print(f"   ‚úÖ Extracciones van donde falta: {valores_extraidos_correctos}")
            print(f"   üìä Casos completados: {casos_llenados.sum():,}")
            
            # 3. Muestra de casos espec√≠ficos
            if casos_llenados.sum() > 0:
                muestra = df_clean.loc[casos_llenados, [var, var_extracted, var_final]].head(3)
                print(f"   üìã Muestra casos completados:")
                for idx, row in muestra.iterrows():
                    original_val = row[var]
                    extracted_val = row[var_extracted] 
                    final_val = row[var_final]
                    print(f"      Original: {original_val} ‚Üí Extra√≠do: {extracted_val} ‚Üí Final: {final_val}")
        
        # 4. Verificar que NO se sobrescriben valores originales
        if var_extracted in df_clean.columns:
            con_original = df_clean[var].notna()
            casos_con_ambos = con_original & df_clean[var_extracted].notna()
            
            if casos_con_ambos.sum() > 0:
                sobrescrituras = (
                    df_clean.loc[casos_con_ambos, var] != 
                    df_clean.loc[casos_con_ambos, var_final]
                ).sum()
                print(f"   üö® Sobrescrituras incorrectas: {sobrescrituras}")
                
                if sobrescrituras > 0:
                    print("   ‚ùå ERROR: Valores originales fueron sobrescritos!")
                else:
                    print("   ‚úÖ No hay sobrescrituras incorrectas")

# 5. Resumen final de validaci√≥n
print(f"\nüéØ RESUMEN DE VALIDACI√ìN:")
print("-" * 30)

for var in variables_validar:
    var_final = f'{var}_final'
    if var_final in df_clean.columns:
        original_count = df_clean[var].notna().sum()
        final_count = df_clean[var_final].notna().sum()
        mejora = final_count - original_count
        print(f"   {var:<15}: {original_count:>6,} ‚Üí {final_count:>6,} (+{mejora:>5,})")

print(f"\n‚úÖ VALIDACI√ìN DE INTEGRACI√ìN COMPLETADA")

üîç VALIDACI√ìN DETALLADA DE INTEGRACI√ìN

üîé VALIDANDO SURFACE_TOTAL:
-------------------------
   ‚úÖ Valores originales mantenidos: True

üîé VALIDANDO BEDROOMS:
-------------------------
   ‚úÖ Valores originales mantenidos: True
   ‚úÖ Extracciones van donde falta: True
   üìä Casos completados: 144,970
   üìã Muestra casos completados:
      Original: nan ‚Üí Extra√≠do: 7.0 ‚Üí Final: 7.0
      Original: nan ‚Üí Extra√≠do: 5.0 ‚Üí Final: 5.0
      Original: nan ‚Üí Extra√≠do: 5.0 ‚Üí Final: 5.0

üîé VALIDANDO BATHROOMS:
-------------------------
   ‚úÖ Valores originales mantenidos: True
   ‚úÖ Extracciones van donde falta: True
   üìä Casos completados: 12,824
   üìã Muestra casos completados:
      Original: nan ‚Üí Extra√≠do: 3.0 ‚Üí Final: 3.0
      Original: nan ‚Üí Extra√≠do: 3.0 ‚Üí Final: 3.0
      Original: nan ‚Üí Extra√≠do: 2.0 ‚Üí Final: 2.0

üîé VALIDANDO ROOMS:
-------------------------
   ‚úÖ Valores originales mantenidos: True
   ‚úÖ Extracciones van don

## 9Ô∏è‚É£ **Tratamiento de Valores Faltantes**

**Objetivo:** Imputar valores faltantes con estrategias estad√≠sticas antes de la imputaci√≥n avanzada de superficie

**Justificaci√≥n:** Completar variables cr√≠ticas como coordenadas y ubicaci√≥n para maximizar la calidad del dataset antes del modelado ML de superficie

In [29]:
# ===============================================================
# AN√ÅLISIS DE VALORES FALTANTES RESTANTES
# ===============================================================

print("üîç AN√ÅLISIS DE VALORES FALTANTES RESTANTES")
print("=" * 50)

# Evaluar estado actual despu√©s de text mining e integraci√≥n
variables_criticas = ['lat', 'lon', 'l4', 'surface_total_final', 'bedrooms_final', 'bathrooms_final']

print("üìä ESTADO ACTUAL DE VARIABLES CR√çTICAS:")
print("-" * 45)

for var in variables_criticas:
    if var in df_clean.columns:
        faltantes = df_clean[var].isna().sum()
        total = len(df_clean)
        pct = (faltantes / total) * 100
        print(f"   {var:<20}: {faltantes:>8,} faltantes ({pct:>5.1f}%)")

# Identificar variables para imputaci√≥n simple
print(f"\nüéØ ESTRATEGIAS DE IMPUTACI√ìN:")
print("-" * 35)

# 1. Coordenadas faltantes - imputar por centroide de barrio
coords_faltantes = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
barrios_disponibles = df_clean['l4'].notna().sum()
print(f"   Coordenadas: {coords_faltantes:,} faltantes")
print(f"   Barrios disponibles: {barrios_disponibles:,}")

# 2. Barrios faltantes - estrategia compleja (mantener para an√°lisis)
barrios_faltantes = df_clean['l4'].isna().sum()
print(f"   Barrios: {barrios_faltantes:,} faltantes")

print(f"\n‚úÖ AN√ÅLISIS COMPLETADO - LISTO PARA IMPUTACI√ìN")

üîç AN√ÅLISIS DE VALORES FALTANTES RESTANTES
üìä ESTADO ACTUAL DE VARIABLES CR√çTICAS:
---------------------------------------------
   lat                 :  163,274 faltantes ( 58.8%)
   lon                 :  163,274 faltantes ( 58.8%)
   l4                  :  211,876 faltantes ( 76.3%)
   surface_total_final :  205,479 faltantes ( 74.0%)
   bedrooms_final      :   61,536 faltantes ( 22.1%)
   bathrooms_final     :   12,623 faltantes (  4.5%)

üéØ ESTRATEGIAS DE IMPUTACI√ìN:
-----------------------------------
   Coordenadas: 163,274 faltantes
   Barrios disponibles: 65,980
   Barrios: 211,876 faltantes

‚úÖ AN√ÅLISIS COMPLETADO - LISTO PARA IMPUTACI√ìN


## üîü **Extracci√≥n de Ubicaci√≥n por Text Mining** üåç

**Objetivo:** Extraer informaci√≥n de ubicaci√≥n (barrios, sectores, zonas) desde las descripciones

**Justificaci√≥n:** Con 211,876 registros sin barrio (l4) pero con descripciones disponibles, esta estrategia puede recuperar informaci√≥n geogr√°fica valiosa que est√° "escondida" en el texto libre.

**Estrategia:** Usar patrones espec√≠ficos para identificar menciones de barrios, sectores y zonas conocidas de Antioquia

In [35]:
# ===============================================================
# AN√ÅLISIS DE DESCRIPCIONES PARA EXTRACCI√ìN DE UBICACI√ìN
# ===============================================================

print("üåç EXTRACCI√ìN DE UBICACI√ìN POR TEXT MINING")
print("=" * 50)

# 1. Estado actual de ubicaciones
print("üìä ESTADO ACTUAL DE UBICACI√ìN:")
print("-" * 35)

total_registros = len(df_clean)
con_barrio = df_clean['l4'].notna().sum()
sin_barrio = df_clean['l4'].isna().sum()
con_descripcion = df_clean['description'].notna().sum()

print(f"Total registros: {total_registros:,}")
print(f"Con barrio (l4): {con_barrio:,} ({(con_barrio/total_registros*100):.1f}%)")
print(f"Sin barrio (l4): {sin_barrio:,} ({(sin_barrio/total_registros*100):.1f}%)")
print(f"Con descripci√≥n: {con_descripcion:,} ({(con_descripcion/total_registros*100):.1f}%)")

# 2. Candidatos para extracci√≥n: sin barrio PERO con descripci√≥n
candidatos_ubicacion = (df_clean['l4'].isna() & df_clean['description'].notna()).sum()
print(f"\nüéØ Candidatos para extracci√≥n: {candidatos_ubicacion:,}")
print(f"   (Sin barrio PERO con descripci√≥n)")

# 3. Obtener barrios conocidos para crear patrones
print(f"\nüìã BARRIOS CONOCIDOS EN EL DATASET:")
print("-" * 35)

barrios_conocidos = df_clean['l4'].dropna().unique()
print(f"Total barrios √∫nicos: {len(barrios_conocidos):,}")

# Mostrar los m√°s comunes
top_barrios = df_clean['l4'].value_counts().head(20)
print(f"\nTop 20 barrios m√°s comunes:")
for i, (barrio, count) in enumerate(top_barrios.items(), 1):
    print(f"  {i:2d}. {barrio:<30}: {count:>4,} propiedades")

üåç EXTRACCI√ìN DE UBICACI√ìN POR TEXT MINING
üìä ESTADO ACTUAL DE UBICACI√ìN:
-----------------------------------
Total registros: 277,856
Con barrio (l4): 65,980 (23.7%)
Sin barrio (l4): 211,876 (76.3%)
Con descripci√≥n: 277,597 (99.9%)

üéØ Candidatos para extracci√≥n: 211,706
   (Sin barrio PERO con descripci√≥n)

üìã BARRIOS CONOCIDOS EN EL DATASET:
-----------------------------------
Total barrios √∫nicos: 21

Top 20 barrios m√°s comunes:
   1. El Poblado                    : 21,896 propiedades
   2. Laureles                      : 11,039 propiedades
   3. Bel√©n                         : 8,897 propiedades
   4. La Am√©rica                    : 5,747 propiedades
   5. Robledo                       : 3,487 propiedades
   6. Buenos Aires                  : 3,306 propiedades
   7. Candelaria                    : 3,291 propiedades
   8. San Javier                    : 1,177 propiedades
   9. Guayabal                      : 1,036 propiedades
  10. Castilla                      : 1

In [38]:
# ===============================================================
# AN√ÅLISIS DE PATRONES EN DESCRIPCIONES
# ===============================================================

print("üîç AN√ÅLISIS DE PATRONES DE UBICACI√ìN EN DESCRIPCIONES")
print("=" * 60)

# Muestra de descripciones de registros SIN barrio para an√°lisis
sin_barrio_mask = df_clean['l4'].isna() & df_clean['description'].notna()
muestra_sin_barrio = df_clean[sin_barrio_mask]['description'].sample(15, random_state=42)

print("üìù MUESTRA DE DESCRIPCIONES SIN BARRIO:")
print("-" * 45)
for i, desc in enumerate(muestra_sin_barrio, 1):
    desc_corta = str(desc)[:120] + "..." if len(str(desc)) > 120 else str(desc)
    print(f"\n{i:2d}. {desc_corta}")

# B√∫squeda espec√≠fica de barrios conocidos en descripciones
print(f"\n\nüéØ B√öSQUEDA DE BARRIOS CONOCIDOS EN DESCRIPCIONES:")
print("-" * 55)

# AN√ÅLISIS DE CIUDADES DISPONIBLES EN EL DATASET
print(f"\nüèôÔ∏è AN√ÅLISIS DE CIUDADES DISPONIBLES:")
print("-" * 40)

# Obtener ciudades (l3) del dataset actual
ciudades_disponibles = df_clean['l3'].dropna().unique()
conteo_ciudades = df_clean['l3'].value_counts()

print(f"Total ciudades √∫nicas: {len(ciudades_disponibles)}")
print(f"\nCiudades ordenadas por cantidad de propiedades:")
for i, (ciudad, count) in enumerate(conteo_ciudades.items(), 1):
    pct = (count / len(df_clean)) * 100
    print(f"  {i:2d}. {ciudad:<25}: {count:>6,} ({pct:>5.1f}%)")

# Crear lista de ciudades para buscar (basada en el dataset real)
ciudades_buscar = list(ciudades_disponibles)
print(f"\nüéØ Lista de ciudades para extracci√≥n: {len(ciudades_buscar)} ciudades")

# Buscar cada ciudad en descripciones SIN ciudad asignada
sin_ciudad_mask = df_clean['l3'].isna() & df_clean['description'].notna()
registros_sin_ciudad = sin_ciudad_mask.sum()
print(f"üìä Registros sin ciudad (l3) pero con descripci√≥n: {registros_sin_ciudad:,}")

# Analizar una muestra m√°s peque√±a para ciudades
muestra_sin_ciudad = df_clean[sin_ciudad_mask]['description'].sample(min(50, registros_sin_ciudad), random_state=42)

encontrados_ciudades = {}
for ciudad in ciudades_buscar:
    # Patr√≥n flexible para encontrar la ciudad
    patron = rf'\b{re.escape(ciudad.lower())}\b'
    
    # Buscar en descripciones (convertir a min√∫sculas)
    matches = 0
    ejemplos = []
    
    for desc in muestra_sin_ciudad:
        if pd.notna(desc):
            desc_lower = str(desc).lower()
            if re.search(patron, desc_lower):
                matches += 1
                if len(ejemplos) < 2:  # M√°ximo 2 ejemplos
                    ejemplos.append(str(desc)[:100] + "...")
    
    if matches > 0:
        encontrados_ciudades[ciudad] = {'matches': matches, 'ejemplos': ejemplos}

# Mostrar resultados de ciudades
print(f"\nCiudades encontradas en muestra de {len(muestra_sin_ciudad)} descripciones:")
for ciudad, info in encontrados_ciudades.items():
    print(f"\n‚Ä¢ {ciudad}: {info['matches']} matches")
    for ejemplo in info['ejemplos']:
        print(f"  ‚Üí {ejemplo}")

print(f"\n‚úÖ An√°lisis de ciudades completado")
print(f"üìä Ciudades detectadas: {len(encontrados_ciudades)} de {len(ciudades_buscar)} buscadas")

üîç AN√ÅLISIS DE PATRONES DE UBICACI√ìN EN DESCRIPCIONES
üìù MUESTRA DE DESCRIPCIONES SIN BARRIO:
---------------------------------------------

 1. Codigo Inmueble 505512 Excelente casa de dos niveles, la cual cuenta con 6 habitaciones. 5 ba√±os, parqueadero doble, amp...

 2. Apto 501: 
80 mt2
Estrato 3
Dos a√±os de antiguedad
Predial (semestral): $26.800
No paga admon 
- Alcoba principal con ba...

 3. Apartamento para arriendo en Campus Reservado 
Cuenta con: 2 habitaciones, 2 ba√±os, 1 closet, 1 Vestier, calentador, sal...

 4. Codigo Inmueble 504708 Acogedora casa ubicado en un sector muy residencial con c√≥modos espacios buena distribuci√≥n y exc...

 5. Codigo Inmueble 340 Apartamento para arriendo o Venta, tercer piso, parqueadero cubierto, citofon√≠a, cerca a unicentro, ...

 6. Hermoso apartamento de 114 M2, tres habitaciones, tres ba√±os, sala comedor, cocina integral abierta, zona de ropas, vist...

 7. Codigo Inmueble 718 Arrienda apartamento 75 m2 , 3 alcobas , 2 close

In [39]:
# ===============================================================
# FUNCIONES DE EXTRACCI√ìN: CIUDAD Y BARRIO
# ===============================================================

print("üèóÔ∏è CREANDO FUNCIONES DE EXTRACCI√ìN DE UBICACI√ìN")
print("=" * 55)

def extraer_ciudad(descripcion):
    """Extrae ciudad desde descripci√≥n usando ciudades conocidas del dataset"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Lista de ciudades del dataset (en orden de frecuencia)
    ciudades_buscar = [
        'medell√≠n', 'medellin', 'envigado', 'itag√º√≠', 'itagui', 'sabaneta', 
        'bello', 'copacabana', 'la estrella', 'estrella', 'caldas', 
        'girardota', 'barbosa', 'rionegro'
    ]
    
    # Buscar cada ciudad con patrones espec√≠ficos
    for ciudad in ciudades_buscar:
        # Patr√≥n que busca la ciudad como palabra completa
        patron = rf'\b{re.escape(ciudad)}\b'
        
        if re.search(patron, desc_lower):
            # Mapear a nombre est√°ndar del dataset
            if ciudad in ['medellin', 'medell√≠n']:
                return 'Medell√≠n'
            elif ciudad in ['itagui', 'itag√º√≠']:
                return 'Itag√º√≠'
            elif ciudad in ['estrella', 'la estrella']:
                return 'La Estrella'
            else:
                return ciudad.title()
    
    return None

def extraer_barrio(descripcion):
    """Extrae barrio desde descripci√≥n usando barrios conocidos del dataset"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Lista de barrios conocidos del dataset (solo barrios reales, no ciudades)
    barrios_buscar = [
        'el poblado', 'poblado', 'laureles', 'bel√©n', 'belen', 'la am√©rica', 'america',
        'robledo', 'buenos aires', 'candelaria', 'san javier', 'guayabal', 'castilla',
        'san crist√≥bal', 'san cristobal', 'aranjuez', 'altavista', 'villa hermosa',
        'santa elena', 'san antonio de prado', 'manrique', 'doce de octubre', 
        'santa cruz', 'popular'
    ]
    
    # Buscar cada barrio con patrones espec√≠ficos
    for barrio in barrios_buscar:
        # Patr√≥n que busca el barrio como palabra completa
        patron = rf'\b{re.escape(barrio)}\b'
        
        if re.search(patron, desc_lower):
            # Mapear a nombre est√°ndar del dataset
            if barrio in ['poblado', 'el poblado']:
                return 'El Poblado'
            elif barrio in ['belen', 'bel√©n']:
                return 'Bel√©n'
            elif barrio in ['america', 'la am√©rica']:
                return 'La Am√©rica'
            elif barrio in ['san cristobal', 'san crist√≥bal']:
                return 'San Crist√≥bal'
            else:
                return barrio.title()
    
    return None

print("‚úÖ Funciones de extracci√≥n creadas")

# Probar funciones en muestra peque√±a
print(f"\nüß™ PRUEBA DE FUNCIONES DE UBICACI√ìN:")
print("-" * 40)

# Muestra para probar
muestra_test_ubicacion = df_clean['description'].dropna().sample(1000, random_state=42)

ciudades_extraidas = muestra_test_ubicacion.apply(extraer_ciudad).notna().sum()
barrios_extraidos = muestra_test_ubicacion.apply(extraer_barrio).notna().sum()

print(f"Ciudades extra√≠das: {ciudades_extraidas}/1000 ({(ciudades_extraidas/1000*100):.1f}%)")
print(f"Barrios extra√≠dos: {barrios_extraidos}/1000 ({(barrios_extraidos/1000*100):.1f}%)")

# Mostrar ejemplos de extracciones exitosas
print(f"\nüìã EJEMPLOS DE EXTRACCIONES EXITOSAS:")
print("-" * 40)

ejemplos_ciudad = muestra_test_ubicacion[muestra_test_ubicacion.apply(extraer_ciudad).notna()].head(3)
ejemplos_barrio = muestra_test_ubicacion[muestra_test_ubicacion.apply(extraer_barrio).notna()].head(3)

print("üèôÔ∏è CIUDADES:")
for i, desc in enumerate(ejemplos_ciudad, 1):
    ciudad_encontrada = extraer_ciudad(desc)
    print(f"  {i}. Ciudad: {ciudad_encontrada}")
    print(f"     Descripci√≥n: {str(desc)[:80]}...")

print("\nüèòÔ∏è BARRIOS:")
for i, desc in enumerate(ejemplos_barrio, 1):
    barrio_encontrado = extraer_barrio(desc)
    print(f"  {i}. Barrio: {barrio_encontrado}")
    print(f"     Descripci√≥n: {str(desc)[:80]}...")

print(f"\n‚úÖ PRUEBAS COMPLETADAS")

üèóÔ∏è CREANDO FUNCIONES DE EXTRACCI√ìN DE UBICACI√ìN
‚úÖ Funciones de extracci√≥n creadas

üß™ PRUEBA DE FUNCIONES DE UBICACI√ìN:
----------------------------------------
Ciudades extra√≠das: 233/1000 (23.3%)
Barrios extra√≠dos: 183/1000 (18.3%)

üìã EJEMPLOS DE EXTRACCIONES EXITOSAS:
----------------------------------------
Ciudades extra√≠das: 233/1000 (23.3%)
Barrios extra√≠dos: 183/1000 (18.3%)

üìã EJEMPLOS DE EXTRACCIONES EXITOSAS:
----------------------------------------
üèôÔ∏è CIUDADES:
  1. Ciudad: Medell√≠n
     Descripci√≥n: ¬øEst√°s buscando pent-house, con excelente ubicaci√≥n iluminacion natural y un amp...
  2. Ciudad: Itag√º√≠
     Descripci√≥n: 622-14137 Apartamento en arriendo ubicado en Itag√º√≠ sector Suram√©rica.Excelentes...
  3. Ciudad: La Estrella
     Descripci√≥n: <b>Suramerica, La Estrella, arriendo apartamento</b><br><br>Arriendo apartamento...

üèòÔ∏è BARRIOS:
  1. Barrio: Laureles
     Descripci√≥n: Codigo Inmueble 561 Casa cerca al √âxito Laureles 

In [40]:
# ===============================================================
# APLICAR EXTRACCI√ìN DE UBICACI√ìN AL DATASET COMPLETO
# ===============================================================

print("üöÄ APLICACI√ìN AL DATASET COMPLETO - UBICACI√ìN")
print("=" * 50)

# PASO 1: EXTRACCI√ìN DE CIUDADES (l3)
print("\nüèôÔ∏è EXTRACCI√ìN DE CIUDADES:")
print("-" * 35)

# Estado inicial de ciudades
ciudades_faltantes_inicial = df_clean['l3'].isna().sum()
print(f"Ciudades faltantes antes: {ciudades_faltantes_inicial:,}")

# Aplicar extracci√≥n solo a registros sin ciudad pero con descripci√≥n
mask_sin_ciudad = df_clean['l3'].isna() & df_clean['description'].notna()
candidatos_ciudad = mask_sin_ciudad.sum()
print(f"Candidatos para extracci√≥n: {candidatos_ciudad:,}")

# Extraer ciudades
extracciones_ciudad = df_clean.loc[mask_sin_ciudad, 'description'].apply(extraer_ciudad)
df_clean.loc[mask_sin_ciudad, 'l3_extracted'] = extracciones_ciudad

# Estad√≠sticas de ciudades
ciudades_extraidas = df_clean['l3_extracted'].notna().sum()
tasa_ciudad = (ciudades_extraidas / candidatos_ciudad * 100) if candidatos_ciudad > 0 else 0

print(f"‚úÖ Ciudades extra√≠das: {ciudades_extraidas:,}")
print(f"üìà Tasa de √©xito: {tasa_ciudad:.1f}%")

# PASO 2: EXTRACCI√ìN DE BARRIOS (l4)
print(f"\nüèòÔ∏è EXTRACCI√ìN DE BARRIOS:")
print("-" * 35)

# Estado inicial de barrios
barrios_faltantes_inicial = df_clean['l4'].isna().sum()
print(f"Barrios faltantes antes: {barrios_faltantes_inicial:,}")

# Aplicar extracci√≥n solo a registros sin barrio pero con descripci√≥n
mask_sin_barrio = df_clean['l4'].isna() & df_clean['description'].notna()
candidatos_barrio = mask_sin_barrio.sum()
print(f"Candidatos para extracci√≥n: {candidatos_barrio:,}")

# Extraer barrios
extracciones_barrio = df_clean.loc[mask_sin_barrio, 'description'].apply(extraer_barrio)
df_clean.loc[mask_sin_barrio, 'l4_extracted'] = extracciones_barrio

# Estad√≠sticas de barrios
barrios_extraidos = df_clean['l4_extracted'].notna().sum()
tasa_barrio = (barrios_extraidos / candidatos_barrio * 100) if candidatos_barrio > 0 else 0

print(f"‚úÖ Barrios extra√≠dos: {barrios_extraidos:,}")
print(f"üìà Tasa de √©xito: {tasa_barrio:.1f}%")

# PASO 3: INTEGRACI√ìN DE UBICACIONES
print(f"\nüîó INTEGRACI√ìN DE UBICACIONES:")
print("-" * 35)

# Integrar ciudades: usar original si existe, sino usar extra√≠da
df_clean['l3_final'] = df_clean['l3'].fillna(df_clean['l3_extracted'])

# Integrar barrios: usar original si existe, sino usar extra√≠da  
df_clean['l4_final'] = df_clean['l4'].fillna(df_clean['l4_extracted'])

# Estad√≠sticas finales
ciudades_final = df_clean['l3_final'].notna().sum()
barrios_final = df_clean['l4_final'].notna().sum()

ciudades_completadas = ciudades_final - (len(df_clean) - ciudades_faltantes_inicial)
barrios_completados = barrios_final - (len(df_clean) - barrios_faltantes_inicial)

print(f"üìä RESULTADOS FINALES:")
print("-" * 25)
print(f"Ciudades completadas: {ciudades_completadas:,}")
print(f"Barrios completados: {barrios_completados:,}")

# Mostrar distribuci√≥n de ciudades y barrios extra√≠dos
print(f"\nüìã DISTRIBUCI√ìN DE EXTRACCIONES:")
print("-" * 35)

if 'l3_extracted' in df_clean.columns:
    print("üèôÔ∏è Ciudades extra√≠das:")
    ciudades_extraidas_dist = df_clean['l3_extracted'].value_counts().head(10)
    for ciudad, count in ciudades_extraidas_dist.items():
        print(f"   {ciudad:<20}: {count:>4,}")

if 'l4_extracted' in df_clean.columns:
    print("\nüèòÔ∏è Barrios extra√≠dos:")
    barrios_extraidos_dist = df_clean['l4_extracted'].value_counts().head(10)
    for barrio, count in barrios_extraidos_dist.items():
        print(f"   {barrio:<20}: {count:>4,}")

print(f"\nüéØ TOTAL UBICACIONES RECUPERADAS: {ciudades_extraidas + barrios_extraidos:,}")
print(f"üèÜ Extracci√≥n de ubicaci√≥n: COMPLETADA")

üöÄ APLICACI√ìN AL DATASET COMPLETO - UBICACI√ìN

üèôÔ∏è EXTRACCI√ìN DE CIUDADES:
-----------------------------------
Ciudades faltantes antes: 3,689
Candidatos para extracci√≥n: 3,649
‚úÖ Ciudades extra√≠das: 1,019
üìà Tasa de √©xito: 27.9%

üèòÔ∏è EXTRACCI√ìN DE BARRIOS:
-----------------------------------
Barrios faltantes antes: 211,876
Candidatos para extracci√≥n: 211,706
‚úÖ Ciudades extra√≠das: 1,019
üìà Tasa de √©xito: 27.9%

üèòÔ∏è EXTRACCI√ìN DE BARRIOS:
-----------------------------------
Barrios faltantes antes: 211,876
Candidatos para extracci√≥n: 211,706
‚úÖ Barrios extra√≠dos: 25,775
üìà Tasa de √©xito: 12.2%

üîó INTEGRACI√ìN DE UBICACIONES:
-----------------------------------
üìä RESULTADOS FINALES:
-------------------------
Ciudades completadas: 1,019
Barrios completados: 25,775

üìã DISTRIBUCI√ìN DE EXTRACCIONES:
-----------------------------------
üèôÔ∏è Ciudades extra√≠das:
   Rionegro            :  516
   Medell√≠n            :  445
   Envigado         

In [41]:
# ===============================================================
# VALIDACI√ìN Y RESUMEN DE EXTRACCI√ìN DE UBICACI√ìN
# ===============================================================

print("üîç VALIDACI√ìN DE EXTRACCI√ìN DE UBICACI√ìN")
print("=" * 50)

# 1. Comparar estado antes vs despu√©s
print("üìä COMPARACI√ìN ANTES vs DESPU√âS:")
print("-" * 35)

# Ciudades
ciudad_antes = df_clean['l3'].notna().sum()
ciudad_despues = df_clean['l3_final'].notna().sum()
mejora_ciudad = ciudad_despues - ciudad_antes

print(f"üèôÔ∏è CIUDADES:")
print(f"   Antes: {ciudad_antes:,}")
print(f"   Despu√©s: {ciudad_despues:,}")
print(f"   Mejora: +{mejora_ciudad:,} ({(mejora_ciudad/len(df_clean)*100):.1f}%)")

# Barrios  
barrio_antes = df_clean['l4'].notna().sum()
barrio_despues = df_clean['l4_final'].notna().sum()
mejora_barrio = barrio_despues - barrio_antes

print(f"\nüèòÔ∏è BARRIOS:")
print(f"   Antes: {barrio_antes:,}")
print(f"   Despu√©s: {barrio_despues:,}")
print(f"   Mejora: +{mejora_barrio:,} ({(mejora_barrio/len(df_clean)*100):.1f}%)")

# 2. Impacto en coordenadas faltantes
print(f"\nüó∫Ô∏è IMPACTO EN COORDENADAS:")
print("-" * 30)

# Recalcular potencial de imputaci√≥n de coordenadas
coords_faltantes = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
barrios_disponibles_ahora = df_clean['l4_final'].notna().sum()

# Casos donde ahora PODR√çAMOS imputar coordenadas
sin_coords_con_barrio_ahora = (
    df_clean[['lat', 'lon']].isna().any(axis=1) & 
    df_clean['l4_final'].notna()
).sum()

print(f"Coordenadas faltantes: {coords_faltantes:,}")
print(f"Barrios disponibles ahora: {barrios_disponibles_ahora:,}")
print(f"üéØ Casos para imputar coords: {sin_coords_con_barrio_ahora:,}")

# 3. Muestra de casos exitosos
print(f"\nüìã MUESTRA DE CASOS EXITOSOS:")
print("-" * 35)

# Casos donde se recuper√≥ barrio
casos_barrio_recuperado = df_clean[
    df_clean['l4'].isna() & 
    df_clean['l4_extracted'].notna()
][['description', 'l4_extracted']].head(5)

print("üèòÔ∏è Barrios recuperados:")
for idx, row in casos_barrio_recuperado.iterrows():
    desc = str(row['description'])[:80] + "..."
    barrio = row['l4_extracted']
    print(f"   ‚Üí {barrio}: {desc}")

# Casos donde se recuper√≥ ciudad
casos_ciudad_recuperada = df_clean[
    df_clean['l3'].isna() & 
    df_clean['l3_extracted'].notna()
][['description', 'l3_extracted']].head(3)

print(f"\nüèôÔ∏è Ciudades recuperadas:")
for idx, row in casos_ciudad_recuperada.iterrows():
    desc = str(row['description'])[:80] + "..."
    ciudad = row['l3_extracted']
    print(f"   ‚Üí {ciudad}: {desc}")

print(f"\n‚úÖ VALIDACI√ìN COMPLETADA")
print(f"üèÜ EXTRACCI√ìN DE UBICACI√ìN: √âXITO TOTAL")
print(f"üíé Innovaci√≥n de Text Mining: {mejora_ciudad + mejora_barrio:,} ubicaciones recuperadas")

üîç VALIDACI√ìN DE EXTRACCI√ìN DE UBICACI√ìN
üìä COMPARACI√ìN ANTES vs DESPU√âS:
-----------------------------------
üèôÔ∏è CIUDADES:
   Antes: 274,167
   Despu√©s: 275,186
   Mejora: +1,019 (0.4%)

üèòÔ∏è BARRIOS:
   Antes: 65,980
   Despu√©s: 91,755
   Mejora: +25,775 (9.3%)

üó∫Ô∏è IMPACTO EN COORDENADAS:
------------------------------
Coordenadas faltantes: 162,173
Barrios disponibles ahora: 91,755
üéØ Casos para imputar coords: 22,395

üìã MUESTRA DE CASOS EXITOSOS:
-----------------------------------
üèòÔ∏è Barrios recuperados:
   ‚Üí El Poblado: Codigo Inmueble 5980 Hermosa casa para alquilar en zona residencial de Medellin,...
   ‚Üí Bel√©n: Codigo Inmueble 502031 CASA EN VENTA EN EL SECTOR DE BEL√âN FATIMA CON 4 ALCOBAS,...
   ‚Üí Laureles: Codigo Inmueble 561 Casa cerca al √âxito Laureles amplios espacios con muy buenas...
   ‚Üí Laureles: Codigo Inmueble 608 Se vende casa en Laureles Almeria 120 mts. Sala comedor + ba...
   ‚Üí Laureles: Codigo Inmueble 561 Casa cerc

In [42]:
# ===============================================================
# AN√ÅLISIS DEL CAMPO TITLE PARA EXTRACCI√ìN DE BARRIOS
# ===============================================================

print("üì∞ AN√ÅLISIS DEL CAMPO TITLE PARA BARRIOS")
print("=" * 50)

# 1. Estado del campo title
print("üìä ESTADO DEL CAMPO TITLE:")
print("-" * 30)

title_disponible = df_clean['title'].notna().sum()
title_faltante = df_clean['title'].isna().sum()
total = len(df_clean)

print(f"Total registros: {total:,}")
print(f"Con title: {title_disponible:,} ({(title_disponible/total*100):.1f}%)")
print(f"Sin title: {title_faltante:,} ({(title_faltante/total*100):.1f}%)")

# 2. Candidatos para extracci√≥n desde title
candidatos_title = (
    df_clean['l4_final'].isna() & 
    df_clean['title'].notna()
).sum()

print(f"\nüéØ Candidatos title (sin barrio pero con title): {candidatos_title:,}")

# 3. Muestra de t√≠tulos para an√°lisis
print(f"\nüìù MUESTRA DE T√çTULOS SIN BARRIO:")
print("-" * 35)

sin_barrio_con_title = df_clean[
    df_clean['l4_final'].isna() & 
    df_clean['title'].notna()
]['title'].sample(15, random_state=42)

for i, title in enumerate(sin_barrio_con_title, 1):
    title_corto = str(title)[:80] + "..." if len(str(title)) > 80 else str(title)
    print(f"\n{i:2d}. {title_corto}")

# 4. B√∫squeda de barrios en t√≠tulos
print(f"\n\nüîç B√öSQUEDA DE BARRIOS EN T√çTULOS:")
print("-" * 40)

# Lista de barrios conocidos (misma que usamos antes)
barrios_buscar_title = [
    'el poblado', 'poblado', 'laureles', 'bel√©n', 'belen', 'la am√©rica', 'america',
    'robledo', 'buenos aires', 'candelaria', 'san javier', 'guayabal', 'castilla',
    'san crist√≥bal', 'san cristobal', 'aranjuez', 'altavista', 'villa hermosa',
    'santa elena', 'san antonio de prado', 'manrique', 'doce de octubre', 
    'santa cruz', 'popular'
]

encontrados_title = {}
for barrio in barrios_buscar_title:
    # Patr√≥n flexible para encontrar el barrio en t√≠tulo
    patron = rf'\b{re.escape(barrio)}\b'
    
    # Buscar en t√≠tulos SIN barrio
    matches = 0
    ejemplos = []
    
    for title in sin_barrio_con_title:
        if pd.notna(title):
            title_lower = str(title).lower()
            if re.search(patron, title_lower):
                matches += 1
                if len(ejemplos) < 2:  # M√°ximo 2 ejemplos
                    ejemplos.append(str(title)[:60] + "...")
    
    if matches > 0:
        encontrados_title[barrio] = {'matches': matches, 'ejemplos': ejemplos}

# Mostrar resultados
print(f"Barrios encontrados en muestra de {len(sin_barrio_con_title)} t√≠tulos:")
for barrio, info in encontrados_title.items():
    print(f"\n‚Ä¢ {barrio}: {info['matches']} matches")
    for ejemplo in info['ejemplos']:
        print(f"  ‚Üí {ejemplo}")

print(f"\n‚úÖ An√°lisis de t√≠tulos completado")
print(f"üìä Barrios detectados en titles: {len(encontrados_title)} de {len(barrios_buscar_title)} buscados")

üì∞ AN√ÅLISIS DEL CAMPO TITLE PARA BARRIOS
üìä ESTADO DEL CAMPO TITLE:
------------------------------
Total registros: 277,856
Con title: 277,855 (100.0%)
Sin title: 1 (0.0%)

üéØ Candidatos title (sin barrio pero con title): 186,100

üìù MUESTRA DE T√çTULOS SIN BARRIO:
-----------------------------------

 1. VENDO APARTAMENTO AVES MARIAS SABANETA COD. 900871

 2. Apartamento en Venta Ubicado en MEDELLIN

 3. Apartamento en Arriendo Ubicado en SABANETA

 4. Apartamento en Arriendo Ubicado en MEDELLIN

 5. PR 12140 SE ARRIENDA APARTAMENTO EN SECTOR JARDINES _ ENVIGADO

 6. APARTAMENTO VENTA EL RETIRO ANTIOQUIA COD: 15101 _ wasi1260235

 7. Casa en Venta Ubicado en MEDELLIN

 8. Apartamento en Arriendo Ubicado en MEDELLIN

 9. Apartamento en Arriendo Ubicado en SABANETA

10. Loma del Escobero, venta apartamento

11. Casa en venta 90m2 Niquia Bello

12. Apartamento en Venta Ubicado en MEDELLIN

13. Apartamento en Arriendo Ubicado en RIONEGRO

14. Apartamento en arriendo en Rionegro (

In [43]:
# ===============================================================
# FUNCI√ìN DE EXTRACCI√ìN DESDE TITLES (CIUDADES Y SECTORES)
# ===============================================================

print("üîß CREANDO FUNCI√ìN DE EXTRACCI√ìN DESDE TITLES")
print("=" * 50)

def extraer_ciudad_desde_title(title):
    """Extrae ciudad desde title usando patrones espec√≠ficos"""
    if pd.isna(title):
        return None
    
    title_lower = str(title).lower()
    
    # Ciudades del √°rea metropolitana
    ciudades_title = [
        'medell√≠n', 'medellin', 'envigado', 'itag√º√≠', 'itagui', 'sabaneta', 
        'bello', 'copacabana', 'la estrella', 'estrella', 'caldas', 
        'girardota', 'barbosa', 'rionegro'
    ]
    
    for ciudad in ciudades_title:
        patron = rf'\b{re.escape(ciudad)}\b'
        if re.search(patron, title_lower):
            # Mapear a nombre est√°ndar
            if ciudad in ['medellin', 'medell√≠n']:
                return 'Medell√≠n'
            elif ciudad in ['itagui', 'itag√º√≠']:
                return 'Itag√º√≠'
            elif ciudad in ['estrella', 'la estrella']:
                return 'La Estrella'
            else:
                return ciudad.title()
    
    return None

def extraer_barrio_desde_title(title):
    """Extrae barrio/sector desde title con patrones espec√≠ficos"""
    if pd.isna(title):
        return None
    
    title_lower = str(title).lower()
    
    # Barrios y sectores comunes en titles
    ubicaciones_title = [
        # Barrios conocidos
        'el poblado', 'poblado', 'laureles', 'bel√©n', 'belen', 'la am√©rica', 'america',
        'robledo', 'buenos aires', 'candelaria', 'san javier', 'guayabal', 'castilla',
        'san crist√≥bal', 'san cristobal', 'aranjuez', 'altavista', 'villa hermosa',
        'santa elena', 'san antonio de prado', 'manrique', 'doce de octubre', 
        'santa cruz', 'popular',
        # Sectores espec√≠ficos que aparecen en titles
        'jardines', 'niquia', 'aves marias', 'loma del escobero', 'la rochela',
        'suram√©rica', 'suramerica', 'estadio', 'centro', 'boston', 'manila'
    ]
    
    for ubicacion in ubicaciones_title:
        patron = rf'\b{re.escape(ubicacion)}\b'
        if re.search(patron, title_lower):
            # Mapear a nombre est√°ndar
            if ubicacion in ['poblado', 'el poblado']:
                return 'El Poblado'
            elif ubicacion in ['belen', 'bel√©n']:
                return 'Bel√©n'
            elif ubicacion in ['america', 'la am√©rica']:
                return 'La Am√©rica'
            elif ubicacion in ['san cristobal', 'san crist√≥bal']:
                return 'San Crist√≥bal'
            elif ubicacion in ['suramerica', 'suram√©rica']:
                return 'Suram√©rica'
            else:
                return ubicacion.title()
    
    return None

print("‚úÖ Funciones de extracci√≥n desde title creadas")

# Probar funciones en muestra
print(f"\nüß™ PRUEBA EN MUESTRA DE T√çTULOS:")
print("-" * 35)

muestra_titles = df_clean['title'].dropna().sample(1000, random_state=42)

ciudades_title = muestra_titles.apply(extraer_ciudad_desde_title).notna().sum()
barrios_title = muestra_titles.apply(extraer_barrio_desde_title).notna().sum()

print(f"Ciudades desde title: {ciudades_title}/1000 ({(ciudades_title/1000*100):.1f}%)")
print(f"Barrios desde title: {barrios_title}/1000 ({(barrios_title/1000*100):.1f}%)")

# Ejemplos exitosos
print(f"\nüìã EJEMPLOS EXITOSOS DESDE TITLES:")
print("-" * 40)

ejemplos_ciudad_title = muestra_titles[muestra_titles.apply(extraer_ciudad_desde_title).notna()].head(3)
ejemplos_barrio_title = muestra_titles[muestra_titles.apply(extraer_barrio_desde_title).notna()].head(3)

print("üèôÔ∏è CIUDADES DESDE TITLE:")
for i, title in enumerate(ejemplos_ciudad_title, 1):
    ciudad = extraer_ciudad_desde_title(title)
    print(f"  {i}. {ciudad} ‚Üê {str(title)[:60]}...")

print("\nüèòÔ∏è BARRIOS/SECTORES DESDE TITLE:")
for i, title in enumerate(ejemplos_barrio_title, 1):
    barrio = extraer_barrio_desde_title(title)
    print(f"  {i}. {barrio} ‚Üê {str(title)[:60]}...")

print(f"\n‚úÖ PRUEBAS COMPLETADAS")

üîß CREANDO FUNCI√ìN DE EXTRACCI√ìN DESDE TITLES
‚úÖ Funciones de extracci√≥n desde title creadas

üß™ PRUEBA EN MUESTRA DE T√çTULOS:
-----------------------------------
Ciudades desde title: 849/1000 (84.9%)
Barrios desde title: 129/1000 (12.9%)

üìã EJEMPLOS EXITOSOS DESDE TITLES:
----------------------------------------
üèôÔ∏è CIUDADES DESDE TITLE:
  1. Medell√≠n ‚Üê Apartamento en Venta Ubicado en MEDELLIN...
  2. Medell√≠n ‚Üê APARTAMENTO EN ARRIENDO, MEDELLIN-LOMA DE LOS BERNAL...
  3. Medell√≠n ‚Üê Apartamento en Arriendo Ubicado en MEDELLIN...

üèòÔ∏è BARRIOS/SECTORES DESDE TITLE:
  1. El Poblado ‚Üê SE ARRIENDA APARTAESTUDIO EN SANTA MARIA DE LOS ANGELES , PO...
  2. El Poblado ‚Üê APARTAMENTO EN ARRIENDO, MEDELLIN-POBLADO...
  3. Estadio ‚Üê Apartamento en venta Estadio 106 mt¬≤ Exito Colombia...

‚úÖ PRUEBAS COMPLETADAS
üèôÔ∏è CIUDADES DESDE TITLE:
  1. Medell√≠n ‚Üê Apartamento en Venta Ubicado en MEDELLIN...
  2. Medell√≠n ‚Üê APARTAMENTO EN ARRIENDO, MEDELLIN-LOMA D

In [45]:
# ===============================================================
# APLICACI√ìN DE EXTRACCI√ìN DESDE TITLES AL DATASET COMPLETO
# ===============================================================

print("üöÄ EXTRACCI√ìN DESDE TITLES - DATASET COMPLETO")
print("=" * 55)

# PASO 1: EXTRACCI√ìN ADICIONAL DE CIUDADES DESDE TITLES
print("\nüèôÔ∏è EXTRACCI√ìN ADICIONAL DE CIUDADES DESDE TITLES:")
print("-" * 55)

# Buscar registros que NO tienen ciudad pero S√ç tienen title
mask_sin_ciudad_con_title = (
    df_clean['l3_final'].isna() & 
    df_clean['title'].notna()
)

candidatos_ciudad_title = mask_sin_ciudad_con_title.sum()
print(f"Candidatos ciudad desde title: {candidatos_ciudad_title:,}")

if candidatos_ciudad_title > 0:
    # Extraer ciudades desde title
    extracciones_ciudad_title = df_clean.loc[mask_sin_ciudad_con_title, 'title'].apply(extraer_ciudad_desde_title)
    df_clean.loc[mask_sin_ciudad_con_title, 'l3_title_extracted'] = extracciones_ciudad_title
    
    ciudades_title_extraidas = df_clean['l3_title_extracted'].notna().sum()
    tasa_ciudad_title = (ciudades_title_extraidas / candidatos_ciudad_title * 100) if candidatos_ciudad_title > 0 else 0
    
    print(f"‚úÖ Ciudades extra√≠das desde title: {ciudades_title_extraidas:,}")
    print(f"üìà Tasa de √©xito: {tasa_ciudad_title:.1f}%")
    
    # Integrar ciudades desde title
    df_clean['l3_final'] = df_clean['l3_final'].fillna(df_clean['l3_title_extracted'])
else:
    print("No hay candidatos adicionales para ciudades desde title")
    ciudades_title_extraidas = 0

# PASO 2: EXTRACCI√ìN ADICIONAL DE BARRIOS DESDE TITLES
print(f"\nüèòÔ∏è EXTRACCI√ìN ADICIONAL DE BARRIOS DESDE TITLES:")
print("-" * 55)

# Buscar registros que NO tienen barrio pero S√ç tienen title
mask_sin_barrio_con_title = (
    df_clean['l4_final'].isna() & 
    df_clean['title'].notna()
)

candidatos_barrio_title = mask_sin_barrio_con_title.sum()
print(f"Candidatos barrio desde title: {candidatos_barrio_title:,}")

# Extraer barrios desde title
extracciones_barrio_title = df_clean.loc[mask_sin_barrio_con_title, 'title'].apply(extraer_barrio_desde_title)
df_clean.loc[mask_sin_barrio_con_title, 'l4_title_extracted'] = extracciones_barrio_title

barrios_title_extraidos = df_clean['l4_title_extracted'].notna().sum()
tasa_barrio_title = (barrios_title_extraidos / candidatos_barrio_title * 100) if candidatos_barrio_title > 0 else 0

print(f"‚úÖ Barrios extra√≠dos desde title: {barrios_title_extraidos:,}")
print(f"üìà Tasa de √©xito: {tasa_barrio_title:.1f}%")

# Integrar barrios desde title
df_clean['l4_final'] = df_clean['l4_final'].fillna(df_clean['l4_title_extracted'])

# PASO 3: RESUMEN FINAL DE EXTRACCI√ìN DESDE TITLES
print(f"\nüìä RESUMEN FINAL - EXTRACCI√ìN DESDE TITLES:")
print("-" * 50)

print(f"üèôÔ∏è Ciudades adicionales desde title: {ciudades_title_extraidas:,}")
print(f"üèòÔ∏è Barrios adicionales desde title: {barrios_title_extraidos:,}")
print(f"üéØ Total ubicaciones desde title: {ciudades_title_extraidas + barrios_title_extraidos:,}")

# Estado final de ubicaciones
ciudades_finales = df_clean['l3_final'].notna().sum()
barrios_finales = df_clean['l4_final'].notna().sum()

print(f"\nüìà ESTADO FINAL DE UBICACIONES:")
print("-" * 35)
print(f"Ciudades finales: {ciudades_finales:,}")
print(f"Barrios finales: {barrios_finales:,}")

# Distribuci√≥n de extracciones desde title
if 'l4_title_extracted' in df_clean.columns:
    print(f"\nüìã TOP BARRIOS EXTRA√çDOS DESDE TITLE:")
    print("-" * 40)
    top_barrios_title = df_clean['l4_title_extracted'].value_counts().head(10)
    for barrio, count in top_barrios_title.items():
        print(f"   {barrio:<20}: {count:>4,}")

if 'l3_title_extracted' in df_clean.columns:
    print(f"\nüìã TOP CIUDADES EXTRA√çDAS DESDE TITLE:")
    print("-" * 40)
    top_ciudades_title = df_clean['l3_title_extracted'].value_counts().head(10)
    for ciudad, count in top_ciudades_title.items():
        print(f"   {ciudad:<20}: {count:>4,}")

# Nuevo potencial de imputaci√≥n de coordenadas
coords_faltantes_final = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
barrios_disponibles_final = df_clean['l4_final'].notna().sum()

sin_coords_con_barrio_final = (
    df_clean[['lat', 'lon']].isna().any(axis=1) & 
    df_clean['l4_final'].notna()
).sum()

print(f"\nüó∫Ô∏è IMPACTO FINAL EN COORDENADAS:")
print("-" * 35)
print(f"Coordenadas faltantes: {coords_faltantes_final:,}")
print(f"Barrios disponibles: {barrios_disponibles_final:,}")
print(f"üéØ Casos para imputar coords: {sin_coords_con_barrio_final:,}")

print(f"\nüèÜ EXTRACCI√ìN DESDE TITLES: COMPLETADA")
print(f"üíé Total innovaci√≥n text mining: Description + Title")

üöÄ EXTRACCI√ìN DESDE TITLES - DATASET COMPLETO

üèôÔ∏è EXTRACCI√ìN ADICIONAL DE CIUDADES DESDE TITLES:
-------------------------------------------------------
Candidatos ciudad desde title: 2,347
‚úÖ Ciudades extra√≠das desde title: 322
üìà Tasa de √©xito: 13.7%

üèòÔ∏è EXTRACCI√ìN ADICIONAL DE BARRIOS DESDE TITLES:
-------------------------------------------------------
Candidatos barrio desde title: 179,623
‚úÖ Barrios extra√≠dos desde title: 6,477
üìà Tasa de √©xito: 3.6%

üìä RESUMEN FINAL - EXTRACCI√ìN DESDE TITLES:
--------------------------------------------------
üèôÔ∏è Ciudades adicionales desde title: 322
üèòÔ∏è Barrios adicionales desde title: 6,477
üéØ Total ubicaciones desde title: 6,799

üìà ESTADO FINAL DE UBICACIONES:
-----------------------------------
Ciudades finales: 275,508
Barrios finales: 98,232

üìã TOP BARRIOS EXTRA√çDOS DESDE TITLE:
----------------------------------------
   Suram√©rica          : 1,321
   El Poblado          : 1,314
   Niquia    