

### **üìã Estructura del An√°lisis**
1. **Carga y Configuraci√≥n Inicial**
2. **Filtrado Geogr√°fico (Antioquia)**  
3. **Evaluaci√≥n de Calidad de Datos**
4. **Limpieza de Precios Inv√°lidos**
5. **Validaci√≥n y Correcci√≥n Geogr√°fica**
6. **Filtrado por Tipo de Propiedad**
7. **An√°lisis de Valores Faltantes**
8. **Text Mining de Descripciones**
9. **Estrategia de Integraci√≥n de Datos**
10. **An√°lisis de Variables de Superficie**
11. **Tratamiento Final de Valores Faltantes**
12. **Validaci√≥n y Resumen Final**

---

*Desarrollado como parte del an√°lisis de mercado inmobiliario de Antioquia*

## 1Ô∏è‚É£ **Carga y Configuraci√≥n Inicial**

### **üéØ Objetivo de Esta Secci√≥n**
Establecer el entorno de trabajo y cargar el dataset inicial de propiedades inmobiliarias colombianas.

### **üìö Justificaci√≥n de Librer√≠as**
- `pandas`: Manipulaci√≥n eficiente de datasets grandes
- `numpy`: Operaciones num√©ricas optimizadas  
- `matplotlib/seaborn`: Visualizaci√≥n de patrones de datos
- `re`: Text mining de descripciones (procesamiento de lenguaje natural)
- `sqlalchemy`: Conexi√≥n a base de datos PostgreSQL (opcional)

In [1]:
# ===============================================================
# IMPORTACI√ìN DE LIBRER√çAS ESENCIALES
# ===============================================================

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import warnings

# Configuraci√≥n para optimizar visualizaci√≥n
plt.style.use('default')
sns.set_palette("husl")
warnings.filterwarnings('ignore')

# Configuraci√≥n de pandas para mejor visualizaci√≥n
pd.set_option('display.max_columns', None)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 100)

print("‚úÖ Librer√≠as importadas exitosamente")
print("‚úÖ Configuraci√≥n de visualizaci√≥n establecida")

‚úÖ Librer√≠as importadas exitosamente
‚úÖ Configuraci√≥n de visualizaci√≥n establecida


In [2]:
# ===============================================================
# CARGA DEL DATASET INICIAL
# ===============================================================

# Ruta al archivo CSV con datos de propiedades colombianas
csv_path = "../data/co_properties.csv"

# Cargar dataset completo
df_original = pd.read_csv(csv_path)

# Informaci√≥n b√°sica del dataset
print("üè† DATASET CARGADO: Propiedades Inmobiliarias Colombia")
print("=" * 55)
print(f"üìä Dimensiones: {df_original.shape}")
print(f"üìã Registros: {df_original.shape[0]:,}")
print(f"üìã Variables: {df_original.shape[1]}")
print(f"üíæ Tama√±o en memoria: {df_original.memory_usage(deep=True).sum() / 1024**2:.1f} MB")

# Vista previa de primeras filas
print(f"\nüìã PRIMERAS 3 FILAS:")
df_original.head(3)

üè† DATASET CARGADO: Propiedades Inmobiliarias Colombia
üìä Dimensiones: (1000000, 25)
üìã Registros: 1,000,000
üìã Variables: 25
üíæ Tama√±o en memoria: 1482.7 MB

üìã PRIMERAS 3 FILAS:


Unnamed: 0,id,ad_type,start_date,end_date,created_on,lat,lon,l1,l2,l3,l4,l5,l6,rooms,bedrooms,bathrooms,surface_total,surface_covered,price,currency,price_period,title,description,property_type,operation_type
0,KsjahK62rxcYKXXQjOdkqw==,Propiedad,2020-10-07,2021-10-09,2020-10-07,3.921,-76.506,Colombia,Valle del Cauca,,,,,,6.0,7.0,,,1300000000.0,COP,,Casa Campestre en venta en darien 3469064,"HERMOSA CASA CAMPESTRE, &Aacute;REA 6,000 MT, UBICADA EN LA VIA BUGA - BUENAVENTURA, EN PARCELAC...",Casa,Venta
1,Y+gsBZYq1zu5NoR3V5oUGA==,Propiedad,2020-10-07,2021-01-06,2020-10-07,3.3577,-76.541811,Colombia,Valle del Cauca,Cali,Ciudad Jard√≠n,,,,,7.0,,,2800000000.0,COP,,Casa en ciudsd jardin,Casa independiente con posiciona en ciudad jard√≠n y hermosos jardines. La casa s eve de amoblada...,Casa,Venta
2,Jpzqxj8/Vgf3Aa5ASxUBNg==,Propiedad,2020-10-07,2020-10-07,2020-10-07,3.3577,-76.541811,Colombia,Valle del Cauca,Cali,Ciudad Jard√≠n,,,,,7.0,,,2800000000.0,COP,Mensual,Casa en ciudsd jardin,Casa independiente con posiciona en ciudad jard√≠n y hermosos jardines. Amo la casa al\nSur se la...,Casa,Venta


## 2Ô∏è‚É£ **Filtrado Geogr√°fico: Enfoque en Antioquia**



In [4]:
# ===============================================================
# FILTRADO GEOGR√ÅFICO: ANTIOQUIA CON AN√ÅLISIS COMPLETO
# ===============================================================


# 2. Filtrar √∫nicamente Antioquia  
df_antioquia = df_original[df_original['l2'] == 'Antioquia'].copy()
df_antioquia = df_antioquia.drop(columns=['id'])  # Eliminar columna 'id'

df_antioquia.to_csv('../data/properties_antioquia.csv', index=False)

# 3. Resumen del filtrado geogr√°fico
print(f"\n‚úÖ RESULTADO DEL FILTRADO GEOGR√ÅFICO:")
print("=" * 45)
print(f"üìä Dataset original: {len(df_original):,} propiedades")
print(f"üìä Dataset Antioquia: {len(df_antioquia):,} propiedades") 
print(f"üìà Porcentaje conservado: {(len(df_antioquia)/len(df_original)*100):.1f}%")
print(f"üìç Enfoque regional: Departamento de Antioquia √∫nicamente")




‚úÖ RESULTADO DEL FILTRADO GEOGR√ÅFICO:
üìä Dataset original: 1,000,000 propiedades
üìä Dataset Antioquia: 341,453 propiedades
üìà Porcentaje conservado: 34.1%
üìç Enfoque regional: Departamento de Antioquia √∫nicamente


## 3Ô∏è‚É£ **Evaluaci√≥n de Calidad de Datos**

### **üéØ Objetivo**
Identificar problemas de calidad que afecten el modelo de predicci√≥n de precios.

### **üîç Estrategia**
1. **Valores faltantes** por variable
2. **Registros duplicados** completos
3. **Rangos l√≥gicos** en variables num√©ricas
4. **Consistencia** en variables categ√≥ricas

In [5]:
# ===============================================================
# EVALUACI√ìN R√ÅPIDA DE CALIDAD DE DATOS
# ===============================================================

print("üîç EVALUACI√ìN DE CALIDAD - DATASET ANTIOQUIA")
print("=" * 50)

# 1. Informaci√≥n b√°sica
print(f"üìä Dimensiones: {df_antioquia.shape}")
print(f"üìä Tipos de datos:")
print(df_antioquia.dtypes.value_counts())

# 2. Valores faltantes cr√≠ticos
print(f"\nüö® VALORES FALTANTES (Top 10):")
missing = df_antioquia.isnull().sum()
missing_pct = (missing / len(df_antioquia)) * 100
missing_top = missing[missing > 0].sort_values(ascending=False).head(10)

for col, count in missing_top.items():
    pct = missing_pct[col]
    print(f"   {col:<20}: {count:>8,} ({pct:>5.1f}%)")

# 3. Duplicados
duplicados = df_antioquia.duplicated().sum()
print(f"\nüìã REGISTROS DUPLICADOS: {duplicados:,}")

# 4. Problemas en variables clave
print(f"\n‚ö†Ô∏è PROBLEMAS DETECTADOS:")

# Precios inv√°lidos
precios_invalidos = (df_antioquia['price'] <= 0).sum()
print(f"   ‚Ä¢ Precios ‚â§ 0: {precios_invalidos:,}")



üîç EVALUACI√ìN DE CALIDAD - DATASET ANTIOQUIA
üìä Dimensiones: (341453, 24)
üìä Tipos de datos:
object     16
float64     8
Name: count, dtype: int64

üö® VALORES FALTANTES (Top 10):
   l6                  :  341,453 (100.0%)
   l5                  :  341,453 (100.0%)
   surface_total       :  334,859 ( 98.1%)
   surface_covered     :  334,412 ( 97.9%)
   price_period        :  314,524 ( 92.1%)
   rooms               :  305,597 ( 89.5%)
   l4                  :  262,728 ( 76.9%)
   bedrooms            :  261,106 ( 76.5%)
   lat                 :  196,750 ( 57.6%)
   lon                 :  196,750 ( 57.6%)

üìã REGISTROS DUPLICADOS: 924

‚ö†Ô∏è PROBLEMAS DETECTADOS:
   ‚Ä¢ Precios ‚â§ 0: 7


## **Eliminamos la columna l5 y l6**


In [6]:
df_antioquia.drop(['l5', 'l6'], axis=1, inplace=True)

In [7]:
# ===============================================================
# ELIMINAR PRECIOS INV√ÅLIDOS Y FILTRAR POR MONEDA
# ===============================================================

print("üí∞ AN√ÅLISIS DE MONEDA Y LIMPIEZA DE PRECIOS")
print("=" * 50)

inicial = len(df_antioquia)
print(f"üìä Dataset inicial: {inicial:,} registros")

# PASO 1: Verificar existencia y contenido de la columna currency
print(f"\nüîç PASO 1: AN√ÅLISIS DE LA COLUMNA 'currency'")
print("-" * 45)

if 'currency' in df_antioquia.columns:
    print("‚úÖ Columna 'currency' encontrada")
    
    # Verificar valores faltantes
    currency_nulos = df_antioquia['currency'].isna().sum()
    currency_completitud = ((len(df_antioquia) - currency_nulos) / len(df_antioquia)) * 100
    
    print(f"üìä Datos faltantes: {currency_nulos:,} ({100-currency_completitud:.1f}%)")
    print(f"üìä Datos completos: {len(df_antioquia) - currency_nulos:,} ({currency_completitud:.1f}%)")
    
    # Mostrar distribuci√≥n de monedas
    print(f"\nüìã DISTRIBUCI√ìN DE MONEDAS:")
    currency_dist = df_antioquia['currency'].value_counts(dropna=False)
    for moneda, count in currency_dist.items():
        porcentaje = (count / len(df_antioquia)) * 100
        estado = "‚úÖ" if str(moneda) == "COP" else "‚ùå" if pd.notna(moneda) else "‚ö†Ô∏è"
        print(f"   {estado} {moneda}: {count:,} ({porcentaje:.1f}%)")
    
    # PASO 2: Filtrar solo COP
    print(f"\nüéØ PASO 2: FILTRO DE MONEDA - SOLO PESOS COLOMBIANOS")
    print("-" * 55)
    
    antes_currency = len(df_antioquia)
    
    # Filtrar solo registros con currency = 'COP'
    df_cop = df_antioquia[df_antioquia['currency'] == 'COP'].copy()
    
    despues_currency = len(df_cop)
    eliminados_currency = antes_currency - despues_currency
    
    print(f"üìä Antes del filtro: {antes_currency:,}")
    print(f"‚úÖ Despu√©s del filtro: {despues_currency:,}")
    print(f"üóëÔ∏è Eliminados (otras monedas): {eliminados_currency:,}")
    print(f"üìà Conservado: {(despues_currency/antes_currency*100):.1f}%")
    
    # Usar el dataset filtrado por moneda
    df_para_precio = df_cop.copy()
    
else:
    print("‚ùå Columna 'currency' NO encontrada")
    print("   ‚Üí Asumiendo que todos los precios est√°n en pesos colombianos")
    df_para_precio = df_antioquia.copy()

# PASO 3: Eliminar precios inv√°lidos (‚â§ 0)
print(f"\nüè∑Ô∏è PASO 3: ELIMINAR PRECIOS INV√ÅLIDOS")
print("-" * 40)

antes_precio = len(df_para_precio)
print(f"üìä Antes: {antes_precio:,}")

# Eliminar precios ‚â§ 0
df_clean = df_para_precio[df_para_precio['price'] > 0].copy()

despues_precio = len(df_clean)
eliminados_precio = antes_precio - despues_precio

print(f"‚úÖ Despu√©s: {despues_precio:,}")
print(f"üóëÔ∏è Eliminados (precios ‚â§ 0): {eliminados_precio:,}")
print(f"üìà Conservado: {(despues_precio/antes_precio*100):.1f}%")

# RESUMEN FINAL
print(f"\n‚úÖ RESUMEN FINAL DE LIMPIEZA:")
print("=" * 35)
print(f"üìä Dataset inicial: {inicial:,}")
print(f"üìä Dataset final: {len(df_clean):,}")
eliminados_total = inicial - len(df_clean)
print(f"üóëÔ∏è Total eliminados: {eliminados_total:,}")
print(f"üìà Conservaci√≥n total: {(len(df_clean)/inicial*100):.1f}%")
print(f"üí∞ Moneda confirmada: Pesos Colombianos (COP)")

üí∞ AN√ÅLISIS DE MONEDA Y LIMPIEZA DE PRECIOS
üìä Dataset inicial: 341,453 registros

üîç PASO 1: AN√ÅLISIS DE LA COLUMNA 'currency'
---------------------------------------------
‚úÖ Columna 'currency' encontrada
üìä Datos faltantes: 79 (0.0%)
üìä Datos completos: 341,374 (100.0%)

üìã DISTRIBUCI√ìN DE MONEDAS:
   ‚úÖ COP: 341,366 (100.0%)
   ‚ö†Ô∏è nan: 79 (0.0%)
   ‚ùå USD: 7 (0.0%)
   ‚ùå ARS: 1 (0.0%)

üéØ PASO 2: FILTRO DE MONEDA - SOLO PESOS COLOMBIANOS
-------------------------------------------------------
üìä Antes del filtro: 341,453
‚úÖ Despu√©s del filtro: 341,366
üóëÔ∏è Eliminados (otras monedas): 87
üìà Conservado: 100.0%

üè∑Ô∏è PASO 3: ELIMINAR PRECIOS INV√ÅLIDOS
----------------------------------------
üìä Antes: 341,366
‚úÖ Despu√©s: 341,365
üóëÔ∏è Eliminados (precios ‚â§ 0): 1
üìà Conservado: 100.0%

‚úÖ RESUMEN FINAL DE LIMPIEZA:
üìä Dataset inicial: 341,453
üìä Dataset final: 341,365
üóëÔ∏è Total eliminados: 88
üìà Conservaci√≥n total: 100.0%
üí∞

## 5Ô∏è‚É£ **Eliminar Coordenadas Inv√°lidas**

### **üéØ Decisi√≥n**
Eliminar registros con coordenadas fuera de Antioquia.

### **‚úÖ Justificaci√≥n**
Variables geogr√°ficas son cr√≠ticas para predicci√≥n de precios.

In [8]:
# ===============================================================
# ELIMINAR COORDENADAS FUERA DE ANTIOQUIA
# ===============================================================

print("üåç VALIDACI√ìN GEOGR√ÅFICA: ANTIOQUIA")
print("=" * 40)

# L√≠mites geogr√°ficos de Antioquia (aproximados)
# Basado en los extremos del departamento
LAT_MIN, LAT_MAX = 5.4, 8.8    # Norte-Sur de Antioquia
LON_MIN, LON_MAX = -77.2, -73.8  # Oeste-Este de Antioquia

inicial = len(df_clean)
print(f"üìä Antes: {inicial:,} registros")

# Verificar si hay coordenadas disponibles
coords_disponibles = (df_clean['lat'].notna() & df_clean['lon'].notna()).sum()
print(f"üìç Registros con coordenadas: {coords_disponibles:,}")

if coords_disponibles > 0:
    # PASO 1: Mostrar rango actual de coordenadas
    print(f"\nüìä RANGO ACTUAL DE COORDENADAS:")
    print("-" * 35)
    lat_actual_min = df_clean['lat'].min()
    lat_actual_max = df_clean['lat'].max()
    lon_actual_min = df_clean['lon'].min()
    lon_actual_max = df_clean['lon'].max()
    
    print(f"Latitud:  {lat_actual_min:.3f} a {lat_actual_max:.3f}")
    print(f"Longitud: {lon_actual_min:.3f} a {lon_actual_max:.3f}")
    
    # PASO 2: Identificar coordenadas fuera de Antioquia
    print(f"\nüéØ L√çMITES V√ÅLIDOS PARA ANTIOQUIA:")
    print("-" * 35)
    print(f"Latitud:  {LAT_MIN} a {LAT_MAX}")
    print(f"Longitud: {LON_MIN} a {LON_MAX}")
    
    # Crear m√°scara para coordenadas inv√°lidas
    coords_invalidas = (
        (df_clean['lat'].notna()) & (df_clean['lon'].notna()) &
        ((df_clean['lat'] < LAT_MIN) | (df_clean['lat'] > LAT_MAX) |
         (df_clean['lon'] < LON_MIN) | (df_clean['lon'] > LON_MAX))
    )
    
    invalidas_count = coords_invalidas.sum()
    print(f"\nüö® Coordenadas fuera de Antioquia: {invalidas_count:,}")
    
    # PASO 3: Mostrar ejemplos de coordenadas inv√°lidas (si las hay)
    if invalidas_count > 0:
        print(f"\nüìã EJEMPLOS DE COORDENADAS INV√ÅLIDAS:")
        ejemplos_invalidos = df_clean[coords_invalidas][['lat', 'lon', 'l3']].head()
        print(ejemplos_invalidos)
        
        # Eliminar registros con coordenadas inv√°lidas
        print(f"\nüóëÔ∏è ELIMINANDO COORDENADAS FUERA DE ANTIOQUIA...")
        df_clean = df_clean[~coords_invalidas].copy()
    else:
        print("‚úÖ Todas las coordenadas est√°n dentro de los l√≠mites de Antioquia")

else:
    print("‚ö†Ô∏è No hay coordenadas disponibles para validar")

# RESULTADO FINAL
final = len(df_clean)
eliminados = inicial - final

print(f"\n‚úÖ RESULTADO DE LA VALIDACI√ìN:")
print("-" * 35)
print(f"Antes:     {inicial:,} registros")
print(f"Despu√©s:   {final:,} registros")
print(f"Eliminados: {eliminados:,} registros")
print(f"Conservado: {(final/inicial*100):.1f}%")

if eliminados > 0:
    print(f"üí° Raz√≥n: Coordenadas fuera de los l√≠mites de Antioquia")
else:
    print(f"üí° Todas las coordenadas est√°n geo-validadas para Antioquia")

üåç VALIDACI√ìN GEOGR√ÅFICA: ANTIOQUIA
üìä Antes: 341,365 registros
üìç Registros con coordenadas: 144,647

üìä RANGO ACTUAL DE COORDENADAS:
-----------------------------------
Latitud:  -75.640 a 51.801
Longitud: -97.494 a 100.477

üéØ L√çMITES V√ÅLIDOS PARA ANTIOQUIA:
-----------------------------------
Latitud:  5.4 a 8.8
Longitud: -77.2 a -73.8

üö® Coordenadas fuera de Antioquia: 291

üìã EJEMPLOS DE COORDENADAS INV√ÅLIDAS:
             lat        lon           l3
13653   4.710989 -74.072092     Medell√≠n
18685  10.942133 -74.797872     Medell√≠n
18693   4.535000 -75.675689     Medell√≠n
18718   5.060380 -75.489099  La Estrella
20022   5.051645 -75.481864     Medell√≠n

üóëÔ∏è ELIMINANDO COORDENADAS FUERA DE ANTIOQUIA...

‚úÖ RESULTADO DE LA VALIDACI√ìN:
-----------------------------------
Antes:     341,365 registros
Despu√©s:   341,074 registros
Eliminados: 291 registros
Conservado: 99.9%
üí° Raz√≥n: Coordenadas fuera de los l√≠mites de Antioquia


## 6Ô∏è‚É£ **Filtros por Tipo de Propiedad**

**Decisi√≥n:** Enfocarse en apartamentos y casas √∫nicamente

**Justificaci√≥n:** Los lotes, locales comerciales y fincas tienen din√°micas de precio completamente diferentes. Concentrarse en vivienda residencial garantiza homogeneidad en el an√°lisis

In [9]:
# ===============================================================
# FILTRAR TIPOS DE PROPIEDAD RESIDENCIAL
# ===============================================================

print("üè† TIPOS DE PROPIEDAD")
print("-" * 25)

inicial = len(df_clean)
print(f"üìä Antes: {inicial:,}")

# Identificar tipos √∫nicos
tipos_unicos = df_clean['property_type'].value_counts()
print(f"\nüìù Tipos de propiedad:")
for tipo, count in tipos_unicos.head(10).items():
    print(f"   {tipo}: {count:,}")

# Filtrar solo vivienda residencial
tipos_residenciales = ['Casa', 'Apartamento', 'casa', 'apartamento']
df_clean = df_clean[df_clean['property_type'].isin(tipos_residenciales)].copy()

final = len(df_clean)
eliminados = inicial - final

print(f"\n‚úÖ Despu√©s filtro: {final:,}")
print(f"üóëÔ∏è Eliminados: {eliminados:,}")
print(f"üìà Conservado: {(final/inicial*100):.1f}%")

üè† TIPOS DE PROPIEDAD
-------------------------
üìä Antes: 341,074

üìù Tipos de propiedad:
   Apartamento: 236,178
   Casa: 41,438
   Otro: 38,434
   Lote: 15,344
   Local comercial: 4,681
   Oficina: 3,623
   Finca: 1,140
   Dep√≥sito: 211
   Parqueadero: 25

‚úÖ Despu√©s filtro: 277,616
üóëÔ∏è Eliminados: 63,458
üìà Conservado: 81.4%


In [10]:
# ===============================================================
# AN√ÅLISIS COMPARATIVO: ROOMS vs BEDROOMS
# ===============================================================

print("üè† AN√ÅLISIS COMPARATIVO: ROOMS vs BEDROOMS")
print("=" * 50)

# Ver muestra de ambas columnas
print("üìã MUESTRA DE DATOS (primeras 10 filas):")
print(df_clean[['rooms', 'bedrooms']].head(10))

# PASO 1: An√°lisis de valores faltantes
print(f"\nüìä AN√ÅLISIS DE VALORES FALTANTES:")
print("-" * 40)
rooms_nulos = df_clean['rooms'].isna().sum()
bedrooms_nulos = df_clean['bedrooms'].isna().sum()
total_registros = len(df_clean)

print(f"Rooms faltantes:    {rooms_nulos:,} ({rooms_nulos/total_registros*100:.1f}%)")
print(f"Bedrooms faltantes: {bedrooms_nulos:,} ({bedrooms_nulos/total_registros*100:.1f}%)")

# PASO 2: Comparaci√≥n de valores donde ambos existen
print(f"\nüîç COMPARACI√ìN DONDE AMBAS COLUMNAS TIENEN DATOS:")
print("-" * 50)

# Filtrar registros donde ambas columnas tienen valores
ambas_completas = df_clean[df_clean['rooms'].notna() & df_clean['bedrooms'].notna()].copy()
registros_comparables = len(ambas_completas)

print(f"Registros comparables: {registros_comparables:,}")

if registros_comparables > 0:
    # Verificar si son exactamente iguales
    valores_identicos = (ambas_completas['rooms'] == ambas_completas['bedrooms']).sum()
    valores_diferentes = registros_comparables - valores_identicos
    
    print(f"\n‚úÖ Valores id√©nticos: {valores_identicos:,} ({valores_identicos/registros_comparables*100:.1f}%)")
    print(f"‚ùå Valores diferentes: {valores_diferentes:,} ({valores_diferentes/registros_comparables*100:.1f}%)")
    
    # PASO 3: An√°lisis de diferencias
    if valores_diferentes > 0:
        print(f"\nüìä AN√ÅLISIS DE DIFERENCIAS:")
        print("-" * 30)
        
        # Crear columna de diferencias
        ambas_completas['diferencia'] = ambas_completas['rooms'] - ambas_completas['bedrooms']
        
        # Estad√≠sticas de diferencias
        diff_stats = ambas_completas['diferencia'].describe()
        print(f"Diferencia promedio: {diff_stats['mean']:.2f}")
        print(f"Diferencia m√≠nima: {diff_stats['min']:.0f}")
        print(f"Diferencia m√°xima: {diff_stats['max']:.0f}")
        
        # Distribuci√≥n de diferencias
        print(f"\nüìã DISTRIBUCI√ìN DE DIFERENCIAS (rooms - bedrooms):")
        diff_dist = ambas_completas['diferencia'].value_counts().sort_index()
        for diff_val, count in diff_dist.head(10).items():
            pct = (count / registros_comparables) * 100
            print(f"   Diferencia {diff_val:>3.0f}: {count:>6,} casos ({pct:>5.1f}%)")
        
        # Mostrar algunos ejemplos de diferencias
        print(f"\nüîç EJEMPLOS DE REGISTROS CON DIFERENCIAS:")
        diferentes = ambas_completas[ambas_completas['diferencia'] != 0][['rooms', 'bedrooms', 'diferencia']].head()
        print(diferentes)

# PASO 4: Recomendaci√≥n
print(f"\nüí° CONCLUSI√ìN Y RECOMENDACI√ìN:")
print("-" * 35)

if registros_comparables > 0:
    porcentaje_identicos = (valores_identicos / registros_comparables) * 100
    
    if porcentaje_identicos > 90:
        print("‚úÖ Las columnas son MUY SIMILARES (>90% id√©nticas)")
        print("   ‚Üí Recomendaci√≥n: Usar una sola columna (bedrooms es m√°s est√°ndar)")
    elif porcentaje_identicos > 70:
        print("‚ö†Ô∏è Las columnas son PARCIALMENTE SIMILARES (70-90% id√©nticas)")
        print("   ‚Üí Recomendaci√≥n: Revisar diferencias y decidir cu√°l usar")
    else:
        print("‚ùå Las columnas son DIFERENTES (<70% id√©nticas)")
        print("   ‚Üí Recomendaci√≥n: Mantener ambas o investigar m√°s")
else:
    print("‚ö†Ô∏è No hay suficientes datos para comparar")
    print("   ‚Üí Recomendaci√≥n: Usar la columna con m√°s datos disponibles")

üè† AN√ÅLISIS COMPARATIVO: ROOMS vs BEDROOMS
üìã MUESTRA DE DATOS (primeras 10 filas):
     rooms  bedrooms
46     NaN       NaN
47     NaN      19.0
48     NaN       NaN
69     4.0       4.0
74     4.0       4.0
92     3.0       3.0
93     4.0       4.0
104    3.0       3.0
157    5.0       5.0
158    7.0       7.0

üìä AN√ÅLISIS DE VALORES FALTANTES:
----------------------------------------
Rooms faltantes:    244,778 (88.2%)
Bedrooms faltantes: 206,500 (74.4%)

üîç COMPARACI√ìN DONDE AMBAS COLUMNAS TIENEN DATOS:
--------------------------------------------------
Registros comparables: 32,838

‚úÖ Valores id√©nticos: 32,837 (100.0%)
‚ùå Valores diferentes: 1 (0.0%)

üìä AN√ÅLISIS DE DIFERENCIAS:
------------------------------
Diferencia promedio: -0.00
Diferencia m√≠nima: -2
Diferencia m√°xima: 0

üìã DISTRIBUCI√ìN DE DIFERENCIAS (rooms - bedrooms):
   Diferencia  -2:      1 casos (  0.0%)
   Diferencia   0: 32,837 casos (100.0%)

üîç EJEMPLOS DE REGISTROS CON DIFERENCIAS:
   

In [11]:
# ===============================================================
# RECUPERAR DATOS DE ROOMS ANTES DE ELIMINAR COLUMNA
# ===============================================================

print("üîÑ RECUPERACI√ìN DE DATOS: ROOMS ‚Üí BEDROOMS")
print("=" * 45)

if 'rooms' in df_clean.columns and 'bedrooms' in df_clean.columns:
    # PASO 1: Identificar casos donde rooms tiene valor pero bedrooms no
    print("üîç PASO 1: IDENTIFICAR DATOS RECUPERABLES")
    print("-" * 40)
    
    # Casos donde rooms tiene valor y bedrooms est√° vac√≠o
    mask_recuperable = df_clean['rooms'].notna() & df_clean['bedrooms'].isna()
    casos_recuperables = mask_recuperable.sum()
    
    print(f"üìä Registros con rooms pero sin bedrooms: {casos_recuperables:,}")
    
    if casos_recuperables > 0:
        # PASO 2: Recuperar los datos
        print(f"\nüîÑ PASO 2: RECUPERAR DATOS")
        print("-" * 25)
        
        # Mostrar algunos ejemplos antes de la recuperaci√≥n
        print("üìã Ejemplos antes de la recuperaci√≥n:")
        ejemplos = df_clean[mask_recuperable][['rooms', 'bedrooms']].head()
        print(ejemplos)
        
        # Copiar valores de rooms a bedrooms donde bedrooms est√° vac√≠o
        df_clean.loc[mask_recuperable, 'bedrooms'] = df_clean.loc[mask_recuperable, 'rooms']
        
        # Verificar la recuperaci√≥n
        print(f"\n‚úÖ Datos recuperados exitosamente: {casos_recuperables:,} registros")
        
        # Mostrar los mismos ejemplos despu√©s de la recuperaci√≥n
        print("üìã Ejemplos despu√©s de la recuperaci√≥n:")
        ejemplos_despues = df_clean[mask_recuperable][['rooms', 'bedrooms']].head()
        print(ejemplos_despues)
        
    else:
        print("‚úÖ No hay datos para recuperar (todos los registros con rooms ya tienen bedrooms)")
    
    # PASO 3: Estad√≠sticas finales antes de eliminar
    print(f"\nüìä ESTAD√çSTICAS FINALES ANTES DE ELIMINAR ROOMS:")
    print("-" * 50)
    
    rooms_completos = df_clean['rooms'].notna().sum()
    bedrooms_completos = df_clean['bedrooms'].notna().sum()
    
    print(f"Rooms completos:    {rooms_completos:,}")
    print(f"Bedrooms completos: {bedrooms_completos:,}")
    print(f"Ganancia de datos:  {casos_recuperables:,}")
    
    # PASO 4: Eliminar la columna rooms
    print(f"\nüóëÔ∏è PASO 3: ELIMINAR COLUMNA REDUNDANTE")
    print("-" * 35)
    
    df_clean = df_clean.drop(columns=['rooms'])
    
    print(f"‚úÖ Columna 'rooms' eliminada exitosamente")
    print(f"üíæ Datos preservados en 'bedrooms'")
    
else:
    print("‚ùå Una o ambas columnas no encontradas")

print(f"\n‚úÖ Dataset actualizado: {df_clean.shape[0]:,} registros, {df_clean.shape[1]} columnas")

üîÑ RECUPERACI√ìN DE DATOS: ROOMS ‚Üí BEDROOMS
üîç PASO 1: IDENTIFICAR DATOS RECUPERABLES
----------------------------------------
üìä Registros con rooms pero sin bedrooms: 0
‚úÖ No hay datos para recuperar (todos los registros con rooms ya tienen bedrooms)

üìä ESTAD√çSTICAS FINALES ANTES DE ELIMINAR ROOMS:
--------------------------------------------------
Rooms completos:    32,838
Bedrooms completos: 71,116
Ganancia de datos:  0

üóëÔ∏è PASO 3: ELIMINAR COLUMNA REDUNDANTE
-----------------------------------
‚úÖ Columna 'rooms' eliminada exitosamente
üíæ Datos preservados en 'bedrooms'

‚úÖ Dataset actualizado: 277,616 registros, 21 columnas


In [12]:
# ===============================================================
# FILTRAR SOLO PROPIEDADES EN VENTA (ELIMINAR ARRIENDOS)
# ===============================================================

print("üè† FILTRO: SOLO PROPIEDADES EN VENTA")
print("=" * 40)

# Mostrar distribuci√≥n antes del filtro
antes = len(df_clean)
print(f"üìä Antes: {antes:,} propiedades")
print(f"Distribuci√≥n: {df_clean['operation_type'].value_counts().to_dict()}")

# Filtrar solo propiedades en venta
df_clean = df_clean[df_clean['operation_type'] == 'Venta'].copy()

# Mostrar resultado
despues = len(df_clean) 
eliminados = antes - despues
print(f"\n‚úÖ Despu√©s: {despues:,} propiedades")
print(f"üóëÔ∏è Eliminados: {eliminados:,} arriendos")
print(f"üìà Conservado: {(despues/antes*100):.1f}%")

üè† FILTRO: SOLO PROPIEDADES EN VENTA
üìä Antes: 277,616 propiedades
Distribuci√≥n: {'Venta': 140435, 'Arriendo': 137127, 'Arriendo temporal': 54}

‚úÖ Despu√©s: 140,435 propiedades
üóëÔ∏è Eliminados: 137,181 arriendos
üìà Conservado: 50.6%


## 7Ô∏è‚É£ **Extracci√≥n por Text Mining** üíé

**Decisi√≥n:** Extraer informaci√≥n de superficie desde descripciones usando expresiones regulares

**Justificaci√≥n:** Muchas propiedades tienen superficie en el campo `description` pero no en `surface_total`. Esta es una **innovaci√≥n clave** que recupera datos valiosos perdidos

In [13]:
# ===============================================================
# EXTRACCI√ìN TEXT MINING - FUNCI√ìN OPTIMIZADA
# ===============================================================

print("‚õèÔ∏è TEXT MINING - SUPERFICIE OPTIMIZADA")
print("-" * 40)

def extraer_superficie_optimizada(descripcion):
    """Funci√≥n optimizada para extraer superficie con m√∫ltiples patrones"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Lista de patrones ordenados por especificidad
    patrones = [
        # Patrones principales (m√°s espec√≠ficos)
        r'(\d+(?:[.,]\d+)?)\s*(?:m2|m¬≤|metros\s*cuadrados)',
        r'(\d+(?:[.,]\d+)?)\s*(?:mts2|mt2|metros2)',
        r'(\d+(?:[.,]\d+)?)\s*(?:metros|mts|metro)\s*(?:cuadrados?|construidos?)',
        
        # Patrones con contexto (incluye variantes sin tilde y abreviaciones)
        r'(?:√°rea|area)\s*(?:de\s*|total\s*|construida\s*)?(\d+(?:[.,]\d+)?)',
        r'superficie\s*(?:de\s*|total\s*)?(\d+(?:[.,]\d+)?)',
        r'construidos?\s*(\d+(?:[.,]\d+)?)',
        r'(\d+(?:[.,]\d+)?)\s*(?:metros\s*construidos?)',
        
        # Patrones adicionales comunes
        r'(\d+(?:[.,]\d+)?)\s*(?:mts?|mt)\s*(?:$|\s|[^a-z0-9])',  # Para "9mt", "120mts"
        r'(\d+(?:[.,]\d+)?)\s*m\s*(?:cuadrados?|construidos?)',
        
        # Patrones contextuales adicionales
        r'(?:tama√±o|tamano)\s*(?:de\s*)?(\d+(?:[.,]\d+)?)',
        r'(\d+(?:[.,]\d+)?)\s*(?:de\s*√°rea|de\s*area)',
    ]
    
    for patron in patrones:
        matches = re.findall(patron, desc_lower)
        if matches:
            superficie_str = matches[0].replace(',', '.')
            try:
                valor = float(superficie_str)
                if 15 <= valor <= 2000:  # Rango razonable
                    return valor
            except:
                continue
    return None

# An√°lisis inicial
sin_superficie = df_clean['surface_total'].isna().sum()
print(f"üîç Registros sin superficie: {sin_superficie:,}")

# Aplicar extracci√≥n optimizada
mask_sin_superficie = df_clean['surface_total'].isna()

# Limpiar columna anterior si existe
if 'surface_extracted' in df_clean.columns:
    df_clean = df_clean.drop('surface_extracted', axis=1)

# Crear nueva columna con extracciones
extracciones = df_clean.loc[mask_sin_superficie, 'description'].apply(extraer_superficie_optimizada)
df_clean.loc[mask_sin_superficie, 'surface_extracted'] = extracciones

# Estad√≠sticas finales
extraidas = df_clean['surface_extracted'].notna().sum()
print(f"‚úÖ Superficies extra√≠das: {extraidas:,}")
print(f"üìà Tasa de recuperaci√≥n: {(extraidas/sin_superficie*100):.1f}%")
print(f"üíé Innovaci√≥n text mining completada")

‚õèÔ∏è TEXT MINING - SUPERFICIE OPTIMIZADA
----------------------------------------
üîç Registros sin superficie: 137,798
‚úÖ Superficies extra√≠das: 45,755
üìà Tasa de recuperaci√≥n: 33.2%
üíé Innovaci√≥n text mining completada


In [14]:
# ===============================================================
# FUNCIONES DE EXTRACCI√ìN PARA HABITACIONES Y BA√ëOS
# ===============================================================

print("üîß CREANDO FUNCIONES DE EXTRACCI√ìN")
print("-" * 40)

def extraer_bedrooms(descripcion):
    """Extrae n√∫mero de dormitorios/habitaciones desde descripci√≥n con patrones mejorados"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones mejorados (basados en celda 20)
    patrones = [
        # Variantes con errores tipogr√°ficos comunes
        r'(\d+)\s*(?:habitaci√≥n|habitacion|habitaciom|avitacion|abitaci√≥n)(?:es)?',
        r'(?:habitaci√≥n|habitacion|habitaciom|avitacion|abitaci√≥n)(?:es)?\s*(\d+)',
        
        # Sin√≥nimos comunes
        r'(\d+)\s*(?:dormitorio|cuarto|alcoba|recamara|pieza)(?:s)?',
        r'(?:dormitorio|cuarto|alcoba|recamara|pieza)(?:s)?\s*(\d+)',
        
        # Abreviaciones (con y sin punto)
        r'(\d+)\s*hab\.?(?:s)?[^a-z]',
        r'(\d+)\s*dorm\.?(?:s)?[^a-z]',
        r'(\d+)\s*alcob\.?(?:s)?[^a-z]',
        
        # Expresiones num√©ricas en texto (convertir a n√∫meros)
        r'(?:una|un)\s*(?:habitaci√≥n|habitacion|dormitorio|cuarto|alcoba)',
        r'(?:dos)\s*(?:habitaciones|habitacion|dormitorios|cuartos|alcobas)',
        r'(?:tres)\s*(?:habitaciones|habitacion|dormitorios|cuartos|alcobas)',
        r'(?:cuatro)\s*(?:habitaciones|habitacion|dormitorios|cuartos|alcobas)',
        
        # Patrones contextuales
        r'(\d+)\s*(?:n√∫mero\s*de\s*)?(?:habitaciones|dormitorios|cuartos)',
    ]
    
    # Diccionario para convertir texto a n√∫meros
    texto_a_numero = {
        'una': 1, 'un': 1, 'dos': 2, 'tres': 3, 'cuatro': 4, 
        'cinco': 5, 'seis': 6, 'siete': 7, 'ocho': 8
    }
    
    for i, patron in enumerate(patrones):
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                # Para patrones de texto (una, dos, tres...)
                if i >= 7 and i <= 10:  # Patrones de texto
                    for palabra in texto_a_numero:
                        if palabra in desc_lower:
                            return texto_a_numero[palabra]
                else:
                    # Para patrones num√©ricos
                    valor = int(matches[0])
                    if 1 <= valor <= 10:  # Rango razonable
                        return valor
            except:
                continue
    return None

def extraer_bathrooms(descripcion):
    """Extrae n√∫mero de ba√±os desde descripci√≥n con patrones mejorados"""
    if pd.isna(descripcion):
        return None
    
    desc_lower = str(descripcion).lower()
    
    # Patrones mejorados (basados en celda 20)
    patrones = [
        # Variantes con errores tipogr√°ficos
        r'(\d+)\s*(?:ba√±o|bano|banio|banyo|ba√±io)(?:s)?',
        r'(?:ba√±o|bano|banio|banyo|ba√±io)(?:s)?\s*(\d+)',
        
        # Sin√≥nimos y variantes
        r'(\d+)\s*(?:bathroom|wc|w\.c\.|sanitario|aseo|toilet|toillet)(?:s)?',
        r'(?:bathroom|wc|w\.c\.|sanitario|aseo|toilet|toillet)(?:s)?\s*(\d+)',
        
        # Abreviaciones
        r'(\d+)\s*bath(?:s)?[^a-z]',
        r'(\d+)\s*b\.(?:s)?[^a-z]',
        
        # Tipos espec√≠ficos de ba√±os
        r'(\d+)\s*(?:ba√±o\s*completo|ba√±o\s*social|ba√±o\s*de\s*visitas)',
        r'(?:ba√±o\s*completo|ba√±o\s*social|ba√±o\s*de\s*visitas)(?:s)?\s*(\d+)',
        
        # Expresiones num√©ricas en texto
        r'(?:un)\s*(?:ba√±o|bano|bathroom|sanitario)',
        r'(?:dos)\s*(?:ba√±os|banos|bathrooms|sanitarios)',
        r'(?:tres)\s*(?:ba√±os|banos|bathrooms|sanitarios)',
        
        # Medio ba√±o (manejado especialmente como 0.5)
        r'(?:medio\s*ba√±o|medio\s*bano|ba√±o\s*auxiliar)',
    ]
    
    # Diccionario para convertir texto a n√∫meros
    texto_a_numero = {
        'un': 1, 'dos': 2, 'tres': 3, 'cuatro': 4, 
        'cinco': 5, 'seis': 6
    }
    
    # Verificar medio ba√±o primero (retorna 0.5)
    if re.search(r'(?:medio\s*ba√±o|medio\s*bano|ba√±o\s*auxiliar)', desc_lower):
        return 0.5
    
    for i, patron in enumerate(patrones):
        matches = re.findall(patron, desc_lower)
        if matches:
            try:
                # Para patrones de texto (un, dos, tres...)
                if i >= 8 and i <= 10:  # Patrones de texto
                    for palabra in texto_a_numero:
                        if palabra in desc_lower and 'ba√±o' in desc_lower:
                            return texto_a_numero[palabra]
                else:
                    # Para patrones num√©ricos
                    valor = int(matches[0])
                    if 1 <= valor <= 8:  # Rango razonable
                        return valor
            except:
                continue
    return None

print("‚úÖ Funciones de extracci√≥n creadas")

# Probar funciones en muestra peque√±a
print(f"\nüß™ PRUEBA DE FUNCIONES:")
print("-" * 25)



üîß CREANDO FUNCIONES DE EXTRACCI√ìN
----------------------------------------
‚úÖ Funciones de extracci√≥n creadas

üß™ PRUEBA DE FUNCIONES:
-------------------------


In [15]:
# ===============================================================
# APLICAR EXTRACCI√ìN AL DATASET COMPLETO
# ===============================================================

print("üöÄ APLICACI√ìN AL DATASET COMPLETO")
print("=" * 40)

# Aplicar solo a registros que no tienen la informaci√≥n
variables_extraer = {
    'bedrooms': extraer_bedrooms,
    'bathrooms': extraer_bathrooms
}

for variable, funcion in variables_extraer.items():
    print(f"\nüîÑ Procesando {variable}...")
    
    # Verificar si la columna existe
    if variable in df_clean.columns:
        faltantes_inicial = df_clean[variable].isna().sum()
        mask_faltantes = df_clean[variable].isna()
    else:
        print(f"   Creando nueva columna '{variable}'")
        df_clean[variable] = np.nan
        faltantes_inicial = len(df_clean)
        mask_faltantes = df_clean[variable].isna()
    
    print(f"   Registros sin {variable}: {faltantes_inicial:,}")
    
    # Aplicar extracci√≥n
    extracciones = df_clean.loc[mask_faltantes, 'description'].apply(funcion)
    df_clean.loc[mask_faltantes, f'{variable}_extracted'] = extracciones
    
    # Estad√≠sticas - CORREGIDO: calcular extra√≠dos espec√≠ficos para esta variable
    extraidos = (df_clean.loc[mask_faltantes, f'{variable}_extracted'].notna()).sum()
    tasa_recuperacion = (extraidos / faltantes_inicial * 100) if faltantes_inicial > 0 else 0
    
    print(f"   ‚úÖ Extra√≠dos: {extraidos:,}")
    print(f"   üìà Tasa recuperaci√≥n: {tasa_recuperacion:.1f}%")

print(f"\nüíé EXTRACCI√ìN ADICIONAL COMPLETADA")
print("=" * 40)

# Resumen final de extracciones
print(f"üìä RESUMEN DE TODAS LAS EXTRACCIONES:")
print("-" * 35)
print(f"   Surface: {df_clean['surface_extracted'].notna().sum():,} extra√≠das")
print(f"   Bedrooms: {df_clean['bedrooms_extracted'].notna().sum():,} extra√≠das")
print(f"   Bathrooms: {df_clean['bathrooms_extracted'].notna().sum():,} extra√≠das")

total_extracciones = (
    df_clean['surface_extracted'].notna().sum() +
    df_clean['bedrooms_extracted'].notna().sum() +
    df_clean['bathrooms_extracted'].notna().sum()
)

print(f"\nüéØ TOTAL DATOS RECUPERADOS: {total_extracciones:,}")
print(f"üèÜ Text Mining: INNOVACI√ìN COMPLETA")

üöÄ APLICACI√ìN AL DATASET COMPLETO

üîÑ Procesando bedrooms...
   Registros sin bedrooms: 102,070
   ‚úÖ Extra√≠dos: 81,447
   üìà Tasa recuperaci√≥n: 79.8%

üîÑ Procesando bathrooms...
   Registros sin bathrooms: 18,727
   ‚úÖ Extra√≠dos: 10,795
   üìà Tasa recuperaci√≥n: 57.6%

üíé EXTRACCI√ìN ADICIONAL COMPLETADA
üìä RESUMEN DE TODAS LAS EXTRACCIONES:
-----------------------------------
   Surface: 45,755 extra√≠das
   Bedrooms: 81,447 extra√≠das
   Bathrooms: 10,795 extra√≠das

üéØ TOTAL DATOS RECUPERADOS: 137,997
üèÜ Text Mining: INNOVACI√ìN COMPLETA


## 8Ô∏è‚É£ **Integraci√≥n de Datos Extra√≠dos**

**Decisi√≥n:** Consolidar datos originales con extracciones de text mining

**Justificaci√≥n:** Crear variables finales que combinen datos originales con extracciones para maximizar completitud sin perder informaci√≥n original

In [16]:
# ===============================================================
# INTEGRACI√ìN DE DATOS ORIGINALES CON EXTRACCIONES
# ===============================================================

print("üîó INTEGRACI√ìN DE DATOS")
print("=" * 30)

# Estrategia: Priorizar datos originales, completar con extracciones
variables_integrar = {
    'surface_total': 'surface_extracted',
    'bedrooms': 'bedrooms_extracted', 
    'bathrooms': 'bathrooms_extracted'
}

for original, extraida in variables_integrar.items():
    if extraida in df_clean.columns:
        # Estado antes de integraci√≥n
        antes_faltantes = df_clean[original].isna().sum()
        
        # Integrar: usar original si existe, sino usar extra√≠da
        df_clean[f'{original}_final'] = df_clean[original].fillna(df_clean[extraida])
        
        # Estado despu√©s de integraci√≥n
        despues_faltantes = df_clean[f'{original}_final'].isna().sum()
        completados = antes_faltantes - despues_faltantes
        
        print(f"\nüìä {original.upper()}:")
        print(f"   Antes: {antes_faltantes:,} faltantes")
        print(f"   Despu√©s: {despues_faltantes:,} faltantes")
        print(f"   ‚úÖ Completados: {completados:,}")
        if antes_faltantes > 0:
            print(f"   üìà Mejora: {(completados/antes_faltantes*100):.1f}%")

print(f"\nüéØ RESUMEN DE INTEGRACI√ìN:")
print("-" * 30)

# Calcular total de completaciones
total_completaciones = 0
for original, extraida in variables_integrar.items():
    if extraida in df_clean.columns:
        antes = df_clean[original].isna().sum()
        despues = df_clean[f'{original}_final'].isna().sum()
        total_completaciones += (antes - despues)

print(f"üìà Total valores completados: {total_completaciones:,}")
print(f"üíé Integraci√≥n exitosa completada")

print(f"Eliminar columnas temporales")

df_clean.drop(['surface_extracted', 'bedrooms_extracted', 'bathrooms_extracted'], axis=1, inplace=True)


üîó INTEGRACI√ìN DE DATOS

üìä SURFACE_TOTAL:
   Antes: 137,798 faltantes
   Despu√©s: 92,043 faltantes
   ‚úÖ Completados: 45,755
   üìà Mejora: 33.2%

üìä BEDROOMS:
   Antes: 102,070 faltantes
   Despu√©s: 20,623 faltantes
   ‚úÖ Completados: 81,447
   üìà Mejora: 79.8%

üìä BATHROOMS:
   Antes: 18,727 faltantes
   Despu√©s: 7,932 faltantes
   ‚úÖ Completados: 10,795
   üìà Mejora: 57.6%

üéØ RESUMEN DE INTEGRACI√ìN:
------------------------------
üìà Total valores completados: 137,997
üíé Integraci√≥n exitosa completada
Eliminar columnas temporales


In [18]:
# ===============================================================
# AN√ÅLISIS DE VALORES FALTANTES RESTANTES
# ===============================================================

print("üîç AN√ÅLISIS DE VALORES FALTANTES RESTANTES")
print("=" * 50)

# Evaluar estado actual despu√©s de text mining e integraci√≥n
variables_criticas = ['lat', 'lon', 'l4', 'surface_total_final', 'bedrooms_final', 'bathrooms_final']

print("üìä ESTADO ACTUAL DE VARIABLES CR√çTICAS:")
print("-" * 45)

for var in variables_criticas:
    if var in df_clean.columns:
        faltantes = df_clean[var].isna().sum()
        total = len(df_clean)
        pct = (faltantes / total) * 100
        print(f"   {var:<20}: {faltantes:>8,} faltantes ({pct:>5.1f}%)")

# Identificar variables para imputaci√≥n simple
print(f"\nüéØ ESTRATEGIAS DE IMPUTACI√ìN:")
print("-" * 35)

# 1. Coordenadas faltantes - imputar por centroide de barrio
coords_faltantes = df_clean[['lat', 'lon']].isna().any(axis=1).sum()
barrios_disponibles = df_clean['l4'].notna().sum()
print(f"   Coordenadas: {coords_faltantes:,} faltantes")
print(f"   Barrios disponibles: {barrios_disponibles:,}")

# 2. Barrios faltantes - estrategia compleja (mantener para an√°lisis)
barrios_faltantes = df_clean['l4'].isna().sum()
print(f"   Barrios: {barrios_faltantes:,} faltantes")

print(f"\n‚úÖ AN√ÅLISIS COMPLETADO - LISTO PARA IMPUTACI√ìN")

üîç AN√ÅLISIS DE VALORES FALTANTES RESTANTES
üìä ESTADO ACTUAL DE VARIABLES CR√çTICAS:
---------------------------------------------
   lat                 :   78,250 faltantes ( 55.7%)
   lon                 :   78,250 faltantes ( 55.7%)
   l4                  :  107,750 faltantes ( 76.7%)
   surface_total_final :   92,043 faltantes ( 65.5%)
   bedrooms_final      :   20,623 faltantes ( 14.7%)
   bathrooms_final     :    7,932 faltantes (  5.6%)

üéØ ESTRATEGIAS DE IMPUTACI√ìN:
-----------------------------------
   Coordenadas: 78,250 faltantes
   Barrios disponibles: 32,685
   Barrios: 107,750 faltantes

‚úÖ AN√ÅLISIS COMPLETADO - LISTO PARA IMPUTACI√ìN


## üîü **Extracci√≥n de Ubicaci√≥n por Text Mining** üåç

**Objetivo:** Extraer informaci√≥n de ubicaci√≥n (barrios, sectores, zonas) desde las descripciones

**Justificaci√≥n:** Con 211,876 registros sin barrio (l4) pero con descripciones disponibles, esta estrategia puede recuperar informaci√≥n geogr√°fica valiosa que est√° "escondida" en el texto libre.

**Estrategia:** Usar patrones espec√≠ficos para identificar menciones de barrios, sectores y zonas conocidas de Antioquia

In [19]:
# ===============================================================
# AN√ÅLISIS DE DESCRIPCIONES PARA EXTRACCI√ìN DE UBICACI√ìN
# ===============================================================

print("üåç EXTRACCI√ìN DE UBICACI√ìN POR TEXT MINING")
print("=" * 50)

# 1. Estado actual de ubicaciones
print("üìä ESTADO ACTUAL DE UBICACI√ìN:")
print("-" * 35)

total_registros = len(df_clean)
con_barrio = df_clean['l4'].notna().sum()
sin_barrio = df_clean['l4'].isna().sum()
con_descripcion = df_clean['description'].notna().sum()

print(f"Total registros: {total_registros:,}")
print(f"Con barrio (l4): {con_barrio:,} ({(con_barrio/total_registros*100):.1f}%)")
print(f"Sin barrio (l4): {sin_barrio:,} ({(sin_barrio/total_registros*100):.1f}%)")
print(f"Con descripci√≥n: {con_descripcion:,} ({(con_descripcion/total_registros*100):.1f}%)")

# 2. Candidatos para extracci√≥n: sin barrio PERO con descripci√≥n
candidatos_ubicacion = (df_clean['l4'].isna() & df_clean['description'].notna()).sum()
print(f"\nüéØ Candidatos para extracci√≥n: {candidatos_ubicacion:,}")
print(f"   (Sin barrio PERO con descripci√≥n)")

# 3. Obtener barrios conocidos para crear patrones
print(f"\nüìã BARRIOS CONOCIDOS EN EL DATASET:")
print("-" * 35)

barrios_conocidos = df_clean['l4'].dropna().unique()
print(f"Total barrios √∫nicos: {len(barrios_conocidos):,}")

# Mostrar los m√°s comunes
top_barrios = df_clean['l4'].value_counts().head(20)
print(f"\nTop 20 barrios m√°s comunes:")
for i, (barrio, count) in enumerate(top_barrios.items(), 1):
    print(f"  {i:2d}. {barrio:<30}: {count:>4,} propiedades")

üåç EXTRACCI√ìN DE UBICACI√ìN POR TEXT MINING
üìä ESTADO ACTUAL DE UBICACI√ìN:
-----------------------------------
Total registros: 140,435
Con barrio (l4): 32,685 (23.3%)
Sin barrio (l4): 107,750 (76.7%)
Con descripci√≥n: 140,222 (99.8%)

üéØ Candidatos para extracci√≥n: 107,607
   (Sin barrio PERO con descripci√≥n)

üìã BARRIOS CONOCIDOS EN EL DATASET:
-----------------------------------
Total barrios √∫nicos: 21

Top 20 barrios m√°s comunes:
   1. El Poblado                    : 11,194 propiedades
   2. Laureles                      : 5,162 propiedades
   3. Bel√©n                         : 4,298 propiedades
   4. La Am√©rica                    : 2,513 propiedades
   5. Robledo                       : 1,766 propiedades
   6. Candelaria                    : 1,611 propiedades
   7. Buenos Aires                  : 1,321 propiedades
   8. Castilla                      :  728 propiedades
   9. San Crist√≥bal                 :  539 propiedades
  10. Guayabal                      :  53

In [20]:
# ===============================================================
# FUNCIONES UNIFICADAS DE EXTRACCI√ìN DE UBICACI√ìN
# ===============================================================

print("üèóÔ∏è CREANDO FUNCIONES UNIFICADAS DE EXTRACCI√ìN DE UBICACI√ìN")
print("=" * 60)

import re

# ===============================================================
# DATOS DE REFERENCIA: CIUDADES Y BARRIOS
# ===============================================================

# Lista completa de ciudades de Antioquia
CIUDADES_ANTIOQUIA = [
    # Ciudades principales del √°rea metropolitana (prioridad)
    'medell√≠n', 'medellin', 'envigado', 'itag√º√≠', 'itagui', 'sabaneta', 
    'bello', 'copacabana', 'la estrella', 'estrella', 'caldas', 
    'girardota', 'barbosa', 'rionegro',
    
    # Todas las ciudades de Antioquia (alfab√©ticamente)
    'abejorral', 'abriaqu√≠', 'alejandr√≠a', 'amag√°', 'amalfi', 'andes', 
    'angel√≥polis', 'angostura', 'anor√≠', 'anz√°', 'apartad√≥', 'arboletes', 
    'argelia', 'armenia', 'betania', 'betulia', 'brice√±o', 'buritic√°', 
    'c√°ceres', 'caicedo', 'campamento', 'ca√±asgordas', 'caracol√≠', 
    'caramanta', 'carepa', 'carolina del pr√≠ncipe', 'caucasia', 
    'chigorod√≥', 'cisneros', 'ciudad bol√≠var', 'cocorn√°', 'concepci√≥n', 
    'concordia', 'dabeiba', 'don mat√≠as', 'eb√©jico', 'el bagre', 
    'entrerr√≠os', 'fredonia', 'frontino', 'giraldo', 'g√≥mez plata', 
    'granada', 'guadalupe', 'guarne', 'guatap√©', 'heliconia', 'hispania', 
    'jard√≠n', 'jeric√≥', 'la ceja', 'la pintada', 'la uni√≥n', 'liborina', 
    'maceo', 'marinilla', 'montebello', 'murind√≥', 'mutat√°', 'nari√±o', 
    'nech√≠', 'necocl√≠', 'olaya', 'pe√±ol', 'peque', 'pueblorrico', 
    'puerto berr√≠o', 'puerto nare', 'puerto triunfo', 'remedios', 
    'retiro', 'salgar', 'san andr√©s de cuerquia', 'san carlos', 
    'san francisco', 'san jer√≥nimo', 'san jos√© de la monta√±a', 
    'san luis', 'san pedro de los milagros', 'san pedro de urab√°', 
    'san rafael', 'san roque', 'san vicente', 'santa b√°rbara', 
    'santa rosa de osos', 'santo domingo', 'segovia', 'sons√≥n', 
    'sopetr√°n', 't√°mesis', 'taraz√°', 'tarso', 'titirib√≠', 'toledo', 
    'turbo', 'uramita', 'urrao', 'valdivia', 'valpara√≠so', 'vegach√≠', 
    'venecia', 'vig√≠a del fuerte', 'yal√≠', 'yarumal', 'yolomb√≥', 'yond√≥'
]

# Lista de barrios de Antioquia organizados por municipio/comuna
BARRIOS_ANTIOQUIA = [
    # ITAG√ú√ç
    'calatrava', 'santa mar√≠a', 'ditaires', 'san gabriel',
    
    # ENVIGADO  
    'la frontera', 'jardines', 'el dorado', 'las palmas',
    
    # SABANETA
    'la doctora', 'holanda', 'mayorca',
    
    # LA ESTRELLA
    'el pedrero', 'san andr√©s', 'bellavista',
    
    # CALDAS
    'primavera', 'la tablaza', 'los lagos',
    
    # BELLO
    'niqu√≠a', 'caba√±as', 'zamora', 'par√≠s', 'fontidue√±o',
    
    # COPACABANA
    'la asunci√≥n', 'la misericordia', 'machado',
    
    # GIRARDOTA
    'san esteban', 'aurelio mej√≠a',
    
    # BARBOSA
    'el porvenir', 'la estaci√≥n',
    
    # MEDELL√çN - COMUNA 1 (POPULAR)
    'santo domingo savio', 'popular', 'granizal',
    
    # COMUNA 2 (SANTA CRUZ)
    'la isla', 'la rosa', 'santa cruz',
    
    # COMUNA 3 (MANRIQUE) 
    'manrique central', 'manrique', 'versalles', 'el raizal',
    
    # COMUNA 4 (ARANJUEZ)
    'moravia', 'aranjuez', 'san pedro',
    
    # COMUNA 5 (CASTILLA)
    'castilla', 'tricentenario', 'alfonso l√≥pez',
    
    # COMUNA 6 (DOCE DE OCTUBRE)
    'pedregal', 'doce de octubre', 'kennedy',
    
    # COMUNA 7 (ROBLEDO)
    'robledo', 'el volador', 'la pilarica', 'pajarito',
    
    # COMUNA 8 (VILLA HERMOSA)
    'villa hermosa', 'la milagrosa', 'golondrinas',
    
    # COMUNA 9 (BUENOS AIRES)
    'buenos aires', 'la asomadera', 'los cerros',
    
    # COMUNA 10 (LA CANDELARIA - CENTRO)
    'la candelaria', 'candelaria', 'prado', 'san benito', 'guayaquil',
    
    # COMUNA 11 (LAURELES - ESTADIO)
    'laureles', 'estadio', 'los colores', 'san joaqu√≠n',
    
    # COMUNA 12 (LA AM√âRICA)
    'la am√©rica', 'am√©rica', 'santa luc√≠a', 'la floresta', 'floresta', 'calasanz',
    
    # COMUNA 13 (SAN JAVIER)
    'san javier', 'el salado', 'blanquizal', 'las independencias',
    
    # COMUNA 14 (EL POBLADO) 
    'el poblado', 'poblado', 'astorga', 'manila', 'provenza', 'castropol',
    
    # COMUNA 15 (GUAYABAL)
    'guayabal', 'cristo rey', 'trinidad', 'campo amor',
    
    # COMUNA 16 (BEL√âN)
    'bel√©n', 'belen', 'loma de los bernal', 'f√°tima', 'los alpes',
    
    # CORREGIMIENTOS MEDELL√çN (RURALES)
    'san sebasti√°n de palmitas', 'palmitas', 'san crist√≥bal', 'san cristobal', 
    'altavista', 'san antonio de prado', 'santa elena'
]

# ===============================================================
# FUNCIONES DE MAPEO A NOMBRES EST√ÅNDAR
# ===============================================================

def mapear_ciudad_estandar(ciudad_encontrada):
    """Mapea ciudades encontradas a nombres est√°ndar del dataset"""
    ciudad_lower = ciudad_encontrada.lower()
    
    # Diccionario de mapeos
    mapeos_ciudades = {
        'medellin': 'Medell√≠n', 'medell√≠n': 'Medell√≠n',
        'itagui': 'Itag√º√≠', 'itag√º√≠': 'Itag√º√≠',
        'estrella': 'La Estrella', 'la estrella': 'La Estrella',
        'carolina del pr√≠ncipe': 'Carolina del Pr√≠ncipe',
        'ciudad bol√≠var': 'Ciudad Bol√≠var',
        'don mat√≠as': 'Don Mat√≠as',
        'g√≥mez plata': 'G√≥mez Plata',
        'la ceja': 'La Ceja',
        'la pintada': 'La Pintada',
        'la uni√≥n': 'La Uni√≥n',
        'puerto berr√≠o': 'Puerto Berr√≠o',
        'puerto nare': 'Puerto Nare',
        'puerto triunfo': 'Puerto Triunfo',
        'san andr√©s de cuerquia': 'San Andr√©s de Cuerquia',
        'san carlos': 'San Carlos',
        'san francisco': 'San Francisco',
        'san jer√≥nimo': 'San Jer√≥nimo',
        'san jos√© de la monta√±a': 'San Jos√© de la Monta√±a',
        'san luis': 'San Luis',
        'san pedro de los milagros': 'San Pedro de los Milagros',
        'san pedro de urab√°': 'San Pedro de Urab√°',
        'san rafael': 'San Rafael',
        'san roque': 'San Roque',
        'san vicente': 'San Vicente',
        'santa b√°rbara': 'Santa B√°rbara',
        'santa rosa de osos': 'Santa Rosa de Osos',
        'santo domingo': 'Santo Domingo',
        'vig√≠a del fuerte': 'Vig√≠a del Fuerte'
    }
    
    return mapeos_ciudades.get(ciudad_lower, ciudad_encontrada.title())

def mapear_barrio_estandar(barrio_encontrado):
    """Mapea barrios encontrados a nombres est√°ndar del dataset"""
    barrio_lower = barrio_encontrado.lower()
    
    # Diccionario de mapeos
    mapeos_barrios = {
        'el poblado': 'El Poblado', 'poblado': 'El Poblado',
        'belen': 'Bel√©n', 'bel√©n': 'Bel√©n',
        'la am√©rica': 'La Am√©rica', 'am√©rica': 'La Am√©rica',
        'la floresta': 'La Floresta', 'floresta': 'La Floresta',
        'la candelaria': 'La Candelaria', 'candelaria': 'La Candelaria',
        'san crist√≥bal': 'San Crist√≥bal', 'san cristobal': 'San Crist√≥bal',
        'santo domingo savio': 'Santo Domingo Savio',
        'manrique central': 'Manrique Central',
        'doce de octubre': 'Doce de Octubre',
        'villa hermosa': 'Villa Hermosa',
        'buenos aires': 'Buenos Aires',
        'los colores': 'Los Colores',
        'san joaqu√≠n': 'San Joaqu√≠n',
        'santa luc√≠a': 'Santa Luc√≠a',
        'san javier': 'San Javier',
        'el salado': 'El Salado',
        'las independencias': 'Las Independencias',
        'cristo rey': 'Cristo Rey',
        'campo amor': 'Campo Amor',
        'loma de los bernal': 'Loma de Los Bernal',
        'los alpes': 'Los Alpes',
        'san sebasti√°n de palmitas': 'San Sebasti√°n de Palmitas',
        'san antonio de prado': 'San Antonio de Prado',
        'santa mar√≠a': 'Santa Mar√≠a',
        'san gabriel': 'San Gabriel',
        'la frontera': 'La Frontera',
        'el dorado': 'El Dorado',
        'las palmas': 'Las Palmas',
        'la doctora': 'La Doctora',
        'el pedrero': 'El Pedrero',
        'san andr√©s': 'San Andr√©s',
        'la tablaza': 'La Tablaza',
        'los lagos': 'Los Lagos',
        'la asunci√≥n': 'La Asunci√≥n',
        'la misericordia': 'La Misericordia',
        'san esteban': 'San Esteban',
        'aurelio mej√≠a': 'Aurelio Mej√≠a',
        'el porvenir': 'El Porvenir',
        'la estaci√≥n': 'La Estaci√≥n',
        'la isla': 'La Isla',
        'la rosa': 'La Rosa',
        'el raizal': 'El Raizal',
        'san pedro': 'San Pedro',
        'alfonso l√≥pez': 'Alfonso L√≥pez',
        'el volador': 'El Volador',
        'la pilarica': 'La Pilarica',
        'la milagrosa': 'La Milagrosa',
        'la asomadera': 'La Asomadera',
        'los cerros': 'Los Cerros',
        'san benito': 'San Benito'
    }
    
    return mapeos_barrios.get(barrio_lower, barrio_encontrado.title())

# ===============================================================
# FUNCIONES UNIFICADAS DE EXTRACCI√ìN
# ===============================================================

def extraer_ciudad(texto):
    """
    Extrae ciudad desde cualquier campo de texto (description o title)
    
    Args:
        texto (str): Texto donde buscar la ciudad
        
    Returns:
        str or None: Ciudad encontrada en formato est√°ndar o None
    """
    if pd.isna(texto):
        return None
    
    texto_lower = str(texto).lower()
    
    # Buscar cada ciudad con patr√≥n de palabra completa
    for ciudad in CIUDADES_ANTIOQUIA:
        patron = rf'\b{re.escape(ciudad)}\b'
        if re.search(patron, texto_lower):
            return mapear_ciudad_estandar(ciudad)
    
    return None

def extraer_barrio(texto):
    """
    Extrae barrio desde cualquier campo de texto (description o title)
    
    Args:
        texto (str): Texto donde buscar el barrio
        
    Returns:
        str or None: Barrio encontrado en formato est√°ndar o None
    """
    if pd.isna(texto):
        return None
    
    texto_lower = str(texto).lower()
    
    # Buscar cada barrio con patr√≥n de palabra completa
    for barrio in BARRIOS_ANTIOQUIA:
        patron = rf'\b{re.escape(barrio)}\b'
        if re.search(patron, texto_lower):
            return mapear_barrio_estandar(barrio)
    
    return None

print("‚úÖ Funciones unificadas de extracci√≥n creadas:")
print("   üìç extraer_ciudad(texto) - Funciona con description o title")
print("   üìç extraer_barrio(texto) - Funciona con description o title")

# ===============================================================
# APLICAR EXTRACCIONES AL DATASET COMPLETO
# ===============================================================

print(f"\nüöÄ APLICANDO EXTRACCIONES AL DATASET COMPLETO")
print("=" * 55)

# Extracci√≥n desde descriptions
print(f"\nüèôÔ∏è EXTRAYENDO DESDE DESCRIPTIONS...")
df_clean['ciudad_desc'] = df_clean['description'].apply(extraer_ciudad)
df_clean['barrio_desc'] = df_clean['description'].apply(extraer_barrio)

# Extracci√≥n desde titles
print(f"üèòÔ∏è EXTRAYENDO DESDE TITLES...")
df_clean['ciudad_title'] = df_clean['title'].apply(extraer_ciudad)
df_clean['barrio_title'] = df_clean['title'].apply(extraer_barrio)

# ===============================================================
# CONSOLIDACI√ìN FINAL EN COLUMNAS l3_final Y l4_final
# ===============================================================

print(f"\nüîó CONSOLIDANDO EN COLUMNAS FINALES")
print("=" * 40)

# PASO 1: Crear l3_final (prioridad: l3 original ‚Üí description ‚Üí title)
df_clean['l3_final'] = df_clean['l3'].fillna(
    df_clean['ciudad_desc']
).fillna(
    df_clean['ciudad_title']
)

# PASO 2: Crear l4_final (prioridad: l4 original ‚Üí description ‚Üí title)  
df_clean['l4_final'] = df_clean['l4'].fillna(
    df_clean['barrio_desc']
).fillna(
    df_clean['barrio_title']
)

# PASO 3: Limpiar columnas temporales
df_clean.drop(['ciudad_desc', 'barrio_desc', 'ciudad_title', 'barrio_title'], axis=1, inplace=True)

print(f"‚úÖ Consolidaci√≥n completada:")
print(f"   üìç l3_final: Datos originales + extra√≠dos (description + title)")
print(f"   üìç l4_final: Datos originales + extra√≠dos (description + title)")

# ===============================================================
# REPORTE DE RESULTADOS
# ===============================================================

print(f"\nüìä REPORTE DE COBERTURA FINAL:")
print("=" * 40)

total_registros = len(df_clean)
ciudades_final = df_clean['l3_final'].notna().sum()
barrios_final = df_clean['l4_final'].notna().sum()
ciudades_original = df_clean['l3'].notna().sum()
barrios_original = df_clean['l4'].notna().sum()

print(f"üèôÔ∏è Ciudades:")
print(f"   Original (l3):    {ciudades_original:,} ({ciudades_original/total_registros*100:.1f}%)")
print(f"   Final (l3_final): {ciudades_final:,} ({ciudades_final/total_registros*100:.1f}%)")
print(f"   üéØ Ganancia:      +{ciudades_final - ciudades_original:,}")

print(f"\nüèòÔ∏è Barrios:")
print(f"   Original (l4):    {barrios_original:,} ({barrios_original/total_registros*100:.1f}%)")
print(f"   Final (l4_final): {barrios_final:,} ({barrios_final/total_registros*100:.1f}%)")
print(f"   üéØ Ganancia:      +{barrios_final - barrios_original:,}")



üèóÔ∏è CREANDO FUNCIONES UNIFICADAS DE EXTRACCI√ìN DE UBICACI√ìN
‚úÖ Funciones unificadas de extracci√≥n creadas:
   üìç extraer_ciudad(texto) - Funciona con description o title
   üìç extraer_barrio(texto) - Funciona con description o title

üöÄ APLICANDO EXTRACCIONES AL DATASET COMPLETO

üèôÔ∏è EXTRAYENDO DESDE DESCRIPTIONS...
üèòÔ∏è EXTRAYENDO DESDE TITLES...

üîó CONSOLIDANDO EN COLUMNAS FINALES
‚úÖ Consolidaci√≥n completada:
   üìç l3_final: Datos originales + extra√≠dos (description + title)
   üìç l4_final: Datos originales + extra√≠dos (description + title)

üìä REPORTE DE COBERTURA FINAL:
üèôÔ∏è Ciudades:
   Original (l3):    137,499 (97.9%)
   Final (l3_final): 139,853 (99.6%)
   üéØ Ganancia:      +2,354

üèòÔ∏è Barrios:
   Original (l4):    32,685 (23.3%)
   Final (l4_final): 57,533 (41.0%)
   üéØ Ganancia:      +24,848


In [22]:
# 1. Informaci√≥n b√°sica
print(f"üìä Dimensiones: {df_clean.shape}")
print(f"üìä Tipos de datos:")
print(df_clean.dtypes.value_counts())

df_clean.columns
# 2. Guardar dataset limpio y enriquecido
df_final = df_clean[['ad_type', 'start_date', 'end_date', 'created_on', 'lat', 'lon','price','title', 'description', 'property_type', 'operation_type','surface_total_final', 'bedrooms_final', 'bathrooms_final', 'l3_final', 'l4_final']]
df_final.to_csv('../data/properties_gold.csv', index=False)



üìä Dimensiones: (140435, 26)
üìä Tipos de datos:
object     16
float64    10
Name: count, dtype: int64
