# Sistema de Limpieza y Enriquecimiento de Direcciones

Este notebook demuestra c√≥mo usar el nuevo sistema de limpieza y enriquecimiento de datos de direcciones que se integra con nuestra herramienta de geocodificaci√≥n reversa.

## Funcionalidades implementadas:
1. **Sistema de Completado Inteligente de Direcciones**
2. **Validador y Normalizador de Direcciones**
3. **Sistema de Enriquecimiento de Datos Geogr√°ficos**

## Requisitos:
- Archivo `.env` con tu API key de OpenCage
- Dependencias instaladas (ejecutar primera celda)

In [1]:
# Instalar dependencias si no est√°n disponibles
import subprocess
import sys

packages = ['python-dotenv', 'opencage', 'pandas']

for package in packages:
    try:
        __import__(package.replace('-', '_'))
        print(f"‚úì {package} ya est√° instalado")
    except ImportError:
        print(f"Instalando {package}...")
        subprocess.check_call([sys.executable, "-m", "pip", "install", package])
        print(f"‚úì {package} instalado")

Instalando python-dotenv...
‚úì python-dotenv instalado
‚úì opencage ya est√° instalado
‚úì python-dotenv instalado
‚úì opencage ya est√° instalado
‚úì pandas ya est√° instalado
‚úì pandas ya est√° instalado


In [2]:
# Importar el sistema de enriquecimiento
import sys
import os

# A√±adir el directorio del batch processor al path
batch_processor_path = os.path.join(os.getcwd(), 'reverse_geocoding_batch_processor')
if batch_processor_path not in sys.path:
    sys.path.append(batch_processor_path)

from address_enhancer import AddressEnhancer
import pandas as pd

print("‚úì Sistema de enriquecimiento de direcciones importado correctamente")

‚úì Sistema de enriquecimiento de direcciones importado correctamente


In [3]:
# Inicializar el enhancer
enhancer = AddressEnhancer()
print("‚úì AddressEnhancer inicializado correctamente")

‚úì AddressEnhancer inicializado correctamente


## 1. Detectar Direcciones Incompletas

Vamos a probar la funcionalidad de detecci√≥n de direcciones incompletas:

In [4]:
# Ejemplos de direcciones con diferentes niveles de completitud
test_addresses = [
    "Calle 123",  # Incompleta - falta ciudad
    "123 Main Street, Madrid",  # M√°s completa
    "Av. Insurgentes Sur 1234, Colonia del Valle, Ciudad de M√©xico, 03100",  # Completa
    "Madrid",  # Muy incompleta - solo ciudad
    "",  # Vac√≠a
    "c/ Gran V√≠a 25, Madrid, 28013"  # Completa con abreviaci√≥n
]

print("An√°lisis de completitud de direcciones:\n")
for i, address in enumerate(test_addresses, 1):
    analysis = enhancer.detect_incomplete_address(address)
    print(f"{i}. Direcci√≥n: '{address}'")
    print(f"   Completa: {analysis['is_complete']}")
    print(f"   Confianza: {analysis['confidence']:.2f}")
    print(f"   Componentes faltantes: {analysis['missing_components']}")
    # print(f"   Componentes encontrados: {analysis['components_found']}")
    print()

An√°lisis de completitud de direcciones:

1. Direcci√≥n: 'Calle 123'
   Completa: False
   Confianza: 0.50
   Componentes faltantes: ['city', 'postal_code']

2. Direcci√≥n: '123 Main Street, Madrid'
   Completa: False
   Confianza: 0.75
   Componentes faltantes: ['postal_code']

3. Direcci√≥n: 'Av. Insurgentes Sur 1234, Colonia del Valle, Ciudad de M√©xico, 03100'
   Completa: True
   Confianza: 1.00
   Componentes faltantes: []

4. Direcci√≥n: 'Madrid'
   Completa: False
   Confianza: 0.00
   Componentes faltantes: ['street_number', 'street_name', 'city', 'postal_code']

5. Direcci√≥n: ''
   Completa: False
   Confianza: 0.00
   Componentes faltantes: ['address']

6. Direcci√≥n: 'c/ Gran V√≠a 25, Madrid, 28013'
   Completa: True
   Confianza: 1.00
   Componentes faltantes: []



## 2. Normalizaci√≥n de Direcciones

Probemos la normalizaci√≥n de formatos de direcciones:

In [5]:
# Direcciones con diferentes formatos y abreviaciones
addresses_to_normalize = [
    "c/ gran via 25, madrid",
    "av. insurgentes sur 1234",
    "pl. mayor 15",
    "cr 15 # 123-45",
    "123 main st, new york",
    "456 oak ave, los angeles"
]

print("Normalizaci√≥n de direcciones:\n")
for address in addresses_to_normalize:
    normalized_es = enhancer.normalize_address_format(address, 'es')
    normalized_en = enhancer.normalize_address_format(address, 'en')
    
    print(f"Original: '{address}'")
    print(f"Normalizada (ES): '{normalized_es}'")
    print(f"Normalizada (EN): '{normalized_en}'")
    print()

Normalizaci√≥n de direcciones:

Original: 'c/ gran via 25, madrid'
Normalizada (ES): 'C/ Gran Via 25, Madrid'
Normalizada (EN): 'C/ Gran Via 25, Madrid'

Original: 'av. insurgentes sur 1234'
Normalizada (ES): 'Avenida. Insurgentes Sur 1234'
Normalizada (EN): 'Avenue. Insurgentes Sur 1234'

Original: 'pl. mayor 15'
Normalizada (ES): 'Plaza. Mayor 15'
Normalizada (EN): 'Place. Mayor 15'

Original: 'cr 15 # 123-45'
Normalizada (ES): 'Carrera 15 # 123-45'
Normalizada (EN): 'Cr 15 # 123-45'

Original: '123 main st, new york'
Normalizada (ES): '123 Main St, New York'
Normalizada (EN): '123 Main Street, New York'

Original: '456 oak ave, los angeles'
Normalizada (ES): '456 Oak Ave, Los Angeles'
Normalizada (EN): '456 Oak Avenue, Los Angeles'



## 3. Sugerencias de Correcci√≥n

Probemos las sugerencias de correcci√≥n para errores comunes:

In [6]:
# Direcciones con errores de tipeo
addresses_with_errors = [
    "callle mayor 25",  # 'callle' deber√≠a ser 'calle'
    "avendia reforma 123",  # 'avendia' deber√≠a ser 'avenida'
    "plasa de armas 15",  # 'plasa' deber√≠a ser 'plaza'
    "123 main stret",  # 'stret' deber√≠a ser 'street'
    "456 oak avenu"  # 'avenu' deber√≠a ser 'avenue'
]

print("Sugerencias de correcci√≥n:\n")
for address in addresses_with_errors:
    suggestions = enhancer.suggest_address_corrections(address)
    print(f"Original: '{address}'")
    print(f"Sugerencias: {suggestions}")
    print()

Sugerencias de correcci√≥n:

Original: 'callle mayor 25'
Sugerencias: ['Calle Mayor 25', 'Callle Mayor 25']

Original: 'avendia reforma 123'
Sugerencias: ['Avenida Reforma 123', 'Avendia Reforma 123']

Original: 'plasa de armas 15'
Sugerencias: ['Plaza De Armas 15', 'Plasa De Armas 15']

Original: '123 main stret'
Sugerencias: ['123 Main Street', '123 Main Stret']

Original: '456 oak avenu'
Sugerencias: ['456 Oak Avenue', '456 Oak Avenu']



## 4. Completado Inteligente de Direcciones

Probemos el completado de direcciones usando coordenadas y geocodificaci√≥n:

In [7]:
# Ejemplo 1: Completar usando coordenadas (geocodificaci√≥n inversa)
print("=== Completado usando coordenadas ===\n")

partial_address = "Calle 123"
coordinates = (40.4168, -3.7038)  # Madrid, Espa√±a

result = enhancer.complete_address(partial_address, coordinates, language='es')

print(f"Direcci√≥n parcial: '{result['original_address']}'")
print(f"Direcci√≥n completada: '{result['completed_address']}'")
print(f"M√©todo usado: {result['method_used']}")
print(f"Confianza: {result['confidence']:.2f}")
print(f"Componentes encontrados: {result['components']}")
print()

=== Completado usando coordenadas ===

Direcci√≥n parcial: 'Calle 123'
Direcci√≥n completada: 'Puerta del Sol, 7, 28013 Madrid, Espa√±a'
M√©todo usado: reverse_geocoding
Confianza: 0.90
Componentes encontrados: {'ISO_3166-1_alpha-2': 'ES', 'ISO_3166-1_alpha-3': 'ESP', 'ISO_3166-2': ['ES-MD'], '_category': 'building', '_normalized_city': 'Madrid', '_type': 'building', 'city': 'Madrid', 'city_district': 'Centro', 'continent': 'Europe', 'country': 'Espa√±a', 'country_code': 'es', 'house_number': '7', 'neighbourhood': 'Barrio de los Austrias', 'political_union': 'European Union', 'postcode': '28013', 'quarter': 'Sol', 'road': 'Puerta del Sol', 'state': 'Comunidad de Madrid', 'state_code': 'MD'}

Direcci√≥n parcial: 'Calle 123'
Direcci√≥n completada: 'Puerta del Sol, 7, 28013 Madrid, Espa√±a'
M√©todo usado: reverse_geocoding
Confianza: 0.90
Componentes encontrados: {'ISO_3166-1_alpha-2': 'ES', 'ISO_3166-1_alpha-3': 'ESP', 'ISO_3166-2': ['ES-MD'], '_category': 'building', '_normalized_city':

In [8]:
# Ejemplo 2: Completar usando geocodificaci√≥n directa
print("=== Completado usando geocodificaci√≥n directa ===\n")

partial_address = "Gran V√≠a, Madrid"

result = enhancer.complete_address(partial_address, language='es')

print(f"Direcci√≥n parcial: '{result['original_address']}'")
print(f"Direcci√≥n completada: '{result['completed_address']}'")
print(f"M√©todo usado: {result['method_used']}")
print(f"Confianza: {result['confidence']:.2f}")
if 'coordinates' in result:
    print(f"Coordenadas obtenidas: {result['coordinates']}")
print(f"Sugerencias: {result['suggestions']}")
print()

=== Completado usando geocodificaci√≥n directa ===

Direcci√≥n parcial: 'Gran V√≠a, Madrid'
Direcci√≥n completada: 'Gran V√≠a, 28013 Madrid, Espa√±a'
M√©todo usado: forward_geocoding
Confianza: 0.80
Coordenadas obtenidas: {'lat': 40.4220457, 'lng': -3.7087216}
Sugerencias: []

Direcci√≥n parcial: 'Gran V√≠a, Madrid'
Direcci√≥n completada: 'Gran V√≠a, 28013 Madrid, Espa√±a'
M√©todo usado: forward_geocoding
Confianza: 0.80
Coordenadas obtenidas: {'lat': 40.4220457, 'lng': -3.7087216}
Sugerencias: []



## 6. Validaci√≥n de C√≥digos Postales

Probemos la validaci√≥n de c√≥digos postales:

## 5. Limpieza de Caracteres Especiales

Una nueva funcionalidad integrada desde el sistema original: la limpieza de caracteres especiales en direcciones. Esto es √∫til para sistemas que no manejan bien Unicode o necesitan compatibilidad con sistemas legacy.

In [9]:
# Importar la funci√≥n de limpieza
from reverse_geocoding_batch_processor.address_enhancer import clean_address_text

# Ejemplos de direcciones con caracteres especiales
addresses_with_special_chars = [
    "Calle Mayor 25 (Madrid) - Espa√±a!!!",
    "Av. Insurgentes Sur #1234 @Colonia Roma",
    "123 Main St. <New York> {USA}",
    "c/ Gran V√≠a 15 [Centro] ~Madrid~",
    "R√∫a Jos√© Garc√≠a L√≥pez, 42 - Coru√±a/Espa√±a",
    "Caf√© Rep√∫blica 123 S√£o Paulo/Brasil"
]

print("=== Limpieza Conservadora (preserva acentos) ===\n")
for address in addresses_with_special_chars:
    cleaned = clean_address_text(address, aggressive=False)
    print(f"Original:  '{address}'")
    print(f"Limpia:    '{cleaned}'")
    print()

print("\n=== Limpieza Agresiva (elimina acentos) ===\n")
for address in addresses_with_special_chars:
    cleaned = clean_address_text(address, aggressive=True)
    print(f"Original:  '{address}'")
    print(f"Limpia:    '{cleaned}'")
    print()

=== Limpieza Conservadora (preserva acentos) ===

Original:  'Calle Mayor 25 (Madrid) - Espa√±a!!!'
Limpia:    'Calle Mayor 25 Madrid - Espa√±a'

Original:  'Av. Insurgentes Sur #1234 @Colonia Roma'
Limpia:    'Av. Insurgentes Sur 1234 Colonia Roma'

Original:  '123 Main St. <New York> {USA}'
Limpia:    '123 Main St. New York USA'

Original:  'c/ Gran V√≠a 15 [Centro] ~Madrid~'
Limpia:    'c Gran V√≠a 15 Centro Madrid'

Original:  'R√∫a Jos√© Garc√≠a L√≥pez, 42 - Coru√±a/Espa√±a'
Limpia:    'R√∫a Jos√© Garc√≠a L√≥pez, 42 - Coru√±aEspa√±a'

Original:  'Caf√© Rep√∫blica 123 S√£o Paulo/Brasil'
Limpia:    'Caf√© Rep√∫blica 123 S√£o PauloBrasil'


=== Limpieza Agresiva (elimina acentos) ===

Original:  'Calle Mayor 25 (Madrid) - Espa√±a!!!'
Limpia:    'Calle Mayor 25 Madrid - Espana'

Original:  'Av. Insurgentes Sur #1234 @Colonia Roma'
Limpia:    'Av. Insurgentes Sur 1234 Colonia Roma'

Original:  '123 Main St. <New York> {USA}'
Limpia:    '123 Main St. New York USA'

Original:  'c/ Gran V

In [10]:
# Demostrar completado de direcciones con limpieza de caracteres especiales
print("=== Completado de Direcciones CON Limpieza ===\n")

# Direcci√≥n parcial con caracteres especiales problem√°ticos
partial_address_special = "Gran V√≠a!!! (Madrid)"
coordinates = (40.4200, -3.7025)  # Madrid, Espa√±a

# Completar SIN limpieza
result_no_clean = enhancer.complete_address(
    partial_address_special, 
    coordinates, 
    language='es', 
    clean_special_chars=False
)

print("SIN limpieza de caracteres especiales:")
print(f"  Direcci√≥n completada: '{result_no_clean['completed_address']}'")
print()

# Completar CON limpieza conservadora
result_clean = enhancer.complete_address(
    partial_address_special, 
    coordinates, 
    language='es', 
    clean_special_chars=True,
    aggressive=False
)

print("CON limpieza conservadora:")
print(f"  Direcci√≥n completada: '{result_clean['completed_address']}'")
print()

# Completar CON limpieza agresiva
result_aggressive = enhancer.complete_address(
    partial_address_special, 
    coordinates, 
    language='es', 
    clean_special_chars=True,
    aggressive=True
)

print("CON limpieza agresiva:")
print(f"  Direcci√≥n completada: '{result_aggressive['completed_address']}'")
print()

# Comparar componentes limpiados
if 'components' in result_clean:
    print("Componentes con limpieza conservadora:")
    for key, value in result_clean['components'].items():
        if value:
            print(f"  {key}: '{value}'")
    print()

if 'components' in result_aggressive:
    print("Componentes con limpieza agresiva:")
    for key, value in result_aggressive['components'].items():
        if value:
            print(f"  {key}: '{value}'")

=== Completado de Direcciones CON Limpieza ===

SIN limpieza de caracteres especiales:
  Direcci√≥n completada: 'Calle Gran Via, 25, 28013 Madrid, Espa√±a'

SIN limpieza de caracteres especiales:
  Direcci√≥n completada: 'Calle Gran Via, 25, 28013 Madrid, Espa√±a'

CON limpieza conservadora:
  Direcci√≥n completada: 'Calle Gran Via, 25, 28013 Madrid, Espa√±a'

CON limpieza conservadora:
  Direcci√≥n completada: 'Calle Gran Via, 25, 28013 Madrid, Espa√±a'

CON limpieza agresiva:
  Direcci√≥n completada: 'Calle Gran Via, 25, 28013 Madrid, Espana'

Componentes con limpieza conservadora:
  ISO_3166-1_alpha-2: 'ES'
  ISO_3166-1_alpha-3: 'ESP'
  ISO_3166-2: '['ES-MD', 'ES-M']'
  _category: 'building'
  _normalized_city: 'Madrid'
  _type: 'building'
  city: 'Madrid'
  continent: 'Europe'
  country: 'Espa√±a'
  country_code: 'es'
  county: 'Madrid'
  county_code: 'M'
  house_number: '25'
  political_union: 'European Union'
  postcode: '28013'
  road: 'Calle Gran Via'
  state: 'Comunidad de Mad

In [11]:
# C√≥digos postales de diferentes pa√≠ses
postal_codes_test = [
    ('28013', 'ES'),  # Espa√±a - v√°lido
    ('12345', 'US'),  # Estados Unidos - v√°lido
    ('K1A 0A9', 'CA'),  # Canad√° - v√°lido
    ('12345-6789', 'US'),  # Estados Unidos ZIP+4 - v√°lido
    ('123', 'ES'),  # Espa√±a - inv√°lido (muy corto)
    ('ABC123', None),  # Sin pa√≠s - intentar detectar
    ('', 'ES'),  # Vac√≠o
]

print("Validaci√≥n de c√≥digos postales:\n")
for postal_code, country in postal_codes_test:
    validation = enhancer.validate_postal_code(postal_code, country)
    print(f"C√≥digo: '{postal_code}' (Pa√≠s: {country})")
    print(f"V√°lido: {validation['is_valid']}")
    if 'reason' in validation:
        print(f"Raz√≥n: {validation['reason']}")
    if 'possible_country' in validation:
        print(f"Pa√≠s posible: {validation['possible_country']}")
    print()

Validaci√≥n de c√≥digos postales:

C√≥digo: '28013' (Pa√≠s: ES)
V√°lido: True

C√≥digo: '12345' (Pa√≠s: US)
V√°lido: True

C√≥digo: 'K1A 0A9' (Pa√≠s: CA)
V√°lido: True

C√≥digo: '12345-6789' (Pa√≠s: US)
V√°lido: True

C√≥digo: '123' (Pa√≠s: ES)
V√°lido: False

C√≥digo: 'ABC123' (Pa√≠s: None)
V√°lido: False
Raz√≥n: no_pattern_match

C√≥digo: '' (Pa√≠s: ES)
V√°lido: False
Raz√≥n: empty_postal_code



## 7. Enriquecimiento de Datos Geogr√°ficos

Probemos el enriquecimiento completo de datos de ubicaci√≥n:

In [12]:
# Datos b√°sicos de direcci√≥n para enriquecer
basic_address_data = {
    'address': 'Puerta del Sol, Madrid, Espa√±a'
}

print("Enriqueciendo datos de ubicaci√≥n...\n")
enriched = enhancer.enrich_location_data(basic_address_data)

# Mostrar resultados de forma organizada
print("=== DATOS ENRIQUECIDOS ===")
print(f"Direcci√≥n original: {enriched.get('address', 'N/A')}")

if 'coordinates' in enriched:
    print(f"\nüìç Coordenadas:")
    print(f"   Latitud: {enriched['coordinates']['lat']}")
    print(f"   Longitud: {enriched['coordinates']['lng']}")

if 'timezone' in enriched:
    print(f"\nüïê Zona horaria:")
    print(f"   Nombre: {enriched['timezone']['name']}")
    print(f"   Offset: {enriched['timezone']['offset_string']}")

if 'administrative_levels' in enriched:
    admin = enriched['administrative_levels']
    print(f"\nüèõÔ∏è Niveles administrativos:")
    print(f"   Pa√≠s: {admin['country']} ({admin['country_code']})")
    print(f"   Estado/Provincia: {admin['state']}")
    print(f"   Ciudad: {admin['city']}")
    print(f"   Barrio: {admin['neighbourhood']}")

if 'geographic_info' in enriched:
    geo = enriched['geographic_info']
    print(f"\nüåç Informaci√≥n geogr√°fica:")
    print(f"   C√≥digo postal: {geo['postcode']}")
    print(f"   Continente: {geo['continent']}")
    print(f"   Moneda: {geo.get('currency', {}).get('name', 'N/A')}")
    print(f"   C√≥digo telef√≥nico: +{geo['calling_code']}")
    print(f"   Geohash: {geo['geohash']}")

print(f"\n‚è∞ Procesado en: {enriched.get('enrichment_timestamp', 'N/A')}")

Enriqueciendo datos de ubicaci√≥n...

=== DATOS ENRIQUECIDOS ===
Direcci√≥n original: Puerta del Sol, Madrid, Espa√±a

üìç Coordenadas:
   Latitud: 40.416863
   Longitud: -3.7038762

üïê Zona horaria:
   Nombre: Europe/Madrid
   Offset: +0200

üèõÔ∏è Niveles administrativos:
   Pa√≠s: Spain (es)
   Estado/Provincia: Madrid
   Ciudad: Madrid
   Barrio: Barrio de los Austrias

üåç Informaci√≥n geogr√°fica:
   C√≥digo postal: 28013
   Continente: 
   Moneda: Euro
   C√≥digo telef√≥nico: +34
   Geohash: ezjmgtwgx303brpt3u2c

‚è∞ Procesado en: 2025-09-04T14:25:56.923917
=== DATOS ENRIQUECIDOS ===
Direcci√≥n original: Puerta del Sol, Madrid, Espa√±a

üìç Coordenadas:
   Latitud: 40.416863
   Longitud: -3.7038762

üïê Zona horaria:
   Nombre: Europe/Madrid
   Offset: +0200

üèõÔ∏è Niveles administrativos:
   Pa√≠s: Spain (es)
   Estado/Provincia: Madrid
   Ciudad: Madrid
   Barrio: Barrio de los Austrias

üåç Informaci√≥n geogr√°fica:
   C√≥digo postal: 28013
   Continente: 
   Moneda

## 8. Procesamiento en Lote

Vamos a crear un archivo de ejemplo y procesarlo en lote:

In [13]:
# Crear datos de ejemplo
sample_data = [
    {'address': 'c/ gran via 25', 'lat': 40.4200, 'lng': -3.7025},
    {'address': 'Sagrada Familia, Barcelona'},
    {'address': 'plasa mayor, madrid'},
    {'address': 'Times Square', 'city': 'New York'},
    {'address': 'callle reforma 123', 'country': 'Mexico'}
]

# Crear DataFrame
df_sample = pd.DataFrame(sample_data)
print("Datos de ejemplo:")
print(df_sample)
print()

# Guardar como CSV temporal
sample_file = 'sample_addresses_temp.csv'
df_sample.to_csv(sample_file, index=False)
print(f"Datos guardados en {sample_file}")

Datos de ejemplo:
                      address    lat     lng      city country
0              c/ gran via 25  40.42 -3.7025       NaN     NaN
1  Sagrada Familia, Barcelona    NaN     NaN       NaN     NaN
2         plasa mayor, madrid    NaN     NaN       NaN     NaN
3                Times Square    NaN     NaN  New York     NaN
4          callle reforma 123    NaN     NaN       NaN  Mexico

Datos guardados en sample_addresses_temp.csv


In [14]:
# Procesar en lote
print("Procesando direcciones en lote...\\n")

# Convertir a lista de diccionarios
addresses_to_process = df_sample.to_dict('records')

# Procesar (usando delay corto para demo)
enhanced_addresses = enhancer.process_address_batch(
    addresses_to_process, 
    delay=0.5,  # Delay corto para la demo
    language='es',
    clean_special_chars=True,  # üÜï Activar limpieza de caracteres especiales
    aggressive=False  # üÜï Usar limpieza conservadora (preservar acentos)
)

print("\\n=== RESULTADOS DEL PROCESAMIENTO EN LOTE ===\\n")
print("‚ú® Nuevo: Procesamiento incluye limpieza de caracteres especiales")

Procesando direcciones en lote...\n
Procesando direcci√≥n 1/5
Procesando direcci√≥n 2/5
Procesando direcci√≥n 2/5
Procesando direcci√≥n 3/5
Procesando direcci√≥n 3/5
Procesando direcci√≥n 4/5
Procesando direcci√≥n 4/5
Procesando direcci√≥n 5/5
\n=== RESULTADOS DEL PROCESAMIENTO EN LOTE ===\n
‚ú® Nuevo: Procesamiento incluye limpieza de caracteres especiales
Procesando direcci√≥n 5/5
\n=== RESULTADOS DEL PROCESAMIENTO EN LOTE ===\n
‚ú® Nuevo: Procesamiento incluye limpieza de caracteres especiales


In [15]:
# Mostrar resultados del procesamiento
for i, addr in enumerate(enhanced_addresses, 1):
    print(f"=== Direcci√≥n {i} ===")
    print(f"Original: {addr.get('address', 'N/A')}")
    print(f"Completada: {addr.get('completed_address', 'N/A')}")
    print(f"Normalizada: {addr.get('normalized_address', 'N/A')}")
    print(f"M√©todo usado: {addr.get('method_used', 'N/A')}")
    
    if 'quality_metrics' in addr:
        metrics = addr['quality_metrics']
        print(f"Puntuaci√≥n de completitud: {metrics['completeness_score']:.2f}")
        print(f"Tiene coordenadas: {metrics['has_coordinates']}")
    
    if 'coordinates' in addr:
        print(f"Coordenadas: ({addr['coordinates']['lat']:.4f}, {addr['coordinates']['lng']:.4f})")
    
    if 'administrative_levels' in addr:
        admin = addr['administrative_levels']
        print(f"Pa√≠s: {admin.get('country', 'N/A')}")
        print(f"Ciudad: {admin.get('city', 'N/A')}")
    
    print()

=== Direcci√≥n 1 ===
Original: c/ gran via 25
Completada: Calle Gran Via, 25, 28013 Madrid, Espa√±a
Normalizada: Calle Gran Via, 25, 28013 Madrid, Espa√±a
M√©todo usado: reverse_geocoding
Puntuaci√≥n de completitud: 0.50
Tiene coordenadas: True
Pa√≠s: Spain
Ciudad: Madrid

=== Direcci√≥n 2 ===
Original: Sagrada Familia, Barcelona
Completada: Sagrada Familia, Barcelona
Normalizada: Sagrada Familia, Barcelona
M√©todo usado: error
Puntuaci√≥n de completitud: 0.25
Tiene coordenadas: True

=== Direcci√≥n 3 ===
Original: plasa mayor, madrid
Completada: plasa mayor, madrid
Normalizada: Plasa Mayor, Madrid
M√©todo usado: error
Puntuaci√≥n de completitud: 0.25
Tiene coordenadas: True

=== Direcci√≥n 4 ===
Original: Times Square
Completada: Times Square
Normalizada: Times Square
M√©todo usado: error
Puntuaci√≥n de completitud: 0.00
Tiene coordenadas: True

=== Direcci√≥n 5 ===
Original: callle reforma 123
Completada: callle reforma 123
Normalizada: Callle Reforma 123
M√©todo usado: error
Puntuac

In [16]:
# Demostrar diferentes opciones de limpieza
test_data_special = [
    {'address': 'c/ gran via 25 (madrid)!!! @espa√±a'},
    {'address': 'av. insurgentes #1234 <m√©xico>'},
    {'address': 'r√∫a jos√© garc√≠a l√≥pez 42 ~coru√±a~'}
]

print("=== COMPARACI√ìN DE OPCIONES DE LIMPIEZA ===\\n")

# Procesar SIN limpieza
print("1. SIN limpieza:")
result_no_clean = enhancer.process_address_batch(
    test_data_special.copy(), 
    delay=0.3, 
    language='es',
    clean_special_chars=False
)
for i, addr in enumerate(result_no_clean, 1):
    print(f"   {i}. '{addr.get('completed_address', addr.get('address', 'N/A'))}'")

print("\\n2. CON limpieza conservadora:")
result_conservative = enhancer.process_address_batch(
    test_data_special.copy(), 
    delay=0.3, 
    language='es',
    clean_special_chars=True,
    aggressive=False
)
for i, addr in enumerate(result_conservative, 1):
    print(f"   {i}. '{addr.get('completed_address', addr.get('address', 'N/A'))}'")

print("\\n3. CON limpieza agresiva:")
result_aggressive = enhancer.process_address_batch(
    test_data_special.copy(), 
    delay=0.3, 
    language='es',
    clean_special_chars=True,
    aggressive=True
)
for i, addr in enumerate(result_aggressive, 1):
    print(f"   {i}. '{addr.get('completed_address', addr.get('address', 'N/A'))}'")

print("\\nüîç Observa c√≥mo los caracteres especiales (!, @, <>, ~) son removidos")
print("üîç En modo agresivo, tambi√©n se eliminan los acentos (√∫ ‚Üí u)")

=== COMPARACI√ìN DE OPCIONES DE LIMPIEZA ===\n
1. SIN limpieza:
Procesando direcci√≥n 1/3
Procesando direcci√≥n 2/3
Procesando direcci√≥n 2/3
Procesando direcci√≥n 3/3
Procesando direcci√≥n 3/3
   1. 'Palazzo, Calle Gran V√≠a, 25, 28220 Majadahonda, Espa√±a'
   2. 'Calle Insurgentes Sur 1234, Los Reyes, 36570 Irapuato, GUA, M√©xico'
   3. 'La Coru√±a, Galicia, Espa√±a'
\n2. CON limpieza conservadora:
Procesando direcci√≥n 1/3
   1. 'Palazzo, Calle Gran V√≠a, 25, 28220 Majadahonda, Espa√±a'
   2. 'Calle Insurgentes Sur 1234, Los Reyes, 36570 Irapuato, GUA, M√©xico'
   3. 'La Coru√±a, Galicia, Espa√±a'
\n2. CON limpieza conservadora:
Procesando direcci√≥n 1/3
Procesando direcci√≥n 2/3
Procesando direcci√≥n 2/3
Procesando direcci√≥n 3/3
Procesando direcci√≥n 3/3
   1. 'Palazzo, Calle Gran V√≠a, 25, 28220 Majadahonda, Espa√±a'
   2. 'Calle Insurgentes Sur 1234, Los Reyes, 36570 Irapuato, GUA, M√©xico'
   3. 'La Coru√±a, Galicia, Espa√±a'
\n3. CON limpieza agresiva:
Procesando direcci√≥n 1/

In [17]:
# Exportar resultados
output_file = 'enhanced_addresses_demo.csv'
enhancer.export_enhanced_addresses(enhanced_addresses, output_file, 'csv')

print(f"‚úì Resultados exportados a {output_file}")

# Mostrar algunas estad√≠sticas
df_results = pd.read_csv(output_file)
print(f"\nEstad√≠sticas del procesamiento:")
print(f"Total de direcciones procesadas: {len(df_results)}")
print(f"Columnas generadas: {len(df_results.columns)}")
print(f"\nPrimeras columnas: {list(df_results.columns[:10])}")

Direcciones enriquecidas exportadas a enhanced_addresses_demo.csv
‚úì Resultados exportados a enhanced_addresses_demo.csv

Estad√≠sticas del procesamiento:
Total de direcciones procesadas: 5
Columnas generadas: 67

Primeras columnas: ['address', 'lat', 'lng', 'city', 'country', 'original_address', 'completed_address', 'method_used', 'confidence', 'components_ISO_3166-1_alpha-2']


In [18]:
# Limpiar archivos temporales
import os

try:
    os.remove(sample_file)
    print(f"Archivo temporal {sample_file} eliminado")
except:
    pass

print("\nüéâ ¬°Demo completada! El sistema de limpieza y enriquecimiento est√° funcionando correctamente.")

Archivo temporal sample_addresses_temp.csv eliminado

üéâ ¬°Demo completada! El sistema de limpieza y enriquecimiento est√° funcionando correctamente.


## Integraci√≥n con el Sistema Existente

El nuevo sistema se integra perfectamente con tu herramienta de geocodificaci√≥n reversa existente:

1. **Usa las mismas dependencias** (python-dotenv, opencage, pandas)
2. **Comparte la misma API key** de OpenCage
3. **Extiende las funcionalidades** sin romper el c√≥digo existente
4. **Mantiene compatibilidad** con los formatos de datos actuales
5. **üÜï Incluye limpieza de caracteres especiales** como en el sistema original

### Uso desde l√≠nea de comandos:
```bash
# B√°sico
python reverse_geocoding_batch_processor/address_enhancer.py input_addresses.csv -o enhanced_output.csv --language es

# Con limpieza de caracteres especiales
python reverse_geocoding_batch_processor/address_enhancer.py input_addresses.csv -o enhanced_output.csv --language es --clean

# Con limpieza agresiva (elimina tambi√©n acentos)
python reverse_geocoding_batch_processor/address_enhancer.py input_addresses.csv -o enhanced_output.csv --language es --clean --aggressive
```

### Uso program√°tico:
```python
from address_enhancer import AddressEnhancer

enhancer = AddressEnhancer()

# Completado b√°sico
result = enhancer.complete_address("calle incompleta", coordinates=(lat, lng))

# Completado con limpieza conservadora
result = enhancer.complete_address(
    "calle!!! incompleta@", 
    coordinates=(lat, lng),
    clean_special_chars=True,
    aggressive=False
)

# Completado con limpieza agresiva
result = enhancer.complete_address(
    "calle!!! incompl√©t√°@", 
    coordinates=(lat, lng),
    clean_special_chars=True,
    aggressive=True  # "incompl√©t√°" se convierte en "incompleta"
)

# Procesamiento en lote con limpieza
enhanced = enhancer.process_address_batch(
    addresses, 
    clean_special_chars=True,
    aggressive=False
)
```

### üÜï Nuevas Funcionalidades de Limpieza:

| Opci√≥n | Descripci√≥n | Ejemplo |
|--------|-------------|---------|
| `clean_special_chars=False` | Sin limpieza (por defecto) | `"Calle Mayor!!! @Madrid"` ‚Üí Sin cambios |
| `clean_special_chars=True, aggressive=False` | Limpieza conservadora | `"Calle Mayor!!! @Madrid"` ‚Üí `"Calle Mayor Madrid"` |
| `clean_special_chars=True, aggressive=True` | Limpieza agresiva | `"Calle Alcal√°!!! @Madrid"` ‚Üí `"Calle Alcala Madrid"` |

### Caracteres que se eliminan:
- **Conservadora**: `? ¬ø ! ¬° @ # $ % ^ & * ( ) _ + = < > { } [ ] | \\ / : ; " ' ` ~`
- **Agresiva**: Los anteriores + acentos (`√° √© √≠ √≥ √∫ √† √® √¨ √≤ √π √§ √´ √Ø √∂ √º √¢ √™ √Æ √¥ √ª √£ ·∫Ω ƒ© √µ ≈© √± √ß √ü`)

### ‚öôÔ∏è Integraci√≥n con el Sistema Original:
Esta funcionalidad est√° basada en la funci√≥n `clean_address_text()` del sistema original `reverse_geocoding_batch.py`, manteniendo la misma l√≥gica y comportamiento para garantizar consistencia entre las herramientas.