# 🚀 Prueba Técnica



In [29]:
# 1) Instalar dependencias
!pip -q install pdfplumber rapidfuzz python-dateutil pandas numpy requests folium openpyxl python-dotenv reportlab boto3

## 2) Cargar **kit .zip**



In [30]:
from google.colab import files
import io, zipfile, os

print('👉 Selecciona el archivo: *wenia_prueba_ops_kit.zip*')
uploaded = files.upload()
zip_name = next(iter(uploaded))
os.makedirs('/content/wenia_prueba_ops', exist_ok=True)
with zipfile.ZipFile(io.BytesIO(uploaded[zip_name]), 'r') as z:
    z.extractall('/content/wenia_prueba_ops')
print('✅ Extraído en /content/wenia_prueba_ops')

👉 Selecciona el archivo: *wenia_prueba_ops_kit.zip*


Saving wenia_prueba_ops_kit.zip to wenia_prueba_ops_kit (2).zip
✅ Extraído en /content/wenia_prueba_ops


## 3) Carga de documento


In [31]:
from google.colab import files
import os, shutil
proj = '/content/wenia_prueba_ops'
data_dir = os.path.join(proj, 'data')
os.makedirs(data_dir, exist_ok=True)
print('👉 Sube tu archivo PDF/TXT (si no, se usará el demo incluido).')
up2 = files.upload()
if up2:
    fname = next(iter(up2))
    ext = os.path.splitext(fname)[1].lower()
    # Se renombra a input con su misma extensión
    target = os.path.join(data_dir, 'input'+ext)
    shutil.move(fname, target)
    print('✅ Guardado como', target)
else:
    print('ℹ️ No subiste archivo: puedes usar data/demo_direccion.pdf que ya viene en el kit.')

👉 Sube tu archivo PDF/TXT (si no, se usará el demo incluido).


Saving demo_direccion.txt to demo_direccion.txt
✅ Guardado como /content/wenia_prueba_ops/data/input.txt


## 4)
**Google Maps Geocoding API Key**


In [37]:
import os
GOOGLE_MAPS_API_KEY = 'AIzaSyAG3OoMDMLHKDHfsQXCxGAaXn92RKNX9L8'  # <-- pega aquí tu API key si la tienes
if GOOGLE_MAPS_API_KEY:
    os.environ['GOOGLE_MAPS_API_KEY'] = GOOGLE_MAPS_API_KEY
    print('🔑 Google API key configurada en el entorno.')
else:
    print('ℹ️ Sin API key: se saltará la geocodificación.')

🔑 Google API key configurada en el entorno.


In [33]:
from pathlib import Path
code = r'''
import re
from typing import List

CANON_MAP = {
    "cra": "carrera", "kr": "carrera", "kra": "carrera",
    "cll": "calle", "av.": "avenida", "av": "avenida",
    "trv": "transversal", "transv": "transversal", "dg": "diagonal",
}
NUM_WORDS = ["#", "nro", "numero", "num", "no"]

def normalize_spaces(s: str) -> str:
    return re.sub(r"\s+", " ", s).strip()

def canonicalize(addr: str) -> str:
    s = addr.lower()
    s = re.sub(r"[\.,;]", " ", s)
    s = s.replace("–", "-").replace("—", "-")
    s = normalize_spaces(s)
    parts = s.split()
    if parts:
        head = parts[0]
        rep = CANON_MAP.get(head, head)
        parts[0] = rep
    s = " ".join(parts)
    s = s.replace(" - ", " ").replace("-", " ")
    s = s.replace("#", "# ")
    s = normalize_spaces(s)
    return s

def generate_variants(addr: str) -> List[str]:
    s = canonicalize(addr)
    if not s:
        return []

    head = s.split()[0]
    via_options = {head}
    for k, v in CANON_MAP.items():
        if v == head:
            via_options.add(k)

    # VIA N1 NUMWORD? N2 - N3
    m = re.search(r"(\D+)\s+(\d+)\s*(?:#|nro|numero|num|no)?\s*([0-9a-zA-Z]+)\s*[- ]?\s*(\d+)", s)
    if not m:
        return [s]

    _, n1, n2, n3 = m.groups()

    variants = set()
    for via in via_options:
        for nw in NUM_WORDS + ["#"]:
            for sep in [" ", " - ", " -", "- ", "-", " "]:
                v = f"{via} {n1} {nw} {n2}{sep}{n3}"
                variants.add(normalize_spaces(v))
                v2 = f"{via} {n1} {nw} {n2} {n3}"
                variants.add(normalize_spaces(v2))
                v3 = f"{via} {n1} # {n2}{sep}{n3}"
                variants.add(normalize_spaces(v3))

    if head == "carrera":
        variants.add(normalize_spaces(s.replace("carrera", "calle")))
    elif head == "calle":
        variants.add(normalize_spaces(s.replace("calle", "carrera")))

    return sorted(variants)
'''
Path('/content/wenia_prueba_ops/src/variants.py').write_text(code, encoding='utf-8')
print('✅ variants.py corregido')


✅ variants.py corregido


## 5) Ejecutar el **pipeline**

In [34]:
import os, glob, subprocess, sys
proj = '/content/wenia_prueba_ops'
os.chdir(proj)

# Detectar input preferido
candidates = [
    'data/input.pdf', 'data/input.txt', 'data/input.csv',
    'data/demo_direccion.pdf'
]
docs = [c for c in candidates if os.path.exists(c)]
if not docs:
    raise SystemExit('No hay documentos en data/. Sube alguno en el paso 3.')

print('Usando documentos:', docs)
res = subprocess.run([sys.executable, 'run.py', '--docs', *docs, '--threshold', '90'], capture_output=True, text=True)
print(res.stdout)
print(res.stderr)

Usando documentos: ['data/input.pdf', 'data/input.txt', 'data/demo_direccion.pdf']
🗺️  Mapa creado: outputs/mapa.html
✅ Listo. Revisa la carpeta 'outputs'.




## 6) Ver resultados
Mostramos el CSV/Excel y el mapa (si hubo coordenadas).

In [35]:
import pandas as pd, os
from IPython.display import display, IFrame, HTML

out_csv = 'outputs/resultados.csv'
out_xlsx = 'outputs/resultados.xlsx'
map_html = 'outputs/mapa.html'

if os.path.exists(out_csv):
    df = pd.read_csv(out_csv)
    display(df.head(20))
else:
    print('No se encontró', out_csv)

if os.path.exists(out_xlsx):
    print('✅ Excel listo:', out_xlsx)
else:
    print('ℹ️ No hay Excel, revisa mensajes de ejecución.')

if os.path.exists(map_html):
    display(IFrame(map_html, width='100%', height=480))
else:
    print('ℹ️ No se generó mapa (probablemente sin API key o sin coordenadas).')

Unnamed: 0,documento,direccion_original,direccion_variacion,similitud_pct,lat,lon
0,input.pdf,carrera 70 # 26a 33,carrera 70 # 26a - 33,100.0,6.2287,-75.591641
1,input.pdf,carrera 70 # 26a 33,carrera 70 # 26a 33,100.0,6.2287,-75.591641
2,input.pdf,carrera 70 # 26a 33,carrera 70 # 26a -33,97.435897,6.2287,-75.591641
3,input.pdf,carrera 70 # 26a 33,carrera 70 # 26a- 33,97.435897,6.2287,-75.591641
4,input.pdf,carrera 70 # 26a 33,carrera 70 # 26a-33,94.736842,6.2287,-75.591641
5,input.pdf,carrera 70 # 26a 33,carrera 70 no 26a - 33,94.444444,6.2287,-75.591641
6,input.pdf,carrera 70 # 26a 33,carrera 70 no 26a 33,94.444444,6.2287,-75.591641
7,input.pdf,carrera 70 # 26a 33,carrera 70 nro 26a - 33,94.444444,6.2287,-75.591641
8,input.pdf,carrera 70 # 26a 33,carrera 70 nro 26a 33,94.444444,6.2287,-75.591641
9,input.pdf,carrera 70 # 26a 33,carrera 70 num 26a - 33,94.444444,6.2287,-75.591641


✅ Excel listo: outputs/resultados.xlsx


In [36]:
# @title Descargar mapa y documento con variables de direcciones
from google.colab import files
files.download('outputs/resultados.xlsx')   # Excel
files.download('outputs/resultados.csv')    # CSV
files.download('outputs/mapa.html')         # Mapa HTML


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>