In [None]:
# --- 01.Datos de Muestra.ipynb | Descarga 3 tablas y guarda CSV con ruta automática (pathlib) ---

# instala dependencias si aún no están
!pip install pandas requests --quiet

from pathlib import Path
import json
import requests
import pandas as pd

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 160)

# 1) Ruta base automática: carpeta "data" al lado del notebook
RUTA_BASE = Path().resolve() / "data"
RUTA_BASE.mkdir(parents=True, exist_ok=True)
print("📁 Carpeta de datos:", RUTA_BASE)

# 2) Endpoints y nombres de salida
ENDPOINTS = [
    {
        "name": "orders",
        "url": "https://kaiken.up.railway.app/webhook/order-sample",
        "outfile": "order_sample.csv",
    },
    {
        "name": "products",
        "url": "https://kaiken.up.railway.app/webhook/product-sample",
        "outfile": "product_sample.csv",
    },
    {
        "name": "tenders",
        "url": "https://kaiken.up.railway.app/webhook/tender-sample",
        "outfile": "tender_sample.csv",
    },
]

# 3) Utilidad: normalizar JSON a DataFrame (soporta lista/dict)
def to_dataframe(payload):
    """
    Convierte payload JSON a DataFrame:
    - Lista de dicts -> DataFrame directo
    - Dict con listas internas -> normaliza la primera lista encontrada
    - Dict plano -> una sola fila
    """
    if isinstance(payload, list):
        return pd.json_normalize(payload)
    if isinstance(payload, dict):
        for k, v in payload.items():
            if isinstance(v, list):
                return pd.json_normalize(v)
        return pd.json_normalize(payload)
    return pd.DataFrame()  # si no es lista/dict

# 4) Descarga, normalización y guardado
resumen = []
for ep in ENDPOINTS:
    nombre = ep["name"]
    url = ep["url"]
    out_path = RUTA_BASE / ep["outfile"]

    try:
        resp = requests.get(url, timeout=30)
        resp.raise_for_status()
        data = resp.json()

        df = to_dataframe(data)
        df.to_csv(out_path, index=False, sep=";", encoding="utf-8")

        resumen.append({
            "tabla": nombre,
            "archivo": str(out_path),
            "filas": len(df),
            "columnas": len(df.columns),
            "ok": True
        })
        print(f"✅ {nombre}: {out_path.name} guardado ({len(df)} filas x {len(df.columns)} cols)")
    except requests.exceptions.RequestException as e:
        resumen.append({"tabla": nombre, "archivo": str(out_path), "error": str(e), "ok": False})
        print(f"❌ {nombre}: error de red/HTTP -> {e}")
    except (ValueError, json.JSONDecodeError) as e:
        resumen.append({"tabla": nombre, "archivo": str(out_path), "error": f"JSON inválido: {e}", "ok": False})
        print(f"❌ {nombre}: respuesta no es JSON válido -> {e}")
    except Exception as e:
        resumen.append({"tabla": nombre, "archivo": str(out_path), "error": str(e), "ok": False})
        print(f"❌ {nombre}: error inesperado -> {e}")

# 5) Resumen y vista previa (si existen los CSV)
print("\n--- Resumen ---")
display(pd.DataFrame(resumen))

for ep in ENDPOINTS:
    csv_path = RUTA_BASE / ep["outfile"]
    if csv_path.exists():
        try:
            preview = pd.read_csv(csv_path, sep=";", nrows=5, encoding="utf-8")
            print(f"\nVista previa: {csv_path.name}")
            display(preview)
        except Exception as e:
            print(f"(No se pudo mostrar vista previa de {csv_path.name}) -> {e}")


📁 Carpeta de datos: D:\OneDrive\data-projects\desafio-licitaciones-kaiken\scripts\data
✅ orders: order_sample.csv guardado (49 filas x 7 cols)
✅ products: product_sample.csv guardado (49 filas x 7 cols)
✅ tenders: tender_sample.csv guardado (13 filas x 9 cols)

--- Resumen ---


Unnamed: 0,tabla,archivo,filas,columnas,ok
0,orders,D:\OneDrive\data-projects\desafio-licitaciones...,49,7,True
1,products,D:\OneDrive\data-projects\desafio-licitaciones...,49,7,True
2,tenders,D:\OneDrive\data-projects\desafio-licitaciones...,13,9,True



Vista previa: order_sample.csv


Unnamed: 0,row_number,id,tender_id,product_id,quantity,price,observation
0,2,2306267LE24-2000000013651,2306267LE24,2000000013651,1,35000.0,
1,3,2306267LE24-2000000012799,2306267LE24,2000000012799,1,32200.0,
2,4,2306267LE24-2000000013731,2306267LE24,2000000013731,24,21000.0,
3,5,440435LE25-2000000024594,440435LE25,2000000024594,1,280.0,
4,6,440435LE25-2000000024595,440435LE25,2000000024595,1,1726.2,



Vista previa: product_sample.csv


Unnamed: 0,row_number,sku,title,description,cost,created_at,updated_at
0,2,2000000013651,SOFTWARE DOCENTE,,25000,2025-07-09,2025-07-09
1,3,2000000012799,Factura Ingram 2500906,,23000,2025-07-09,2025-07-09
2,4,2000000013731,LICENCIAS OFFICE HOME 2024,,15000,2025-07-09,2025-07-09
3,5,2000000024594,bolsas tnt,,200,2025-07-09,2025-07-09
4,6,2000000024595,7260 Goma mediana,,1233,2025-07-09,2025-07-09



Vista previa: tender_sample.csv


Unnamed: 0,row_number,id,client,creation_date,delivery_date,delivery_address,contact_phone,contact_email,margin
0,2,2698-56-LE24,I MUNICIPALIDAD DE CARTAGENA,2024-11-29,2024-12-29,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,0.4
1,3,3736-76-LE24,I MUNICIPALIDAD DE LAJA,2024-08-08,2024-09-07,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,0.4
2,4,1110404-7-LE25,SERVICIO LOCAL DE EDUCACION DE CHINCHORRO,2025-02-03,2025-03-05,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,0.4
3,5,2289-53-LE23,I MUNICIPALIDAD DE FRUTILLAR,2023-11-22,2023-12-22,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,0.4
4,6,5586-9-LE24-2,UNIVERSIDAD DE LA FRONTERA,2024-03-01,2024-03-31,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,0.4


In [3]:
# --- Limpieza de datos: tabla de productos ---

import re
import pandas as pd
from pathlib import Path

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 160)

# 1) Ruta y carga del CSV original
RUTA_BASE = Path().resolve() / "data"
src = RUTA_BASE / "product_sample.csv"
dfp = pd.read_csv(src, sep=";", dtype={"sku": "string"}, keep_default_na=True)

# 2) Reglas de limpieza

# 2.1 Título en MAYÚSCULAS (preservando nulos)
if "title" in dfp.columns:
    dfp["title"] = dfp["title"].astype("string").str.upper()

# 2.2 'cost' a tipo numérico (float). Manejo robusto de formatos (comas/puntos, símbolos)
def parse_float(val):
    if pd.isna(val):
        return pd.NA
    s = str(val).strip()
    # conservar solo dígitos, signos y separadores , .
    s = re.sub(r"[^0-9,.\-]", "", s)
    if s.count(",") > 0 and s.count(".") > 0:
        # Asumir . como miles y , como decimales -> quitar puntos, cambiar coma a punto
        s = s.replace(".", "")
        s = s.replace(",", ".")
    elif s.count(",") > 0 and s.count(".") == 0:
        # Solo coma -> usarla como decimal
        s = s.replace(",", ".")
    # else: queda tal cual si ya venía con punto decimal o entero
    try:
        return float(s)
    except:
        return pd.NA

if "cost" in dfp.columns:
    dfp["cost"] = dfp["cost"].apply(parse_float).astype("Float64")  # float con soporte de NA

# 2.3 Crear campo de stock (inicialmente 0; puedes ajustarlo luego desde otra fuente)
dfp["stock"] = 0  # tipo int por defecto
dfp["stock"] = dfp["stock"].astype("Int64")  # permite NA si luego lo necesitas

# 2.4 Renombrar columnas
rename_map = {
    "sku": "sku_pro",
    "title": "nom_pro",
    "description": "desc_pro",
    "cost": "cost_prp",
    "created_at": "cre_pro",
    "updated_at": "upd_pro",
    # row_number se mantiene sin cambios
}
dfp = dfp.rename(columns=rename_map)

# 2.5 (Opcional) Orden sugerido de columnas si todas existen
orden = [
    "row_number", "sku_pro", "nom_pro", "desc_pro", "cost_prp",
    "stock", "cre_pro", "upd_pro"
]
cols_existentes = [c for c in orden if c in dfp.columns]
otras = [c for c in dfp.columns if c not in cols_existentes]
dfp = dfp[cols_existentes + otras]

# 3) Guardar CSV limpio
dst = RUTA_BASE / "product_sample_clean.csv"
dfp.to_csv(dst, index=False, sep=";", encoding="utf-8")
print(f"✅ Limpieza completada. Archivo guardado: {dst}")

# 4) Muestra de 5 filas
display(dfp.head(5))


✅ Limpieza completada. Archivo guardado: D:\OneDrive\data-projects\desafio-licitaciones-kaiken\scripts\data\product_sample_clean.csv


Unnamed: 0,row_number,sku_pro,nom_pro,desc_pro,cost_prp,stock,cre_pro,upd_pro
0,2,2000000013651,SOFTWARE DOCENTE,,25000.0,0,2025-07-09,2025-07-09
1,3,2000000012799,FACTURA INGRAM 2500906,,23000.0,0,2025-07-09,2025-07-09
2,4,2000000013731,LICENCIAS OFFICE HOME 2024,,15000.0,0,2025-07-09,2025-07-09
3,5,2000000024594,BOLSAS TNT,,200.0,0,2025-07-09,2025-07-09
4,6,2000000024595,7260 GOMA MEDIANA,,1233.0,0,2025-07-09,2025-07-09


In [4]:
# --- Crear tabla de clientes a partir de tender_sample ---

import pandas as pd
from pathlib import Path

# 1) Ruta y carga de tender_sample limpio
RUTA_BASE = Path().resolve() / "data"
src_tenders = RUTA_BASE / "tender_sample.csv"
dft = pd.read_csv(src_tenders, sep=";", dtype="string")

# 2) Construcción de la tabla de clientes
dfc = pd.DataFrame()

# ID automático
dfc["id_cli"] = range(1, len(dft) + 1)

# RUT (columna vacía, pendiente de completar)
dfc["rut_cli"] = pd.NA

# Nombre del cliente
dfc["nom_cli"] = dft["client"]

# Dirección del cliente
dfc["dir_cli"] = dft["delivery_address"]

# Teléfono
dfc["tel_cli"] = dft["contact_phone"]

# Correo
dfc["cor_cli"] = dft["contact_email"]

# Nombre de contacto (columna vacía)
dfc["con_cli"] = pd.NA

# 3) Guardar nueva tabla
dst_cli = RUTA_BASE / "clientes_sample.csv"
dfc.to_csv(dst_cli, index=False, sep=";", encoding="utf-8")

print(f"✅ Tabla de clientes creada: {dst_cli}")

# 4) Vista previa
display(dfc.head(5))


✅ Tabla de clientes creada: D:\OneDrive\data-projects\desafio-licitaciones-kaiken\scripts\data\clientes_sample.csv


Unnamed: 0,id_cli,rut_cli,nom_cli,dir_cli,tel_cli,cor_cli,con_cli
0,1,,I MUNICIPALIDAD DE CARTAGENA,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
1,2,,I MUNICIPALIDAD DE LAJA,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
2,3,,SERVICIO LOCAL DE EDUCACION DE CHINCHORRO,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
3,4,,I MUNICIPALIDAD DE FRUTILLAR,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
4,5,,UNIVERSIDAD DE LA FRONTERA,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,


In [5]:
# --- Actualizar columna RUT en tabla de clientes ---

import pandas as pd
from pathlib import Path

# 1) Ruta de la tabla clientes
RUTA_BASE = Path().resolve() / "data"
src_cli = RUTA_BASE / "clientes_sample.csv"

# 2) Cargar tabla
dfc = pd.read_csv(src_cli, sep=";", dtype="string")

# 3) Actualizar campo rut_cli a "1-9" para todos
dfc["rut_cli"] = "1-9"

# 4) Guardar nuevamente
dfc.to_csv(src_cli, index=False, sep=";", encoding="utf-8")

print(f"✅ Columna 'rut_cli' actualizada con valor fijo '1-9' en {src_cli}")

# 5) Vista previa
display(dfc.head(5))


✅ Columna 'rut_cli' actualizada con valor fijo '1-9' en D:\OneDrive\data-projects\desafio-licitaciones-kaiken\scripts\data\clientes_sample.csv


Unnamed: 0,id_cli,rut_cli,nom_cli,dir_cli,tel_cli,cor_cli,con_cli
0,1,1-9,I MUNICIPALIDAD DE CARTAGENA,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
1,2,1-9,I MUNICIPALIDAD DE LAJA,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
2,3,1-9,SERVICIO LOCAL DE EDUCACION DE CHINCHORRO,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
3,4,1-9,I MUNICIPALIDAD DE FRUTILLAR,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,
4,5,1-9,UNIVERSIDAD DE LA FRONTERA,"Direccion de Prueba 9999, San Fernando",56997256637,prueba@prueba.cl,


In [6]:
# --- Normalizar tender_sample: reemplazar nombre de cliente por id_cli y remover duplicados de clientes ---

import pandas as pd
from pathlib import Path

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 160)

RUTA_BASE = Path().resolve() / "data"

# 1) Cargar tablas
tender_path = RUTA_BASE / "tender_sample.csv"
clientes_path = RUTA_BASE / "clientes_sample.csv"

dft = pd.read_csv(tender_path, sep=";", dtype="string", keep_default_na=True)
dfc = pd.read_csv(clientes_path, sep=";", dtype="string", keep_default_na=True)

# 2) Preparar claves de unión (normalizamos a mayúsculas y sin espacios extremos)
dft["_cliente_key"] = dft["client"].astype("string").str.strip().str.upper()
dfc["_cliente_key"] = dfc["nom_cli"].astype("string").str.strip().str.upper()

# 3) Merge para traer id_cli a tender
dft2 = dft.merge(
    dfc[["id_cli", "_cliente_key"]],
    on="_cliente_key",
    how="left",
    validate="m:1"   # muchos tenders pueden mapear a un cliente
)

# 4) Diagnóstico rápido de match
faltantes = dft2["id_cli"].isna().sum()
if faltantes > 0:
    print(f"⚠️ Aviso: {faltantes} registros de tender no encontraron coincidencia en clientes (revisar nombres).")

# 5) Eliminar columnas duplicadas que ya están en 'clientes'
cols_a_eliminar = ["client", "delivery_address", "contact_phone", "contact_email", "_cliente_key"]
existentes = [c for c in cols_a_eliminar if c in dft2.columns]
dft2 = dft2.drop(columns=existentes)

# 6) Reordenar columnas (sugerido)
orden_sugerido = [
    "row_number",    # de tender
    "id",            # id del tender (código licitación)
    "id_cli",        # id cliente (FK a clientes_sample)
    "creation_date",
    "delivery_date",
    "margin",
]
otras = [c for c in dft2.columns if c not in orden_sugerido]
dft2 = dft2[orden_sugerido + otras]

# 7) Guardar limpio
out_path = RUTA_BASE / "tender_sample_clean.csv"
dft2.to_csv(out_path, index=False, sep=";", encoding="utf-8")
print(f"✅ Archivo limpio guardado en: {out_path}")

# 8) Vista previa de 5 filas
display(dft2.head(5))


✅ Archivo limpio guardado en: D:\OneDrive\data-projects\desafio-licitaciones-kaiken\scripts\data\tender_sample_clean.csv


Unnamed: 0,row_number,id,id_cli,creation_date,delivery_date,margin
0,2,2698-56-LE24,1,2024-11-29,2024-12-29,0.4
1,3,3736-76-LE24,2,2024-08-08,2024-09-07,0.4
2,4,1110404-7-LE25,3,2025-02-03,2025-03-05,0.4
3,5,2289-53-LE23,4,2023-11-22,2023-12-22,0.4
4,6,5586-9-LE24-2,5,2024-03-01,2024-03-31,0.4


In [7]:
# --- PREVIEW (no guarda cambios): normalización de tender_id + reconstrucción de id en order_sample ---

import re
import pandas as pd
from pathlib import Path

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 160)

RUTA_BASE = Path().resolve() / "data"
orders_path  = RUTA_BASE / "order_sample.csv"
tenders_path = RUTA_BASE / "tender_sample.csv"

# 1) Cargar data
dfo = pd.read_csv(orders_path,  sep=";", dtype="string", keep_default_na=True)
dft = pd.read_csv(tenders_path, sep=";", dtype="string", keep_default_na=True)

# 2) Mapa de referencia: ID tender con guiones vs sin guiones
def strip_hyphens(x: str) -> str:
    if x is None or pd.isna(x): return x
    return re.sub(r"-", "", str(x))

dft["_tid_stripped"] = dft["id"].astype("string").map(strip_hyphens)
map_tid = dict(zip(dft["_tid_stripped"], dft["id"]))

# 3) Heurístico de respaldo: insertar "-" antes de "LE"
def heuristico_hifenar(tid: str) -> str:
    if tid is None or pd.isna(tid): return tid
    s = str(tid)
    if "-" in s: return s
    m = re.search(r"^(.*?)(LE)(\d{2})(.*)$", s)
    if m:
        prefix, le, yy, tail = m.groups()
        return f"{prefix}-{le}{yy}{tail}"
    return s

# 4) Propuesta de tender_id hifenado
preview = dfo.copy()
preview["tender_id_orig"] = preview["tender_id"].astype("string").str.strip()
preview["tender_id_ref"]  = preview["tender_id_orig"].map(lambda x: map_tid.get(x, pd.NA))
need_fallback = preview["tender_id_ref"].isna()
preview.loc[need_fallback, "tender_id_fallback"] = preview.loc[need_fallback, "tender_id_orig"].map(heuristico_hifenar)
preview["tender_id_new"] = preview["tender_id_ref"].fillna(preview["tender_id_fallback"])

# 5) Propuesta de id nuevo = tender_id_new + "-" + product_id
preview["product_id"] = preview["product_id"].astype("string").str.strip()
preview["id_new"] = preview["tender_id_new"].astype("string").str.strip() + "-" + preview["product_id"]

# 6) Resumen de cobertura
by_ref = preview["tender_id_ref"].notna().sum()
by_fallback = preview["tender_id_ref"].isna().sum()
without_dash = (preview["tender_id_new"].str.contains("-", na=False) == False).sum()

print("=== Resumen de normalización (PREVIEW) ===")
print(f"✔ Mapeados por referencia (tender_sample): {by_ref}")
print(f"✔ Mapeados por heurístico (insertar '-'): {by_fallback}")
print(f"⚠ Posibles no normalizados (sin '-'): {without_dash}")

# 7) Comparativo compacto (no guarda)
cols_show = [
    "row_number", "id", "id_new",
    "tender_id_orig", "tender_id_new",
    "product_id", "quantity", "price"
]
print("\n=== Muestra (10 filas) ===")
display(preview[cols_show].head(10))


=== Resumen de normalización (PREVIEW) ===
✔ Mapeados por referencia (tender_sample): 49
✔ Mapeados por heurístico (insertar '-'): 0
⚠ Posibles no normalizados (sin '-'): 0

=== Muestra (10 filas) ===


Unnamed: 0,row_number,id,id_new,tender_id_orig,tender_id_new,product_id,quantity,price
0,2,2306267LE24-2000000013651,2306-267-LE24-2000000013651,2306267LE24,2306-267-LE24,2000000013651,1,35000.0
1,3,2306267LE24-2000000012799,2306-267-LE24-2000000012799,2306267LE24,2306-267-LE24,2000000012799,1,32200.0
2,4,2306267LE24-2000000013731,2306-267-LE24-2000000013731,2306267LE24,2306-267-LE24,2000000013731,24,21000.0
3,5,440435LE25-2000000024594,4404-35-LE25-2000000024594,440435LE25,4404-35-LE25,2000000024594,1,280.0
4,6,440435LE25-2000000024595,4404-35-LE25-2000000024595,440435LE25,4404-35-LE25,2000000024595,1,1726.1999999999998
5,7,2306267LE24-1000000044595,2306-267-LE24-1000000044595,2306267LE24,2306-267-LE24,1000000044595,24,1174728.7999999998
6,8,440435LE25-1000000089394,4404-35-LE25-1000000089394,440435LE25,4404-35-LE25,1000000089394,1584,373.8
7,9,440435LE25-1000000089411,4404-35-LE25-1000000089411,440435LE25,4404-35-LE25,1000000089411,3476,308.0
8,10,2306267LE24-2000000012798,2306-267-LE24-2000000012798,2306267LE24,2306-267-LE24,2000000012798,2,4667.599999999999
9,11,440435LE25-1000000089401,4404-35-LE25-1000000089401,440435LE25,4404-35-LE25,1000000089401,6873,250.6


In [9]:
# --- Reparación definitiva de ID en orders: normaliza tender_id, reconstruye id y persiste en ambos archivos ---

import re
import pandas as pd
from pathlib import Path

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 160)

RUTA_BASE = Path().resolve() / "data"
orders_csv          = RUTA_BASE / "order_sample.csv"
orders_clean_csv    = RUTA_BASE / "order_sample_clean.csv"
tenders_clean_csv   = RUTA_BASE / "tender_sample_clean.csv"
tenders_csv         = RUTA_BASE / "tender_sample.csv"

# Preferimos la tabla de referencia 'clean' si existe
tenders_src = tenders_clean_csv if tenders_clean_csv.exists() else tenders_csv
if not tenders_src.exists():
    raise FileNotFoundError(f"No se encontró tabla de referencia de tenders: {tenders_csv}")

# Cargamos orders desde el 'clean' si existe (porque quizás allí esperabas ver el ID), si no desde el original
orders_src = orders_clean_csv if orders_clean_csv.exists() else orders_csv
print(f"Usando órdenes desde: {orders_src.name}")
dfo = pd.read_csv(orders_src, sep=";", dtype="string", keep_default_na=True)
dft = pd.read_csv(tenders_src, sep=";", dtype="string", keep_default_na=True)

# --- helpers para normalizar ---
def strip_hyphens(x: str) -> str:
    if x is None or pd.isna(x): return x
    return re.sub(r"-", "", str(x))

def heuristico_hifenar(tid: str) -> str:
    if tid is None or pd.isna(tid): return tid
    s = str(tid).strip()
    if "-" in s:
        return s
    # insertar '-' antes de 'LE' (patrón típico)
    m = re.search(r"^(.*?)(LE)(\d{2})(.*)$", s)
    if m:
        prefix, le, yy, tail = m.groups()
        return f"{prefix}-{le}{yy}{tail}"
    return s

# Mapa de referencia: tender_id SIN guiones -> CON guiones
dft["_tid_stripped"] = dft["id"].astype("string").map(strip_hyphens)
map_tid = dict(zip(dft["_tid_stripped"], dft["id"]))

# --- normalización y reconstrucción ---
dfo["tender_id"] = dfo["tender_id"].astype("string").str.strip()
dfo["_tender_id_ref"] = dfo["tender_id"].map(map_tid)
mask_fb = dfo["_tender_id_ref"].isna()
dfo.loc[mask_fb, "_tender_id_ref"] = dfo.loc[mask_fb, "tender_id"].map(heuristico_hifenar)

# reconstruimos id nuevo
dfo["product_id"] = dfo["product_id"].astype("string").str.strip()
dfo["_id_new"] = dfo["_tender_id_ref"].astype("string").str.strip() + "-" + dfo["product_id"]

# quitamos id viejo y consolidamos
if "id" in dfo.columns:
    dfo = dfo.drop(columns=["id"])
dfo = dfo.rename(columns={"_id_new": "id"})
dfo["tender_id"] = dfo["_tender_id_ref"]
dfo = dfo.drop(columns=["_tender_id_ref"])

# Orden sugerido de columnas
orden = ["row_number","id","tender_id","product_id","quantity","price","observation"]
otras = [c for c in dfo.columns if c not in orden]
dfo = dfo[[c for c in orden if c in dfo.columns] + otras]

# Guardamos SIEMPRE en clean y TAMBIÉN en el original para que lo veas donde abras
dfo.to_csv(orders_clean_csv, index=False, sep=";", encoding="utf-8")
dfo.to_csv(orders_csv,       index=False, sep=";", encoding="utf-8")
print(f"✅ Guardado en: {orders_clean_csv.name} y {orders_csv.name}")

# Verificación rápida
reloaded = pd.read_csv(orders_clean_csv, sep=";", dtype="string")
sin_guion = (reloaded["tender_id"].str.contains("-", na=False) == False).sum()
print(f"ℹ️ tender_id sin guiones tras normalizar: {sin_guion}")

print("\nVista previa (5 filas):")
display(reloaded.head(5))


Usando órdenes desde: order_sample_clean.csv
✅ Guardado en: order_sample_clean.csv y order_sample.csv
ℹ️ tender_id sin guiones tras normalizar: 0

Vista previa (5 filas):


Unnamed: 0,row_number,id,tender_id,product_id,quantity,price,observation
0,2,2306-267-LE24-2000000013651,2306-267-LE24,2000000013651,1,35000.0,
1,3,2306-267-LE24-2000000012799,2306-267-LE24,2000000012799,1,32200.0,
2,4,2306-267-LE24-2000000013731,2306-267-LE24,2000000013731,24,21000.0,
3,5,4404-35-LE25-2000000024594,4404-35-LE25,2000000024594,1,280.0,
4,6,4404-35-LE25-2000000024595,4404-35-LE25,2000000024595,1,1726.1999999999998,


In [10]:
# --- Validación de integridad para 4 tablas (products, tenders, orders, clientes) ---

import pandas as pd
from pathlib import Path

pd.set_option("display.max_columns", None)
pd.set_option("display.width", 160)

RUTA_BASE = Path().resolve() / "data"

# 1) Carga robusta (prioriza versiones _clean)
def load_csv(name_clean: str, name_fallback: str):
    p_clean = RUTA_BASE / name_clean
    p_fallback = RUTA_BASE / name_fallback
    src = p_clean if p_clean.exists() else p_fallback
    if not src.exists():
        raise FileNotFoundError(f"No se encontró {name_clean} ni {name_fallback}")
    return pd.read_csv(src, sep=";", dtype="string", keep_default_na=True), src.name

dfp, src_products = load_csv("product_sample_clean.csv", "product_sample.csv")
dft, src_tenders  = load_csv("tender_sample_clean.csv", "tender_sample.csv")
dfo, src_orders   = load_csv("order_sample_clean.csv", "order_sample.csv")
dfc, src_clients  = load_csv("clientes_sample.csv", "clientes_sample.csv")

print(f"Origen -> products: {src_products} | tenders: {src_tenders} | orders: {src_orders} | clientes: {src_clients}")

# 2) Determinar nombres de claves (soporta tablas con/sin limpieza previa)
PK_PROD = "sku_pro" if "sku_pro" in dfp.columns else "sku"
PK_TEND = "id"       # en tender_clean y tender original
PK_CLI  = "id_cli"   # en clientes_sample
FK_TEND_IN_ORD = "tender_id"
FK_PROD_IN_ORD = "product_id"
FK_CLI_IN_TEND = "id_cli" if "id_cli" in dft.columns else None

# 3) Chequeos de unicidad de PK
def dup_report(df, col, title):
    dups = df[df[col].duplicated(keep=False)]
    print(f"\n[{title}] Duplicados en {col}: {dups.shape[0]}")
    if not dups.empty:
        display(dups.head(10))

dup_report(dfp, PK_PROD,  "PRODUCTS")
dup_report(dft, PK_TEND,  "TENDERS")
if PK_CLI in dfc.columns:
    dup_report(dfc, PK_CLI,   "CLIENTES")

# Orders: unicidad del ID (después de normalización debería ser único)
if "id" in dfo.columns:
    dup_report(dfo, "id", "ORDERS (ID)")

# 4) Nulos en claves
def null_report(df, cols, title):
    print(f"\n[{title}] Nulos por columna:")
    print(df[cols].isna().sum().sort_values(ascending=False))

null_report(dfp, [PK_PROD], "PRODUCTS (PK)")
null_report(dft, [PK_TEND] + ([FK_CLI_IN_TEND] if FK_CLI_IN_TEND else []), "TENDERS (PK/FK)")
null_report(dfc, [PK_CLI], "CLIENTES (PK)")
null_report(dfo, ["id", FK_TEND_IN_ORD, FK_PROD_IN_ORD], "ORDERS (PK/FK)")

# 5) Integridad referencial
# 5.1 Orders -> Tenders
ord_not_in_tenders = dfo[~dfo[FK_TEND_IN_ORD].isin(dft[PK_TEND])]
print(f"\n[RI] Orders.tender_id ∈ Tenders.id? Faltantes: {ord_not_in_tenders.shape[0]}")
if not ord_not_in_tenders.empty:
    display(ord_not_in_tenders[[FK_TEND_IN_ORD, "row_number", "product_id", "id"]].head(10))

# 5.2 Orders -> Products
ord_not_in_products = dfo[~dfo[FK_PROD_IN_ORD].isin(dfp[PK_PROD])]
print(f"\n[RI] Orders.product_id ∈ Products.{PK_PROD}? Faltantes: {ord_not_in_products.shape[0]}")
if not ord_not_in_products.empty:
    display(ord_not_in_products[[FK_PROD_IN_ORD, "row_number", FK_TEND_IN_ORD, "id"]].head(10))

# 5.3 Tenders -> Clientes (si la columna existe)
if FK_CLI_IN_TEND:
    tend_not_in_clients = dft[~dft[FK_CLI_IN_TEND].isin(dfc[PK_CLI])]
    print(f"\n[RI] Tenders.id_cli ∈ Clientes.id_cli? Faltantes: {tend_not_in_clients.shape[0]}")
    if not tend_not_in_clients.empty:
        display(tend_not_in_clients[[PK_TEND, FK_CLI_IN_TEND]].head(10))
else:
    print("\n[RI] Tenders -> Clientes: la columna id_cli no existe en tender; se omite esta verificación.")

# 6) Consistencia de Orders.id = tender_id + '-' + product_id
if "id" in dfo.columns:
    expected_id = dfo[FK_TEND_IN_ORD].astype("string").str.strip() + "-" + dfo[FK_PROD_IN_ORD].astype("string").str.strip()
    bad_id = dfo[dfo["id"].astype("string").str.strip() != expected_id]
    print(f"\n[Consistencia] Orders.id == tender_id + '-' + product_id ? Incorrectos: {bad_id.shape[0]}")
    if not bad_id.empty:
        tmp = bad_id.copy()
        tmp["expected_id"] = expected_id.loc[bad_id.index]
        display(tmp[["row_number", "id", "expected_id", FK_TEND_IN_ORD, FK_PROD_IN_ORD]].head(10))
else:
    print("\n[Consistencia] Orders: no existe columna 'id' para validar concatenación.")

# 7) Chequeos de formato (opcionales)
# 7.1 tender_id con guiones
if FK_TEND_IN_ORD in dfo.columns:
    without_dash = dfo[~dfo[FK_TEND_IN_ORD].astype("string").str.contains("-", na=False)]
    print(f"\n[Formato] Orders.tender_id sin guiones: {without_dash.shape[0]}")
    if not without_dash.empty:
        display(without_dash[[FK_TEND_IN_ORD, "row_number"]].head(10))

# 7.2 Tipos numéricos (opcional) en products y orders
if "cost_prp" in dfp.columns:
    # Verificar que todos los no nulos son parseables a número
    _num_err = pd.to_numeric(dfp["cost_prp"], errors="coerce").isna() & dfp["cost_prp"].notna()
    print(f"\n[Tipos] Products.cost_prp numérico inválido: {_num_err.sum()}")
    if _num_err.any():
        display(dfp.loc[_num_err, [PK_PROD, "nom_pro", "cost_prp"]].head(10))

if "price" in dfo.columns:
    _num_err = pd.to_numeric(dfo["price"], errors="coerce").isna() & dfo["price"].notna()
    print(f"[Tipos] Orders.price numérico inválido: {_num_err.sum()}")
    if _num_err.any():
        display(dfo.loc[_num_err, ["row_number", "id", "price"]].head(10))

print("\n✅ Validación completada. Revisa los conteos y las muestras mostradas arriba.")


Origen -> products: product_sample_clean.csv | tenders: tender_sample_clean.csv | orders: order_sample_clean.csv | clientes: clientes_sample.csv

[PRODUCTS] Duplicados en sku_pro: 0

[TENDERS] Duplicados en id: 0

[CLIENTES] Duplicados en id_cli: 0

[ORDERS (ID)] Duplicados en id: 0

[PRODUCTS (PK)] Nulos por columna:
sku_pro    0
dtype: int64

[TENDERS (PK/FK)] Nulos por columna:
id        0
id_cli    0
dtype: int64

[CLIENTES (PK)] Nulos por columna:
id_cli    0
dtype: int64

[ORDERS (PK/FK)] Nulos por columna:
id            0
tender_id     0
product_id    0
dtype: int64

[RI] Orders.tender_id ∈ Tenders.id? Faltantes: 0

[RI] Orders.product_id ∈ Products.sku_pro? Faltantes: 0

[RI] Tenders.id_cli ∈ Clientes.id_cli? Faltantes: 0

[Consistencia] Orders.id == tender_id + '-' + product_id ? Incorrectos: 0

[Formato] Orders.tender_id sin guiones: 0

[Tipos] Products.cost_prp numérico inválido: 0
[Tipos] Orders.price numérico inválido: 0

✅ Validación completada. Revisa los conteos y las m

In [14]:
# Carga por Transaction Pooler (IPv4) con psycopg, usando SSL y password literal o por env var

!pip install psycopg[binary] pandas --quiet

import os, io
import pandas as pd
from pathlib import Path
from urllib.parse import quote_plus
import psycopg

RUTA_BASE = Path().resolve() / "data"

# === CONFIG ===
PG_USER   = "postgres.zttmlystfpvnzxkoyhkx"
PG_HOST   = "aws-1-sa-east-1.pooler.supabase.com"
PG_PORT   = 6543
PG_DB     = "postgres"

# Usa variable de entorno si existe; si no, password literal
PG_PASSWORD_RAW = os.getenv("SUPABASE_DB_PASSWORD", "desafio-licitaciones-kaiken")
# URL-encode por si la contraseña tuviera caracteres especiales
PG_PASSWORD = quote_plus(PG_PASSWORD_RAW)

PG_DSN = f"postgresql://{PG_USER}:{PG_PASSWORD}@{PG_HOST}:{PG_PORT}/{PG_DB}?sslmode=require"

print("Conectando a:", f"postgresql://{PG_USER}:***@{PG_HOST}:{PG_PORT}/{PG_DB}?sslmode=require")

# Prueba de conexión
with psycopg.connect(PG_DSN) as conn:
    with conn.cursor() as cur:
        cur.execute("SELECT 1;")
        print("✅ Conexión OK (SELECT 1)")

def copy_df(df: pd.DataFrame, table_fullname: str):
    """
    Carga rápida usando COPY FROM STDIN (CSV con header).
    IMPORTANTE: COPY espera separador coma, por eso exportamos con sep="," a un buffer en memoria.
    """
    if df.empty:
        print(f"⚠ {table_fullname}: DataFrame vacío, no se carga.")
        return
    # Asegúrate de que el orden de las columnas coincida con tu DDL
    buf = io.StringIO()
    df.to_csv(buf, index=False, sep=",")
    buf.seek(0)
    with psycopg.connect(PG_DSN) as conn:
        with conn.cursor() as cur:
            cur.copy(f"COPY {table_fullname} ({', '.join(df.columns)}) FROM STDIN WITH CSV HEADER", buf)
        conn.commit()
    print(f"✅ Cargado: {table_fullname} ({len(df)} filas)")

# Lee tus CSV limpios (los originales están con ';' así que aquí los interpretamos con sep=';')
df_cli = pd.read_csv(RUTA_BASE/"clientes_sample.csv", sep=";", dtype=str)
df_pro = pd.read_csv(RUTA_BASE/"product_sample_clean.csv", sep=";", dtype=str)
# Si aún no generaste tender_sample_clean.csv, usa tender_sample.csv
ten_path = RUTA_BASE/"tender_sample_clean.csv"
df_ten = pd.read_csv(ten_path if ten_path.exists() else (RUTA_BASE/"tender_sample.csv"), sep=";", dtype=str)
# Igual para orders
ord_path = RUTA_BASE/"order_sample_clean.csv"
df_ord = pd.read_csv(ord_path if ord_path.exists() else (RUTA_BASE/"order_sample.csv"), sep=";", dtype=str)

# Opcional: castear mínimos, y asegurar nombres/orden de columnas según tu DDL
# CLIENTES
cols_cli = ["id_cli","rut_cli","nom_cli","dir_cli","tel_cli","cor_cli","con_cli"]
df_cli = df_cli[cols_cli]

# PRODUCTS
cols_pro = ["sku_pro","row_number","nom_pro","desc_pro","cost_prp","stock","cre_pro","upd_pro"]
df_pro = df_pro[cols_pro]

# TENDERS (si no tienes id_cli en el CSV, ajusta las columnas disponibles)
if "id_cli" in df_ten.columns:
    cols_ten = ["id","row_number","id_cli","creation_date","delivery_date","margin"]
else:
    cols_ten = ["id","row_number","creation_date","delivery_date","margin"]
    # agrega columna id_cli vacía si quieres completar luego
    df_ten["id_cli"] = None
    cols_ten = ["id","row_number","id_cli","creation_date","delivery_date","margin"]
df_ten = df_ten[cols_ten]

# ORDERS
cols_ord = ["id","row_number","tender_id","product_id","quantity","price","observation"]
df_ord = df_ord[cols_ord]

# Carga en orden referencial
copy_df(df_cli, "clientes")
copy_df(df_pro, "products")
copy_df(df_ten, "tenders")
copy_df(df_ord, "orders")


Conectando a: postgresql://postgres.zttmlystfpvnzxkoyhkx:***@aws-1-sa-east-1.pooler.supabase.com:6543/postgres?sslmode=require
✅ Conexión OK (SELECT 1)
✅ Cargado: clientes (13 filas)
✅ Cargado: products (49 filas)
✅ Cargado: tenders (13 filas)
✅ Cargado: orders (49 filas)
