# Notebook 1 ‚Äî Ingesta de datos y tipado (FraSoHome)

Este notebook tiene un prop√≥sito **formativo**: vamos a **cargar** los archivos CSV origen del caso FraSoHome, realizar una **inspecci√≥n inicial** (profiling ligero), aplicar **conversiones de tipos** (especial atenci√≥n a **fechas**) y comprobar la **consistencia b√°sica** de cada dataset (claves primarias, duplicados, referencias entre tablas).

## 0) Preparaci√≥n del entorno

- Requisitos: `pandas` y `numpy`.
- Asumimos que los CSV est√°n en la  carpeta que definimos en la variable `DATA_DIR`


In [1]:
from __future__ import annotations

import re
import numpy as np
import pandas as pd
from pathlib import Path
from IPython.display import display  # expl√≠cito para notebooks

pd.set_option("display.max_columns", 200)
pd.set_option("display.width", 140)
pd.set_option("display.max_colwidth", 60)

DATA_DIR = Path(f"data/raw/")  # <-- ajusta si tus CSV est√°n en otra ruta

EXPECTED_FILES = {
    "crm": "crm.csv",
    "productos": "productos.csv",
    "tiendas": "tiendas.csv",
    "pedidos": "pedidos.csv",
    "lineas_pedido": "lineas_pedido.csv",
    "devoluciones_online": "devoluciones_online.csv",
    "ventas_pos": "ventas_pos.csv",
    "devoluciones_tienda": "devoluciones_tienda.csv",
    "pagos_tienda": "pagos_tienda.csv",
    "stock_diario": "stock_diario.csv",
    # Dataset integrado (opcional en Notebook 1; √∫til para validar el resultado final)
    "fact_transacciones": "fact_transacciones.csv",
}

missing = [fname for fname in EXPECTED_FILES.values() if not (DATA_DIR / fname).exists()]
if missing:
    print("‚ö†Ô∏è Faltan archivos:", missing)
else:
    print("‚úÖ Todos los archivos esperados est√°n presentes.")

‚úÖ Todos los archivos esperados est√°n presentes.


## 1) Funciones reutilizables (ingesta, perfilado, tipado)

Encapsulamos la l√≥gica en funciones para que puedas reutilizarla con *cualquier* DataFrame.


In [None]:
# -------------------------
# 1.1 Lectura robusta de CSV
# -------------------------

DEFAULT_NA_VALUES = ["", " ", "NA", "N/A", "NULL", "null", "None", "none", "nan", "NaN"]

def read_csv_raw(path: Path, *, encoding: str = "utf-8", sep: str = ",") -> pd.DataFrame:
    """
    Lee un CSV preservando los valores problem√°ticos:
    - Carga TODO como string (dtype=str) para NO perder formatos originales.
    - Define na_values comunes para convertir vac√≠os a NaN.
    """
    df = pd.read_csv(
        path,
        sep=sep,
        encoding=encoding,
        dtype=str,
        na_values=DEFAULT_NA_VALUES,
        keep_default_na=True,
        low_memory=False
    )
    return df

# -------------------------
# 1.2 Perfilado b√°sico
# -------------------------

def basic_overview(df: pd.DataFrame, name: str, head: int = 5) -> None:
    print(f"\n{'='*80}\nDATASET: {name}\n{'='*80}")
    print("Shape:", df.shape)
    print("\nColumnas:", list(df.columns))
    display(df.head(head))
    print("\nDtypes (raw):")
    display(df.dtypes.to_frame("dtype_raw"))
    print("\nNulos por columna (top 15):")
    na = df.isna().sum().sort_values(ascending=False)
    display(na.head(15).to_frame("nulos"))
    print("\nFilas duplicadas exactas:", int(df.duplicated().sum()))

def duplicate_key_report(df: pd.DataFrame, key_cols: list[str], name: str) -> pd.DataFrame:
    """
    Reporta duplicidad de una clave (o clave compuesta).
    Devuelve una tabla con:
    - filas con clave nula (alguna col clave es NaN)
    - n√∫mero de claves duplicadas
    - n√∫mero de filas implicadas en duplicados
    """
    key = df[key_cols]
    null_key_rows = int(key.isna().any(axis=1).sum())
    dup_mask = df.duplicated(subset=key_cols, keep=False)
    dup_rows = int(dup_mask.sum())
    dup_keys = int(df.loc[dup_mask, key_cols].dropna().drop_duplicates().shape[0])
    out = pd.DataFrame([{
        "dataset": name,
        "key_cols": ", ".join(key_cols),
        "rows": df.shape[0],
        "null_key_rows": null_key_rows,
        "duplicate_keys": dup_keys,
        "rows_in_duplicates": dup_rows
    }])
    return out

# -------------------------
# 1.3 Normalizaci√≥n / tipado: fechas
# -------------------------

_SP_MONTHS = {
    "enero": "01", "febrero": "02", "marzo": "03", "abril": "04",
    "mayo": "05", "junio": "06", "julio": "07", "agosto": "08",
    "septiembre": "09", "setiembre": "09", "octubre": "10",
    "noviembre": "11", "diciembre": "12"
}

def _normalize_spanish_date_text(s: str) -> str:
    """
    Convierte textos tipo '10 de Enero de 2023' a '2023-01-10'.
    Devuelve el string original si no matchea.
    """
    if s is None:
        return s
    x = str(s).strip()
    if not x:
        return x
    # Quitamos m√∫ltiples espacios y ponemos a min√∫sculas para matchear meses
    x2 = re.sub(r"\s+", " ", x).strip()
    x2_low = x2.lower()

    # patr√≥n: dd de <mes> de yyyy
    m = re.match(r"^(\d{1,2})\s+de\s+([a-z√°√©√≠√≥√∫√±]+)\s+de\s+(\d{2,4})$", x2_low, flags=re.IGNORECASE)
    if not m:
        return x
    dd, month_word, yy = m.group(1), m.group(2), m.group(3)
    month_word = month_word.replace("√°", "a").replace("√©", "e").replace("√≠", "i").replace("√≥", "o").replace("√∫", "u")
    mm = _SP_MONTHS.get(month_word, None)
    if mm is None:
        return x
    # normalizamos a√±o 2 d√≠gitos (heur√≠stica)
    if len(yy) == 2:
        yy = "20" + yy  # para el caso educativo, asumimos 20xx
    return f"{yy}-{mm}-{int(dd):02d}"

def parse_datetime_es(series: pd.Series, *, dayfirst: bool = True) -> pd.Series:
    """
    Convierte una serie a datetime de forma robusta:
    - 1¬™ pasada: pd.to_datetime con inferencia.
    - 2¬™ pasada: intenta normalizar fechas en texto con meses en espa√±ol.
    - Si hay ambig√ºedad, prueba dayfirst True/False y elige la mejor (m√°s parses).
    """
    s = series.astype("string")
    s = s.str.strip()

    # 1) Intento inicial (dayfirst elegido)
    dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)

    # 2) Intento alternativo dayfirst
    dt2 = pd.to_datetime(s, errors="coerce", dayfirst=not dayfirst)

    # Elegimos el que parsea m√°s valores
    if dt2.notna().sum() > dt1.notna().sum():
        dt = dt2
    else:
        dt = dt1

    # 3) Normalizaci√≥n de textos en espa√±ol y re-parse
    needs_help = dt.isna() & s.notna()
    if needs_help.any():
        s_fix = s.copy()
        s_fix.loc[needs_help] = s_fix.loc[needs_help].map(_normalize_spanish_date_text)
        dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)
        dt_fix_2 = pd.to_datetime(s_fix, errors="coerce", dayfirst=False)
        dt_fix = dt_fix_1 if dt_fix_1.notna().sum() >= dt_fix_2.notna().sum() else dt_fix_2
        # combinamos (manteniendo los ya parseados)
        dt = dt.fillna(dt_fix)

    return dt

def date_parse_report(df: pd.DataFrame, col: str, *, dayfirst: bool = True, sample_bad: int = 8) -> pd.Series:
    """
    Convierte una columna a datetime y muestra un mini-informe:
    - % de valores parseados
    - ejemplos no parseados (raw)
    """
    parsed = parse_datetime_es(df[col], dayfirst=dayfirst)
    total = len(df)
    ok = int(parsed.notna().sum())
    bad = total - ok
    print(f"üïí Columna '{col}': {ok}/{total} parseados ({ok/total:.1%}), {bad} NaT")
    if bad > 0:
        bad_examples = df.loc[parsed.isna() & df[col].notna(), col].astype(str).head(sample_bad).tolist()
        print("   Ejemplos NO parseados:", bad_examples)
    return parsed

# -------------------------
# 1.4 Normalizaci√≥n / tipado: num√©ricos (EUR)
# -------------------------

def parse_numeric(series: pd.Series) -> pd.Series:
    """
    Convierte strings num√©ricos con formatos mixtos:
    - '‚Ç¨1.234,56' / '1,234.56' / '1234,56' / '1234.56' / '‚Ç¨120.5' / '0'
    a float.
    """
    s = series.astype("string").str.strip()

    # vac√≠os -> NaN
    s = s.replace({pd.NA: pd.NA, "": pd.NA})

    # quitamos s√≠mbolos y texto com√∫n
    s = s.str.replace("‚Ç¨", "", regex=False)
    s = s.str.replace("EUR", "", regex=False)
    s = s.str.replace("eur", "", regex=False)

    # quitamos espacios
    s = s.str.replace(r"\s+", "", regex=True)

    def _normalize_one(x: str) -> str:
        if x is None or x is pd.NA:
            return x
        x = str(x)
        if x == "" or x.lower() in ("nan", "none"):
            return ""
        # si tiene coma y punto, decidimos decimal por el separador m√°s a la derecha
        if "," in x and "." in x:
            if x.rfind(",") > x.rfind("."):
                # decimal = coma, miles = punto
                x = x.replace(".", "")
                x = x.replace(",", ".")
            else:
                # decimal = punto, miles = coma
                x = x.replace(",", "")
        elif "," in x and "." not in x:
            # asumimos coma decimal
            x = x.replace(",", ".")
        # si solo punto: ok
        return x

    s_norm = s.map(_normalize_one)
    out = pd.to_numeric(s_norm, errors="coerce")
    return out

# -------------------------
# 1.5 Checks de consistencia (referencias)
# -------------------------

def ref_integrity_report(
    child: pd.DataFrame, child_col: str,
    parent: pd.DataFrame, parent_col: str,
    *, child_name: str, parent_name: str,
    sample: int = 8
) -> pd.DataFrame:
    """
    Calcula cu√°ntos valores de child_col NO aparecen en parent_col (ignorando nulos).
    Devuelve un mini-reporte y muestra ejemplos.
    """
    c = child[child_col].astype("string").str.strip()
    p = parent[parent_col].astype("string").str.strip()

    c_non_null = c.dropna()
    p_set = set(p.dropna().unique().tolist())

    missing_mask = ~c_non_null.isin(p_set)
    missing_count = int(missing_mask.sum())
    total_non_null = int(c_non_null.shape[0])
    pct = (missing_count / total_non_null) if total_non_null else np.nan

    examples = c_non_null.loc[missing_mask].head(sample).tolist()
    if missing_count:
        print(f"üîó FK check {child_name}.{child_col} -> {parent_name}.{parent_col}: "
              f"{missing_count}/{total_non_null} ({pct:.1%}) NO encontrados. Ejemplos: {examples}")
    else:
        print(f"üîó FK check {child_name}.{child_col} -> {parent_name}.{parent_col}: OK (0 hu√©rfanos).")

    return pd.DataFrame([{
        "child": child_name,
        "child_col": child_col,
        "parent": parent_name,
        "parent_col": parent_col,
        "non_null_child": total_non_null,
        "missing_refs": missing_count,
        "missing_pct": pct
    }])

# -------------------------
# 1.6 Aplicaci√≥n de reglas de tipado
# -------------------------

def apply_typing_rules(df: pd.DataFrame, *, date_cols: list[str] | None = None,
                       numeric_cols: list[str] | None = None,
                       int_cols: list[str] | None = None,
                       category_cols: list[str] | None = None) -> pd.DataFrame:
    """
    Aplica tipado b√°sico:
    - Fechas -> datetime64[ns]
    - Num√©ricos -> float
    - Int (cuando procede) -> Int64 (nullable)
    - Categ√≥ricas -> category
    """
    out = df.copy()

    date_cols = date_cols or []
    numeric_cols = numeric_cols or []
    int_cols = int_cols or []
    category_cols = category_cols or []

    for c in date_cols:
        if c in out.columns:
            out[c + "_dt"] = date_parse_report(out, c)
        else:
            print(f"‚ö†Ô∏è date_col '{c}' no existe en df.")

    for c in numeric_cols:
        if c in out.columns:
            out[c + "_num"] = parse_numeric(out[c])
        else:
            print(f"‚ö†Ô∏è numeric_col '{c}' no existe en df.")

    for c in int_cols:
        if c in out.columns:
            out[c + "_int"] = parse_numeric(out[c]).round().astype("Int64")
        else:
            print(f"‚ö†Ô∏è int_col '{c}' no existe en df.")

    for c in category_cols:
        if c in out.columns:
            out[c] = out[c].astype("category")
        # si no existe, lo ignoramos sin ruido

    return out


## 2) Carga de archivos origen

Leemos todos los CSV como *raw strings* para poder inspeccionar y tipar nosotros (y no perder los ‚Äúerrores‚Äù).


In [3]:
sources = {name: DATA_DIR / fname for name, fname in EXPECTED_FILES.items()}

dfs = {name: read_csv_raw(path) for name, path in sources.items()}

# Acceso r√°pido
crm = dfs["crm"]
productos = dfs["productos"]
tiendas = dfs["tiendas"]
pedidos = dfs["pedidos"]
lineas_pedido = dfs["lineas_pedido"]
devoluciones_online = dfs["devoluciones_online"]
ventas_pos = dfs["ventas_pos"]
devoluciones_tienda = dfs["devoluciones_tienda"]
pagos_tienda = dfs["pagos_tienda"]
stock_diario = dfs["stock_diario"]
fact_transacciones = dfs["fact_transacciones"]

print("Datasets cargados:", list(dfs.keys()))


Datasets cargados: ['crm', 'productos', 'tiendas', 'pedidos', 'lineas_pedido', 'devoluciones_online', 'ventas_pos', 'devoluciones_tienda', 'pagos_tienda', 'stock_diario', 'fact_transacciones']


## 3) Inspecci√≥n inicial (perfilado ligero)

Para cada dataset:
- Dimensiones
- Tipos detectados (raw)
- Nulos
- Duplicados exactos


In [4]:
for name, df in dfs.items():
    basic_overview(df, name)



DATASET: crm
Shape: (103, 20)

Columnas: ['customer_id', 'nombre', 'apellidos', 'email', 'telefono', 'fecha_alta_programa', 'tier_fidelizacion', 'puntos_acumulados', 'fecha_nacimiento', 'genero', 'ciudad', 'provincia', 'codigo_postal', 'pais', 'consentimiento_marketing', 'estado_cliente', 'fecha_baja', 'origen_alta', 'canal_preferido_declarado', 'ultima_actualizacion']


Unnamed: 0,customer_id,nombre,apellidos,email,telefono,fecha_alta_programa,tier_fidelizacion,puntos_acumulados,fecha_nacimiento,genero,ciudad,provincia,codigo_postal,pais,consentimiento_marketing,estado_cliente,fecha_baja,origen_alta,canal_preferido_declarado,ultima_actualizacion
0,C0001,Bruno,P√©rezFern√°ndez,,+34 662 454 433,23/12/2018,Bronce,3590.0,25/01/1966,,Sevilla,Sevilla,41001,ES,no,Bloqueado,2024-11-20,,Online,28/06/25 11:38
1,C0002,B√°rbara,Mart√≠nezRubio,barbara.martinezrubio@example.com,627112365,07/07/2018,Platino,2241.0,1992-11-03,F,Gij√≥n,Asturias,33201,ES,1,Inactivo,2025-02-16,tienda,Mixto,2025-01-08 01:51:20
2,C0003,Rita,NavarroD√≠az,rita.navarrodiaz@example.com,,2024-04-18,Plata,2.073,,F,C√≥rdoba,C√≥rdoba,14001,ES,YES,Activo,,,Mixto,2025-09-28 00:43:46
3,C0004,Mois√©s,TorresP√©rez,moises.torresperez@example.com,,2023/09/11,Oro,2073.0,,No binario,Palma,Illes Balears,7001,ES,0,Activo,,importaci√≥n,Mixto,02/04/25 07:56
4,C0005,Laura,OrtizG√≥mez,laura.ortizgomez@example.com,707103679,2020/05/17,VIP,6974.0,1986-09-08,M,Palma,Illes Balears,7001,ES,N,Activo,,online,Mixto,2025-02-17 07:17:42



Dtypes (raw):


Unnamed: 0,dtype_raw
customer_id,object
nombre,object
apellidos,object
email,object
telefono,object
fecha_alta_programa,object
tier_fidelizacion,object
puntos_acumulados,object
fecha_nacimiento,object
genero,object



Nulos por columna (top 15):


Unnamed: 0,nulos
fecha_baja,54
genero,44
origen_alta,24
canal_preferido_declarado,21
fecha_nacimiento,18
consentimiento_marketing,14
telefono,13
email,7
tier_fidelizacion,7
codigo_postal,5



Filas duplicadas exactas: 1

DATASET: productos
Shape: (101, 18)

Columnas: ['product_id', 'nombre_producto', 'categoria', 'subcategoria', 'marca', 'proveedor', 'material', 'color', 'precio_venta', 'coste_unitario', 'iva_pct', 'peso_kg', 'largo_cm', 'ancho_cm', 'alto_cm', 'fecha_alta_catalogo', 'estado_producto', 'ean']


Unnamed: 0,product_id,nombre_producto,categoria,subcategoria,marca,proveedor,material,color,precio_venta,coste_unitario,iva_pct,peso_kg,largo_cm,ancho_cm,alto_cm,fecha_alta_catalogo,estado_producto,ean
0,P1000,Sof√° Aurora 160cm,Muebles,Sof√°s,UrbanHome,,Lino,Beige,221.99,143.47,21,24.63,134.0,13.5,20.3,2022-08-27,Activo,8386379402654
1,P1001,Cuadro Atlas ‚òÖ,Decoraci√≥n,Cuadros,TextilPlus,Prov_Mediterraneo,Metal,Negro,31.63,21.79,21,4.85,97.8,59.7,34.5,2023-01-23,Activo,8495931034131
2,P1002,S√°bana Brisa 90x200,Textil hogar,S√°banas,CasaViva,Prov_Mediterraneo,Algod√≥n,Verde,169.18,106.71,21,5.48,13.2,52.6,34.4,2022-09-08,Activo,7648350305641
3,P1003,Espejo Atlas ‚òÖ,Decoraci√≥n,Espejos,UrbanHome,Prov_Mediterraneo,Lino,Madera natural,264.87,160.81,21,1.19,21.1,60.9,34.6,2024-02-04,Descatalogado,9653287101226
4,P1004,Cama Sol 120cm,decoraci√≥n,Camas,CasaViva,Prov_EuroHome,Poli√©ster,Dorado,1131.94,,21,32.49,153.2,69.1,39.4,2023-10-19,Activo,1462704828148



Dtypes (raw):


Unnamed: 0,dtype_raw
product_id,object
nombre_producto,object
categoria,object
subcategoria,object
marca,object
proveedor,object
material,object
color,object
precio_venta,object
coste_unitario,object



Nulos por columna (top 15):


Unnamed: 0,nulos
proveedor,3
subcategoria,3
coste_unitario,3
ean,3
color,3
material,3
nombre_producto,0
product_id,0
marca,0
categoria,0



Filas duplicadas exactas: 0

DATASET: tiendas
Shape: (8, 19)

Columnas: ['store_id', 'nombre_tienda', 'tipo_ubicacion', 'canal', 'ciudad', 'provincia', 'direccion', 'codigo_postal', 'pais', 'fecha_apertura', 'metros_cuadrados', 'telefono', 'horario', 'lat', 'lon', 'estado', 'region', 'gerente', 'observaciones']


Unnamed: 0,store_id,nombre_tienda,tipo_ubicacion,canal,ciudad,provincia,direccion,codigo_postal,pais,fecha_apertura,metros_cuadrados,telefono,horario,lat,lon,estado,region,gerente,observaciones
0,S001,FraSoHome Madrid Centro,Tienda,FISICO,Madrid,Madrid,C/ Gran V√≠a 45,28013,ES,2016-03-15,1850,+34 910 123 001,L-S 10:00-21:30,40.4203,-3.7058,Activa,Centro,Marta S√°nchez,
1,S002,FraSoHome Barcelona Eixample,Tienda,FISICO,Barcelona,Barcelona,Av. Diagonal 212,8002,ES,15/07/2017,2100,0034 930 555 002,L-S 09:30-21:00,41.3879,2.16992,Activa,Catalu√±a,Jordi Pujol,
2,S003,FraSoHome Valencia Ruzafa,Tienda,FISICO,Valencia,Valencia,C/ C√°diz 8,46001,ES,10 de Enero de 2019,1600,961-778-003,L-D 10:00-22:00,39.4669,-0.3763,Activa,Levante,√Ålvaro Mu√±oz,
3,S003,FraSoHome Valencia Ruzafa (dup),Tienda,FISICO,Valencia,Valencia,C/ Cadiz 8,46001,Espa√±a,2019-01-10,1600,961 778 003,L-D 10:00-22:00,39.4669,-0.3763,Activa,LEVANTE,√Ålvaro Mu√±oz,Registro duplicado intencional (espacios/casing).
4,S004,FraSoHome Sevilla Nervi√≥n,Tienda,FISICO,Sevilla,Sevilla,Av. Eduardo Dato 11,41001,ES,2020/09/30,1400,+34 954 777 004,L-S 10:00-21:00,37.3886,-5.9823,Activa,Andaluc√≠a,Luc√≠a Romero,



Dtypes (raw):


Unnamed: 0,dtype_raw
store_id,object
nombre_tienda,object
tipo_ubicacion,object
canal,object
ciudad,object
provincia,object
direccion,object
codigo_postal,object
pais,object
fecha_apertura,object



Nulos por columna (top 15):


Unnamed: 0,nulos
observaciones,4
codigo_postal,1
gerente,1
tipo_ubicacion,0
nombre_tienda,0
store_id,0
canal,0
direccion,0
pais,0
provincia,0



Filas duplicadas exactas: 0

DATASET: pedidos
Shape: (656, 16)

Columnas: ['order_id', 'fecha_pedido', 'customer_id', 'usuario_online_id', 'importe_total', 'moneda', 'gastos_envio', 'direccion_envio', 'codigo_postal_envio', 'ciudad_envio', 'provincia_envio', 'pais_envio', 'metodo_pago', 'estado_pedido', 'origen', 'ultima_actualizacion']


Unnamed: 0,order_id,fecha_pedido,customer_id,usuario_online_id,importe_total,moneda,gastos_envio,direccion_envio,codigo_postal_envio,ciudad_envio,provincia_envio,pais_envio,metodo_pago,estado_pedido,origen,ultima_actualizacion
0,O-202400001,2025-05-11 15:46:46,C0014,UO-542417,2621.36,EUR,9.99,Gran V√≠a 24,08002,Barcelona,Barcelona,ES,Tarjeta,Pendiente,marketplace,2025-05-24 15:46:46
1,O-202400002,20/03/2024 09:20,C0006,,‚Ç¨1342.89,EUR,0.0,Calle Mayor 142,31001,Pamplona,Navarra,ES,Tarjeta,Devuelto Parcial,marketplace,2024-04-01 09:20:15
2,O-202400003,2024-05-06 08:05:31,C9999,,750.88,EUR,4.99,"R√∫a do Pr√≠ncipe 187, 4¬∫B",20003,San Sebasti√°n,Gipuzkoa,ES,Tarjeta,Entregado,marketplace,2024-05-16 08:05:31
3,O-202400004,2024/06/14 03:38:45,C0034,,1832.22,EUR,4.99,Calle Alcal√° 150,28A13,Granada,Granada,ES,Tarjeta,Devuelto Parcial,web,19/06/2024 03:38
4,O-202400005,2024-10-25 20:34:57,C9999,,1352.98,EUR,4.99,Calle de la Luz 138,41001,Sevilla,Sevilla,ES,Desconocido,Entregado,marketplace,2024-10-30 20:34:57



Dtypes (raw):


Unnamed: 0,dtype_raw
order_id,object
fecha_pedido,object
customer_id,object
usuario_online_id,object
importe_total,object
moneda,object
gastos_envio,object
direccion_envio,object
codigo_postal_envio,object
ciudad_envio,object



Nulos por columna (top 15):


Unnamed: 0,nulos
usuario_online_id,425
origen,172
customer_id,163
codigo_postal_envio,41
importe_total,19
metodo_pago,11
order_id,0
fecha_pedido,0
direccion_envio,0
gastos_envio,0



Filas duplicadas exactas: 2

DATASET: lineas_pedido
Shape: (1949, 12)

Columnas: ['order_line_id', 'order_id', 'product_id', 'descripcion_producto', 'categoria', 'subcategoria', 'cantidad', 'precio_unitario', 'descuento_pct', 'descuento_importe', 'importe_linea', 'iva_pct']


Unnamed: 0,order_line_id,order_id,product_id,descripcion_producto,categoria,subcategoria,cantidad,precio_unitario,descuento_pct,descuento_importe,importe_linea,iva_pct
0,OL-0000001,O-202400001,P1078,Estanter√≠a Atlas 160cm,Muebles,Estanter√≠as,2,730.66,,,1461.32,21
1,OL-0000002,O-202400001,P1071,"Bombilla Aurora ""Star""",Iluminaci√≥n,Bombillas,1,134.46,5.0,6.72,12774,21
2,OL-0000003,O-202400001,P1051,Alfombra Aurora Set 2 uds,Textil hogar,Alfombras,1,2262.0,5.0,1.13,21.49,21
3,OL-0000004,O-202400001,,,,,2,448.87,,,897.74,21
4,OL-0000005,O-202400001,P1037,"Bombilla Boreal ""Star""",Iluminaci√≥n,Bombillas,2,51.54,,,‚Ç¨103.08,21



Dtypes (raw):


Unnamed: 0,dtype_raw
order_line_id,object
order_id,object
product_id,object
descripcion_producto,object
categoria,object
subcategoria,object
cantidad,object
precio_unitario,object
descuento_pct,object
descuento_importe,object



Nulos por columna (top 15):


Unnamed: 0,nulos
descuento_pct,641
descuento_importe,641
subcategoria,256
categoria,111
precio_unitario,95
descripcion_producto,61
importe_linea,36
product_id,31
order_id,3
order_line_id,0



Filas duplicadas exactas: 8

DATASET: devoluciones_online
Shape: (224, 12)

Columnas: ['return_id', 'order_id', 'order_line_id', 'product_id', 'fecha_devolucion', 'cantidad_devuelta', 'motivo_devolucion', 'metodo_devolucion', 'estado_devolucion', 'importe_reembolsado', 'moneda', 'comentarios']


Unnamed: 0,return_id,order_id,order_line_id,product_id,fecha_devolucion,cantidad_devuelta,motivo_devolucion,metodo_devolucion,estado_devolucion,importe_reembolsado,moneda,comentarios
0,RO-2025-00001,O-202400014,OL-0000041,P1058,2025-04-04 16:59:55,2,,tienda,Pendiente,10300.0,EUR,Etiqueta de env√≠o ilegible
1,RO-2025-00002,O-202400014,OL-0000040,P1003,2025-04-18 07:24:55,2,No encaja / medidas,Env√≠o,Pendiente,38480.0,EUR,
2,RO-2025-00003,O-202400014,OL-0000039,P1055,2025-05-22 11:59:55,1,No encaja / medidas,Tienda,Reembolsada,12138.0,EUR,Reembolso parcial por uso
3,RO-2024-00004,O-202400023,OL-0000067,P1002,2024-09-05 20:07:00,1,Otro,Punto Pack,,130.18,EUR,Etiqueta de env√≠o ilegible
4,RO-2024-00005,O-202400023,OL-0000068,P1002,2024-08-18 17:52:00,1,,Env√≠o,Reembolsada,141.28,EUR,Etiqueta de env√≠o ilegible



Dtypes (raw):


Unnamed: 0,dtype_raw
return_id,object
order_id,object
order_line_id,object
product_id,object
fecha_devolucion,object
cantidad_devuelta,object
motivo_devolucion,object
metodo_devolucion,object
estado_devolucion,object
importe_reembolsado,object



Nulos por columna (top 15):


Unnamed: 0,nulos
comentarios,91
estado_devolucion,56
metodo_devolucion,37
motivo_devolucion,30
order_line_id,10
cantidad_devuelta,6
moneda,5
product_id,3
importe_reembolsado,3
order_id,2



Filas duplicadas exactas: 0

DATASET: ventas_pos
Shape: (2521, 19)

Columnas: ['ticket_line_id', 'ticket_id', 'fecha_hora', 'store_id', 'caja_id', 'cajero_id', 'customer_id', 'product_id', 'descripcion_producto', 'categoria', 'subcategoria', 'cantidad', 'precio_unitario', 'descuento_pct', 'descuento_importe', 'importe_linea', 'moneda', 'canal', 'observaciones']


Unnamed: 0,ticket_line_id,ticket_id,fecha_hora,store_id,caja_id,cajero_id,customer_id,product_id,descripcion_producto,categoria,subcategoria,cantidad,precio_unitario,descuento_pct,descuento_importe,importe_linea,moneda,canal,observaciones
0,TL-000001,T-500000,13/12/25 11:42,S001,CAJ04,EMP014,c0030,P1065,Sof√° Atlas 3 plazas,Muebles,Sof√°s,1,1192.4,5,‚Ç¨59.62,1132.78,EUR,POS,
1,TL-000002,T-500000,13/12/25 11:42,S001,CAJ04,EMP014,c0030,P1000,Sof√° Aurora 160cm,,Sof√°s,1,22153.0,25,55.38,166.15,EUR,POS,
2,TL-000003,T-500001,04/03/25 00:07,S005,CAJ08,EMP001,,P1041,Vela Luna ‚òÖ,Decoraci√≥n,Velas,1,124.95,0,0.00,124.95,EUR,POS,
3,TL-000004,T-500001,04/03/25 00:07,S005,CAJ08,EMP001,,P1045,Sof√° Aurora 120cm,Muebles,Sof√°s,6,173.27,0,000,103962.0,EUR,POS,
4,TL-000005,T-500001,04/03/25 00:07,S005,CAJ08,EMP001,,P1047,Sof√° Atlas 3 plazas,Muebles,Sof√°s,1,504.32,20,100.86,40346.0,EUR,POS,



Dtypes (raw):


Unnamed: 0,dtype_raw
ticket_line_id,object
ticket_id,object
fecha_hora,object
store_id,object
caja_id,object
cajero_id,object
customer_id,object
product_id,object
descripcion_producto,object
categoria,object



Nulos por columna (top 15):


Unnamed: 0,nulos
observaciones,2460
customer_id,1119
subcategoria,269
categoria,171
descuento_pct,132
descuento_importe,125
importe_linea,101
precio_unitario,79
store_id,32
caja_id,23



Filas duplicadas exactas: 30

DATASET: devoluciones_tienda
Shape: (211, 16)

Columnas: ['return_id', 'fecha_devolucion', 'store_id', 'ticket_id_original', 'ticket_line_id_original', 'order_id_original', 'customer_id', 'product_id', 'cantidad_devuelta', 'estado_devolucion', 'importe_reembolsado', 'moneda', 'metodo_reembolso', 'motivo_devolucion', 'canal_origen_venta', 'comentarios']


Unnamed: 0,return_id,fecha_devolucion,store_id,ticket_id_original,ticket_line_id_original,order_id_original,customer_id,product_id,cantidad_devuelta,estado_devolucion,importe_reembolsado,moneda,metodo_reembolso,motivo_devolucion,canal_origen_venta,comentarios
0,RT-2025-00001,14 de septiembre de 2025 08:25,S003,T-500097,TL-000197,,C0033,P1058,1,Aceptada,65.94,EUR,Transferencia,Cambio de opini√≥n,POS,
1,RT-2025-00002,20/11/25 20:43,S003,T-500477,TL-000987,,c0001,P1003,0,Aceptada,0.00,EUR,Efectivo,Cambio de opini√≥n,POS,sin ticket
2,RT-2025-00003,2025-07-07,S002,T-500521,TL-001091,,,P1043,1,Aceptada,"‚Ç¨894,68",EUR,Efectivo,No encaja en el espacio,POS,
3,RT-2025-00004,11/09/25 21:31,S003,T-500196,TL-000388,,,P1052,1,Aceptada,652.49,EUR,Tarjeta,Error en pedido,POS,
4,RT-2025-00005,5 de diciembre de 2025 04:21,S004,T-501080,TL-002223,,C0097,P10O5,3,Aceptada,116163,EUR,Vale,Error en pedido,POS,ERROR CAPTURA



Dtypes (raw):


Unnamed: 0,dtype_raw
return_id,object
fecha_devolucion,object
store_id,object
ticket_id_original,object
ticket_line_id_original,object
order_id_original,object
customer_id,object
product_id,object
cantidad_devuelta,object
estado_devolucion,object



Nulos por columna (top 15):


Unnamed: 0,nulos
comentarios,178
order_id_original,158
customer_id,72
ticket_id_original,43
ticket_line_id_original,41
product_id,4
importe_reembolsado,4
fecha_devolucion,3
canal_origen_venta,3
store_id,3



Filas duplicadas exactas: 0

DATASET: pagos_tienda
Shape: (1646, 12)

Columnas: ['payment_id', 'ticket_id', 'fecha_pago', 'store_id', 'caja_id', 'cajero_id', 'metodo_pago', 'importe_pagado', 'moneda', 'referencia_autorizacion', 'estado_pago', 'observaciones']


Unnamed: 0,payment_id,ticket_id,fecha_pago,store_id,caja_id,cajero_id,metodo_pago,importe_pagado,moneda,referencia_autorizacion,estado_pago,observaciones
0,PAY-0000001,T-500031,2025-09-28 10:29:00,S004,CAJ02,EMP074,CC,‚Ç¨848.91,EUR,NQ4FMYZY,OK,
1,PAY-0000002,T-500031,28/09/25 10:29,S004,CAJ02,EMP074,Vale,113.42,EUR,OC6UZHR5XF,OK,
2,PAY-0000003,T-500039,07/04/25 00:50,S003,CAJ02,EMP006,Visa/Mastercard,66.51,EUR,VQJT7YE511M,OK,
3,PAY-0000004,T-500069,17/05/25 19:52,S005,CAJ05,EMP030,Visa/Mastercard,1572.10,EUR,VREN93II,OK,
4,PAY-0000005,T-500199,2025-02-28 18:54:00,,CAJ03,EMP028,Tarjeta (Cr√©dito),330.98,EUR,9XPSEIMVIHC,OK,



Dtypes (raw):


Unnamed: 0,dtype_raw
payment_id,object
ticket_id,object
fecha_pago,object
store_id,object
caja_id,object
cajero_id,object
metodo_pago,object
importe_pagado,object
moneda,object
referencia_autorizacion,object



Nulos por columna (top 15):


Unnamed: 0,nulos
observaciones,1601
referencia_autorizacion,249
caja_id,47
cajero_id,34
store_id,26
importe_pagado,19
metodo_pago,19
ticket_id,5
moneda,5
fecha_pago,5



Filas duplicadas exactas: 10

DATASET: stock_diario
Shape: (1940, 9)

Columnas: ['fecha', 'store_id', 'product_id', 'stock_cierre', 'stock_reservado', 'stock_en_transito', 'stock_minimo', 'fuente', 'comentarios']


Unnamed: 0,fecha,store_id,product_id,stock_cierre,stock_reservado,stock_en_transito,stock_minimo,fuente,comentarios
0,2025-09-01 03:05:24,S001,P1043,14.0,1.0,0.0,2,ERP,
1,2025-09-01,S001,P1061,11.0,2.0,0.0,5,ERP,
2,2025-09-01,S002,p1005,60.0,1.0,0.0,7,ERP,
3,2025-09-01,S002,P1008,33.0,0.0,1.0,5,ERP,
4,2025-09-01,S002,P1009,67.0,2.0,0.0,1,ERP,



Dtypes (raw):


Unnamed: 0,dtype_raw
fecha,object
store_id,object
product_id,object
stock_cierre,object
stock_reservado,object
stock_en_transito,object
stock_minimo,object
fuente,object
comentarios,object



Nulos por columna (top 15):


Unnamed: 0,nulos
comentarios,1916
stock_cierre,41
stock_reservado,25
stock_en_transito,24
stock_minimo,3
fecha,2
product_id,2
store_id,2
fuente,0



Filas duplicadas exactas: 14

DATASET: fact_transacciones
Shape: (4973, 59)

Columnas: ['fact_id', 'source_system', 'source_file', 'canal_origen', 'canal_movimiento', 'tipo_movimiento', 'es_devolucion', 'fecha_movimiento_raw', 'fecha_movimiento', 'store_id_raw', 'store_id_std', 'doc_tipo', 'doc_id_raw', 'doc_id_std', 'line_id_raw', 'line_id_std', 'return_id', 'customer_id_raw', 'customer_id_std', 'flag_customer_in_crm', 'product_id_raw', 'product_id_std', 'flag_product_in_master', 'descripcion_producto', 'categoria', 'subcategoria', 'cantidad_raw', 'cantidad_signed', 'cantidad_abs', 'precio_unitario_raw', 'precio_unitario_num', 'descuento_pct_raw', 'descuento_pct_num', 'descuento_importe_raw', 'descuento_importe_num', 'importe_linea_raw', 'importe_signed_num', 'importe_abs_num', 'moneda', 'iva_pct', 'coste_unitario_num', 'coste_total_num', 'margen_bruto_num', 'metodo_pago', 'estado_pedido', 'origen', 'ticket_id_original', 'ticket_line_id_original', 'order_id_original', 'order_line_id_

Unnamed: 0,fact_id,source_system,source_file,canal_origen,canal_movimiento,tipo_movimiento,es_devolucion,fecha_movimiento_raw,fecha_movimiento,store_id_raw,store_id_std,doc_tipo,doc_id_raw,doc_id_std,line_id_raw,line_id_std,return_id,customer_id_raw,customer_id_std,flag_customer_in_crm,product_id_raw,product_id_std,flag_product_in_master,descripcion_producto,categoria,subcategoria,cantidad_raw,cantidad_signed,cantidad_abs,precio_unitario_raw,precio_unitario_num,descuento_pct_raw,descuento_pct_num,descuento_importe_raw,descuento_importe_num,importe_linea_raw,importe_signed_num,importe_abs_num,moneda,iva_pct,coste_unitario_num,coste_total_num,margen_bruto_num,metodo_pago,estado_pedido,origen,ticket_id_original,ticket_line_id_original,order_id_original,order_line_id_original,motivo_devolucion,metodo_devolucion,caja_id,cajero_id,flag_fecha_parseada,flag_importe_parseado,nombre_producto,precio_venta_num,estado_producto
0,F000001,ECOM,lineas_pedido.csv,ONLINE,ONLINE,VENTA,0,2025-05-11 15:46:46,2025-05-11 15:46:46,ONLINE,ONLINE,ORDER,O-202400001,O-202400001,OL-0000001,OL-0000001,,C0014,C0014,1,P1078,P1078,1,Estanter√≠a Atlas 160cm,Muebles,Estanter√≠as,2,2.0,2.0,730.66,730.66,,,,,1461.32,1461.32,1461.32,EUR,21.0,497.07,994.14,467.18,Tarjeta,Pendiente,marketplace,,,O-202400001,OL-0000001,,,,,1,1,Estanter√≠a Atlas 160cm,702.02,Activo
1,F000002,ECOM,lineas_pedido.csv,ONLINE,ONLINE,VENTA,0,2025-05-11 15:46:46,2025-05-11 15:46:46,ONLINE,ONLINE,ORDER,O-202400001,O-202400001,OL-0000002,OL-0000002,,C0014,C0014,1,P1071,P1071,1,"Bombilla Aurora ""Star""",Iluminaci√≥n,Bombillas,1,1.0,1.0,134.46,134.46,5.0,5.0,6.72,6.72,12774,127.74,127.74,EUR,21.0,81.49,81.49,46.25,Tarjeta,Pendiente,marketplace,,,O-202400001,OL-0000002,,,,,1,1,"Bombilla Aurora ""Star""",136.91,Descatalogado
2,F000003,ECOM,lineas_pedido.csv,ONLINE,ONLINE,VENTA,0,2025-05-11 15:46:46,2025-05-11 15:46:46,ONLINE,ONLINE,ORDER,O-202400001,O-202400001,OL-0000003,OL-0000003,,C0014,C0014,1,P1051,P1051,1,Alfombra Aurora Set 2 uds,Textil hogar,Alfombras,1,1.0,1.0,2262.0,22.62,5.0,5.0,1.13,1.13,21.49,21.49,21.49,EUR,21.0,12.4,12.4,9.089999999999998,Tarjeta,Pendiente,marketplace,,,O-202400001,OL-0000003,,,,,1,1,Alfombra Aurora Set 2 uds,23.53,Descatalogado
3,F000004,ECOM,lineas_pedido.csv,ONLINE,ONLINE,VENTA,0,2025-05-11 15:46:46,2025-05-11 15:46:46,ONLINE,ONLINE,ORDER,O-202400001,O-202400001,OL-0000004,OL-0000004,,C0014,C0014,1,,,0,,,,2,2.0,2.0,448.87,448.87,,,,,897.74,897.74,897.74,EUR,,,,,Tarjeta,Pendiente,marketplace,,,O-202400001,OL-0000004,,,,,1,1,,,
4,F000005,ECOM,lineas_pedido.csv,ONLINE,ONLINE,VENTA,0,2025-05-11 15:46:46,2025-05-11 15:46:46,ONLINE,ONLINE,ORDER,O-202400001,O-202400001,OL-0000005,OL-0000005,,C0014,C0014,1,P1037,P1037,1,"Bombilla Boreal ""Star""",Iluminaci√≥n,Bombillas,2,2.0,2.0,51.54,51.54,,,,,‚Ç¨103.08,103.08,103.08,EUR,21.0,25.43,50.86,52.22,Tarjeta,Pendiente,marketplace,,,O-202400001,OL-0000005,,,,,1,1,"Bombilla Boreal ""Star""",50.59,Descatalogado



Dtypes (raw):


Unnamed: 0,dtype_raw
fact_id,object
source_system,object
source_file,object
canal_origen,object
canal_movimiento,object
tipo_movimiento,object
es_devolucion,object
fecha_movimiento_raw,object
fecha_movimiento,object
store_id_raw,object



Nulos por columna (top 15):


Unnamed: 0,nulos
metodo_devolucion,4563
motivo_devolucion,4558
return_id,4522
origen,3312
metodo_pago,2803
order_line_id_original,2766
order_id_original,2708
estado_pedido,2603
cajero_id,2289
caja_id,2288



Filas duplicadas exactas: 0


## 4) Tipado b√°sico (fechas y num√©ricos)

En este paso:
- Creamos **columnas nuevas** con sufijo `_dt`, `_num`, `_int` para NO destruir el raw.
- Medimos la tasa de parseo (especialmente en fechas).
- Dejamos listas las columnas para el Notebook 2/3 (calidad y limpieza).


In [5]:
# Reglas por dataset (puedes ampliarlas en clase)

crm_t = apply_typing_rules(
    crm,
    date_cols=["fecha_alta_programa", "fecha_nacimiento", "fecha_baja", "ultima_actualizacion"],
    numeric_cols=["puntos_acumulados"],
    category_cols=["tier_fidelizacion", "genero", "ciudad", "provincia", "pais", "consentimiento_marketing",
                   "estado_cliente", "origen_alta", "canal_preferido_declarado"]
)

productos_t = apply_typing_rules(
    productos,
    date_cols=["fecha_alta_catalogo"],
    numeric_cols=["precio_venta", "coste_unitario", "iva_pct", "peso_kg", "largo_cm", "ancho_cm", "alto_cm"],
    category_cols=["categoria", "subcategoria", "marca", "proveedor", "material", "color", "estado_producto"]
)

tiendas_t = apply_typing_rules(
    tiendas,
    date_cols=["fecha_apertura"],
    numeric_cols=["metros_cuadrados", "lat", "lon"],
    category_cols=["tipo_ubicacion", "canal", "ciudad", "provincia", "pais", "estado", "region"]
)

pedidos_t = apply_typing_rules(
    pedidos,
    date_cols=["fecha_pedido", "ultima_actualizacion"],
    numeric_cols=["importe_total", "gastos_envio"],
    category_cols=["moneda", "metodo_pago", "estado_pedido", "origen", "pais_envio"]
)

lineas_pedido_t = apply_typing_rules(
    lineas_pedido,
    numeric_cols=["cantidad", "precio_unitario", "descuento_pct", "descuento_importe", "importe_linea", "iva_pct"]
)

devoluciones_online_t = apply_typing_rules(
    devoluciones_online,
    date_cols=["fecha_devolucion"],
    numeric_cols=["cantidad_devuelta", "importe_reembolsado"],
    category_cols=["motivo_devolucion", "metodo_devolucion", "estado_devolucion", "moneda"]
)

ventas_pos_t = apply_typing_rules(
    ventas_pos,
    date_cols=["fecha_hora"],
    numeric_cols=["cantidad", "precio_unitario", "descuento_pct", "descuento_importe", "importe_linea"],
    category_cols=["store_id", "moneda", "canal", "categoria", "subcategoria"]
)

devoluciones_tienda_t = apply_typing_rules(
    devoluciones_tienda,
    date_cols=["fecha_devolucion"],
    numeric_cols=["cantidad_devuelta", "importe_reembolsado"],
    category_cols=["store_id", "estado_devolucion", "moneda", "metodo_reembolso", "motivo_devolucion", "canal_origen_venta"]
)

pagos_tienda_t = apply_typing_rules(
    pagos_tienda,
    date_cols=["fecha_pago"],
    numeric_cols=["importe_pagado"],
    category_cols=["store_id", "metodo_pago", "moneda", "estado_pago"]
)

stock_diario_t = apply_typing_rules(
    stock_diario,
    date_cols=["fecha"],
    numeric_cols=["stock_cierre", "stock_reservado", "stock_en_transito", "stock_minimo"],
    category_cols=["store_id", "fuente"]
)

# (Opcional) fact integrada ‚Äî ya viene con columnas parseadas, pero inspeccionamos fechas clave:
fact_t = apply_typing_rules(
    fact_transacciones,
    date_cols=["fecha_movimiento_raw", "fecha_movimiento"],
    numeric_cols=["cantidad_signed", "importe_signed_num", "importe_abs_num", "coste_total_num", "margen_bruto_num"]
)


  dt2 = pd.to_datetime(s, errors="coerce", dayfirst=not dayfirst)
  dt_fix_2 = pd.to_datetime(s_fix, errors="coerce", dayfirst=False)
  dt2 = pd.to_datetime(s, errors="coerce", dayfirst=not dayfirst)
  dt_fix_2 = pd.to_datetime(s_fix, errors="coerce", dayfirst=False)
  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)
  dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)
  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)
  dt2 = pd.to_datetime(s, errors="coerce", dayfirst=not dayfirst)
  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)
  dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)
  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)
  dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)
  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)
  dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)
  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)


üïí Columna 'fecha_alta_programa': 22/103 parseados (21.4%), 81 NaT
   Ejemplos NO parseados: ['2024-04-18', '2023/09/11', '2020/05/17', '2022-10-01', '2025-03-28', '27 de Agosto de 2020', '13 de Marzo de 2019', '2019-09-10']
üïí Columna 'fecha_nacimiento': 29/103 parseados (28.2%), 74 NaT
   Ejemplos NO parseados: ['1992-11-03', '1986-09-08', '1960-05-15', '1959-01-17', '2005-04-12', '1959-12-04', '1997-08-19', '1996-09-11']
üïí Columna 'fecha_baja': 33/103 parseados (32.0%), 70 NaT
   Ejemplos NO parseados: ['07/11/2024', '05/09/2023', '13/08/2024', '17/10/2025', '20/02/2025', '2024/03/15', '04/09/2024', '2024/08/12']
üïí Columna 'ultima_actualizacion': 103/103 parseados (100.0%), 0 NaT
üïí Columna 'fecha_alta_catalogo': 100/101 parseados (99.0%), 1 NaT
   Ejemplos NO parseados: ['2023/02/05']
üïí Columna 'fecha_apertura': 6/8 parseados (75.0%), 2 NaT
   Ejemplos NO parseados: ['15/07/2017', '2020/09/30']
üïí Columna 'fecha_pedido': 461/656 parseados (70.3%), 195 NaT
   Ejempl

  dt2 = pd.to_datetime(s, errors="coerce", dayfirst=not dayfirst)
  dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)
  dt_fix_2 = pd.to_datetime(s_fix, errors="coerce", dayfirst=False)
  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)
  dt2 = pd.to_datetime(s, errors="coerce", dayfirst=not dayfirst)
  dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)
  dt_fix_2 = pd.to_datetime(s_fix, errors="coerce", dayfirst=False)


üïí Columna 'fecha_hora': 2351/2521 parseados (93.3%), 170 NaT
   Ejemplos NO parseados: ['20 de septiembre de 2025 05:26', '20 de septiembre de 2025 05:26', '26 de diciembre de 2025 10:59', '26 de diciembre de 2025 10:59', '13 de mayo de 2025 07:36', '13 de mayo de 2025 07:36', '15 de febrero de 2025 14:51', '10 de abril de 2025 19:08']
üïí Columna 'fecha_devolucion': 170/211 parseados (80.6%), 41 NaT
   Ejemplos NO parseados: ['14 de septiembre de 2025 08:25', '5 de diciembre de 2025 04:21', '3 de noviembre de 2025 20:51', '5 de febrero de 2025 22:58', '2 de agosto de 2025 22:05', '15 de julio de 2025 22:59', '17 de febrero de 2025 13:34', '14 de enero de 2026 10:00']
üïí Columna 'fecha_pago': 549/1646 parseados (33.4%), 1097 NaT
   Ejemplos NO parseados: ['28/09/25 10:29', '07/04/25 00:50', '17/05/25 19:52', '28/02/2025 18:54', '02/09/25 02:42', '19/08/25 02:40', '05/09/2025 00:00', '30/03/2025']
üïí Columna 'fecha': 41/1940 parseados (2.1%), 1899 NaT
   Ejemplos NO parseados: [

  dt1 = pd.to_datetime(s, errors="coerce", dayfirst=dayfirst)
  dt_fix_1 = pd.to_datetime(s_fix, errors="coerce", dayfirst=True)


## 5) Consistencia b√°sica: claves y referencias

En esta secci√≥n comprobamos:
- Claves (PK): duplicados y nulos (esperamos ‚Äúfallos‚Äù por el dise√±o del caso).
- Integridad referencial (FK): referencias hu√©rfanas entre tablas.

Esto no es una ‚Äúlimpieza‚Äù, es un **diagn√≥stico** inicial.


In [6]:
# 5.1 Duplicidad de claves esperadas (PK)

reports = []
reports.append(duplicate_key_report(crm, ["customer_id"], "crm"))
reports.append(duplicate_key_report(productos, ["product_id"], "productos"))
reports.append(duplicate_key_report(tiendas, ["store_id"], "tiendas"))

reports.append(duplicate_key_report(pedidos, ["order_id"], "pedidos"))
reports.append(duplicate_key_report(lineas_pedido, ["order_line_id"], "lineas_pedido"))
reports.append(duplicate_key_report(devoluciones_online, ["return_id"], "devoluciones_online"))

reports.append(duplicate_key_report(ventas_pos, ["ticket_line_id"], "ventas_pos"))
reports.append(duplicate_key_report(devoluciones_tienda, ["return_id"], "devoluciones_tienda"))
reports.append(duplicate_key_report(pagos_tienda, ["payment_id"], "pagos_tienda"))

reports.append(duplicate_key_report(stock_diario, ["fecha", "store_id", "product_id"], "stock_diario"))

pk_report = pd.concat(reports, ignore_index=True)
display(pk_report)

# 5.2 Integridad referencial (FK) ‚Äî usando columnas RAW (sin estandarizar a√∫n)
fk_reports = []

# Pedidos -> CRM
fk_reports.append(ref_integrity_report(pedidos, "customer_id", crm, "customer_id",
                                      child_name="pedidos", parent_name="crm"))

# L√≠neas -> Pedidos y Productos
fk_reports.append(ref_integrity_report(lineas_pedido, "order_id", pedidos, "order_id",
                                      child_name="lineas_pedido", parent_name="pedidos"))
fk_reports.append(ref_integrity_report(lineas_pedido, "product_id", productos, "product_id",
                                      child_name="lineas_pedido", parent_name="productos"))

# Devoluciones online -> Pedidos, L√≠neas, Productos
fk_reports.append(ref_integrity_report(devoluciones_online, "order_id", pedidos, "order_id",
                                      child_name="devoluciones_online", parent_name="pedidos"))
fk_reports.append(ref_integrity_report(devoluciones_online, "order_line_id", lineas_pedido, "order_line_id",
                                      child_name="devoluciones_online", parent_name="lineas_pedido"))
fk_reports.append(ref_integrity_report(devoluciones_online, "product_id", productos, "product_id",
                                      child_name="devoluciones_online", parent_name="productos"))

# POS ventas -> Productos, Tiendas, CRM (cuando hay customer_id)
fk_reports.append(ref_integrity_report(ventas_pos, "product_id", productos, "product_id",
                                      child_name="ventas_pos", parent_name="productos"))
fk_reports.append(ref_integrity_report(ventas_pos, "store_id", tiendas, "store_id",
                                      child_name="ventas_pos", parent_name="tiendas"))
fk_reports.append(ref_integrity_report(ventas_pos, "customer_id", crm, "customer_id",
                                      child_name="ventas_pos", parent_name="crm"))

# POS devoluciones -> Ventas POS, Productos, Tiendas, CRM
fk_reports.append(ref_integrity_report(devoluciones_tienda, "ticket_id_original", ventas_pos, "ticket_id",
                                      child_name="devoluciones_tienda", parent_name="ventas_pos"))
fk_reports.append(ref_integrity_report(devoluciones_tienda, "ticket_line_id_original", ventas_pos, "ticket_line_id",
                                      child_name="devoluciones_tienda", parent_name="ventas_pos"))
fk_reports.append(ref_integrity_report(devoluciones_tienda, "product_id", productos, "product_id",
                                      child_name="devoluciones_tienda", parent_name="productos"))
fk_reports.append(ref_integrity_report(devoluciones_tienda, "store_id", tiendas, "store_id",
                                      child_name="devoluciones_tienda", parent_name="tiendas"))
fk_reports.append(ref_integrity_report(devoluciones_tienda, "customer_id", crm, "customer_id",
                                      child_name="devoluciones_tienda", parent_name="crm"))
fk_reports.append(ref_integrity_report(devoluciones_tienda, "order_id_original", pedidos, "order_id",
                                      child_name="devoluciones_tienda", parent_name="pedidos"))

# Pagos -> Ventas POS y Tiendas
fk_reports.append(ref_integrity_report(pagos_tienda, "ticket_id", ventas_pos, "ticket_id",
                                      child_name="pagos_tienda", parent_name="ventas_pos"))
fk_reports.append(ref_integrity_report(pagos_tienda, "store_id", tiendas, "store_id",
                                      child_name="pagos_tienda", parent_name="tiendas"))

# Stock -> Productos y Tiendas
fk_reports.append(ref_integrity_report(stock_diario, "product_id", productos, "product_id",
                                      child_name="stock_diario", parent_name="productos"))
fk_reports.append(ref_integrity_report(stock_diario, "store_id", tiendas, "store_id",
                                      child_name="stock_diario", parent_name="tiendas"))

fk_report = pd.concat(fk_reports, ignore_index=True)
display(fk_report.sort_values(["missing_pct", "missing_refs"], ascending=[False, False]))


Unnamed: 0,dataset,key_cols,rows,null_key_rows,duplicate_keys,rows_in_duplicates
0,crm,customer_id,103,0,2,4
1,productos,product_id,101,0,1,2
2,tiendas,store_id,8,0,0,0
3,pedidos,order_id,656,0,4,8
4,lineas_pedido,order_line_id,1949,0,19,39
5,devoluciones_online,return_id,224,0,5,10
6,ventas_pos,ticket_line_id,2521,0,40,80
7,devoluciones_tienda,return_id,211,0,5,10
8,pagos_tienda,payment_id,1646,0,15,30
9,stock_diario,"fecha, store_id, product_id",1940,6,29,58


üîó FK check pedidos.customer_id -> crm.customer_id: 66/493 (13.4%) NO encontrados. Ejemplos: ['C9999', 'C9999', 'CX123', 'C9999', 'CX123', 'C0101', 'CX123', 'c0011']
üîó FK check lineas_pedido.order_id -> pedidos.order_id: 5/1946 (0.3%) NO encontrados. Ejemplos: ['O-202499999', 'O-XYZ', 'O-XYZ', 'O-XYZ', 'O-XYZ']
üîó FK check lineas_pedido.product_id -> productos.product_id: 129/1918 (6.7%) NO encontrados. Ejemplos: ['p1000', 'p1097', 'p10X1', 'p1082', 'p1060', 'p10X1', 'P9999', 'SKU-9999']
üîó FK check devoluciones_online.order_id -> pedidos.order_id: 3/222 (1.4%) NO encontrados. Ejemplos: ['O-209900001', 'O-209900001', 'O-209900001']
üîó FK check devoluciones_online.order_line_id -> lineas_pedido.order_line_id: 3/214 (1.4%) NO encontrados. Ejemplos: ['OL-00000000', 'OL-00000000', 'OL-00000000']
üîó FK check devoluciones_online.product_id -> productos.product_id: 28/221 (12.7%) NO encontrados. Ejemplos: ['p10X1', 'p10X1', 'P9999', 'p1029', 'p1081', 'SKU-9999', 'p1020', 'SKU-999

Unnamed: 0,child,child_col,parent,parent_col,non_null_child,missing_refs,missing_pct
13,devoluciones_tienda,customer_id,crm,customer_id,139,33,0.23741
14,devoluciones_tienda,order_id_original,pedidos,order_id,53,10,0.188679
11,devoluciones_tienda,product_id,productos,product_id,207,30,0.144928
8,ventas_pos,customer_id,crm,customer_id,1402,200,0.142653
0,pedidos,customer_id,crm,customer_id,493,66,0.133874
5,devoluciones_online,product_id,productos,product_id,221,28,0.126697
6,ventas_pos,product_id,productos,product_id,2521,231,0.09163
12,devoluciones_tienda,store_id,tiendas,store_id,208,18,0.086538
2,lineas_pedido,product_id,productos,product_id,1918,129,0.067258
9,devoluciones_tienda,ticket_id_original,ventas_pos,ticket_id,168,10,0.059524


## 6) Checks r√°pidos espec√≠ficos de fechas (formativo)

Queremos detectar:
- Fechas futuras o fuera de rango
- Columnas que no parsean bien
- Valores ‚Äúraros‚Äù que habr√° que normalizar en limpieza


In [7]:
def date_range_check(df_typed: pd.DataFrame, dt_col: str, name: str,
                     min_date: str = "2015-01-01", max_date: str = "2026-12-31") -> None:
    if dt_col not in df_typed.columns:
        print(f"‚ö†Ô∏è {name}: no existe {dt_col}")
        return
    s = df_typed[dt_col]
    s = s.dropna()
    if s.empty:
        print(f"‚ö†Ô∏è {name}: {dt_col} est√° vac√≠o tras parseo")
        return
    min_dt = pd.to_datetime(min_date)
    max_dt = pd.to_datetime(max_date)

    out_low = int((s < min_dt).sum())
    out_high = int((s > max_dt).sum())
    print(f"üìÖ {name}.{dt_col}: min={s.min()}, max={s.max()} | <{min_date}: {out_low} | >{max_date}: {out_high}")

# Ejemplos
date_range_check(pedidos_t, "fecha_pedido_dt", "pedidos")
date_range_check(ventas_pos_t, "fecha_hora_dt", "ventas_pos")
date_range_check(devoluciones_online_t, "fecha_devolucion_dt", "devoluciones_online")
date_range_check(stock_diario_t, "fecha_dt", "stock_diario")
date_range_check(tiendas_t, "fecha_apertura_dt", "tiendas")


üìÖ pedidos.fecha_pedido_dt: min=2017-01-19 12:00:00, max=2030-01-13 08:59:00 | <2015-01-01: 0 | >2026-12-31: 1
üìÖ ventas_pos.fecha_hora_dt: min=2024-08-28 13:05:00, max=2026-08-29 06:42:00 | <2015-01-01: 0 | >2026-12-31: 0
üìÖ devoluciones_online.fecha_devolucion_dt: min=2024-02-01 03:21:03, max=2031-07-01 10:00:00 | <2015-01-01: 0 | >2026-12-31: 3
üìÖ stock_diario.fecha_dt: min=2025-09-01 03:05:24, max=2025-10-31 09:15:03 | <2015-01-01: 0 | >2026-12-31: 0
üìÖ tiendas.fecha_apertura_dt: min=2015-11-01 00:00:00, max=2027-05-01 00:00:00 | <2015-01-01: 0 | >2026-12-31: 1


## 7) Siguiente paso (Notebook 2)

Con esta primera ingesta ya sabemos:

1. Qu√© columnas hay y c√≥mo vienen tipadas **en crudo**.
2. Qu√© columnas de **fecha** y **n√∫mero** requieren normalizaci√≥n.
3. D√≥nde hay **duplicados** y **referencias hu√©rfanas**.

En el Notebook 2 (Perfilado + Data Quality Report) usaremos estos resultados para:
- priorizar problemas,
- decidir reglas de limpieza,
- definir el plan de estandarizaci√≥n (IDs, fechas, importes, categor√≠as).
