# üìä An√°lisis de Transacciones - Datathon
## Notebook de Limpieza y Visualizaci√≥n de Datos

---

## üìÅ 1. Carga Inicial de Datos

In [None]:
import polars as pl

# Lectura simple manteniendo fechas como texto
df = pl.read_csv(
    "../data/base_transacciones_final.csv",
    dtypes={
        "id": pl.Utf8,
        "comercio": pl.Utf8,
        "giro_comercio": pl.Utf8,
        "tipo_venta": pl.Utf8,
        "monto": pl.Float64,
        "fecha": pl.Utf8  # Mantenemos fecha como texto
    }
)

## üìà 2. Exploraci√≥n Inicial del Dataset

### 2.1 Informaci√≥n General

In [None]:
# Forma y tipos
print("Shape:", df.shape)
print("Dtypes:", df.dtypes)

# Ver primeras filas
print("\nPrimeras 5 filas:")
print(df.head())

### 2.2 Estad√≠sticas Descriptivas

In [None]:
# Estad√≠sticas de monto y conteos √∫nicos
stats = df.select([
    pl.col("monto").mean().alias("monto_mean"),
    pl.col("monto").median().alias("monto_median"),
    pl.col("monto").std().alias("monto_std"),
    pl.col("monto").min().alias("min"),
    pl.col("monto").max().alias("max"),
    pl.col("id").n_unique().alias("unique_ids"),
    pl.col("comercio").n_unique().alias("unique_merchants")
    
])
print("Estad√≠sticas:")
print(stats)

### 2.3 An√°lisis de Datos Faltantes

In [None]:
# Datos faltantes por columna
print("Datos faltantes por columna:")
print(df.null_count())

## üîç 3. An√°lisis de Duplicados

### 3.1 Detecci√≥n de Duplicados Exactos

In [None]:
print("=== AN√ÅLISIS DE DUPLICADOS EXACTOS ===")
total_original = df.height

# Verificar duplicados exactos: TODAS las columnas id√©nticas
print("Verificando duplicados donde TODAS las columnas son id√©nticas...")

# M√©todo robusto: group by todas las columnas
conteo_exacto = df.group_by(df.columns).agg(pl.len().alias("repeticiones"))
duplicados_exactos = conteo_exacto.filter(pl.col("repeticiones") > 1)

# Calcular estad√≠sticas
grupos_duplicados = duplicados_exactos.height
total_filas_duplicadas = duplicados_exactos.select((pl.col("repeticiones") - 1).sum()).item() if grupos_duplicados > 0 else 0

print(f"Filas originales: {total_original:,}")
print(f"Grupos de filas EXACTAMENTE id√©nticas: {grupos_duplicados:,}")
print(f"Total de filas duplicadas exactas: {total_filas_duplicadas:,}")

### 3.2 An√°lisis de Duplicados por Comercio

In [None]:
if grupos_duplicados > 0:
    print("\n=== AN√ÅLISIS DE DUPLICADOS POR COMERCIO ===")
    
    # Agregar columna de comercio Y giro_comercio a los duplicados exactos y calcular estad√≠sticas
    duplicados_por_comercio = (
        duplicados_exactos
        .select([
            pl.col("comercio"),
            pl.col("giro_comercio"),
            (pl.col("repeticiones") - 1).alias("num_duplicados"),  # Solo contar las copias extra
            pl.col("id").alias("cliente_id")
        ])
        .group_by(["comercio", "giro_comercio"])
        .agg([
            pl.col("num_duplicados").sum().alias("total_duplicados"),
            pl.col("cliente_id").n_unique().alias("clientes_afectados")
        ])
        .with_columns([
            (pl.col("total_duplicados") / total_filas_duplicadas * 100).alias("porcentaje_de_duplicados")
        ])
        .sort("total_duplicados", descending=True)
    )
    
    # EXPORTAR A CSV
    duplicados_por_comercio.write_csv("../data/duplicados_por_comercio.csv")
    print(f"‚úÖ Exportado an√°lisis completo a: ../data/duplicados_por_comercio.csv")

### 3.3 Top Comercios con Duplicados

In [None]:
    print("COMERCIOS CON M√ÅS DUPLICADOS:")
    print("(comercio | giro_comercio | duplicados | % del total | clientes afectados)")
    print(f"Total de comercios con duplicados: {duplicados_por_comercio.height}")
    print("\nPrimeros 20:")
    print(duplicados_por_comercio.head(20))
    
    # Top 10 comercios problem√°ticos
    print(f"\n=== TOP 10 COMERCIOS M√ÅS PROBLEM√ÅTICOS ===")
    top_comercios_problematicos = duplicados_por_comercio.head(10)
    print(top_comercios_problematicos)

### 3.4 Estad√≠sticas Resumidas de Comercios Problem√°ticos

In [None]:
    print(f"\n=== ESTAD√çSTICAS DE COMERCIOS PROBLEM√ÅTICOS ===")
    total_comercios_con_duplicados = duplicados_por_comercio.height
    comercios_top_5 = duplicados_por_comercio.head(5)
    duplicados_top_5 = comercios_top_5.select("total_duplicados").sum().item()
    porcentaje_top_5 = (duplicados_top_5 / total_filas_duplicadas) * 100
    
    print(f"Comercios con duplicados: {total_comercios_con_duplicados}")
    print(f"Top 5 comercios representan: {duplicados_top_5:,} duplicados ({porcentaje_top_5:.1f}% del total)")

### 3.5 Ejemplo de Transacci√≥n Duplicada

In [None]:
    # Mostrar UN ejemplo de transacci√≥n duplicada (cualquiera)
    print("\n=== EJEMPLO DE TRANSACCI√ìN DUPLICADA ===")
    primer_grupo = duplicados_exactos.head(1)
    repeticiones_ejemplo = primer_grupo.select("repeticiones").item()
    
    # Obtener los valores del primer grupo duplicado
    valores_ejemplo = primer_grupo.drop("repeticiones").row(0)
    
    # Filtrar para mostrar todas las repeticiones de este ejemplo
    condiciones = []
    for i, col in enumerate(df.columns):
        condiciones.append(pl.col(col) == valores_ejemplo[i])
    
    filas_ejemplo = df.filter(pl.all_horizontal(condiciones))
    print(f"Transacci√≥n que aparece {repeticiones_ejemplo} veces:")
    print(filas_ejemplo)
    
    print("\n=== TOP 10 GRUPOS CON M√ÅS REPETICIONES EXACTAS ===")
    top_duplicados = duplicados_exactos.sort("repeticiones", descending=True).head(10)
    print(top_duplicados)

else:
    print("‚úÖ No hay duplicados exactos (todas las columnas id√©nticas)")

### 3.6 Resumen de Duplicados

In [None]:
print(f"\n=== RESUMEN ===")
if total_filas_duplicadas > 0:
    print(f"Se encontraron {total_filas_duplicadas:,} filas que son duplicados exactos")
    print("‚úÖ Archivo 'duplicados_por_comercio.csv' creado con an√°lisis completo")
    print("(No se eliminaron - solo an√°lisis)")
else:
    print("No hay duplicados exactos para eliminar")

## üîß 4. Normalizaci√≥n de Nombres de Comercios

### 4.1 Definici√≥n de Funci√≥n de Normalizaci√≥n

In [None]:
print("=== NORMALIZACI√ìN DE CASOS ESPEC√çFICOS IDENTIFICADOS ===")

def normalizar_casos_especificos(comercio_raw, giro_comercio):
    """
    Solo normaliza los 3 casos espec√≠ficos identificados donde hay 
    variaciones del mismo merchant en el mismo giro_comercio
    """
    if comercio_raw is None:
        return "DESCONOCIDO"
    
    comercio = str(comercio_raw).upper().strip()
    
    # Caso 1: 7-Eleven en TIENDAS DE CONVENIENCIA
    if (comercio in ['7 ELEVEN', '7ELEVEN'] and 
        giro_comercio == 'TIENDAS DE CONVENIENCIA, MINISUPER'):
        return "7ELEVEN"
    
    # Caso 2: DidiFood en LIMOSINAS (TAXIS)  
    if (comercio in ['DIDI FOOD', 'DIDIFOOD'] and 
        giro_comercio == 'LIMOSINAS, (TAXIS)'):
        return "DIDIFOOD"
    
    # Caso 3: DidiFood en COMIDA RAPIDA
    if (comercio in ['DIDI FOOD', 'DIDIFOOD'] and 
        giro_comercio == 'COMIDA RAPIDA'):
        return "DIDIFOOD"
    
    # Todo lo dem√°s queda igual
    return comercio

### 4.2 Aplicaci√≥n de Normalizaci√≥n

In [None]:
# Aplicar normalizaci√≥n espec√≠fica
df = df.with_columns([
    pl.struct(["comercio", "giro_comercio"])
    .map_elements(lambda x: normalizar_casos_especificos(x["comercio"], x["giro_comercio"]), return_dtype=pl.Utf8)
    .alias("merchant_std")
])

### 4.3 Verificaci√≥n de Normalizaci√≥n

In [None]:
# Verificar exactamente qu√© se normaliz√≥
print("=== VERIFICACI√ìN DE CASOS NORMALIZADOS ===")
casos_normalizados = df.filter(
    pl.col("comercio") != pl.col("merchant_std")
).group_by(["comercio", "merchant_std", "giro_comercio"]).agg(pl.len().alias("transacciones"))

print("Casos que fueron normalizados:")
print(casos_normalizados)

# Estad√≠sticas de impacto
merchants_antes = df.select(pl.col("comercio").n_unique()).item()
merchants_despues = df.select(pl.col("merchant_std").n_unique()).item()
reduccion = merchants_antes - merchants_despues

print(f"\n=== IMPACTO FINAL ===")
print(f"Merchants √∫nicos antes: {merchants_antes:,}")
print(f"Merchants √∫nicos despu√©s: {merchants_despues:,}")
print(f"Reducci√≥n: {reduccion:,} merchants (exactamente 3 casos normalizados)")

print("\n‚úÖ Normalizaci√≥n completada para los 3 casos espec√≠ficos identificados")

## üìÇ 5. An√°lisis del Dataset Limpio

### 5.1 Carga del Dataset Procesado

In [None]:
print("=== CARGANDO TRANSACTIONS_CLEAN.PARQUET ===")

# Cargar el archivo parquet limpio
df_clean = pl.read_parquet("../data/transactions_clean.parquet")

print(f"Dataset cargado exitosamente")
print(f"Shape: {df_clean.shape}")
print(f"Columnas: {df_clean.columns}")

### 5.2 Overview General

In [None]:
print(f"\n=== OVERVIEW GENERAL ===")
print(f"Total transacciones: {df_clean.height:,}")
print(f"Total clientes √∫nicos: {df_clean.select(pl.col('id').n_unique()).item():,}")
print(f"Total merchants √∫nicos (original): {df_clean.select(pl.col('comercio').n_unique()).item():,}")

# Verificar si tiene merchant_std
if "merchant_std" in df_clean.columns:
    print(f"Total merchants √∫nicos (normalizado): {df_clean.select(pl.col('merchant_std').n_unique()).item():,}")

# Rango de fechas
print(f"Fecha m√≠nima: {df_clean.select(pl.col('fecha').min()).item()}")
print(f"Fecha m√°xima: {df_clean.select(pl.col('fecha').max()).item()}")

### 5.3 Informaci√≥n de Tipos de Datos

In [None]:
print(f"\n=== TIPOS DE DATOS ===")
for col, dtype in zip(df_clean.columns, df_clean.dtypes):
    print(f"{col}: {dtype}")

# Verificar datos faltantes
print(f"\n=== DATOS FALTANTES ===")
print(df_clean.null_count())

# Primeras 10 filas
print(f"\n=== PRIMERAS 10 FILAS ===")
print(df_clean.head(10))

### 5.4 Estad√≠sticas de Montos

In [None]:
print(f"\n=== ESTAD√çSTICAS DE MONTOS ===")
stats_monto = df_clean.select([
    pl.col("monto").min().alias("min"),
    pl.col("monto").quantile(0.25).alias("q25"),
    pl.col("monto").median().alias("mediana"),
    pl.col("monto").mean().alias("promedio"),
    pl.col("monto").quantile(0.75).alias("q75"),
    pl.col("monto").quantile(0.95).alias("q95"),
    pl.col("monto").max().alias("max"),
    pl.col("monto").std().alias("std")
])
print(stats_monto)

### 5.5 Distribuci√≥n por Tipo de Venta

In [None]:
print(f"\n=== DISTRIBUCI√ìN POR TIPO DE VENTA ===")
dist_tipo_venta = df_clean.group_by("tipo_venta").agg([
    pl.len().alias("transacciones"),
    (pl.len() / df_clean.height * 100).alias("porcentaje")
]).sort("transacciones", descending=True)
print(dist_tipo_venta)

### 5.6 Top 15 Giros Comerciales

In [None]:
print(f"\n=== TOP 15 GIROS COMERCIALES ===")
top_giros = df_clean.group_by("giro_comercio").agg([
    pl.len().alias("transacciones"),
    (pl.len() / df_clean.height * 100).alias("porcentaje")
]).sort("transacciones", descending=True).head(15)
print(top_giros)

### 5.7 Top 15 Merchants

In [None]:
print(f"\n=== TOP 15 MERCHANTS ===")
merchant_col = "merchant_std" if "merchant_std" in df_clean.columns else "comercio"
top_merchants = df_clean.group_by(merchant_col).agg([
    pl.len().alias("transacciones"),
    (pl.len() / df_clean.height * 100).alias("porcentaje"),
    pl.col("monto").mean().alias("monto_promedio")
]).sort("transacciones", descending=True).head(15)
print(top_merchants)

### 5.8 Distribuci√≥n Temporal

In [None]:
print(f"\n=== DISTRIBUCI√ìN TEMPORAL (POR MES) ===")
dist_mensual = df_clean.with_columns([
    pl.col("fecha").dt.strftime("%Y-%m").alias("a√±o_mes")
]).group_by("a√±o_mes").agg([
    pl.len().alias("transacciones"),
    pl.col("monto").sum().alias("monto_total")
]).sort("a√±o_mes")
print(dist_mensual)

print(f"\n‚úÖ Dataset transactions_clean.parquet visualizado completamente")

## üíæ 6. Exportaci√≥n del Dataset Limpio

### 6.1 Exportar a CSV

In [None]:
print("=== EXPORTANDO DATASET LIMPIO A CSV ===")

# Exportar el dataset limpio a CSV
df_clean.write_csv("../data/transactions_clean.csv")

print(f"‚úÖ Dataset exportado exitosamente a: ../data/transactions_clean.csv")
print(f"   - Total de filas exportadas: {df_clean.height:,}")
print(f"   - Total de columnas: {len(df_clean.columns)}")
print(f"   - Tama√±o aproximado: {df_clean.height * len(df_clean.columns) * 50 / 1_000_000:.1f} MB (estimado)")

## üìä Resumen
- **An√°lisis de duplicados**: Identificaci√≥n y exportaci√≥n de comercios problem√°ticos
- **Normalizaci√≥n**: 3 casos espec√≠ficos normalizados (7-Eleven, DidiFood)
- **Dataset limpio**: An√°lisis completo de transacciones procesadas
- **Archivos generados**: 
  - `duplicados_por_comercio.csv`
  - `transactions_clean.csv`