In [14]:
import polars as pl

In [15]:
lz_mov = pl.scan_csv("movimientos.csv")
lz_reg = pl.scan_csv("reglas.csv")

3️⃣ Tipos de Joins en Polars

Tipo	Descripción
- inner	 Devuelve solo las coincidencias en ambas tablas
- left	Devuelve todas las filas de la izquierda y las coincidencias de la derecha
- right	Devuelve todas las filas de la derecha y las coincidencias de la izquierda
- outer	Devuelve todas las filas de ambas tablas (combinación total)
- semi	Devuelve filas de la izquierda que tienen coincidencia
- anti	Devuelve filas de la izquierda que no tienen coincidencia

4️⃣ Join básico (inner)

In [16]:
lz_join = lz_mov.join(
    lz_reg,
    on="STR_CUENTA",
    how="inner"
)
lz_join.collect().head()

NUM_ID_CIA,STR_CUENTA,STR_CENTRO_COSTO,VALOR,CIUDAD,NUM_ID_CIA_right,DESCRIPCION,GRUPO
i64,i64,str,i64,str,i64,str,str
1,510505,"""CC001""",250000,"""CALI""",1,"""Ingresos por ventas""","""INGRESOS"""
2,410101,"""CC003""",320000,"""BOGOTÁ""",1,"""Costos operativos""","""COSTOS"""
1,510507,"""CC005""",500000,"""CALI""",1,"""Ingresos especiales""","""INGRESOS"""
1,510505,"""CC001""",250000,"""CALI""",2,"""Ingresos por ventas""","""INGRESOS"""
2,410101,"""CC003""",320000,"""BOGOTÁ""",2,"""Costos operativos""","""COSTOS"""


5️⃣ Join que conserva todos los movimientos (left)

In [17]:
lz_left = lz_mov.join(
    lz_reg,
    on="STR_CUENTA",
    how="left"
)
lz_left.collect().head()

NUM_ID_CIA,STR_CUENTA,STR_CENTRO_COSTO,VALOR,CIUDAD,NUM_ID_CIA_right,DESCRIPCION,GRUPO
i64,i64,str,i64,str,i64,str,str
1,510505,"""CC001""",250000,"""CALI""",1.0,"""Ingresos por ventas""","""INGRESOS"""
1,510505,"""CC001""",250000,"""CALI""",2.0,"""Ingresos por ventas""","""INGRESOS"""
1,510506,"""CC002""",180000,"""MEDELLÍN""",,,
2,410101,"""CC003""",320000,"""BOGOTÁ""",1.0,"""Costos operativos""","""COSTOS"""
2,410101,"""CC003""",320000,"""BOGOTÁ""",2.0,"""Costos operativos""","""COSTOS"""


6️⃣ Join con múltiples columnas

In [18]:
lz_multi = lz_mov.join(
    lz_reg,
    on=["STR_CUENTA", "NUM_ID_CIA"],
    how="inner"
)
lz_multi.collect().head()

NUM_ID_CIA,STR_CUENTA,STR_CENTRO_COSTO,VALOR,CIUDAD,DESCRIPCION,GRUPO
i64,i64,str,i64,str,str,str
1,510505,"""CC001""",250000,"""CALI""","""Ingresos por ventas""","""INGRESOS"""
1,510507,"""CC005""",500000,"""CALI""","""Ingresos especiales""","""INGRESOS"""
2,410101,"""CC003""",320000,"""BOGOTÁ""","""Costos operativos""","""COSTOS"""


7️⃣ Join + filtrado + columnas nuevas (flujo completo)

In [19]:
resultado = (
    lz_mov.join(
        lz_reg,
        on="STR_CUENTA",
        how="left"
    ).filter(
        pl.col("CIUDAD") == "CALI"
    ).with_columns([
        (pl.col("VALOR") / 1000).alias("VALOR_EN_MILES")
    ]).sort(
        "VALOR", descending=True
    ).collect()
)

print(resultado)

shape: (5, 9)
┌────────────┬────────────┬────────────┬────────┬───┬───────────┬───────────┬──────────┬───────────┐
│ NUM_ID_CIA ┆ STR_CUENTA ┆ STR_CENTRO ┆ VALOR  ┆ … ┆ NUM_ID_CI ┆ DESCRIPCI ┆ GRUPO    ┆ VALOR_EN_ │
│ ---        ┆ ---        ┆ _COSTO     ┆ ---    ┆   ┆ A_right   ┆ ON        ┆ ---      ┆ MILES     │
│ i64        ┆ i64        ┆ ---        ┆ i64    ┆   ┆ ---       ┆ ---       ┆ str      ┆ ---       │
│            ┆            ┆ str        ┆        ┆   ┆ i64       ┆ str       ┆          ┆ f64       │
╞════════════╪════════════╪════════════╪════════╪═══╪═══════════╪═══════════╪══════════╪═══════════╡
│ 1          ┆ 510507     ┆ CC005      ┆ 500000 ┆ … ┆ 1         ┆ Ingresos  ┆ INGRESOS ┆ 500.0     │
│            ┆            ┆            ┆        ┆   ┆           ┆ especiale ┆          ┆           │
│            ┆            ┆            ┆        ┆   ┆           ┆ s         ┆          ┆           │
│ 1          ┆ 510507     ┆ CC005      ┆ 500000 ┆ … ┆ 2         ┆ Ingresos  ┆