# **Polars en Python: Trabajando Agrupaciones M√∫ltiples, Pivotar y Transponer**

> Notebook para practicar **agrupaciones m√∫ltiples**, **pivotar** y **transponer**, usando **Polars**.


## Diferencias clave entre **Pandas** y **Polars** (para alumnos)

- **Motor**: Pandas es muy flexible y muy usado; **Polars** est√° pensado para ser **muy r√°pido** y **eficiente en memoria**.
- **Paralelismo**: Polars aprovecha **varios n√∫cleos** (multihilo) en muchas operaciones por defecto.
- **Modo de trabajo**:
  - **Pandas** suele ser *eager* (ejecuta inmediatamente).
  - **Polars** puede ser *eager* **o** *lazy* (planifica un ‚Äúquery plan‚Äù y optimiza antes de ejecutar).
- **Expresiones**: en Polars se trabaja mucho con `pl.col(...)`, `pl.when(...).then(...).otherwise(...)`, etc. Eso permite operaciones vectorizadas y optimizables.
- **√çndices**:
  - Pandas usa `index` y puede tener **MultiIndex** (muy √∫til, pero a veces confuso).
  - Polars no centra su dise√±o en √≠ndices; normalmente trabajas con **columnas** (m√°s directo para an√°lisis tipo SQL).
- **Pivot / reshape**: ambos pueden pivotar y ‚Äúdespivotar‚Äù, pero la API cambia (en Polars: `pivot`, `unpivot/melt`).

> Consejo: si vienes de Pandas, piensa en Polars como un enfoque ‚Äútipo SQL‚Äù: **seleccionar columnas, filtrar, agrupar, agregar**.

### **Importar librer√≠a**

En Polars, lo habitual es importar como `pl`.

In [1]:
import polars as pl

### **Carga de Datos**

üìå **Idea**: igual que en Pandas, leemos un CSV y revisamos las primeras filas.

> Si est√°s en Google Colab y tu archivo est√° en Drive, aseg√∫rate de montar Drive y poner la ruta correcta.

# **AGRUPACIONES MULTIPLES**

En Polars hacemos agrupaciones con `group_by(...).agg(...)`.

- `pl.len()` cuenta filas (equivalente a un `count`).
- Con `alias()` ponemos un nombre m√°s amigable a la columna resultante.

### Agrupaci√≥n simple

Contamos cu√°ntos registros (por ejemplo, tweets) hay por **mes**.

In [2]:
agrupado = (
    df
    .group_by("mes")
    .agg(pl.len().alias("n¬∫ tweets"))
    .sort("mes")
)

agrupado

NameError: name 'df' is not defined

### Agrupar por m√∫ltiples niveles en mis dataframes

Ahora contamos por **mes** y **ciudad** (dos columnas a la vez).

In [None]:
agrupado = (
    df
    .group_by(["mes", "ciudad"])
    .agg(pl.len().alias("n¬∫ tweets"))
    .sort(["mes", "ciudad"])
)

agrupado

#### ‚ÄúReseteo de √≠ndice‚Äù (comparaci√≥n con Pandas)

En **Pandas**, una agrupaci√≥n con varias claves suele devolver un **MultiIndex** y a veces necesitas `reset_index()` para volver a tener columnas.

En **Polars**, el resultado del `group_by` ya viene como **DataFrame con columnas** (`mes`, `ciudad`, `n¬∫ tweets`), as√≠ que normalmente **no hace falta** ‚Äúresetear √≠ndice‚Äù.

In [None]:
# En Polars no hay MultiIndex como en Pandas.
# El resultado ya trae 'mes' y 'ciudad' como columnas:
desagrupado = agrupado

# Comprobamos columnas disponibles
desagrupado.columns

# **PIVOTAR**

Pivotar es ‚Äúconvertir valores de una columna en columnas‚Äù.

Queremos que:
- filas = `mes`
- columnas = `ciudad`
- valores = `n¬∫ tweets`

In [None]:
pivote = (
    desagrupado
    .pivot(
        values="n¬∫ tweets",
        index="mes",
        columns="ciudad",
        aggregate_function="first"  # ya est√° agregado, as√≠ que 'first' nos sirve
    )
    .sort("mes")
)

pivote

#### Extraer los datos de una columna

‚úÖ En Polars, como el pivot (con un solo `values`) deja columnas ‚Äúplanas‚Äù, podemos seleccionar una ciudad directamente.

> En Pandas a veces aparece MultiIndex en columnas, y por eso se usa `droplevel(...)`. Aqu√≠ no hace falta.

In [None]:
# Opci√≥n 1: quedarnos con una sola columna (por ejemplo, GUAYAQUIL)
# (si tu dataset usa otra forma de escribir la ciudad, ajusta el nombre)
pivote.select(["mes", "GUAYAQUIL"])

#### Rellenar valores faltantes

Tras pivotar, puede haber combinaciones `mes-ciudad` que no existan. Eso genera **nulls**.

Los rellenamos con 0 (equivalente a `fillna(0)` en Pandas).

In [None]:
pivote = pivote.fill_null(0)
pivote

# **TRANSPONER**

Transponer intercambia filas ‚Üî columnas.

‚ö†Ô∏è Ojo: al transponer, el resultado puede ser menos ‚Äúc√≥modo‚Äù para an√°lisis; se usa m√°s para presentar o inspeccionar.

In [None]:
pivote.transpose()