# Introducci√≥n a Polars

**Polars** es un motor de an√°lisis de datos moderno, escrito en Rust y dise√±ado para ser extremadamente r√°pido y eficiente. A diferencia de Pandas, que puede ser lento con datasets grandes, Polars est√° optimizado para:

* **Velocidad:** Implementaci√≥n en Rust con evaluaci√≥n lazy
* **Memoria:** Uso eficiente de RAM con Arrow como backend
* **API intuitiva:** Expresiones composables similar a SQL
* **Escalabilidad:** Dise√±ado para Big Data

En este notebook aprenderemos a trabajar con Polars desde cero.

In [None]:
import polars as pl
import pandas as pd
import numpy as np

print(f"Polars versi√≥n: {pl.__version__}")
print(f"Polars info: {pl.show_versions()}")

## ¬øPor qu√© Polars?

### Comparativa: Pandas vs Polars

| Aspecto | Pandas | Polars |
| :--- | :--- | :--- |
| **Lenguaje** | Python | Rust + Python binding |
| **Backend** | NumPy | Arrow |
| **Velocidad** | Moderada | ‚ö° Muy r√°pida |
| **Memoria** | Eficiente | üéØ √ìptima |
| **Lazy eval.** | No | S√≠ (opcional) |
| **API** | Imperativos | Expresiones |
| **Escalabilidad** | En-memoria | In-memory + distribuido |

### Benchmarks Reales

En operaciones t√≠picas de an√°lisis de datos, Polars puede ser **5-10x m√°s r√°pido** que Pandas.

In [None]:
# Benchmark: Creaci√≥n de DataFrame
import time

n_rows = 1_000_000

# Benchmark Pandas
start = time.time()
df_pandas = pd.DataFrame({
    'id': range(n_rows),
    'valor': np.random.rand(n_rows)
})
tiempo_pandas = time.time() - start

# Benchmark Polars
start = time.time()
df_polars = pl.DataFrame({
    'id': range(n_rows),
    'valor': np.random.rand(n_rows)
})
tiempo_polars = time.time() - start

print(f"Pandas: {tiempo_pandas:.4f}s")
print(f"Polars: {tiempo_polars:.4f}s")
print(f"Polars es {tiempo_pandas/tiempo_polars:.1f}x m√°s r√°pido")

## DataFrames en Polars

Un DataFrame en Polars es similar al de Pandas, pero con una API m√°s eficiente y expresiva.

In [None]:
# Crear DataFrame desde diccionario
df = pl.DataFrame({
    'id': [1, 2, 3, 4, 5],
    'nombre': ['Alice', 'Bob', 'Charlie', 'Diana', 'Eve'],
    'edad': [25, 30, 35, 28, 32],
    'salario': [50000.0, 60000.0, 75000.0, 55000.0, 70000.0]
})

print(df)

In [None]:
# Inspeccionar el DataFrame
print(f"Shape: {df.shape}")
print(f"\nColumns: {df.columns}")
print(f"\nSchema:\n{df.schema}")
print(f"\nInfo:\n{df.info()}")

In [None]:
# Head y tail
print("Head:")
print(df.head(2))
print("\nTail:")
print(df.tail(2))

In [None]:
# Describe (estad√≠sticas)
print(df.describe())

In [None]:
# Leer CSV con Polars
df_csv = pl.read_csv('datos_ejemplo.csv')
print(f"DataFrame desde CSV:\n{df_csv}")

In [None]:
# Leer Parquet
df_parquet = pl.read_parquet('tabla_ejemplo.parquet')
print(f"DataFrame desde Parquet:\n{df_parquet}")

## Selecciones y Filtros con Expresiones

Polars utiliza un sistema de **expresiones** que permite operaciones claras y composables.

In [None]:
# Select: elegir columnas
df_select = df.select(['nombre', 'edad'])
print("Select columns:")
print(df_select)

In [None]:
# Filter: filtrar filas
df_filtered = df.filter(pl.col('edad') > 28)
print("Personas con edad > 28:")
print(df_filtered)

In [None]:
# Expresiones combinadas
df_complex = df.filter(
    (pl.col('edad') > 25) & (pl.col('salario') >= 60000)
)
print("Edad > 25 AND Salario >= 60000:")
print(df_complex)

## Transformaciones

Agregar, modificar o eliminar columnas con `with_columns()`.

In [None]:
# Agregar columnas
df_transformed = df.with_columns(
    (pl.col('salario') * 1.1).alias('salario_incrementado'),
    (pl.col('edad') / 10).alias('edad_decada')
)
print("Con columnas calculadas:")
print(df_transformed)

In [None]:
# Renombrar columnas
df_renamed = df.rename({
    'nombre': 'employee_name',
    'edad': 'employee_age'
})
print(df_renamed)

In [None]:
# Drop (eliminar) columnas
df_dropped = df.drop('salario')
print("Sin columna salario:")
print(df_dropped)

## Groupby y Agregaciones

Agrupar datos y aplicar funciones de agregaci√≥n de forma eficiente.

In [None]:
# Crear datos de ejemplo con categor√≠as
df_sales = pl.DataFrame({
    'departamento': ['Ventas', 'IT', 'Ventas', 'IT', 'HR', 'Ventas', 'IT', 'HR'],
    'empleado': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],
    'salario': [50000, 80000, 55000, 85000, 45000, 60000, 90000, 48000]
})
print(df_sales)

In [None]:
# Groupby con agregaciones
df_agg = df_sales.groupby('departamento').agg(
    pl.col('salario').mean().alias('salario_promedio'),
    pl.col('salario').max().alias('salario_max'),
    pl.col('empleado').count().alias('cantidad')
)
print("Aggregations por departamento:")
print(df_agg)

In [None]:
# Ordenar resultados
df_sorted = df_sales.sort('salario', descending=True)
print("Ordenado por salario (descendente):")
print(df_sorted)

## Lazy Evaluation

Polars soporta **evaluaci√≥n lazy**, donde las operaciones se definen pero no se ejecutan hasta que se llama `.collect()`.

Esto permite que Polars optimice autom√°ticamente las consultas.

In [None]:
# Evaluaci√≥n lazy
query = (df
    .lazy()
    .filter(pl.col('edad') > 27)
    .select(['nombre', 'salario'])
    .sort('salario', descending=True)
)

print(f"Query type: {type(query)}")
print("\nEjecutar query:")
result = query.collect()
print(result)

In [None]:
# Ver el plan de ejecuci√≥n optimizado
query_plan = (df
    .lazy()
    .filter(pl.col('edad') > 27)
    .select(['nombre', 'salario'])
    .sort('salario')
)

print("Query plan (optimizado):")
print(query_plan.explain())

## Conversiones Pandas ‚Üî Polars

Es f√°cil convertir entre Pandas y Polars.

In [None]:
# Pandas ‚Üí Polars
df_pandas = pd.DataFrame({
    'A': [1, 2, 3],
    'B': ['x', 'y', 'z']
})
df_polars = pl.from_pandas(df_pandas)
print(f"Pandas a Polars:\n{df_polars}")

In [None]:
# Polars ‚Üí Pandas
df_back_to_pandas = df_polars.to_pandas()
print(f"Polars a Pandas:\n{df_back_to_pandas}")
print(f"\nTipo: {type(df_back_to_pandas)}")

## Resumen: Polars vs Pandas

### Cu√°ndo usar Polars:

‚úì Datasets grandes (>1GB)

‚úì Operaciones complejas que requieren optimizaci√≥n

‚úì Lazy evaluation para consultas complejas

‚úì Necesidad de m√°xima velocidad

### Cu√°ndo usar Pandas:

‚úì Datasets peque√±os y medianos

‚úì Compatibilidad con c√≥digo existente

‚úì Visualizaci√≥n r√°pida

‚úì Ecosistema amplio de librer√≠as

En el pr√≥ximo notebook veremos **operaciones avanzadas** en Polars: Window functions, joins optimizados y lazy evaluation profunda.