# Práctica de Polars para Marketing Digital 📊

In [None]:
import polars as pl
import numpy as np

## 1. Creación de DataFrames en Polars

Polars nos permite crear DataFrames de varias maneras:
- A partir de diccionarios
- A partir de listas
- Leyendo archivos (CSV, Excel, etc.)

In [None]:
# Ejemplo: Datos de campañas publicitarias
data_campañas = {
    'campaña': ['Search_Brand', 'Display_Remarketing', 'Social_Awareness'],
    'impresiones': [15000, 25000, 35000],
    'clics': [750, 500, 800],
    'conversiones': [50, 30, 45],
    'costo': [1500.0, 750.0, 1200.0]
}

In [None]:
df = pl.DataFrame(data_campañas)
df

campaña,impresiones,clics,conversiones,costo
str,i64,i64,i64,f64
"""Search_Brand""",15000,750,50,1500.0
"""Display_Remarketing""",25000,500,30,750.0
"""Social_Awareness""",35000,800,45,1200.0


In [None]:
# 🎯 Ejercicio 1: Creación de DataFrame
"""
Crea un DataFrame con los siguientes datos de campañas de email marketing:
- campaña: ['Newsletter_Ene', 'Promo_Feb', 'Evento_Mar']
- enviados: [5000, 7500, 6000]
- aperturas: [2000, 3500, 2400]
- clics: [150, 280, 190]

### 🎯 Ejercicio 1: Creación de DataFrame
Crea un DataFrame con los siguientes datos de campañas de email marketing:
- campaña: ['Newsletter_Ene', 'Promo_Feb', 'Evento_Mar']
- enviados: [5000, 7500, 6000]
- aperturas: [2000, 3500, 2400]
- clics: [150, 280, 190]


In [None]:
# Tu código aquí
# df_email = pl.DataFrame(...)

## 2. Inspección de Datos

Polars ofrece varias funciones para explorar nuestros datos:
- shape: dimensiones del DataFrame
- describe(): estadísticas descriptivas
- dtypes: tipos de datos
- head()/tail(): primeras/últimas filas

In [None]:
print("\nInspección básica:")
print("Dimensiones:", df.shape)
print("\nTipos de datos:")
print(df.dtypes)
print("\nEstadísticas descriptivas:")
print(df.describe())


Inspección básica:
Dimensiones: (3, 5)

Tipos de datos:
[String, Int64, Int64, Int64, Float64]

Estadísticas descriptivas:
shape: (9, 6)
┌────────────┬─────────────────────┬─────────────┬────────────┬──────────────┬────────────┐
│ statistic  ┆ campaña             ┆ impresiones ┆ clics      ┆ conversiones ┆ costo      │
│ ---        ┆ ---                 ┆ ---         ┆ ---        ┆ ---          ┆ ---        │
│ str        ┆ str                 ┆ f64         ┆ f64        ┆ f64          ┆ f64        │
╞════════════╪═════════════════════╪═════════════╪════════════╪══════════════╪════════════╡
│ count      ┆ 3                   ┆ 3.0         ┆ 3.0        ┆ 3.0          ┆ 3.0        │
│ null_count ┆ 0                   ┆ 0.0         ┆ 0.0        ┆ 0.0          ┆ 0.0        │
│ mean       ┆ null                ┆ 25000.0     ┆ 683.333333 ┆ 41.666667    ┆ 1150.0     │
│ std        ┆ null                ┆ 10000.0     ┆ 160.727513 ┆ 10.40833     ┆ 377.491722 │
│ min        ┆ Display_Remarketing

### 🎯 Ejercicio 2: Inspección
Con el DataFrame de email marketing que creaste:
1. Muestra sus dimensiones
2. Obtén las estadísticas descriptivas
3. Muestra los tipos de datos de cada columna

In [None]:
# Tu código aquí

##  3. Selección y Filtrado
En Polars podemos:
- Seleccionar columnas: df.select([...])
- Filtrar filas: df.filter(...)
- Combinar operaciones con expresiones

In [None]:
print("\nSolo métricas principales:")
print(df.select(['campaña', 'clics', 'conversiones']))

# Filtrado de filas
print("\nCampañas con más de 700 clics:")
print(df.filter(pl.col('clics') > 700))


Solo métricas principales:
shape: (3, 3)
┌─────────────────────┬───────┬──────────────┐
│ campaña             ┆ clics ┆ conversiones │
│ ---                 ┆ ---   ┆ ---          │
│ str                 ┆ i64   ┆ i64          │
╞═════════════════════╪═══════╪══════════════╡
│ Search_Brand        ┆ 750   ┆ 50           │
│ Display_Remarketing ┆ 500   ┆ 30           │
│ Social_Awareness    ┆ 800   ┆ 45           │
└─────────────────────┴───────┴──────────────┘

Campañas con más de 700 clics:
shape: (2, 5)
┌──────────────────┬─────────────┬───────┬──────────────┬────────┐
│ campaña          ┆ impresiones ┆ clics ┆ conversiones ┆ costo  │
│ ---              ┆ ---         ┆ ---   ┆ ---          ┆ ---    │
│ str              ┆ i64         ┆ i64   ┆ i64          ┆ f64    │
╞══════════════════╪═════════════╪═══════╪══════════════╪════════╡
│ Search_Brand     ┆ 15000       ┆ 750   ┆ 50           ┆ 1500.0 │
│ Social_Awareness ┆ 35000       ┆ 800   ┆ 45           ┆ 1200.0 │
└──────────────────┴

### 🎯 Ejercicio 3: Selección y Filtrado
Con el DataFrame de campañas:
1. Selecciona solo las columnas 'campaña' y 'costo'
2. Filtra las campañas que tienen más de 40 conversiones
3. Combina ambas operaciones en una sola expresión

In [None]:
# Tu código aquí

## 4. Operaciones con Columnas

Podemos:
- Crear nuevas columnas
- Realizar cálculos
- Aplicar transformaciones

In [None]:
# Cálculo de métricas comunes en marketing
df_metrics = df.with_columns([
    (pl.col('clics') / pl.col('impresiones') * 100).alias('ctr'),
    (pl.col('costo') / pl.col('clics')).alias('cpc'),
    (pl.col('conversiones') / pl.col('clics') * 100).alias('conv_rate')
])

print("\nDataFrame con métricas calculadas:")
print(df_metrics)


DataFrame con métricas calculadas:
shape: (3, 8)
┌─────────────────────┬─────────────┬───────┬──────────────┬────────┬──────────┬─────┬───────────┐
│ campaña             ┆ impresiones ┆ clics ┆ conversiones ┆ costo  ┆ ctr      ┆ cpc ┆ conv_rate │
│ ---                 ┆ ---         ┆ ---   ┆ ---          ┆ ---    ┆ ---      ┆ --- ┆ ---       │
│ str                 ┆ i64         ┆ i64   ┆ i64          ┆ f64    ┆ f64      ┆ f64 ┆ f64       │
╞═════════════════════╪═════════════╪═══════╪══════════════╪════════╪══════════╪═════╪═══════════╡
│ Search_Brand        ┆ 15000       ┆ 750   ┆ 50           ┆ 1500.0 ┆ 5.0      ┆ 2.0 ┆ 6.666667  │
│ Display_Remarketing ┆ 25000       ┆ 500   ┆ 30           ┆ 750.0  ┆ 2.0      ┆ 1.5 ┆ 6.0       │
│ Social_Awareness    ┆ 35000       ┆ 800   ┆ 45           ┆ 1200.0 ┆ 2.285714 ┆ 1.5 ┆ 5.625     │
└─────────────────────┴─────────────┴───────┴──────────────┴────────┴──────────┴─────┴───────────┘


### 🎯 Ejercicio 4: Cálculo de Métricas
Para el DataFrame de email marketing:
1. Calcula la tasa de apertura (aperturas/enviados)
2. Calcula la tasa de clics (clics/aperturas)
3. Calcula el costo por envío (asumiendo un costo total de $100 por campaña)

In [None]:
# Tu código aquí

## 5. Agrupación y Agregación
Podemos:
- Agrupar por una o más columnas
- Aplicar diferentes funciones de agregación
- Crear resúmenes estadísticos

In [None]:
# Creamos más datos para ejemplo
data_extendido = {
    'fecha': ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02'],
    'canal': ['Search', 'Display', 'Search', 'Display'],
    'impresiones': [5000, 8000, 5500, 8500],
    'clics': [250, 160, 275, 170],
    'costo': [500.0, 400.0, 550.0, 425.0]
}

df_diario = pl.DataFrame(data_extendido)

# Agrupación por canal
print("\nMétricas por canal:")
print(df_diario.group_by('canal').agg([
    pl.col('impresiones').sum(),
    pl.col('clics').sum(),
    pl.col('costo').sum(),
    (pl.col('clics').sum() / pl.col('impresiones').sum() * 100).alias('ctr')
]))


Métricas por canal:
shape: (2, 5)
┌─────────┬─────────────┬───────┬────────┬─────┐
│ canal   ┆ impresiones ┆ clics ┆ costo  ┆ ctr │
│ ---     ┆ ---         ┆ ---   ┆ ---    ┆ --- │
│ str     ┆ i64         ┆ i64   ┆ f64    ┆ f64 │
╞═════════╪═════════════╪═══════╪════════╪═════╡
│ Display ┆ 16500       ┆ 330   ┆ 825.0  ┆ 2.0 │
│ Search  ┆ 10500       ┆ 525   ┆ 1050.0 ┆ 5.0 │
└─────────┴─────────────┴───────┴────────┴─────┘


# 🎯 Ejercicio 5: Agrupación

Crea un DataFrame con datos de ventas por región y producto:
- fecha: ['2024-01-01', '2024-01-01', '2024-01-02', '2024-01-02']
- región: ['Norte', 'Sur', 'Norte', 'Sur']
- producto: ['A', 'A', 'B', 'B']
- ventas: [1000, 1200, 800, 1500]
- unidades: [100, 120, 80, 150]

Luego:
1. Agrupa por región y calcula total de ventas y unidades
2. Calcula el precio promedio por unidad para cada región
3. Encuentra la región con más ventas


In [None]:
# Tu código aquí

## 6. Ordenamiento y Ranking
Podemos:
- Ordenar por una o más columnas
- Ordenar ascendente o descendente
- Crear rankings

In [None]:
print("\nCampañas ordenadas por CTR descendente:")
df_sorted = df_metrics.sort(by='ctr', descending=True)
print(df_sorted)


Campañas ordenadas por CTR descendente:
shape: (3, 8)
┌─────────────────────┬─────────────┬───────┬──────────────┬────────┬──────────┬─────┬───────────┐
│ campaña             ┆ impresiones ┆ clics ┆ conversiones ┆ costo  ┆ ctr      ┆ cpc ┆ conv_rate │
│ ---                 ┆ ---         ┆ ---   ┆ ---          ┆ ---    ┆ ---      ┆ --- ┆ ---       │
│ str                 ┆ i64         ┆ i64   ┆ i64          ┆ f64    ┆ f64      ┆ f64 ┆ f64       │
╞═════════════════════╪═════════════╪═══════╪══════════════╪════════╪══════════╪═════╪═══════════╡
│ Search_Brand        ┆ 15000       ┆ 750   ┆ 50           ┆ 1500.0 ┆ 5.0      ┆ 2.0 ┆ 6.666667  │
│ Social_Awareness    ┆ 35000       ┆ 800   ┆ 45           ┆ 1200.0 ┆ 2.285714 ┆ 1.5 ┆ 5.625     │
│ Display_Remarketing ┆ 25000       ┆ 500   ┆ 30           ┆ 750.0  ┆ 2.0      ┆ 1.5 ┆ 6.0       │
└─────────────────────┴─────────────┴───────┴──────────────┴────────┴──────────┴─────┴───────────┘


### 🎯 Ejercicio 6: Ordenamiento

Con el DataFrame de métricas que creaste:
1. Ordena las campañas por tasa de conversión descendente
2. Muestra solo las 2 campañas con mejor CPC
3. Crea un ranking de campañas basado en múltiples métricas

In [None]:
# Tu código aquí

In [None]:
df = pl.DataFrame(data_extendido)
df

fecha,canal,impresiones,clics,costo
str,str,i64,i64,f64
"""2024-01-01""","""Search""",5000,250,500.0
"""2024-01-01""","""Display""",8000,160,400.0
"""2024-01-02""","""Search""",5500,275,550.0
"""2024-01-02""","""Display""",8500,170,425.0


In [None]:
(
    df
 .group_by('fecha').agg(
    pl.col('impresiones').sum()
)
  .filter(pl.col('fecha') > '2024-01-01')
  .sort(by='fecha')
)

fecha,impresiones
str,i64
"""2024-01-01""",13000
"""2024-01-02""",14000
