<a href="https://colab.research.google.com/github/EderLara/CuadernosPythonParaML/blob/main/Tutorial_Polars_Elemental.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **POLARS - Introducción a Polars**

## **¿Qué es Polars?**

Polars es una biblioteca de manipulación de DataFrames escrita en Rust (un lenguaje de programación conocido por su seguridad y velocidad) y que utiliza Apache Arrow como su modelo de memoria columnar en segundo plano.

Está diseñada desde cero para el procesamiento en paralelo y la optimización de consultas, lo que la hace significativamente más rápida que Pandas en muchas operaciones, especialmente con datasets grandes.

## **¿Por qué Polars? (Ventajas y Cuándo Considerarlo)**

Si bien Pandas es fantástico, Polars brilla en ciertos escenarios:

1. **Rendimiento Superior:**
    * **Velocidad:** Al estar construido en Rust y diseñado para el paralelismo (aprovecha múltiples núcleos de tu CPU automáticamente), Polars puede ser órdenes de magnitud más rápido que Pandas para muchas operaciones (filtrado, agrupaciones, joins).
    * **Manejo Eficiente de Memoria:** Utiliza Apache Arrow, que es un formato columnar eficiente, y tiene estrategias para minimizar el uso de memoria y las copias de datos.
2. **API Expresiva y Moderna:**
    * **Encadenamiento de Métodos (Method Chaining):** La sintaxis de Polars se presta muy bien a encadenar operaciones de forma clara y legible.
    * **"Expression API" (API de Expresiones): **Este es uno de los conceptos más poderosos de Polars. Te permite definir operaciones complejas sobre columnas de una manera muy flexible y optimizable. Veremos esto en detalle.
    * **Lazy Evaluation (Evaluación Perezosa):** Por defecto, muchas operaciones en Polars se construyen como un "plan de consulta" (modo lazy) y solo se ejecutan cuando es estrictamente necesario (por ejemplo, al llamar a .collect()). Esto permite a Polars optimizar toda la cadena de operaciones antes de la ejecución.

3. **Soporte para Out-of-Core (Streaming):** Polars puede procesar datasets que son más grandes que la memoria RAM disponible utilizando su API de scan_* (ej. scan_csv, scan_parquet). En este modo, Polars procesa los datos en trozos (chunks) sin necesidad de cargarlos todos en memoria.
4. **Tipado Estricto y Apache Arrow:** El uso de Arrow asegura una gestión de tipos de datos más robusta y eficiente, además de facilitar la interoperabilidad con otros sistemas que también usan Arrow.

---

## **Similitudes Conceptuales con Pandas:**
Si vienes de Pandas, muchos conceptos te resultarán familiares:

* **DataFrame:** La estructura tabular principal.
* **Series:** Representa una columna individual.
* Operaciones como **selección**, **filtrado**, **agrupación**, **joins**, etc., existen en Polars, aunque la sintaxis para lograrlas puede diferir.

## **Diferencias Clave con Pandas (a Alto Nivel):**

1. **Índices (Indexes):** Polars no tiene un concepto de índice de fila mutable como el de Pandas (ej. `df.loc[]` basado en etiquetas de índice). Las filas se identifican principalmente por su posición entera. Esto simplifica la API en algunos aspectos y la hace más performante, ya que no hay que mantener la sobrecarga de un índice. Las operaciones se centran más en las columnas y sus valores.
2. **Mutabilidad:** Polars favorece fuertemente la inmutabilidad. La mayoría de las operaciones devuelven un nuevo DataFrame o Serie, en lugar de modificar el original "in-place". Esto ayuda a prevenir efectos secundarios inesperados.
3. **Lazy vs. Eager Execution:**
    * **Eager (Ansioso):** Las operaciones se ejecutan inmediatamente (como en Pandas por defecto).
    * **Lazy (Perezoso):** Las operaciones se registran en un plan y solo se ejecutan cuando se llama a `.collect()`. Esto permite a Polars aplicar optimizaciones al plan completo. El modo lazy es el más potente y recomendado para rendimiento.
4. **Sintaxis de Selección y Manipulación:** Aunque los objetivos son los mismos, la forma de seleccionar columnas, filtrar filas y aplicar transformaciones (especialmente con la API de expresiones) es diferente y muy característica de Polars.

---
## **Instalación e Importación**
1. Instalación Básica (instala los componentes comunes):
```
pip install polars
```

2. O, si quieres incluir todas las funcionalidades extra (como conectores a diferentes tipos de archivos, etc.):
```
pip install polars[all]
```

3. Importación (La convención es importar Polars con el alias pl):
```
import polars as pl
```

---
# **Tabla de Contenido**

# **Creación de Series y DataFrames**

## **Creando Series en Polars (`pl.Series`)**

Una Serie en Polars es similar a la de Pandas: un array unidimensional de datos.

1. **Desde una lista de Python:**

In [None]:
import polars as pl

# Creando una Serie desde una lista, especificando el nombre
datos_lista_pl = [10, 20, 30, 40, 50]
serie_pl_lista = pl.Series(name="mis_numeros", values=datos_lista_pl)
print("Serie de Polars desde una lista:")
print(serie_pl_lista)
print("\nTipo de dato de la Serie:", serie_pl_lista.dtype)
print("Nombre de la Serie:", serie_pl_lista.name)
print("Longitud de la Serie:", len(serie_pl_lista)) # o serie_pl_lista.len()

"""
# Salida Esperada:

Serie de Polars desde una lista:
shape: (5,)
Series: 'mis_numeros' [i64]
[
    10
    20
    30
    40
    50
]

Tipo de dato de la Serie: Int64
Nombre de la Serie: mis_numeros
Longitud de la Serie: 5

"""

2. **Especificando el tipo de dato (`dtype`):**

Polars tiene su propio sistema de tipos de datos (ej. pl.Int32, pl.Float64, pl.Utf8 para strings, pl.Boolean, pl.Date, pl.Datetime).

In [None]:
import polars as pl

datos_strings = ["manzana", "banana", "pera"]
# Creando una serie de strings (Utf8 es el tipo para texto en Polars)
serie_strings = pl.Series(name="frutas", values=datos_strings, dtype=pl.Utf8)
print("\nSerie de Polars de strings:")
print(serie_strings)

datos_floats = [1.0, 2.5, 3.0]
serie_floats = pl.Series(name="decimales", values=datos_floats, dtype=pl.Float32) # especificamos Float32
print("\nSerie de Polars de floats (Float32):")
print(serie_floats)

## **Creando DataFrames en Polars (`pl.DataFrame`)**

1. **Desde un diccionario de Python (listas, pl.Series, arrays de NumPy):**

Esta es la forma más común. Las claves del diccionario son los nombres de las columnas y los valores son los datos de esas columnas.

In [None]:
import polars as pl
import numpy as np

datos_df_pl = {
    'ID_Producto': [101, 102, 103, 104],
    'Nombre_Producto': ['Teclado', 'Mouse', 'Monitor', 'Webcam'],
    'Precio': [75.0, 25.5, 300.0, 45.99],
    'Stock': np.array([50, 120, 30, 75]) # Podemos usar arrays de NumPy
}
df_pl = pl.DataFrame(datos_df_pl)
print("\nDataFrame de Polars desde un diccionario:")
print(df_pl)
print("\nSchema del DataFrame:") # El schema es como el .info() pero más enfocado en tipos
print(df_pl.schema)

"""
DataFrame de Polars desde un diccionario:
shape: (4, 4)
┌─────────────┬─────────────────┬────────┬───────┐
│ ID_Producto ┆ Nombre_Producto ┆ Precio ┆ Stock │
│ ---         ┆ ---             ┆ ---    ┆ ---   │
│ i64         ┆ str             ┆ f64    ┆ i64   │
╞═════════════╪═════════════════╪════════╪═══════╡
│ 101         ┆ Teclado         ┆ 75.0   ┆ 50    │
│ 102         ┆ Mouse           ┆ 25.5   ┆ 120   │
│ 103         ┆ Monitor         ┆ 300.0  ┆ 30    │
│ 104         ┆ Webcam          ┆ 45.99  ┆ 75    │
└─────────────┴─────────────────┴────────┴───────┘

Schema del DataFrame:
OrderedDict([('ID_Producto', Int64), ('Nombre_Producto', Utf8), ('Precio', Float64), ('Stock', Int64)])

Polars también infiere los tipos aquí.
La representación visual del DataFrame en la consola es muy útil.
"""

2. **Definiendo el Schema explícitamente:**

Se pueden definir los tipos de datos de cada columna al crear el DataFrame para mayor control o para optimizar.

In [None]:
import polars as pl

datos_para_schema = {
    'col_a': [1, 2, 3],
    'col_b': [True, False, True],
    'col_c': ['x', 'y', 'z']
}
mi_schema = {
    'col_a': pl.Int16, # Usamos un entero más pequeño
    'col_b': pl.Boolean,
    'col_c': pl.Utf8
}
df_con_schema = pl.DataFrame(data=datos_para_schema, schema=mi_schema)
print("\nDataFrame de Polars con schema explícito:")
print(df_con_schema)
print("\nSchema resultante:")
print(df_con_schema.schema)

3. **Desde una lista de diccionarios (usando pl.from_dicts()):**

* Cada diccionario representa una fila.
* Polars manejará las claves faltantes introduciendo valores nulos (null en Polars, análogo a NaN en Pandas para números o None para objetos).

In [None]:
import polars as pl

lista_de_diccionarios_pl = [
    {'Nombre': 'Carlos', 'Edad': 25, 'Profesion': 'Ingeniero'},
    {'Nombre': 'Laura', 'Edad': 30, 'Profesion': 'Doctora'},
    {'Nombre': 'Pedro', 'Edad': 22, 'Ciudad': 'Bogotá'} # Clave 'Ciudad' nueva, 'Profesion' puede faltar
]
df_desde_lista_dic_pl = pl.from_dicts(lista_de_diccionarios_pl)
print("\nDataFrame de Polars desde una lista de diccionarios:")
print(df_desde_lista_dic_pl)
print("\nSchema resultante:")
print(df_desde_lista_dic_pl.schema)

4. **Leyendo desde archivos (adelanto):**

Al igual que Pandas, Polars puede leer de varios formatos. Suelen ser más rápidas y eficientes, especialmente `read_parquet` y `scan_csv` (para modo lazy).

```
# Conceptualmente (no se ejecutará sin un archivo real):
df_csv_polars = pl.read_csv("ruta/a/tu/archivo.csv")
df_parquet_polars = pl.read_parquet("ruta/a/tu/archivo.parquet")

# Usando scan_csv para modo lazy (se explicará más adelante):
df_lazy_csv = pl.scan_csv("ruta/a/tu/archivo_grande.csv")
df_resultado = df_lazy_csv.filter(pl.col("columna") > 10).collect()
```

---

# **Inspección y Exploración Básica de Datos**

Al igual que con Pandas, una vez que tienes un DataFrame en Polars (ya sea creado o cargado), querrás entender su estructura, los tipos de datos que contiene, y obtener una visión general de su contenido. Polars ofrece un conjunto de atributos y métodos muy eficientes para esto.

Primero, creemos un DataFrame de Polars para nuestros ejemplos de inspección. Lo haremos similar al que usamos con Pandas para que puedas comparar, pero usando las convenciones de Polars.

In [None]:
import polars as pl
from datetime import date, datetime, timedelta # Para crear fechas y datetimes

# Creando un DataFrame de Polars de ejemplo
datos_polars_inspeccion = {
    'ID_Sensor': [1, 2, 3, 4, 5, 6, 7, 8],
    'Tipo_Sensor': ['Temp', 'Hum', 'Pres', 'Temp', 'Luz', 'Hum', 'Temp', None], # String con un None
    'Lectura_Valor': [22.5, 65.2, 1012.5, 23.1, 800.0, 66.0, None, 10.5], # Float con un None
    'Fecha_Lectura': [
        date(2025, 5, 10), date(2025, 5, 10), date(2025, 5, 11), date(2025, 5, 11),
        date(2025, 5, 12), date(2025, 5, 12), date(2025, 5, 13), date(2025, 5, 13)
    ],
    'Hora_Lectura': [
        datetime(2025, 5, 10, 10, 0, 0), datetime(2025, 5, 10, 10, 5, 0),
        datetime(2025, 5, 11, 14, 30, 0), datetime(2025, 5, 11, 14, 32, 0),
        datetime(2025, 5, 12, 8, 0, 0), None, # Datetime con un None
        datetime(2025, 5, 13, 18, 0, 0), datetime(2025, 5, 13, 18, 3, 0)
    ],
    'Activo': [True, True, False, True, True, False, True, False]
}

# Definimos el schema para mejor control de tipos, especialmente para Date y Datetime
schema_definido = {
    'ID_Sensor': pl.Int32,
    'Tipo_Sensor': pl.Utf8,      # Tipo para strings
    'Lectura_Valor': pl.Float32,
    'Fecha_Lectura': pl.Date,
    'Hora_Lectura': pl.Datetime, # Acepta microsegundos por defecto, podemos especificar 'us' o 'ms'
    'Activo': pl.Boolean
}

df_pl_ins = pl.DataFrame(datos_polars_inspeccion, schema=schema_definido)

print("DataFrame de Polars para inspección:")
print(df_pl_ins)
print("\n" + "="*50 + "\n")

## 1. **`head(n)` y `tail(n)`: Ver las primeras/últimas filas:**
Funcionan de manera muy similar a Pandas. Por defecto muestran 5 filas.

In [None]:
print("Primeras 3 filas del DataFrame (df_pl_ins.head(3)):")
print(df_pl_ins.head(3))

print("\nÚltimas 2 filas del DataFrame (df_pl_ins.tail(2)):")
print(df_pl_ins.tail(2))
print("\n" + "="*50 + "\n")

## 2. **`shape`: Dimensiones del DataFrame**
Un atributo que devuelve una tupla (número_de_filas, número_de_columnas).

In [None]:
print("Dimensiones del DataFrame (filas, columnas) (df_pl_ins.shape):")
print(df_pl_ins.shape)
print(f"El DataFrame tiene {df_pl_ins.shape[0]} filas y {df_pl_ins.shape[1]} columnas.")

# También puedes obtener alto y ancho por separado:
print(f"Altura (número de filas): {df_pl_ins.height}")
print(f"Anchura (número de columnas): {df_pl_ins.width}")
print("\n" + "="*50 + "\n")

## 3. **`describe()`: Estadísticas descriptivas**

Proporciona un resumen estadístico de las columnas. Para columnas numéricas, incluye count (no nulos), null_count, mean, std, min, percentiles (25%, 50%, 75%) y max. Para columnas no numéricas (como strings), muestra count, null_count, unique, y mode (el valor más frecuente).



In [None]:
print("Estadísticas descriptivas del DataFrame (df_pl_ins.describe()):")
print(df_pl_ins.describe())
# Nota: Polars describe() intenta ser inteligente y puede mostrar diferentes cosas
# según el tipo de dato de la columna, incluyendo strings.
print("\n" + "="*50 + "\n")


"""
La salida de describe() en Polars es bastante completa y se adapta bien a diferentes tipos de datos.
"""

## 4. **`dtypes`: Tipos de datos de cada columna**
Un atributo que devuelve una lista de los tipos de datos de Polars para cada columna.

In [None]:
print("Tipos de datos de cada columna (df_pl_ins.dtypes):")
print(df_pl_ins.dtypes)
print("\n" + "="*50 + "\n")

"""
Salida Esperada:

[Int32, Utf8, Float32, Date, Datetime(time_unit='us', time_zone=None), Boolean]

"""

## 5. **`schema`: Schema del DataFrame**
Un atributo que devuelve un diccionario ordenado (o similar) mapeando los nombres de las columnas a sus tipos de datos de Polars. Es más detallado que dtypes porque muestra los nombres de las columnas junto con los tipos.

In [None]:
print("Schema del DataFrame (df_pl_ins.schema):")
print(df_pl_ins.schema)
print("\n" + "="*50 + "\n")

"""
Salida Esperada:

OrderedDict({'ID_Sensor': Int32, 'Tipo_Sensor': Utf8, 'Lectura_Valor': Float32, 'Fecha_Lectura': Date, 'Hora_Lectura': Datetime(time_unit='us', time_zone=None), 'Activo': Boolean})
"""

## 6. **`columns`: Nombres de las columnas:**
Un atributo que devuelve una lista con los nombres de todas las columnas.

In [None]:
print("Nombres de las columnas (df_pl_ins.columns):")
print(df_pl_ins.columns)
print("\n" + "="*50 + "\n")

## 7. **`glimpse()`: Un vistazo rápido al DataFrame:**
Este método es específico de Polars y es muy útil. Muestra una vista transpuesta del DataFrame, listando cada columna, su tipo de dato, y los primeros valores. Es como una combinación de info() y head() pero más compacto y orientado a la estructura.

In [None]:
print("Vistazo al DataFrame (df_pl_ins.glimpse()):")
df_pl_ins.glimpse() # glimpse() imprime directamente, no devuelve un objeto para imprimir
print("\n" + "="*50 + "\n")

"""
  Salida Esperada:

Vistazo al DataFrame (df_pl_ins.glimpse()):
Rows: 8
Columns: 6
$ ID_Sensor     <i32> 1, 2, 3, 4, 5, 6, 7, 8
$ Tipo_Sensor   <str> 'Temp', 'Hum', 'Pres', 'Temp', 'Luz', 'Hum', 'Temp', None
$ Lectura_Valor <f32> 22.5, 65.2, 1012.5, 23.1, 800.0, 66.0, None, 10.5
$ Fecha_Lectura <date> 2025-05-10, 2025-05-10, 2025-05-11, 2025-05-11, 2025-05-12, 2025-05-12, 2025-05-13, 2025-05-13
$ Hora_Lectura  <datetime[μs]> 2025-05-10 10:00:00, 2025-05-10 10:05:00, 2025-05-11 14:30:00, 2025-05-11 14:32:00, 2025-05-12 08:00:00, None, 2025-05-13 18:00:00, 2025-05-13 18:03:00
$ Activo        <bool> true, true, false, true, true, false, true, false

"""

## 8. **`is_empty()`: Verificar si el DataFrame está vacío**

In [None]:
print(f"¿El DataFrame está vacío? (df_pl_ins.is_empty()): {df_pl_ins.is_empty()}")
df_vacio = pl.DataFrame()
print(f"¿Un DataFrame vacío lo está? (df_vacio.is_empty()): {df_vacio.is_empty()}")
print("\n" + "="*50 + "\n")

## 9. **Operaciones en Series: `is_unique()`, `n_unique()`, `value_counts()`**
Estas operaciones se aplican a una columna (Serie) del DataFrame.

In [None]:
# Seleccionar una columna (Serie)
col_tipo_sensor = df_pl_ins['Tipo_Sensor']
print(f"Columna 'Tipo_Sensor':\n{col_tipo_sensor}")

# ¿Son todos los valores en 'Tipo_Sensor' únicos?
print(f"\n¿Son únicos los valores en 'Tipo_Sensor'? {col_tipo_sensor.is_unique().all()}") # is_unique() devuelve una serie booleana, .all() la reduce

# Número de valores únicos en 'Tipo_Sensor'
print(f"Número de valores únicos en 'Tipo_Sensor': {col_tipo_sensor.n_unique()}")

# Frecuencia de cada valor en 'Tipo_Sensor'
print("\nFrecuencia de valores en 'Tipo_Sensor' (value_counts()):")
print(col_tipo_sensor.value_counts())
print("\n" + "="*50 + "\n")

"""
  Salida Esperada:

Frecuencia de valores en 'Tipo_Sensor' (value_counts()):
shape: (5, 2)
┌─────────────┬────────┐
│ Tipo_Sensor ┆ counts │
│ ---         ┆ ---    │
│ str         ┆ u32    │
╞═════════════╪════════╡
│ Temp        ┆ 3      │
│ Hum         ┆ 2      │
│ Luz         ┆ 1      │
│ null        ┆ 1      │
│ Pres        ┆ 1      │
└─────────────┴────────┘

"""

---
## **Selección y Filtrado de Datos**

Esta es una de las áreas donde Polars realmente muestra su poder y su enfoque diferente, principalmente a través de su API de Expresiones. Las expresiones te permiten construir operaciones complejas de forma declarativa, que Polars luego puede optimizar, especialmente en modo lazy (aunque también funcionan en modo eager)

Seguimos usando el mismo dataset:

In [None]:
import polars as pl
from datetime import date, datetime # Para nuestros datos de ejemplo

# Recreamos el DataFrame anterior para consistencia
datos_polars_inspeccion = {
    'ID_Sensor': [1, 2, 3, 4, 5, 6, 7, 8],
    'Tipo_Sensor': ['Temp', 'Hum', 'Pres', 'Temp', 'Luz', 'Hum', 'Temp', None],
    'Lectura_Valor': [22.5, 65.2, 1012.5, 23.1, 800.0, 66.0, None, 10.5],
    'Fecha_Lectura': [
        date(2025, 5, 10), date(2025, 5, 10), date(2025, 5, 11), date(2025, 5, 11),
        date(2025, 5, 12), date(2025, 5, 12), date(2025, 5, 13), date(2025, 5, 13)
    ],
    'Hora_Lectura': [
        datetime(2025, 5, 10, 10, 0, 0), datetime(2025, 5, 10, 10, 5, 0),
        datetime(2025, 5, 11, 14, 30, 0), datetime(2025, 5, 11, 14, 32, 0),
        datetime(2025, 5, 12, 8, 0, 0), None,
        datetime(2025, 5, 13, 18, 0, 0), datetime(2025, 5, 13, 18, 3, 0)
    ],
    'Activo': [True, True, False, True, True, False, True, False]
}
schema_definido = {
    'ID_Sensor': pl.Int32, 'Tipo_Sensor': pl.Utf8, 'Lectura_Valor': pl.Float32,
    'Fecha_Lectura': pl.Date, 'Hora_Lectura': pl.Datetime, 'Activo': pl.Boolean
}
df_pl_ins = pl.DataFrame(datos_polars_inspeccion, schema=schema_definido)

print("DataFrame original Selección y Filtrado de Datos:")
print(df_pl_ins)
print("\n" + "="*50 + "\n")

## 1. **Selección de Columnas**

  ### **Usando `df.select()` con Expresiones `pl.col()` (la forma más idiomática y potente):**

  El método `select()` es la principal forma de elegir, transformar o crear nuevas columnas. Se usa con expresiones de Polars, comúnmente pl.col("nombre_columna") para referirse a una columna existente.

In [None]:
print("--- Selección de Columnas con df.select() ---")
# Seleccionar una sola columna
df_una_columna = df_pl_ins.select(pl.col("Tipo_Sensor"))
print("\nSelección de una columna ('Tipo_Sensor'):")
print(df_una_columna)

# Seleccionar múltiples columnas
df_multiples_columnas = df_pl_ins.select(
    pl.col("ID_Sensor"),
    pl.col("Fecha_Lectura"),
    pl.col("Lectura_Valor")
)
print("\nSelección de múltiples columnas:")
print(df_multiples_columnas)

# Seleccionar columnas y renombrarlas con alias
df_con_alias = df_pl_ins.select(
    pl.col("ID_Sensor").alias("Identificador"),
    pl.col("Lectura_Valor").alias("Valor")
)
print("\nSelección con alias:")
print(df_con_alias)

# Seleccionar todas las columnas
df_todas_columnas = df_pl_ins.select(pl.all()) # pl.all() selecciona todo
# print("\nTodas las columnas (igual que el original en este caso):")
# print(df_todas_columnas)

# Excluir columnas
df_sin_fechas = df_pl_ins.select(pl.all().exclude("Fecha_Lectura", "Hora_Lectura"))
print("\nTodas las columnas EXCEPTO las de fecha:")
print(df_sin_fechas)
print("\n" + "="*50 + "\n")

### **Usando `df.select()` con strings o listas de strings (más conciso para selección simple):**
Polars permite pasar directamente strings o listas de strings a select para una selección simple.

In [None]:
# Seleccionar una columna pasando su nombre como string
df_tipo_sensor_str = df_pl_ins.select("Tipo_Sensor")
print("Selección de 'Tipo_Sensor' usando string:")
print(df_tipo_sensor_str)

# Seleccionar múltiples columnas pasando una lista de strings
df_id_valor_str = df_pl_ins.select(["ID_Sensor", "Lectura_Valor", "Activo"])
print("\nSelección de múltiples columnas usando lista de strings:")
print(df_id_valor_str)
print("\n" + "="*50 + "\n")

### **Usando Selectores (API `pl.selectors` o cs):**
Para selecciones más programáticas o basadas en patrones/tipos.

In [None]:
import polars.selectors as cs # Alias común para los selectores

# Seleccionar todas las columnas de tipo string (Utf8)
df_columnas_string = df_pl_ins.select(cs.string()) # cs.string() es un alias para cs.by_dtype(pl.Utf8)
print("Selección de todas las columnas de tipo string (Utf8):")
print(df_columnas_string)

# Seleccionar todas las columnas numéricas (enteros y flotantes)
df_columnas_numericas = df_pl_ins.select(cs.numeric())
print("\nSelección de todas las columnas numéricas:")
print(df_columnas_numericas)

# Seleccionar columnas que empiezan con "Fecha_"
df_columnas_fecha = df_pl_ins.select(cs.starts_with("Fecha_"))
print("\nSelección de columnas que empiezan con 'Fecha_':")
print(df_columnas_fecha)
print("\n" + "="*50 + "\n")

### **Acceso directo con corchetes [ ] (similar a Pandas):**

* `df["nombre_columna"]` devuelve una Serie de Polars.
* `df[["col1", "col2"]]` devuelve un DataFrame de Polars con esas columnas.

In [None]:
# Seleccionar una columna como Serie
serie_tipo_sensor = df_pl_ins["Tipo_Sensor"]
print("Columna 'Tipo_Sensor' como Serie de Polars:")
print(serie_tipo_sensor)
print(f"Tipo: {type(serie_tipo_sensor)}")

# Seleccionar múltiples columnas como DataFrame
df_id_y_activo = df_pl_ins[["ID_Sensor", "Activo"]]
print("\nColumnas 'ID_Sensor' y 'Activo' como DataFrame:")
print(df_id_y_activo)
print(f"Tipo: {type(df_id_y_activo)}")
print("\n" + "="*50 + "\n")

## 2. **Selección de Filas (Slicing)**

Polars no tiene un índice como el de Pandas que se use con .loc o .iloc de la misma manera para la selección de filas basada en etiquetas. La selección de filas se hace principalmente por posición o condición.

### **Usando d`f.slice(offset, length)`:**
Selecciona un trozo del DataFrame especificando un desplazamiento (desde dónde empezar) y una longitud (cuántas filas tomar).



> **Nota:** Recuerda que `df.head(n)` y `df.tail(n)` también son formas de seleccionar las primeras o últimas n filas.



In [None]:
print("--- Selección de Filas (Slicing) ---")
# Seleccionar 3 filas empezando desde la fila en posición 2 (la tercera fila)
df_slice = df_pl_ins.slice(offset=2, length=3)
print("\nSlice de 3 filas desde la posición 2:")
print(df_slice)

# Seleccionar las primeras 4 filas (similar a head(4) pero con slice)
df_slice_inicio = df_pl_ins.slice(offset=0, length=4)
# print("\nSlice de las primeras 4 filas:")
# print(df_slice_inicio)
print("\n" + "="*50 + "\n")

### **Acceso directo a filas por índice entero (similar a iloc para una sola fila en Pandas):**

* `df[indice_fila] `devuelve la fila como un DataFrame de una fila.
* `df[indice_inicio:indice_fin]` realiza un slicing.

In [None]:
# Seleccionar la fila en la posición 0 (la primera fila)
fila_0 = df_pl_ins[0]
print("Fila en posición 0:")
print(fila_0)

# Slicing de filas (similar a Python, el final es exclusivo)
slice_filas_directo = df_pl_ins[2:5] # Filas en posición 2, 3, 4
print("\nSlice de filas [2:5]:")
print(slice_filas_directo)
print("\n" + "="*50 + "\n")

## 3. **Filtrado de Filas con `df.filter()` y Expresiones**

Este es el método principal y más potente para seleccionar filas que cumplen ciertas condiciones. Se usa con la API de Expresiones de Polars.

In [None]:
print("--- Filtrado de Filas con df.filter() ---")
# 1. Condición numérica: Sensores con Lectura_Valor > 50.0
df_lecturas_altas = df_pl_ins.filter(pl.col("Lectura_Valor") > 50.0)
print("\nSensores con Lectura_Valor > 50.0:")
print(df_lecturas_altas)

# 2. Condición de string: Sensores de tipo 'Temp'
df_tipo_temp = df_pl_ins.filter(pl.col("Tipo_Sensor") == "Temp")
print("\nSensores de tipo 'Temp':")
print(df_tipo_temp)

# También puedes usar métodos de string dentro de las expresiones
df_tipo_contiene_m = df_pl_ins.filter(pl.col("Tipo_Sensor").str.contains("m")) # Contiene 'm' (Hum)
print("\nSensores cuyo tipo contiene la letra 'm':")
print(df_tipo_contiene_m)

# 3. Combinar múltiples condiciones (usando & para AND, | para OR, ~ para NOT):
# Sensores de tipo 'Temp' Y que estén 'Activo'
df_temp_activos = df_pl_ins.filter(
    (pl.col("Tipo_Sensor") == "Temp") & (pl.col("Activo") == True) # o simplemente pl.col("Activo")
)
print("\nSensores de tipo 'Temp' Y Activos:")
print(df_temp_activos)

# Sensores con Lectura_Valor < 20 O Lectura_Valor > 500
df_lecturas_extremos = df_pl_ins.filter(
    (pl.col("Lectura_Valor") < 20.0) | (pl.col("Lectura_Valor") > 500.0)
)
print("\nSensores con Lectura_Valor < 20.0 O > 500.0:")
print(df_lecturas_extremos)

# 4. Usando `.is_in()`:
# Sensores de tipo 'Hum' o 'Luz'
tipos_buscados = ["Hum", "Luz"]
df_hum_o_luz = df_pl_ins.filter(pl.col("Tipo_Sensor").is_in(tipos_buscados))
print("\nSensores de tipo 'Hum' o 'Luz':")
print(df_hum_o_luz)

# 5. Usando `.is_null()` o `.is_not_null()`:
# Filas donde 'Lectura_Valor' es nulo
df_lectura_nula = df_pl_ins.filter(pl.col("Lectura_Valor").is_null())
print("\nFilas con 'Lectura_Valor' nulo:")
print(df_lectura_nula)

# Filas donde 'Tipo_Sensor' NO es nulo
df_tipo_no_nulo = df_pl_ins.filter(pl.col("Tipo_Sensor").is_not_null())
print("\nFilas con 'Tipo_Sensor' NO nulo:")
print(df_tipo_no_nulo)
print("\n" + "="*50 + "\n")

## 4. **Encadenamiento de Operaciones (Selección y Filtrado)**

Una gran ventaja de Polars es cómo se pueden encadenar las operaciones de forma legible:

In [None]:
print("--- Encadenamiento de Operaciones ---")
# Seleccionar ID_Sensor, Tipo_Sensor y Lectura_Valor para los sensores 'Temp' que estén activos
# y cuya lectura sea mayor a 23.0
resultado_encadenado = (
    df_pl_ins
    .filter(
        (pl.col("Tipo_Sensor") == "Temp") &
        (pl.col("Activo") == True) &
        (pl.col("Lectura_Valor") > 23.0)
    )
    .select(["ID_Sensor", "Tipo_Sensor", "Lectura_Valor"])
    .sort("Lectura_Valor", descending=True) # Añadimos un ordenamiento también
)
print("\nResultado de filtrar y seleccionar encadenadamente:")
print(resultado_encadenado)

---
## **Manipulación de Datos.**

Aquí es donde la "Expression API" de Polars realmente se luce. La mayoría de las transformaciones, creación de nuevas columnas y modificaciones se realizan de manera muy eficiente y expresiva usando el método `with_columns()` (o a` veces select()` si solo quieres un subconjunto transformado).

* DataFrame para ejemplos de manipulación:

In [None]:
import polars as pl
from datetime import date, datetime, timedelta
import numpy as np # Para algún NaN si es necesario

# DataFrame de Polars para manipulación
datos_manipulacion = {
    'ID_Transaccion': range(1, 9),
    'Producto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B'],
    'Fecha': [
        date(2025, 1, 5), date(2025, 1, 5), date(2025, 1, 6), date(2025, 1, 6),
        date(2025, 1, 7), date(2025, 1, 8), date(2025, 1, 8), date(2025, 1, 9)
    ],
    'Cantidad': [10, 5, 8, 12, 6, 15, 7, 9],
    'Precio_Unitario': [100.0, 250.5, 105.0, 50.0, 260.0, None, 52.5, 240.0],   # Incluimos un None
    'Descuento_Aplicado': [0.1, 0.0, 0.1, 0.05, 0.0, 0.15, 0.0, 0.05]
}
schema_manip = {
    'ID_Transaccion': pl.Int16, 'Producto': pl.Categorical,                     # Usamos Categorical para Producto
    'Fecha': pl.Date, 'Cantidad': pl.Int32, 'Precio_Unitario': pl.Float64,
    'Descuento_Aplicado': pl.Float32
}
df_pl_manip = pl.DataFrame(datos_manipulacion, schema=schema_manip)

"""
  Usamos pl.Categorical para la columna 'Producto', que es un tipo de dato eficiente en Polars para strings con un número limitado de valores únicos.
"""

print("DataFrame original para Manipulación de Datos:")
print(df_pl_manip)
print("\n" + "="*50 + "\n")

### 1. **Añadir y Modificar Columnas con `df.with_columns()`**

`with_columns()` es el método principal para añadir nuevas columnas o transformar las existentes. Toma una o más expresiones de Polars.

 * Añadir una columna con un valor literal (escalar):
  Usamos `pl.lit()` para crear una expresión a partir de un valor literal.

In [None]:
df_con_literal = df_pl_manip.with_columns(
    pl.lit("Tienda_Online").alias("Canal_Venta")
)
print("--- Añadir/Modificar Columnas con with_columns ---")
print("\nDataFrame con nueva columna 'Canal_Venta' (literal):")
print(df_con_literal)

## 2. **Añadir una columna derivada de otras existentes:**

In [None]:
# Calcular Ingreso_Bruto = Cantidad * Precio_Unitario
# Calcular Precio_Neto = Precio_Unitario * (1 - Descuento_Aplicado)
df_con_calculos = df_pl_manip.with_columns([
    (pl.col("Cantidad") * pl.col("Precio_Unitario")).alias("Ingreso_Bruto"),
    (pl.col("Precio_Unitario") * (1 - pl.col("Descuento_Aplicado"))).alias("Precio_Neto_Unitario") # Observa que si 'Precio_Unitario' es nulo, el resultado de las operaciones también será nulo.
])
print("\nDataFrame con 'Ingreso_Bruto' y 'Precio_Neto_Unitario':")
print(df_con_calculos)

## 3. **Modificar una columna existente:**
Si el alias (`.alias("nombre_columna")`) coincide con el nombre de una columna existente, esa columna se sobrescribe.

In [None]:
# Convertir 'Producto' a minúsculas (ya es Categorical, pero .str funciona en expresiones)
df_producto_minusculas = df_pl_manip.with_columns(
    pl.col("Producto").str.to_lowercase().alias("Producto") # Sobrescribe 'Producto'
)
print("\nDataFrame con 'Producto' en minúsculas:")
print(df_producto_minusculas)

## 4. **Crear columnas con lógica condicional (`pl.when().then().otherwise()`):**

In [None]:
# Categorizar Descuento: 'Alto' si > 0.1, 'Medio' si > 0.05, 'Bajo' de lo contrario
df_con_categoria_descuento = df_pl_manip.with_columns(
    pl.when(pl.col("Descuento_Aplicado") > 0.1)
    .then(pl.lit("Alto"))
    .when(pl.col("Descuento_Aplicado") > 0.05)
    .then(pl.lit("Medio"))
    .otherwise(pl.lit("Bajo"))
    .alias("Nivel_Descuento")
)
print("\nDataFrame con 'Nivel_Descuento':")
print(df_con_categoria_descuento[["Producto", "Descuento_Aplicado", "Nivel_Descuento"]])
print("\n" + "="*50 + "\n")

## **Eliminar Columnas con `df.drop()`**

In [None]:
print("--- Eliminar Columnas ---")
# Creamos una copia para no afectar el df original de esta sección
df_para_drop = df_con_calculos.clone() # .clone() para una copia profunda

# Eliminar una sola columna
df_drop_una = df_para_drop.drop("Ingreso_Bruto")
print("\nDataFrame después de eliminar 'Ingreso_Bruto':")
print(df_drop_una.columns)

# Eliminar múltiples columnas
df_drop_multiples = df_para_drop.drop(["Ingreso_Bruto", "Precio_Neto_Unitario"])
print("\nDataFrame después de eliminar 'Ingreso_Bruto' y 'Precio_Neto_Unitario':")
print(df_drop_multiples.columns)

# También se puede pasar una sola columna sin lista a drop
# df_drop_una_alt = df_para_drop.drop("Ingreso_Bruto")
print("\n" + "="*50 + "\n")

## **C. Manejo de Valores Nulos (null)**

## 1. **Contar nulos (repaso):**

In [None]:
print("--- Manejo de Valores Nulos ---")
print("Conteo de nulos por columna:")
print(df_pl_manip.null_count()) # Muestra un DataFrame con los conteos
# O para una columna específica, dentro de una expresión:
# print(df_pl_manip.select(pl.col("Precio_Unitario").is_null().sum().alias("nulos_precio")))

## 2. **Eliminar filas con nulos: `df.drop_nulls()`:**

In [None]:
# Eliminar cualquier fila que tenga al menos un valor nulo
df_sin_nulos_filas = df_pl_manip.drop_nulls()
print("\nDataFrame después de drop_nulls() (elimina filas con cualquier nulo):")
print(df_sin_nulos_filas) # La fila con Precio_Unitario nulo desaparece

# Eliminar filas si tienen nulos en un subconjunto de columnas
# (En nuestro df, solo Precio_Unitario tiene nulos)
df_sin_nulos_subset = df_pl_manip.drop_nulls(subset=["Precio_Unitario"])
print("\nDataFrame después de drop_nulls(subset=['Precio_Unitario']):")
print(df_sin_nulos_subset)

## 3. **Rellenar nulos usando expresiones con fill_null() (dentro de with_columns o select):**

* Tambien existen otras estrategías para fill_null: '`backward`', '`min`', '`max`', '`one`', '`zero`'.

In [None]:
# Rellenar nulos en 'Precio_Unitario' con un valor literal (ej. 0.0)
df_relleno_literal = df_pl_manip.with_columns(
    pl.col("Precio_Unitario").fill_null(0.0).alias("Precio_Rellenado_Literal")
)
print("\n'Precio_Unitario' con nulos rellenados con 0.0:")
print(df_relleno_literal[["Precio_Unitario", "Precio_Rellenado_Literal"]])

# Rellenar nulos con la media de la columna (Polars calcula la media ignorando nulos)
df_relleno_media = df_pl_manip.with_columns(
    pl.col("Precio_Unitario").fill_null(pl.col("Precio_Unitario").mean()).alias("Precio_Rellenado_Media")
)
print("\n'Precio_Unitario' con nulos rellenados con la media:")
print(df_relleno_media[["ID_Transaccion", "Precio_Unitario", "Precio_Rellenado_Media"]])

# Rellenar nulos con una estrategia (ej. 'forward' fill - ffill)
# Ordenamos por fecha primero para que el forward fill tenga más sentido si hubiera múltiples nulos
df_relleno_forward = df_pl_manip.sort("Fecha").with_columns(
    pl.col("Precio_Unitario").fill_null(strategy="forward").alias("Precio_Rellenado_Forward")
)
print("\n'Precio_Unitario' con nulos rellenados con estrategia 'forward' (después de ordenar):")
print(df_relleno_forward[["ID_Transaccion", "Fecha", "Precio_Unitario", "Precio_Rellenado_Forward"]])
print("\n" + "="*50 + "\n")

## **Renombrar Columnas con `df.rename()`:**

In [None]:
print("--- Renombrar Columnas ---")
df_renombrado = df_pl_manip.rename({
    "ID_Transaccion": "ID",
    "Precio_Unitario": "Precio_Base"
})
print("\nDataFrame con columnas renombradas:")
print(df_renombrado.columns)
print(df_renombrado.head(2))
print("\n" + "="*50 + "\n")

## **Cambiar Tipos de Datos (Casting) con `cast()`**:
Se usa como una expresión dentro de `with_columns` o `select`.

In [None]:
print("--- Cambiar Tipos de Datos (Casting) ---")
# Cambiar Cantidad a Float32 y Precio_Unitario (después de rellenar nulos) a Int32
df_tipos_cambiados = df_pl_manip.with_columns([
    pl.col("Cantidad").cast(pl.Float32),
    pl.col("Precio_Unitario").fill_null(0).cast(pl.Int32).alias("Precio_Entero_NoNulo") # Encadenamos fill_null y cast
])
print("\nDataFrame con tipos de datos cambiados:")
print(df_tipos_cambiados.select(["Producto", "Cantidad", "Precio_Entero_NoNulo"]))
print(df_tipos_cambiados.dtypes) # Mostrar los nuevos tipos
print("\n" + "="*50 + "\n")

## **Ordenar Datos con `df.sort()`**

In [None]:
print("--- Ordenar Datos ---")
# Ordenar por 'Fecha' (ascendente) y luego por 'Precio_Unitario' (descendente)
df_ordenado = df_pl_manip.sort(["Fecha", "Precio_Unitario"], descending=[False, True])
print("\nDataFrame ordenado por Fecha (asc) y Precio_Unitario (desc):")
print(df_ordenado)
print("\n" + "="*50 + "\n")

## **Aplicar Funciones Personalizadas con map_elements() (en Series/Expresiones):**

Si necesitas aplicar una función Python arbitraria que no tiene un equivalente directo en las expresiones de Polars, puedes usar `map_elements()`. Ten en cuenta que esto puede ser más lento que usar expresiones nativas de Polars porque implica pasar datos entre el motor de Rust y el intérprete de Python para cada elemento.

> **Nota:** `map_elements` reemplazó a `.apply()` para Series en versiones más recientes de Polars para este tipo de operación. Asegúrate de usar return_dtype.

In [None]:
print("--- Aplicar Funciones Personalizadas con map_elements ---")
def mi_funcion_compleja_producto(nombre_producto: str) -> str:
    if nombre_producto is None:
        return "PRODUCTO DESCONOCIDO"
    return f"PROD-{nombre_producto.upper()}-XYZ"

# Es crucial especificar el return_dtype para map_elements
df_con_map = df_pl_manip.with_columns(
    pl.col("Producto")
    .map_elements(mi_funcion_compleja_producto, return_dtype=pl.Utf8)
    .alias("Producto_Transformado")
)
print("\nDataFrame con 'Producto_Transformado' usando map_elements:")
print(df_con_map.select(["Producto", "Producto_Transformado"]))
print("\n" + "="*50 + "\n")

---

# **5. Agrupación de Datos (`group_by`) y Agregaciones.**

Al igual que en Pandas, la agrupación te permite dividir tus datos en subconjuntos basados en los valores de ciertas columnas y luego realizar cálculos o aplicar transformaciones a cada uno de estos subconjuntos. El paradigma sigue siendo Split-Apply-Combine.

En Polars, esto se logra principalmente con el método group_by() seguido del **`método agg()`**, donde la API de Expresiones juega un papel central para definir las agregaciones.

In [None]:
import polars as pl
from datetime import date

# DataFrame de Polars para agrupación y agregaciones
datos_agrupacion = {
    'ID_Transaccion': range(1, 11),
    'Producto': ['A', 'B', 'A', 'C', 'B', 'A', 'C', 'B', 'A', 'B'],
    'Region': ['Norte', 'Sur', 'Norte', 'Este', 'Sur', 'Norte', 'Este', 'Sur', 'Oeste', 'Norte'],
    'Fecha': [
        date(2025, 1, 5), date(2025, 1, 5), date(2025, 1, 6), date(2025, 1, 6),
        date(2025, 1, 7), date(2025, 1, 8), date(2025, 1, 8), date(2025, 1, 9),
        date(2025, 1, 9), date(2025, 1, 10)
    ],
    'Cantidad': [10, 5, 8, 12, 6, 15, 7, 9, 20, 11],
    'Ingresos': [1000.0, 1252.5, 840.0, 600.0, 1560.0, 1575.0, 367.5, 2160.0, 2000.0, 2761.0],
    'Valoracion': [4, 5, 3, 4, 5, 2, 3, 5, 4, 5]
}
schema_agrup = {
    'ID_Transaccion': pl.Int16, 'Producto': pl.Categorical, 'Region': pl.Categorical,
    'Fecha': pl.Date, 'Cantidad': pl.Int32, 'Ingresos': pl.Float64,
    'Valoracion': pl.Int8
}
df_pl_agrup = pl.DataFrame(datos_agrupacion, schema=schema_agrup)

print("DataFrame original para aprupación de datos:")
print(df_pl_agrup)
print("\n" + "="*50 + "\n")

## **Usando `df.group_by()`:**

El método `group_by()` por sí solo crea un objeto GroupBy. Para obtener un resultado tangible, necesitas encadenarle un método de agregación, típicamente `agg()`.

Agrupar por una sola columna:

In [None]:
print("--- Agrupación con df.group_by() ---")
# Agrupar por 'Producto'. Esto crea un objeto GroupBy.
gb_producto = df_pl_agrup.group_by("Producto")
print("Tipo de objeto después de group_by:", type(gb_producto))
# <class 'polars.dataframe.group_by.GroupBy'>

## **Agrupar por múltiples columnas:**
Pasando una lista de nombres de columnas.

In [None]:
gb_producto_region = df_pl_agrup.group_by(["Producto", "Region"])
# print("\nTipo de objeto después de group_by múltiple:", type(gb_producto_region))