# Introducci√≥n a **Polars** ‚ö°

## ¬øQu√© es Polars?

**Polars** es una **biblioteca de Python** incre√≠blemente **r√°pida** dise√±ada para trabajar con **DataFrames** (conjuntos de datos tabulares).
Est√° escrita en **Rust** ü¶Ä y utiliza **Apache Arrow** como formato de memoria, lo que le permite procesar grandes vol√∫menes de datos de forma muy eficiente, a menudo mucho m√°s r√°pido que Pandas.

Permite **analizar, limpiar, transformar y consultar datos** con una sintaxis expresiva y optimizada para el rendimiento.

Fue creada por **Ritchie Vink** y est√° ganando popularidad r√°pidamente en la comunidad de ciencia de datos y *Machine Learning* por su velocidad y eficiencia en el uso de memoria.

---

## ¬øPor qu√© usar Polars?

En proyectos de **Inteligencia Artificial** y **Machine Learning**, especialmente con **Big Data**, la velocidad y la gesti√≥n eficiente de la memoria son cruciales.

Polars destaca porque:

* **Es rapid√≠simo**: Aprovecha todos los n√∫cleos de tu CPU para paralelizar operaciones.
* **Maneja datos grandes**: Puede procesar datasets que no caben completamente en la RAM gracias a su motor *lazy* y optimizaciones.
* **Tiene una API expresiva**: Permite encadenar operaciones de forma clara y l√≥gica (similar a SQL o dplyr en R).
* **Integra Apache Arrow**: Facilita la interoperabilidad con otras herramientas del ecosistema de datos.

 Polars te ayuda a realizar las mismas tareas que Pandas (limpiar, explorar, transformar), pero a menudo con un **rendimiento significativamente mayor**.

---

## Conexi√≥n con la Ciencia de Datos

Polars es una herramienta moderna y potente dentro de la **Ciencia de Datos**.
Se posiciona como una alternativa (o complemento) a Pandas, especialmente √∫til cuando el **rendimiento** es un factor cr√≠tico o se trabaja con **datasets muy grandes**.

Se integra bien con otras bibliotecas como **NumPy**, **PyArrow**, y herramientas de visualizaci√≥n como **Matplotlib** o **Seaborn** (a menudo convirtiendo los datos a Pandas o NumPy para graficar).

---

## ¬øQu√© puede hacer Polars?

Con Polars puedes:

* Leer y escribir datos desde/hacia m√∫ltiples formatos (CSV, Parquet, JSON, bases de datos...).
* Filtrar, ordenar, agrupar y agregar datos de forma muy eficiente.
* Unir (`join`) y concatenar (`concat`) diferentes DataFrames.
* Crear nuevas columnas basadas en expresiones complejas.
* Manejar valores nulos (`null`).
* Trabajar con datos de series temporales, cadenas de texto, y m√°s.

Una de sus caracter√≠sticas clave es su **motor de ejecuci√≥n *lazy*** (perezoso), que optimiza las consultas antes de ejecutarlas.

---

## D√≥nde encontrar Polars

El c√≥digo fuente de Polars es **abierto y colaborativo**.
Puedes encontrarlo, junto con su documentaci√≥n, en:

üîó Repositorio oficial en GitHub: [https://github.com/pola-rs/polars](https://github.com/pola-rs/polars)
üìò Documentaci√≥n oficial: [https://docs.pola.rs/](https://docs.pola.rs/)

---

## Resumen

| Concepto             | Descripci√≥n                                                               |
| -------------------- | ------------------------------------------------------------------------- |
| **Polars** | Librer√≠a r√°pida de DataFrames para Python, escrita en Rust.              |
| **Ventajas** | Velocidad (multicore), eficiencia de memoria, API expresiva, lazy engine. |
| **Creador** | Ritchie Vink.                                                             |
| **Backend** | Rust, Apache Arrow.                                                       |
| **Usos principales** | Procesamiento de datos grandes, Ciencia de Datos, ML, alternativa a Pandas. |
| **Documentaci√≥n** | [docs.pola.rs](https://docs.pola.rs/)                                     |

---


# **Primeros pasos con Polars** üöÄ

## Instalaci√≥n de Polars

Para usar Polars, primero necesitas **instalarlo en tu entorno de Python**.
Si ya tienes **Python** y **PIP** (el gestor de paquetes) instalados, la instalaci√≥n es muy sencilla.

Ejecuta en tu terminal el siguiente comando:



In [None]:
pip install polars


Esto descargar√° e instalar√° Polars.

> **Consejo:** Para aprovechar al m√°ximo las optimizaciones, puedes instalar caracter√≠sticas opcionales. Por ejemplo, para mejor rendimiento con NumPy o interacci√≥n con Pandas:
> ```bash
> pip install "polars[numpy,pandas]"
> ```
> Consulta la [documentaci√≥n de instalaci√≥n](https://docs.pola.rs/user-guide/installation/) para m√°s opciones (como soporte para lectura de Excel, Avro, etc.).

Si usas **Anaconda**, tambi√©n puedes instalarlo con conda:
```bash
conda install polars
```

En entornos como **Google Colab**, Polars suele estar preinstalado o se instala f√°cilmente con `pip`.

---

## Importar Polars

Una vez instalado, debes **importar la librer√≠a** en tu script o notebook. La convenci√≥n es usar el alias `pl`:


In [None]:
import polars as pl

A partir de ahora, usaremos `pl` para acceder a las funciones y objetos de Polars.

üìò **Ejemplo b√°sico: Crear un DataFrame**

In [None]:
import polars as pl

# Crear datos usando un diccionario de Python
data = {
  'modelo': ["Regresi√≥n Lineal", "SVM", "Red Neuronal"],
  'accuracy': [0.82, 0.91, 0.88]
}

# Crear un DataFrame de Polars
df = pl.DataFrame(data)

print(df)

**Qu√© ocurre aqu√≠:**

* Creamos un **diccionario** `data` donde las claves son los nombres de las columnas y los valores son listas de datos.
* Usamos `pl.DataFrame(data)` para convertir el diccionario en un **DataFrame** de Polars, la estructura principal para datos tabulares.
* Imprimimos el DataFrame.

La salida muestra la tabla, indicando el tipo de dato de cada columna (`str` para texto, `f64` para n√∫meros decimales de 64 bits):

```
shape: (3, 2)
‚îå‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¨‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îê
‚îÇ modelo            ‚îÜ accuracy ‚îÇ
‚îÇ ---               ‚îÜ ---      ‚îÇ
‚îÇ str               ‚îÜ f64      ‚îÇ
‚ïû‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï™‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ïê‚ï°
‚îÇ Regresi√≥n Lineal  ‚îÜ 0.82     ‚îÇ
‚îÇ SVM               ‚îÜ 0.91     ‚îÇ
‚îÇ Red Neuronal      ‚îÜ 0.88     ‚îÇ
‚îî‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚î¥‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îÄ‚îò
```

---

## Ver la versi√≥n de Polars instalada

Para saber qu√© versi√≥n de Polars est√°s usando, puedes acceder al atributo `__version__`:


In [None]:
import polars as pl

print(pl.__version__)


Esto es √∫til para asegurar la reproducibilidad de tu c√≥digo y comprobar si tienes acceso a las √∫ltimas funcionalidades.

> üîç Conocer la versi√≥n es importante, ya que Polars evoluciona r√°pidamente y algunas funciones pueden cambiar o a√±adirse entre versiones.

---

## Resumen visual

| Concepto                     | Descripci√≥n                                         |
| ---------------------------- | --------------------------------------------------- |
| **Instalaci√≥n** | `pip install polars`                                |
| **Importaci√≥n con alias** | `import polars as pl`                               |
| **Estructura principal** | `DataFrame` (`pl.DataFrame`)                      |
| **Ver versi√≥n instalada** | `pl.__version__`                                    |
| **Entornos recomendados** | Cualquiera con Python (local, Colab, Jupyter, etc.) |

---

# **Polars Series** üìä

## ¬øQu√© es una *Series* en Polars?

Una **Series** de Polars representa una **√∫nica columna de datos** en un DataFrame.
Es una estructura **unidimensional** optimizada para el rendimiento que contiene datos de un **√∫nico tipo** (n√∫meros, texto, fechas, etc.).

Puedes pensar en ella como una columna de una tabla de base de datos o una lista/array de NumPy con funcionalidades adicionales.

**Diferencia clave con Pandas:** Las Series en Polars **no tienen un √≠ndice expl√≠cito** como en Pandas. El acceso se basa en la posici√≥n o mediante expresiones de filtrado.

---

## Crear una *Series*

Puedes crear una Series a partir de diferentes estructuras de datos de Python, como listas o tuplas.

üìò **Ejemplo 1: Desde una lista**

In [None]:
import polars as pl

datos_lista = [10, 20, 15, 30, 20]
serie_numeros = pl.Series("valores", datos_lista)

print(serie_numeros)

**Nota:** Al crear una Series, es obligatorio darle un **nombre** (el primer argumento, "valores" en este caso).

üìò **Ejemplo 2: Serie de texto**

In [None]:
datos_texto = ["manzana", "pl√°tano", "manzana", "naranja"]
serie_frutas = pl.Series("frutas", datos_texto)

print(serie_frutas)

---

## Acceder a elementos de una *Series*

Puedes acceder a los elementos por su **posici√≥n** (√≠ndice basado en 0), similar a las listas de Python.

üìò **Ejemplo: Acceder al primer y tercer elemento**

In [None]:
# Acceder al primer elemento (posici√≥n 0)
print(f"Primer valor: {serie_numeros[0]}")

# Acceder al tercer elemento (posici√≥n 2)
print(f"Tercer valor: {serie_numeros[2]}")

Tambi√©n puedes usar **slicing** para obtener un subconjunto de la Series:

In [None]:
# Obtener los elementos desde la posici√≥n 1 hasta la 3 (sin incluir la 4)
print("Slice [1:4]:")
print(serie_numeros[1:4])

---

## Operaciones b√°sicas con *Series*

Las Series de Polars permiten realizar operaciones vectorizadas (aplicadas a todos los elementos a la vez), lo cual es muy eficiente.

üìò **Ejemplo: Operaciones aritm√©ticas y comparaciones**

In [None]:
# Sumar 5 a cada elemento
print("Serie + 5:")
print(serie_numeros + 5)

# Multiplicar por 2
print("\nSerie * 2:")
print(serie_numeros * 2)

# Comparar si los elementos son mayores que 15
print("\nSerie > 15 (devuelve booleanos):")
print(serie_numeros > 15)

Tambi√©n puedes aplicar funciones estad√≠sticas b√°sicas:


In [None]:
print(f"\nSuma total: {serie_numeros.sum()}")
print(f"Valor medio: {serie_numeros.mean()}")
print(f"Valor m√°ximo: {serie_numeros.max()}")
print(f"N√∫mero de elementos √∫nicos: {serie_frutas.n_unique()}")
print("Valores √∫nicos y sus cuentas:")
print(serie_frutas.value_counts())

---

## De Series a DataFrame

Un **DataFrame** en Polars es esencialmente una **colecci√≥n de Series** con el mismo n√∫mero de filas, donde cada Series representa una columna.

Puedes construir un DataFrame a partir de varias Series:

üìò **Ejemplo:**

In [None]:
import polars as pl

serie_calorias = pl.Series("calories", [420, 380, 390])
serie_duracion = pl.Series("duration", [50, 40, 45])

# Crear DataFrame a partir de las Series
df_entrenamiento = pl.DataFrame([serie_calorias, serie_duracion])

print(df_entrenamiento)

Cada Series se convierte en una columna del DataFrame, usando el nombre de la Series como cabecera de la columna.

---

## Resumen visual

| Concepto                   | Descripci√≥n                                                    |
| -------------------------- | -------------------------------------------------------------- |
| **Series** | Columna unidimensional en Polars, con nombre y un solo tipo. |
| **Creaci√≥n** | `pl.Series("nombre", [datos])`                               |
| **√çndice** | No tiene √≠ndice expl√≠cito como Pandas; acceso por posici√≥n.      |
| **Acceso a datos** | Por posici√≥n (`serie[0]`), slicing (`serie[1:4]`).            |
| **Operaciones** | Vectorizadas (+, *, >, etc.), estad√≠sticas (`.sum()`, `.mean()`). |
| **Relaci√≥n con DataFrame** | Un DataFrame est√° formado por varias Series.                   |

---

## **Actividad pr√°ctica: ‚ÄúTu primera Series con Polars‚Äù**

**Objetivo:** Crear, explorar y realizar operaciones b√°sicas con una *Series* de Polars.

### Paso 1: Crear una *Series* de m√©tricas de modelos de IA

Crea una *Series* llamada `"precision"` con los siguientes valores de precisi√≥n de 5 modelos diferentes: `[0.85, 0.92, 0.78, 0.92, 0.88]`.


In [None]:
# Tu c√≥digo aqu√≠
import polars as pl

precisiones = [0.85, 0.92, 0.78, 0.92, 0.88]
serie_precision = pl.Series("precision", precisiones)
print(serie_precision)


### Paso 2: Acceder a valores espec√≠ficos

* Muestra el valor de precisi√≥n del segundo modelo (posici√≥n 1).
* Muestra los valores de precisi√≥n de los modelos 2, 3 y 4 (posiciones 1 a 3).


In [None]:
# Tu c√≥digo aqu√≠
print(f"Precisi√≥n del segundo modelo: {serie_precision[1]}")
print("\nPrecisiones de los modelos 2 a 4:")
print(serie_precision[1:4])


### Paso 3: Realizar operaciones y c√°lculos

* Calcula la precisi√≥n media de todos los modelos.
* Encuentra la precisi√≥n m√°xima.
* Crea una nueva *Series* booleana que indique qu√© modelos tienen una precisi√≥n superior a 0.90.


In [None]:
# Tu c√≥digo aqu√≠
print(f"Precisi√≥n media: {serie_precision.mean():.3f}")
print(f"Precisi√≥n m√°xima: {serie_precision.max()}")

precision_alta = serie_precision > 0.90
print("\n¬øPrecisi√≥n > 0.90?:")
print(precision_alta)

### Paso 4: Contar valores

* ¬øCu√°ntos modelos tienen exactamente una precisi√≥n de 0.92? (Usa `value_counts()`).


In [None]:
# Tu c√≥digo aqu√≠
print("\nRecuento de cada valor de precisi√≥n:")
print(serie_precision.value_counts())

**Reflexi√≥n final**

* ¬øQu√© ventajas notas al realizar operaciones vectorizadas (ej. `serie + 5`) en lugar de usar un bucle `for`?
* ¬øC√≥mo crees que la falta de un √≠ndice expl√≠cito (como en Pandas) afecta la forma de trabajar con Series en Polars?

---

**Pr√≥xima secci√≥n:** *Polars DataFrames ‚Äì La estructura central para el an√°lisis de datos r√°pido y eficiente.*


# Introducci√≥n a los DataFrames en Polars üöÄ

## ¬øQu√© es un DataFrame en Polars?

Un **DataFrame** de **Polars** es la estructura de datos principal para trabajar con **datos tabulares** (organizados en filas y columnas).
Es similar a una tabla de base de datos, una hoja de c√°lculo de Excel, o un DataFrame de Pandas, pero est√° dise√±ado desde cero para ser **extremadamente r√°pido y eficiente con la memoria**.

üîπ Es **bidimensional** (filas y columnas).
üîπ Cada columna es una **Polars Series** con un nombre y un tipo de dato √∫nico.
üîπ **No tiene un √≠ndice** como Pandas; las filas se identifican por su posici√≥n.
üîπ Optimizado para **procesamiento en paralelo** y **manejo de grandes datasets**.

---

## Crear un DataFrame

Puedes crear un DataFrame de Polars a partir de varias fuentes:

üìò **Ejemplo 1: Desde un diccionario de listas (como en Pandas)**

In [None]:
import polars as pl

data_dict = {
  "columna_a": [1, 2, 3, 4, 5],
  "columna_b": ["A", "B", "C", "D", "E"],
  "columna_c": [True, False, True, False, True]
}

df_dict = pl.DataFrame(data_dict)
print(df_dict)


üìò **Ejemplo 2: Desde una lista de diccionarios (cada dict es una fila)**

Esto es √∫til si tus datos vienen en formato JSON de registros.

In [None]:
data_list_dict = [
    {"id": 1, "producto": "Laptop", "precio": 1200},
    {"id": 2, "producto": "Teclado", "precio": 75},
    {"id": 3, "producto": "Mouse", "precio": 25}
]

df_list_dict = pl.DataFrame(data_list_dict)
print(df_list_dict)


üìò **Ejemplo 3: Desde un array de NumPy**

Necesitas proporcionar los nombres de las columnas.

In [None]:
import numpy as np

data_np = np.array([[1.0, 2.5], [3.0, 4.5], [5.0, 6.5]])
column_names = ["sensor_1", "sensor_2"]

df_np = pl.DataFrame(data_np, schema=column_names)
print(df_np)

---

## Seleccionar Filas y Columnas

Polars utiliza una sintaxis basada en **expresiones** para seleccionar y manipular datos, lo que es muy potente.

### Seleccionar Columnas (`.select()`)

Usa el m√©todo `.select()` para elegir qu√© columnas mostrar.

In [None]:
# Seleccionar solo 'columna_a' y 'columna_c'
seleccion_cols = df_dict.select([
    pl.col("columna_a"),
    pl.col("columna_c")
])
print(seleccion_cols)

**Nota:** `pl.col("nombre")` crea una **expresi√≥n** que se refiere a esa columna. Polars trabaja mucho con expresiones.

---

### Seleccionar Filas (`.filter()`)

Usa `.filter()` con una expresi√≥n de condici√≥n para seleccionar filas.

In [None]:
# Seleccionar filas donde 'columna_a' sea mayor que 3
filtro_filas = df_dict.filter(
    pl.col("columna_a") > 3
)
print(filtro_filas)

# Seleccionar filas donde 'columna_c' sea True
filtro_boolean = df_dict.filter(
    pl.col("columna_c") == True # O simplemente pl.col("columna_c")
)
print("\nFilas con columna_c == True:")
print(filtro_boolean)


---

### Acceder por posici√≥n (slicing)

Puedes usar slicing similar a Python/NumPy para seleccionar un rango de filas.

In [None]:
# Seleccionar las primeras 3 filas
print("Primeras 3 filas:")
print(df_dict[0:3])

# Seleccionar filas desde la posici√≥n 2 hasta el final
print("\nDesde la fila 2:")
print(df_dict[2:])


---

## Cargar Datos desde Archivos (CSV, JSON, etc.)

Polars brilla especialmente al leer archivos grandes. Usa funciones como `pl.read_csv()` o `pl.read_json()`.

üìò **Ejemplo: Cargar un CSV (Dataset de Pok√©mon)**

Usaremos el mismo dataset de Pok√©mon que en el tutorial de Pandas.

In [None]:
import polars as pl

url_pokemon = "https://raw.githubusercontent.com/MainakRepositor/Datasets/refs/heads/master/Pokemon.csv"

# Leer el CSV directamente desde la URL
df_pokemon = pl.read_csv(url_pokemon)

# Mostrar las primeras 5 filas (head es similar a Pandas)
print(df_pokemon.head())

**Ventaja de Polars:** `read_csv` intenta inferir los tipos de datos de forma muy eficiente (`infer_schema_length`). Puede manejar archivos m√°s grandes que la RAM usando `scan_csv` (lo veremos despu√©s).

> Si tu CSV usa un separador diferente (ej. punto y coma ';'), puedes especificarlo: `pl.read_csv(url, separator=';')`

---

## Explorar el DataFrame

Polars ofrece m√©todos para entender la estructura y contenido del DataFrame:

* `.shape`: Devuelve una tupla `(num_filas, num_columnas)`.
* `.columns`: Devuelve una lista con los nombres de las columnas.
* `.dtypes`: Devuelve una lista con los tipos de datos de cada columna.
* `.schema`: Devuelve un diccionario con nombres y tipos de columnas.
* `.head(n)`: Muestra las primeras `n` filas.
* `.tail(n)`: Muestra las √∫ltimas `n` filas.
* `.describe()`: Calcula estad√≠sticas descriptivas b√°sicas para columnas num√©ricas.

In [None]:
print(f"Dimensiones del DataFrame: {df_pokemon.shape}")
print(f"\nNombres de columnas: {df_pokemon.columns}")
print(f"\nTipos de datos: {df_pokemon.dtypes}")
# print("\nSchema detallado:")
# print(df_pokemon.schema)
print("\nEstad√≠sticas descriptivas:")
print(df_pokemon.describe())


---

## Resumen

| Concepto                   | Descripci√≥n                                                     |
| -------------------------- | --------------------------------------------------------------- |
| **DataFrame** | Estructura tabular 2D, optimizada para rendimiento.           |
| **Creaci√≥n** | `pl.DataFrame()`, `pl.read_csv()`, `pl.read_json()`, etc.       |
| **Selecci√≥n Columnas** | `.select([pl.col("..."), ...])`                               |
| **Selecci√≥n Filas** | `.filter(expresi√≥n_condici√≥n)`, slicing (`df[start:end]`)      |
| **Exploraci√≥n** | `.shape`, `.columns`, `.dtypes`, `.head()`, `.tail()`, `.describe()` |
| **Caracter√≠stica Clave** | Uso de **expresiones** (`pl.col()`) para seleccionar y filtrar. |

---

# **Actividad pr√°ctica: An√°lisis de Pok√©mon con Polars** ‚ö°

üéØ **Objetivo:** Aplicar los conceptos b√°sicos de Polars DataFrames para cargar, explorar y analizar el dataset de Pok√©mon.

üìÇ **Dataset:**
[`Pokemon.csv`](https://raw.githubusercontent.com/MainakRepositor/Datasets/refs/heads/master/Pokemon.csv)

---

## üîπ Paso 1. Cargar el dataset

Usa `pl.read_csv()` para cargar los datos desde la URL en un DataFrame llamado `df_poke`.


In [None]:
# Tu c√≥digo aqu√≠
import polars as pl

url_pokemon = "https://raw.githubusercontent.com/MainakRepositor/Datasets/refs/heads/master/Pokemon.csv"
df_poke = pl.read_csv(url_pokemon)

print("Dataset cargado:")
print(df_poke.head(3))

---

## üîπ Paso 2. Explorar la estructura

* ¬øCu√°ntas filas y columnas tiene (`shape`)?
* ¬øCu√°les son los nombres de las columnas (`columns`)?
* ¬øQu√© tipos de datos tienen las columnas (`dtypes`)?

In [None]:
# Tu c√≥digo aqu√≠
print(f"Dimensiones: {df_poke.shape}")
print(f"\nColumnas: {df_poke.columns}")
print(f"\nTipos de datos: {df_poke.dtypes}")

---

## üîπ Paso 3. Seleccionar filas y columnas

* Muestra solo las columnas `Name`, `Type 1`, `Attack` y `Defense` de los primeros 5 Pok√©mon (usa `select` y `head`).
* Muestra los Pok√©mon de tipo `Fire` (usa `filter`).
* Muestra los Pok√©mon legendarios (`Legendary == True`) que tengan un `Attack` > 150 (usa `filter` con condiciones combinadas `&`).


In [None]:
# Tu c√≥digo aqu√≠
# Seleccionar columnas y primeras filas
print("Columnas seleccionadas (primeros 5):")
print(df_poke.select(["Name", "Type 1", "Attack", "Defense"]).head(5))

# Filtrar por tipo 'Fire'
print("\nPok√©mon de tipo Fire:")
print(df_poke.filter(pl.col("Type 1") == "Fire").head(3)) # Mostramos solo los 3 primeros

# Filtrar Legendarios con Attack > 150
print("\nLegendarios con Attack > 150:")
print(df_poke.filter(
    (pl.col("Legendary") == True) & (pl.col("Attack") > 150)
))

---

## üîπ Paso 4. Crear una nueva columna

Crea una columna llamada `Attack_Defense_Ratio` que sea el resultado de dividir `Attack` entre `Defense`. Usa `.with_columns()`.
Muestra el `Name` y esta nueva columna para los 5 primeros Pok√©mon.

In [None]:
# Tu c√≥digo aqu√≠
df_poke_ratio = df_poke.with_columns(
    (pl.col("Attack") / pl.col("Defense")).alias("Attack_Defense_Ratio")
)

print("Ratio Ataque/Defensa (primeros 5):")
print(df_poke_ratio.select(["Name", "Attack_Defense_Ratio"]).head())

---

## üîπ Paso 5. Agrupaci√≥n y agregaci√≥n (Reto)

Calcula el promedio (`mean`) de `Attack` para cada `Type 1` de Pok√©mon. Usa `.group_by()` y `.agg()`.
Ordena los resultados por el ataque medio de mayor a menor (`sort`).

In [None]:
# Tu c√≥digo aqu√≠
ataque_medio_por_tipo = df_poke.group_by("Type 1").agg(
    pl.mean("Attack").alias("Ataque_Medio")
).sort("Ataque_Medio", descending=True)

print("Ataque medio por Tipo 1 (ordenado):")
print(ataque_medio_por_tipo)

**Reflexi√≥n:**

* ¬øQu√© te parece la sintaxis de expresiones de Polars (`pl.col()`, `.filter()`, `.select()`, `.with_columns()`) comparada con la de Pandas?
* Si este dataset fuera mucho m√°s grande (millones de filas), ¬øqu√© ventajas esperar√≠as de usar Polars?

---

Estos pasos (cargar, explorar, seleccionar, transformar, agregar) son fundamentales en cualquier proyecto de an√°lisis de datos o preparaci√≥n para *Machine Learning*.

# **Lecci√≥n: Lazy Evaluation en Polars** ‚è≥‚û°Ô∏èüöÄ

---

## 1. ¬øQu√© es la Ejecuci√≥n *Lazy* (Perezosa)?

Una de las caracter√≠sticas m√°s importantes y potentes de Polars es su **motor de ejecuci√≥n *lazy***.
A diferencia de Pandas, que ejecuta cada operaci√≥n inmediatamente (*eager execution*), Polars **no ejecuta las operaciones hasta que es estrictamente necesario**.

**¬øC√≥mo funciona?**

1.  **Plan de Consulta**: Cuando escribes una cadena de operaciones (`.select()`, `.filter()`, `.group_by()`, etc.) sobre un `LazyFrame`, Polars no calcula nada todav√≠a. Simplemente **construye un plan l√≥gico** de lo que quieres hacer.
2.  **Optimizaci√≥n**: Antes de ejecutar, Polars **analiza y optimiza** este plan. Puede reordenar operaciones, fusionarlas, o elegir algoritmos m√°s eficientes seg√∫n el plan completo.
3.  **Ejecuci√≥n**: Solo cuando pides expl√≠citamente el resultado (normalmente con el m√©todo `.collect()`), Polars ejecuta el plan optimizado, a menudo en paralelo, para obtener el DataFrame final.

**Analog√≠a:** Imagina que pides a un chef que prepare varios platos. En lugar de cocinar cada uno por separado (eager), el chef anota todo el pedido (plan), piensa la mejor forma de usar los hornos y fuegos a la vez (optimizaci√≥n), y solo entonces empieza a cocinar todo eficientemente (ejecuci√≥n con `.collect()`).

---

## 2. Beneficios de la Ejecuci√≥n *Lazy*

* **Mayor Rendimiento**: La optimizaci√≥n del plan permite a Polars encontrar la forma m√°s r√°pida de obtener el resultado, evitando c√°lculos intermedios innecesarios.
* **Menor Uso de Memoria**: No se crean DataFrames intermedios para cada paso, reduciendo el consumo de RAM.
* **Procesamiento Out-of-Core**: Permite trabajar con datasets m√°s grandes que la memoria disponible, ya que Polars puede procesar los datos en *chunks* (trozos) si es necesario (especialmente con formatos como Parquet).
* **Claridad del C√≥digo**: Fomenta escribir cadenas de operaciones l√≥gicas que describen la transformaci√≥n completa.

---

## 3. ¬øC√≥mo usar el Modo *Lazy*?

Para trabajar en modo *lazy*, necesitas empezar con un `LazyFrame` en lugar de un `DataFrame`.

### Creando un `LazyFrame`

üîπ **Desde un archivo (m√©todo recomendado)**: Usa `pl.scan_csv()`, `pl.scan_parquet()`, `pl.scan_json()`, etc. Estas funciones *escanean* el archivo para conocer su estructura, pero no cargan los datos inmediatamente.


In [None]:
import polars as pl

url_pokemon = "https://raw.githubusercontent.com/MainakRepositor/Datasets/refs/heads/master/Pokemon.csv"

# Escanear el CSV para crear un LazyFrame
lazy_df = pl.scan_csv(url_pokemon)

print(type(lazy_df)) # Ver√°s que es un LazyFrame

üîπ **Desde un DataFrame existente**: Usa el m√©todo `.lazy()`.

In [None]:
# Crear un DataFrame eager primero (menos com√∫n para empezar)
eager_df = pl.DataFrame({"a": [1, 2], "b": [3, 4]})

# Convertirlo a LazyFrame
lazy_from_eager = eager_df.lazy()

print(type(lazy_from_eager))

### Aplicando Operaciones

Puedes aplicar las mismas operaciones (`.select`, `.filter`, `.with_columns`, `.group_by`, etc.) a un `LazyFrame`. Polars solo a√±adir√° pasos al plan de consulta.

In [None]:
# Construir un plan sobre el LazyFrame de Pok√©mon
plan_consulta = (
    lazy_df
    .filter(pl.col("Type 1") == "Water") # Filtrar Pok√©mon de agua
    .filter(pl.col("Attack") > 100)      # Con ataque mayor a 100
    .select(["Name", "Attack", "Defense"]) # Seleccionar columnas
    .sort("Attack", descending=True)      # Ordenar por ataque
)

print("Tipo del plan:", type(plan_consulta)) # Sigue siendo un LazyFrame
print("\nPlan de consulta (simplificado):")
print(plan_consulta.explain(optimized=True)) # Muestra el plan optimizado

**Nota:** `.explain()` es √∫til para ver c√≥mo Polars optimiza tu consulta.

### Ejecutando la Consulta (`.collect()`)

Para obtener el resultado final como un `DataFrame` (eager), usa `.collect()`.

In [None]:
# Ejecutar el plan y obtener el DataFrame resultante
resultado_df = plan_consulta.collect()

print("\nTipo del resultado:", type(resultado_df))
print("\nResultado final (Pok√©mon de Agua con Ataque > 100):")
print(resultado_df)

**Solo en este √∫ltimo paso (`.collect()`) Polars realmente lee el archivo CSV, aplica los filtros y selecciones optimizados, y devuelve el resultado.**

---

## 4. ¬øCu√°ndo usar *Lazy* vs *Eager*?

* **Usa *Lazy* (`scan_...`, `.lazy()`, `.collect()`):**
    * Para **datasets grandes** o que no caben en memoria.
    * Cuando realizas **m√∫ltiples operaciones encadenadas** (filtros, selecciones, agregaciones).
    * Para obtener el **m√°ximo rendimiento**.
    * **Casi siempre es la forma recomendada** de empezar en Polars, especialmente leyendo archivos.

* **Usa *Eager* (`pl.DataFrame()`, `pl.read_...`):**
    * Para **datasets peque√±os** donde la optimizaci√≥n no es cr√≠tica.
    * Cuando necesitas **resultados intermedios inmediatos** (menos com√∫n en Polars).
    * Al crear DataFrames peque√±os **directamente en memoria** (ej. desde diccionarios).

---

## ‚úÖ **Resumen**

| Concepto            | Descripci√≥n                                                                          |
| ------------------- | ------------------------------------------------------------------------------------ |
| **Lazy Evaluation** | Polars planifica y optimiza las operaciones antes de ejecutarlas.                    |
| **LazyFrame** | Objeto que representa un plan de consulta, no los datos en s√≠.                       |
| **Crear LazyFrame** | `pl.scan_csv()`, `pl.scan_parquet()`, `df.lazy()`                                     |
| **Construir Plan** | Aplicar `.select()`, `.filter()`, etc., a un `LazyFrame`.                            |
| **Ejecutar Plan** | `.collect()`: Ejecuta el plan optimizado y devuelve un `DataFrame` (eager).          |
| **Ver Plan** | `.explain()`: Muestra el plan de ejecuci√≥n l√≥gico u optimizado.                      |
| **Beneficios** | Mejor rendimiento, menor uso de memoria, capacidad para datos grandes (out-of-core). |

---


# **Lecci√≥n: La API de Expresiones de Polars** ‚ú®

---

## 1. ¬øQu√© son las Expresiones en Polars?

Las **expresiones** son el coraz√≥n ‚ù§Ô∏è de la API de Polars. Son la forma en que **describes las operaciones** que quieres realizar sobre tus columnas, sin decirle a Polars *c√≥mo* hacerlas exactamente.

Piensa en una expresi√≥n como una **receta** o una **f√≥rmula** que Polars puede entender, optimizar y aplicar a los datos.

**Caracter√≠sticas Clave:**

* **Declarativas**: Describen *qu√©* quieres hacer, no *c√≥mo*.
* **Componibles**: Puedes combinar expresiones simples para crear transformaciones complejas.
* **Optimizables**: El motor *lazy* de Polars las optimiza antes de la ejecuci√≥n.
* **Paralelizables**: Polars puede ejecutar expresiones en paralelo sobre diferentes partes de los datos.

La funci√≥n principal para crear expresiones es `pl.col("nombre_columna")`, que selecciona una columna.

---

## 2. Contextos de Uso de Expresiones

Las expresiones se utilizan dentro de varios m√©todos clave de los DataFrames (o LazyFrames):

* **`.select()`**: Para seleccionar columnas existentes o crear nuevas.
* **`.filter()`**: Para seleccionar filas basadas en condiciones.
* **`.with_columns()`**: Para a√±adir o modificar columnas.
* **`.group_by().agg()`**: Para realizar agregaciones (sumas, medias, etc.) sobre grupos.
* **`.sort()`**: Para ordenar el DataFrame.

---

## 3. Ejemplos de Expresiones Comunes

Vamos a usar un DataFrame de ejemplo:

In [None]:
import polars as pl

df = pl.DataFrame({
    "id": [1, 2, 3, 4, 5],
    "categoria": ["A", "B", "A", "B", "C"],
    "valor": [10, 25, 10, 30, 15],
    "coste": [5, 10, 8, 12, 7]
})
print(df)

### üîπ Selecci√≥n Simple (`pl.col()`)

In [None]:
# Seleccionar las columnas 'id' y 'valor'
df_seleccion = df.select([
    pl.col("id"),
    pl.col("valor")
])
print(df_seleccion)

### üîπ Alias (`.alias()`)

Para renombrar una columna en la salida.

In [None]:
# Seleccionar 'valor' y renombrarla a 'precio'
df_alias = df.select([
    pl.col("valor").alias("precio")
])
print(df_alias)

### üîπ Operaciones Aritm√©ticas

Puedes realizar c√°lculos directamente en las expresiones.

In [None]:
# Calcular el beneficio (valor - coste)
df_beneficio = df.with_columns([
    (pl.col("valor") - pl.col("coste")).alias("beneficio")
])
print(df_beneficio)

### üîπ Comparaciones y L√≥gica Booleana (`==`, `>`, `&`, `|`)

Se usan principalmente en `.filter()`.

In [None]:
# Filtrar filas donde categoria es 'A' Y valor es 10
df_filtrado = df.filter(
    (pl.col("categoria") == "A") & (pl.col("valor") == 10)
)
print(df_filtrado)

### üîπ Funciones de Agregaci√≥n (`.sum()`, `.mean()`, `.count()`, etc.)

Se usan t√≠picamente dentro de `.agg()` despu√©s de un `.group_by()`.

In [None]:
# Calcular la suma y la media de 'valor' por 'categoria'
df_agregado = df.group_by("categoria").agg([
    pl.sum("valor").alias("suma_valor"),
    pl.mean("valor").alias("media_valor")
])
print(df_agregado)

### üîπ Funciones sobre Cadenas (`.str`)

Polars tiene un potente namespace `.str` para manipular texto.

In [None]:
# Convertir 'categoria' a min√∫sculas
df_minusculas = df.with_columns([
    pl.col("categoria").str.to_lowercase().alias("categoria_minuscula")
])
print(df_minusculas)

### üîπ Expresiones Condicionales (`pl.when().then().otherwise()`)

Similar a un `IF-ELSE` en SQL o Excel.

In [None]:
# Crear columna 'tipo_valor' basado en 'valor'
df_condicional = df.with_columns([
    pl.when(pl.col("valor") > 20)
      .then(pl.lit("Alto")) # pl.lit() crea un valor literal
      .when(pl.col("valor") > 10)
      .then(pl.lit("Medio"))
      .otherwise(pl.lit("Bajo"))
      .alias("tipo_valor")
])
print(df_condicional)

---

## 4. El Poder del Encadenamiento

La verdadera potencia viene de **encadenar** estas expresiones y m√©todos para construir transformaciones complejas de forma legible.

In [None]:
# Ejemplo encadenado: Filtrar, crear columna, agrupar y ordenar
resultado_complejo = (
    df
    .filter(pl.col("coste") < 10) # 1. Filtrar por coste
    .with_columns([ # 2. Calcular beneficio
        (pl.col("valor") - pl.col("coste")).alias("beneficio")
    ])
    .group_by("categoria") # 3. Agrupar por categoria
    .agg([ # 4. Calcular beneficio medio y contar
        pl.mean("beneficio").alias("beneficio_medio"),
        pl.count().alias("num_items") # pl.count() cuenta filas por grupo
    ])
    .sort("beneficio_medio", descending=True) # 5. Ordenar
)

print(resultado_complejo)


Este estilo es muy com√∫n en Polars y es clave para aprovechar el motor *lazy* (si empezaras con `pl.scan_csv`, todo esto ser√≠a parte del plan optimizado).

---

## ‚úÖ **Resumen**

| Caracter√≠stica              | Descripci√≥n                                                               |
| --------------------------- | ------------------------------------------------------------------------- |
| **Expresi√≥n** | F√≥rmula/receta que describe una operaci√≥n sobre columnas.                 |
| **Creaci√≥n** | `pl.col("nombre")`, operaciones (+, -, *, /), funciones (`.sum()`, etc.) |
| **Contextos Principales** | `.select()`, `.filter()`, `.with_columns()`, `.agg()`                     |
| **Alias** | `.alias("nuevo_nombre")` para renombrar el resultado de una expresi√≥n.    |
| **Condicionales** | `pl.when().then().otherwise()` para l√≥gica if-else.                       |
| **Literal** | `pl.lit(valor)` para usar un valor constante en una expresi√≥n.            |
| **Encadenamiento (Chaining)** | Conectar m√∫ltiples m√©todos para construir transformaciones complejas.     |
| **Beneficio** | C√≥digo legible, optimizable y paralelizable por el motor de Polars.       |

---


# **Lecci√≥n: Limpieza de Datos con Polars** üßπ

---

## 1. Importancia de la Limpieza de Datos

Al igual que con Pandas, la **limpieza de datos** es un paso crucial antes de cualquier an√°lisis o modelado en Polars. Los datos del mundo real rara vez son perfectos y suelen contener:

* **Valores Nulos (`null`)**: Datos faltantes.
* **Formatos Incorrectos**: Ej. n√∫meros como texto, fechas inconsistentes.
* **Datos Err√≥neos**: Valores imposibles o fuera de rango (ej. edad negativa).
* **Duplicados**: Filas id√©nticas repetidas.

Polars ofrece herramientas eficientes para abordar estos problemas, aprovechando su API de expresiones y su motor *lazy*.

---

## 2. Manejo de Valores Nulos (`null`)

Polars usa `null` para representar datos faltantes.

üìò **Dataset de ejemplo con nulos:**

In [None]:
import polars as pl
import numpy as np # Lo usaremos para introducir NaNs f√°cilmente

df_nulos = pl.DataFrame({
    "col1": [1, 2, None, 4, 5],
    "col2": ["a", None, "c", "d", "e"],
    "col3": [10.0, 20.0, 30.0, None, 50.0]
})
print(df_nulos)

### üîπ Contar Nulos
Usa `.null_count()`.

In [None]:
print(df_nulos.null_count())

### üîπ Eliminar Filas con Nulos (`.drop_nulls()`)
Elimina todas las filas que contengan al menos un valor nulo.

In [None]:
df_sin_nulos = df_nulos.drop_nulls()
print(df_sin_nulos)

Puedes especificar columnas concretas con el argumento `subset`: `df_nulos.drop_nulls(subset=["col1", "col3"])`

### üîπ Rellenar Nulos (`.fill_null()`)
Reemplaza los valores nulos con un valor espec√≠fico o una estrategia (como la media, mediana, etc.).

In [None]:
# Rellenar con un valor fijo (ej. 0 para col1, 'desconocido' para col2)
df_relleno_fijo = df_nulos.with_columns([
    pl.col("col1").fill_null(0),
    pl.col("col2").fill_null("desconocido")
])
print("Relleno con valor fijo:")
print(df_relleno_fijo)

# Rellenar col3 con la media de esa columna
df_relleno_media = df_nulos.with_columns([
    pl.col("col3").fill_null(pl.mean("col3")) # Expresi√≥n dentro de fill_null!
])
print("\nRelleno con la media:")
print(df_relleno_media)

**Nota:** `.fill_null()` puede aceptar un valor literal o *otra expresi√≥n* de Polars (como `pl.mean()`, `pl.median()`, `pl.lit()`), lo que lo hace muy flexible.

---

## 3. Corregir Formatos Incorrectos (`.cast()`)

Si una columna tiene el tipo de dato incorrecto (ej. un n√∫mero almacenado como texto), usa el m√©todo `.cast()` para convertirla.

üìò **Ejemplo:**

In [None]:
df_formatos = pl.DataFrame({
    "id": ["1", "2", "3"], # N√∫meros como texto
    "fecha_texto": ["2023-01-01", "2023-01-02", "2023-01-03"]
})
print("DataFrame Original:")
print(df_formatos)
print(df_formatos.dtypes)

# Convertir 'id' a entero y 'fecha_texto' a fecha
df_corregido = df_formatos.with_columns([
    pl.col("id").cast(pl.Int64), # Convertir a entero de 64 bits
    pl.col("fecha_texto").str.strptime(pl.Date, "%Y-%m-%d").alias("fecha") # Convertir texto a fecha
]).drop("fecha_texto") # Eliminar la columna de texto original

print("\nDataFrame Corregido:")
print(df_corregido)
print(df_corregido.dtypes)

**Explicaci√≥n:**
* `.cast(pl.Int64)` convierte la columna "id" a tipo entero.
* `.str.strptime(pl.Date, "%Y-%m-%d")` parsea la cadena de texto "fecha_texto" usando el formato `A√±o-Mes-D√≠a` y la convierte a tipo Fecha (`pl.Date`).
* Usamos `.alias("fecha")` para darle un nuevo nombre y `.drop()` para quitar la original.

Polars ofrece muchos tipos de datos (`pl.Int32`, `pl.Float64`, `pl.Utf8` (texto), `pl.Boolean`, `pl.Datetime`, etc.).

---

## 4. Manejar Datos Err√≥neos

Para corregir valores que son l√≥gicamente incorrectos (pero tienen el tipo correcto), puedes usar:

* **`.filter()`**: Para eliminar filas con valores err√≥neos.
* **`pl.when().then().otherwise()`**: Para reemplazar valores basados en condiciones.

üìò **Ejemplo: Corregir una duraci√≥n imposible**

In [None]:
df_erroneo = pl.DataFrame({"duracion_min": [60, 45, 9999, 75, -10]})
print("Datos originales:")
print(df_erroneo)

# Opci√≥n 1: Eliminar filas con duraci√≥n > 180 o < 0
df_filtrado_err = df_erroneo.filter(
    (pl.col("duracion_min") <= 180) & (pl.col("duracion_min") >= 0)
)
print("\nFiltrando valores err√≥neos:")
print(df_filtrado_err)

# Opci√≥n 2: Reemplazar valores err√≥neos (ej. con la mediana)
mediana_duracion = df_erroneo.filter(
    (pl.col("duracion_min") <= 180) & (pl.col("duracion_min") >= 0)
)["duracion_min"].median()

df_reemplazado_err = df_erroneo.with_columns([
    pl.when((pl.col("duracion_min") > 180) | (pl.col("duracion_min") < 0))
      .then(mediana_duracion)
      .otherwise(pl.col("duracion_min"))
      .alias("duracion_corregida")
])
print("\nReemplazando valores err√≥neos con mediana:")
print(df_reemplazado_err)

---

## 5. Eliminar Duplicados (`.unique()`)

Para eliminar filas completamente duplicadas, usa `.unique()`.

In [None]:
df_duplicados = pl.DataFrame({
    "a": [1, 2, 1, 3, 2],
    "b": ["x", "y", "x", "z", "y"]
})
print("Con duplicados:")
print(df_duplicados)

df_sin_duplicados = df_duplicados.unique()
print("\nSin duplicados:")
print(df_sin_duplicados)

Puedes usar `subset` para considerar duplicados basados solo en ciertas columnas y `keep` para decidir cu√°l fila mantener (`'first'`, `'last'`, `'none'`):
`df_duplicados.unique(subset=["a"], keep='first')`

---

## ‚úÖ **Resumen de Limpieza**

| Tarea                  | M√©todo Polars                             | Descripci√≥n                                    |
| ---------------------- | ----------------------------------------- | ---------------------------------------------- |
| Contar Nulos           | `.null_count()`                           | Cuenta nulos por columna.                      |
| Eliminar Filas Nulas   | `.drop_nulls(subset=...)`                 | Elimina filas con nulos (opcionalmente en subset). |
| Rellenar Nulos         | `.fill_null(valor_o_expresi√≥n)`           | Reemplaza nulos.                               |
| Convertir Tipo         | `.cast(pl.DataType)`                      | Cambia el tipo de dato de la columna.          |
| Convertir Texto a Fecha| `.str.strptime(pl.Date, "formato")`   | Parsea fechas desde texto.                     |
| Filtrar Errores        | `.filter(condici√≥n)`                      | Elimina filas que no cumplen la condici√≥n.     |
| Reemplazar Errores     | `.with_columns(pl.when()...)`             | Reemplaza valores basados en condiciones.      |
| Eliminar Duplicados    | `.unique(subset=..., keep=...)`           | Elimina filas duplicadas.                      |

---


# **Lecci√≥n: Correlaciones de Datos en Polars** üìàüìâ

---

## 1. Correlaci√≥n: Midiendo la Relaci√≥n entre Variables

La **correlaci√≥n** es una medida estad√≠stica que describe la **fuerza y direcci√≥n de la relaci√≥n lineal** entre dos variables num√©ricas.
Es fundamental en el an√°lisis exploratorio de datos (EDA) y en la selecci√≥n de caracter√≠sticas (*feature selection*) para modelos de Machine Learning.

El **coeficiente de correlaci√≥n** (usualmente Pearson) var√≠a entre **-1 y +1**:

* **+1**: Correlaci√≥n positiva perfecta (si una variable sube, la otra sube proporcionalmente).
* **-1**: Correlaci√≥n negativa perfecta (si una variable sube, la otra baja proporcionalmente).
* **0**: No hay correlaci√≥n lineal (las variables no se mueven juntas de forma lineal).
* Valores cercanos a +1 o -1 indican una relaci√≥n fuerte; valores cercanos a 0 indican una relaci√≥n d√©bil.

---

## 2. Calcular Correlaciones en Polars

Polars permite calcular la matriz de correlaci√≥n entre las columnas num√©ricas de un DataFrame usando el m√©todo `.corr()`.

üìò **Dataset de ejemplo (datos de entrenamiento):**

In [None]:
import polars as pl

url = 'https://raw.githubusercontent.com/carlostessier/DataSets/refs/heads/main/csv/training_data.csv'
# Usamos read_csv porque el dataset es peque√±o; para grandes, scan_csv ser√≠a mejor
df_train = pl.read_csv(url)

# Eliminar filas con valores nulos para el c√°lculo de correlaci√≥n
df_train = df_train.drop_nulls()

print("Datos de entrenamiento (sin nulos):")
print(df_train.head())

### üîπ Calcular la Matriz de Correlaci√≥n

In [None]:
# Calcular la correlaci√≥n entre todas las columnas num√©ricas
corr_matrix = df_train.corr()

print("\nMatriz de Correlaci√≥n:")
print(corr_matrix)

---

## 3. Interpretaci√≥n de la Matriz

La tabla resultante muestra el coeficiente de correlaci√≥n entre cada par de columnas:

* La diagonal siempre es **1.0**, ya que una variable est√° perfectamente correlacionada consigo misma.
* La matriz es **sim√©trica**: la correlaci√≥n entre A y B es la misma que entre B y A.

**Observaciones del ejemplo:**

* `Duration` y `Calories` tienen una **correlaci√≥n positiva muy alta** (0.92): a mayor duraci√≥n, m√°s calor√≠as quemadas (esperado).
* `Pulse` y `Maxpulse` tienen una **correlaci√≥n positiva fuerte** (0.79): pulsaciones medias y m√°ximas tienden a subir juntas.
* `Duration` y `Maxpulse` tienen una **correlaci√≥n muy baja** (cercana a 0): no hay relaci√≥n lineal clara entre cu√°nto dura el ejercicio y cu√°l es el pulso m√°ximo alcanzado en ese ejercicio espec√≠fico.
* `Pulse` y `Calories` tienen una **correlaci√≥n muy baja** (0.02): el pulso medio por s√≠ solo no predice bien las calor√≠as quemadas (la duraci√≥n es mucho m√°s importante aqu√≠).

---

## 4. Visualizaci√≥n con un Mapa de Calor (Heatmap)

Una matriz de correlaci√≥n es m√°s f√°cil de interpretar visualmente usando un mapa de calor. Podemos usar `seaborn` y `matplotlib` (necesitar√°s tenerlos instalados: `pip install seaborn matplotlib`).

**Importante:** Seaborn trabaja directamente con DataFrames de Pandas. Necesitamos convertir la matriz de correlaci√≥n de Polars a Pandas usando `.to_pandas()`.

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Convertir la matriz de correlaci√≥n de Polars a Pandas para Seaborn
corr_matrix_pd = corr_matrix.to_pandas()

# La primera columna ('column') contiene los nombres, la usamos como √≠ndice
corr_matrix_pd = corr_matrix_pd.set_index('column')

plt.figure(figsize=(8, 6))
sns.heatmap(corr_matrix_pd, annot=True, cmap='coolwarm', fmt=".2f", linewidths=.5)
plt.title('Matriz de Correlaci√≥n de Datos de Entrenamiento')
plt.show()

**Interpretaci√≥n del Heatmap:**
* Colores **rojos c√°lidos**: Correlaci√≥n positiva fuerte.
* Colores **azules fr√≠os**: Correlaci√≥n negativa fuerte.
* Colores **cercanos al blanco**: Correlaci√≥n d√©bil o nula.

Vemos claramente las relaciones fuertes entre (Duration, Calories) y (Pulse, Maxpulse).

---

## 5. Correlaci√≥n en Ciencia de Datos e IA

* **Selecci√≥n de Caracter√≠sticas**: Si dos variables de entrada (`features`) est√°n muy correlacionadas (ej. > 0.9 o < -0.9), pueden ser redundantes. Mantener solo una puede simplificar el modelo sin perder mucha informaci√≥n.
* **Entendimiento del Problema**: Ayuda a comprender qu√© variables est√°n relacionadas con la variable objetivo que queremos predecir.
* **Detecci√≥n de Multicolinealidad**: En modelos como la regresi√≥n lineal, una alta correlaci√≥n entre variables predictoras puede causar problemas de estabilidad.

‚ö†Ô∏è **Importante:** Correlaci√≥n **no implica causalidad**. Que dos variables se muevan juntas no significa que una cause la otra.

---

## ‚úÖ **Resumen**

| Tarea                      | M√©todo / Funci√≥n                 | Descripci√≥n                                                   |
| -------------------------- | -------------------------------- | ------------------------------------------------------------- |
| Calcular Matriz Correlaci√≥n| `df.corr()`                      | Calcula correlaci√≥n (Pearson por defecto) entre columnas num. |
| Interpretaci√≥n             | Valor entre -1 y +1              | Mide fuerza y direcci√≥n de la relaci√≥n lineal.                |
| Visualizaci√≥n              | `seaborn.heatmap()` (con Pandas) | Mapa de calor para f√°cil interpretaci√≥n visual.               |
| Convertir Polars a Pandas  | `.to_pandas()`                   | Necesario para usar con algunas bibliotecas como Seaborn.     |
| Aplicaci√≥n                 | EDA, Selecci√≥n de Features       | Entender relaciones, detectar redundancia.                    |

---
