# Módulo 1: Conceptos Fundamentales de Polars

## ¿Qué es Polars?
Polars es una biblioteca de procesamiento de DataFrames ultrarrápida escrita en Rust, utilizando el motor de consultas vectorizadas Apache Arrow Columnar Format como base para el manejo eficiente de la memoria. 

### Ventajas Clave:
- **Rendimiento:** Polars está diseñado desde cero para el procesamiento paralelo y vectorizado. Su motor de consultas optimiza las operaciones para ejecutarse muy rápidamente, a menudo superando a Pandas, especialmente en conjuntos de datos grandes.
- **Eficiencia de Memoria:** Utiliza Apache Arrow para representar datos en memoria, lo que reduce la sobrecarga de memoria y permite el mapeo de memoria cero (zero-copy) para ciertas operaciones.
- **API Expresiva y Moderna:** Ofrece una sintaxis concisa y potente que permite encadenar operaciones de forma intuitiva. La API es consistente y está diseñada para evitar errores comunes.
- **Evaluación Perezosa (Lazy Evaluation):** Polars puede construir un plan de consulta lógico y optimizarlo antes de ejecutar cualquier cálculo. Esto permite a Polars optimizar la consulta completa, reduciendo el uso de memoria y mejorando el rendimiento.

## Polars vs Pandas
Aunque Pandas es la librería más popular para la manipulación de datos en Python, Polars ofrece varias ventajas en escenarios específicos, especialmente con grandes volúmenes de datos.

| Característica        | Polars                                      | Pandas                                     |
|-----------------------|---------------------------------------------|--------------------------------------------|
| **Motor Subyacente**  | Rust, Apache Arrow                          | Principalmente NumPy (C para algunas ops)  |
| **Paralelización**    | Automática y explícita                      | Limitada (requiere herramientas externas)  |
| **Manejo de Índices** | No tiene un índice explícito como Pandas    | Índices explícitos (puede ser complejo)    |
| **Mutabilidad**       | Inmutable (favorece la transformación)      | Mutable (puede llevar a efectos secundarios)|
| **Tipos de Datos**    | Estricto, basado en Arrow (e.g. `pl.Utf8`)  | Más flexible (e.g. `object` para strings) |
| **API**               | Expresiva, orientada a métodos en cadena    | Amplia, pero a veces inconsistente         |
| **Evaluación Perezosa**| Soportada nativamente (LazyFrames)          | No directamente (algunas alternativas)     |
| **Rendimiento (Grande)| Generalmente más rápido                     | Puede ser más lento                        |

## Instalación
Puedes instalar Polars usando pip o conda.

Con pip:
```bash
pip install polars
```

Con conda:
```bash
conda install polars -c conda-forge
```

Para incluir funcionalidades opcionales (como conectores a diferentes fuentes de datos, o mayor optimización para ciertas CPUs), puedes instalarlo con extras:
```bash
pip install polars[all] # Instala todas las dependencias opcionales
pip install polars[numpy,pandas] # Ejemplo para incluir compatibilidad con NumPy y Pandas
```

## Importar Polars
La convención común para importar Polars es usar el alias `pl`.

In [None]:
import polars as pl
print(f"Polars version: {pl.__version__}")

## Polars Series
Una **Serie** en Polars es una estructura de datos unidimensional que representa una columna de datos. Cada Serie tiene un nombre y un tipo de dato (`dtype`) homogéneo para todos sus elementos.

### Creación de Series:
Puedes crear Series de Polars de varias maneras, siendo la más común a partir de una lista de Python.

In [None]:
# Serie con nombre y tipo de dato inferido (Int64 por defecto para enteros)
s1 = pl.Series("columna_a", [1, 2, 3, 4, 5])
print("Serie s1:")
print(s1)

# Serie especificando el nombre y el tipo de dato (Float32)
s2 = pl.Series("columna_b", [1.0, 2.5, 3.0, 4.5, 5.5], dtype=pl.Float32)
print("\nSerie s2:")
print(s2)

# Serie de strings, con un valor nulo (None)
s3 = pl.Series("nombres", ["ana", "luis", "pedro", None, "sofia"])
print("\nSerie s3:")
print(s3)

## Atributos y Operaciones Básicas de Series
Las Series tienen varios atributos útiles y soportan una amplia gama de operaciones.

### Atributos Comunes:
- `name`: El nombre de la Serie.
- `dtype`: El tipo de dato de los elementos en la Serie.
- `shape`: Una tupla que representa las dimensiones (para Series, es `(n_rows,)`).
- `len()`: Devuelve el número de elementos en la Serie.

### Operaciones Básicas:
- **Aritméticas:** `+`, `-`, `*`, `/`, etc. (se realizan elemento a elemento).
- **Comparaciones:** `>`, `<`, `==`, `!=`, etc. (devuelven Series booleanas).
- **Métodos Comunes:** `sum()`, `mean()`, `min()`, `max()`, `std()`, `var()`, `median()`, `quantile()`, `value_counts()`, `unique()`, `n_unique()`, `is_null()`, `null_count()`, `fill_null()`, `sort()`, `abs()`.

In [None]:
print(f"Nombre de s1: {s1.name}")
print(f"Tipo de dato de s1: {s1.dtype}")
print(f"Shape de s1: {s1.shape}")
print(f"Longitud de s1: {len(s1)}")

print(f"\nSuma de s1: {s1.sum()}")
print(f"Media de s2: {s2.mean()}")
print(f"Máximo de s1: {s1.max()}")

print(f"\nValores nulos en s3: {s3.is_null()}")
print(f"Conteo de nulos en s3: {s3.null_count()}")
print(f"Conteo de valores en s3: \n{s3.value_counts()}")

## Polars DataFrames
Un **DataFrame** en Polars es una estructura de datos tabular bidimensional, similar a una hoja de cálculo o una tabla SQL. Consiste en una colección ordenada de columnas (Series) que comparten la misma longitud.

### Creación de DataFrames:
Los DataFrames se pueden crear a partir de diversas fuentes:

In [None]:
# 1. Desde un diccionario de Python donde las claves son nombres de columnas y los valores son listas o Series de Polars
df_dict = pl.DataFrame({
    "col_int": [1, 2, 3, 4, 5],
    "col_str": ["a", "b", "c", "d", "e"],
    "col_float": pl.Series("floats", [1.1, 2.2, 3.3, 4.4, 5.5])
})
print("DataFrame desde diccionario:")
print(df_dict)

# 2. Desde una lista de diccionarios (cada diccionario representa una fila)
data_list_of_dicts = [
    {"id": 1, "producto": "Manzana", "precio": 0.5},
    {"id": 2, "producto": "Banana", "precio": 0.3},
    {"id": 3, "producto": "Naranja", "precio": 0.4}
]
df_list_dicts = pl.DataFrame(data_list_of_dicts)
print("\nDataFrame desde lista de diccionarios:")
print(df_list_dicts)

# 3. (Opcional) Desde un array NumPy
import numpy as np
np_array = np.array([
    [10, 20.5, "X"],
    [30, 40.5, "Y"],
    [50, 60.5, "Z"]
])
# Polars intentará inferir los tipos, pero es mejor ser explícito con `schema` si son mixtos
# Para este ejemplo, convertiremos todo a string o especificaremos un schema más preciso si todos fueran numéricos.
# Aquí, Polars inferirá object para la tercera columna si no se especifica schema, o podemos forzar schema.
df_numpy = pl.DataFrame(np_array, schema=["entero", "flotante", "caracter"])
print("\nDataFrame desde NumPy array (con schema explícito):")
print(df_numpy)

# Para que los tipos se interpreten correctamente desde NumPy, es mejor que el array tenga dtypes homogéneos por columna
# o que las columnas sean Series de Polars individuales.
np_array_typed = np.array([(1, 2.0, 'a'), (2, 3.0, 'b')], dtype=[('c1', 'i4'), ('c2', 'f8'), ('c3', 'U1')])
df_numpy_typed = pl.from_numpy(np_array_typed) # pl.from_numpy es más robusto para arrays estructurados
print("\nDataFrame desde NumPy array estructurado:")
print(df_numpy_typed)

# 4. (Opcional) Desde un DataFrame de Pandas
try:
    import pandas as pd
    pandas_df = pd.DataFrame({
        'col_A': [100, 200, 300],
        'col_B': ['p', 'q', 'r']
    })
    df_from_pandas = pl.from_pandas(pandas_df)
    print("\nDataFrame desde Pandas DataFrame:")
    print(df_from_pandas)
except ImportError:
    print("\nPandas no está instalado. Omitiendo ejemplo de conversión Pandas a Polars.")

## Atributos e Inspección Básica de DataFrames
Los DataFrames también tienen atributos y métodos para entender su estructura y contenido.

### Atributos Comunes:
- `shape`: Tupla `(n_rows, n_columns)`.
- `height`: Número de filas.
- `width`: Número de columnas.
- `columns`: Lista de los nombres de las columnas.
- `dtypes`: Lista de los tipos de datos de cada columna.

### Métodos de Inspección:
- `head(n)`: Muestra las primeras `n` filas (por defecto 5).
- `tail(n)`: Muestra las últimas `n` filas (por defecto 5).
- `describe()`: Calcula estadísticas descriptivas (conteo, media, std, min, max, percentiles) para columnas numéricas.
- `glimpse()`: Muestra una vista rápida del DataFrame, incluyendo nombres de columna, tipos de datos y algunas filas de ejemplo (similar a `str()` en R).
- `sample(n, frac)`: Obtiene una muestra aleatoria de `n` filas o una fracción `frac` de filas.

### Seleccionar Columnas:
Puedes seleccionar una o más columnas usando el método `select()`.

In [None]:
print(f"Shape de df_dict: {df_dict.shape}")
print(f"Altura (height) de df_dict: {df_dict.height}")
print(f"Ancho (width) de df_dict: {df_dict.width}")
print(f"Columnas de df_dict: {df_dict.columns}")
print(f"Tipos de datos de df_dict: {df_dict.dtypes}")

print("\nPrimeras 2 filas (head):")
print(df_dict.head(2))

print("\nÚltimas 2 filas (tail):")
print(df_dict.tail(2))

print("\nDescripción estadística (describe):")
print(df_dict.describe()) # Solo para columnas numéricas/booleanas por defecto

print("\nVistazo (glimpse):")
df_dict.glimpse()

print("\nMuestra de 2 filas (sample):")
print(df_dict.sample(n=2))

print("\nSeleccionar una columna ('col_int'):")
print(df_dict.select("col_int"))

print("\nSeleccionar múltiples columnas (['col_str', 'col_float']):")
print(df_dict.select(["col_str", "col_float"]))

print("\nSeleccionar una columna también devuelve un DataFrame. Para obtener una Serie:")
serie_col_int = df_dict.get_column("col_int")
print(type(serie_col_int))
print(serie_col_int)