### **Importación de Datos con Polars**

En este apartado, aprenderemos a importar datos utilizando **Polars**. Al igual que **Pandas**, Polars ofrece funciones para cargar datos desde diferentes fuentes, como archivos CSV, JSON, Parquet, entre otros. La principal diferencia es que Polars está diseñado para ser más rápido y eficiente en el manejo de grandes volúmenes de datos gracias a su implementación en **Rust**.

#### **1. Importación de Datos desde CSV**

Los archivos **CSV** (Comma-Separated Values) son uno de los formatos más comunes para almacenar y compartir datos tabulares. Polars proporciona una función rápida y eficiente para cargar archivos CSV.

**Ejemplo: Importar un archivo CSV**

In [3]:
import polars as pl

# Importar datos desde un archivo CSV
df = pl.read_csv('data/archivo.csv')

# Mostrar las primeras filas del DataFrame
print(df.head())

shape: (5, 3)
┌──────────┬───────────┬──────────┐
│ columna1 ┆ columna2  ┆ columna3 │
│ ---      ┆ ---       ┆ ---      │
│ i64      ┆ f64       ┆ str      │
╞══════════╪═══════════╪══════════╡
│ 20       ┆ 85.404828 ┆ D        │
│ 19       ┆ 53.357577 ┆ A        │
│ 66       ┆ 47.322209 ┆ A        │
│ 88       ┆ 64.075688 ┆ B        │
│ 75       ┆ 24.14739  ┆ B        │
└──────────┴───────────┴──────────┘


**Parámetros comunes de `read_csv`**:

- `file`: Ruta del archivo CSV o URL del archivo.
- `has_header`: Indica si el archivo CSV tiene una fila de encabezado (`True` por defecto).
- `separator`: Especifica el delimitador del archivo CSV (`,` por defecto).
- `columns`: Lista de columnas que se desean importar.
- `n_rows`: Número de filas a leer (útil para pruebas o muestras).

**Ejemplo con parámetros adicionales:**

In [6]:
df = pl.read_csv(
    'data/archivo.csv',
    has_header=True,
    separator=',',
    columns=['columna1', 'columna2'],  # Solo carga las columnas seleccionadas
    n_rows=100  # Solo carga las primeras 100 filas
)

print(df.head())

shape: (5, 2)
┌──────────┬───────────┐
│ columna1 ┆ columna2  │
│ ---      ┆ ---       │
│ i64      ┆ f64       │
╞══════════╪═══════════╡
│ 20       ┆ 85.404828 │
│ 19       ┆ 53.357577 │
│ 66       ┆ 47.322209 │
│ 88       ┆ 64.075688 │
│ 75       ┆ 24.14739  │
└──────────┴───────────┘


#### **2. Importación de Datos desde JSON**

El formato **JSON** (JavaScript Object Notation) es ampliamente utilizado para intercambiar datos estructurados, especialmente en aplicaciones web.

**Ejemplo: Importar datos desde un archivo JSON**

In [7]:
# Importar datos desde un archivo JSON
df = pl.read_json('data/archivo.json')

print(df.head())

shape: (5, 3)
┌─────┬───────────┬───────────┐
│ id  ┆ valor     ┆ categoria │
│ --- ┆ ---       ┆ ---       │
│ i64 ┆ f64       ┆ str       │
╞═════╪═══════════╪═══════════╡
│ 1   ┆ -1.438251 ┆ Y         │
│ 2   ┆ -0.171892 ┆ Z         │
│ 3   ┆ -0.765144 ┆ X         │
│ 4   ┆ 0.618289  ┆ Y         │
│ 5   ┆ -0.36431  ┆ Z         │
└─────┴───────────┴───────────┘


#### **3. Importación de Datos desde Excel (utilizando intermediarios)**

Polars no tiene soporte directo para archivos Excel, pero puedes leer archivos Excel utilizando **Pandas** como intermediario y luego convertir el DataFrame de Pandas a Polars.

**Ejemplo: Importar datos desde un archivo Excel**

In [10]:
import pandas as pd
import polars as pl

# Leer datos desde Excel con Pandas
df_pandas = pd.read_excel('data/archivo.xlsx', sheet_name='Hoja1')

# Convertir DataFrame de Pandas a Polars
df_polars = pl.from_pandas(df_pandas)

print(df_polars.head())

shape: (5, 3)
┌───────────┬──────────┬───────────┐
│ Empresa   ┆ Ingresos ┆ Empleados │
│ ---       ┆ ---      ┆ ---       │
│ str       ┆ i64      ┆ i64       │
╞═══════════╪══════════╪═══════════╡
│ Microsoft ┆ 232121   ┆ 3850      │
│ Amazon    ┆ 402821   ┆ 5362      │
│ Amazon    ┆ 329157   ┆ 2696      │
│ Google    ┆ 175779   ┆ 9509      │
│ Amazon    ┆ 71964    ┆ 6630      │
└───────────┴──────────┴───────────┘


En Polars, no hay una función directa equivalente a info, pero se puede usar la combinación de funciones para obtener información básica del DataFrame.

Ejemplo: Verificar la estructura del DataFrame

	•	df.dtypes: Devuelve los tipos de datos de cada columna.
	•	df.shape: Devuelve el número de filas y columnas del DataFrame.

In [12]:
import polars as pl

# Cargar datos desde un archivo CSV
df = pl.read_csv('data/archivo.csv')

# Obtener tipos de datos de cada columna
print(df.dtypes)

# Obtener la forma del DataFrame
print(df.shape)

[Int64, Float64, String]
(1000, 3)


In [13]:
# Generar estadísticas descriptivas del DataFrame
print(df.describe())

shape: (9, 4)
┌────────────┬──────────┬───────────┬──────────┐
│ statistic  ┆ columna1 ┆ columna2  ┆ columna3 │
│ ---        ┆ ---      ┆ ---       ┆ ---      │
│ str        ┆ f64      ┆ f64       ┆ str      │
╞════════════╪══════════╪═══════════╪══════════╡
│ count      ┆ 1000.0   ┆ 1000.0    ┆ 1000     │
│ null_count ┆ 0.0      ┆ 0.0       ┆ 0        │
│ mean       ┆ 50.992   ┆ 50.008492 ┆ null     │
│ std        ┆ 28.38707 ┆ 28.754661 ┆ null     │
│ min        ┆ 1.0      ┆ 0.29567   ┆ A        │
│ 25%        ┆ 28.0     ┆ 24.407716 ┆ null     │
│ 50%        ┆ 51.0     ┆ 50.015555 ┆ null     │
│ 75%        ┆ 75.0     ┆ 75.042902 ┆ null     │
│ max        ┆ 99.0     ┆ 99.904654 ┆ D        │
└────────────┴──────────┴───────────┴──────────┘


In [14]:
# Seleccionar columnas específicas
df_seleccion = df.select(['columna1', 'columna2'])
print(df_seleccion)

shape: (1_000, 2)
┌──────────┬───────────┐
│ columna1 ┆ columna2  │
│ ---      ┆ ---       │
│ i64      ┆ f64       │
╞══════════╪═══════════╡
│ 20       ┆ 85.404828 │
│ 19       ┆ 53.357577 │
│ 66       ┆ 47.322209 │
│ 88       ┆ 64.075688 │
│ 75       ┆ 24.14739  │
│ …        ┆ …         │
│ 69       ┆ 95.261299 │
│ 16       ┆ 48.270071 │
│ 63       ┆ 97.16859  │
│ 37       ┆ 47.592691 │
│ 6        ┆ 87.57347  │
└──────────┴───────────┘


In [15]:
# Filtrar filas donde los valores de una columna son mayores a un valor específico
df_filtrado = df.filter(pl.col('columna1') > 50)
print(df_filtrado)

shape: (505, 3)
┌──────────┬───────────┬──────────┐
│ columna1 ┆ columna2  ┆ columna3 │
│ ---      ┆ ---       ┆ ---      │
│ i64      ┆ f64       ┆ str      │
╞══════════╪═══════════╪══════════╡
│ 66       ┆ 47.322209 ┆ A        │
│ 88       ┆ 64.075688 ┆ B        │
│ 75       ┆ 24.14739  ┆ B        │
│ 57       ┆ 33.824126 ┆ D        │
│ 85       ┆ 0.71501   ┆ B        │
│ …        ┆ …         ┆ …        │
│ 97       ┆ 64.663124 ┆ C        │
│ 97       ┆ 24.407716 ┆ B        │
│ 97       ┆ 47.146153 ┆ D        │
│ 69       ┆ 95.261299 ┆ B        │
│ 63       ┆ 97.16859  ┆ C        │
└──────────┴───────────┴──────────┘
