## Prueba de Estrés: Comparación de Tiempos de Carga entre Pandas y Polars

En este experimento se realiza una prueba de estrés para comparar el rendimiento de las librerías **Pandas** y **Polars** al cargar un archivo CSV grande en memoria.

Objetivo
El objetivo de esta prueba es comparar el rendimiento de ambas librerías en la tarea de carga de datos masivos, identificando cuál ofrece mayor velocidad y eficiencia en este escenario de análisis de datos a gran escala.

Nota: Polars suele ser significativamente más rápido y eficiente en uso de memoria que Pandas para operaciones de lectura y procesamiento de grandes volúmenes de datos. ````

### 1. Generación del Dataset

Primero, se crea un dataset sintético con **10 millones de filas** y múltiples columnas que simulan datos reales (id, timestamp, edad, género, país, ciudad, producto, precio, cantidad, total, método de pago y estado). Este dataset se guarda como `large_dataset.csv`.


In [3]:
import pandas as pd
import numpy as np

n = 10000000  # 10 millones de filas
df = pd.DataFrame({
    'id': np.arange(n),
    'timestamp': pd.date_range(start='2023-01-01', periods=n, freq='T'),    
    'age': np.random.randint(18, 70, size=n),
    'gender': np.random.choice(['M', 'F'], size=n),
    'country': np.random.choice(['USA', 'Canada', 'Mexico'], size=n),
    'city': np.random.choice(['New York', 'Los Angeles', 'Chicago', 'Houston', 'Phoenix'], size=n),
    'product': np.random.choice(['Laptop', 'Smartphone', 'Tablet', 'Monitor', 'Keyboard'], size=n),
    'price': np.random.uniform(100, 1000, size=n).round(2),
    'quantity': np.random.randint(1, 10, size=n),
    'total': lambda x: (x['price'] * x['quantity']).round(2),
    'payment_method': np.random.choice(['Credit Card', 'PayPal', 'Bank Transfer'], size=n),
    'status': np.random.choice(['Completed', 'Pending', 'Cancelled'], size=n)
})

df.to_csv("large_dataset.csv", index=False)
print("Dataset de 10 millones de filas creado y guardado como 'large_dataset.csv'.")




Dataset de 10 millones de filas creado y guardado como 'large_dataset.csv'.


2. Medición del Tiempo de Carga con Pandas
Se mide el tiempo que tarda Pandas en leer el archivo CSV:

In [4]:
import pandas as pd
import time
start_time = time.time()
df_pandas = pd.read_csv("large_dataset.csv")
end_time = time.time()
print(f"Tiempo de carga de pandas: {end_time - start_time} segundos")

Tiempo de carga de pandas: 48.54202461242676 segundos


3. Medición del Tiempo de Carga con Polars
Se mide el tiempo que tarda Polars en leer el mismo archivo CSV:

In [5]:
import polars as pl
start_time = time.time()
df_polars = pl.read_csv("large_dataset.csv")
end_time = time.time()
print(f"Tiempo de carga de polars: {end_time - start_time} segundos")

Tiempo de carga de polars: 112.72804594039917 segundos
