<a href="https://colab.research.google.com/github/financieras/polars/blob/main/comparativa.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

 # Comparativa entre Pandas y Polasr en velocidad de procesamiento

## Script con Numpy

In [None]:
import numpy as np
import time

# Medir tiempo total
start = time.time()

# Generar datos
rng = np.random.default_rng()
col1 = rng.integers(0, 128, size=1_000_000_000)
col2 = rng.random(size=1_000_000_000)
col3 = rng.normal(size=1_000_000_000)

# Calcular medias
mean_col1 = np.mean(col1)
mean_col2 = np.mean(col2)
mean_col3 = np.mean(col3)

print(f"NumPy - Tiempo total: {time.time() - start:.4f} s")
print(f"Media col1: {mean_col1:.4f}")
print(f"Media col2: {mean_col2:.4f}")
print(f"Media col3: {mean_col3:.4f}")

NumPy - Tiempo total: 29.7802 s
Media col1: 63.5012
Media col2: 0.5000
Media col3: -0.0000


## Script con Pandas

In [None]:
import pandas as pd
import numpy as np
import time

start = time.time()

# Generar DataFrame
rng = np.random.default_rng()
df = pd.DataFrame({
    'col1': rng.integers(0, 128, size=1_000_000_000),
    'col2': rng.random(size=1_000_000_000),
    'col3': rng.normal(size=1_000_000_000)
})

# Calcular medias
means = df.mean()

print(f"Pandas - Tiempo total: {time.time() - start:.4f} s")
print(means)

Pandas - Tiempo total: 41.8006 s
col1    63.501094
col2     0.499983
col3    -0.000029
dtype: float64


## Script con Polars

In [None]:
!pip install polars

Collecting polars
  Downloading polars-1.30.0-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (14 kB)
Downloading polars-1.30.0-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (36.3 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m36.3/36.3 MB[0m [31m42.6 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: polars
Successfully installed polars-1.30.0


In [None]:
import polars as pl
import numpy as np
import time

start = time.time()

# Generar DataFrame
rng = np.random.default_rng()
df = pl.DataFrame({
    'col1': rng.integers(0, 128, size=1_000_000_000),
    'col2': rng.random(size=1_000_000_000),
    'col3': rng.normal(size=1_000_000_000)
})

# Calcular medias
mean_col1 = df['col1'].mean()
mean_col2 = df['col2'].mean()
mean_col3 = df['col3'].mean()

print(f"Polars - Tiempo total: {time.time() - start:.4f} s")
print(f"Media col1: {mean_col1:.4f}")
print(f"Media col2: {mean_col2:.4f}")
print(f"Media col3: {mean_col3:.4f}")

Polars - Tiempo total: 31.1611 s
Media col1: 63.4992
Media col2: 0.5000
Media col3: 0.0000


# Comparativa entre Pandas y Polars
Polars es mucho más rápido que Pandas en una amplia variedad de operaciones, especialmente cuando se trata de conjuntos de datos grandes y operaciones que pueden paralelizarse. Entre las operaciones donde Polars destaca notablemente están:

    Carga de archivos CSV grandes

    Filtrado de filas

    Agregaciones (groupby, mean, sum, etc.)

    Ordenación de datos

    Joins (unión de DataFrames)

El caso de uniones (joins) es especialmente relevante porque Polars utiliza algoritmos optimizados y paralelización, mientras que Pandas realiza uniones de manera más secuencial

. Esto hace que la diferencia de tiempos sea muy notable, incluso en datasets de tamaño moderado.

A continuación tienes dos scripts: uno con Pandas y otro con Polars, diseñados para unir dos DataFrames de 100,000 filas cada uno, y medir el tiempo que tarda la operación de join.

## Script con Pandas

In [None]:
import pandas as pd
import numpy as np
import time

np.random.seed(42)
n = 100_000_000

# Crear dos DataFrames con una columna común y otra aleatoria
df1 = pd.DataFrame({
    'id': np.arange(n),
    'value': np.random.rand(n)
})
df2 = pd.DataFrame({
    'id': np.arange(n),
    'other_value': np.random.rand(n)
})

start = time.time()
result = pd.merge(df1, df2, on='id')
print(f"Pandas - Tiempo de join: {time.time() - start:.4f} s")

Pandas - Tiempo de join: 1.8545 s


In [None]:
## Script con Polars

In [None]:
!pip install -U polars



In [None]:
import polars as pl
import numpy as np
import time

np.random.seed(42)
n = 100_000_000

# Crear dos DataFrames con una columna común y otra aleatoria
df1 = pl.DataFrame({
    'id': np.arange(n),
    'value': np.random.rand(n)
})
df2 = pl.DataFrame({
    'id': np.arange(n),
    'other_value': np.random.rand(n)
})

start = time.time()
result = df1.join(df2, on='id')
print(f"Polars - Tiempo de join: {time.time() - start:.4f} s")

Polars - Tiempo de join: 52.6159 s
