# Cvičení: Polars vs Pandas

Vyzkoušejte si práci s knihovnami Pandas a Polars na následujících úlohách.

U každé úlohy porovnejte:
- čas běhu (pomocí %timeit v Jupyteru)
- čitelnost a jednoduchost syntaxe


1. Vytvoření velkého DataFrame

Úkol:
Vytvořte DataFrame s 1 milionem řádků, obsahující:

- sloupec id (číselná řada od 1)
- sloupec category (náhodný výběr z hodnot „A“, „B“, „C“)
- sloupec value (náhodná desetinná čísla mezi 0 a 100)



2. Filtrování dat

Úkol:
Z předchozího DataFrame vyfiltrujte všechny řádky, kde:

- category je „B“
- a value je větší než 50


3. Agregace (GroupBy)

Úkol:
Z předchozího DataFrame vypočítejte:

- průměrnou hodnotu value pro každou category
- počet řádků (count) v každé kategorii

In [3]:

# Pokud nemáte nainstalováno, spusťte:
# %pip install polars pandas


Collecting polars
  Downloading polars-1.27.1-cp39-abi3-macosx_11_0_arm64.whl.metadata (14 kB)
Downloading polars-1.27.1-cp39-abi3-macosx_11_0_arm64.whl (31.6 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m31.6/31.6 MB[0m [31m45.3 MB/s[0m eta [36m0:00:00[0ma [36m0:00:01[0m
[?25hInstalling collected packages: polars
Successfully installed polars-1.27.1
Note: you may need to restart the kernel to use updated packages.


In [4]:

import polars as pl
import pandas as pd
import numpy as np

# Pro měření času v Jupyteru:
# použijeme %timeit


### 📂 Cvičení 1: Vytvoření velkého DataFrame


In [15]:
%%timeit 
# Pandas verze
df_pd = pd.DataFrame({"id": np.arange(1, 1_000_001), "category": np.random.choice(["A", "B", "C"], size=1_000_000), "value": np.random.uniform(0, 100, size=1_000_000)})
df_pd.head()

96.3 ms ± 26.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [17]:

# Polars verze
df_pl = pl.DataFrame({"id": np.arange(1, 1_000_001), "category": np.random.choice(["A", "B", "C"], size=1_000_000), "value": np.random.uniform(0, 100, size=1_000_000)})



### 📂 Cvičení 2: Filtrování dat


In [18]:
# Pandas verze
%timeit df_pd_filtered = df_pd[(df_pd["category"] == "B") & (df_pd["value"] > 50)]

# Polars verze
%timeit df_pl_filtered = df_pl.filter((pl.col("category") == "B") & (pl.col("value") > 50))


85.1 ms ± 14.2 ms per loop (mean ± std. dev. of 7 runs, 10 loops each)
3.71 ms ± 165 μs per loop (mean ± std. dev. of 7 runs, 100 loops each)


### 📂 Cvičení 3: Agregace (GroupBy)


In [None]:
# Pandas verze
%timeit df_pd_grouped = df_pd.groupby("category").agg({"value": ["mean", "count"]})

# Polars verze
%timeit df_pl_grouped = df_pl.groupby("category").agg([pl.col("value").mean().alias("mean_value"),pl.count().alias("count")])
