### Imports


In [42]:
import polars as pl
from datetime import datetime
import numpy as np

### Reading & Writing

Basic DataFrame

In [43]:
df = pl.DataFrame(
    {
        "integer": [1, 2, 3],
        "date": [
            datetime(2022, 1, 1),
            datetime(2022, 1, 2),
            datetime(2022, 1, 3),
        ],
        "float": [4.0, 5.0, 6.0],
    }
)
print(df)

shape: (3, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---     ┆ ---                 ┆ ---   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 1       ┆ 2022-01-01 00:00:00 ┆ 4.0   │
│ 2       ┆ 2022-01-02 00:00:00 ┆ 5.0   │
│ 3       ┆ 2022-01-03 00:00:00 ┆ 6.0   │
└─────────┴─────────────────────┴───────┘


CSV


In [44]:
df.write_csv("data/output.csv")
df_csv = pl.read_csv("data/output.csv", try_parse_dates=True)
print(df_csv)

shape: (3, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---     ┆ ---                 ┆ ---   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 1       ┆ 2022-01-01 00:00:00 ┆ 4.0   │
│ 2       ┆ 2022-01-02 00:00:00 ┆ 5.0   │
│ 3       ┆ 2022-01-03 00:00:00 ┆ 6.0   │
└─────────┴─────────────────────┴───────┘


JSON


In [45]:
df.write_json("data/output.json")
df_json = pl.read_json("data/output.json")
print(df_json)

shape: (3, 3)
┌─────────┬─────────────────────┬───────┐
│ integer ┆ date                ┆ float │
│ ---     ┆ ---                 ┆ ---   │
│ i64     ┆ datetime[μs]        ┆ f64   │
╞═════════╪═════════════════════╪═══════╡
│ 1       ┆ 2022-01-01 00:00:00 ┆ 4.0   │
│ 2       ┆ 2022-01-02 00:00:00 ┆ 5.0   │
│ 3       ┆ 2022-01-03 00:00:00 ┆ 6.0   │
└─────────┴─────────────────────┴───────┘


### Expressions

Select

In [46]:
df = pl.DataFrame(
    {
        "a": range(8),
        "b": np.random.rand(8),
        "c": [datetime(2022, 12, x + 1) for x in range(8)],
        "d": [1.0, 2.0, np.nan, np.nan, 0.0, -5.0, -42.0, None],
    }
)
print(df)

shape: (8, 4)
┌─────┬──────────┬─────────────────────┬───────┐
│ a   ┆ b        ┆ c                   ┆ d     │
│ --- ┆ ---      ┆ ---                 ┆ ---   │
│ i64 ┆ f64      ┆ datetime[μs]        ┆ f64   │
╞═════╪══════════╪═════════════════════╪═══════╡
│ 0   ┆ 0.543947 ┆ 2022-12-01 00:00:00 ┆ 1.0   │
│ 1   ┆ 0.568302 ┆ 2022-12-02 00:00:00 ┆ 2.0   │
│ 2   ┆ 0.57868  ┆ 2022-12-03 00:00:00 ┆ NaN   │
│ 3   ┆ 0.38067  ┆ 2022-12-04 00:00:00 ┆ NaN   │
│ 4   ┆ 0.925663 ┆ 2022-12-05 00:00:00 ┆ 0.0   │
│ 5   ┆ 0.339975 ┆ 2022-12-06 00:00:00 ┆ -5.0  │
│ 6   ┆ 0.234624 ┆ 2022-12-07 00:00:00 ┆ -42.0 │
│ 7   ┆ 0.816769 ┆ 2022-12-08 00:00:00 ┆ null  │
└─────┴──────────┴─────────────────────┴───────┘


In [47]:
df.select(pl.col("a", "b")).pipe(print)

shape: (8, 2)
┌─────┬──────────┐
│ a   ┆ b        │
│ --- ┆ ---      │
│ i64 ┆ f64      │
╞═════╪══════════╡
│ 0   ┆ 0.543947 │
│ 1   ┆ 0.568302 │
│ 2   ┆ 0.57868  │
│ 3   ┆ 0.38067  │
│ 4   ┆ 0.925663 │
│ 5   ┆ 0.339975 │
│ 6   ┆ 0.234624 │
│ 7   ┆ 0.816769 │
└─────┴──────────┘


In [48]:
df.select(pl.col("a"), pl.col("b")).limit(3).pipe(print)

shape: (3, 2)
┌─────┬──────────┐
│ a   ┆ b        │
│ --- ┆ ---      │
│ i64 ┆ f64      │
╞═════╪══════════╡
│ 0   ┆ 0.543947 │
│ 1   ┆ 0.568302 │
│ 2   ┆ 0.57868  │
└─────┴──────────┘


In [49]:
df.select(pl.exclude("a")).pipe(print)

shape: (8, 3)
┌──────────┬─────────────────────┬───────┐
│ b        ┆ c                   ┆ d     │
│ ---      ┆ ---                 ┆ ---   │
│ f64      ┆ datetime[μs]        ┆ f64   │
╞══════════╪═════════════════════╪═══════╡
│ 0.543947 ┆ 2022-12-01 00:00:00 ┆ 1.0   │
│ 0.568302 ┆ 2022-12-02 00:00:00 ┆ 2.0   │
│ 0.57868  ┆ 2022-12-03 00:00:00 ┆ NaN   │
│ 0.38067  ┆ 2022-12-04 00:00:00 ┆ NaN   │
│ 0.925663 ┆ 2022-12-05 00:00:00 ┆ 0.0   │
│ 0.339975 ┆ 2022-12-06 00:00:00 ┆ -5.0  │
│ 0.234624 ┆ 2022-12-07 00:00:00 ┆ -42.0 │
│ 0.816769 ┆ 2022-12-08 00:00:00 ┆ null  │
└──────────┴─────────────────────┴───────┘


Filter

In [50]:
df.filter(pl.col("c").is_between(datetime(2022, 12, 2), datetime(2022, 12, 7))).pipe(
    print
)

shape: (6, 4)
┌─────┬──────────┬─────────────────────┬───────┐
│ a   ┆ b        ┆ c                   ┆ d     │
│ --- ┆ ---      ┆ ---                 ┆ ---   │
│ i64 ┆ f64      ┆ datetime[μs]        ┆ f64   │
╞═════╪══════════╪═════════════════════╪═══════╡
│ 1   ┆ 0.568302 ┆ 2022-12-02 00:00:00 ┆ 2.0   │
│ 2   ┆ 0.57868  ┆ 2022-12-03 00:00:00 ┆ NaN   │
│ 3   ┆ 0.38067  ┆ 2022-12-04 00:00:00 ┆ NaN   │
│ 4   ┆ 0.925663 ┆ 2022-12-05 00:00:00 ┆ 0.0   │
│ 5   ┆ 0.339975 ┆ 2022-12-06 00:00:00 ┆ -5.0  │
│ 6   ┆ 0.234624 ┆ 2022-12-07 00:00:00 ┆ -42.0 │
└─────┴──────────┴─────────────────────┴───────┘


In [51]:
df.filter((pl.col("a") <= 3) & (pl.col("d").is_not_nan())).pipe(print)

shape: (2, 4)
┌─────┬──────────┬─────────────────────┬─────┐
│ a   ┆ b        ┆ c                   ┆ d   │
│ --- ┆ ---      ┆ ---                 ┆ --- │
│ i64 ┆ f64      ┆ datetime[μs]        ┆ f64 │
╞═════╪══════════╪═════════════════════╪═════╡
│ 0   ┆ 0.543947 ┆ 2022-12-01 00:00:00 ┆ 1.0 │
│ 1   ┆ 0.568302 ┆ 2022-12-02 00:00:00 ┆ 2.0 │
└─────┴──────────┴─────────────────────┴─────┘


With_columns

In [52]:
df.with_columns(pl.col("b").sum().alias("e"), (pl.col("b") + 42).alias("b+42")).pipe(
    print
)

shape: (8, 6)
┌─────┬──────────┬─────────────────────┬───────┬─────────┬───────────┐
│ a   ┆ b        ┆ c                   ┆ d     ┆ e       ┆ b+42      │
│ --- ┆ ---      ┆ ---                 ┆ ---   ┆ ---     ┆ ---       │
│ i64 ┆ f64      ┆ datetime[μs]        ┆ f64   ┆ f64     ┆ f64       │
╞═════╪══════════╪═════════════════════╪═══════╪═════════╪═══════════╡
│ 0   ┆ 0.543947 ┆ 2022-12-01 00:00:00 ┆ 1.0   ┆ 4.38863 ┆ 42.543947 │
│ 1   ┆ 0.568302 ┆ 2022-12-02 00:00:00 ┆ 2.0   ┆ 4.38863 ┆ 42.568302 │
│ 2   ┆ 0.57868  ┆ 2022-12-03 00:00:00 ┆ NaN   ┆ 4.38863 ┆ 42.57868  │
│ 3   ┆ 0.38067  ┆ 2022-12-04 00:00:00 ┆ NaN   ┆ 4.38863 ┆ 42.38067  │
│ 4   ┆ 0.925663 ┆ 2022-12-05 00:00:00 ┆ 0.0   ┆ 4.38863 ┆ 42.925663 │
│ 5   ┆ 0.339975 ┆ 2022-12-06 00:00:00 ┆ -5.0  ┆ 4.38863 ┆ 42.339975 │
│ 6   ┆ 0.234624 ┆ 2022-12-07 00:00:00 ┆ -42.0 ┆ 4.38863 ┆ 42.234624 │
│ 7   ┆ 0.816769 ┆ 2022-12-08 00:00:00 ┆ null  ┆ 4.38863 ┆ 42.816769 │
└─────┴──────────┴─────────────────────┴───────┴─────────┴─────

Group by

In [53]:
df2 = pl.DataFrame(
    {
        "x": range(8),
        "y": ["A", "A", "A", "B", "B", "C", "X", "X"],
    }
)
print(df2)

shape: (8, 2)
┌─────┬─────┐
│ x   ┆ y   │
│ --- ┆ --- │
│ i64 ┆ str │
╞═════╪═════╡
│ 0   ┆ A   │
│ 1   ┆ A   │
│ 2   ┆ A   │
│ 3   ┆ B   │
│ 4   ┆ B   │
│ 5   ┆ C   │
│ 6   ┆ X   │
│ 7   ┆ X   │
└─────┴─────┘


In [54]:
df2.group_by("y", maintain_order=True).count().pipe(print)

shape: (4, 2)
┌─────┬───────┐
│ y   ┆ count │
│ --- ┆ ---   │
│ str ┆ u32   │
╞═════╪═══════╡
│ A   ┆ 3     │
│ B   ┆ 2     │
│ C   ┆ 1     │
│ X   ┆ 2     │
└─────┴───────┘


In [55]:
df2.group_by("y", maintain_order=True).agg(
    pl.col("*").count().alias("count"),
    pl.col("*").sum().alias("sum"),
).pipe(print)

shape: (4, 3)
┌─────┬───────┬─────┐
│ y   ┆ count ┆ sum │
│ --- ┆ ---   ┆ --- │
│ str ┆ u32   ┆ i64 │
╞═════╪═══════╪═════╡
│ A   ┆ 3     ┆ 3   │
│ B   ┆ 2     ┆ 7   │
│ C   ┆ 1     ┆ 5   │
│ X   ┆ 2     ┆ 13  │
└─────┴───────┴─────┘


Combining Operations

In [56]:
df_x = df.with_columns((pl.col("a") * pl.col("b")).alias("a * b")).select(
    pl.all().exclude(["c", "d"])
)
print(df_x)

shape: (8, 3)
┌─────┬──────────┬──────────┐
│ a   ┆ b        ┆ a * b    │
│ --- ┆ ---      ┆ ---      │
│ i64 ┆ f64      ┆ f64      │
╞═════╪══════════╪══════════╡
│ 0   ┆ 0.543947 ┆ 0.0      │
│ 1   ┆ 0.568302 ┆ 0.568302 │
│ 2   ┆ 0.57868  ┆ 1.157359 │
│ 3   ┆ 0.38067  ┆ 1.142009 │
│ 4   ┆ 0.925663 ┆ 3.702654 │
│ 5   ┆ 0.339975 ┆ 1.699875 │
│ 6   ┆ 0.234624 ┆ 1.407746 │
│ 7   ┆ 0.816769 ┆ 5.71738  │
└─────┴──────────┴──────────┘


In [57]:
df_y = df.with_columns((pl.col("a") * pl.col("b")).alias("a * b")).select(
    pl.all().exclude("d")
)
print(df_y)

shape: (8, 4)
┌─────┬──────────┬─────────────────────┬──────────┐
│ a   ┆ b        ┆ c                   ┆ a * b    │
│ --- ┆ ---      ┆ ---                 ┆ ---      │
│ i64 ┆ f64      ┆ datetime[μs]        ┆ f64      │
╞═════╪══════════╪═════════════════════╪══════════╡
│ 0   ┆ 0.543947 ┆ 2022-12-01 00:00:00 ┆ 0.0      │
│ 1   ┆ 0.568302 ┆ 2022-12-02 00:00:00 ┆ 0.568302 │
│ 2   ┆ 0.57868  ┆ 2022-12-03 00:00:00 ┆ 1.157359 │
│ 3   ┆ 0.38067  ┆ 2022-12-04 00:00:00 ┆ 1.142009 │
│ 4   ┆ 0.925663 ┆ 2022-12-05 00:00:00 ┆ 3.702654 │
│ 5   ┆ 0.339975 ┆ 2022-12-06 00:00:00 ┆ 1.699875 │
│ 6   ┆ 0.234624 ┆ 2022-12-07 00:00:00 ┆ 1.407746 │
│ 7   ┆ 0.816769 ┆ 2022-12-08 00:00:00 ┆ 5.71738  │
└─────┴──────────┴─────────────────────┴──────────┘


### Combining DataFrames

Join

In [58]:
df = pl.DataFrame(
    {
        "a": range(8),
        "b": np.random.rand(8),
        "d": [1, 2.0, float("nan"), float("nan"), 0, -5, -42, None],
    }
)

df2 = pl.DataFrame(
    {
        "x": range(8),
        "y": ["A", "A", "A", "B", "B", "C", "X", "X"],
    }
)
joined = df.join(df2, left_on="a", right_on="x")
print(joined)

shape: (8, 4)
┌─────┬──────────┬───────┬─────┐
│ a   ┆ b        ┆ d     ┆ y   │
│ --- ┆ ---      ┆ ---   ┆ --- │
│ i64 ┆ f64      ┆ f64   ┆ str │
╞═════╪══════════╪═══════╪═════╡
│ 0   ┆ 0.867441 ┆ 1.0   ┆ A   │
│ 1   ┆ 0.214432 ┆ 2.0   ┆ A   │
│ 2   ┆ 0.139914 ┆ NaN   ┆ A   │
│ 3   ┆ 0.577428 ┆ NaN   ┆ B   │
│ 4   ┆ 0.388637 ┆ 0.0   ┆ B   │
│ 5   ┆ 0.222313 ┆ -5.0  ┆ C   │
│ 6   ┆ 0.035902 ┆ -42.0 ┆ X   │
│ 7   ┆ 0.796662 ┆ null  ┆ X   │
└─────┴──────────┴───────┴─────┘


Concat

In [59]:
print(df, df2, sep="\n")

shape: (8, 3)
┌─────┬──────────┬───────┐
│ a   ┆ b        ┆ d     │
│ --- ┆ ---      ┆ ---   │
│ i64 ┆ f64      ┆ f64   │
╞═════╪══════════╪═══════╡
│ 0   ┆ 0.867441 ┆ 1.0   │
│ 1   ┆ 0.214432 ┆ 2.0   │
│ 2   ┆ 0.139914 ┆ NaN   │
│ 3   ┆ 0.577428 ┆ NaN   │
│ 4   ┆ 0.388637 ┆ 0.0   │
│ 5   ┆ 0.222313 ┆ -5.0  │
│ 6   ┆ 0.035902 ┆ -42.0 │
│ 7   ┆ 0.796662 ┆ null  │
└─────┴──────────┴───────┘
shape: (8, 2)
┌─────┬─────┐
│ x   ┆ y   │
│ --- ┆ --- │
│ i64 ┆ str │
╞═════╪═════╡
│ 0   ┆ A   │
│ 1   ┆ A   │
│ 2   ┆ A   │
│ 3   ┆ B   │
│ 4   ┆ B   │
│ 5   ┆ C   │
│ 6   ┆ X   │
│ 7   ┆ X   │
└─────┴─────┘


In [60]:
stacked = df.hstack(df2)
print(stacked)

shape: (8, 5)
┌─────┬──────────┬───────┬─────┬─────┐
│ a   ┆ b        ┆ d     ┆ x   ┆ y   │
│ --- ┆ ---      ┆ ---   ┆ --- ┆ --- │
│ i64 ┆ f64      ┆ f64   ┆ i64 ┆ str │
╞═════╪══════════╪═══════╪═════╪═════╡
│ 0   ┆ 0.867441 ┆ 1.0   ┆ 0   ┆ A   │
│ 1   ┆ 0.214432 ┆ 2.0   ┆ 1   ┆ A   │
│ 2   ┆ 0.139914 ┆ NaN   ┆ 2   ┆ A   │
│ 3   ┆ 0.577428 ┆ NaN   ┆ 3   ┆ B   │
│ 4   ┆ 0.388637 ┆ 0.0   ┆ 4   ┆ B   │
│ 5   ┆ 0.222313 ┆ -5.0  ┆ 5   ┆ C   │
│ 6   ┆ 0.035902 ┆ -42.0 ┆ 6   ┆ X   │
│ 7   ┆ 0.796662 ┆ null  ┆ 7   ┆ X   │
└─────┴──────────┴───────┴─────┴─────┘
