In [1]:
import numpy as np
import polars as pl


np.random.seed(42)
data = {"nrs": [1, 2, 3, 4, 5], "random": np.random.rand(5)}
df = pl.DataFrame(data)
df
print(df)

shape: (5, 2)
┌─────┬──────────┐
│ nrs ┆ random   │
│ --- ┆ ---      │
│ i64 ┆ f64      │
╞═════╪══════════╡
│ 1   ┆ 0.37454  │
│ 2   ┆ 0.950714 │
│ 3   ┆ 0.731994 │
│ 4   ┆ 0.598658 │
│ 5   ┆ 0.156019 │
└─────┴──────────┘


## with_columns

In [2]:
# wrong
(df.with_columns(a=[6, 7, 8, 9, 10]))
print((df.with_columns(a=[6, 7, 8, 9, 10])))

shape: (5, 3)
┌─────┬──────────┬──────────────┐
│ nrs ┆ random   ┆ a            │
│ --- ┆ ---      ┆ ---          │
│ i64 ┆ f64      ┆ list[i64]    │
╞═════╪══════════╪══════════════╡
│ 1   ┆ 0.37454  ┆ [6, 7, … 10] │
│ 2   ┆ 0.950714 ┆ [6, 7, … 10] │
│ 3   ┆ 0.731994 ┆ [6, 7, … 10] │
│ 4   ┆ 0.598658 ┆ [6, 7, … 10] │
│ 5   ┆ 0.156019 ┆ [6, 7, … 10] │
└─────┴──────────┴──────────────┘


In [3]:
(df.with_columns(a=pl.arange(6, 11)))
print((df.with_columns(a=pl.arange(6, 11))))

shape: (5, 3)
┌─────┬──────────┬─────┐
│ nrs ┆ random   ┆ a   │
│ --- ┆ ---      ┆ --- │
│ i64 ┆ f64      ┆ i64 │
╞═════╪══════════╪═════╡
│ 1   ┆ 0.37454  ┆ 6   │
│ 2   ┆ 0.950714 ┆ 7   │
│ 3   ┆ 0.731994 ┆ 8   │
│ 4   ┆ 0.598658 ┆ 9   │
│ 5   ┆ 0.156019 ┆ 10  │
└─────┴──────────┴─────┘


In [4]:
(df.with_columns(pl.arange(6, 11).alias("*a*")))
print((df.with_columns(pl.arange(6, 11).alias("*a*"))))

shape: (5, 3)
┌─────┬──────────┬─────┐
│ nrs ┆ random   ┆ *a* │
│ --- ┆ ---      ┆ --- │
│ i64 ┆ f64      ┆ i64 │
╞═════╪══════════╪═════╡
│ 1   ┆ 0.37454  ┆ 6   │
│ 2   ┆ 0.950714 ┆ 7   │
│ 3   ┆ 0.731994 ┆ 8   │
│ 4   ┆ 0.598658 ┆ 9   │
│ 5   ┆ 0.156019 ┆ 10  │
└─────┴──────────┴─────┘


In [5]:
(df.with_columns(a=pl.col("nrs").add(1)))
print((df.with_columns(a=pl.col("nrs").add(1))))

shape: (5, 3)
┌─────┬──────────┬─────┐
│ nrs ┆ random   ┆ a   │
│ --- ┆ ---      ┆ --- │
│ i64 ┆ f64      ┆ i64 │
╞═════╪══════════╪═════╡
│ 1   ┆ 0.37454  ┆ 2   │
│ 2   ┆ 0.950714 ┆ 3   │
│ 3   ┆ 0.731994 ┆ 4   │
│ 4   ┆ 0.598658 ┆ 5   │
│ 5   ┆ 0.156019 ┆ 6   │
└─────┴──────────┴─────┘


In [6]:
# ColumnNotFoundError
# (df.with_columns(pl.col("nrs").alias("a"), pl.col("a").add(1).alias("b")))

In [7]:
(
    df.with_columns(pl.col("nrs").alias("a")).with_columns(
        pl.col("a").add(1).alias("b")
    )
)

print(
    (
        df.with_columns(pl.col("nrs").alias("a")).with_columns(
            pl.col("a").add(1).alias("b")
        )
    )
)

shape: (5, 4)
┌─────┬──────────┬─────┬─────┐
│ nrs ┆ random   ┆ a   ┆ b   │
│ --- ┆ ---      ┆ --- ┆ --- │
│ i64 ┆ f64      ┆ i64 ┆ i64 │
╞═════╪══════════╪═════╪═════╡
│ 1   ┆ 0.37454  ┆ 1   ┆ 2   │
│ 2   ┆ 0.950714 ┆ 2   ┆ 3   │
│ 3   ┆ 0.731994 ┆ 3   ┆ 4   │
│ 4   ┆ 0.598658 ┆ 4   ┆ 5   │
│ 5   ┆ 0.156019 ┆ 5   ┆ 6   │
└─────┴──────────┴─────┴─────┘


In [8]:
(df.with_columns(pl.col("nrs").sub(1)))
print((df.with_columns(pl.col("nrs").sub(1))))

shape: (5, 2)
┌─────┬──────────┐
│ nrs ┆ random   │
│ --- ┆ ---      │
│ i64 ┆ f64      │
╞═════╪══════════╡
│ 0   ┆ 0.37454  │
│ 1   ┆ 0.950714 │
│ 2   ┆ 0.731994 │
│ 3   ┆ 0.598658 │
│ 4   ┆ 0.156019 │
└─────┴──────────┘


In [9]:
(df.with_columns(nrs=pl.Series(list("abcde")).explode()))
print((df.with_columns(nrs=pl.Series(list("abcde")).explode())))

shape: (5, 2)
┌─────┬──────────┐
│ nrs ┆ random   │
│ --- ┆ ---      │
│ str ┆ f64      │
╞═════╪══════════╡
│ a   ┆ 0.37454  │
│ b   ┆ 0.950714 │
│ c   ┆ 0.731994 │
│ d   ┆ 0.598658 │
│ e   ┆ 0.156019 │
└─────┴──────────┘


## select

In [10]:
(df.select("nrs"))
print((df.select("nrs")))

shape: (5, 1)
┌─────┐
│ nrs │
│ --- │
│ i64 │
╞═════╡
│ 1   │
│ 2   │
│ 3   │
│ 4   │
│ 5   │
└─────┘


In [11]:
(df.select(pl.col("nrs")))
print((df.select(pl.col("nrs"))))

shape: (5, 1)
┌─────┐
│ nrs │
│ --- │
│ i64 │
╞═════╡
│ 1   │
│ 2   │
│ 3   │
│ 4   │
│ 5   │
└─────┘


In [12]:
(df.select("nrs", pl.col("nrs").alias("a")))
print((df.select("nrs", pl.col("nrs").alias("a"))))

shape: (5, 2)
┌─────┬─────┐
│ nrs ┆ a   │
│ --- ┆ --- │
│ i64 ┆ i64 │
╞═════╪═════╡
│ 1   ┆ 1   │
│ 2   ┆ 2   │
│ 3   ┆ 3   │
│ 4   ┆ 4   │
│ 5   ┆ 5   │
└─────┴─────┘


In [13]:
(df.select("random", "nrs"))
print((df.select("random", "nrs")))

shape: (5, 2)
┌──────────┬─────┐
│ random   ┆ nrs │
│ ---      ┆ --- │
│ f64      ┆ i64 │
╞══════════╪═════╡
│ 0.37454  ┆ 1   │
│ 0.950714 ┆ 2   │
│ 0.731994 ┆ 3   │
│ 0.598658 ┆ 4   │
│ 0.156019 ┆ 5   │
└──────────┴─────┘


In [14]:
(df.select(["random", "nrs"]))
print((df.select(["random", "nrs"])))

shape: (5, 2)
┌──────────┬─────┐
│ random   ┆ nrs │
│ ---      ┆ --- │
│ f64      ┆ i64 │
╞══════════╪═════╡
│ 0.37454  ┆ 1   │
│ 0.950714 ┆ 2   │
│ 0.731994 ┆ 3   │
│ 0.598658 ┆ 4   │
│ 0.156019 ┆ 5   │
└──────────┴─────┘


## filter

In [15]:
(df.filter(pl.col("nrs").gt(pl.col("random").mul(10))))
print((df.filter(pl.col("nrs").gt(pl.col("random").mul(10)))))

shape: (1, 2)
┌─────┬──────────┐
│ nrs ┆ random   │
│ --- ┆ ---      │
│ i64 ┆ f64      │
╞═════╪══════════╡
│ 5   ┆ 0.156019 │
└─────┴──────────┘


In [16]:
(df.filter(pl.col("nrs").gt(3).or_(pl.col("nrs").eq(1))))
print((df.filter(pl.col("nrs").gt(3).or_(pl.col("nrs").eq(1)))))

shape: (3, 2)
┌─────┬──────────┐
│ nrs ┆ random   │
│ --- ┆ ---      │
│ i64 ┆ f64      │
╞═════╪══════════╡
│ 1   ┆ 0.37454  │
│ 4   ┆ 0.598658 │
│ 5   ┆ 0.156019 │
└─────┴──────────┘


## group_by().agg()

In [17]:
(
    df.with_columns(group=pl.Series(list("aaabb")).explode())
    .group_by("group")
    .agg(pl.col("nrs").sum(), pl.col("random").mean())
)

print(
    (
        df.with_columns(group=pl.Series(list("aaabb")).explode())
        .group_by("group")
        .agg(pl.col("nrs").sum(), pl.col("random").mean())
    )
)

shape: (2, 3)
┌───────┬─────┬──────────┐
│ group ┆ nrs ┆ random   │
│ ---   ┆ --- ┆ ---      │
│ str   ┆ i64 ┆ f64      │
╞═══════╪═════╪══════════╡
│ a     ┆ 6   ┆ 0.685749 │
│ b     ┆ 9   ┆ 0.377339 │
└───────┴─────┴──────────┘


In [18]:
(
    df.with_columns(group=pl.Series(list("aaabb")).explode())
    .group_by("group")
    .agg(pl.sum("nrs"), pl.mean("random"))
)

print(
    (
        df.with_columns(group=pl.Series(list("aaabb")).explode())
        .group_by("group")
        .agg(pl.sum("nrs"), pl.mean("random"))
    )
)

shape: (2, 3)
┌───────┬─────┬──────────┐
│ group ┆ nrs ┆ random   │
│ ---   ┆ --- ┆ ---      │
│ str   ┆ i64 ┆ f64      │
╞═══════╪═════╪══════════╡
│ a     ┆ 6   ┆ 0.685749 │
│ b     ┆ 9   ┆ 0.377339 │
└───────┴─────┴──────────┘


## Pandas-like index

In [19]:
df[[1, 3], [1, 0]]
print(df[[1, 3], [1, 0]])

shape: (2, 2)
┌──────────┬─────┐
│ random   ┆ nrs │
│ ---      ┆ --- │
│ f64      ┆ i64 │
╞══════════╪═════╡
│ 0.950714 ┆ 2   │
│ 0.598658 ┆ 4   │
└──────────┴─────┘


In [20]:
df[[1, 3], ["random", "nrs"]]
print(df[[1, 3], ["random", "nrs"]])

shape: (2, 2)
┌──────────┬─────┐
│ random   ┆ nrs │
│ ---      ┆ --- │
│ f64      ┆ i64 │
╞══════════╪═════╡
│ 0.950714 ┆ 2   │
│ 0.598658 ┆ 4   │
└──────────┴─────┘
