In [1]:
import pandas as pd
import polars as pl

data = {"col1": [1, 2, 3], "col2": ["x", "y", "z"]}
df = pl.DataFrame(data)
print(df)

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ str  │
╞══════╪══════╡
│ 1    ┆ x    │
│ 2    ┆ y    │
│ 3    ┆ z    │
└──────┴──────┘


## DataFrame.select()

In [2]:
print(df.select(pl.col("col1")))

shape: (3, 1)
┌──────┐
│ col1 │
│ ---  │
│ i64  │
╞══════╡
│ 1    │
│ 2    │
│ 3    │
└──────┘


In [3]:
print(df.select(pl.col("col1"), pl.col("col2")))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ str  │
╞══════╪══════╡
│ 1    ┆ x    │
│ 2    ┆ y    │
│ 3    ┆ z    │
└──────┴──────┘


In [4]:
print(df.select(pl.col("col1", "col2")))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ str  │
╞══════╪══════╡
│ 1    ┆ x    │
│ 2    ┆ y    │
│ 3    ┆ z    │
└──────┴──────┘


In [5]:
print(df.select(pl.col("col1").alias("col3")))

shape: (3, 1)
┌──────┐
│ col3 │
│ ---  │
│ i64  │
╞══════╡
│ 1    │
│ 2    │
│ 3    │
└──────┘


In [6]:
print(
    df.select(pl.col("col1").alias("col3"), pl.col("col1"), pl.col("col2"))
)

shape: (3, 3)
┌──────┬──────┬──────┐
│ col3 ┆ col1 ┆ col2 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ i64  ┆ str  │
╞══════╪══════╪══════╡
│ 1    ┆ 1    ┆ x    │
│ 2    ┆ 2    ┆ y    │
│ 3    ┆ 3    ┆ z    │
└──────┴──────┴──────┘


### Boardcast

In [7]:
print(df.select(pl.col("col1").mean(), pl.col("col2")))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ f64  ┆ str  │
╞══════╪══════╡
│ 2.0  ┆ x    │
│ 2.0  ┆ y    │
│ 2.0  ┆ z    │
└──────┴──────┘


### Shape

In [8]:
print(df.select(pl.col("col1").mean(), pl.col("col2").first()))

shape: (1, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ f64  ┆ str  │
╞══════╪══════╡
│ 2.0  ┆ x    │
└──────┴──────┘


## DataFrame.with_columns()

In [9]:
print(df.with_columns(pl.col("col1").add(1).alias("col3")))

shape: (3, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ str  ┆ i64  │
╞══════╪══════╪══════╡
│ 1    ┆ x    ┆ 2    │
│ 2    ┆ y    ┆ 3    │
│ 3    ┆ z    ┆ 4    │
└──────┴──────┴──────┘


In [10]:
print(df.with_columns(pl.col("col1").add(1)))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ str  │
╞══════╪══════╡
│ 2    ┆ x    │
│ 3    ┆ y    │
│ 4    ┆ z    │
└──────┴──────┘


In [11]:
df2 = pl.DataFrame({"col2": [1, 2, 3], "col1": ["x", "y", "z"]})
print(df2.with_columns(pl.col("col1"), pl.col("col2")))

shape: (3, 2)
┌──────┬──────┐
│ col2 ┆ col1 │
│ ---  ┆ ---  │
│ i64  ┆ str  │
╞══════╪══════╡
│ 1    ┆ x    │
│ 2    ┆ y    │
│ 3    ┆ z    │
└──────┴──────┘


In [12]:
print(df2.select(pl.col("col1"), pl.col("col2")))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ str  ┆ i64  │
╞══════╪══════╡
│ x    ┆ 1    │
│ y    ┆ 2    │
│ z    ┆ 3    │
└──────┴──────┘


### Boardcast

In [13]:
print(df.with_columns(col3=3))

shape: (3, 3)
┌──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 │
│ ---  ┆ ---  ┆ ---  │
│ i64  ┆ str  ┆ i32  │
╞══════╪══════╪══════╡
│ 1    ┆ x    ┆ 3    │
│ 2    ┆ y    ┆ 3    │
│ 3    ┆ z    ┆ 3    │
└──────┴──────┴──────┘


### Shape

In [14]:
print(df.with_columns(pl.col("col1").mean(), pl.col("col2").first()))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ f64  ┆ str  │
╞══════╪══════╡
│ 2.0  ┆ x    │
│ 2.0  ┆ x    │
│ 2.0  ┆ x    │
└──────┴──────┘


## By column names

In [15]:
print(df.select("col1", "col2"))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ str  │
╞══════╪══════╡
│ 1    ┆ x    │
│ 2    ┆ y    │
│ 3    ┆ z    │
└──────┴──────┘


In [16]:
print(df.select(["col1", "col2"]))

shape: (3, 2)
┌──────┬──────┐
│ col1 ┆ col2 │
│ ---  ┆ ---  │
│ i64  ┆ str  │
╞══════╪══════╡
│ 1    ┆ x    │
│ 2    ┆ y    │
│ 3    ┆ z    │
└──────┴──────┘


## Naming

In [17]:
print(df.select(pl.col("col1").alias("col3")))

shape: (3, 1)
┌──────┐
│ col3 │
│ ---  │
│ i64  │
╞══════╡
│ 1    │
│ 2    │
│ 3    │
└──────┘


In [18]:
print(df.select(col3=pl.col("col1")))

shape: (3, 1)
┌──────┐
│ col3 │
│ ---  │
│ i64  │
╞══════╡
│ 1    │
│ 2    │
│ 3    │
└──────┘


In [19]:
print(df.select(pl.col("col1").alias("1")))

shape: (3, 1)
┌─────┐
│ 1   │
│ --- │
│ i64 │
╞═════╡
│ 1   │
│ 2   │
│ 3   │
└─────┘


In [20]:
# SyntaxError
# df.select(1=pl.col("col1"))

## Naming for multiple columns

In [21]:
print(df.select(pl.col("^col.*$").name.prefix("new_")))

shape: (3, 2)
┌──────────┬──────────┐
│ new_col1 ┆ new_col2 │
│ ---      ┆ ---      │
│ i64      ┆ str      │
╞══════════╪══════════╡
│ 1        ┆ x        │
│ 2        ┆ y        │
│ 3        ┆ z        │
└──────────┴──────────┘


## Parallel computing

In [22]:
# ColumnNotFoundError: col3
# (
#     df.with_columns(
#         pl.col("col1").add(1).alias("col3"),
#         pl.col("col3").mul(2).alias("col4"),
#     )
# )

In [23]:
print(
    df.with_columns(
        pl.col("col1").add(1).alias("col3"),
    ).with_columns(pl.col("col3").mul(2).alias("col4"))
)

shape: (3, 4)
┌──────┬──────┬──────┬──────┐
│ col1 ┆ col2 ┆ col3 ┆ col4 │
│ ---  ┆ ---  ┆ ---  ┆ ---  │
│ i64  ┆ str  ┆ i64  ┆ i64  │
╞══════╪══════╪══════╪══════╡
│ 1    ┆ x    ┆ 2    ┆ 4    │
│ 2    ┆ y    ┆ 3    ┆ 6    │
│ 3    ┆ z    ┆ 4    ┆ 8    │
└──────┴──────┴──────┴──────┘


## codepanda

## Pandas sequential computing

In [24]:
df_pd = pd.DataFrame(data)

print(
    df_pd.assign(
        col3=lambda df_: df_.col1.add(1), col4=lambda df_: df_.col3.mul(2)
    )
)

   col1 col2  col3  col4
0     1    x     2     4
1     2    y     3     6
2     3    z     4     8
