**Polars 100+ノック（2025年版）**

# はじめに: Polarsによる高性能データ処理の世界へ

このドキュメントは、最新のデータフレームライブラリであるPolarsの全機能を網羅的に学習するための実践的な演習集、「Polars 100+ノック」です。Polarsは、現代のマルチコアCPUの能力を最大限に引き出し、強力なクエリ最適化エンジンを搭載することで、驚異的な速度のデータ処理を実現するために開発されました 1。この100+ノックを通じて、Polarsの基本的な操作から高度な機能までを体系的に習得し、日々のデータ分析・処理業務を劇的に効率化することを目指します。

## Polarsの核心をなす3つの柱

Polarsを理解する上で中心となるのは、以下の3つの概念です。

1. データ構造 (DataFrame / Series): Polarsの基本データ構造は、2次元のDataFrameと1次元のSeriesです。これらはApache Arrowのメモリモデルに基づいており、キャッシュ効率の高いカラムナ（列指向）データ構造を提供します。
2. 式 (Expression) API: Polarsの最も強力な特徴の一つが「式 (Expression)」です。これは、Seriesを入力としSeriesを出力する一連の操作を定義するものです (Fn(Series) -> Series) 3。これにより、複雑なデータ変換を宣言的かつモジュール式に記述でき、Polarsのクエリオプティマイザが最適な実行計画を立てることが可能になります。
3. 実行モード (Eager / Lazy): Polarsには2つの実行モードがあります。Eager（即時実行）モードは、コードが書かれた順に即座に処理が実行されます。一方、Lazy（遅延実行）モードでは、一連の操作はすぐには実行されず、計算グラフとして構築されます。最終的に実行が指示された時点で、クエリオプティマイザが全体の処理を最適化（例：不要な計算の省略、処理順序の変更）してから実行します。これにより、特に大規模なデータセットにおいて、メモリ使用量の削減と処理速度の大幅な向上が実現されます。


## 学習手順

* 青いセルの説明を読む
* 白いセルに問題の解答を書く
* 黄色いセルを実行して確認する

セル内でしか使わない変数は、`_`で始まります。

## データについて

データは下記からダウンロードしたものを用意しています。

* https://www.kaggle.com/datasets/danbraswell/new-york-city-weather-18692022
* https://www.kaggle.com/datasets/pankajvermacool/titanic-traincsv
* https://www.kaggle.com/datasets/ahmadsamsulmuarif/online-retailcsv

## 準備

演習に必要なモジュールや演習のために用意したcolオブジェクトをインポートします。
colオブジェクトを使って、列名のExprを取得できます。たとえば、`col.Name`は`pl.col("Name")`と同じように使えます。

**このノートブックを開いたときは、最初に下記のセルを実行するようにしてください**。

In [None]:
from datetime import date
from textwrap import dedent
import polars as pl
import polars.selectors as cs
from study_polars2.col import col

---

# Part 1: 基本編 - Polarsへの第一歩 (Knocks 1-20)

このパートでは、Polarsを扱う上での基礎を固めます。DataFrameの作成、ファイルの読み込み、そして基本的なデータ検査と操作方法を学びます。

## Section 1.1: DataFrameの作成とI/O (Knocks 1-10)


---

### `問題 1.1.1` Polarsのバージョン確認

Polarsのバージョンを、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = pl.__version__
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.__version__
    assert _ans == ans
except NameError:
    print("\x1b[31mNG\x1b[39m")
    print("上の準備のセルを最初に実行してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 1.1.2` 辞書からDataFrame

辞書からDataFrameを作成し、`df`に代入してください。

**解答欄**

In [None]:
_data = {
    'id': [0, 1, 2],
    'name': ["Alice", "Bob", "Carol"],
    'age': [20, 18, 32],
}
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = pl.DataFrame(_data)
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.DataFrame(_data)
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.DataFrame() コンストラクタは、Pythonの辞書やリストのリストなど、さまざまなデータソースからDataFrameを作成できます。
        PolarsのDataFrameを表示すると、行数と列数（shape）、各列のデータ型（dtype）がヘッダーの下に表示されるのが特徴です。
        これにより、データの構造を一目で把握できます。
    """))

---

### `問題 1.1.3` CSV読込

CSVファイルを読み込んでDataFrameを作成し、`df_titanic`に代入してください。

**解答欄**

In [None]:
_file = "../data/titanic_train.csv"
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_titanic = pl.read_csv(_file)
df_titanic[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.read_csv(_file)
    assert _ans.equals(df_titanic)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.read_csv()は、CSVファイルを効率的に読み込むための関数です。
        Polarsはスキーマ（各列のデータ型）を自動的に推論しますが、大規模なファイルを扱う場合や特定の型を強制したい場合は、infer_schema_lengthやschema_overrides引数を使用すると良いでしょう。

        pl.read_csv()以外にも、Polarsは多様なデータソースの読み込みに対応しています。

        * read_json / read_ndjson: JSONおよび改行区切りのJSONファイルを読み込むための関数です。Web APIやログデータなど、JSON形式のデータを扱う際に必要です。
        * read_excel: Excelファイルを直接DataFrameに読み込むための関数です。ビジネスの現場ではExcelでデータを扱うことが多いため、重要な機能です。
        * データベース接続: read_database(またはコネクタ経由での読み込み)など、SQLデータベースから直接データを読み込む機能もPolarsの重要な側面です。
    """))

---

### `問題 1.1.4` 基本情報の確認

1.1.3の`df_titanic`の形状、要素ごとの型、全列名を、それぞれ変数`ans1`、`ans2`、`ans3`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans1 = df_titanic.shape
ans2 = df_titanic.dtypes
ans3 = df_titanic.columns

print(ans1, ans2, ans3, sep="\n")
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans1 = df_titanic.shape
    _ans2 = df_titanic.dtypes
    _ans3 = df_titanic.columns
    assert _ans1 == ans1 and _ans2 == ans2 and _ans3 == ans3
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .shapeは(行数, 列数)のタプルを、.dtypesは各列のデータ型をリストで、.columnsは列名のリストを返します。
        これらはデータフレームの全体像を把握するための基本的な属性です。
    """))

---

### `問題 1.1.5` 要約統計量

1.1.3の`df_titanic`の要約統計量を変数`df`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_titanic.describe()
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.describe()
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .describe()メソッドは、数値列の要約統計量（個数、nullの数、平均、標準偏差、最小値、パーセンタイル、最大値）を計算します。
        データの大まかな分布や外れ値の存在を確認するのに役立ちます。
    """))

---

### `問題 1.1.6` Parquet形式で出力

1.1.3の`df_titanic`を`file`にParquet形式で出力してください。

**解答欄**

In [None]:
file = "titanic.parquet"
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_titanic.write_parquet(file)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.read_parquet(file)
    assert _ans.equals(df_titanic)
except (AssertionError, NameError, FileNotFoundError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: Parquetは、効率的な圧縮とエンコーディングを備えた列指向のストレージフォーマットです。
        CSVと比較して、読み書きが高速でファイルサイズも小さくなる傾向があるため、大規模なデータセットの保存に適しています。
    """))

---

### `問題 1.1.7` Parquet形式で入力

1.1.6で出力したファイル（`file`）を読み込み、変数`df`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = pl.read_parquet(file)
df[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.read_parquet(file)
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 1.1.8` 最初の5行

1.1.3の`df_titanic`の最初の5行を変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.head()
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.head()
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .head()はデータフレームの先頭から指定した行数を取得します。引数を省略するとデフォルトで5行取得します。
        また、[:5]というインデックス参照でも同じ結果になります。インデックス参照については下記を参考にしてください。
        https://qiita.com/SaitoTsutomu/items/a9bfeaa1951e9a0fc50d
    """))

---

### `問題 1.1.9` 最後の3行

1.1.3の`df_titanic`の最後の3行を変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.tail(3)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.tail(3)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .tail(3)はデータフレームの末尾から3行を取得します。[-3:]でも同じ結果になります。
    """))

---

### `問題 1.1.10` ランダムに5行をサンプリング

1.1.3の`df_titanic`からランダムに5行をサンプリングし、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.sample(n=5)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    assert ans.height == 5
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .sample()はデータをランダムに抽出します。引数nで抽出する行数を、引数fracで割合を指定できます。
    """))

---

## Section 1.2: 基本操作: 選択、フィルタリング、ソート (Knocks 11-20)


### `問題 1.2.1` 特定の列の選択

1.1.3の`df_titanic`の`Name`、`Age`、`Sex`列を選択し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.select(["Name", "Age", "Sex"])
ans[:3]
```

**別解**

```python
ans = df_titanic.select("Name", "Age", "Sex")
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.select(["Name", "Age", "Sex"])
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .select()はPolarsにおける列選択の基本です。列名のリストを渡すことで、指定した列のみを含む新しいDataFrameが返されます。
        .select("Name", "Age", "Sex")のように個別に渡すこともできます。
    """))

---

### `問題 1.2.2` 式 (Expression) 

1.1.3の`df_titanic`の`Name`、`Age`、`Sex`列を式 (Expression) を使って選択し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.select(pl.col("Name"), pl.col("Age"), pl.col("Sex"))
ans[:3]
```
<br>

**別解**
本演習のみ、以下のように書けます。
なお、以降の解答例では、この別解のように記述します。

```python
ans = df_titanic.select(col.Name, col.Age, col.Sex)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.select(pl.col("Name"), pl.col("Age"), pl.col("Sex"))
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.col()は特定の列を参照する式を作成します。
        単純な列選択では文字列のリストを使う方が簡潔ですが、この式ベースのアプローチがPolarsのデータ操作の基本であり、後述する複雑な変換や計算の基礎となります。
        なお、本演習ではpl.col("Name")をcol.Nameのように記述します。
    """))

---

### `問題 1.2.3` データ型で選択

1.1.3の`df_titanic`のすべての数値型（整数と浮動小数点数）の列を選択し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.select(cs.numeric())
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.select(cs.numeric())
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: Polarsでは、pl.Int64やpl.Float64のような具体的なデータ型だけでなく、polars.selectors.numeric()のように型のグループを指定して列を選択できます。
        これにより、データの種類に応じた一括操作が容易になります。
    """))

---

### `問題 1.2.4` 正規表現で列を選択

1.1.3の`df_titanic`の`P`で始まる列名を持つすべての列を選択し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.select(pl.col("^P.*$"))
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.select(pl.col("^P.*$"))
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.col()に正規表現を渡すことで、列名をパターンマッチングして選択できます。
    """))

---

### `問題 1.2.5` フィルタリング

1.1.3の`df_titanic`の30歳より年上の乗客を抽出し、変数`ans`に代入してください。

**注意**

本演習では、`pl.col("Age")`の代わりに`col.Age`が使えます。解答例では`col.Age`を使います。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.filter(col.Age > 30)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.filter(col.Age > 30)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .filter()は行をフィルタリングするための主要なメソッドです。
        引数には、ブール値のSeriesを返す式を渡します。
        pl.col("Age") > 30という式が各行に対して評価され、Trueとなる行のみが結果に含まれます。
    """))

---

### `問題 1.2.6` ANDでフィルタリング

1.1.3の`df_titanic`の30歳より年上で、かつ女性の乗客を抽出し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.filter(
    (col.Age > 30) & (col.Sex == "female")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.filter(
        (col.Age > 30) & (col.Sex == "female")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 複数の条件を組み合わせるには、& (AND) や | (OR) 演算子を使用します。
        各条件式を括弧 () で囲むことが重要です。これは演算子の優先順位によるもので、Pandasでも同様の注意が必要です。
    """))

---

### `問題 1.2.7` ORでフィルタリング

1.1.3の`df_titanic`の10歳未満の子供、または60歳以上の高齢者を抽出し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.filter(
    (col.Age < 10) | (col.Age >= 60)
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.filter(
        (col.Age < 10) | (col.Age >= 60)
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 1.2.8` is_inでフィルタリング

1.1.3の`df_titanic`の出港地(`Embarked`)が`C`(Cherbourg)または`Q`(Queenstown)の乗客を抽出し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.filter(col.Embarked.is_in({"C", "Q"}))
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.filter(col.Embarked.is_in({"C", "Q"}))
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .is_in()メソッドは、列の値が指定したコレクションに含まれているかどうかを判定するのに便利です。
        複数のOR条件を簡潔に記述できます。
    """))

---

### `問題 1.2.9` 1つの列でソート

1.1.3の`df_titanic`を年齢(`Age`)の昇順でソートし、変数`ans`に代入してください。

* 引数`maintain_order=True`をつけること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.sort("Age", maintain_order=True)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.sort("Age", maintain_order=True)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .sort()メソッドでソートします。デフォルトでは昇順です。
        降順にするにはdescending=Trueを指定します。
        キーが同じときに入力順にするにはmaintain_order=Trueを指定します。
    """))

---

### `問題 1.2.10` 複数列でソート

1.1.3の`df_titanic`を客室クラス(`Pclass`)の昇順、次に年齢(`Age`)の降順でソートし、変数`ans`に代入してください。

* 引数`maintain_order=True`をつけること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.sort(
    ["Pclass", "Age"],
    descending=[False, True],
    maintain_order=True,
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.sort(
        ["Pclass", "Age"],
        descending=[False, True],
        maintain_order=True,
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 複数の列でソートする場合、列名のリストと、それに対応するソート順序をdescending引数にリストで渡します。
        この一貫性のあるAPI設計は、Polarsの学習しやすさの一因です。
        Pandasでは複数の方法が存在し混乱を招くことがありますが、Polarsは.select()や.filter()と同様に、.sort()という明確なメソッドを提供することで、コードの可読性と一貫性を高めています。
        この連鎖可能な（chainable）構文は、単なる見た目の問題ではなく、後の遅延実行APIの論理計画を構築する上で中核的な役割を果たします。
    """))

---

# Part 2: 式 (Expression) の習得 - Polarsの心臓部 (Knocks 21-45)

このパートでは、Polarsの最も重要かつ強力な概念である「式 (Expression) API」に焦点を当てます。式の習得は、Polarsの性能と表現力を最大限に引き出すための鍵となります。

## Section 2.1: 列の作成と変換 (with_columns) (Knocks 21-30)


### `問題 2.1.1` 列の追加

1.1.3の`df_titanic`の列`Age`を2倍にした列`Age2`を追加し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    (col.Age * 2).alias("Age2")
)
ans[:3]
```

**別解**
```python
ans = df.with_columns(Age2=col.Age * 2)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(Age2=col.Age * 2)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .with_columns()は、新しい列を追加したり既存の列を上書きしたりするための主要なメソッドです。
        引数には式のリストを渡します。
        pl.col("Age") * 2は年齢を2倍にする式で、.alias()を使って新しい列名を指定するのがPolarsの標準的な方法です。
    """))

---

### `問題 2.1.2` 定数値の列を追加

1.1.3の`df_titanic`にすべての値が`Titanic`という文字列である列`Ship`を追加し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    Ship=pl.lit("Titanic")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(Ship=pl.lit("Titanic"))
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.lit()はリテラル値（定数）を式に変換します。
        これにより、すべての行に対して同じ値を効率的にブロードキャストできます。
    """))

---

### `問題 2.1.3` 複数列の追加

1.1.3の`df_titanic`に下記の2列を追加し、変数`ans`に代入してください。

* `FamilySize`: `SibSp + Parch + 1`
* `IsAlone`: `FamilySize == 1`

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    FamilySize=col.SibSp + col.Parch + 1
).with_columns(
    IsAlone=col.FamilySize == 1
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        FamilySize=col.SibSp + col.Parch + 1
    ).with_columns(
        IsAlone=col.FamilySize == 1
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 複数の新しい列は、一つの.with_columns()内にカンマ区切りで式を並べるか、.with_columns()を連鎖させることで追加できます。
        後者の方法では、先に追加した列を次の.with_columns()ですぐに利用できます。
    """))

---

### `問題 2.1.4` 列の変更

1.1.3の`df_titanic`を下記のように修正し、変数`ans`に代入してください。

* 列`Fare`の値をポンドから円に換算し、列名を`FareJPY`に変更する（1ポンド=150円と仮定）。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    FareJPY=col.Fare * 150
).drop("Fare")
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans1 = df_titanic.with_columns(FareJPY=col.Fare * 150).drop("Fare")
    _ans2 = df_titanic.with_columns(col.Fare * 150).rename({"Fare": "FareJPY"})
    assert _ans1.equals(ans) or _ans2.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 2.1.5` 型の変換

1.1.3の`df_titanic`の列`Pclass`を整数型から文字列型に変換し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df.with_columns(
    col.Pclass.cast(pl.Utf8)
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        col.Pclass.cast(pl.Utf8)
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .cast()メソッドは、列のデータ型を変換します。
        Polarsは厳密な型システムを持っており、意図しない型変換が起こりにくいため、明示的なキャストが重要です。
    """))

---

### `問題 2.1.6` 欠損値

1.1.3の`df_titanic`の列Ageの欠損値を全体の平均年齢で埋めて、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    col.Age.fill_null(col.Age.mean())
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        col.Age.fill_null(col.Age.mean())
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .fill_null()は欠損値を埋めるためのメソッドです。
        引数にはリテラル値だけでなく、pl.col("Age").mean()のような式も渡すことができます。
        これにより、動的な値で欠損値を補完できます。
    """))

---

### `問題 2.1.7` 行方向の計算

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列名を`MaxFamilyMember`とし、行ごとに「列`SibSp`と列`Parch`の最大値」の列を追加

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    MaxFamilyMember=pl.max_horizontal(col.SibSp, col.Parch)
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        MaxFamilyMember=pl.max_horizontal(col.SibSp, col.Parch)
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.max_horizontal（またはpl.min_horizontal, pl.sum_horizontal）は、複数の列を横断して行ごとの計算を行うための関数です。
    """))

---

### `問題 2.1.8` 列名の変更

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`PassengerId`の名前を`ID`に変更する
* 列`Pclass`の名前を`Class`に変更する

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.rename({"PassengerId": "ID", "Pclass": "Class"})
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.rename({"PassengerId": "ID", "Pclass": "Class"})
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 2.1.9` 全数値列の変更

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* すべての浮動小数点数型の列の値を小数点以下第一位で丸める

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    cs.float().round(1)
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
    cs.float().round(1)
)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: cs.float()のようにデータ型で列を選択し、それらすべてに同じ操作（この場合は.round(1)）を適用できます。
        これにより、コードの冗長性を減らし、保守性を高めることができます。
    """))

---

### `問題 2.1.10` 列の並べ替え

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Survived`、列`Pclass`、列`Name`、列`Sex`、列`Age`の順に列を並べ替え、残りの列をその後ろに配置する

**解答欄**

In [None]:
_cols = "Survived", "Pclass", "Name", "Sex", "Age"
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.select(*_cols, pl.exclude(_cols))
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.select(*_cols, pl.exclude(_cols))
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .select()は列の選択だけでなく、順序の指定にも使用されます。
        pl.exclude(...)は、「指定した列を除くすべての列」を意味し、特定の列を先頭に配置しつつ、残りの列を維持したい場合に非常に便利です。
    """))

---

## Section 2.2: 条件分岐 (when/then/otherwise) (Knocks 31-35)


### `問題 2.2.1` 条件で列の追加

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Age`に基づいて、18歳未満なら`Child`、18歳以上なら`Adult`とする
  * 列名を`AgeGroup`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    AgeGroup=pl.when(col.Age < 18)
    .then(pl.lit("Child"))
    .otherwise(pl.lit("Adult"))
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        AgeGroup=pl.when(col.Age < 18)
        .then(pl.lit("Child"))
        .otherwise(pl.lit("Adult"))
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.when(condition).then(value_if_true).otherwise(value_if_false)は、SQLのCASE WHEN文やプログラミング言語のif-else文に相当する強力な構文です。
    """))

---

### `問題 2.2.2` 複数条件の連鎖

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Age`に基づいて、12歳未満なら`Child`、12歳以上60歳未満は`Adult`、60歳以上は`Senior`とする
  * 列名を`AgeCategory`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    AgeCategory=pl.when(col.Age < 12)
    .then(pl.lit("Child"))
    .when(col.Age < 60)
    .then(pl.lit("Adult"))
    .otherwise(pl.lit("Senior"))
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        AgeCategory=pl.when(col.Age < 12)
        .then(pl.lit("Child"))
        .when(col.Age < 60)
        .then(pl.lit("Adult"))
        .otherwise(pl.lit("Senior"))
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .when().then()を複数連結することで、複雑な条件分岐を表現できます。
        条件は上から順に評価され、最初にTrueとなった.then()の値が採用されます。
        どの条件にも一致しない場合は.otherwise()の値が使われます。
    """))

---

### `問題 2.2.3` then/otherwiseに式

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Sex`が"female"なら列`Fare`そのままの値、"male"なら列`Fare`の10%増しの値とする
  * 列名を`AdjustedFare`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    AdjustedFare=pl.when(col.Sex == "female")
    .then(col.Fare)
    .otherwise(col.Fare * 1.1)
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        AdjustedFare=pl.when(col.Sex == "female")
        .then(col.Fare)
        .otherwise(col.Fare * 1.1)
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .then()や.otherwise()には、リテラル値だけでなく、pl.col()を使った式も指定できます。
        これにより、条件に応じて動的な計算を実行できます。
    """))

---

### `問題 2.2.4` 条件に合わない値をnull

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Fare`が50以上の乗客の年齢を値とする（それ以外をnull）
  * 列名を`HighFareAge`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    HighFareAge=pl.when(col.Fare >= 50).then("Age")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        HighFareAge=pl.when(col.Fare >= 50).then("Age")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 2.2.5` 複数列の条件の組み合わせ

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Pclass`が1で、かつ列`Embarked`が"S"の乗客に"Elite"という称号を与え、それ以外を"Common"とする
  * 列名を`Status`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    Status=pl.when((col.Pclass == 1) & (col.Embarked == "S"))
    .then(pl.lit("Elite"))
    .otherwise(pl.lit("Common"))
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        Status=pl.when((col.Pclass == 1) & (col.Embarked == "S"))
        .then(pl.lit("Elite"))
        .otherwise(pl.lit("Common"))
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

## Section 2.3: 強力な名前空間 (.str, .dt, .cat) (Knocks 36-45)

Polarsでは、特定のデータ型に対して豊富な機能を提供する「名前空間 (namespace)」が用意されています。これにより、直感的かつ効率的に専門的な操作を行うことができます。

| Polarsデータ型                   | Python対応型       | 概要                                         |
| -------------------------------- | ------------------ | -------------------------------------------- |
| pl.Boolean                       | bool               | ブール値。効率的にビットパックされる。       |
| pl.Int8, Int16, Int32, Int64     | int (範囲制限あり) | 符号付き整数。ビット数で精度が変わる。       |
| pl.UInt8, UInt16, UInt32, UInt64 | int (範囲制限あり) | 符号なし整数。正の数のみを表現。             |
| pl.Float32, Float64              | float              | 浮動小数点数。                               |
| pl.Decimal                       | decimal.Decimal    | 固定小数点数。高精度な計算に用いる。         |
| pl.String                        | str                | UTF-8エンコードされた文字列。                |
| pl.Binary                        | bytes              | バイナリデータ。                             |
| pl.Date                          | datetime.date      | 日付。                                       |
| pl.Time                          | datetime.time      | 時刻。                                       |
| pl.Datetime                      | datetime.datetime  | 日付と時刻。                                 |
| pl.Duration                      | datetime.timedelta | 時間間隔。                                   |
| pl.Categorical                   | enum.StrEnum       | カテゴリカルデータ。実行時にカテゴリを推論。 |
| pl.Enum                          | enum.StrEnum       | 列挙型。事前に定義されたカテゴリを持つ。     |
| pl.List                          | list               | 可変長のリスト。要素はすべて同じ型。         |
| pl.Array                         | numpy.array        | 固定長の配列。形状がすべての要素で同じ。     |
| pl.Struct                        | typing.TypedDict   | 複数のフィールドを持つ構造体。辞書に似る。   |
| pl.Object                        | object             | 任意のPythonオブジェクトをラップする。       |
| pl.Null                          | None               | 欠損値を表す。                               |
 



### `問題 2.3.1` 文字列の長さ(.str)

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Name`の乗客の名前の長さ
  * 列名を`NameLength`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    NameLength=col.Name.str.len_chars()
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        NameLength=col.Name.str.len_chars()
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .str名前空間には、文字列操作のための便利なメソッドが多数含まれています。
        .str.len_chars()は文字数を返します。
    """))

---

### `問題 2.3.2` 文字列の分割

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Name`をカンマで分割し、最初の要素（姓）を取得
  * 列名を`LastName`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    LastName=col.Name.str.split(",").list.first()
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        LastName=col.Name.str.split(",").list.first()
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .str.split()は文字列を分割し、結果としてList型の列を返します。
        そのリストの最初の要素を取得するために、.list.first()を続けて使用します。
        このように、異なる名前空間の操作を連鎖させることができます。
    """))

---

### `問題 2.3.3` 文字列を含むか判定

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Name`に`Mr.`が含まれているかどうかを取得する
  * 列名を`IsMr`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    IsMr=col.Name.str.contains("Mr.")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        IsMr=col.Name.str.contains("Mr.")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 2.3.4` 正規表現で抽出

1.1.3の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Name`から敬称（例: Mr., Mrs., Miss.）を正規表現で抽出する（ピリオドを除く）
  * 列名を`Title`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    Title=col.Name.str.extract(r"(Mr|Mrs|Miss)\."),
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        Title=col.Name.str.extract(r"(Mr|Mrs|Miss)\."),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 2.3.5` 日付のパース

`file`を読み込み、日付の列`DATE`を日付型に変換し、変数`df_weather`に代入してください。

**解答欄**

In [None]:
_file = "../data/NYC_Central_Park_weather_1869-2022.csv"
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_weather = pl.read_csv(_file).with_columns(
    col.DATE.str.to_date()
)
df_weather[:3]
```

**別解**
```python
df_weather = pl.read_csv(_file, try_parse_dates=True)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _df = pl.read_csv(_file).with_columns(
        col.DATE.str.to_date()
    )
    assert _df.equals(df_weather)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .str.to_date()（または.str.to_datetime()）は、指定したフォーマットに基づいて文字列を日付/日時型に変換する非常に便利なメソッドです。
        フォーマットを省略するとISO 8601に変換します。
    """))

---

### `問題 2.3.6` 年、月、日の抽出(.dt)

2.3.5の`df_weather`の列`DATE`から年、月、日をそれぞれ列`Year`、列`Month`、列`Day`として抽出し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.with_columns(
    Year=col.DATE.dt.year(),
    Month=col.DATE.dt.month(),
    Day=col.DATE.dt.day(),
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.with_columns(
        Year=col.DATE.dt.year(),
        Month=col.DATE.dt.month(),
        Day=col.DATE.dt.day(),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .dt名前空間は、Date型やDatetime型の列に対して、年、月、日、曜日、四半期などの要素を抽出したり、日付計算を行ったりするためのメソッドを提供します。
    """))

---

### `問題 2.3.7` 日付の差

2.3.5の`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 各観測日(`DATE`)がデータセットの最初の日から何日経過しているかを計算する（型はpl.Duration）
  * 列名を`DaysPassed`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.with_columns(
    DaysPassed=col.DATE - col.DATE.min()
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.with_columns(
        DaysPassed=col.DATE - col.DATE.min()
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 2.3.8` 曜日

2.3.5の`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 列`DATE`から曜日（月曜=1,..., 日曜=7）を取得する
  * 列名を`Weekday`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.with_columns(
    Weekday=col.DATE.dt.weekday(),
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.with_columns(
        Weekday=col.DATE.dt.weekday(),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 2.3.9` カテゴリ型(.cat)

`df_titanic`の列`Embarked`をカテゴリカル型に変換し、変数`ans`に代入してください。

**解答欄**

In [None]:
_file = "../data/titanic_train.csv"
df_titanic = pl.read_csv(_file)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    col.Embarked.cast(pl.Categorical),
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        col.Embarked.cast(pl.Categorical),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: Categorical型は、ユニークな値が少ない文字列の列を効率的に格納する方法です。
        内部的には、文字列を整数にマッピングして保持するため、メモリ使用量を大幅に削減し、グループ化や結合などの操作を高速化できます。
    """))

---

### `問題 2.3.10` カテゴリカル型へ変更

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 列`Pclass`を`1st`、`2nd`、`3rd`という値のカテゴリカル型に変換にする

最初の3行が下記のようになること。

| PassengerId | Survived | Pclass | ... |
| --: | --: | :-- | :-- |
| 1 | 0| "3rd" | ... |
| 2 | 1| "1st" | ... |
| 3 | 1| "3rd" | ... |

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    pl.col("Pclass")
    .replace_strict({1: "1st", 2: "2nd", 3: "3rd"})
    .cast(pl.Categorical)
)
ans[:3]
```

**別解*
```python
ans = df_titanic.with_columns(
    Pclass=pl.lit(["1st", "2nd", "3rd"])
    .list.get(col.Pclass - 1)
    .cast(pl.Categorical)
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        Pclass=pl.lit(["1st", "2nd", "3rd"])
        .list.get(col.Pclass - 1)
        .cast(pl.Categorical)
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

# Part 3: データの集計と再形成 (Knocks 46-73)

このパートでは、個々の行や列の操作から、データフレーム全体の形状や粒度を変更する変換処理へと進みます。

## Section 3.1: グループ化と集計 (group_by, agg) (Knocks 46-55)


### `問題 3.1.1` グループ化して集計

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) ごとに乗客の平均年齢を計算する
  * 列名を`AverageAge`とする
  * `maintain_order=True`をつける
* PclassとAverageAgeの2列とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.group_by(
    "Pclass", maintain_order=True
).agg(AverageAge=col.Age.mean())
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.group_by(
        "Pclass", maintain_order=True
    ).agg(AverageAge=col.Age.mean())
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .group_by()は、指定した列（キー）の値が同じ行をグループにまとめます。
        その後の.agg()内で、各グループに対して集計関数（mean, sum, countなど）を適用します。
    """))

---

### `問題 3.1.2` 複数キーのグループ化

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) と性別 (Sex) の組み合わせごとに、生存率を計算する
  * 列名を`SurvivalRate`とする
* 列`SurvivalRate`で昇順にソートする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = (
    df_titanic.group_by(["Pclass", "Sex"])
    .agg(SurvivalRate=col.Survived.mean())
    .sort("SurvivalRate")
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        df_titanic.group_by(["Pclass", "Sex"])
        .agg(SurvivalRate=col.Survived.mean())
        .sort("SurvivalRate")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 3.1.3` 複数の集計

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) ごとに、乗客数、平均年齢、最高運賃を計算する
  * 列名をそれぞれ`PassengerCount`、`AgeAverage`、`FareMax`とする
* 列`Pclass`で昇順にソートする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = (
    df_titanic.group_by("Pclass")
    .agg(
        PassengerCount=pl.len(),
        AgeAverage=col.Age.mean(),
        FareMax=col.Fare.max(),
    )
    .sort("Pclass")
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        df_titanic.group_by("Pclass")
        .agg(
            PassengerCount=pl.len(),
            AgeAverage=col.Age.mean(),
            FareMax=col.Fare.max(),
        )
        .sort("Pclass")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .agg()には、カンマで区切って複数の集計式を渡すことができます。
        これにより、一度のグループ化操作で効率的に複数の統計量を計算できます。
    """))

---

### `問題 3.1.4` 数値列の集計

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 性別 (Sex) ごとに、すべての数値列の平均値を計算する
  * 列名のサフィックスに`Mean`をつける
* 列`Sex`で昇順にソートする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = (
    df_titanic.group_by("Sex")
    .agg(cs.numeric().mean().name.suffix("Mean"))
    .sort("Sex")
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        df_titanic.group_by("Sex")
        .agg(cs.numeric().mean().name.suffix("Mean"))
        .sort("Sex")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: cs.numeric()のような型セレクタを.agg()内で使用すると、対象となるすべての列に同じ集計関数が適用されます。
        .name.suffix()とすることで、サフィックスを付与できます。
    """))

---

### `問題 3.1.5` 全列の集計

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) ごとに、すべての列の最初の値を取得する
  * `maintain_order=True`をつける

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.group_by(
    "Pclass", maintain_order=True
).agg(pl.all().first())
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.group_by(
        "Pclass", maintain_order=True
    ).agg(pl.all().first())
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.all()は、グループ化キー以外のすべての列を選択する便利なショートカットです。
        .first()や.last()、.count()など、多くの集計関数と組み合わせることができます。
    """))

---

### `問題 3.1.6` ユニーク数

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 各出港地 (Embarked) から乗船した乗客の客室クラス (Pclass) の種類の数を数える
  * 列名を`UniquePclassCount`とする
* 列`Embarked`で昇順にソートする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = (
    df_titanic.group_by("Embarked")
    .agg(UniquePclassCount=col.Pclass.n_unique())
    .sort("Embarked")
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
    df_titanic.group_by("Embarked")
    .agg(UniquePclassCount=col.Pclass.n_unique())
    .sort("Embarked")
)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 3.1.7` 条件を満たす行数

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) ごとに、30歳以上の乗客の数を数える
  * 列名を`CountOver30`とする
* 列`Pclass`で昇順にソートする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = (
    df_titanic.group_by("Pclass")
    .agg(CountOver30=col.Age.filter(col.Age >= 30).len())
    .sort("Pclass")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        df_titanic.group_by("Pclass")
        .agg(CountOver30=col.Age.filter(col.Age >= 30).len())
        .sort("Pclass")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 集計式の中で.filter()を使用することで、集計対象となる行をさらに絞り込むことができます。
        これは非常に強力な機能で、複雑な条件付き集計を簡潔に記述できます。
    """))

---

### `問題 3.1.8` グループ化の結果のフィルタリング(having句相当)

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) ごとに乗客数を計算
  * 乗客数が200人以上のみ残す
  * 列名を`PassengerCount`とする
* 列`Pclass`で昇順にソートする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = (
    df_titanic.group_by("Pclass")
    .agg(PassengerCount=pl.len())
    .filter(col.PassengerCount > 200)
    .sort("Pclass")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        df_titanic.group_by("Pclass")
        .agg(PassengerCount=pl.len())
        .filter(col.PassengerCount > 200)
    ).sort("Pclass")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: SQLのhaving句に相当する処理は、.agg()の後に.filter()を連鎖させることで実現します。
        まずグループ化と集計を行い、その結果のDataFrameに対してフィルタリングを適用します。
    """))

---

### `問題 3.1.9` グループ内の各要素

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) ごとに、乗客の名前をリストとして集計する
  * 列名を`PassengerNames`とする
  * `maintain_order=True`をつける

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.group_by("Pclass", maintain_order=True).agg(
    PassengerNames="Name"
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.group_by("Pclass", maintain_order=True).agg(
        PassengerNames="Name"
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 集計関数を指定せずに列名を.agg()に渡すと、そのグループ内のすべての値がリストとして集約されます。
    """))

---

### `問題 3.1.10` 全体の集計

2.3.9の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 全体の平均年齢と最高運賃を計算する
  * 列名を`TotalAverageAge`と`TotalMaxFare`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.select(
    TotalAverageAge=col.Age.mean(),
    TotalMaxFare=col.Fare.max(),
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.select(
        TotalAverageAge=col.Age.mean(),
        TotalMaxFare=col.Fare.max(),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .group_by()を呼び出さずに.select()（または.agg()）内で集計関数を使用すると、DataFrame全体（またはグループ内）に対して集計が行われます。
    """))

---

## Section 3.2: 動的グループ化 (group_by_dynamic) (Knocks 56-60)

group_by_dynamicは、Polarsが時系列分析で特に強力な理由の一つです。時間軸に沿ってデータを動的なウィンドウ（例：「1ヶ月ごと」「3日ごと」）で区切り、集計することができます。これはPandasの.resample()やpd.Grouperに似ていますが、より一貫性のあるAPIを提供し、クエリオプティマイザとの連携も強力です。このセクションではNYC Weatherデータセットを使用します。


### `問題 3.2.1` 月ごとに集計

列`DATE`で昇順にソートされた`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 月ごとにグループ化し、各月の最高気温 (`TMAX`) の平均を計算する
  * 列名を`AvgTMAX`とする

最初の3行が下記のようになること。

| DATE       |   AvgTMAX |
| :--------- | --------: |
| 1869-01-01 | 39.516129 |
| 1869-02-01 | 39.714286 |
| 1869-03-01 |  41.83871 |

**解答欄**

In [None]:
_file = "../data/NYC_Central_Park_weather_1869-2022.csv"
df_weather = pl.read_csv(_file).with_columns(
    col.DATE.str.to_date()
)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.group_by_dynamic(
    index_column="DATE", every="1mo"
).agg(AvgTMAX=col.TMAX.mean())
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.group_by_dynamic(
        index_column="DATE", every="1mo"
    ).agg(AvgTMAX=col.TMAX.mean())
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .group_by_dynamic()のindex_columnに時間軸となる列を、everyにウィンドウの期間を指定します。
        "1mo"は1ヶ月、"1w"は1週間、"3d"は3日を意味します。
    """))

---

### `問題 3.2.2` 四半期ごとの集計

3.2.1の`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 四半期 (3ヶ月) ごとにグループ化し、各四半期の降水量 (PRCP) の合計を計算する
  * 列名を`TotalPRCP`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.group_by_dynamic(
    index_column="DATE",
    every="3mo",
    period="3mo",  # ウィンドウの期間(省略可)
    closed="left",  # ウィンドウの開始点を含む(省略可)
).agg(TotalPRCP=col.PRCP.sum())
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.group_by_dynamic(
        index_column="DATE",
        every="3mo",
    ).agg(TotalPRCP=col.PRCP.sum())
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: periodはウィンドウ自体の長さを指定します。
        every="1mo", period="3mo"とすると、1ヶ月ごとに3ヶ月間の移動集計（ローリング集計）を行うことができます。
    """))

---

### `問題 3.2.3` 年ごとの集計(開始点変更)

3.2.1の`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 毎年7月を開始点として年間の降雪量(SNOW)の合計を計算する(例：2020/7/1 - 2021/6/30)
  * 列名を`TotalSnow`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.group_by_dynamic(
    index_column="DATE",
    every="1y",
    offset="6mo",  # 7月を開始点にするため、6ヶ月オフセット
).agg(TotalSnow=col.SNOW.sum())
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.group_by_dynamic(
        index_column="DATE",
        every="1y",
        offset="6mo",  # 7月を開始点にするため、6ヶ月オフセット
    ).agg(TotalSnow=col.SNOW.sum())
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 3.2.4` カテゴリカルキーと時間でグループ化

`_df`を次の条件で修正し、変数`ans`に代入してください。

* 地点(Station)ごと、かつ10年ごとに平均最高気温（TMAXの平均）を計算する
  * 列名を`AvgTMAX/decade`とする

**解答欄**

In [None]:
# ダミーの観測地点列を追加
_df = df_weather.with_columns(
    Station=pl.when(pl.col("DATE").dt.year() < 1950)
    .then(pl.lit("StationA"))
    .otherwise(pl.lit("StationB"))
)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _df.group_by_dynamic(
    index_column="DATE",
    every="10y",  # 10年ごとに集計
    group_by="Station",  # カテゴリカルキーを指定
).agg(col.TMAX.mean().alias("AvgTMAX/decade"))
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.group_by_dynamic(
        index_column="DATE",
        every="10y",  # 10年ごとに集計
        group_by="Station",  # カテゴリカルキーを指定
    ).agg(col.TMAX.mean().alias("AvgTMAX/decade"))
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: group_by_dynamicは、引数group_byを使って、時間ベースの動的グループ化と、カテゴリカルキーによる通常のグループ化を組み合わせることができます。
        これにより、例えば「観測地点ごと」に「月次」の集計を行うといった、より複雑な時系列分析が可能になります。
        Polarsはまずgroup_byで指定されたキーでデータを分割し、それぞれのグループ内で動的な時間ウィンドウ集計を効率的に実行します。
    """))

---

### `問題 3.2.5` ローリング集計

3.2.1の`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 7日間の移動平均最高気温を計算する
  * 列名を`AvgTMAX/7d`とする
* `DATE`と`AvgTMAX/7d`の2列とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.select(
    col.DATE,
    col.TMAX.rolling_mean(window_size=7).alias("AvgTMAX/7d"),
)
ans[5:8]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.select(
        col.DATE,
        col.TMAX.rolling_mean(window_size=7).alias("AvgTMAX/7d"),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .group_by_dynamicはウィンドウを区切って集計するのに対し、.rolling_*系の関数は移動ウィンドウでの集計を行います。
    """))

---

## Section 3.3: リサンプリング (upsample) (Knocks 61-61)

時系列データの頻度を変えることをリサンプリングといい、下記の2つがあります。

* **アップサンプリング**: 時系列データの頻度を高くします（例：日次データを時間次データに変換）。`upsample()`を使います。
* **ダウンサンプリング**: 時系列データの頻度を低くします（例：日次データを週次や月次データに変換）。これはノイズを減らし、長期的なトレンドを掴むために役立ちます。`group_by_dynamic()`を使います。

アップサンプリング時の欠損値の扱いについては下記を参照してください。

https://docs.pola.rs/user-guide/transformations/time-series/resampling/

### `問題 3.3.1` アップサンプリング

3.2.1の`df_weather`をダウンサンプリングした`_df`を次の条件で修正し、変数`ans`に代入してください。

  * 日次データとしてアップサンプリングする
  * 間のデータは線形補間する
  * 下記のようになること

| DATE       | AvgTMAX |
| :--------- | ------: |
| 1868-12-31 |    29.0 |
| 1869-01-01 |    30.0 |
| 1869-01-02 |    31.0 |
| 1869-01-03 |    35.5 |
| 1869-01-04 |    40.0 |

**解答欄**

In [None]:
_df = df_weather.group_by_dynamic(
    index_column="DATE", every="2d"
).agg(AvgTMAX=col.TMAX.mean())[:3]

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _df.upsample("DATE", every="1d").interpolate()
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.upsample("DATE", every="1d").interpolate()
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .interpolate()メソッドを使うと、null値が線形補間によって埋められます。
    """))

---

## Section 3.4: DataFrameの結合 (Knocks 62-71)


### `問題 3.4.1` 内部結合

`df_a`と`df_b`を次の条件で修正し、変数`ans`に代入してください。

* 共通のキーで内部結合する
  * `maintain_order="left"`をつける

**解答欄**

In [None]:
df_a = pl.DataFrame(
    {
        "key": [1, 2, 3],
        "value_a": ["a1", "a2", "a3"],
    }
)
df_b = pl.DataFrame(
    {
        "key": [3, 4, 1],
        "value_b": ["b3", "b4", "b1"],
    }
)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_a.join(
    df_b,
    on="key",
    how="inner",
    maintain_order="left",
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_a.join(
        df_b,
        on="key",
        how="inner",
        maintain_order="left",
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: how='inner'は、両方のDataFrameにキーが存在する行のみを結果に含めます。
        これはデフォルトの結合方法です。
    """))

---

### `問題 3.4.2` 左外部結合

`df_a`と`df_b`を次の条件で修正し、変数`ans`に代入してください。

* `df_a`を左側として左外部結合を行う

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_a.join(df_b, on="key", how="left")
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_a.join(df_b, on="key", how="left")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: how="left"は、左側(df_a)のすべての行を保持し、右側(df_b)に一致するキーがあればその値を結合します。
        一致しない場合はnullが入ります。
    """))

---

### `問題 3.4.3` 完全外部結合

`df_a`と`df_b`を次の条件で修正し、変数`ans`に代入してください。

* 完全外部結合する

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_a.join(df_b, on="key", how="full")
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_a.join(df_b, on="key", how="full")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: how="full"は、両方のDataFrameのすべての行を保持し、片方にしか存在しないキーの行も結果に含めます。
    """))

---

### `問題 3.4.4` クロス結合

`df_a`と`df_b`を次の条件で修正し、変数`ans`に代入してください。

* df_aとdf_bのデカルト積(総当たり)を計算する

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_a.join(df_b, how="cross")
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_a.join(df_b, how="cross")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: how="cross"は、左のDataFrameの各行と右のDataFrameの各行のすべての組み合わせを作成します。
        結果の行数は len(df_a) * len(df_b) となります。
    """))

---

### `問題 3.4.5` 複数キーで結合

`df_c`と`df_d`を次の条件で修正し、変数`ans`に代入してください。

* 共通のキーで内部結合する

**解答欄**

In [None]:
df_c = pl.DataFrame(
    {
        "key1": [1, 1, 2],
        "key2": [0, 1, 0],
        "value_a": ["a10", "a11", "a20"],
    }
)
df_d = pl.DataFrame(
    {
        "key1": [1, 2, 2],
        "key2": [0, 0, 1],
        "value_b": ["b10", "b20", "b21"],
    }
)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_c.join(df_d, on=["key1", "key2"], how="inner")
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_c.join(df_d, on=["key1", "key2"], how="inner")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 3.4.6` セミ結合

`df_a`と`df_b`を次の条件で修正し、変数`ans`に代入してください。

* df_aのキーがdf_bにも存在する行のみを、df_aの列だけで抽出する

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_a.join(df_b, on="key", how="semi")
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_a.join(df_b, on="key", how="semi")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: how="semi"は、右側のDataFrameに一致するキーが存在する左側のDataFrameの行を返します。
        右側のDataFrameの列は結果に含まれません。これは「存在確認」のフィルタリングとして非常に効率的です。
    """))

---

### `問題 3.4.7` アンチ結合

`df_a`と`df_b`を次の条件で修正し、変数`ans`に代入してください。

* df_aのキーがdf_bに存在しない行のみを、df_aの列だけで抽出する

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_a.join(df_b, on="key", how="anti")
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_a.join(df_b, on="key", how="anti")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: how="anti"はセミ結合の逆で、右側のDataFrameに一致するキーが存在しない左側のDataFrameの行を返します。
        「非存在確認」のフィルタリングに役立ちます。
    """))

---

### `問題 3.4.8` Asof結合

時系列データで、各注文日に最も近い過去の市場価格を結合し、変数`ans`に代入してください。

**解答欄**

In [None]:
market_prices = pl.DataFrame({
    'time': pl.date_range(pl.date(2023, 1, 2), pl.date(2023, 1, 8), '2d', eager=True),
    'price': range(2, 9, 2),
})
orders = pl.DataFrame({
    'order_time': [date(2023, 1, 1), date(2023, 1, 5), date(2023, 1, 9)],
    'volume': [100, 120, 180],
})
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = orders.join_asof(
    market_prices,
    left_on="order_time",
    right_on="time",
    strategy="nearest",
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = orders.join_asof(
        market_prices,
        left_on="order_time",
        right_on="time",
        strategy="nearest",
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: join_asofは、キーが完全に一致しなくても、最も近いキーで結合する特殊な結合です。
        時系列データでイベントと直前の状態を紐付ける際などに非常に有用です。
        strategy引数で"backward"（過去方向、デフォルト）、"forward"（未来方向）、"nearest"（最も近い）を指定できます。
    """))

---

### `問題 3.4.9` 非等価結合

各イベントがどの時間枠に含まれるかを判定して結合し、event_timeでソートして、変数`ans`に代入してください。

**解答欄**

In [None]:
events = pl.DataFrame(
    {
        "event_time": [1.5, 2.8, 3.5, 5.1],
        "event_type": ["a", "b", "c", "d"],
    }
)
windows = pl.DataFrame(
    {
        "window_id": ["x", "y", "z"],
        "start_time": [1.0, 3.0, 5.0],
        "end_time": [2.0, 4.0, 6.0],
    }
)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = events.join_where(
    windows,
    (pl.col("event_time") >= pl.col("start_time"))
    & (pl.col("event_time") < pl.col("end_time")),
).sort("event_time")
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = events.join_where(
        windows,
        (pl.col("event_time") >= pl.col("start_time"))
        & (pl.col("event_time") < pl.col("end_time")),
    ).sort("event_time")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: join_whereは、等価条件(==)だけでなく、不等価条件(>, <, >=, <=)を含む任意の述語に基づいて結合を行うための実験的な機能です。
        これにより、クロス結合とフィルタリングを組み合わせるよりもはるかに効率的に、範囲ベースの結合（range join）などを実現できます。
    """))

---

### `問題 3.4.10` 縦に結合

`df_a`と`df_b`を縦に結合し、変数`ans`に代入してください。

* `df_b`の列名は`df_a`に揃える

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = pl.concat([df_a, df_b.rename({"value_b": "value_a"})])
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.concat([df_a, df_b.rename({"value_b": "value_a"})])
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.concat()は、複数のDataFrameを縦方向（how="vertical"、デフォルト）または横方向（how="horizontal"）に結合します。
    """))

## Section 3.5: DataFrameの整形 (unpivot, pivot) (Knocks 72-73)
データを分析しやすい形に変形する「整形」は、データ前処理の核となる作業です。ここでは、データフレームを「横長（ワイドフォーマット）」から「縦長（ロングフォーマット）」に変換するunpivotと、その逆のpivot操作を学びます。


### `問題 3.5.1` 縦持ち変換 (unpivot)

`df_wide`は、生徒ごとの各科目の点数を横持ちで保持しています。このDataFrameを「生徒(`Student`)」「科目(`Subject`)」「点数(`Score`)」を列に持つ縦長の形式に変換し、変数`ans`に代入してください。

**解答欄**

In [None]:
df_wide = pl.DataFrame({
    "Student": ["Alice", "Bob", "Carol"],
    "Math": [90, 88, 92],
    "Science": [85, 91, 89],
})
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_wide.unpivot(
    on=["Math", "Science"],
    index="Student",
    variable_name="Subject",
    value_name="Score"
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_wide.unpivot(
        on=["Math", "Science"],
        index="Student",
        variable_name="Subject",
        value_name="Score"
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .unpivot()は、DataFrameをワイドフォーマットからロングフォーマットに変換します。
        - on: 縦持ちに変換したい値が含まれる列を指定します。
        - index: 変換後もそのまま列として残す識別子の列を指定します。
        - variable_name: onで指定した列名自体が格納される新しい列の名前です。
        - value_name: onの各セルにあった値が格納される新しい列の名前です。
    """))

---

### `問題 3.5.2` 横持ち変換 (pivot)

問題 3.5.1で作成した縦長のDataFrame`df_long`を、再び生徒ごとに行を持ち、各科目が列となる横長の形式に変換し、変数`ans`に代入してください。

**解答欄**

In [None]:
df_long = pl.DataFrame({
    "Student": ["Alice", "Bob", "Carol", "Alice", "Bob", "Carol"],
    "Subject": ["Math", "Math", "Math", "Science", "Science", "Science"],
    "Score": [90, 88, 92, 85, 91, 89],
})
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_long.pivot(
    on="Subject",
    index="Student",
    values="Score",
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_long.pivot(
        on="Subject",
        index="Student",
        values="Score",
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .pivot()は.unpivot()の逆の操作で、ロングフォーマットからワイドフォーマットに変換します。
        - on: この列のユニークな値が、新しい列名になります。
        - index: 結果のDataFrameで各行を一意に識別する列を指定します。
        - values: 新しく作られる列に入る値を持つ列を指定します。
        on, indexの組み合わせが複数存在する場合は、エラーになります。
    """))

---

# Part 4: 高度なテクニックとパフォーマンス (Knocks 74-97)

このパートでは、Polarsを他のライブラリと一線を画す、分析能力とパフォーマンスに関する高度な機能を探求します。

## Section 4.1: ウィンドウ関数 (over) (Knocks 74-81)

ウィンドウ関数は、group_byのようにデータをグループ化しますが、行を集約して減らすのではなく、各行の元のコンテキストを維持したまま、グループ内での計算結果を新しい列として追加します。SQLのウィンドウ関数と同様の機能を提供します。


### `問題 4.1.1` グループ内でのランキング

`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 各客室クラス (Pclass) 内での運賃 (Fare) の降順ランキングを計算する
  * 列名を`FareRankInClass`とする
  * `method="dense"`をつけること
* FareRankInClass、Pclass、PassengerIdでソートする

**解答欄**

In [None]:
_file = "../data/titanic_train.csv"
df_titanic = pl.read_csv(_file)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    FareRankInClass=col.Fare.rank(
        method="dense", descending=True
    ).over("Pclass")
).sort("FareRankInClass", "Pclass", "PassengerId")
ans[:10]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        FareRankInClass=col.Fare.rank(
            method="dense", descending=True
        ).over("Pclass")
    ).sort("FareRankInClass", "Pclass", "PassengerId")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .over()は、式をウィンドウ関数として実行するためのメソッドです。引数にグループ化する列を指定します。
        pl.col("Fare").rank().over("Pclass")は、「Pclassごとにグループ化し、その中でFareをランク付けする」という意味になります。
    """))

---

### `問題 4.1.2` グループ内累積和

`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 年ごとに日々の降水量(PRCP)の累積和を計算する
  * 列名を`CumulativePRCP`とする

**解答欄**

In [None]:
_file = "../data/NYC_Central_Park_weather_1869-2022.csv"
df_weather = pl.read_csv(_file).with_columns(
    col.DATE.str.to_date()
)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.with_columns(
    CumulativePRCP=col.PRCP.cum_sum().over(col.DATE.dt.year()),
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.with_columns(
        CumulativePRCP=col.PRCP.cum_sum().over(col.DATE.dt.year()),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 4.1.3` グループ合計に対する割合

4.1.1の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 運賃 (Fare) が、その乗客が属する客室クラス (Pclass) 内での運賃合計の何パーセントを占めるかを計算する
  * 列名を`FarePercentageOfClass`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    FarePercentageOfClass=(
        col.Fare / col.Fare.sum().over("Pclass") * 100
    )
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        FarePercentageOfClass=(
            col.Fare / col.Fare.sum().over("Pclass") * 100
        )
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: ウィンドウ関数内では、pl.col("Fare").sum()のような集計も可能です。
        .over("Pclass")が適用されることで、このsum()は各Pclassグループの合計値を計算し、その値がグループ内のすべての行にブロードキャストされます。
    """))

---

### `問題 4.1.4` グループ内差分

4.1.2の`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 年ごとに、各日の最高気温 (TMAX) と前日の最高気温との差を計算する
  * 列名を`DiffTMAX`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.with_columns(
    DiffTMAX=(col.TMAX - col.TMAX.shift(1)).over(col.DATE.dt.year())
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.with_columns(
        DiffTMAX=(col.TMAX - col.TMAX.shift(1)).over(col.DATE.dt.year())
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .shift()は、ウィンドウ関数ではありませんが、.over()と組み合わせることでグループごとのラグ特徴量を計算できます。
    """))

---

### `問題 4.1.5` グループ内移動平均

4.1.2の`df_weather`を次の条件で修正し、変数`ans`に代入してください。

* 年ごとに、最高気温 (TMAX) の7日間移動平均を計算する
  * 列名を`AvgTMAX/7d`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_weather.with_columns(
    col.TMAX.rolling_mean(window_size=7)
    .over(col.DATE.dt.year())
    .alias("AvgTMAX/7d")
)
ans[5:8]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_weather.with_columns(
        col.TMAX.rolling_mean(window_size=7)
        .over(col.DATE.dt.year())
        .alias("AvgTMAX/7d")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .rolling_mean()のようなローリング計算を.over()と組み合わせることで、グループが切り替わる境界でウィンドウ計算がリセットされるようになります。
        これにより、年をまたいで移動平均が計算されるのを防ぐことができます。
    """))

---

### `問題 4.1.6` 複数列のウィンドウ

4.1.1の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 客室クラス (Pclass) と性別 (Sex) の両方でグループ化し、その中での年齢 (Age) のランキングを計算する
  * 列名を`AgeRankInClassSex`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    AgeRankInClassSex=col.Age
    .rank()
    .over("Pclass", "Sex")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        AgeRankInClassSex=col.Age
        .rank()
        .over("Pclass", "Sex")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 4.1.7` 自身を除くグループ内計算

4.1.1の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 各乗客について、その乗客を除く同じ客室クラスの他の乗客の平均運賃を計算する
  * 列名を`AvgFareOfOthersInClass`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    AvgFareOfOthersInClass=(
        (col.Fare.sum().over("Pclass") - col.Fare)
        / (pl.len().over("Pclass") - 1)
    )
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        AvgFareOfOthersInClass=(
            (col.Fare.sum().over("Pclass") - col.Fare)
            / (pl.len().over("Pclass") - 1)
        )
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 4.1.8` 条件付きウィンドウ

4.1.1の`df_titanic`を次の条件で修正し、変数`ans`に代入してください。

* 各客室クラス (Pclass) 内で、運賃が50以上の乗客のみを対象に、運賃の累積和を計算する
  * 列名を`ConditionalCumulativeFare`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic.with_columns(
    ConditionalCumulativeFare=pl.when(col.Fare >= 50)
    .then(col.Fare)
    .otherwise(0)
    .cum_sum()
    .over("Pclass")
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        ConditionalCumulativeFare=pl.when(col.Fare >= 50)
        .then(col.Fare)
        .otherwise(0)
        .cum_sum()
        .over("Pclass")
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

## Section 4.2: 遅延APIとクエリ最適化 (Knocks 82-86)

遅延APIは、Polarsのパフォーマンスを最大限に引き出すための鍵です。一連の操作をすぐに実行せず、最終的な`collect()`呼び出しまで遅延させることで、クエリオプティマイザが介入し、無駄な処理を削減します。


### `問題 4.2.1` EagerクエリからLazyクエリに変換

Parquetファイルを次の条件で読み込み、変数`df_retail`に代入してください。

* `scan_parquet`を使って、LazyFrameとして読み込むこと

**解答欄**

In [None]:
_file = "../data/online_retail.parquet"
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_retail = pl.scan_parquet(_file)
df_retail
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    assert df_retail.explain() == "Parquet SCAN [../data/online_retail.parquet]\nPROJECT */8 COLUMNS"
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.read_csvの代わりにpl.scan_csvを使うと、LazyFrameが返されます。この時点ではファイルはまだメモリに読み込まれていません。
        同様に、既存のDataFrameに.lazy()を呼び出すことでもLazyFrameに変換できます。
    """))

---

### `問題 4.2.2` クエリ

4.2.1の`df_retail`で下記のクエリを作成し、変数`query`に代入してください。

* 数量 (Quantity) が10より大きいイギリス (`"United Kingdom"`) の取引をフィルタリングする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
query = df_retail.filter(
    (col.Quantity > 10) & (col.Country == "United Kingdom")
)
print(query)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    assert "FILTER" in str(query)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: クエリ.explain()を実行計画といいます。実行計画は、Polarsがどのようにクエリを実行するかを示す最適化された論理計画です。
        これは、クエリのパフォーマンスをデバッグしたり、最適化が正しく機能しているかを確認したりするのに非常に強力なツールです。
    """))

---

### `問題 4.2.3` 述語プッシュダウン

最初に`df_retail.explain()`を表示し、df_retailでは述語プッシュダウンが起きていないことを確認してください。

次に、4.2.2の`query`の実行計画を作成し、変数`ans`に代入してください。
`ans`を表示し述語プッシュダウンが起きていることを確認してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
print(df_retail.explain())
print()

ans = query.explain()
print(ans)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    assert "SELECTION" in ans
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 実行計画のCsv SCAN部分にSELECTION: ...という表示があれば、述語プッシュダウンが機能していることを示します。
        これは、フィルタリング条件がファイル読み込みの段階で適用され、不要な行がメモリにロードされるのを防ぎます。
    """))

---

### `問題 4.2.4` 射影プッシュダウン

4.2.2の`query`に次の条件を追加し、変数`selected_query`に代入してください。
`selected_query`の実行計画を表示し、射影プッシュダウンが起きていることを確認してください。

* QuantityとCountryの2列を選択する

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
selected_query = query.select("Quantity", "Country")
print(selected_query.explain())
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    assert "PROJECT 2/8 COLUMNS" in selected_query.explain()
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 実行計画のCsv SCAN部分にPROJECT 2/8 COLUMNSのような表示があれば、射影プッシュダウンが機能している証拠です。
        これは、Polarsがファイルから必要な2列だけを読み込むことを意味し、メモリ使用量とI/Oを大幅に削減します。
    """))

---

### `問題 4.2.5` 遅延クエリの実行

4.2.4の遅延クエリ`selected_query`を実行し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = selected_query.collect()
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = selected_query.collect()
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .collect()は、LazyFrameに定義された一連の操作を実行し、結果をDataFrameとしてメモリ上に具体化するメソッドです。
    """))

---

## Section 4.3: 構造化データ（リスト、Struct、JSON）の操作 (Knocks 87-93)

このセクションでは、データフレームの列内に含まれる文字列を使って、リストや構造体を作成します。あるいは、JSONから構造体に変換します。これらのリストや構造体型データを効率的に扱う方法を学びます。これらの操作は、APIレスポンスやログデータを扱う際に非常に役立ちます。


### `問題 4.3.1` リスト列

4.1.1の`df_titanic`を次の条件で修正し、変数`df_word`に代入してください。

* 列`Name`を単語に分割してリスト化する
  * 列名を`NameWords`とする
* 列`NameWords`をリストの要素数を求める
  * 列名を`WordCount`とする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_word = df_titanic.with_columns(
    NameWords=col.Name.str.split(" "),
).with_columns(
    WordCount=col.NameWords.list.len(),
)
df_word[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.with_columns(
        NameWords=col.Name.str.split(" "),
    ).with_columns(
        WordCount=col.NameWords.list.len(),
    )
    assert _ans.equals(df_word)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .list名前空間には、リスト型の列を操作するためのメソッドが含まれています。
        .list.len()はリストの長さを、.list.sum()はリスト内の数値の合計を計算します。
    """))

---

### `問題 4.3.2` リスト列の展開

4.3.1の`df_word`を次の条件で修正し、変数`ans`に代入してください。

* 列`NameWords`を展開し、各単語が個別の行になるようにする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_word.explode("NameWords")
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_word.explode("NameWords")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .explode()は、リスト列の各要素を別々の行に展開し、DataFrameを縦長の形式に変換します。
    """))

---

### `問題 4.3.3` リスト内要素の変換

4.3.1の`df_word`を次の条件で修正し、変数`ans`に代入してください。

* 列`NameWords`の各単語をすべて大文字に変換する
* 列`NameWords`だけにする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_word.select(
    col.NameWords.list.eval(pl.element().str.to_uppercase())
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_word.select(
        col.NameWords.list.eval(pl.element().str.to_uppercase())
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .list.eval()は、リスト内の各要素に対して式を適用するための強力なメソッドです。
        pl.element()はリスト内の個々の要素を参照します。
    """))

---

### `問題 4.3.4` 構造体列

4.1.1の`df_titanic`を次の条件で修正し、変数`df_titanic_struct`に代入してください。

* 列`Age`と列`Fare`からなる構造体列を作成する
  * 列名を`PassengerInfo`とする
* 列`PassengerInfo`だけにする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_titanic_struct = df_titanic.select(
    PassengerInfo=pl.struct(col.Age, col.Fare),
)
df_titanic_struct[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.select(
        PassengerInfo=pl.struct(col.Age, col.Fare),
    )
    assert _ans.equals(df_titanic_struct)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.struct()は、複数の列をまとめて一つの構造体列を作成します。
        これは、関連するデータをグループ化して扱うのに便利です。
    """))

---

### `問題 4.3.5` 構造体列の展開

4.3.4の`df_titanic_struct`を次の条件で修正し、変数`ans`に代入してください。

* 列`PassengerInfo`を元の列`Age`と列`Fare`に展開する

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_titanic_struct.unnest("PassengerInfo")
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic_struct.unnest("PassengerInfo")
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .unnest()は、構造体列の各フィールドをトップレベルの列として展開します。
        これは、ネストされたデータをフラットな形式に戻す際に使用します。
    """))

---

### `問題 4.3.6` JSONから構造体

`df_json`を次の条件で修正し、変数`df_struct`に代入してください。

* JSON文字列の列`ItemJson`を、構造体に変換する
  * 列名を`ItemStruct`とする
  * 構造体の型として、変数`dtype`の値を用いる

**解答欄**

In [None]:
df_json = pl.DataFrame(
    {
        "OrderID": [101, 102, 103],
        "ItemJson": [
            '{"name": "Laptop", "price": 1200}',
            '{"name": "Mouse", "price": 25}',
            '{"name": "Keyboard", "price": 75}',
        ],
    }
)
dtype = pl.Struct([
    pl.Field("name", pl.Utf8),
    pl.Field("price", pl.Int64),
])

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_struct = df_json.with_columns(
    ItemStruct=col.ItemJson.str.json_decode(dtype),
)
df_struct
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_json.with_columns(
        ItemStruct=col.ItemJson.str.json_decode(dtype),
    )
    assert _ans.equals(df_struct)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: polars.Expr.str.json_decodeは、文字列型の列を効率的にパースし、pl.Struct 型の列に変換します。
        Structは、1つの列の中に複数のフィールド（この例では name と price）を持つことができる複合的なデータ型です。
        ans.schemaでスキーマを見ると、ItemStruct列がStruct型になっていることが確認できます。
    """))

---

### `問題 4.3.7` フィールド抽出

4.3.6の`df_struct`を次の条件で修正し、変数`ans`に代入してください。

* 列`ItemStruct`からnameを独立した列にする

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = df_struct.with_columns(
    col.ItemStruct.struct.field("name"),
)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_struct.with_columns(
        col.ItemStruct.struct.field("name"),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .struct.field("フィールド名")は、Struct型の中から指定したフィールドを抽出するための式（Expression）を返します。
        この方法は、.unnest()で一度すべてのフィールドを展開してから不要な列を削除するよりも、必要なデータだけを直接取り出すため効率的です。
    """))

---

## Section 4.4: 任意のPython関数の適用 (map_elements/map_rows/map_batches/map_groups) (Knocks 94-97)

Polarsは非常に豊富な式APIを提供していますが、時にはPolarsの組み込み関数だけでは表現できないことがあります。その場合は下記のメソッドが使えます。

* `map_rows()`: DataFrameの行を単位として変換
* `map_batches()`: LazyFrameやExprで、データのかたまり（バッチ）を単位として変換
* `map_elements()`: SeriesやExprで、要素を単位として変換（⚠️ 低速なため注意）
* `map_groups()`: GroupByオブジェクトのグループを単位として変換

参考：https://qiita.com/SaitoTsutomu/items/1507f038f17679e86af8

### `問題 4.4.1` 要素ごとに関数を適用 (map_elements)

`_df`に下記の条件で列`Desc`を追加し、変数`ans`に代入してください。

* 列`Val`の各要素に対して、`f"value: {要素}"`とする

**解答欄**

In [None]:
_df = pl.DataFrame({"Val": [10, 21, 35]})

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _df.with_columns(
    Desc=col.Val.map_elements(lambda x: f"value: {x}", return_dtype=pl.Utf8),
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.with_columns(
        Desc=col.Val.map_elements(lambda x: f"value: {x}", return_dtype=pl.Utf8),
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .map_elements()は、Seriesの各要素に対してPython関数を適用します。
        Pythonのオーバーヘッドが要素ごとに発生するため、大規模なデータに対しては非常に遅くなる可能性があります。
    """))

---

### `問題 4.4.2` 行ごとに関数を適用 (map_rows)

`_df`を次の条件で修正し、変数`ans`に代入してください。

* 各行に関数`value`を適用した列だけにする
 * 列名をValとする

**解答欄**

In [None]:
_df = pl.DataFrame({"A": [1, 2, 3], "B": [4, 5, 6]})

def value(row: tuple[int, int]) -> int:
    return row[0] + 2 * row[1]

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _df.map_rows(value).rename({"map": "Val"})
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.map_rows(value).rename({"map": "Val"})
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .map_rows()は、DataFrameの各行をタプルとして受け取る関数を適用します。
        関数valueを使わずに_df.select(Val=col.A + 2 * col.B)と書く方が効率的です。
    """))

---

### `問題 4.4.3` バッチごとに関数を適用 (map_batches)

LazyFrame`_lf`に関数double_dfを適用し、列`Score`のみのDataFrameにして、変数`ans`に代入してください。

**解答欄**

In [None]:
import numpy as np
_lf = pl.LazyFrame({"Name": ["Alice", "Bob", "Carol"], "Score": [40, 32, 48]})

def double_df(df: pl.DataFrame)->pl.DataFrame:
    return 2 * df

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _lf.map_batches(double_df).select(col.Score).collect()
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _lf.map_batches(double_df).select(col.Score).collect()
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: LazyFrame.map_batches()は、バッチに分割されたDataFrameを関数に適用します。
    """))

---

### `問題 4.4.4` グループごとに関数を適用 (map_groups)

`_df`を列`Group`でグループ化し、グループごとに関数max_rowを適用し、変数ansに代入してください。

**解答欄**

In [None]:
_df = pl.DataFrame({
    "Group": ["a", "a", "b", "b", "a"],
    "Val": [1, 3, 2, 5, 4],
})
def max_row(df: pl.DataFrame)->pl.DataFrame:
    return df.max()

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _df.group_by("Group", maintain_order=True).map_groups(max_row)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.group_by("Group", maintain_order=True).map_groups(max_row)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .map_groups()は、group_byの後に使い、各グループを一つのDataFrameとして受け取る関数を適用します。
    """))

---

# Part 5: Polarsエコシステムと総合演習 (Knocks 98-109)

最終パートでは、Polarsを他のデータサイエンスツールと連携させる方法を学び、これまでに習得したスキルを組み合わせる総合的な課題に挑戦します。

## Section 5.1: PandasとArrowとの相互運用性 (Knocks 98-101)


### `問題 5.1.1` Pandasに変換

4.1.1の`df_titanic`をPandasのDataFrameに変換し、変数`df_pandas`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_pandas = df_titanic.to_pandas()
df_pandas[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.to_pandas()
    assert _ans.equals(df_pandas)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .to_pandas()メソッドは、PolarsのDataFrameをPandasのDataFrameに変換します。この際、データのコピーが発生します。
        Polarsのnull値は、数値列ではNaNに、オブジェクト列ではNoneに変換される点に注意が必要です。
    """))

---

### `問題 5.1.2` PandasからPolars

5.1.1の`df_pandas`をPolarsのDataFrameに変換し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = pl.from_pandas(df_pandas)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.from_pandas(df_pandas)
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.from_pandas()は、PandasのDataFrameからPolarsのDataFrameを作成します。
        Pandasのインデックスはデフォルトでは無視されます。
        インデックスを列として保持したい場合は、事前にpandas_df.reset_index()を実行するか、include_index=True引数を使用します。
    """))

---

### `問題 5.1.3` Apache Arrow Tableに変換

5.1.1の`df_titanic`をApache Arrow Tableに変換し、変数`df_arrow`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_arrow = df_titanic.to_arrow()
df_arrow
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_titanic.to_arrow()
    assert _ans.equals(df_arrow)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: .to_arrow()は、PolarsのDataFrameをApache ArrowのTableに変換します。
        Polarsは内部でArrowのメモリフォーマットを使用しているため、この変換は多くの場合ゼロコピー（データのコピーを伴わない）で行われ、非常に高速です。
        ただし、Categorical型など一部のデータ型ではコピーが発生します。
    """))

---

### `問題 5.1.4` Apache Arrow TableからPolars

5.1.3の`df_arrow`をPolarsのDataFrameに変換し、変数`ans`に代入してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = pl.from_arrow(df_arrow)
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    assert df_titanic.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.from_arrow()も同様に、多くの場合ゼロコピーで変換を実行できます。
        Arrowは多くのデータサイエンスツールで標準的なインメモリフォーマットとして採用されており、これを利用することでエコシステム内のツール間で効率的にデータを交換できます。
    """))

---

## Section 5.2: SQLインターフェース (SQLContext) (Knocks 102-105)

Polarsは、SQLを使ってDataFrameを操作するための強力なインターフェースを提供します。


### `問題 5.2.1` SQLContextにテーブル登録

5.1.1の`df_titanic`のLazyDataFrameをSQLContext(`ctx`)にtitanicという名前で登録してください。

**解答欄**

In [None]:
ctx = pl.SQLContext()
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ctx.register("titanic", df_titanic.lazy())
ctx.tables()
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    assert ctx.tables() == ["titanic"]
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.SQLContext()でSQL実行コンテキストを作成し、.register()メソッドでDataFrameやLazyFrameをテーブルとして登録します。
        テーブル名をキー、フレームを値とする辞書をコンテキストの初期化時に渡すこともできます。
    """))

---

### `問題 5.2.2` SQLクエリの実行

`ctx`から次の要件でDataFrameを作成し、変数`ans`に代入してください。

* 登録した'titanic'テーブルから、30歳以上の男性乗客をPclassの昇順で選択するSQLクエリを実行する

**解答欄**

In [None]:
ctx = pl.SQLContext()
ctx.register("titanic", df_titanic)

_query = """
SELECT Name, Age, Pclass
FROM titanic
WHERE Age >= 30 AND Sex = 'male'
ORDER BY Pclass
"""
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = ctx.execute(_query).collect()
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = ctx.execute(_query).collect()
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: ctx.execute()はSQLクエリ文字列を受け取り、LazyFrameを返します。
        結果をDataFrameとして得るには.collect()を呼び出します。eager=Trueを指定すると直接DataFrameが返されます。
    """))

---

### `問題 5.2.3` DataFrameに直接SQL実行

次の要件でDataFrameを作成し、変数`ans`に代入してください。

* グローバルスコープにあるDataFrameに対して pl.sql()を使って直接クエリを実行する

**解答欄**

In [None]:
_query = "SELECT COUNT(*) as num_passengers FROM df_titanic"

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = pl.sql(_query).collect()
ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.sql(_query).collect()
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: pl.sql()は、現在のグローバルスコープ（Jupyter Notebookのセルなど）にあるDataFrameやLazyFrameを自動的にテーブルとして認識し、クエリを実行する便利な関数です。
        PandasやArrowのオブジェクトもクエリ対象にできます。
    """))

---

### `問題 5.2.4` SQLでテーブル作成

5.2.1の`ctx`から次の要件でDataFrameを作成し、変数`ans`に代入してください。

* 登録した'titanic'テーブルから、30歳以上の男性乗客をPclassの昇順で選択するSQLクエリを実行する

**解答欄**

In [None]:
_query = "CREATE TABLE survivors AS SELECT * FROM titanic WHERE Survived = 1"

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = ctx.execute(_query).collect()
print(ans)
ctx.tables()
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = ctx.execute(_query).collect()
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: CREATE TABLE AS SELECT...構文をサポートしており、SQLクエリの結果を新しいテーブルとしてコンテキストに登録できます。
        これにより、複雑なデータ準備パイプラインをSQLで記述することが可能になります。
    """))

---

## Section 5.3: グラフ (Knocks 106-107)

Polarsでは、DataFrame.plotを通して、`bar`、`line`、`scatter`でグラフを描画できます。

https://docs.pola.rs/user-guide/misc/visualization/


### `問題 5.3.1` 折れ線グラフ

`_df`を使って次の要件で折れ線グラフを作成し、変数`ans`に代入してください。

* X軸は列`Name`
* Y軸は列`Score`
* Y軸のラベルは`得点`
* 列`Subject`ごとに線を引くこと

**解答欄**

In [None]:
import altair as alt

_df = pl.DataFrame({
    "Name": ["A", "A", "B", "B", "C", "C"],
    "Subject": ["Math", "Music", "Math", "Music", "Math", "Music"],
    "Score": [85, 90, 94, 88, 80, 93],
})
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _df.plot.line(
    x="Name",
    y=alt.Y("Score", title="得点"),
    color="Subject",
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.plot.line(
        x="Name",
        y=alt.Y("Score", title="得点"),
        color="Subject",
    )
    assert _ans._kwds["encoding"] == ans._kwds["encoding"]
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 折れ線グラフは、plot.lineで、棒グラフはplot.barで描画できます。
    """))

---

### `問題 5.3.2` 散布図

`_df`を使って次の要件で散布図を作成し、変数`ans`に代入してください。

* X軸は列`Math`
* Y軸は列`Music`
* タイトルは`2教科の関係`

**解答欄**

In [None]:
import altair as alt

_df = pl.DataFrame({
    "Math": [33, 21, 42],
    "Music": [23, 34, 26],
})
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ans = _df.plot.scatter(
    x="Math",
    y="Music",
).properties(
    title="2教科の関係",
)
ans
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.plot.scatter(
        x="Math",
        y="Music",
    ).properties(
        title="2教科の関係",
    )
    assert _ans._kwds["encoding"] == ans._kwds["encoding"]
    assert _ans._kwds["title"] == ans._kwds["title"]
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")
    print(dedent("""\
        解説: 散布図は、plot.scatterで描画できます。
        これはaltair.Chartオブジェクトなので、propertiesで属性を設定できます。
    """))

---

## Section 5.4: 総合演習 (Knocks 108-109)


### `問題 5.4.1` 時系列異常検知

この演習では、NYC Weatherデータセットを使い、これまでに学んだ複数のスキルを組み合わせて、気温の異常値を検出します。

`_df`を元に、下記の処理の最終結果を、変数`ans`に代入してください。

1. 列`DATE`をdate型に変更する
2. 月ごとに、日次の最高気温(TMAX)の平均(MonthlyAvgTMAX)と標準偏差(MonthlyStdTMAX)を計算する
3. 最高気温が、その月の平均から標準偏差の2倍以上離れている日を「異常日(IsAnomaly)」とする
4. 異常日だけ抽出し日付順にソートする

最初の3行が下記のようになること。

| DATE       | PRCP | SNOW | SNWD | TMIN | TMAX | MonthlyAvgTMAX | MonthlyStdTMAX | IsAnomaly |
|:-----------|-----:|-----:|:-----|-----:|-----:|---------------:|---------------:|:----------|
| 1869-02-13 |    0 |    0 | null |   40 |   61 |      39.674638 |      10.025825 |      true |
| 1869-12-01 | 0.07 |    0 | null |   33 |   62 |      41.974644 |        9.87885 |      true |
| 1871-04-08 |    0 |    0 | null |   46 |   85 |       59.43658 |      10.327611 |      true |

**解答欄**

In [None]:
_file = "../data/NYC_Central_Park_weather_1869-2022.csv"
_df = pl.scan_csv(_file)

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
# 1. 列`DATE`をdate型に変更
_tmp = _df.with_columns(col.DATE.str.to_date())

# 2. 月ごとの最高気温(TMAX)の平均と標準偏差の計算
_tmp = _tmp.with_columns(
    MonthlyAvgTMAX=col.TMAX.mean().over(col.DATE.dt.month()),
    MonthlyStdTMAX=col.TMAX.std().over(col.DATE.dt.month()),
)

# 3. 最高気温が月平均から標準偏差の2倍以上を異常日
_tmp = _tmp.with_columns(
    IsAnomaly=col.TMAX > col.MonthlyAvgTMAX + 2 * col.MonthlyStdTMAX,
)

# 4. 異常日のを抽出してソート
ans = _tmp.filter(col.IsAnomaly).sort("DATE").collect()

ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        _df.with_columns(col.DATE.str.to_date())
        .with_columns(
            MonthlyAvgTMAX=col.TMAX.mean().over(col.DATE.dt.month()),
            MonthlyStdTMAX=col.TMAX.std().over(col.DATE.dt.month()),
        )
        .with_columns(
            IsAnomaly=col.MonthlyAvgTMAX + 2 * col.MonthlyStdTMAX < col.TMAX,
        )
        .filter(col.IsAnomaly).sort("DATE").collect()
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題 5.4.2` 顧客のRFM分析

この最終演習では、Online Retailデータセットを用いて、顧客セグメンテーションの一般的な手法であるRFM（Recency, Frequency, Monetary）分析を行います。これは、データクリーニング、時系列処理、複雑な集計など、多くのスキルを統合する実践的な課題です。

`_df`を元に、各顧客についてRFM指標を計算し、最終結果を変数`ans`に代入してください。

**手順**

1. データクリーニング
  * InvoiceDateをdatetime型に変換(`format="%m/%d/%y %H:%M"`)
  * Quantity > 0、UnitPrice > 0、CustomerIDが欠損以外でフィルタリング

2. RFM指標を計算
  * CustomerIDでグループ化し以下を修正
    * 列`Recency`として、「グループ化前のInvoiceDateの最大値」からInvoiceDateの最大値を引いた日数+1
    * 列`Frequency`として、InvoiceNoのユニーク数
    * 列`Monetary`として、(Quantity * UnitPrice)の合計

3. 列`Monetary`で降順に、列`CustomerID`で昇順にソート

最初の3行が下記のようになること。

| CustomerID | Recency | Frequency |  Monetary |
|-----------:|--------:|----------:|----------:|
|      14646 |       7 |        29 | 121973.65 |
|      18102 |      12 |        20 | 106601.55 |
|      12346 |     160 |         1 |   77183.6 |

**解答欄**

In [None]:
_file = "../data/online_retail.parquet"
_df = pl.scan_parquet(_file)

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
# 1. データクリーニング
_tmp = _df.with_columns(
    col.InvoiceDate.str.to_datetime(format="%m/%d/%y %H:%M"),
).filter(
    col.Quantity > 0,
    col.UnitPrice > 0,
    col.CustomerID.is_not_null(),
)

# 2. RFM指標を計算
_tmp = (
    _tmp.with_columns(
        Recency=(
            col.InvoiceDate.max() - col.InvoiceDate.max().over("CustomerID")
        ).dt.total_days() + 1,
    )
    .group_by("CustomerID")
    .agg(
        col.Recency.first(),
        Frequency=col.InvoiceNo.n_unique(),
        Monetary=(col.Quantity * col.UnitPrice).sum(),
    )
)

# 3. 列`Monetary`で降順に、列`CustomerID`で昇順にソート
ans = _tmp.sort(["Monetary", "CustomerID"], descending=[True, False]).collect()

ans[:3]
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        pl.scan_parquet(_file).with_columns(
            col.InvoiceDate.str.to_datetime(format="%m/%d/%y %H:%M")
        ).filter(
            col.Quantity > 0, col.UnitPrice > 0, col.CustomerID.is_not_null()
        ).with_columns(
            Recency=(
                col.InvoiceDate.max() - col.InvoiceDate.max().over("CustomerID")
            ).dt.total_days() + 1,
        ).group_by("CustomerID").agg(
            col.Recency.first(),
            Frequency=col.InvoiceNo.n_unique(),
            Monetary=(col.Quantity * col.UnitPrice).sum(),
        ).sort(["Monetary", "CustomerID"], descending=[True, False]).collect()
    )
    assert _ans.equals(ans)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

# おわりに

この「Polars 100+ノック」を通じて、Polarsの基本的なデータ構造から、その真価を発揮する強力な式API、そしてパフォーマンスを極限まで高める遅延実行とクエリ最適化まで、幅広い機能を体系的に学習しました。  
基本的なデータ操作から始まり、時系列分析、複雑な結合、ネストされたデータの処理、さらにはSQLや他のライブラリとの連携に至るまで、実践的な演習を通してPolarsの思想と使い方を深く理解できたはずです。

Polarsは単に「速いPandas」ではありません。それは、現代のハードウェアとデータ形式を前提に、ゼロから設計された次世代のデータ操作ツールです。一貫性のあるAPI、表現力豊かな式、そして自動的なクエリ最適化は、よりクリーンで、より高速で、よりスケーラブルなデータ分析パイプラインの構築を可能にします。

この100+ノックは、あなたのPolars学習の旅の始まりに過ぎません。ここで得た知識とスキルを土台として、日々の業務でPolarsを積極的に活用し、その驚異的なパフォーマンスと生産性をぜひ体感してください。  
Polarsのコミュニティは活発であり、ライブラリは日々進化しています。公式ドキュメントやコミュニティのリソースを活用し、常に最新の情報を追い続けることで、データ処理のエキスパートとしての能力をさらに高めていくことができるでしょう。
