# Polars入門

## はじめに

これはPolars 1.16.0学習用の教材です。

https://polars-ja.github.io/docs-ja/

※ 「データサイエンティスト協会スキル定義委員」の「データサイエンス100本ノック（構造化データ加工編）」を参考にしています。

**学習手順**

* 青いセルの説明を読む
* 白いセルに問題の解答を書く
* 黄色いセルを実行して確認する

セル内でしか使わない変数は、`_`で始まります。

## 基礎知識

**特徴**

* 高速性: Rustで実装されており、並列処理を活用して非常に高速なデータ処理を実現
* メモリ効率: 列指向のストレージ形式を採用しており、大量のデータを効率的に扱える
* 直感的なAPI: 意図した方法でクエリを書ける

**インストール**

```
pip install polars
```

**インポート**

```python
import polars as pl
import polars.selectors as cs
```

polarsモジュールを使ってDataFrameを作成したり、式を作成したりします。
polars.selectorsは、列の選択などに使います。

**主な型**

* pl.DataFrame
* pl.Series
* 要素の型
  * pl.Int8, pl.Int16, pl.Int32, pl.Int32: 整数
  * pl.Float32, pl.Float64: 実数
  * pl.Utf8: 文字列（pl.Stringの別名）
  * pl.Date, pl.Datetime, pl.Duration: 日付や日時や時間間隔
  * 文字列はstr属性、日付や日時や時間間隔はdt属性が使える

※ pandasと違い、DataFrameはインデックスを持ちません。


---

### `問題A10`

polarsとpolars.selectorsをそれぞれ、`pl`と`cs`としてインポートしてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
import polars as pl
import polars.selectors as cs
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    pl.col
    cs.matches
except NameError:
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの作成

pandasのように列名をキーとする辞書から作成できます。

```python
df_store = pl.DataFrame(
    {
        "cd": ["001", "002"],
        "name": ["新宿店", "渋谷店"],
    }
)
```

**CSVの読み込み**

`read_csv()`でCSVファイルを読み込めます。

```python
df_category = pl.read_csv(ファイル名, オプション)
```

**主なオプション**

* `schema`: 全ての列について、型を辞書で指定
* `schema_overrides`: 一部の列について、型を辞書で指定
* `encoding`: エンコーディングの指定

**DataFrmaeの確認**

`head(n)`で先頭`n`行を確認できます（`n`を省略すると5になります）。
次のようにスライスも使えます。

```python
df_category.head(3)
df_category[:3]  # df_category.head(3)と同じ
```

<div style="background: white;"><small>shape: (3, 6)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>category_<br>major_cd</th><th>category_<br>major_name</th><th>category_<br>medium_cd</th><th>category_<br>medium_name</th><th>category_<br>small_cd</th><th>category_<br>small_name</th></tr>
<tr><td>i64</td><td>str</td><td>i64</td><td>str</td><td>i64</td><td>str</td></tr>
</thead><tbody>
<tr><td>4</td><td>&quot;惣菜&quot;</td><td>401</td><td>&quot;御飯類&quot;</td><td>40101</td><td>&quot;弁当類&quot;</td></tr>
<tr><td>4</td><td>&quot;惣菜&quot;</td><td>401</td><td>&quot;御飯類&quot;</td><td>40102</td><td>&quot;寿司類&quot;</td></tr>
<tr><td>4</td><td>&quot;惣菜&quot;</td><td>402</td><td>&quot;佃煮類&quot;</td><td>40201</td><td>&quot;魚介佃煮類&quot;</td></tr>
</tbody></table></div>


---

### `問題B10`

辞書`_data`からDataFrameを作成し、`df`に代入してください。

**解答欄**

In [None]:
_data = {"id": ["001", "002"], "name": ["大野", "六角"]}

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = pl.DataFrame(_data)
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.DataFrame(_data)
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題B12`

ファイル`_file`からCSVを読み込み、`df`に代入してください。
`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
_file = "../data/receipt.csv"

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = pl.read_csv(_file)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
import polars as pl
try:
    _ans = pl.read_csv(_file)
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題B14`

次の条件で、ファイル`_file`からCSVを読み込み、`df_receipt`に代入してください。
* `schema_overrides`に`schema`を指定
* `encoding`に`encoding`を指定

`df_receipt`の先頭の3行を表示してください。

**解答欄**

In [None]:
_file = "../data/receipt.csv"
schema = {"sales_ymd": pl.Int64, "store_cd": pl.Utf8}
encoding = "utf-8"

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_receipt = pl.read_csv(_file, schema_overrides=schema, encoding=encoding)
df_receipt.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.read_csv(_file, schema_overrides=schema, encoding=encoding)
    assert _ans.equals(df_receipt)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    print("解答例を確認してください")
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの列の選択・追加・更新

DataFrameから列を選択するには、`select()`に選択する列を指定します。

```python
df_receipt.select("sales_ymd", "store_cd")
```

<div style="background: white;"><small>shape: (104_681, 2)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>store_cd</th></tr><tr><td>i64</td><td>str</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&quot;S14006&quot;</td></tr>
<tr><td>20181118</td><td>&quot;S13008&quot;</td></tr>
<tr><td>20170712</td><td>&quot;S14028&quot;</td></tr>
<tr><td colspan="2">以下略</td></tr>
</tbody></table></div>

引数には、列名だけでなく**エクスプレッション**を指定できます。
列を表すエクスプレッションは、次のように`pl.col(列名)`と書きます。

```python
df_receipt.select(pl.col("sales_ymd"), pl.col("store_cd"))
```

エクスプレッションは、pl.Expr型のオブジェクトです。以降では**式**と呼ぶことにします。

式を使うことで、さまざまな処理を記述できます。

たとえば、`alias(列名)`を使うと列名を変更できます。

```python
df_receipt.select(pl.col("sales_ymd").alias("date"), pl.col("store_cd").alias("cd"))
```

<div style="background: white;"><small>shape: (104_681, 2)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>date</th><th>cd</th></tr>
<tr><td>i64</td><td>str</td></tr>
</thead><tbody>
<tr><td colspan="2">以下略</td></tr>
</tbody></table></div>

式は、DataFrameと独立に作成できます。DataFrameの列そのものではなく、列に対する処理と考えてください。

以降では、次のように変数`col`に列の式が入っているとします（後で作成します）。

```python
col.sales_ymd = pl.col("sales_ymd")
col.store_cd = pl.col("store_cd")
df_receipt.select(col.sales_ymd.alias("date"), col.store_cd.alias("cd"))
```

**列の追加・更新**

次のように、列を追加できます。

* 既存の列を残して追加する場合: `with_columns()`を使う
* 一部の列を選択して追加する場合: `select()`を使う

引数には式などを指定します。

なお、同名の列がある場合には、追加ではなく更新になります。

`df_receipt`の先頭3行に、列`id`として通し番号を追加するには、次のようにします。
`pl.Series()`は実データなので、式ではありませんが指定できます。
元の9列から10列に増えています。

```python
df_receipt.head(3).with_columns(pl.Series(name="id", values=[0, 1, 2]))
```

<div style="background: white;"><small>shape: (3, 10)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>&hellip;</th><th>amount</th><th>id</th></tr>
<tr><td>i64</td><td>&hellip;</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&hellip;</td><td>158</td><td>0</td></tr>
<tr><td>20181118</td><td>&hellip;</td><td>81</td><td>1</td></tr>
<tr><td>20170712</td><td>&hellip;</td><td>170</td><td>2</td></tr>
</tbody></table></div>

※ `with_row_index()`を使うとより簡単に記述できます。

<br>

式は、さまざまな演算ができます。たとえば、8桁の`col.sales_ymd`の上4桁を取得するには、`col.sales_ymd // 10000`とします。
`col.sales_ymd`は、先程`pl.col("sales_ymd")`と定義したものです。

`df_receipt`の先頭3行に、列`year`として`col.sales_ymd`の上4桁を追加するには、次のようにします。

```python
df_receipt.head(3).with_columns((col.sales_ymd // 10000).alias("year"))
```

<div style="background: white;"><small>shape: (3, 10)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>&hellip;</th><th>amount</th><th>year</th></tr>
<tr><td>i64</td><td>&hellip;</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&hellip;</td><td>158</td><td>2018</td></tr>
<tr><td>20181118</td><td>&hellip;</td><td>81</td><td>2018</td></tr>
<tr><td>20170712</td><td>&hellip;</td><td>170</td><td>2017</td></tr>
</tbody></table></div>

列はいくつでも追加できます。

また、`alias()`の代わりにキーワード引数も使えます。

```python
df_receipt.head(3).with_columns(
    year=col.sales_ymd // 10000,
    month=col.sales_ymd // 100 % 100,
    day=col.sales_ymd % 100,
)
```

<div style="background: white;"><small>shape: (3, 12)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>&hellip;</th><th>year</th><th>month</th><th>day</th></tr>
<tr><td>i64</td><td>&hellip;</td><td>i64</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&hellip;</td><td>2018</td><td>11</td><td>3</td></tr>
<tr><td>20181118</td><td>&hellip;</td><td>2018</td><td>11</td><td>18</td></tr>
<tr><td>20170712</td><td>&hellip;</td><td>2017</td><td>7</td><td>12</td></tr>
</tbody></table></div>

`select()`を使うと指定した列だけになります。次のようにすると4列になります。

```python
df_receipt.head(3).select(
    col.sales_ymd,
    year=col.sales_ymd // 10000,
    month=col.sales_ymd // 100 % 100,
    day=col.sales_ymd % 100,
)
```

<div style="background: white;"><small>shape: (3, 4)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>year</th><th>month</th><th>day</th></tr>
<tr><td>i64</td><td>i64</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>2018</td><td>11</td><td>3</td></tr>
<tr><td>20181118</td><td>2018</td><td>11</td><td>18</td></tr>
<tr><td>20170712</td><td>2017</td><td>7</td><td>12</td></tr>
</tbody></table></div>


---

## 【重要】問題で使うDataFrameとExprの準備

次のDataFrameを作成します。これらは、以降の問題で使います。

* `df_customer`
* `df_category`
* `df_product`
* `df_receipt`
* `df_store`
* `df_geocode`

また、これらのDataFrameの**全列の式**を次のように変数`col`からアクセスできるようにします。

```python
col.sales_ymd = pl.col("sales_ymd")
```

これにより、**`pl.col("sales_ymd")`の代わりに`col.sales_ymd`が使えます**。

途中の問題から始める場合も次のセルを実行してください。

In [None]:
# このセルを実行してください
import datetime
import keyword
import numpy as np
import polars as pl
import polars.selectors as cs
from polars.testing import assert_frame_equal
from IPython.display import Markdown

_cs = ["customer_id", "gender_cd", "postal_cd", "application_store_cd", "status_cd"]
_cs += ["category_major_cd", "category_medium_cd", "category_small_cd", "product_cd"]
_cs += ["store_cd", "prefecture_cd", "tel_no", "street", "application_date"]
schema = pl.Schema({"birth_day": pl.Date, **{c: pl.Utf8 for c in _cs}})
kwargs = {"schema_overrides": schema, "encoding": "utf-8-sig"}
df_customer = pl.read_csv("../data/customer.csv", **kwargs)
df_category = pl.read_csv("../data/category.csv", **kwargs)
df_product = pl.read_csv("../data/product.csv", **kwargs)
df_receipt = pl.read_csv("../data/receipt.csv", **kwargs)
df_store = pl.read_csv("../data/store.csv", **kwargs)
df_geocode = pl.read_csv("../data/geocode.csv", **kwargs)

class Col:
    @classmethod
    def from_dataframes(cls, *dfs: pl.DataFrame):
        col = cls()
        for df in dfs:
            for column in df.columns:
                if keyword.iskeyword(column):
                    name = "_" + column
                else:
                    name = re.sub(r"\W|^(?=\d)", "_", column)
                setattr(col, name, pl.col(name))
        return col

# 列名にアクセスする変数を作成
col = Col.from_dataframes(df_customer, df_category, df_product, df_receipt, df_store, df_geocode)

print(f"{pl.__version__ = }")

---

### `問題C10`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 売上年月日（`sales_ymd`）
* 顧客ID（`customer_id`）
* 商品コード（`product_cd`）
* 売上金額（`amount`）

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = df_receipt.select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題C12`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 売上年月日（`sales_ymd`）: 列名を`sales_date`に変更すること
* 顧客ID（`customer_id`）
* 商品コード（`product_cd`）
* 売上金額（`amount`）

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.sales_ymd.alias("sales_date"),
    col.customer_id,
    col.product_cd,
    col.amount,
)
df.head(3)
```
第2引数以降が位置引数のため、第1引数に`sales_date=col.sales_ymd`とキーワード引数を書けません。そのため、`alias()`で列名を変更します。

**別解**
```python
df = df_receipt.select(col.sales_ymd, col.customer_id, col.product_cd, col.amount).rename(
    {"sales_ymd": "sales_date"}
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.sales_ymd.alias("sales_date"),
    col.customer_id,
    col.product_cd,
    col.amount,
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題C14`

商品データ（`df_product`）に次の列を追加し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 単価（`unit_price`）から税込み金額を計算し、列名を`tax_price`とすること
  * 消費税率を10％とすること
  * 1円未満は切り捨て

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.with_columns(tax_price=(col.unit_price * 1.1).floor())
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.with_columns(tax_price=(col.unit_price * 1.1).floor())
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題C16`

商品データ（`df_product`）に次の列を追加し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 単価（`unit_price`）と原価（`unit_cost`）から各商品の利益額を計算し、列名を`unit_profit`とすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.with_columns(unit_profit=col.unit_price - col.unit_cost)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.with_columns(unit_profit=col.unit_price - col.unit_cost)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題C18`

商品データ（`df_product`）に次の列を追加し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 原価（`unit_cost`）から利益率が30%となる新たな単価を計算し、列名を`new_price`とすること
  * 1円未満は切り捨て
* `new_price`の利益率を計算し、列名を`new_profit_rate`とすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.with_columns(new_price=col.unit_cost // 0.7).with_columns(
    new_profit_rate=1 - col.unit_cost / pl.col("new_price")
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.with_columns(new_price=col.unit_cost // 0.7).with_columns(
    new_profit_rate=1 - col.unit_cost / pl.col("new_price")
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの行の抽出

DataFrameから行を抽出するには、次のように`filter()`を使います。

```python
df_receipt.filter(col.store_cd == "S13002")
```

複数の条件を組み合わせるには次のようにビット演算子を使います。また、複数条件をカンマで書くとANDになります。

```python
df_receipt.filter((col.store_cd == "S13002") & (col.amount >= 100))
または
df_receipt.filter(col.store_cd == "S13002", col.amount >= 100)
```

また、値がある範囲に入るかどうかは次のようにします。デフォルトでは両端の値も含みます。

```python
df_receipt.filter(col.amount.is_between(200, 400))
```

文字列の列に対しては、次のように`str`属性を使って条件を書けます。

* `str.starts_with()`: 指定の文字列で始まるか
* `str.ends_with()`: 指定の文字列で終わるか
* `str.contains()`: 指定した正規表現の文字列を含むか

行の抽出と列の選択をしたい場合には、次のようにします。

```python
df_receipt.filter(col.amount >= 100).select(col.amount)
```
&emsp;&emsp;または
```python
df_receipt.select(col.amount).filter(col.amount >= 100)
```

どちらも同じ結果になります。


---

### `問題D10`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 顧客ID（`customer_id`）が`"CS018205000001"`を抽出
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(col.customer_id == "CS018205000001").select(
    col.sales_ymd, col.customer_id, col.product_cd, col.amount
)
df.head(3)
```
このようにメソッドをつなげることをメソッドチェーンといいます。

Polarsは、DataFrameのメソッドチェーンと、列のメソッドチェーンを同時に書けるので、柔軟に処理できます。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(col.customer_id == "CS018205000001").select(
    col.sales_ymd, col.customer_id, col.product_cd, col.amount
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D12`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 以下の条件をANDで抽出
    * 顧客ID（`customer_id`）が`"CS018205000001"`
    * 売上金額（`amount`）が`1000`以上
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount >= 1000)
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df.head(3)
```
複数の条件に対し、ビット演算子（`&`、`|`、`^`、`~`）が使えます。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount >= 1000)
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D14`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 以下の条件をANDで抽出
    * 顧客ID（`customer_id`）が`"CS018205000001"`
    * 売上金額（`amount`）が`1000`以上、または、売上数量（`quantity`）が`5`以上
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(
    (col.customer_id == "CS018205000001")
    & ((col.amount >= 1000) | (col.quantity >= 5))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(
    (col.customer_id == "CS018205000001")
    & ((col.amount >= 1000) | (col.quantity >= 5))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D16`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`を表示してください。

* 以下の条件をANDで抽出
    * 顧客ID（`customer_id`）が`"CS018205000001"`
    * 売上金額（`amount`）が`1000`以上`2000`以下
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount.is_between(1000, 2000))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount.is_between(1000, 2000))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D18`

店舗データ（`df_store`）から、店舗コード（`store_cd`）が`"S14"`で始まるものだけ全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_store.filter(col.store_cd.str.starts_with("S14"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.filter(col.store_cd.str.starts_with("S14"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D20`

顧客データ（`df_customer`）から顧客ID（`customer_id`）の末尾が`1`のものだけ全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.filter(col.customer_id.str.ends_with("1"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.filter(col.customer_id.str.ends_with("1"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D22`

店舗データ（`df_store`）から、住所 (`address`) に`"横浜市"`が含まれるものだけ全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_store.filter(col.address.str.contains("横浜市"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.filter(col.address.str.contains("横浜市"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D24`

顧客データ（`df_customer`）から、ステータスコード（`status_cd`）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.filter(col.status_cd.str.contains("^[A-F]"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.filter(col.status_cd.str.contains("^[A-F]"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D26`

顧客データ（`df_customer`）から、ステータスコード（`status_cd`）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.filter(col.status_cd.str.contains("^[A-F].*[1-9]$"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.filter(col.status_cd.str.contains("^[A-F].*[1-9]$"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D28`

店舗データ（`df_store`）から、電話番号（`tel_no`）が`3桁-3桁-4桁`のデータを全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_store.filter(col.tel_no.str.contains(r"^\d{3}-\d{3}-\d{4}$"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.filter(col.tel_no.str.contains(r"^\d{3}-\d{3}-\d{4}$"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの属性とメソッド

**主な属性とメソッド**

* `height`: 行数
* `width`: 列数
* `shape`: 行数と列数
* `columns`: 列名のリスト
* `rows()`: 行（タプル）のリスト
* `sum()`: 列ごとの合計（非数値はnull）
* `n_unique(項目1, 項目2, ...)`: ユニーク数

※ 行数は`len(df)`でも取得できます。

※ 列内の要素数は、式の`count()`でできます。

※ `for`で各行を使うときは、`rows()`ではなく`iter_rows()`を使いましょう（ジェネレーターなので効率がよい）。

※ Polarsではnullとnanは区別されることに注意してください。

各列ごとにユニーク数を出すには、`df.select(pl.all().n_unique())`のようにします。`df.n_unique()`とすると、行としてのユニーク数になります。

**`unique()`**

次のようにして指定項目がユニークな行を抽出できます。項目は空や複数で指定できます。

```
df_store.unique(col.prefecture_cd)
```

**`describe()`**

次のようにして基本統計量を確認できます。

```python
df_store.sort(col.store_cd)
```

<div style="background: white;"><small>shape: (9, 11)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>statistic</th><th>store_cd</th><th>store_name</th><th>&hellip;</th><th>floor_area</th></tr>
<tr><td>str</td><td>str</td><td>str</td><td>&hellip;</td><td>f64</td></tr>
</thead><tbody>
<tr><td>&quot;count&quot;</td><td>&quot;53&quot;</td><td>&quot;53&quot;</td><td>&hellip;</td><td>53.0</td></tr>
<tr><td>&quot;null_count&quot;</td><td>&quot;0&quot;</td><td>&quot;0&quot;</td><td>&hellip;</td><td>0.0</td></tr>
<tr><td>&quot;mean&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>1273.433962</td></tr>
<tr><td>&quot;std&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>348.459164</td></tr>
<tr><td>&quot;min&quot;</td><td>&quot;S12007&quot;</td><td>&quot;三田店&quot;</td><td>&hellip;</td><td>801.0</td></tr>
<tr><td>&quot;25%&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>980.0</td></tr>
<tr><td>&quot;50%&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>1220.0</td></tr>
<tr><td>&quot;75%&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>1555.0</td></tr>
<tr><td>&quot;max&quot;</td><td>&quot;S14050&quot;</td><td>&quot;鷺宮店&quot;</td><td>&hellip;</td><td>1895.0</td></tr>
</tbody></table></div>

**`sort()`**

次のようにして指定した列で昇順にソートできます。

```python
df_store.describe()
```

<div style="background: white;"><small>shape: (53, 10)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>store_cd</th><th>store_name</th><th>&hellip;</th><th>floor_area</th></tr>
<tr><td>str</td><td>str</td><td>&hellip;</td><td>i64</td></tr>
</thead><tbody>
<tr><td>&quot;S12007&quot;</td><td>&quot;佐倉店&quot;</td><td>&hellip;</td><td>1895.0</td></tr>
<tr><td>&quot;S12013&quot;</td><td>&quot;習志野店&quot;</td><td>&hellip;</td><td>808.0</td></tr>
<tr><td>&quot;S12014&quot;</td><td>&quot;千草台店&quot;</td><td>&hellip;</td><td>1698.0</td></tr>
<tr><td colspan="4">以下略</td></tr>
</tbody></table></div>

* 降順にソートするには、`descending=True`をつける
* ソートのキーが同じ場合に元の順番を維持するには、`maintain_order=True`をつける
* 複数の項目を指定するには、位置引数を順番に書く
* 複数の項目ごとに、昇順と降順を切り替えるには、次のようにリストで指定する

```python
df_store.sort([col.prefecture_cd, col.store_cd], descending=[False, True])
```

※ 以降の問題では、**指定した場合は`maintain_order=True`をつけてください**。


---

### `問題E10`

顧客データ（`df_customer`）を生年月日（`birth_day`）で高齢順にソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

ソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.sort(col.birth_day, maintain_order=True)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.sort(col.birth_day, maintain_order=True)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題E12`

顧客データ（`df_customer`）を生年月日（`birth_day`）で若い順にソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

ソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.sort(col.birth_day, descending=True, maintain_order=True)
df.head(3)
```
若い順にするには、生年月日の降順にします。降順のときは、`descending=True`を指定します。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.sort(col.birth_day, descending=True, maintain_order=True)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題E14`

レシート明細データ（`df_receipt`）の件数を変数`n`に入れてください。そして、`n`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
n = df_receipt.height
n
```
<br>

**別解**

```python
n = len(df_receipt)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.height
try:
    assert _ans == n
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題E16`

レシート明細データ（`df_receipt`）の顧客ID（`customer_id`）のユニーク件数を変数`n`に入れてください。そして、`n`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
n = df_receipt.n_unique(col.customer_id)
n
```
<br>

**別解**
```python
n = df_receipt.select(col.customer_id).n_unique()
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.n_unique(col.customer_id)
try:
    assert _ans == n
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

## グルーピングと集約

DataFrameの列の値ごとにグルーピングして集約する場合は、次のようにします。

```python
df.group_by(キーとなる列).agg(集約する列)
```

たとえば、レシート明細データ（`df_receipt`）に対して、顧客ID（`customer_id`）ごとに売上金額（`amount`）を合計するには、次のようにします。

```python
df_receipt.group_by(col.customer_id).agg(col.amount.sum())
```

<div style="background: white;"><small>shape: (8_307, 2)</small>
<table border="1" style="margin-left: 0;"><thead>
<thead><tr><th>customer_id</th><th>amount</th></tr>
<tr><td>str</td><td>i64</td></tr>
</thead><tbody>
<tr><td>&quot;CS037315000083&quot;</td><td>328</td></tr>
<tr><td>&quot;CS002515000236&quot;</td><td>328</td></tr>
<tr><td>&quot;CS010415000132&quot;</td><td>5214</td></tr>
<tr><td colspan="2">以下略</td></tr>
</tbody></table></div>

**結果の行の順序**

結果の行の順序は実行ごとに変わる可能性があります。順序が変わらないようにするには、`group_by()`に`maintain_order=True`をつけてください。

グルーピング後にソートする場合でも、ソートのキーがユニークでなければ順序は保証されません。
たとえば、次の3つの結果は異なる可能性があります。

```python
df_receipt.group_by(col.customer_id).agg(
    col.amount.sum()
).sort(col.amount)

df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum()
).sort(col.amount)

df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum()
).sort(col.amount, maintain_order=True)
```

※ 以降の問題では、**指定した場合は`maintain_order=True`をつけてください**。

**複数指定**

キーとなる列や集約する列は、それぞれ複数指定できます。

たとえば次のようにすると、「顧客IDと店舗コード」ごとに「売上金額の合計と平均」を計算します。

```python
df_receipt.group_by(col.customer_id, col.store_cd, maintain_order=True).agg(
    col.amount.sum(), amount_mean=col.amount.mean()
)
```

<div style="background: white;">
<small>shape: (8_358, 4)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>customer_id</th><th>store_cd</th><th>amount</th><th>amount_mean</th></tr>
<tr><td>str</td><td>str</td><td>i64</td><td>f64</td></tr>
</thead><tbody>
<tr><td>&quot;CS006214000001&quot;</td><td>&quot;S14006&quot;</td><td>7364</td><td>334.727273</td></tr>
<tr><td>&quot;CS008415000097&quot;</td><td>&quot;S13008&quot;</td><td>1895</td><td>236.875</td></tr>
<tr><td>&quot;CS028414000014&quot;</td><td>&quot;S14028&quot;</td><td>6222</td><td>345.666667</td></tr>
<tr><td colspan="4">以下略</td></tr>
</tbody></table></div>

**他の集約方法**

列に指定する集約方法として次のようなメソッドがあります。

* `sum()`: 合計
* `mean()`: 平均
* `var(ddof=1)`: 分散
* `std(ddof=1)`: 標準偏差
* `max()`: 最大
* `min()`: 最小
* `median()`: 中央値
* `mode().mean()`: 最頻値
* `quantile(quantile)`: パーセンタイル
* `len()`: 要素数
* `n_unique()`: ユニーク数

※ `mode()`の結果はリストになるため、`mean()`で平均を取っています。


---

### `問題F10`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）と売上数量（`quantity`）を合計し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.sum(), col.quantity.sum()
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.sum(), col.quantity.sum()
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F12`

レシート明細データ（`df_receipt`）に対し、顧客ID（`customer_id`）ごとに最も新しい売上年月日（`sales_ymd`）を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.max()
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.max()
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F14`

レシート明細データ（`df_receipt`）に対し、顧客ID（`customer_id`）ごとに最も古い売上年月日（`sales_ymd`）を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.min()
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.min()
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F16`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の平均を計算し降順でソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

平均が一致することがあるため、グルーピング時に`maintain_order=True`をつけてください。
また、ソート時にも`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F18`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の中央値を計算し降順でソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時とソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.median())
    .sort(col.amount, descending=True, maintain_order=True)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.median())
    .sort(col.amount, descending=True, maintain_order=True)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F20`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の最頻値を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時とソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mode().mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
df
```
最頻値で集約するときは、`mode().mean()`を使いましょう。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mode().mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F22`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の分散を計算し降順でソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

`var()`の第1引数`ddof`はデフォルト値（`1`）のままにしてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.store_cd).agg(col.amount.var()).sort(
    col.amount, descending=True
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.store_cd).agg(col.amount.var()).sort(
    col.amount, descending=True
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F24`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の第1四分位を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.quantile(0.25)
)
df.head(3)
```
第1四分位は、25パーセンタイルです。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.quantile(0.25)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの結合

2つのDataFrameを結合するには、次のようにします。

```python
df1.join(df2, on=キーとなる列)
```

`on`の列は、どちらのDataFrameにも含まれていないといけません。また、`on`には複数の列を指定できます。

もし、別名の列をキーにしたい場合は、`left_on`と`right_on`を使います。

**結合方法**

`how`で結合方法を次の中から指定できます。

| `how`     | 名称         | 対象行              | 対象列 |
| :-------- | :----------- | :------------------ | :----- |
| `"inner"` | 内部結合     | 積集合              | 和集合 |
| `"left"`  | 左外部結合   | 左                  | 和集合 |
| `"right"` | 右外部結合   | 右                  | 和集合 |
| `"full"`  | 完全外部結合 | 和集合              | 和集合 |
| `"semi"`  | セミ結合     | 積集合              | 左     |
| `"anti"`  | アンチ結合   | 差集合（`左 - 右`） | 左     |
| `"cross"` | クロス結合   | 直積                | 和集合 |

デフォルトは`"inner"`です。`"inner"`、`"left"`、`"full"`、`"cross"`は覚えておきましょう。

`"cross"`以外は、`on`（または`left_on`と`right_on`）が必要です。

**`concat`**

複数のDataFrameを結合するには、次のようにします。

```python
pl.concat([df1, df2, ...])
```
`how`で結合方法を次の中から指定できます。

デフォルトは`vertical`で縦に結合します。`horizontal`で横に結合します。列名が異なる場合は、`diagonal`で結合できます。


---

### `問題G10`

レシート明細データ（`df_receipt`）と店舗データ（`df_store`）を次の条件で内部結合し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* キーは、店舗コード（`store_cd`）
* レシート明細データは全列
* 店舗データは全列

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.join(df_store, on=col.store_cd)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.join(df_store, on=col.store_cd)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G12`

商品データ（`df_product`）とカテゴリデータ（`df_category`）を次の条件で内部結合し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* キーは、カテゴリ小区分コード（`category_small_cd`）
* 商品データは全列
* カテゴリデータは、カテゴリ小区分コードとカテゴリ小区分名（`category_small_name`）のみ

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.join(
    df_category.select(col.category_small_cd, col.category_small_name),
    on=col.category_small_cd,
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.join(
    df_category.select(col.category_small_cd, col.category_small_name),
    on=col.category_small_cd,
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G14`

全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（`df_store`）と商品データ（`df_product`）を直積し、件数を変数`n`に入れてください。そして、`n`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
n = df_store.join(df_product, how="cross").height
n
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.join(df_product, how="cross").height
try:
    assert _ans == n
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G16`

レシート明細データ（`df_receipt`）と顧客データ（`df_customer`）を次の条件で内部結合し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* キーは、顧客ID（`customer_id`）
* レシート明細データは全列
* 顧客データは、顧客IDと顧客名（`customer_name`）のみ

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.join(
    df_customer.select(col.customer_id, col.customer_name), on=col.customer_id
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.join(
    df_customer.select(col.customer_id, col.customer_name), on=col.customer_id
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G18`

顧客データ（`df_customer`）から次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 以下の条件で作成したジオコードデータ（`df_geocode`）と、郵便番号（`postal_cd`）をキーとして結合すること
  * 郵便番号（`postal_cd`）ごとに以下を集約すること
    * 経度（longitude）の平均
    * 緯度（latitude）の平均
    * `maintain_order=True`をつけること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.join(
    df_geocode.group_by(col.postal_cd, maintain_order=True).agg(
        col.longitude.mean(), col.latitude.mean()
    ),
    on=col.postal_cd,
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.join(
    df_geocode.group_by(col.postal_cd, maintain_order=True).agg(
        col.longitude.mean(), col.latitude.mean()
    ),
    on=col.postal_cd,
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G20`

商品データ（`df_product`）の先頭2行と末尾2行を結合し、変数`df`に入れてください。そして、`df`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = pl.concat([df_product.head(2), df_product.tail(2)])
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = pl.concat([df_product.head(2), df_product.tail(2)])
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

## 時間に関連するデータの作成方法

時間の型は、pl.Datetime（日時）, pl.Date（日付）, pl.Time（時刻）, pl.Duration（時間間隔）があります。
これらは、**`dt`属性**を通して時間関連のメソッドが使えます。
また、関連するデータとして、pl.Utf8（文字列）、エポック（整数）、総秒数（整数）があります。
エポック（UNIX時間ともいいます）は、1970年1月1日からの形式的な経過時間です。単位は、秒やマイクロ秒などです。

**構成要素から作成**

`pl.datetime()`、`pl.date()`、`pl.time()`、`pl.duration()`に年月日時分秒などを指定して作成できます。

**CSVファイルから読み込み時に変換**

`pl.read_csv()`で、`schema`や`schema_overrides`を指定することで、CSVファイルからの読み込み時に日時、日付、時刻に変換できます。

**他のデータから作成**

他のデータから作成するには、次表などのようにできます。

| 作成するデータ | 変換元             | 方法                                             |
| :------------- | :----------------- | :----------------------------------------------- |
| `pl.Datetime`  | 文字列             | `str.to_datetime(書式)`                          |
| `pl.Datetime`  | エポックマイクロ秒 | `cast(pl.Datetime)`                              |
| `pl.Datetime`  | エポック秒         | `pl.from_epoch()`                                |
| `pl.Datetime`  | 日時や日付と時刻   | `dt.combine(時刻)`                               |
| `pl.Datetime`  | 日時と時間間隔     | 日時 + 時間間隔など                              |
| `pl.Date`      | 文字列             | `str.to_date(書式)`                              |
| `pl.Date`      | 日時               | `dt.date()`                                      |
| `pl.Date`      | 日付と時間間隔     | 日付 + 時間間隔など                              |
| `pl.Time`      | 文字列             | `str.to_time(書式)`                              |
| `pl.Time`      | 日時               | `dt.time()`                                      |
| `pl.Duration`  | 日時や日付         | 日時 - 日時、日付 - 日付<br>日時 - 日付など      |
| `pl.Duration`  | 時間間隔と時間間隔 | 時間間隔 + 時間間隔など                          |
| `pl.Duration`  | 時刻               | `cast(pl.Duration)`                              |
| `pl.Duration`  | 総マイクロ秒数     | `cast(pl.Duration)`                              |
| `pl.Utf8`      | 日時や日付や時刻   | `dt.to_string(書式)`                             |
| `エポック`     | 日時や日付         | `dt.epoch(単位)`<br>単位のデフォルトはマイクロ秒 |
| `総秒数`       | 時間間隔           | `dt.total_seconds()`                             |

**to_stringで使える書式**

https://docs.rs/chrono/latest/chrono/format/strftime/index.html

**指定した範囲のデータの作成**

指定した範囲のデータを作成するには、次のようにします。

| 作成するデータ     | 方法                  |
| :----------------- | :-------------------- |
| 指定した範囲の日時 | `pl.datetime_range()` |
| 指定した範囲の日付 | `pl.date_range()`     |
| 指定した範囲の時刻 | `pl.time_range()`     |

**タイムゾーンに関する変換**

基本的なタイムゾーンあり（aware）とタイムゾーンなし（naive）の変換は次のようになります。

* 同じタイムゾーン間で日時の変換は、時刻の値を変えずタイムゾーンのみを変更する`dt.replace_time_zone(対象TZ)`を使う
* 異なるタイムゾーン間でawareな日時の変換は、（UTC基準で同一時刻になるように）時刻の値を変える`dt.convert_time_zone(対象TZ)`を使う
* 文字列から日時への変換は、`str.to_datetime(対象TZ)`を使う
* 独自書式の文字列を扱うときは、`dt.to_string(書式)`や`str.to_datetime(書式)`を使う

詳細は次表のように変換できます。

| 作成するデータ | 変換元              | 方法                           |
| :------------- | :------------------ | :----------------------------- |
| naiveな日時    | awareな日時         | `cast(pl.Datetime)`            |
| naiveな日時    | naiveな文字列(同TZ) | `str.to_datetime()`            |
| awareな日時    | naiveな日時(同TZ)   | `dt.replace_time_zone(対象TZ)` |
| awareな日時    | naiveな日時(UTC)    | `dt.convert_time_zone(対象TZ)` |
| awareな日時    | awareな日時(異TZ)   | `dt.convert_time_zone(対象TZ)` |
| awareな日時    | naiveな文字列(同TZ) | `str.to_datetime(対象TZ)`      |
| awareな日時    | awareな文字列       | `str.to_datetime(対象TZ)`      |
| naiveな文字列  | naiveな日時(同TZ)   | `cast(pl.Utf8)`                |
| naiveな文字列  | awareな日時(同TZ)   | naiveな日時を経由              |
| awareな文字列  | awareな日時(同TZ)   | `cast(pl.Utf8)`                |
| awareな文字列  | naiveな文字列(同TZ) | `str.to_datetime(対象TZ)`      |
| fmtあり文字列  | 日時(同TZ)          | `dt.to_string(書式)`           |
| 日時           | fmtあり文字列(同TZ) | `str.to_datetime(書式)`        |

表の対象TZ（作成するデータのタイムゾーン）は、`"UTC"`や`"Asia/Tokyo"`などが使えます。
表にないケースは、awareな日時を経由してできないか検討してみてください。

また、`pl.read_csv()`の引数`schema`で`pl.Datatime(time_zone=...)`と指定することで、awareな日時として読み込めます。



---

### `問題H10`

顧客データ（`df_customer`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 顧客ID（`customer_id`）
* 申し込み日（`application_date`）
  * YYYYMMDD形式の文字列型を日付型に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.select(
    col.customer_id, col.application_date.str.to_date("%Y%m%d")
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.select(
    col.customer_id, col.application_date.str.to_date("%Y%m%d")
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H12`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上年月日（`sales_ymd`）
  * YYYYMMDD形式の整数型を日付型に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d"),
)
df.head(3)
```
`sales_ymd`はエポックではないので、`cast(pl.Datetime)`は使えません。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d"),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H14`

レシート明細データ（`df_receipt`）の売上年月日（`sales_ymd`）を日付型に変換し全列を、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.with_columns(
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d")
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.with_columns(
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d")
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H16`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上エポック秒（`sales_epoch`）
  * 数値型のUNIX時間（秒）を日付型に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    pl.from_epoch(col.sales_epoch).dt.date(),
)
df.head(3)
```
<br>

**別解**
```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    (col.sales_epoch * 1000000).cast(pl.Datetime).dt.date(),
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    pl.from_epoch(col.sales_epoch).dt.date(),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H18`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上エポック秒（`sales_epoch`）
  * 列名を`sales_year`とし、年に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_year=pl.from_epoch(col.sales_epoch).dt.year(),
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_year=pl.from_epoch(col.sales_epoch).dt.year(),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H20`

顧客データ（`df_customer`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 顧客ID（`customer_id`）
* 生年月日（`birth_day`）
  * YYYYMMDD形式の文字列に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.select(col.customer_id, col.birth_day.dt.to_string("%Y%m%d"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.select(col.customer_id, col.birth_day.dt.to_string("%Y%m%d"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H22`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上エポック秒（`sales_epoch`）
  * 列名を`sales_month`とし、**0埋めの2桁の月**に変換すること
* 売上エポック秒（`sales_epoch`）
  * 列名を`sales_day`とし、**0埋めの2桁の日**に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_month=pl.from_epoch(col.sales_epoch).dt.to_string("%m"),
    sales_day=pl.from_epoch(col.sales_epoch).dt.to_string("%d"),
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_month=pl.from_epoch(col.sales_epoch).dt.to_string("%m"),
    sales_day=pl.from_epoch(col.sales_epoch).dt.to_string("%d"),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H24`

秒数（`second`）が入った`_df`から次の要件で作成し、変数`df`に入れてください。そして、`df`を表示してください。

* 列名を`time`とし、pl.Time型にすること
* 列名を`duration`とし、pl.Duration型にすること

**解答欄**

In [None]:
_df = pl.DataFrame({"second": range(0, 10800, 1800)})

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = _df.select(
    time=pl.from_epoch(pl.col("second")).dt.time(),
    duration=pl.duration(seconds=pl.col("second")),
)
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.select(
        time=pl.from_epoch(pl.col("second")).dt.time(),
        duration=pl.duration(seconds=pl.col("second")),
    )
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H26`

時刻（`time`）が入った`_df`から次の要件で作成し、変数`df`に入れてください。そして、`df`を表示してください。

* 列名を`duration`とし、pl.Duration型にすること
* 列名を`second`とし、秒数にすること

**解答欄**

In [None]:
_df = pl.DataFrame(
    {"time": pl.time_range(end=datetime.time(2), interval="30m", eager=True)}
)

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = _df.select(
    duration=pl.col("time").cast(pl.Duration),
    second=pl.col("time").cast(pl.Duration).dt.total_seconds(),
)
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.select(
        duration=pl.col("time").cast(pl.Duration),
        second=pl.col("time").cast(pl.Duration).dt.total_seconds(),
    )
    assert _ans.equals(df)
except (AssertionError, NameError, pl.exceptions.ColumnNotFoundError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H28`

`_df`の3列から、日付型の列`date`を作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
_df = df_customer.select(
    year=col.birth_day.dt.year(),
    month=col.birth_day.dt.month(),
    day=col.birth_day.dt.day(),
)

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = _df.select(date=pl.date("year", "month", "day"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df.select(date=pl.date("year", "month", "day"))
    assert _ans.equals(df)
except (AssertionError, NameError, pl.exceptions.ColumnNotFoundError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H30`

顧客データ（`df_customer`）の`application_date`から次の列を作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 先頭4文字の列名を`year`とし、pl.Int64型にすること
* 5、6文字目の列名を`month`とし、pl.Int64型にすること
* 末尾2文字の列名を`day`とし、pl.Int64型にすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.select(
    year=col.application_date.str.slice(0, 4),
    month=col.application_date.str.slice(4, 2),
    day=col.application_date.str.slice(6),
).cast(pl.Int64)
df.head(3)
```
<br>

**別解**
```python
df = df_customer.select(
    col.application_date.str.extract_groups(
        "(?<year>....)(?<month>..)(?<day>..)"
    )
    .struct.unnest()
    .cast(pl.Int64)
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.select(
    year=col.application_date.str.slice(0, 4),
    month=col.application_date.str.slice(4, 2),
    day=col.application_date.str.slice(6),
).cast(pl.Int64)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

## いろいろな式のメソッドとNumPy

* `round()`: 数値の丸め
* `ceil()`: 数値の切り上げ
* `floor()`: 数値の切り捨て
* `abs()`: 数値の絶対値
* `clip()`: 範囲でクリッピング
* `rank()`: 順位
* `diff()`: 前との差
* `shift()`: ずらし
* `cut()`: 個数でカテゴリ化
* `qcut()`: 割合でカテゴリ化
* `map_elements()`: 要素を変換する
* `replace_strict()`: 変換する
* `shuffle()`: シャッフルする
* `int_range()`: 連続する数字の作成
* `over()`: グルーピングしたときと同じように処理する

また、`cos()`、`exp()`、`log()`、`log10()`、`sin()`などの数学の関数も使えます。

**`str`属性**

文字列の列に対しては、次のように`str`属性でアクセスできます。

* `str.starts_with()`: 指定の文字列で始まるか
* `str.ends_with()`: 指定の文字列で終わるか
* `str.contains()`: 指定した正規表現の文字列を含むか
* `str.replace()`: 正規表現で文字を1回まで変換する
* `str.replace_all()`: 正規表現で文字をすべて変換する
* `str.extract()`: 正規表現で文字を1つまで抽出する
* `str.extract_all()`: 正規表現で文字をすべて抽出する
* `str.to_date()`: 日付に変換
* `str.to_datetime()`: 日時に変換
* `str.to_time()`: 時間に変換

**条件分岐**

`pl.when(条件).then().otherwise()`で条件分岐できます。

**NumPyのユニバーサル関数**

NumPyのユニバーサル関数に式を渡すこともできます。


---

### `問題I10`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列
  * 顧客ID（`customer_id`）
  * 売上金額（`amount`）
  * 売上金額（`amount`）
    * 列名を`ranking`とし、金額が大きい順のランクに変換すること
    * `method="min"`を指定すること
* ランクの高い順にソートすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.customer_id,
    col.amount,
    ranking=col.amount.rank(method="min", descending=True),
).sort("ranking")
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.customer_id,
    col.amount,
    ranking=col.amount.rank(method="min", descending=True),
).sort("ranking")
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題I12`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列
  * 顧客ID（`customer_id`）
    * 出現順にユニークになっていること
  * 売上金額（`amount`）
    * 列名を`amount_sum`とし、顧客ID（`customer_id`）ごとに合計
  * 売上金額（`amount`）
    * 列名を`pct_group`とし、`amount_sum`の四分位数のカテゴリ
      * カテゴリの先頭は`(3651, inf]`
* `maintain_order=True`をつけること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.customer_id, maintain_order=True)
    .agg(amount_sum=col.amount.sum())
    .with_columns(pct_group=pl.col("amount_sum").qcut(4))
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.customer_id, maintain_order=True)
    .agg(amount_sum=col.amount.sum())
    .with_columns(pct_group=pl.col("amount_sum").qcut(4))
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題I14`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列
  * 顧客ID（`customer_id`）
  * 売上金額（`amount`）
    * 顧客ID（`customer_id`）ごとに合計し、さらに10を底とした対数を計算
* `maintain_order=True`をつけること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum().log10()
)
df.head(3)
```
<br>

**別解**
```python
df = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    np.log10(col.amount.sum())
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum().log10()
)
try:
    assert_frame_equal(_ans, df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題I16`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列
  * 顧客ID（`customer_id`）
  * 売上金額（`amount`）
    * 顧客ID（`customer_id`）ごとに合計し、1000から10_000の範囲にすること
* `maintain_order=True`をつけること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum().clip(1000, 10_000)
)
df.head(3)
```

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum().clip(1000, 10_000)
)
try:
    assert_frame_equal(_ans, df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameのメソッド

* `null_count()`: 列ごとのnullの数
* `fill_null(value)`: nullを別の値（`value`）で補完する
* `drop_nulls(subset)`: `subset`の列にnullがあれば行を削除する
* `pivot()`: ピボットテーブルを作る
* `unpivot()`: ピボットテーブルの逆の処理
* `to_dummies()`: ダミー変数化する
* `sample()`: サンプリングする
* `insert_column()`: 指定位置に列を挿入する
* `map_rows()`: 行単位で変換する
* `shrink_to_fit()`: メモリ使用量を縮小する

※ `df.select(pl.all().shrink_dtype())`のようにすると、データの型を変えてメモリ使用量を縮小します。


---

### `問題J10`

商品データ（`df_product`）の各項目に対し、欠損数を変数`df`に入れてください。そして、`df`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.null_count()
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.null_count()
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題J12`

顧客データ（`df_customer`）の性別コード（`gender_cd`）をダミー変数化し、顧客ID（`customer_id`）とともに変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.select(col.customer_id, col.gender_cd).to_dummies("gender_cd")
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.select(col.customer_id, col.gender_cd).to_dummies("gender_cd")
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題J14`

顧客データ（`df_customer`）から次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* ランダムに1%のデータを抽出すること
  * `seed`は0とすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.sample(fraction=0.01, seed=0)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.sample(fraction=0.01, seed=0)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題J16`

顧客データ（`df_customer`）から次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 性別コード（`gender_cd`）の割合に基づきランダムに10%のデータを層化抽出すること
  * **`seed`は43とする**こと
* 出力する列
  * 性別コード（`gender_cd`）
  * 顧客ID（`customer_id`）

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.group_by(col.gender_cd).agg(
    col.customer_id.sample(fraction=0.1, seed=43),
).explode(col.customer_id)
df.head(3)
```
<br>

**別解**
```python
df = df_customer.sample(fraction=0.1, seed=43).select(
    col.gender_cd, col.customer_id.over(col.gender_cd)
)
```
<br>

**別解**
```python
df = df_customer.filter(
    pl.int_range(pl.len()).shuffle(seed=43).over(col.gender_cd)
    < pl.len().over(col.gender_cd) * 0.1
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _df = df.group_by(col.gender_cd).agg(col.customer_id.len() / 1)
    _ans = pl.DataFrame({"gender_cd": ["0", "1", "9"], "customer_id": [297., 1791., 107.]})
    assert_frame_equal(_ans, _df, check_row_order=False, atol=2)
except (AssertionError, NameError, pl.exceptions.ColumnNotFoundError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題J18`

商品データ（`df_product`）のいずれかの項目に欠損が発生しているレコードを全て削除し、変数`df`に入れてください。そして、`df.null_count()`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.drop_nulls()
df.null_count()
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.drop_nulls()
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.null_count())
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題J20`

商品データ（`df_product`）の単価（`unit_price`）と原価（`unit_cost`）の欠損値について、それぞれの平均値で補完し、変数`df`に入れてください。そして、`df.null_count()`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.fill_null(strategy="mean")
df.null_count()
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.fill_null(strategy="mean")
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.null_count())
else:
    print("\x1b[32mOK\x1b[39m")

---

## チャレンジ

少し難易度の高い問題です。

### 複数列

`pl.col(列名1, 列名2, ...)`とすることで、複数列の式になります。

### 集約対象のフィルタリング

集約対象の式では`filter()`で絞り込みできます。

### dt属性のメソッド

* `weekday()`: 曜日を表す整数（月曜から日曜が1から6）
* `truncate(every)`: `every`ごとに切り捨て

### 水平方向の最小／最大

* `pl.max_horizontal()`: 水平方向の最大
* `pl.min_horizontal()`: 水平方向の最小


---

### `問題N10`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 顧客ID（`customer_id`）ごとに以下を選択
  * 売上年月日（`sales_ymd`）
    * 列名を`sales_ymd_max`とし、最も新しい日付とすること
  * 売上年月日（`sales_ymd`）
    * 列名を`sales_ymd_min`とし、最も古い日付とすること
* `sales_ymd_max`と`sales_ymd_min`が異なるようにフィルタリング
* 顧客IDでソート

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.customer_id).agg(
    sales_ymd_max=col.sales_ymd.max(),
    sales_ymd_min=col.sales_ymd.min(),
).filter(
    pl.col("sales_ymd_max") != pl.col("sales_ymd_min")
).sort(col.customer_id)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.customer_id).agg(
    sales_ymd_max=col.sales_ymd.max(),
    sales_ymd_min=col.sales_ymd.min(),
).filter(
    pl.col("sales_ymd_max") != pl.col("sales_ymd_min")
).sort(col.customer_id)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N12`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 顧客ID（`customer_id`）が`"Z"`から始まるものは非会員を表すため、除外すること
* 顧客ID（`customer_id`）ごとに以下を選択（`maintain_order=True`をつけること）
  * 売上金額（`amount`）の合計
* `amount`が全顧客の平均以上でフィルタリング

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.filter(col.customer_id.str.starts_with("Z").not_())
    .group_by(col.customer_id, maintain_order=True)
    .agg(col.amount.sum())
    .filter(col.amount >= col.amount.mean())
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.filter(col.customer_id.str.starts_with("Z").not_())
    .group_by(col.customer_id, maintain_order=True)
    .agg(col.amount.sum())
    .filter(col.amount >= col.amount.mean())
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N14`

顧客データ（`df_customer`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 性別コード（`gender_cd`）が女性（`"1"`）であるものを対象とすること
* 以下の列があること
  * 顧客ID（`customer_id`）
  * レシート明細データ（`df_receipt`）の顧客ごとの売上金額（`amount`）の合計
    * 売上実績がない顧客については売上金額を0とすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_customer.filter(col.gender_cd == "1")
    .join(
        df_receipt.group_by(col.customer_id).agg(col.amount.sum()),
        on=col.customer_id,
        how="left",
    )
    .select(col.customer_id, col.amount)
    .fill_null(0)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_customer.filter(col.gender_cd == "1")
    .join(
        df_receipt.group_by(col.customer_id).agg(col.amount.sum()),
        on=col.customer_id,
        how="left",
    )
    .select(col.customer_id, col.amount)
    .fill_null(0)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N16`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 日付（`sales_ymd`）ごとに以下を選択
  * 売上金額（`amount`）の合計
* 以下の列を追加
  * 列名を`amount_diff`とし、前回売上があった日からの売上金額の差とすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.sales_ymd)
    .agg(col.amount.sum())
    .sort(col.sales_ymd)
    .with_columns(amount_diff=col.amount.diff())
)
df.head(3)
```
「前回売上があった日」を計算するためには、`sales_ymd`でソートしないといけません。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.sales_ymd)
    .agg(col.amount.sum())
    .sort(col.sales_ymd)
    .with_columns(amount_diff=col.amount.diff())
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N18`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 日付（`sales_ymd`）ごとに以下を選択
  * 売上金額（`amount`）の合計
* 以下の列を追加
  * 列名を`prev_ymd`とし、前回売上があった日
  * 列名を`amount_diff`とし、前回売上があった日からの売上金額の差とすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.sales_ymd)
    .agg(col.amount.sum())
    .sort(col.sales_ymd)
    .with_columns(prev_ymd=col.sales_ymd.shift(), amount_diff=col.amount.diff())
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.sales_ymd)
    .agg(col.amount.sum())
    .sort(col.sales_ymd)
    .with_columns(prev_ymd=col.sales_ymd.shift(), amount_diff=col.amount.diff())
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N20`

次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート明細データ（`df_receipt`）を顧客データ（`df_customer`）と、顧客ID（`customer_id`）をキーに結合すること
* 列名を`era`とし、年齢（`age`）から年代を計算すること（10代は`10`とすること）
* 以下のピボットテーブルを作成すること
  * 列: `gender`
  * インデックス: `era`
  * 値: `amount`の合計
  * 列名をソートすること
* 年代順にソートすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_customer.join(df_receipt, on=col.customer_id)
    .with_columns(era=col.age // 10 * 10)
    .pivot(
        "gender",
        index="era",
        values="amount",
        aggregate_function="sum",
        sort_columns=True,
    )
    .sort("era")
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_customer.join(df_receipt, on=col.customer_id)
    .with_columns(era=col.age // 10 * 10)
    .pivot(
        "gender",
        index="era",
        values="amount",
        aggregate_function="sum",
        sort_columns=True,
    )
    .sort("era")
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N22`

次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート明細データ（`df_receipt`）を顧客データ（`df_customer`）と、顧客ID（`customer_id`）をキーに結合すること
* 列名を`era`とし、年齢（`age`）から年代を計算すること（10代は`10`とすること）
* 以下のピボットテーブルを作成すること
  * 列: `gender`。ただし、`_dc`を使って、"unknown"、"female"、"male"に変換すること
  * インデックス: `era`
  * 値: `amount`の合計
  * 列名をソートすること
* 年代順にソートすること

**解答欄**

In [None]:
_dc = {"不明": "unknown", "女性": "female", "男性": "male"}

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_customer.join(df_receipt, on=col.customer_id)
    .with_columns(col.gender.replace_strict(_dc), era=col.age // 10 * 10)
    .pivot(
        "gender",
        index="era",
        values="amount",
        aggregate_function="sum",
        sort_columns=True,
    )
    .sort("era")
)
df.head(3)
```
<br>

**別解**
```python
df = (
    df_customer.join(df_receipt, on=col.customer_id)
    .with_columns(col.gender.replace_strict(_dc), era=col.age // 10 * 10)
    .group_by("era", col.gender).agg(col.amount.sum())
    .pivot(
        "gender",
        index="era",
        values="amount",
        sort_columns=True,
    )
    .sort("era")
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = (
        df_customer.join(df_receipt, on=col.customer_id)
        .with_columns(col.gender.replace_strict(_dc), era=col.age // 10 * 10)
        .pivot(
            "gender",
            index="era",
            values="amount",
            aggregate_function="sum",
            sort_columns=True,
        )
        .sort("era")
    )
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N24`

時間割の一部のデータ（`_df_table`）は横持ちのデータです。これを次のように縦持ちに変換し、変数`df`に入れてください。そして、`df`を表示してください。

**期待する結果**

<div style="background: white;"><small>shape: (6, 3)</small>
<table border="1" style="margin-left: 0;"><thead>
<thead><tr><th>時間</th><th>曜日</th><th>教科</th></tr><tr><td>i64</td><td>str</td><td>str</td></tr>
</thead><tbody>
<tr><td>1</td><td>&quot;月&quot;</td><td>&quot;国&quot;</td></tr><tr><td>2</td><td>&quot;月&quot;</td><td>&quot;数&quot;</td>
</tr><tr><td>3</td><td>&quot;月&quot;</td><td>&quot;社&quot;</td></tr><tr><td>1</td><td>&quot;火&quot;</td><td>&quot;理&quot;</td></tr>
<tr><td>2</td><td>&quot;火&quot;</td><td>&quot;音&quot;</td></tr><tr><td>3</td><td>&quot;火&quot;</td><td>&quot;体&quot;</td></tr>
</tbody></table></div>

**解答欄**

In [None]:
_df_table = pl.DataFrame(
    {
        "時間": [1, 2, 3],
        "月": ["国", "数", "社"],
        "火": ["理", "音", "体"],
    }
)

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = _df_table.unpivot(index="時間", variable_name="曜日", value_name="教科")
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df_table.unpivot(index="時間", variable_name="曜日", value_name="教科")
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N26`

顧客データ（`df_customer`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列
  * 顧客ID（`customer_id`）
  * 住所（`address`）
  * 住所（`address`）
    * 列名を`prefecture`とし、都道府県名を抜き出すこと

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.select(
    col.customer_id,
    col.address,
    prefecture=col.address.str.extract("(...?[都道府県])"),
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.select(
    col.customer_id,
    col.address,
    prefecture=col.address.str.extract("(...?[都道府県])"),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N28`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 非会員を除くこと（非会員は、顧客IDが`"Z"`で始まる）
* 顧客IDごとに以下の列
  * 顧客ID（`customer_id`）
  * 売上金額（`amount`）
    * 合計
  * 売上金額（`amount`）
    * 列名を`std_amount`とし、売上金額合計を平均0、標準偏差1に標準化すること
* 顧客IDでソートすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.filter(col.customer_id.str.starts_with("Z").not_())
    .group_by(col.customer_id)
    .agg(col.amount.sum())
    .with_columns(
        std_amount=(col.amount - col.amount.mean()) / col.amount.std()
    )
    .sort(col.customer_id)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.filter(col.customer_id.str.starts_with("Z").not_())
    .group_by(col.customer_id)
    .agg(col.amount.sum())
    .with_columns(
        std_amount=(col.amount - col.amount.mean()) / col.amount.std()
    )
    .sort(col.customer_id)
)
try:
    assert_frame_equal(_ans, df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N30`

レシート明細データ（`df_receipt`）と商品データ（`df_product`）をキー`product_cd`で結合して次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列（顧客ごと）
  * 顧客ID（`customer_id`）
  * 売上金額（`amount`）を合計し、列名を`sum_all`とすること
  * 次の条件で売上金額（`amount`）を合計し、列名を`sum_07`とすること
    * カテゴリ大区分コード（`category_major_cd`）が`"07"`（瓶詰缶詰）のみ
  * 列名を`sales_rate`とし、`sum_07`の`sum_all`に対する比を計算すること
* `sales_rate`が0を除くこと
* 顧客IDでソートすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.join(df_product, on=col.product_cd)
    .group_by(col.customer_id)
    .agg(
        sum_all=col.amount.sum(),
        sum_07=col.amount.filter(col.category_major_cd == "07").sum(),
    )
    .with_columns(sales_rate=pl.col("sum_07") / pl.col("sum_all"))
    .filter(pl.col("sales_rate") > 0)
    .sort(col.customer_id)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.join(df_product, on=col.product_cd)
    .group_by(col.customer_id)
    .agg(
        sum_all=col.amount.sum(),
        sum_07=col.amount.filter(col.category_major_cd == "07").sum(),
    )
    .with_columns(sales_rate=pl.col("sum_07") / pl.col("sum_all"))
    .filter(pl.col("sales_rate") > 0)
    .sort(col.customer_id)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N32`

レシート明細データ（`df_receipt`）と顧客データ（`df_customer`）を結合し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列
  * 顧客ID（`customer_id`）
  * 売上日（`sales_ymd`）
    * 整数型を日付型に変換すること
  * 会員申込日（`application_date`）
    * 文字列を日付型に変換すること
  * 列名を`elapsed_days`とし、会員申込日から売上日までの経過日数を整数で計算すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.join(df_customer, on=col.customer_id)
    .select(
        col.customer_id,
        col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d"),
        col.application_date.str.to_date("%Y%m%d"),
    )
    .with_columns(
        elapsed_days=(col.sales_ymd - col.application_date).dt.total_days()
    )
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.join(df_customer, on=col.customer_id)
    .select(
        col.customer_id,
        col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d"),
        col.application_date.str.to_date("%Y%m%d"),
    )
    .with_columns(
        elapsed_days=(col.sales_ymd - col.application_date).dt.total_days()
    )
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N34`

レシート明細データ（`df_receipt`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 出力する列
  * 売上日（`sales_ymd`）
  * 売上日（`sales_ymd`）
    * 列名を`monday`とし、売上日の週の月曜日とすること
  * 売上日（`sales_ymd`）
    * 列名を`elapsed_days`とし、`monday`からの経過日数の整数とすること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d")
).with_columns(
    monday=col.sales_ymd.dt.truncate("1w"),
    elapsed_days=col.sales_ymd.dt.weekday() - 1,
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d")
).with_columns(
    monday=col.sales_ymd.dt.truncate("1w"),
    elapsed_days=col.sales_ymd.dt.weekday() - 1,
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N36`

作成されている`_df_customer_geocode`を使って、次の要件で新しくデータを作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 店舗データ（`df_store`）と以下のように結合すること
  * `_df_customer_geocode`のキーを`application_store_cd`とすること
  * 店舗データのキーを`store_cd`とすること
* 出力する列
  * 顧客ID（`customer_id`）
  * 列名を`customer_address`とし、顧客の住所（`address`）
  * 列名を`store_address`とし、店舗の住所（`address_right`）
  * 列名を`distance`とし、顧客の住所と店舗の住所間の距離（km）
    * 距離は、式`_distance`を使うこと

**解答欄**

In [None]:
_df_customer_geocode = df_customer.join(
    df_geocode.group_by(col.postal_cd, maintain_order=True).agg(
        col.longitude.mean(), col.latitude.mean()
    ),
    on=col.postal_cd,
)

_distance = (
    (col.latitude.radians().sin() * pl.col("latitude_right").radians().sin())
    + (col.latitude.radians().cos() * pl.col("latitude_right").radians().cos())
    * (col.longitude - pl.col("longitude_right")).radians().cos()
).arccos() * 6371

# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = _df_customer_geocode.join(
    df_store, left_on=col.application_store_cd, right_on=col.store_cd
).select(
    col.customer_id,
    customer_address=col.address,
    store_address=pl.col("address_right"),
    distance=_distance,
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = _df_customer_geocode.join(
        df_store, left_on=col.application_store_cd, right_on=col.store_cd
    ).select(
        col.customer_id,
        customer_address=col.address,
        store_address=pl.col("address_right"),
        distance=_distance,
    )
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N38`

顧客データ（`df_customer`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート明細データ（`df_receipt`）の以下と顧客ID（`customer_id`）をキーに結合すること
  * 顧客ID（`customer_id`）ごとの売上金額（`amount`）合計
  * 左外部結合とすること
* 出力する列
  * 顧客ID（`customer_id`）
  * 名前（`customer_name`）
  * 売上金額（`amount`）
  * 郵便番号（`postal_cd`）
* 名前と郵便番号が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せすること
  * 同一顧客に対しては売上金額合計が最も高いものを残すこと
    * 売上金額合計が同一の顧客については顧客IDの番号が小さいものを残すこと

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_customer.join(
        df_receipt.group_by(col.customer_id).agg(col.amount.sum()),
        on=col.customer_id,
        how="left",
    )
    .select(cs.starts_with("customer"), col.amount.fill_null(0), col.postal_cd)
    .sort([col.amount, col.customer_id], descending=[True, False])
    .unique([col.customer_name, col.postal_cd], maintain_order=True)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_customer.join(
        df_receipt.group_by(col.customer_id).agg(col.amount.sum()),
        on=col.customer_id,
        how="left",
    )
    .select(cs.starts_with("customer"), col.amount.fill_null(0), col.postal_cd)
    .sort([col.amount, col.customer_id], descending=[True, False])
    .unique([col.customer_name, col.postal_cd], maintain_order=True)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N40`

商品データ（`df_product`）に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 単価（`unit_price`）と原価（`unit_cost`）の欠損値について、各商品のカテゴリ小区分コード（`category_small_cd`）ごとに算出した中央値で補完すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.with_columns(
    col.unit_price.fill_null(col.unit_price.median().over(col.category_small_cd)),
    col.unit_cost.fill_null(col.unit_cost.median().over(col.category_small_cd)),
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.with_columns(
    col.unit_price.fill_null(col.unit_price.median().over(col.category_small_cd)),
    col.unit_cost.fill_null(col.unit_cost.median().over(col.category_small_cd)),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans.head(3))
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題N42`

`_df`に対し、次の要件で作成し、変数`df`に入れてください。そして、`df`を表示してください。

* 以下の列を追加すること
  * 列`a`と列`b`の小さい方を求め、列名を`min`とすること
  * 列`a`と列`b`の大きい方を求め、列名を`max`とすること

**解答欄**

In [None]:
_df = pl.DataFrame(
    {
        "a": [0, 1, 2],
        "b": [1, 2, 0],
    }
)
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
ab = pl.col("a", "b")
df = _df.with_columns(
    min=pl.min_horizontal(ab),
    max=pl.max_horizontal(ab),
)
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
ab = pl.col("a", "b")
try:
    _ans = _df.with_columns(
        min=pl.min_horizontal(ab),
        max=pl.max_horizontal(ab),
    )
    assert _ans.equals(df)
except (AssertionError, NameError, pl.exceptions.ColumnNotFoundError):
    print("\x1b[31mNG\x1b[39m")
    display(Markdown("**期待する結果**"))
    display(_ans)
else:
    print("\x1b[32mOK\x1b[39m")

---

お疲れさまでした