In [1]:
%%html
<style>
.jp-Cell {
    --jp-frozen-bg: #e8f4ff;
    --jp-readonly-bg: #fff0b8;
}
</style>

# Polars入門

## はじめに

これはPolars 1.9.0学習用の教材です。

https://polars-ja.github.io/docs-ja/

※ 「データサイエンティスト協会スキル定義委員」の「データサイエンス100本ノック（構造化データ加工編）」を参考にしています。

**学習手順**

* 青いセルの説明を読む
* 白いセルに問題の解答を書く
* 黄色いセルを実行して確認する

セル内でしか使わない変数は、`_`で始まります。

## 基礎知識

**特徴**

* 高速性: Rustで実装されており、並列処理を活用して非常に高速なデータ処理を実現
* メモリ効率: 列指向のストレージ形式を採用しており、大量のデータを効率的に扱える
* 直感的なAPI: 意図した方法でクエリを書ける

**インストール**

```
pip install polars
```

**インポート**

```python
import polars as pl
import polars.selectors as cs
```

polarsモジュールを使ってDataFrameを作成したり、式を作成したりします。
polars.selectorsは、列の選択などに使います。

**主な型**

* pl.DataFrame
* pl.Series
* 要素の型
  * pl.Int8, pl.Int16, pl.Int32, pl.Int32: 整数
  * pl.Float32, pl.Float64: 実数
  * pl.Utf8: 文字列（pl.Stringの別名）
  * pl.Date, pl.Datetime, pl.Duration: 日付や日時や時間間隔
  * 文字列はstr属性、日付や日時や時間間隔はdt属性が使える

※ pandasと違い、DataFrameはインデックスを持ちません。


---

### `問題A10`

polarsとpolars.selectorsをそれぞれ、`pl`と`cs`としてインポートしてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
import polars as pl
import polars.selectors as cs
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    pl.col
    cs.matches
except NameError:
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの作成

pandasのように列名をキーとする辞書から作成できます。

```python
df_store = pl.DataFrame(
    {
        "cd": ["001", "002"],
        "name": ["新宿店", "渋谷店"],
    }
)
```

**CSVの読み込み**

`read_csv()`でCSVファイルを読み込めます。

```python
df_category = pl.read_csv(ファイル名, オプション)
```

**主なオプション**

* `schema`: 全ての列について、型を辞書で指定
* `schema_overrides`: 一部の列について、型を辞書で指定
* `encoding`: エンコーディングの指定

**DataFrmaeの確認**

`head(n)`で先頭`n`行を確認できます（`n`を省略すると5になります）。
次のようにスライスも使えます。

```python
df_category.head(3)
df_category[:3]  # df_category.head(3)と同じ
```

<div style="background: white;"><small>shape: (3, 6)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>category_<br>major_cd</th><th>category_<br>major_name</th><th>category_<br>medium_cd</th><th>category_<br>medium_name</th><th>category_<br>small_cd</th><th>category_<br>small_name</th></tr>
<tr><td>i64</td><td>str</td><td>i64</td><td>str</td><td>i64</td><td>str</td></tr>
</thead><tbody>
<tr><td>4</td><td>&quot;惣菜&quot;</td><td>401</td><td>&quot;御飯類&quot;</td><td>40101</td><td>&quot;弁当類&quot;</td></tr>
<tr><td>4</td><td>&quot;惣菜&quot;</td><td>401</td><td>&quot;御飯類&quot;</td><td>40102</td><td>&quot;寿司類&quot;</td></tr>
<tr><td>4</td><td>&quot;惣菜&quot;</td><td>402</td><td>&quot;佃煮類&quot;</td><td>40201</td><td>&quot;魚介佃煮類&quot;</td></tr>
</tbody></table></div>


---

### `問題B10`

辞書`_data`からDataFrameを作成し、`df`に代入してください。

**解答欄**

In [None]:
_data = {"id": ["001", "002"], "name": ["大野", "六角"]}
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = pl.DataFrame(_data)
df
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
try:
    _ans = pl.DataFrame(_data)
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題B12`

ファイル`_file`からCSVを読み込み、`df`に代入してください。
`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
_file = "../data/receipt.csv"
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = pl.read_csv(_file)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
import polars as pl
try:
    _ans = pl.read_csv(_file)
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題B14`

次の条件で、ファイル`_file`からCSVを読み込み、`df_receipt`に代入してください。
* `schema_overrides`に`schema`を指定
* `encoding`に`encoding`を指定

`df_receipt`の先頭の3行を表示してください。

**解答欄**

In [None]:
_file = "../data/receipt.csv"
schema = {"sales_ymd": pl.Int64, "store_cd": pl.Utf8}
encoding = "utf-8"
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df_receipt = pl.read_csv(_file, schema_overrides=schema, encoding=encoding)
df_receipt.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = pl.read_csv(_file, schema_overrides=schema, encoding=encoding)
try:
    assert _ans.equals(df_receipt)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの列の選択・追加・更新

DataFrameから列を選択するには、`select()`に選択する列を指定します。

```python
df_receipt.select("sales_ymd", "store_cd")
```

<div style="background: white;"><small>shape: (104_681, 2)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>store_cd</th></tr><tr><td>i64</td><td>str</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&quot;S14006&quot;</td></tr>
<tr><td>20181118</td><td>&quot;S13008&quot;</td></tr>
<tr><td>20170712</td><td>&quot;S14028&quot;</td></tr>
<tr><td colspan="2">以下略</td></tr>
</tbody></table></div>

引数には、列名だけでなく**エクスプレッション**を指定できます。
列を表すエクスプレッションは、次のように`pl.col(列名)`と書きます。

```python
df_receipt.select(pl.col("sales_ymd"), pl.col("store_cd"))
```

エクスプレッションは、pl.Expr型のオブジェクトです。以降では**式**と呼ぶことにします。

式を使うことで、さまざまな処理を記述できます。

たとえば、`alias(列名)`を使うと列名を変更できます。

```python
df_receipt.select(pl.col("sales_ymd").alias("date"), pl.col("store_cd").alias("cd"))
```

<div style="background: white;"><small>shape: (104_681, 2)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>date</th><th>cd</th></tr>
<tr><td>i64</td><td>str</td></tr>
</thead><tbody>
<tr><td colspan="2">以下略</td></tr>
</tbody></table></div>

式は、DataFrameと独立に作成できます。DataFrameの列そのものではなく、列に対する処理と考えてください。

以降では、次のように変数`col`に列の式が入っているとします（後で作成します）。

```python
col.sales_ymd = pl.col("sales_ymd")
col.store_cd = pl.col("store_cd")
df_receipt.select(col.sales_ymd.alias("date"), col.store_cd.alias("cd"))
```

**列の追加・更新**

次のように、列を追加できます。

* 既存の列を残して追加する場合: `with_columns()`を使う
* 一部の列を選択して追加する場合: `select()`を使う

引数には式などを指定します。

なお、同名の列がある場合には、追加ではなく更新になります。

`df_receipt`の先頭3行に、列`id`として通し番号を追加するには、次のようにします。
`pl.Series()`は実データなので、式ではありませんが指定できます。
元の9列から10列に増えています。

```python
df_receipt.head(3).with_columns(pl.Series(name="id", values=[0, 1, 2]))
```

<div style="background: white;"><small>shape: (3, 10)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>&hellip;</th><th>amount</th><th>id</th></tr>
<tr><td>i64</td><td>&hellip;</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&hellip;</td><td>158</td><td>0</td></tr>
<tr><td>20181118</td><td>&hellip;</td><td>81</td><td>1</td></tr>
<tr><td>20170712</td><td>&hellip;</td><td>170</td><td>2</td></tr>
</tbody></table></div>

※ `with_row_index()`を使うとより簡単に記述できます。

<br>

式は、さまざまな演算ができます。たとえば、8桁の`col.sales_ymd`の上4桁を取得するには、`col.sales_ymd // 10000`とします。
`col.sales_ymd`は、先程`pl.col("sales_ymd")`と定義したものです。

`df_receipt`の先頭3行に、列`year`として`col.sales_ymd`の上4桁を追加するには、次のようにします。

```python
df_receipt.head(3).with_columns((col.sales_ymd // 10000).alias("year"))
```

<div style="background: white;"><small>shape: (3, 10)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>&hellip;</th><th>amount</th><th>year</th></tr>
<tr><td>i64</td><td>&hellip;</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&hellip;</td><td>158</td><td>2018</td></tr>
<tr><td>20181118</td><td>&hellip;</td><td>81</td><td>2018</td></tr>
<tr><td>20170712</td><td>&hellip;</td><td>170</td><td>2017</td></tr>
</tbody></table></div>

列はいくつでも追加できます。

また、`alias()`の代わりにキーワード引数も使えます。

```python
df_receipt.head(3).with_columns(
    year=col.sales_ymd // 10000,
    month=col.sales_ymd // 100 % 100,
    day=col.sales_ymd % 100,
)
```

<div style="background: white;"><small>shape: (3, 12)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>&hellip;</th><th>year</th><th>month</th><th>day</th></tr>
<tr><td>i64</td><td>&hellip;</td><td>i64</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>&hellip;</td><td>2018</td><td>11</td><td>3</td></tr>
<tr><td>20181118</td><td>&hellip;</td><td>2018</td><td>11</td><td>18</td></tr>
<tr><td>20170712</td><td>&hellip;</td><td>2017</td><td>7</td><td>12</td></tr>
</tbody></table></div>

`select()`を使うと指定した列だけになります。次のようにすると4列になります。

```python
df_receipt.head(3).select(
    col.sales_ymd,
    year=col.sales_ymd // 10000,
    month=col.sales_ymd // 100 % 100,
    day=col.sales_ymd % 100,
)
```

<div style="background: white;"><small>shape: (3, 4)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>sales_ymd</th><th>year</th><th>month</th><th>day</th></tr>
<tr><td>i64</td><td>i64</td><td>i64</td><td>i64</td></tr>
</thead><tbody>
<tr><td>20181103</td><td>2018</td><td>11</td><td>3</td></tr>
<tr><td>20181118</td><td>2018</td><td>11</td><td>18</td></tr>
<tr><td>20170712</td><td>2017</td><td>7</td><td>12</td></tr>
</tbody></table></div>


---

## 【重要】問題で使うDataFrameとExprの準備

次のDataFrameを作成します。これらは、以降の問題で使います。

* `df_customer`
* `df_category`
* `df_product`
* `df_receipt`
* `df_store`
* `df_geocode`

また、これらのDataFrameの**全列の式**を次のように変数`col`からアクセスできるようにします。

```python
col.sales_ymd = pl.col("sales_ymd")
```

これにより、**`pl.col("sales_ymd")`の代わりに`col.sales_ymd`が使えます**。

途中の問題から始める場合も次のセルを実行してください。

In [None]:
# このセルを実行してください
import polars as pl
import polars.selectors as cs

_cs = ["customer_id", "gender_cd", "postal_cd", "application_store_cd", "status_cd"]
_cs += ["category_major_cd", "category_medium_cd", "category_small_cd", "product_cd"]
_cs += ["store_cd", "prefecture_cd", "tel_no", "street", "application_date"]
schema = pl.Schema({"birth_day": pl.Date, **{c: pl.Utf8 for c in _cs}})
kwargs = {"schema_overrides": schema, "encoding": "utf-8-sig"}
df_customer = pl.read_csv("../data/customer.csv", **kwargs)
df_category = pl.read_csv("../data/category.csv", **kwargs)
df_product = pl.read_csv("../data/product.csv", **kwargs)
df_receipt = pl.read_csv("../data/receipt.csv", **kwargs)
df_store = pl.read_csv("../data/store.csv", **kwargs)
df_geocode = pl.read_csv("../data/geocode.csv", **kwargs)

class Col:
    @classmethod
    def from_dataframes(cls, *dfs: pl.DataFrame):
        col = cls()
        for df in dfs:
            for column in df.columns:
                setattr(col, column, pl.col(column))
        return col

# 列名にアクセスする変数を作成
col = Col.from_dataframes(df_customer, df_category, df_product, df_receipt, df_store, df_geocode)

print(f"{pl.__version__ = }")

---

### `問題C10`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 売上年月日（`sales_ymd`）
* 顧客ID（`customer_id`）
* 商品コード（`product_cd`）
* 売上金額（`amount`）

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題C12`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 売上年月日（`sales_ymd`）: 列名を`sales_date`に変更すること
* 顧客ID（`customer_id`）
* 商品コード（`product_cd`）
* 売上金額（`amount`）

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.sales_ymd.alias("sales_date"),
    col.customer_id,
    col.product_cd,
    col.amount,
)
df.head(3)
```
第2引数以降が位置引数のため、第1引数に`sales_date=col.sales_ymd`とキーワード引数を書けません。そのため、`alias()`で列名を変更します。

**別解**
```python
df = df_receipt.select(col.sales_ymd, col.customer_id, col.product_cd, col.amount).rename(
    {"sales_ymd": "sales_date"}
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.sales_ymd.alias("sales_date"),
    col.customer_id,
    col.product_cd,
    col.amount,
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの行の抽出

DataFrameから行を抽出するには、次のように`filter()`を使います。

```python
df_receipt.filter(col.store_cd == "S13002")
```

複数の条件を組み合わせるには次のようにします。

```python
df_receipt.filter((col.store_cd == "S13002") & (col.amount >= 100))
```

また、値がある範囲に入るかどうかは次のようにします。デフォルトでは両端の値も含みます。

```python
df_receipt.filter(col.amount.is_between(200, 400))
```

文字列の列に対しては、次のように`str`属性を使って条件を書けます。

* `str.starts_with()`: 指定の文字列で始まるか
* `str.ends_with()`: 指定の文字列で終わるか
* `str.contains()`: 指定した正規表現の文字列を含むか

行の抽出と列の選択をしたい場合には、次のようにします。

```python
df_receipt.filter(col.amount).select(col.amount >= 100)
```
&emsp;&emsp;または
```python
df_receipt.select(col.amount >= 100).filter(col.amount)
```

どちらも同じ結果になります。


---

### `問題D10`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 顧客ID（`customer_id`）が`"CS018205000001"`を抽出
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(col.customer_id == "CS018205000001").select(
    col.sales_ymd, col.customer_id, col.product_cd, col.amount
)
df.head(3)
```
このようにメソッドをつなげることをメソッドチェーンといいます。

Polarsは、DataFrameのメソッドチェーンと、列のメソッドチェーンを同時に書けるので、柔軟に処理できます。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(col.customer_id == "CS018205000001").select(
    col.sales_ymd, col.customer_id, col.product_cd, col.amount
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D12`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 以下の条件をANDで抽出
    * 顧客ID（`customer_id`）が`"CS018205000001"`
    * 売上金額（`amount`）が`1000`以上
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount >= 1000)
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df.head(3)
```
複数の条件に対し、ビット演算子（`&`、`|`、`^`、`~`）が使えます。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount >= 1000)
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D14`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 以下の条件をANDで抽出
    * 顧客ID（`customer_id`）が`"CS018205000001"`
    * 売上金額（`amount`）が`1000`以上、または、売上数量（`quantity`）が`5`以上
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(
    (col.customer_id == "CS018205000001")
    & ((col.amount >= 1000) | (col.quantity >= 5))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(
    (col.customer_id == "CS018205000001")
    & ((col.amount >= 1000) | (col.quantity >= 5))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D16`

レシート明細データ（`df_receipt`）から以下の手順で取得し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 以下の条件をANDで抽出
    * 顧客ID（`customer_id`）が`"CS018205000001"`
    * 売上金額（`amount`）が`1000`以上`2000`以下
* 売上日（`sales_ymd`）、顧客ID（`customer_id`）、商品コード（`product_cd`）、売上金額（`amount`）を選択

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount.is_between(1000, 2000))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.filter(
    (col.customer_id == "CS018205000001") & (col.amount.is_between(1000, 2000))
).select(col.sales_ymd, col.customer_id, col.product_cd, col.amount)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D18`

店舗データ（`df_store`）から、店舗コード（`store_cd`）が`"S14"`で始まるものだけ全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_store.filter(col.store_cd.str.starts_with("S14"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.filter(col.store_cd.str.starts_with("S14"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D20`

顧客データ（`df_customer`）から顧客ID（`customer_id`）の末尾が`1`のものだけ全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.filter(col.customer_id.str.ends_with("1"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.filter(col.customer_id.str.ends_with("1"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D22`

店舗データ（`df_store`）から、住所 (`address`) に`"横浜市"`が含まれるものだけ全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_store.filter(col.address.str.contains("横浜市"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.filter(col.address.str.contains("横浜市"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D24`

顧客データ（`df_customer`）から、ステータスコード（`status_cd`）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.filter(col.status_cd.str.contains("^[A-F]"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.filter(col.status_cd.str.contains("^[A-F]"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D26`

顧客データ（`df_customer`）から、ステータスコード（`status_cd`）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.filter(col.status_cd.str.contains("^[A-F].*[1-9]$"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.filter(col.status_cd.str.contains("^[A-F].*[1-9]$"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題D28`

店舗データ（`df_store`）から、電話番号（`tel_no`）が`3桁-3桁-4桁`のデータを全項目抽出し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_store.filter(col.tel_no.str.contains(r"^\d{3}-\d{3}-\d{4}$"))
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.filter(col.tel_no.str.contains(r"^\d{3}-\d{3}-\d{4}$"))
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの属性とメソッド

**主な属性とメソッド**

* `height`: 行数
* `width`: 列数
* `shape`: 行数と列数
* `columns`: 列名のリスト
* `rows()`: 行（タプル）のリスト
* `sum()`: 列ごとの合計（非数値はnull）
* `null_count()`: 列ごとのnullの数
* `n_unique(項目1, 項目2, ...)`: ユニーク数

※ 行数は`len(df)`でも取得できます。
※ 列内の要素数は、式の`count()`でできます。
※ `for`で各行を使うときは、`rows()`ではなく`iter_rows()`を使いましょう（ジェネレーターなので効率がよい）。
※ Polarsではnullとnanは区別されることに注意してください。

**`unique()`**

次のようにして指定項目がユニークな行を抽出できます。項目は空や複数で指定できます。

```
df_store.unique(col.prefecture_cd)
```

**`describe()`**

次のようにして基本統計量を確認できます。

```python
df_store.sort(col.store_cd)
```

<div style="background: white;"><small>shape: (9, 11)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>statistic</th><th>store_cd</th><th>store_name</th><th>&hellip;</th><th>floor_area</th></tr>
<tr><td>str</td><td>str</td><td>str</td><td>&hellip;</td><td>f64</td></tr>
</thead><tbody>
<tr><td>&quot;count&quot;</td><td>&quot;53&quot;</td><td>&quot;53&quot;</td><td>&hellip;</td><td>53.0</td></tr>
<tr><td>&quot;null_count&quot;</td><td>&quot;0&quot;</td><td>&quot;0&quot;</td><td>&hellip;</td><td>0.0</td></tr>
<tr><td>&quot;mean&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>1273.433962</td></tr>
<tr><td>&quot;std&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>348.459164</td></tr>
<tr><td>&quot;min&quot;</td><td>&quot;S12007&quot;</td><td>&quot;三田店&quot;</td><td>&hellip;</td><td>801.0</td></tr>
<tr><td>&quot;25%&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>980.0</td></tr>
<tr><td>&quot;50%&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>1220.0</td></tr>
<tr><td>&quot;75%&quot;</td><td>null</td><td>null</td><td>&hellip;</td><td>1555.0</td></tr>
<tr><td>&quot;max&quot;</td><td>&quot;S14050&quot;</td><td>&quot;鷺宮店&quot;</td><td>&hellip;</td><td>1895.0</td></tr>
</tbody></table></div>

**`sort()`**

次のようにして指定した列で昇順にソートできます。

```python
df_store.describe()
```

<div style="background: white;"><small>shape: (53, 10)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>store_cd</th><th>store_name</th><th>&hellip;</th><th>floor_area</th></tr>
<tr><td>str</td><td>str</td><td>&hellip;</td><td>i64</td></tr>
</thead><tbody>
<tr><td>&quot;S12007&quot;</td><td>&quot;佐倉店&quot;</td><td>&hellip;</td><td>1895.0</td></tr>
<tr><td>&quot;S12013&quot;</td><td>&quot;習志野店&quot;</td><td>&hellip;</td><td>808.0</td></tr>
<tr><td>&quot;S12014&quot;</td><td>&quot;千草台店&quot;</td><td>&hellip;</td><td>1698.0</td></tr>
<tr><td colspan="4">以下略</td></tr>
</tbody></table></div>

* 降順にソートするには、`descending=True`をつける
* ソートのキーが同じ場合に元の順番を維持するには、`maintain_order=True`をつける
* 複数の項目を指定するには、位置引数を順番に書く
* 複数の項目ごとに、昇順と降順を切り替えるには、次のようにリストで指定する

```python
df_store.sort([col.prefecture_cd, col.store_cd], descending=[False, True])
```

※ 以降の問題では、**指定した場合は`maintain_order=True`をつけてください**。


---

### `問題E10`

顧客データ（`df_customer`）を生年月日（`birth_day`）で高齢順にソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

ソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.sort(col.birth_day, maintain_order=True)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.sort(col.birth_day, maintain_order=True)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題E12`

顧客データ（`df_customer`）を生年月日（`birth_day`）で若い順にソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

ソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.sort(col.birth_day, descending=True, maintain_order=True)
df.head(3)
```
若い順にするには、生年月日の降順にします。降順のときは、`descending=True`を指定します。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.sort(col.birth_day, descending=True, maintain_order=True)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題E14`

レシート明細データ（df_receipt）の件数を変数`n`に入れてください。そして、`n`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
n = df_receipt.height
n
```

**別解**

```python
n = len(df_receipt)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.height
try:
    assert _ans == n
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題E16`

レシート明細データ（`df_receipt`）の顧客ID（`customer_id`）のユニーク件数を変数`n`に入れてください。そして、`n`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
n = df_receipt.select(col.customer_id).n_unique()
n
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(col.customer_id).n_unique()
try:
    assert _ans == n
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## グルーピングと集約

DataFrameの列の値ごとにグルーピングして集約する場合は、次のようにします。

```python
df.group_by(キーとなる列).agg(集約する列)
```

たとえば、レシート明細データ（`df_receipt`）に対して、顧客ID（`customer_id`）ごとに売上金額（`amount`）を合計するには、次のようにします。

```python
df_receipt.group_by(col.customer_id).agg(col.amount.sum())
```

<div style="background: white;"><small>shape: (8_307, 2)</small>
<table border="1" style="margin-left: 0;"><thead>
<thead><tr><th>customer_id</th><th>amount</th></tr>
<tr><td>str</td><td>i64</td></tr>
</thead><tbody>
<tr><td>&quot;CS037315000083&quot;</td><td>328</td></tr>
<tr><td>&quot;CS002515000236&quot;</td><td>328</td></tr>
<tr><td>&quot;CS010415000132&quot;</td><td>5214</td></tr>
<tr><td colspan="2">以下略</td></tr>
</tbody></table></div>

**結果の行の順序**

結果の行の順序は実行ごとに変わる可能性があります。順序が変わらないようにするには、`group_by()`に`maintain_order=True`をつけてください。

グルーピング後にソートする場合でも、ソートのキーがユニークでなければ順序は保証されません。
たとえば、次の3つの結果は異なる可能性があります。

```python
df_receipt.group_by(col.customer_id).agg(
    col.amount.sum()
).sort(col.amount)

df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum()
).sort(col.amount)

df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.amount.sum()
).sort(col.amount, maintain_order=True)
```

※ 以降の問題では、**指定した場合は`maintain_order=True`をつけてください**。

**複数指定**

キーとなる列や集約する列は、それぞれ複数指定できます。

たとえば次のようにすると、「顧客IDと店舗コード」ごとに「売上金額の合計と平均」を計算します。

```python
df_receipt.group_by(col.customer_id, col.store_cd, maintain_order=True).agg(
    col.amount.sum(), amount_mean=col.amount.mean()
)
```

<div style="background: white;">
<small>shape: (8_358, 4)</small>
<table border="1" style="margin-left: 0;"><thead>
<tr><th>customer_id</th><th>store_cd</th><th>amount</th><th>amount_mean</th></tr>
<tr><td>str</td><td>str</td><td>i64</td><td>f64</td></tr>
</thead><tbody>
<tr><td>&quot;CS006214000001&quot;</td><td>&quot;S14006&quot;</td><td>7364</td><td>334.727273</td></tr>
<tr><td>&quot;CS008415000097&quot;</td><td>&quot;S13008&quot;</td><td>1895</td><td>236.875</td></tr>
<tr><td>&quot;CS028414000014&quot;</td><td>&quot;S14028&quot;</td><td>6222</td><td>345.666667</td></tr>
<tr><td colspan="4">以下略</td></tr>
</tbody></table></div>

**他の集約方法**

列に指定する集約方法として次のようなメソッドがあります。

* `sum()`: 合計
* `mean()`: 平均
* `var(ddof=1)`: 分散
* `std(ddof=1)`: 標準偏差
* `max()`: 最大
* `min()`: 最小
* `median()`: 中央値
* `mode().mean()`: 最頻値
* `quantile(quantile)`: パーセンタイル
* `len()`: 要素数
* `n_unique()`: ユニーク数

※ `mode()`の結果はリストになるため、`mean()`で平均を取っています。


---

### `問題F10`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）と売上数量（`quantity`）を合計し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.sum(), col.quantity.sum()
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.sum(), col.quantity.sum()
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F12`

レシート明細データ（`df_receipt`）に対し、顧客ID（`customer_id`）ごとに最も新しい売上年月日（`sales_ymd`）を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.max()
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.max()
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F14`

レシート明細データ（`df_receipt`）に対し、顧客ID（`customer_id`）ごとに最も古い売上年月日（`sales_ymd`）を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.min()
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.customer_id, maintain_order=True).agg(
    col.sales_ymd.min()
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F16`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の平均を計算し降順でソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

平均が一致することがあるため、グルーピング時に`maintain_order=True`をつけてください。
また、ソート時にも`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F18`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の中央値を計算し降順でソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時とソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.median())
    .sort(col.amount, descending=True, maintain_order=True)
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.median())
    .sort(col.amount, descending=True, maintain_order=True)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F20`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の最頻値を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時とソート時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mode().mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
df
```
最頻値で集約するときは、`mode().mean()`を使いましょう。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = (
    df_receipt.group_by(col.store_cd, maintain_order=True)
    .agg(col.amount.mode().mean())
    .sort(col.amount, descending=True, maintain_order=True)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F22`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の分散を計算し降順でソートし、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

`var()`の第1引数`ddof`はデフォルト値（`1`）のままにしてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.store_cd).agg(col.amount.var()).sort(
    col.amount, descending=True
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.store_cd).agg(col.amount.var()).sort(
    col.amount, descending=True
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題F24`

レシート明細データ（`df_receipt`）に対し、店舗コード（`store_cd`）ごとに売上金額（`amount`）の第1四分位を求め、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

グルーピング時に`maintain_order=True`をつけてください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.quantile(0.25)
)
df.head(3)
```
第1四分位は、25パーセンタイルです。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.group_by(col.store_cd, maintain_order=True).agg(
    col.amount.quantile(0.25)
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## DataFrameの結合

2つのDataFrameを結合するには、次のようにします。

```python
df1.join(df2, on=キーとなる列)
```

`on`の列は、どちらのDataFrameにも含まれていないといけません。また、`on`には複数の列を指定できます。

もし、別名の列をキーにしたい場合は、`left_on`と`right_on`を使います。

**結合方法**

`how`で結合方法を次の中から指定できます。

| `how`     | 名称         | 対象行              | 対象列 |
| :-------- | :----------- | :------------------ | :----- |
| `"inner"` | 内部結合     | 積集合              | 和集合 |
| `"left"`  | 左外部結合   | 左                  | 和集合 |
| `"right"` | 右外部結合   | 右                  | 和集合 |
| `"full"`  | 完全外部結合 | 和集合              | 和集合 |
| `"semi"`  | セミ結合     | 積集合              | 左     |
| `"anti"`  | アンチ結合   | 差集合（`左 - 右`） | 左     |
| `"cross"` | クロス結合   | 直積                | 和集合 |

デフォルトは`"inner"`です。`"inner"`、`"left"`、`"full"`、`"cross"`は覚えておきましょう。

`"cross"`以外は、`on`（または`left_on`と`right_on`）が必要です。


---

### `問題G10`

レシート明細データ（`df_receipt`）と店舗データ（`df_store`）を次の条件で内部結合し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* キーは、店舗コード（`store_cd`）
* レシート明細データは全列
* 店舗データは全列

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.join(df_store, on=col.store_cd)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.join(df_store, on=col.store_cd)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G12`

商品データ（`df_product`）とカテゴリデータ（`df_category`）を次の条件で内部結合し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* キーは、カテゴリ小区分コード（`category_small_cd`）
* 商品データは全列
* カテゴリデータは、カテゴリ小区分コードとカテゴリ小区分名（`category_small_name`）のみ

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_product.join(
    df_category.select(col.category_small_cd, col.category_small_name),
    on=col.category_small_cd,
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_product.join(
    df_category.select(col.category_small_cd, col.category_small_name),
    on=col.category_small_cd,
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G14`

全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（`df_store`）と商品データ（`df_product`）を直積し、件数を変数`n`に入れてください。そして、`n`を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
n = df_store.join(df_product, how="cross").height
n
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_store.join(df_product, how="cross").height
try:
    assert _ans == n
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題G16`

レシート明細データ（`df_receipt`）と顧客データ（`df_customer`）を次の条件で内部結合し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* キーは、顧客ID（`customer_id`）
* レシート明細データは全列
* 顧客データは、顧客IDと顧客名（`customer_name`）のみ

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.join(
    df_customer.select(col.customer_id, col.customer_name), on=col.customer_id
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.join(
    df_customer.select(col.customer_id, col.customer_name), on=col.customer_id
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## 時間関連の型

時間関連の型は、pl.DateTime, pl.Date, pl.Timeがあります。

文字列（pl.Utf8）とエポック（pl.Int64）と合わせて、それぞれの変換は次のようになります。

※ エポック（UNIX時間）は、1970年1月1日からの形式的な経過時間です。

| 変換元＼変換先 | pl.Utf8         | pl.Int64     | pl.DateTime         | pl.Date         | pl.Time         |
| :------------- | :-------------- | :----------- | :------------------ | :-------------- | :-------------- |
| pl.Utf8        | <hr>            | <hr>         | `str.to_datetime()` | `str.to_date()` | `str.to_time()` |
| pl.Int64       | <hr>            | <hr>         | `cast(pl.Datetime)` | <hr>            | <hr>            |
| pl.DateTime    | `dt.strftime()` | `dt.epoch()` | `dt.combine()`      | `dt.date()`     | `dt.time()`     |
| pl.Date        | `dt.strftime()` | `dt.epoch()` | `dt.combine()`      | <hr>            | <hr>            |
| pl.Time        | `dt.strftime()` | <hr>         | <hr>                | <hr>            | <hr>            |

※ `str.to_datetime()`などは、書式が必要です。

※ `cast(pl.Datetime)`はエポックマイクロ秒から日時への変換です。

※ `dt.epoch()`は引数の単位時間のエポックです。デフォルトはマイクロ秒です。

**pl.Duration**

日時同士の差（時間間隔）を計算できます。結果の型はpl.Durationです。

また、日付同士の差もpl.Durationになります。

pl.Durationは、日時や日付に足すことができます。

**strftimeで使える書式**

https://docs.rs/chrono/latest/chrono/format/strftime/index.html

**その他の関数**

* `pl.datetime_range()`: 指定した範囲の日時の作成
* `pl.date_range()`: 指定した範囲の日付の作成
* `pl.from_epoch()`: エポックから日時や日付への変換


---

### `問題H10`

顧客データ（`df_customer`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* 顧客ID（`customer_id`）
* 申し込み日（`application_date`）
  * YYYYMMDD形式の文字列型を日付型に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_customer.select(
    col.customer_id, col.application_date.str.to_date("%Y%m%d")
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_customer.select(
    col.customer_id, col.application_date.str.to_date("%Y%m%d")
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H12`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上年月日（`sales_ymd`）
  * YYYYMMDD形式の整数型を日付型に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d"),
)
df.head(3)
```
`sales_ymd`はエポックではないので、`cast(pl.Datetime)`は使えません。
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d"),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H14`

レシート明細データ（`df_receipt`）の売上年月日（`sales_ymd`）を日付型に変換し全列を、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.with_columns(
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d")
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.with_columns(
    col.sales_ymd.cast(pl.Utf8).str.to_date("%Y%m%d")
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H16`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上エポック秒（`sales_epoch`）
  * 数値型のUNIX時間（秒）を日付型に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    pl.from_epoch(col.sales_epoch).dt.date(),
)
df.head(3)
```
**別解**
```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    (col.sales_epoch * 1000000).cast(pl.Datetime).dt.date(),
)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    pl.from_epoch(col.sales_epoch).dt.date(),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H18`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上エポック秒（`sales_epoch`）
  * 列名を`sales_year`とし、年に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_year=pl.from_epoch(col.sales_epoch).dt.year(),
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_year=pl.from_epoch(col.sales_epoch).dt.year(),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

### `問題H20`

レシート明細データ（`df_receipt`）から次の列を選択し、変数`df`に入れてください。そして、`df`の先頭の3行を表示してください。

* レシート番号（`receipt_no`）
* レシートサブ番号（`receipt_sub_no`）
* 売上エポック秒（`sales_epoch`）
  * 列名を`sales_month`とし、**0埋めの2桁の月**に変換すること
* 売上エポック秒（`sales_epoch`）
  * 列名を`sales_day`とし、**0埋めの2桁の日**に変換すること

**解答欄**

In [None]:
# ここから解答を作成してください


<details><summary>解答例</summary>
<br>

```python
df = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_month=pl.from_epoch(col.sales_epoch).dt.strftime("%m"),
    sales_day=pl.from_epoch(col.sales_epoch).dt.strftime("%d"),
)
df.head(3)
```
</details>
<br>

**確認**

In [None]:
# このセルを実行してください
_ans = df_receipt.select(
    col.receipt_no,
    col.receipt_sub_no,
    sales_month=pl.from_epoch(col.sales_epoch).dt.strftime("%m"),
    sales_day=pl.from_epoch(col.sales_epoch).dt.strftime("%d"),
)
try:
    assert _ans.equals(df)
except (AssertionError, NameError):
    print("\x1b[31mNG\x1b[39m")
else:
    print("\x1b[32mOK\x1b[39m")

---

## 式のメソッド

round
ceil
floor
abs
cast

rank

diff

shift

cut

qcut


## DataFrameのメソッド

**`fill_null()`**

次のようにしてnullを別の値で補完できます。

```
df.fill_null(値)
```

drop_nulls

map_elements

pivot

unpivot

to_dummies

sample


## チャレンジ

