# 前処理100本ノック（Polars）

In [1]:
# ライブラリのimport
import ibis
from ibis import _
import numpy as np
import polars as pl
from sklearn.model_selection import train_test_split, TimeSeriesSplit


ibis.options.interactive = True
ibis.set_backend("duckdb")

# DataFrameの作成
df_category = ibis.read_csv("../data/category.csv")
df_customer = ibis.read_csv("../data/customer.csv").cast({"gender_cd": str})
df_geocode = ibis.read_csv("../data/geocode.csv")
df_product = ibis.read_csv("../data/product.csv")
df_receipt = ibis.read_csv("../data/receipt.csv")
df_store = ibis.read_csv("../data/store.csv").cast({"prefecture_cd": str})

# 演習問題
## 表示

---
> P-001: レシート明細データ（df_receipt）から全項目の先頭10件を表示し、どのようなデータを保有しているか目視で確認せよ。

In [2]:
df_receipt.head(10)

In [3]:
# スライスでも可能
df_receipt[:10]

---
> P-002: レシート明細データ（df_receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、10件表示せよ。

In [4]:
# DataFrameから特定の列を選択する場合は.select()メソッドを用いる
# .select()メソッドの中身はリスト型で渡してもいい
df_receipt.select("sales_ymd", "customer_id", "product_cd", "amount").head(10)

---
> P-003: レシート明細データ（df_receipt）から売上年月日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、5件表示せよ。ただし、sales_ymdをsales_dateに項目名を変更しながら抽出すること。

In [5]:
# renameは辞書形式で行う（Polarsと逆で、{変更後: 変更前}）

df_003 = (
    df_receipt
    .select(["sales_ymd", "customer_id", "product_cd","amount"])
    .rename({"sales_date": "sales_ymd"})
)

df_003.head()

## 抽出

---
> P-004: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"

In [6]:
df_004 = (
    df_receipt
    .select("sales_ymd", "customer_id", "product_cd", "amount")
    .filter(df_receipt["customer_id"] == "CS018205000001")
)

df_004.head()

---
> P-005: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上

In [7]:
# &や|で繋ぐときは()で囲ってあげること

df_005 = (
    df_receipt
    .select("sales_ymd", "customer_id", "product_cd", "amount")
    .filter(
        (df_receipt["customer_id"] == "CS018205000001")
        & (df_receipt["amount"] >= 1000)
    )
)

df_005.head()

---
> P-006: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上数量（quantity）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上または売上数量（quantity）が5以上

In [8]:
df_006 = (
    df_receipt
    .select("sales_ymd", "customer_id", "product_cd", "quantity", "amount")
    .filter(
        (df_receipt["customer_id"] == "CS018205000001")
        & ((df_receipt["amount"] >= 1000) | (df_receipt["quantity"] > 5))
    )
)

df_006.head()

---
> P-007: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 売上金額（amount）が1,000以上2,000以下

In [9]:
df_007 = (
    df_receipt.select("sales_ymd", "customer_id", "product_cd", "amount")
    .filter(
        (df_receipt["customer_id"] == "CS018205000001")
        & ((df_receipt["amount"] >= 1000) & (df_receipt["amount"] <= 2000))
    )
)

df_007.head()

In [10]:
df_007 = (
    df_receipt.select("sales_ymd", "customer_id", "product_cd", "amount")
    .filter(
        (df_receipt["customer_id"] == "CS018205000001")
        & (df_receipt["amount"].between(1000, 2000))
    )
)

df_007.head()

---
> P-008: レシート明細データ（df_receipt）から売上日（sales_ymd）、顧客ID（customer_id）、商品コード（product_cd）、売上金額（amount）の順に列を指定し、以下の全ての条件を満たすデータを抽出せよ。
> - 顧客ID（customer_id）が"CS018205000001"
> - 商品コード（product_cd）が"P071401019"以外

In [11]:
df_008 = (
    df_receipt.select("sales_ymd", "customer_id", "product_cd", "amount")
    .filter(
        (df_receipt["customer_id"] == "CS018205000001")
        & (df_receipt["product_cd"] != "P071401019")
    )
)

df_008

---
> P-009: 以下のPandas処理において、出力結果を変えずにORをANDに書き換え、Ibisで表現せよ。
> 
> pandas:`df_store.query('not(prefecture_cd == "13" | floor_area > 900)')` <br>

In [12]:
df_009 = df_store.filter(
    (df_store["prefecture_cd"] != "13")
    & (df_store["floor_area"] <= 900)
)

df_009

---
> P-010: 店舗データ（df_store）から、店舗コード（store_cd）が"S14"で始まるものだけ全項目抽出し、5件表示せよ。

In [13]:
df_010 = df_store.filter(df_store["store_cd"].startswith("S14"))

df_010.head()

---
> P-011: 顧客データ（df_customer）から顧客ID（customer_id）の末尾が1のものだけ全項目抽出し、5件表示せよ。

In [14]:
df_011 = df_customer.filter(df_customer["customer_id"].endswith(1))

df_011.head()

---
> P-012: 店舗データ（df_store）から、住所 (address) に"横浜市"が含まれるものだけ全項目表示せよ。

In [15]:
df_012 = df_store.filter(df_store["address"].contains("横浜市"))

df_012

---
> P-013: 顧客データ（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まるデータを全項目抽出し、5件表示せよ。

先頭の文字は`^`で表す(https://qiita.com/luohao0404/items/7135b2b96f9b0b196bf3 参照)

In [16]:
df_013 = df_customer.filter(df_customer["status_cd"].re_search(r"^[A-F]"))

df_013.head()

---
> P-014: 顧客データ（df_customer）から、ステータスコード（status_cd）の末尾が数字の1〜9で終わるデータを全項目抽出し、5件表示せよ。

最後尾の文字は`$`で表す

In [17]:
df_014 = df_customer.filter(df_customer["status_cd"].re_search(r"[1-9]$"))

df_014.head()

---
> P-015: 顧客データ（df_customer）から、ステータスコード（status_cd）の先頭がアルファベットのA〜Fで始まり、末尾が数字の1〜9で終わるデータを全項目抽出し、5件表示せよ。

In [18]:
df_015 = df_customer.filter(df_customer["status_cd"].re_search(r"^[A-F].*[1-9]$"))

df_015.head()

---
> P-016: 店舗データ（df_store）から、電話番号（tel_no）が3桁-3桁-4桁のデータを全項目表示せよ。

In [19]:
df_016 = df_store.filter(df_store["tel_no"].re_search("[0-9]{3}-[0-9]{3}-[0-9]{4}"))

df_016

## ソート

---
> P-017: 顧客データ（df_customer）を生年月日（birth_day）で高齢順にソートし、先頭から全項目を5件表示せよ。


In [20]:
df_017 = df_customer.order_by("birth_day")

df_017.head()

---
> P-018: 顧客データ（df_customer）を生年月日（birth_day）で若い順にソートし、先頭から全項目を5件表示せよ。

In [21]:
# ibis.desc()で降順

df_018 = df_customer.order_by(ibis.desc("birth_day"))

df_018.head()

---
> P-019: レシート明細データ（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合は同一順位を付与するものとする。

- `average`:同じ値のものはランクの平均値になる(例:1, 2, 3, 3, 4, 4, 5) -> rank(1, 2, 3.5, 3.5, 5.5, 5.5, 7)
- `min`:同じ値のものはランクは最小値で表す(例:1, 2, 3, 3, 4, 4, 5) -> rank(1, 2, 3, 3, 5, 5, 7)
- `max`:同じ値のものはランクは最大値で表す(例:1, 2, 3, 3, 4, 4, 5) -> rank(1, 2, 4, 4, 6, 6, 7)
- `dense`:`min`と似ているが、割り当てられるランクはその前のランクの次の値になる(例:1, 2, 3, 3, 4, 4, 5) -> rank(1, 2, 3, 3, 4, 4, 5)
- `ordinal`:`min`と似ているが、同値は値の出現順で重複なしでランクを与えられる
- `random`:`ordinal`と似ているが、同値に与えられるランクはランダム

In [22]:
df_019 = (
    df_receipt
    .select("customer_id", "amount")
    # .mutate(rank=ibis.dense_rank().over(ibis.window(order_by=df_receipt["amount"])))
    .to_polars()
    .with_columns(
        pl.col("amount")
        .rank(method="min", descending=True)
        .alias("ranking")
    )
    .sort("ranking")
)

df_019

customer_id,amount,ranking
str,i64,u32
"""CS011415000006""",10925,1
"""ZZ000000000000""",6800,2
"""CS028605000002""",5780,3
"""CS015515000034""",5480,4
"""ZZ000000000000""",5480,4
…,…,…
"""CS011115000005""",10,104512
"""CS022514000024""",10,104512
"""ZZ000000000000""",10,104512
"""ZZ000000000000""",10,104512


---
> P-020: レシート明細データ（df_receipt）に対し、1件あたりの売上金額（amount）が高い順にランクを付与し、先頭から10件表示せよ。項目は顧客ID（customer_id）、売上金額（amount）、付与したランクを表示させること。なお、売上金額（amount）が等しい場合でも別順位を付与すること。

## 集計

---
> P-021: レシート明細データ（df_receipt）に対し、件数をカウントせよ。

In [23]:
df_receipt.count().execute()  # .to_pandas()つけると値が取得できる

104681

---
> P-022: レシート明細データ（df_receipt）の顧客ID（customer_id）に対し、ユニーク件数をカウントせよ。

In [24]:
df_receipt.select("customer_id").nunique().execute()

8307

---
> P-023: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）と売上数量（quantity）を合計せよ。

In [25]:
df_023 = (
    df_receipt
    .group_by("store_cd")
    # _を利用して表示することも可能
    # .agg(sum_amount=_["amount"].sum(), sum_quantity=_["quantity"].sum())
    .aggregate(
        sum_amount=df_receipt["amount"].sum(),
        sum_quantity=df_receipt["quantity"].sum()
    )
    .order_by("store_cd")
)

df_023

---
> P-024: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）を求め、5件表示せよ。

In [26]:
df_024 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(newest_sales_ymd=df_receipt["sales_ymd"].max())
)

df_024.head(5)

---
> P-025: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに最も古い売上年月日（sales_ymd）を求め、10件表示せよ。

In [27]:
df_025 = (
    df_receipt.group_by("customer_id")
    .aggregate(oldest_sales_ymd=df_receipt["sales_ymd"].min())
)

df_025.head(5)

---
> P-026: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに最も新しい売上年月日（sales_ymd）と古い売上年月日を求め、両者が異なるデータを10件表示せよ。

In [28]:
df_026 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(
        sales_ymd_min=df_receipt["sales_ymd"].min(),
        sales_ymd_max=df_receipt["sales_ymd"].max()
    )
    .filter(_["sales_ymd_min"] != _["sales_ymd_max"])
)

df_026.head(10)

---
> P-027: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、降順でTOP5を表示せよ。

In [29]:
df_027 = (
    df_receipt
    .group_by("store_cd")
    .aggregate(mean_amount=df_receipt["amount"].mean())
    .order_by(ibis.desc("mean_amount"))
)

df_027.head(5)

---
> P-028: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の中央値を計算し、降順でTOP5を表示せよ。

In [30]:
df_028 = (
    df_receipt
    .group_by("store_cd")
    .aggregate(median_amount=df_receipt["amount"].median())
    .order_by(ibis.desc("median_amount"))
)

df_028.head(5)

---
> P-029: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに商品コード（product_cd）の最頻値を求め、10件表示させよ。

In [31]:
df_029 = (
    df_receipt
    .group_by("store_cd")
    .aggregate(
        mode_product_cd=df_receipt["product_cd"].mode(),
        count_product_cd=df_receipt["product_cd"].count()
    )
)

df_029.head(10)

---
> P-030: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の分散を計算し、降順で5件表示せよ。

In [32]:
df_030 = (
    df_receipt
    .group_by("store_cd")
    .aggregate(var_amount=df_receipt["amount"].var())
    .order_by(ibis.desc("var_amount"))
)

df_030.head(5)

---
> P-031: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の標準偏差を計算し、降順で5件表示せよ。

In [33]:
df_031 = (
    df_receipt
    .group_by("store_cd")
    .aggregate(std_amount=df_receipt["amount"].std())
    .order_by(ibis.desc("std_amount"))
)

df_031.head(5)

---
> P-032: レシート明細データ（df_receipt）の売上金額（amount）について、25％刻みでパーセンタイル値を求めよ。

In [34]:
for pct in range(0, 101, 25):
    print(f"{int(pct):<3} パーセンタイル:", df_receipt["amount"].execute().quantile(pct/100))

0   パーセンタイル: 10.0
25  パーセンタイル: 102.0
50  パーセンタイル: 170.0
75  パーセンタイル: 288.0
100 パーセンタイル: 10925.0


---
> P-033: レシート明細データ（df_receipt）に対し、店舗コード（store_cd）ごとに売上金額（amount）の平均を計算し、330以上のものを抽出せよ。

In [35]:
df_033 = (
    df_receipt
    .group_by("store_cd")
    .aggregate(mean_amount=df_receipt["amount"].mean())
    .filter(_["mean_amount"] >= 330)
)
df_033

---
> P-034: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求めよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [36]:
df_034 = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
)

df_034["sum_amount"].mean().execute()

2547.742234529256

---
> P-035: レシート明細データ（df_receipt）に対し、顧客ID（customer_id）ごとに売上金額（amount）を合計して全顧客の平均を求め、平均以上に買い物をしている顧客を抽出し、10件表示せよ。ただし、顧客IDが"Z"から始まるものは非会員を表すため、除外して計算すること。

In [37]:
df_035 = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .filter(_["sum_amount"] >= _["sum_amount"].mean())
    .order_by("customer_id")
)

df_035.head(10)

## DataFrameの結合

---
> P-036: レシート明細データ（df_receipt）と店舗データ（df_store）を内部結合し、レシート明細データの全項目と店舗データの店舗名（store_name）を10件表示せよ。

- 内部結合(inner):結合させる両方のDataFrameに存在する結合キー(on)で、一致する項目のみを抽出する結合方法
- 左外部結合(left):結合させる両方のDataFrameに存在する結合キー(on)で、基準となるDataFrameを左とする。基準DataFrameはすべての行が出力され、結合されたDataFrameは結合キーの値が基準の結合キーと一致した行のみ出力される
- 完全外部結合(outer):結合させる両方のDataFrameに存在する結合キー(on)で、基準となるDataFrameを左とする。基準のDataFrameおよび結合されたDataFrameのすべての行が出力される

In [38]:
df_036 = (
    df_receipt
    .join(
        df_store.select("store_cd", "store_name"),
        predicates="store_cd",
        how="inner"
    )
)

df_036.head(10)

---
> P-037: 商品データ（df_product）とカテゴリデータ（df_category）を内部結合し、商品データの全項目とカテゴリデータのカテゴリ小区分名（category_small_name）を10件表示せよ。

In [39]:
df_037 = (
    df_product
    .join(
        df_category.select("category_small_cd", "category_small_name"),
        predicates="category_small_cd",
        how="inner"
    )
)

df_037.head(10)

---
> P-038: 顧客データ（df_customer）とレシート明細データ（df_receipt）から、顧客ごとの売上金額合計を求め、10件表示せよ。ただし、売上実績がない顧客については売上金額を0として表示させること。また、顧客は性別コード（gender_cd）が女性（1）であるものを対象とし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [40]:
df_038 = (
    df_customer
    .join(df_receipt, predicates="customer_id", how="inner")
    .filter(
        (df_customer["gender_cd"] == "1")
        & (~df_customer["customer_id"].startswith("Z"))
    )
    .group_by("customer_id")
    .aggregate(_["amount"].sum().fill_null(0))
)

df_038.head(10)

---
> P-039: レシート明細データ（df_receipt）から、売上日数の多い顧客の上位20件を抽出したデータと、売上金額合計の多い顧客の上位20件を抽出したデータをそれぞれ作成し、さらにその2つを完全外部結合せよ。ただし、非会員（顧客IDが"Z"から始まるもの）は除外すること。

In [41]:
df_cnt = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sales_count=_["sales_ymd"].nunique())
    .order_by(ibis.desc("sales_count"))
    .head(20)
)

df_sum = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(amount_sum=df_receipt["amount"].sum())
    .order_by(ibis.desc("amount_sum"))
    .head(20)
)

df_039 = (
    df_cnt.join(df_sum, how="outer", predicates="customer_id")
    .order_by(ibis.desc("sales_count"))
)

df_039

---
> P-040: 全ての店舗と全ての商品を組み合わせたデータを作成したい。店舗データ（df_store）と商品データ（df_product）を直積し、件数を計算せよ。

In [42]:
df_040 = (
    df_store.mutate(key=0)
    .join(df_product.mutate(key=0), how="outer", predicates="key")
)

df_040.count()

┌────────┐
│ [1;36m531590[0m │
└────────┘

---
> P-041: レシート明細データ（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、前回売上があった日からの売上金額増減を計算せよ。そして結果を10件表示せよ。

In [43]:
df_041 = (
    df_receipt
    .group_by("sales_ymd")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .order_by("sales_ymd")
    .mutate(
        diff_amount=(_["sum_amount"] - _["sum_amount"].lag(1))
    )
)

df_041.head()

---
> P-042: レシート明細データ（df_receipt）の売上金額（amount）を日付（sales_ymd）ごとに集計し、各日付のデータに対し、前回、前々回、3回前に売上があった日のデータを結合せよ。そして結果を10件表示せよ。

In [44]:
df_042 = (
    df_receipt
    .group_by("sales_ymd")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .order_by("sales_ymd")
    .mutate(lag1=_["sum_amount"].lag(1))
    .mutate(lag2=_["sum_amount"].lag(2))
    .mutate(lag3=_["sum_amount"].lag(3))
    .drop_null()
)


df_042.head(10)

---
> P-043： レシート明細データ（df_receipt）と顧客データ（df_customer）を結合し、性別コード（gender_cd）と年代（ageから計算）ごとに売上金額（amount）を合計した売上サマリデータを作成せよ。性別コードは0が男性、1が女性、9が不明を表すものとする。
>
> ただし、項目構成は年代、女性の売上金額、男性の売上金額、性別不明の売上金額の4項目とすること（縦に年代、横に性別のクロス集計）。また、年代は10歳ごとの階級とすること。

In [45]:
import ibis.selectors as s
df_043 = (
    df_receipt
    .join(df_customer, predicates="customer_id", how="inner")
    .mutate(era=ibis._["age"] // 10 *10).cast({"era": str})
    .pivot_wider(
        id_cols="era",
        names_from="gender_cd",
        values_from="amount",
        values_agg="sum"
    )
    .rename({"female": "1", "male": "0", "unknown": "9"})
    .order_by("era")
)

df_043

---
> P-044： 043で作成した売上サマリデータ（df_sales_summary）は性別の売上を横持ちさせたものであった。このデータから性別を縦持ちさせ、年代、性別コード、売上金額の3項目に変換せよ。ただし、性別コードは男性を"00"、女性を"01"、不明を"99"とする。

In [46]:
df_044 = (
    df_043
    .rename({"01": "female", "00": "male", "99": "unknown"})
    .pivot_longer(
        # col=s.matches("(00)|(01)|(99)"),
        col=[s.c("00"), s.c("01"), s.c("99")],
        names_to="gender_cd",
        values_to="amount"
    )
    .order_by("era", "gender_cd")
)

df_044

## Date型

---
> P-045: 顧客データ（df_customer）の生年月日（birth_day）は日付型でデータを保有している。これをYYYYMMDD形式の文字列に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [47]:
df_045 = (
    df_customer
    .mutate(birth_day=df_customer["birth_day"].strftime("%Y%m%d"))
    .select("customer_id", "birth_day")
)

df_045.head(10)

---
> P-046: 顧客データ（df_customer）の申し込み日（application_date）はYYYYMMDD形式の文字列型でデータを保有している。これを日付型に変換し、顧客ID（customer_id）とともに10件表示せよ。

In [48]:
df_046 = (
    df_customer
    .mutate(application_date=df_customer["application_date"].cast(str).to_date("%Y%m%d"))
    .select("customer_id", "application_date")
)

df_046.head(10)

---
> P-047: レシート明細データ（df_receipt）の売上日（sales_ymd）はYYYYMMDD形式の数値型でデータを保有している。これを日付型に変換し、レシート番号（receipt_no）、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [49]:
df_047 = (
    df_receipt
    .mutate(sales_ymd=df_receipt["sales_ymd"].cast(str).to_date("%Y%m%d"))
    .select(
        "receipt_no",
        "receipt_sub_no",
        "sales_ymd"
    )
)

df_047.head()

---
> P-048: レシート明細データ（df_receipt）の売上エポック秒（sales_epoch）は数値型のUNIX秒でデータを保有している。これを日付型に変換し、レシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [50]:
# Polarsに変換しています

df_048 = (
    df_receipt
    .to_polars()
    .select(
        "receipt_no", "receipt_sub_no",
        pl.col("sales_epoch").cast(dtype=pl.Utf8).str.strptime(dtype=pl.Datetime, format="%s"),
    )
)

df_048.head(10)

receipt_no,receipt_sub_no,sales_epoch
i64,i64,datetime[μs]
112,1,2018-11-03 00:00:00
1132,2,2018-11-18 00:00:00
1102,1,2017-07-12 00:00:00
1132,1,2019-02-05 00:00:00
1102,2,2018-08-21 00:00:00
1112,1,2019-06-05 00:00:00
1102,2,2018-12-05 00:00:00
1102,1,2019-09-22 00:00:00
1112,2,2017-05-04 00:00:00
1102,1,2019-10-10 00:00:00


---
> P-049: レシート明細データ（df_receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「年」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。

In [51]:
# Polarsに変換しています

df_049 = df_receipt.to_polars().select(
    "receipt_no", "receipt_sub_no",
    pl.col("sales_epoch").cast(dtype=pl.Utf8).str.strptime(dtype=pl.Datetime, format="%s").dt.year(),
)


df_049.head(10)

receipt_no,receipt_sub_no,sales_epoch
i64,i64,i32
112,1,2018
1132,2,2018
1102,1,2017
1132,1,2019
1102,2,2018
1112,1,2019
1102,2,2018
1102,1,2019
1112,2,2017
1102,1,2019


---
> P-050: レシート明細データ（df_receipt）の売上エポック秒（sales_epoch）を日付型に変換し、「月」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「月」は0埋め2桁で取り出すこと。

In [52]:
# Polarsに変換しています

df_050 = df_receipt.to_polars().select(
    "receipt_no", "receipt_sub_no",
    # 0埋めなので文字列"strftime"で抽出
    pl.col("sales_epoch").cast(dtype=pl.Utf8).str.strptime(dtype=pl.Datetime, format="%s").dt.strftime("%m"),
)

df_050.head(10)

receipt_no,receipt_sub_no,sales_epoch
i64,i64,str
112,1,"""11"""
1132,2,"""11"""
1102,1,"""07"""
1132,1,"""02"""
1102,2,"""08"""
1112,1,"""06"""
1102,2,"""12"""
1102,1,"""09"""
1112,2,"""05"""
1102,1,"""10"""


---
> P-051: レシート明細データ（df_receipt）の売上エポック秒を日付型に変換し、「日」だけ取り出してレシート番号(receipt_no)、レシートサブ番号（receipt_sub_no）とともに10件表示せよ。なお、「日」は0埋め2桁で取り出すこと。

In [53]:
df_051 = df_receipt.to_polars().select(
    "receipt_no", "receipt_sub_no",
    pl.col("sales_epoch").cast(dtype=pl.Utf8).str.strptime(dtype=pl.Datetime, format="%s").dt.strftime("%d"),
)

df_051.head()

receipt_no,receipt_sub_no,sales_epoch
i64,i64,str
112,1,"""03"""
1132,2,"""18"""
1102,1,"""12"""
1132,1,"""05"""
1102,2,"""21"""


## 条件分岐

---
> P-052: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計の上、売上金額合計に対して2,000円以下を0、2,000円より大きい金額を1に二値化し、顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [54]:
df_052 = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .mutate(
        sales_flag=(
            ibis.case()
            .when(_["sum_amount"] <= 2000, 1)
            .else_(0)
            .end()
        )
    )
)

df_052.head(10)

---
> P-053: 顧客データ（df_customer）の郵便番号（postal_cd）に対し、東京（先頭3桁が100〜209のもの）を1、それ以外のものを0に二値化せよ。さらにレシート明細データ（df_receipt）と結合し、全期間において売上実績のある顧客数を、作成した二値ごとにカウントせよ。

In [55]:
df_053 = (
    df_customer
    .mutate(
        postal_flag=(
            ibis.case()
            .when(df_customer["postal_cd"][:3].cast(int).between(100, 209), 1)
            .else_(0)
            .end()
        )
    )
    .join(df_receipt, predicates="customer_id", how="inner")
    .group_by("postal_flag")
    .aggregate(customer_id_n_unique=_["customer_id"].nunique())
)

df_053

---
> P-054: 顧客データ（df_customer）の住所（address）は、埼玉県、千葉県、東京都、神奈川県のいずれかとなっている。都道府県毎にコード値を作成し、顧客ID、住所とともに10件表示せよ。値は埼玉県を11、千葉県を12、東京都を13、神奈川県を14とすること。

In [56]:
df_054 = (
    df_customer
    .select("customer_id", "address")
    .mutate(
        prefecture_cd=(
            ibis.case()
            .when(df_customer["address"].startswith("埼玉県"), "11")
            .when(df_customer["address"].startswith("千葉県"), "12")
            .when(df_customer["address"].startswith("東京都"), "13")
            .when(df_customer["address"].startswith("神奈川県"), "14")
            .else_("00")
            .end()
        )
    )
)

df_054.head(10)

---
> P-055: レシート明細（df_receipt）データの売上金額（amount）を顧客ID（customer_id）ごとに合計し、その合計金額の四分位点を求めよ。その上で、顧客ごとの売上金額合計に対して以下の基準でカテゴリ値を作成し、顧客ID、売上金額合計とともに10件表示せよ。カテゴリ値は順に1〜4とする。
>
> - 最小値以上第1四分位未満 ・・・ 1を付与
> - 第1四分位以上第2四分位未満 ・・・ 2を付与
> - 第2四分位以上第3四分位未満 ・・・ 3を付与
> - 第3四分位以上 ・・・ 4を付与

In [57]:
df_055 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .order_by("customer_id")
    .mutate(
        pct_group=(
            ibis.case()
            .when(_["sum_amount"] < _["sum_amount"].execute().quantile(0.25), 1)
            .when(_["sum_amount"] < _["sum_amount"].execute().quantile(0.50), 2)
            .when(_["sum_amount"] < _["sum_amount"].execute().quantile(0.75), 3)
            .else_(4)
            .end()
        )
    )
)

df_055.head(10)

---
> P-056: 顧客データ（df_customer）の年齢（age）をもとに10歳刻みで年代を算出し、顧客ID（customer_id）、生年月日（birth_day）とともに10件表示せよ。ただし、60歳以上は全て60歳代とすること。年代を表すカテゴリ名は任意とする。

In [58]:
df_056 = (
    df_customer
    .mutate(era=df_customer["age"] // 10 * 10)
    .select("customer_id", "birth_day", "era")
    .mutate(
        era=ibis.case()
        .when(_["era"] >= 60, 60)
        .else_(_["era"])
        .end()
    )
)

df_056.head(10)

---
> P-057: 056の抽出結果と性別コード（gender_cd）により、新たに性別×年代の組み合わせを表すカテゴリデータを作成し、10件表示せよ。組み合わせを表すカテゴリの値は任意とする。

In [59]:
df_057 = (
    df_056.join(df_customer, predicates="customer_id", how="inner")
    .mutate(
        gender_era=_["gender_cd"] + _["era"].cast(str)
    )
    .select("customer_id", "birth_day", "era", "gender_era")
)

df_057.head(10)

---
> P-058: 顧客データ（df_customer）の性別コード（gender_cd）をダミー変数化し、顧客ID（customer_id）とともに10件表示せよ。

In [60]:
# できていない

## 統計処理

---
> P-059: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を平均0、標準偏差1に標準化して顧客ID、売上金額合計とともに10件表示せよ。標準化に使用する標準偏差は、分散の平方根、もしくは不偏分散の平方根のどちらでも良いものとする。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

- 標準化
$$
x_{new}^i = \frac{x^i - \mu}{\sigma}
$$

In [61]:
df_059 = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .mutate(
        stdardized_amount=(
            (_["sum_amount"] - _["sum_amount"].mean()) / (_["sum_amount"].std())
        )
    )
    .order_by("customer_id")
)

df_059.head(10)

---
> P-060: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を最小値0、最大値1に正規化して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

- 正規化
$$
x_{new}^i = \frac{x^i - x_{min}}{x_{max} - x_{min}}
$$

In [62]:
df_060 = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .mutate(
        normalized_amount=(
            (_["sum_amount"] - _["sum_amount"].min())
            / (_["sum_amount"].max() - _["sum_amount"].min())
        )
    )
    .order_by("customer_id")
)

df_060.head(10)

---
> P-061: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を常用対数化（底10）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [63]:
df_061 = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .mutate(log10_amount=_["sum_amount"].log10())
    .order_by("customer_id")
)

df_061.head(10)

---
> P-062: レシート明細データ（df_receipt）の売上金額（amount）を顧客ID（customer_id）ごとに合計し、売上金額合計を自然対数化（底e）して顧客ID、売上金額合計とともに10件表示せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。

In [64]:
df_062 = (
    df_receipt
    .filter(~df_receipt["customer_id"].startswith("Z"))
    .group_by("customer_id")
    .aggregate(sum_amount=df_receipt["amount"].sum())
    .mutate(log10_amount=_["sum_amount"].ln())
    .order_by("customer_id")
)

df_062.head(10)

---
> P-063: 商品データ（df_product）の単価（unit_price）と原価（unit_cost）から各商品の利益額を算出し、結果を10件表示せよ。

In [65]:
df_063 = (
    df_product
    .mutate(unit_profit=(df_product["unit_price"] - df_product["unit_cost"]))
    .select("product_cd", "unit_price", "unit_cost", "unit_profit")
)

df_063.head(10)

---
> P-064: 商品データ（df_product）の単価（unit_price）と原価（unit_cost）から、各商品の利益率の全体平均を算出せよ。ただし、単価と原価には欠損が生じていることに注意せよ。

In [66]:
df_064 = (
    df_product
    .mutate(unit_profit_rate=(df_product["unit_price"] - df_product["unit_cost"])/(df_product["unit_price"]))
)

df_064["unit_profit_rate"].mean().execute()

0.24911389885176904

---
> P-065: 商品データ（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。ただし、1円未満は切り捨てること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [67]:
df_065 = (
    df_product
    .filter((~df_product["unit_price"].isnull()) & (~df_product["unit_cost"].isnull()))
    .select("product_cd", "unit_price", "unit_cost")
    .mutate(new_price=(_["unit_cost"] / 0.7).floor().cast(int))
    .mutate(new_profit_rate=(
        (_["new_price"] - _["unit_cost"])/_["new_price"]
    ))
    .order_by("product_cd")
)

df_065.head(10)

---
> P-066: 商品データ（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を丸めること（四捨五入または偶数への丸めで良い）。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [68]:
df_066 = (
    df_product
    .filter((~df_product["unit_price"].isnull()) & (~df_product["unit_cost"].isnull()))
    .select("product_cd", "unit_price", "unit_cost")
    .mutate(new_price=(_["unit_cost"] / 0.7).round().cast(int))
    .mutate(new_profit_rate=(
        (_["new_price"] - _["unit_cost"])/_["new_price"]
    ))
    .order_by("product_cd")
)

df_066.head()

---
> P-067: 商品データ（df_product）の各商品について、利益率が30%となる新たな単価を求めよ。今回は、1円未満を切り上げること。そして結果を10件表示させ、利益率がおよそ30％付近であることを確認せよ。ただし、単価（unit_price）と原価（unit_cost）には欠損が生じていることに注意せよ。

In [69]:
df_067 = (
    df_product
    .filter((~df_product["unit_price"].isnull()) & (~df_product["unit_cost"].isnull()))
    .select("product_cd", "unit_price", "unit_cost")
    .mutate(new_price=(_["unit_cost"] / 0.7).ceil().cast(int))
    .mutate(new_profit_rate=(
        (_["new_price"] - _["unit_cost"])/_["new_price"]
    ))
    .order_by("product_cd")
)

df_067.head()

---
> P-068: 商品データ（df_product）の各商品について、消費税率10％の税込み金額を求めよ。1円未満の端数は切り捨てとし、結果を10件表示せよ。ただし、単価（unit_price）には欠損が生じていることに注意せよ。

In [70]:
df_068 = (
    df_product
    .filter(~df_product["unit_price"].isnull())
    .select("product_cd", "unit_price")
    .mutate(tax_price=(_["unit_price"] * 1.1).cast(int))
    .order_by("product_cd")
)

df_068.head(10)

---
> P-069: レシート明細データ（df_receipt）と商品データ（df_product）を結合し、顧客毎に全商品の売上金額合計と、カテゴリ大区分コード（category_major_cd）が"07"（瓶詰缶詰）の売上金額合計を計算の上、両者の比率を求めよ。抽出対象はカテゴリ大区分コード"07"（瓶詰缶詰）の売上実績がある顧客のみとし、結果を10件表示せよ。

In [71]:
df_069 = (
    df_receipt
    .join(df_product, predicates="product_cd", how="inner")
    .mutate(category_07_sell=(
        ibis.case()
        .when(
            _["category_major_cd"].startswith("07"),
            _["unit_price"] * _["quantity"]
        )
        .end()
    ))
    .group_by("customer_id")
    .aggregate(sum_all=_["amount"].sum(), sum_07=_["category_07_sell"].sum())
    .filter(~_["sum_07"].isnull())
    .mutate(sales_rate=(_["sum_07"] / _["sum_all"]))
    .order_by("customer_id")
)

df_069.head(10)

## Date型の計算

---
> P-070: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、顧客データ（df_customer）の会員申込日（application_date）からの経過日数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。

In [72]:
df_070 = (
    df_receipt
    .select("customer_id", "sales_ymd")
    .join(
        df_customer.select("customer_id", "application_date"),
        predicates="customer_id",
        how="inner"
    )
    .mutate(
        sales_ymd=_["sales_ymd"].cast(str).to_date("%Y%m%d"),
        application_date=_["application_date"].cast(str).to_date("%Y%m%d"),
    )
    .mutate(
        elapsed_date=_["sales_ymd"].delta(_["application_date"], "day")
    )
    .order_by("customer_id")
)

df_070.head(10)

---
> P-071: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、顧客データ（df_customer）の会員申込日（application_date）からの経過月数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1ヶ月未満は切り捨てること。

In [73]:
df_071 = (
    df_receipt
    .select("customer_id", "sales_ymd")
    .join(
        df_customer.select("customer_id", "application_date"),
        predicates="customer_id",
        how="inner"
    )
    .mutate(
        sales_ymd=_["sales_ymd"].cast(str).to_date("%Y%m%d"),
        application_date=_["application_date"].cast(str).to_date("%Y%m%d"),
    )
    .mutate(
        elapsed_month=_["sales_ymd"].delta(_["application_date"], "month")
    )
    .order_by("customer_id")
)

df_071.head(10)

---
> P-072: レシート明細データ（df_receipt）の売上日（df_customer）に対し、顧客データ（df_customer）の会員申込日（application_date）からの経過年数を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。1年未満は切り捨てること。

In [74]:
df_072 = (
    df_receipt
    .select("customer_id", "sales_ymd")
    .join(
        df_customer.select("customer_id", "application_date"),
        predicates="customer_id",
        how="inner"
    )
    .mutate(
        sales_ymd=_["sales_ymd"].cast(str).to_date("%Y%m%d"),
        application_date=_["application_date"].cast(str).to_date("%Y%m%d"),
    )
    .mutate(
        elapsed_year=_["sales_ymd"].delta(_["application_date"], "year")
    )
)

df_072.head(10)

---
> P-073: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、顧客データ（df_customer）の会員申込日（application_date）からのエポック秒による経過時間を計算し、顧客ID（customer_id）、売上日、会員申込日とともに10件表示せよ（なお、sales_ymdは数値、application_dateは文字列でデータを保持している点に注意）。なお、時間情報は保有していないため各日付は0時0分0秒を表すものとする。

In [75]:
df_073 = (
    df_receipt
    .select("customer_id", "sales_ymd")
    .join(
        df_customer.select("customer_id", "application_date"),
        predicates="customer_id",
        how="inner"
    )
    .mutate(
        sales_ymd=_["sales_ymd"].cast(str).to_date("%Y%m%d"),
        application_date=_["application_date"].cast(str).to_date("%Y%m%d"),
    )
    .mutate(
        elapsed_epoch=_["sales_ymd"].delta(_["application_date"], "second")
    )
    .order_by("customer_id")
)

df_073.head()

---
> P-074: レシート明細データ（df_receipt）の売上日（sales_ymd）に対し、当該週の月曜日からの経過日数を計算し、売上日、直前の月曜日付とともに10件表示せよ（sales_ymdは数値でデータを保持している点に注意）。

In [76]:
#

## ランダム抽出

---
> P-075:顧客データ（df_customer）からランダムに1%のデータを抽出し、先頭から10件表示せよ。

In [77]:
df_075 = df_customer.sample(fraction=0.01)  # ランダム抽出

df_075.head(10)

---
> P-076: 顧客データ（df_customer）から性別コード（gender_cd）の割合に基づきランダムに10%のデータを層化抽出し、性別コードごとに件数を集計せよ。

In [78]:
#

## 外れ値と欠損値

---
> P-077: レシート明細データ（df_receipt）の売上金額を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。なお、外れ値は売上金額合計を対数化したうえで平均と標準偏差を計算し、その平均から3σを超えて離れたものとする（自然対数と常用対数のどちらでも可）。結果は10件表示せよ。

In [79]:
df_077 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(sum_amount=_["amount"].sum())
    .mutate(log_amount=_["sum_amount"].ln())
    .filter(
        (
            (_["log_amount"] - _["log_amount"].mean()).abs() > (_["log_amount"].std() * 3)
        )
    )
)

df_077.head(10)

---
> P-078: レシート明細データ（df_receipt）の売上金額（amount）を顧客単位に合計し、合計した売上金額の外れ値を抽出せよ。ただし、顧客IDが"Z"から始まるのものは非会員を表すため、除外して計算すること。なお、ここでは外れ値を第1四分位と第3四分位の差であるIQRを用いて、「第1四分位数-1.5×IQR」を下回るもの、または「第3四分位数+1.5×IQR」を超えるものとする。結果は10件表示せよ。

In [80]:
df_078 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(sum_amount=_["amount"].sum())
    .filter(
        (~_["customer_id"].startswith("Z"))
        & (_["sum_amount"] < _["sum_amount"].quantile(0.25) - 1.5 * (_["sum_amount"].quantile(0.75) - _["sum_amount"].quantile(0.25)))
        | (_["sum_amount"] > _["sum_amount"].quantile(0.25) + 1.5 * (_["sum_amount"].quantile(0.75) + _["sum_amount"].quantile(0.25)))
    )
    .order_by("customer_id")
)

df_078.head(10)

---
> P-079: 商品データ（df_product）の各項目に対し、欠損数を確認せよ。

In [81]:
df_product

In [82]:
df_product.sql(
    f"""
    SELECT COUNT(CASE WHEN unit_price IS NULL THEN 1 END) As null_count
    FROM {df_product.get_name()}
    """
).execute().to_numpy()[0][0]

7

In [83]:
df_product.get_name()

'ibis_read_csv_rm5zornt3naw7pbnpa63sdzr4m'

In [84]:
for col in df_product.columns:
    count = df_product.sql(
        f"""
        SELECT COUNT(CASE WHEN {col} IS NULL THEN 1 END) As null_count
        FROM {df_product.get_name()}
        """
    ).execute().to_numpy()[0][0]
    print(f"{col}\tNullの数:", count)

product_cd	Nullの数: 0
category_major_cd	Nullの数: 0
category_medium_cd	Nullの数: 0
category_small_cd	Nullの数: 0
unit_price	Nullの数: 7
unit_cost	Nullの数: 7


In [85]:
df_product.to_pandas().isnull().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            7
unit_cost             7
dtype: int64

---
> P-080: 商品データ（df_product）のいずれかの項目に欠損が発生しているレコードを全て削除した新たな商品データを作成せよ。なお、削除前後の件数を表示させ、079で確認した件数だけ減少していることも確認すること。

In [86]:
print("削除前:", df_product.count().execute())
print("削除後:", df_product.drop_null().count().execute())

削除前: 10030
削除後: 10023


---
> P-081: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの平均値で補完した新たな商品データを作成せよ。なお、平均値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [87]:
df_081 = (
    df_product
    .mutate(unit_cost=df_product["unit_cost"].cast(float),
            unit_price=df_product["unit_price"].cast(float))
    .fill_null(
        {
            "unit_cost": int(df_product["unit_cost"].mean().execute()),
            "unit_price": int(df_product["unit_price"].mean().execute())
        }
    )
)

df_081.to_pandas().isnull().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64

---
> P-082: 単価（unit_price）と原価（unit_cost）の欠損値について、それぞれの中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [88]:
df_082 = (
    df_product
    .mutate(unit_cost=df_product["unit_cost"].cast(float),
            unit_price=df_product["unit_price"].cast(float))
    .fill_null(
        {
            "unit_cost": int(df_product["unit_cost"].median().execute()),
            "unit_price": int(df_product["unit_price"].median().execute())
        }
    )
)

df_082.to_pandas().isnull().sum()

product_cd            0
category_major_cd     0
category_medium_cd    0
category_small_cd     0
unit_price            0
unit_cost             0
dtype: int64

---
> P-083: 単価（unit_price）と原価（unit_cost）の欠損値について、各商品のカテゴリ小区分コード（category_small_cd）ごとに算出した中央値で補完した新たな商品データを作成せよ。なお、中央値については1円未満を丸めること（四捨五入または偶数への丸めで良い）。補完実施後、各項目について欠損が生じていないことも確認すること。

In [89]:
df_083 = (
    df_product
    .group_by("category_small_cd")
    .aggregate(
        median_price=_["unit_price"].median(),
        median_cost=_["unit_cost"].median()
    )
    .join(df_product, how="inner", predicates="category_small_cd")
    .mutate(
        unit_price=(
            ibis.case()
            .when(_["unit_price"].isnull(), _["median_price"])
            .else_(_["unit_price"])
            .end()
        ),
        unit_cost=(
            ibis.case()
            .when(_["unit_cost"].isnull(), _["median_cost"])
            .else_(_["unit_cost"])
            .end()
        )
    )
)

df_083.to_pandas().isnull().sum()

category_small_cd     0
median_price          0
median_cost           0
product_cd            0
category_major_cd     0
category_medium_cd    0
unit_price            0
unit_cost             0
dtype: int64

## 応用

---
> P-084: 顧客データ（df_customer）の全顧客に対して全期間の売上金額に占める2019年売上金額の割合を計算し、新たなデータを作成せよ。ただし、売上実績がない場合は0として扱うこと。そして計算した割合が0超のものを抽出し、結果を10件表示せよ。また、作成したデータに欠損が存在しないことを確認せよ。

In [90]:
df_084 = (
    df_receipt
    .filter((20190101 <= df_receipt["sales_ymd"]) & (df_receipt["sales_ymd"] <= 20191231))
    .group_by("customer_id")
    .aggregate(amount_2019=_["amount"].sum())
    .join(
        df_receipt.group_by("customer_id").aggregate(amount_all=df_receipt["amount"].sum()),
        how="inner", predicates="customer_id"
    )
    .mutate(
        amount_2019=_["amount_2019"].fill_null(0).name("amount_2019"),
        amount_all=_["amount_all"].fill_null(0).name("amount_all"),
        amount_rate=(
            ibis.case()
            .when(_["amount_2019"] == 0, 0)
            .else_(_["amount_2019"]/_["amount_all"])
            .end()
        )
    )
    .filter(_["amount_rate"] > 0)
)

df_084.to_pandas().isnull().sum()

customer_id    0
amount_2019    0
amount_all     0
amount_rate    0
dtype: int64

---
> P-085: 顧客データ（df_customer）の全顧客に対し、郵便番号（postal_cd）を用いてジオコードデータ（df_geocode）を紐付け、新たな顧客データを作成せよ。ただし、1つの郵便番号（postal_cd）に複数の経度（longitude）、緯度（latitude）情報が紐づく場合は、経度（longitude）、緯度（latitude）の平均値を算出して使用すること。また、作成結果を確認するために結果を10件表示せよ。

In [91]:
df_085 = df_customer.join(
    df_geocode.group_by("postal_cd").aggregate(
        longitude=_["longitude"].mean(),
        latitude=_["latitude"].mean()
    ),
    how="inner", predicates="postal_cd"
).order_by("customer_id")

df_085.head(10)

---
> P-086: 085で作成した緯度経度つき顧客データに対し、会員申込店舗コード（application_store_cd）をキーに店舗データ（df_store）と結合せよ。そして申込み店舗の緯度（latitude）・経度情報（longitude)と顧客住所（address）の緯度・経度を用いて申込み店舗と顧客住所の距離（単位：km）を求め、顧客ID（customer_id）、顧客住所（address）、店舗住所（address）とともに表示せよ。計算式は以下の簡易式で良いものとするが、その他精度の高い方式を利用したライブラリを利用してもかまわない。結果は10件表示せよ。

$$
\begin{aligned}
& longitude(radian)：\phi \\
& latitude(radian)：\lambda \\
& distance, L = 6371 * \arccos(\sin \phi_1 * \sin \phi_2 + \cos \phi_1 * \cos \phi_2 * \cos(\lambda_1 − \lambda_2))
\end{aligned}
$$

---
> P-087: 顧客データ（df_customer）では、異なる店舗での申込みなどにより同一顧客が複数登録されている。名前（customer_name）と郵便番号（postal_cd）が同じ顧客は同一顧客とみなして1顧客1レコードとなるように名寄せした名寄顧客データを作成し、顧客データの件数、名寄顧客データの件数、重複数を算出せよ。ただし、同一顧客に対しては売上金額合計が最も高いものを残し、売上金額合計が同一もしくは売上実績がない顧客については顧客ID（customer_id）の番号が小さいものを残すこととする。

In [92]:
df_087 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(sum_amount=_["amount"].sum())
    .join(df_customer, how="outer", predicates="customer_id")
    .drop("customer_id_right")
    .filter(~_["customer_id"].startswith("Z"))
    .order_by([ibis.desc("sum_amount"), "postal_cd"])
    .distinct(on=["customer_name", "postal_cd"], keep="first")
)

df_087.head()

---
> P-088: 087で作成したデータを元に、顧客データに統合名寄IDを付与したデータを作成せよ。ただし、統合名寄IDは以下の仕様で付与するものとする。
>
> - 重複していない顧客：顧客ID（customer_id）を設定
> - 重複している顧客：前設問で抽出したレコードの顧客IDを設定
> 
> 顧客IDのユニーク件数と、統合名寄IDのユニーク件数の差も確認すること。

In [93]:
df_088 = (
    df_customer
    .join(
        df_087.select("customer_name", "postal_cd", "customer_id"),
        how="inner", predicates=("customer_name", "postal_cd")
    )
    .rename({"integration_id": "customer_id_right"})
)

diff = df_088["customer_id"].nunique() - df_088["integration_id"].nunique()

print("顧客IDのユニーク件数:", df_088["customer_id"].nunique().execute())
print("統合名寄IDのユニーク件数の差:", diff.execute())

顧客IDのユニーク件数: 8320
統合名寄IDのユニーク件数の差: 18


---
> P-089: 売上実績がある顧客を、予測モデル構築のため学習用データとテスト用データに分割したい。それぞれ8:2の割合でランダムにデータを分割せよ。

In [94]:
# ibis dataframeだと分けられないのでpandas
df_089 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(sum_amount=_["amount"].sum())
    .filter(_["sum_amount"] > 0)
    .to_pandas()
)

df_train, df_test = train_test_split(df_089, test_size=0.2, random_state=71)
print(f"学習データ割合: {len(df_train)/len(df_089)}")
print(f"テストデータ割合: {len(df_test)/len(df_089)}")
display(df_test.head())

学習データ割合: 0.7999277717587576
テストデータ割合: 0.20007222824124232


Unnamed: 0,customer_id,sum_amount
5855,CS004505000030,3110
5400,CS017515000174,3769
5938,CS020515000021,3419
1292,CS035215000038,5128
4476,CS013513000016,2592


---
> P-090: レシート明細データ（df_receipt）は2017年1月1日〜2019年10月31日までのデータを有している。売上金額（amount）を月次で集計し、学習用に12ヶ月、テスト用に6ヶ月の時系列モデル構築用データを3セット作成せよ。

In [95]:
df_090 = (
    df_receipt
    .mutate(sales_ym=_["sales_ymd"].cast(str)[0:6])
    .group_by("sales_ym")
    .aggregate(sum_amount=_["amount"].sum())
    .order_by("sales_ym")
)

def split_data(
    df,
    train_size: int,
    test_size: int,
    slide_window: int,
    start_point: int,
):
    train_start = start_point * slide_window
    test_start = train_start + train_size
    return df[train_start:test_start], df[test_start : test_start + test_size]


df_090_train1, df_090_test1 = split_data(
    df_090, train_size=12, test_size=6, slide_window=6, start_point=0
)

df_090_train2, df_090_test2 = split_data(
    df_090, train_size=12, test_size=6, slide_window=6, start_point=1
)

df_090_train3, df_090_test3 = split_data(
    df_090, train_size=12, test_size=6, slide_window=6, start_point=2
)

display(df_090_train1.head())

In [96]:
display(df_090_test1.head())

In [97]:
df_090_train2.head()

---
> P-091: 顧客データ（df_customer）の各顧客に対し、売上実績がある顧客数と売上実績がない顧客数が1:1となるようにアンダーサンプリングで抽出せよ。

In [98]:
from imblearn.under_sampling import RandomUnderSampler

df_091 = (
    df_receipt
    .group_by("customer_id")
    .aggregate(sum_amount=_["amount"].sum())
    .join(df_customer, how="right", predicates="customer_id")
    .mutate(is_buy_flag=_["sum_amount"].isnull())
    .to_pandas()
)

rs = RandomUnderSampler(random_state=71)
df_091, _ = rs.fit_resample(df_091, df_091["is_buy_flag"])
print('0の件数', len(df_091[df_091["is_buy_flag"] == 0]))
print('1の件数', len(df_091[df_091["is_buy_flag"] == 1]))

0の件数 8306
1の件数 8306


---
> P-092: 顧客データ（df_customer）の性別について、第三正規形へと正規化せよ。

- 第1正規形：1つのセルには1つの値しか含まれない　list型などで登録しない
- 第2正規形：部分関数従属を排除し、完全関数従属にする　Nullとか無くす
- 第3正規形：第2正規形のテーブルから、推移的関数従属している列が切り出されたもの　段階的な従属を無くす

In [99]:
df_092_gender_std = (
    df_customer
    .select("gender_cd", "gender")
    .distinct()
)


df_092_customer_std = df_customer.drop("gender")

df_092_gender_std

In [100]:
df_092_customer_std.head()

---
> P-093: 商品データ（df_product）では各カテゴリのコード値だけを保有し、カテゴリ名は保有していない。カテゴリデータ（df_category）と組み合わせて非正規化し、カテゴリ名を保有した新たな商品データを作成せよ。

In [101]:
df_093 = (
    df_product
    .join(
        df_category.select(
            "category_small_cd",
            "category_major_name",
            "category_medium_name",
            "category_small_name",
        ),
        how="left", predicates="category_small_cd"
    )
)

df_093.head()

## ファイル入出力

---
> P-094: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること
> 
> |出力先|
> |:--:|
> |./data|

In [102]:
df_093.to_csv(
    "../data/P_df_093_UTF-9_header.csv",
)

---
> P-095: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|CP932|
> 
> ファイル出力先のパスは以下のようにすること。
> 
> |出力先|
> |:--:|
> |./data|

---
> P-096: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|無し|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること。
> 
> |出力先|
> |:--:|
> |./data|

---
> P-097: 094で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|有り|UTF-8|

---
> P-098: 096で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |CSV（カンマ区切り）|ヘッダ無し|UTF-8|

---
> P-099: 093で作成したカテゴリ名付き商品データを以下の仕様でファイル出力せよ。
>
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|
> 
> ファイル出力先のパスは以下のようにすること
> 
> |出力先|
> |:--:|
> |./data|

In [103]:
# separatorでタブで分割


---
> P-100: 099で作成した以下形式のファイルを読み込み、データを3件を表示させて正しく取り込まれていることを確認せよ。
> 
> |ファイル形式|ヘッダ有無|文字エンコーディング|
> |:--:|:--:|:--:|
> |TSV（タブ区切り）|有り|UTF-8|

問題はここで終了です。お疲れ様でした。