In [None]:
import pathlib
import pandas as pd

datadir = pathlib.Path.cwd().parent / "data"

pd_production    = pd.read_parquet(datadir / "production.parquet")
pd_monthly_index = pd.read_parquet(datadir / "monthly_index.parquet")
pd_reservation   = pd.read_parquet(datadir / "reservation.parquet")

# 8章 分割
## 8-1 $k$-分割交差検証のためのデータ分割
### Q $k$-分割交差検証用データの分割
#### Awesome

In [None]:
from sklearn.model_selection import train_test_split, KFold

# （1）ホールドアウト検証用のデータ分割
train_data, test_data = train_test_split(
    pd_production, test_size=0.2, shuffle=True, random_state=71)

# （2）交差検証用のデータ分割方法を定義
fold = KFold(n_splits=10, shuffle=True, random_state=71)

# （3）分割数分の繰り返し処理（並列処理も可能）
for train_cv_no, test_cv_no in fold.split(train_data):

    #（3）-1 交差検証における学習データ、テストデータを抽出
    train_cv = train_data.iloc[train_cv_no]
    test_cv = train_data.iloc[test_cv_no]
    # Polarsの場合
    # train_cv = train_data[train_cv_no]
    # test_cv = train_data[test_cv_no]

    #（3）-2 ここにtrain_cvを学習データ、test_cvをテストデータとした
    #    機械学習モデルの学習、検証処理を書く

# ここに交差検証の結果をまとめる処理を書く

In [None]:
train_data = pd.DataFrame({"A": [10, 20, 30, 40]})

# 交差検証用のデータ分割方法を定義（分割数4）
k_fold = KFold(n_splits=4, shuffle=True, random_state=71)

# 分割数分の繰り返し処理
for train_cv_no, test_cv_no in k_fold.split(train_data):
    print(f"train={train_cv_no}, test={test_cv_no}")

## 8-2 時間要素を含むデータの交差検証のためのデータ分割
### Q: 時間を考慮した交差検証用データの分割
#### Awesome

In [None]:
from sklearn.model_selection import TimeSeriesSplit

# （1）データを時系列順にソート
train_data = pd_monthly_index.sort_values("year_month")

# （2）交差検証用のデータ分割方法を定義
fold = TimeSeriesSplit(n_splits=8, max_train_size=24, test_size=12)

# （3）分割数分の繰り返し処理（並列処理も可能）
for train_cv_no, test_cv_no in fold.split(train_data):

    #（3）-1 交差検証における学習データ、テストデータを抽出
    train_cv = train_data.iloc[train_cv_no]
    test_cv = train_data.iloc[test_cv_no]
    # Polarsの場合
    # train_cv = train_data[train_cv_no]
    # test_cv = train_data[test_cv_no]

    #（3）-2 ここにtrain_cvを学習データ、test_cvをテストデータとした
    #    機械学習モデルの学習、検証処理を書く

# ここに交差検証の結果をまとめる処理を書く

## 8-3 グループがあるデータの交差検証のためのデータ分割
### Q: グループを考慮した交差検証用データの分割
#### Awesome 1

In [None]:
from sklearn.model_selection import train_test_split, GroupKFold

# （1）学習データを定義（他のコードと同じ変数名にするため）
train_data = pd_reservation

# （2）交差検証用のデータ分割方法を定義
fold = GroupKFold(n_splits=10)

# （3）分割数分の繰り返し処理（並列処理も可能）
for train_cv_no, test_cv_no in fold.split(train_data, groups=train_data.hotel_id):

    #（3）-1 交差検証における学習データ、テストデータを抽出
    train_cv = train_data.iloc[train_cv_no]
    test_cv = train_data.iloc[test_cv_no]
    # Polarsの場合
    # train_cv = train_data[train_cv_no]
    # test_cv = train_data[test_cv_no]

    #（3）-2 ここにtrain_cvを学習データ、test_cvをテストデータとした
    #    機械学習モデルの学習、検証処理を書く

# ここに交差検証の結果をまとめる処理を書く

#### Awesome 2

In [None]:
from sklearn.model_selection import train_test_split, KFold

# （1）学習データを定義（他のコードと同じ変数名にするため）
train_data = pd_reservation

# （2）グループのユニーク値のリストを作成
groups = train_data["hotel_id"].unique()

# （3）交差検証用のデータ分割方法を定義
fold = KFold(n_splits=10, shuffle=True, random_state=71)

# （4）分割数分の繰り返し処理（並列処理も可能）
for train_cv_no, test_cv_no in fold.split(groups):

    #（4）-1 交差検証における学習データ、テストデータを抽出
    train_cv = train_data.loc[lambda df: df.hotel_id.isin(groups[train_cv_no])]
    test_cv = train_data.loc[lambda df: df.hotel_id.isin(groups[test_cv_no])]
    # Polarsの場合
    # train_cv = train_data.filter(pl.col("hotel_id").is_in(groups[train_cv_no]))
    # test_cv = train_data.filter(pl.col("hotel_id").is_in(groups[test_cv_no]))

    #（4）-2 ここにtrain_cvを学習データ、test_cvをテストデータとした
    #    機械学習モデルの学習、検証処理を書く

# ここに交差検証の結果をまとめる処理を書く

## 8-4 層化$k$-分割交差検証のためのデータ分割
### Q: 層化$k$-分割交差検証用データの分割
#### Awesome

In [None]:
from sklearn.model_selection import train_test_split, StratifiedKFold

# （1）学習データを定義（他のコードと同じ変数名にするため）
train_data = pd_reservation

# （2）交差検証用のデータ分割方法を定義
fold = StratifiedKFold(n_splits=10, shuffle=True, random_state=71)

# （3）分割数分の繰り返し処理（並列処理も可能）
for train_cv_no, test_cv_no in fold.split(train_data, train_data.status):

    #（3）-1 交差検証における学習データ、テストデータを抽出
    train_cv = train_data.iloc[train_cv_no]
    test_cv = train_data.iloc[test_cv_no]
    # Polarsの場合
    # train_cv = train_data[train_cv_no]
    # test_cv = train_data[test_cv_no]

    #（3）-2 ここにtrain_cvを学習データ、test_cvをテストデータとした
    #    機械学習モデルの学習、検証処理を書く

# ここに交差検証の結果をまとめる処理を書く