In [11]:
import pandas as pd
import polars as pl
import numpy as np
import gc
from matplotlib import pyplot as plt
import matplotlib.cm as cm
from sklearn.model_selection import StratifiedGroupKFold

class CONFIG:
    path_str = "/kaggle/input/jane-street-realtime-marketdata-forecasting/train.parquet"
    target_col = "responder_6"
    lag_cols_original = ["date_id", "symbol_id"] + [f"responder_{idx}" for idx in range(9)]
    lag_cols_rename = { f"responder_{idx}" : f"responder_{idx}_lag_1" for idx in range(9)}
    valid_ratio = 0.01
    start_dt = 0

In [12]:
# Use last 2 parquets
train = pl.scan_parquet(
    CONFIG.path_str
).select(
    pl.int_range(pl.len(), dtype=pl.UInt32).alias("id"),
    pl.all(),
).with_columns(
    (pl.col(CONFIG.target_col)).cast(pl.Int32).alias("label"),
).filter(
    pl.col("date_id").gt(CONFIG.start_dt)
)


In [13]:
lags = train.select(pl.col(CONFIG.lag_cols_original))
lags = lags.rename(CONFIG.lag_cols_rename)
lags = lags.with_columns(
    date_id = pl.col('date_id') + 1,  # lagged by 1 day
    )
lags = lags.group_by(["date_id", "symbol_id"], maintain_order=True).last()  # pick up last record of previous date
train = train.join(lags, on=["date_id", "symbol_id"],  how="left")

In [14]:
# 전체 훈련 샘플 수를 "date_id" 열을 선택하고 행을 카운트하여 계산
len_train = train.select(pl.col("date_id")).collect().shape[0]

# 검증 비율에 기반하여 검증에 사용할 레코드 수 결정
valid_records = int(len_train * CONFIG.valid_ratio)

# 오프라인 모델(훈련)에 사용할 레코드 수 계산
len_ofl_mdl = len_train - valid_records

# 계산된 인덱스에서 date_id를 선택하여 오프라인 훈련 세트의 마지막 date_id 가져오기
last_tr_dt = train.select(pl.col("date_id")).collect().row(len_ofl_mdl)[0]

# 전체 훈련 샘플 수 출력
print(f"\n len_train = {len_train}")

# 검증 레코드 수 출력
print(f"\n len_ofl_mdl = {len_ofl_mdl}")

# 마지막 오프라인 훈련 날짜 출력
print(f"\n---> Last offline train date = {last_tr_dt}\n")

training_data = train.filter(pl.col("date_id").le(last_tr_dt))
validation_data   = train.filter(pl.col("date_id").gt(last_tr_dt))


 len_train = 47120546

 len_ofl_mdl = 46649341

---> Last offline train date = 1686



In [15]:
training_data.collect().\
write_parquet(
    f"/kaggle/input/js24-preprocessing-create-lags/training.parquet", partition_by = "date_id",
)
validation_data.collect().\
write_parquet(
    f"/kaggle/input/js24-preprocessing-create-lags/validation.parquet", partition_by = "date_id",
)