Features for Meta-Learner in Stacking Ensemble

In [1]:
from pathlib import Path
import os
import sys
import gc
import shutil
import json
import math
import uuid
from collections import defaultdict
import numpy as np
import pandas as pd
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch
from tqdm import tqdm
import matplotlib.pyplot as plt
from typing import Dict, List, Tuple, NamedTuple, Callable, Iterable, Set, Optional, Any
import textstat
import scml
from scml import pandasx as pdx
import lalaes2 as mylib

In [2]:
version = "01"
text_col = "clean_text"
features = []

In [3]:
class ModelConf(NamedTuple):
    name: str
    directory: Path
    oof_pred_file: Path
    model_max_length: int
    batch_size: int
    model_class: str = "auto"


models_conf: List[ModelConf] = [
    ModelConf(
        name="deberta_base", 
        directory=Path("models/aes2/deberta_v3_base/20240615_063400"),
        oof_pred_file = Path("models/aes2/deberta_v3_base/20240616_110724/oof.npy"),
        model_max_length=512,
        batch_size=128,
    ),
]

In [4]:
tim = scml.Timer()
tim.start()
percentiles=[.01, .05, .1, .2, .3, .4, .5, .6, .7, .8, .9, .95, .99]
os.environ["TOKENIZERS_PARALLELISM"] = "false"
pd.set_option("max_info_columns", 9999)
pd.set_option("display.max_columns", 9999)
pd.set_option("display.max_rows", 9999)
pd.set_option('max_colwidth', 9999)
tqdm.pandas()
scml.seed_everything()

In [5]:
tra = pd.read_parquet(f"input/tra_{version}.parquet")
tra = tra.drop(columns=["source", "str_level"])
tra.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16441 entries, 0 to 16440
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   essay_id    16441 non-null  object
 1   score       16441 non-null  int8  
 2   clean_text  16441 non-null  object
dtypes: int8(1), object(2)
memory usage: 273.1+ KB


In [6]:
val = pd.read_parquet(f"input/val_{version}.parquet")
val = val.drop(columns=["source", "str_level"])
val.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 866 entries, 0 to 865
Data columns (total 3 columns):
 #   Column      Non-Null Count  Dtype 
---  ------      --------------  ----- 
 0   essay_id    866 non-null    object
 1   score       866 non-null    int8  
 2   clean_text  866 non-null    object
dtypes: int8(1), object(2)
memory usage: 14.5+ KB


# Base Model Inference

In [7]:
for mc in models_conf:
    print(mc.name)
    val[mc.name] = mylib.predict_holistic_score(
        ds=mylib.Aes2Dataset(
            tokenizer=AutoTokenizer.from_pretrained(mc.directory, model_max_length=mc.model_max_length),
            texts=val[text_col].tolist(),
        ),
        model=AutoModelForSequenceClassification.from_pretrained(mc.directory),
        batch_size=mc.batch_size,
        device=torch.device("cuda:1"),
        progress_bar=True,
    )
    with open(mc.oof_pred_file, "rb") as f:
        tra[mc.name] = np.load(f)
    features.append(mc.name)

deberta_base


predict hms score: 100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 7/7 [00:10<00:00,  1.54s/it]


# Character & Word-level Features

In [8]:
#%%time
#col = "cw_len"
#tra[col] = tra[text_col].str.len()
#val[col] = val[text_col].str.len()
#features.append(col)

CPU times: user 4.42 ms, sys: 1.05 ms, total: 5.47 ms
Wall time: 5.38 ms


In [9]:
def digit_frac(row) -> float:
    return mylib.digit_frac(row[text_col])


def letter_frac(row) -> float:
    return mylib.letter_frac(row[text_col])


def space_frac(row) -> float:
    return mylib.space_frac(row[text_col])


def punc_frac(row) -> float:
    return mylib.punc_frac(row[text_col])


def upper_frac(row) -> float:
    return mylib.upper_frac(row[text_col])


def repeat_char_frac(row) -> float:
    return mylib.repeat_char_frac(row[text_col])


def repeat_substring_frac(row) -> float:
    return mylib.repeat_substring_frac(row[text_col])


def unique_word_frac(row) -> float:
    return mylib.unique_word_frac(row[text_col])


sf = mylib.StopwordFraction()


def stopword_frac(row) -> float:
    return sf(row[text_col])



cw_fns: List[Tuple[str, Callable]] = [
    ("cw_digit_frac", digit_frac),
    ("cw_letter_frac", letter_frac),
    ("cw_space_frac", space_frac),
    ("cw_punc_frac", punc_frac),
    ("cw_upper_frac", upper_frac),
    ("cw_repeat_char_frac", repeat_char_frac),
    ("cw_repeat_substring_frac", repeat_substring_frac),
    ("cw_unique_word_frac", unique_word_frac),
    ("cw_stopword_frac", stopword_frac),
]   
#for col, fn in cw_fns:
#    print(col)
#    tra[col] = tra.progress_apply(fn, axis=1)
#    val[col] = val.progress_apply(fn, axis=1)
#    features.append(col)
#tra[features] = tra[features].astype(np.float32)
#val[features] = val[features].astype(np.float32)

cw_digit_frac


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 17843.22it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 17668.82it/s]


cw_letter_frac


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 16540.06it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 16022.28it/s]


cw_space_frac


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 17157.54it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 17096.16it/s]


cw_punc_frac


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:01<00:00, 13733.20it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 13560.67it/s]


cw_upper_frac


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 17553.66it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 17292.56it/s]


cw_repeat_char_frac


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:02<00:00, 7175.49it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 7037.35it/s]


cw_repeat_substring_frac


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [10:54<00:00, 25.13it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:34<00:00, 24.97it/s]


cw_unique_word_frac


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 38809.83it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 38517.80it/s]


cw_stopword_frac


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 33370.06it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 32684.26it/s]


# Textstat Features

In [10]:
def syllable_count(row) -> int:
    return textstat.syllable_count(row[text_col])


def lexicon_count(row) -> int:
    return textstat.lexicon_count(row[text_col])


def sentence_count(row) -> int:
    return textstat.sentence_count(row[text_col])


def syllables_per_word(row) -> float:
    return row["ts_syllable_count"] / (row["ts_lexicon_count"] + 1)


def syllables_per_sent(row) -> float:
    return row["ts_syllable_count"] / (row["ts_sentence_count"] + 1)


def words_per_sent(row) -> float:
    return row["ts_lexicon_count"] / (row["ts_sentence_count"] + 1)


def flesch_reading_ease(row) -> float:
    return textstat.flesch_reading_ease(row[text_col])


def flesch_kincaid_grade(row) -> float:
    return textstat.flesch_kincaid_grade(row[text_col])


def gunning_fog(row) -> float:
    return textstat.gunning_fog(row[text_col])


def smog_index(row) -> float:
    return textstat.smog_index(row[text_col])


def automated_readability_index(row) -> float:
    return textstat.automated_readability_index(row[text_col])


def coleman_liau_index(row) -> float:
    return textstat.coleman_liau_index(row[text_col])


def linsear_write_formula(row) -> float:
    return textstat.linsear_write_formula(row[text_col])


def dale_chall_readability_score(row) -> float:
    return textstat.dale_chall_readability_score(row[text_col])


def text_standard(row) -> float:
    return textstat.text_standard(row[text_col], float_output=True)


def mcalpine_eflaw(row) -> float:
    return textstat.mcalpine_eflaw(row[text_col])


textstat_fns: List[Tuple[str, Callable]] = [
    ("ts_syllable_count", syllable_count),
    ("ts_lexicon_count", lexicon_count),
    ("ts_sentence_count", sentence_count),
    ("ts_syllables_per_word", syllables_per_word),
    ("ts_syllables_per_sent", syllables_per_sent),
    ("ts_words_per_sent", words_per_sent),
    ("ts_flesch_reading_ease", flesch_reading_ease),
    ("ts_flesch_kincaid_grade", flesch_kincaid_grade),
    ("ts_gunning_fog", gunning_fog),
    ("ts_smog_index", smog_index),
    ("ts_automated_readability_index", automated_readability_index),
    ("ts_coleman_liau_index", coleman_liau_index),
    ("ts_linsear_write_formula", linsear_write_formula),
    ("ts_dale_chall_readability_score", dale_chall_readability_score),
    ("ts_text_standard", text_standard),
    ("ts_mcalpine_eflaw", mcalpine_eflaw),
]    
for col, fn in textstat_fns:
    print(col)
    tra[col] = tra.progress_apply(fn, axis=1)
    val[col] = val.progress_apply(fn, axis=1)
    if col.endswith("_count"):
        continue
    features.append(col)
tra[features] = tra[features].astype(np.float32)
val[features] = val[features].astype(np.float32)

ts_syllable_count


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:04<00:00, 3878.37it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 4559.27it/s]


ts_lexicon_count


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 32972.74it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 30314.11it/s]


ts_sentence_count


100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 19210.98it/s]
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 18739.45it/s]


ts_syllables_per_word


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 239169.52it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 195968.02it/s]


ts_syllables_per_sent


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 251094.38it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 219525.40it/s]


ts_words_per_sent


100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:00<00:00, 240117.25it/s]
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 208272.21it/s]


ts_flesch_reading_ease


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:04<00:00, 3803.59it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 3868.64it/s]


ts_flesch_kincaid_grade


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:04<00:00, 3904.84it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 3861.94it/s]


ts_gunning_fog


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:05<00:00, 3060.99it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 3191.43it/s]


ts_smog_index


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:05<00:00, 2795.63it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 2630.42it/s]


ts_automated_readability_index


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:01<00:00, 8341.40it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 8150.68it/s]


ts_coleman_liau_index


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:02<00:00, 7550.86it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 7681.78it/s]


ts_linsear_write_formula


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:02<00:00, 8203.07it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 7515.29it/s]


ts_dale_chall_readability_score


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:05<00:00, 2898.97it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 3126.71it/s]


ts_text_standard


100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:19<00:00, 863.38it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 903.22it/s]


ts_mcalpine_eflaw


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 16441/16441 [00:01<00:00, 9522.02it/s]
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 866/866 [00:00<00:00, 8237.46it/s]


# Review Data

In [11]:
tra[features] = tra[features].astype(np.float32)
val[features] = val[features].astype(np.float32)
tra = tra.drop(columns=["clean_text"])
val = val.drop(columns=["clean_text"])
tra.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 16441 entries, 0 to 16440
Data columns (total 29 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   essay_id                         16441 non-null  object 
 1   score                            16441 non-null  int8   
 2   deberta_base                     16441 non-null  float32
 3   cw_len                           16441 non-null  float32
 4   cw_digit_frac                    16441 non-null  float32
 5   cw_letter_frac                   16441 non-null  float32
 6   cw_space_frac                    16441 non-null  float32
 7   cw_punc_frac                     16441 non-null  float32
 8   cw_upper_frac                    16441 non-null  float32
 9   cw_repeat_char_frac              16441 non-null  float32
 10  cw_repeat_substring_frac         16441 non-null  float32
 11  cw_unique_word_frac              16441 non-null  float32
 12  cw_stopword_frac  

In [12]:
val.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 866 entries, 0 to 865
Data columns (total 29 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   essay_id                         866 non-null    object 
 1   score                            866 non-null    int8   
 2   deberta_base                     866 non-null    float32
 3   cw_len                           866 non-null    float32
 4   cw_digit_frac                    866 non-null    float32
 5   cw_letter_frac                   866 non-null    float32
 6   cw_space_frac                    866 non-null    float32
 7   cw_punc_frac                     866 non-null    float32
 8   cw_upper_frac                    866 non-null    float32
 9   cw_repeat_char_frac              866 non-null    float32
 10  cw_repeat_substring_frac         866 non-null    float32
 11  cw_unique_word_frac              866 non-null    float32
 12  cw_stopword_frac      

In [13]:
tra.describe(percentiles=percentiles)

Unnamed: 0,score,deberta_base,cw_len,cw_digit_frac,cw_letter_frac,cw_space_frac,cw_punc_frac,cw_upper_frac,cw_repeat_char_frac,cw_repeat_substring_frac,cw_unique_word_frac,cw_stopword_frac,ts_syllable_count,ts_lexicon_count,ts_sentence_count,ts_syllables_per_word,ts_syllables_per_sent,ts_words_per_sent,ts_flesch_reading_ease,ts_flesch_kincaid_grade,ts_gunning_fog,ts_smog_index,ts_automated_readability_index,ts_coleman_liau_index,ts_linsear_write_formula,ts_dale_chall_readability_score,ts_text_standard,ts_mcalpine_eflaw
count,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0,16441.0
mean,2.948422,2.948711,2045.229858,0.00281,0.795705,0.180791,0.020694,0.018777,0.015127,0.002631,0.536852,0.501528,505.336975,367.427399,19.512318,1.364587,25.998779,19.002592,70.22036,8.560081,10.212701,10.118253,10.236975,8.303247,10.233084,7.541533,9.192932,28.973743
std,1.044865,0.921251,865.908569,0.00379,0.011588,0.010141,0.00673,0.019409,0.004413,0.008531,0.074685,0.048731,216.673706,150.410385,8.51992,0.09232,10.21671,7.685802,14.071,4.615396,4.695395,1.846192,5.846623,1.790902,4.973484,1.007713,3.71441,16.534847
min,1.0,0.648224,711.0,0.0,0.725769,0.145091,0.0,0.0,0.00089,0.0,0.056763,0.0,175.0,150.0,1.0,1.083582,8.653846,7.115385,-434.51001,1.3,3.67,0.0,0.4,1.19,2.6,1.24,0.0,10.4
1%,1.0,1.18119,843.4,0.0,0.764987,0.160097,0.006645,0.001748,0.00618,0.0,0.370033,0.392971,206.0,158.0,4.0,1.166148,13.270629,10.260819,36.812,3.4,5.414,6.2,3.7,4.23,4.3,5.774,5.0,15.2
5%,1.0,1.528137,968.0,0.0,0.775773,0.165006,0.010506,0.00722,0.008368,0.0,0.417204,0.425197,238.0,177.0,8.0,1.218045,15.952381,12.130435,52.459999,4.7,6.51,7.3,5.3,5.36,5.375,6.19,6.0,17.9
10%,2.0,1.800045,1076.0,0.0,0.780418,0.168097,0.012575,0.009241,0.009689,0.0,0.442029,0.442623,264.0,198.0,10.0,1.247761,17.642857,13.192307,57.299999,5.3,7.15,7.9,6.2,5.97,6.0,6.43,6.0,19.5
20%,2.0,2.105222,1285.0,0.0,0.786397,0.171932,0.015152,0.01155,0.011324,0.0,0.472527,0.462857,316.0,235.0,12.0,1.285047,19.652174,14.588235,62.07,6.2,7.94,8.7,7.3,6.78,6.857143,6.76,7.0,21.6
30%,2.0,2.383826,1486.0,0.0,0.790305,0.175,0.016987,0.013314,0.012605,0.0,0.495512,0.476886,365.0,270.0,14.0,1.313846,21.391304,15.714286,65.559998,6.9,8.54,9.2,8.2,7.32,7.571429,7.01,8.0,23.299999
40%,3.0,2.626459,1685.0,0.000779,0.793571,0.177674,0.0187,0.01511,0.013782,0.001419,0.516055,0.489627,415.0,306.0,16.0,1.337802,22.9,16.714285,68.599998,7.5,9.09,9.6,8.9,7.83,8.166667,7.24,8.0,24.9


In [14]:
val.describe(percentiles=percentiles)

Unnamed: 0,score,deberta_base,cw_len,cw_digit_frac,cw_letter_frac,cw_space_frac,cw_punc_frac,cw_upper_frac,cw_repeat_char_frac,cw_repeat_substring_frac,cw_unique_word_frac,cw_stopword_frac,ts_syllable_count,ts_lexicon_count,ts_sentence_count,ts_syllables_per_word,ts_syllables_per_sent,ts_words_per_sent,ts_flesch_reading_ease,ts_flesch_kincaid_grade,ts_gunning_fog,ts_smog_index,ts_automated_readability_index,ts_coleman_liau_index,ts_linsear_write_formula,ts_dale_chall_readability_score,ts_text_standard,ts_mcalpine_eflaw
count,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0,866.0
mean,2.948037,2.921389,2060.63501,0.002611,0.795851,0.181177,0.020361,0.018148,0.015119,0.002907,0.533583,0.504496,509.431885,370.844116,19.625866,1.362833,26.972654,19.788095,68.661377,9.188222,10.897321,10.10739,11.009238,8.253776,10.499711,7.593972,9.80485,31.437298
std,1.046139,0.929846,849.165894,0.00362,0.011515,0.010704,0.00671,0.009073,0.004385,0.007891,0.075234,0.048059,212.012878,147.202759,8.809137,0.09297,20.295984,15.702071,32.33408,12.169928,12.454148,1.943423,15.534221,1.855127,5.296445,1.734166,12.0592,45.39986
min,1.0,0.971314,732.0,0.0,0.743163,0.155241,0.0,0.0,0.004212,0.0,0.264228,0.354054,190.0,151.0,1.0,1.108434,10.962963,8.5,-628.880005,2.2,3.91,0.0,2.8,3.19,2.8,5.38,0.0,12.1
1%,1.0,1.110007,843.0,0.0,0.76581,0.159538,0.006005,0.000906,0.006511,0.0,0.361339,0.385154,205.6,159.3,4.0,1.153609,13.469216,10.195938,37.6915,3.265,5.4165,5.765,3.565,3.9595,4.235606,5.8,5.0,14.765
5%,1.0,1.395183,969.0,0.0,0.776374,0.164993,0.010542,0.006928,0.008457,0.0,0.410804,0.427421,238.5,180.0,8.0,1.208756,16.40606,12.396826,53.077499,4.8,6.655,7.4,5.4,5.155,5.458333,6.1725,6.0,18.425
10%,2.0,1.696749,1087.5,0.0,0.781379,0.168216,0.012364,0.009094,0.00979,0.0,0.439701,0.446998,269.5,202.0,9.5,1.241224,17.884259,13.3625,57.400002,5.4,7.28,7.9,6.15,5.84,6.0,6.4,6.0,19.9
20%,2.0,2.02187,1314.0,0.0,0.786875,0.17193,0.015158,0.011138,0.011118,0.0,0.466775,0.467442,322.0,241.0,12.0,1.284289,19.76923,14.709678,61.900002,6.3,8.08,8.7,7.3,6.66,6.857143,6.71,7.0,21.700001
30%,2.0,2.393944,1482.0,0.0,0.790532,0.174986,0.01681,0.013238,0.012684,0.000778,0.493053,0.479837,364.5,274.0,14.0,1.314428,21.358655,15.666667,65.730003,6.9,8.57,9.3,8.1,7.245,7.666667,6.97,7.0,23.4
40%,3.0,2.683454,1700.0,0.000835,0.793531,0.177907,0.018519,0.014957,0.01381,0.00146,0.514706,0.492891,420.0,310.0,16.0,1.339181,22.853659,16.727272,68.599998,7.4,9.1,9.7,8.9,7.77,8.333333,7.23,8.0,24.799999


In [15]:
features.sort()
with open(f"output/features_{version}.json", "w") as f:
    json.dump({"feature_names": features}, f)

In [16]:
tra.to_parquet(f"output/mtra_{version}.parquet", index=False)
val.to_parquet(f"output/mval_{version}.parquet", index=False)
assert tra.notna().all(axis=None)
assert val.notna().all(axis=None)

In [17]:
tim.stop()
print(f"Total time taken {str(tim.elapsed)}")

Total time taken 0:12:59.580492
