In [12]:
%load_ext autoreload
%autoreload 2

The autoreload extension is already loaded. To reload it, use:
  %reload_ext autoreload


In [42]:
import pandas as pd
from imblearn.over_sampling import RandomOverSampler
import os
import sys
import numpy as np
from itertools import product
import logging
import tqdm
from sklearn.metrics import average_precision_score, roc_auc_score
sys.path.append(os.path.abspath(os.path.join('..', 'src',)))

from interfaces.classifier import Classifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import RidgeClassifier
from sklearn.neural_network import MLPClassifier

from models.classifiers.hierarchical import Hierarchical
import h2o
from sklearn.multiclass import OneVsRestClassifier
from sklearn.tree import DecisionTreeClassifier
from models.classifiers.h2o import H2OMultiLabel

h2o.init(verbose=False)

Checking whether there is an H2O instance running at http://localhost:54321. connected.


0,1
H2O_cluster_uptime:,3 hours 10 mins
H2O_cluster_timezone:,Europe/Lisbon
H2O_data_parsing_timezone:,UTC
H2O_cluster_version:,3.46.0.2
H2O_cluster_version_age:,"28 days, 7 hours and 5 minutes"
H2O_cluster_name:,H2O_from_python_jm_gsme2n
H2O_cluster_total_nodes:,1
H2O_cluster_free_memory:,4.498 Gb
H2O_cluster_total_cores:,10
H2O_cluster_allowed_cores:,10


In [43]:
outputs_df = pd.read_parquet("../data/processed/outputs_openai_embeddings_v1.parquet")
ppas = outputs_df.PPAs_list.explode().drop_duplicates().sort_values().to_list()
train_df = outputs_df[~outputs_df.test_set]
test_df = outputs_df[outputs_df.test_set]
X_labels = outputs_df.columns[outputs_df.columns.str.contains("openai_embedding_small")]
# y_label = "PPAs_list"
oversampling = True

X_train = train_df[X_labels].to_numpy()
# y_train = train_df[y_label].to_numpy()
y_train = train_df[ppas].astype(int).to_numpy()

X_test = test_df[X_labels].to_numpy()
# y_test = test_df[y_label].to_numpy()
y_test = test_df[ppas].astype(int).to_numpy()


ros = RandomOverSampler(random_state=42)
train_oversamples_df, _ = ros.fit_resample(train_df, y=train_df["primary_ppa"])
X_train_oversampled = train_oversamples_df[X_labels].to_numpy()
# y_train = train_df[y_label].to_numpy()
y_train_oversampled = train_oversamples_df[ppas].astype(int).to_numpy() 


def ppa_hierarchy(ppas_list: pd.Series):
    return ppas_list.apply(lambda ppa_list: [[ppa[:2], ppa] for ppa in ppa_list]).to_numpy()


def experiment(name: str, clf: Classifier, X_train: np.ndarray, y_train: np.ndarray, 
               X_test: np.ndarray, y_test_df: pd.DataFrame, classes: list[str]):
    clf.fit(X_train, y_train)
    y_pred_proba = clf.predict_proba(X_test)
    y_pred_proba_df = pd.DataFrame(y_pred_proba, columns=classes)

    experiment = []
    for ppa in ppas:
        y_test_ppa = y_test_df[ppa]
        experiment.append({
            "name": name,
            "ppa": ppa,
            "roc_auc": roc_auc_score(y_test_ppa, y_pred_proba_df[ppa]),
            "average_precision": average_precision_score(y_test_ppa, y_pred_proba_df[ppa]),
        })
    return experiment

class CustomDecisionTree(DecisionTreeClassifier):
    def predict_proba(self, X):
        probs = super().predict_proba(X)
        return np.array(probs)[:, :, 0].T

In [45]:
clfs = [
    (H2OMultiLabel(max_models=1, seed=1), "H2O MultiLabel"),
]

all_experiments = []

# experiments = list(product([True, False], [True, False], clfs))
oversampling = True

for clf, name in tqdm.tqdm(clfs):
    train_df_exp = train_oversamples_df if oversampling else train_df
    
    X_train_exp = X_train_oversampled if oversampling else X_train
    y_train_exp = y_train_oversampled if oversampling else y_train
    
    X_test_exp = X_test
    y_test_exp_df = test_df[ppas].astype("int")
    
    if isinstance(clf, Hierarchical):
        # clf = Hierarchical(sklearn_clf, ppas)
        y_train_exp = train_df_exp.PPAs_list.apply(lambda ppa_list: [[ppa[:2], ppa] for ppa in ppa_list]).to_numpy()
        y_test_exp = test_df.PPAs_list.apply(lambda ppa_list: [[ppa[:2], ppa] for ppa in ppa_list]).to_numpy()    
    
    try:
        experiment_result = experiment(name, clf, X_train_exp, y_train_exp, X_test_exp, y_test_exp_df, ppas)
        all_experiments.extend(experiment_result)
    except Exception as e:
        logging.error(f"Error in {((clf, name))}: {repr(e)}")
        
experiments_df = pd.DataFrame(all_experiments)
experiments_df.groupby("name")[["roc_auc", "average_precision"]].agg(["mean","std"]).sort_values(("roc_auc", "mean"), ascending=False)

  0%|          | 0/1 [00:00<?, ?it/s]

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:34:17.151: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:34:54.256: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:35:32.620: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:36:09.416: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:36:44.716: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:37:18.940: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:37:54.297: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:38:31.33: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:38:52.887: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:39:28.202: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:40:03.580: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:40:40.456: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:41:15.792: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:41:49.619: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:42:29.506: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:43:05.2: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:43:43.248: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:44:18.742: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:44:54.30: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%




Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
AutoML progress: |
22:45:29.343: AutoML: XGBoost is not available; skipping it.

███████████████████████████████████████████████████████████████| (done) 100%


100%|██████████| 20/20 [11:47<00:00, 35.39s/it]

Parse progress: |




████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()

100%|██████████| 1/1 [12:00<00:00, 720.91s/it]

███████████████████████████████████████████████████████| (done) 100%





Unnamed: 0_level_0,roc_auc,roc_auc,average_precision,average_precision
Unnamed: 0_level_1,mean,std,mean,std
name,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
H2O MultiLabel,0.886712,0.140054,0.589834,0.298051


In [53]:
from pathlib import Path


clfs[0][0].clfs[0].clf.leader.save_mojo("here")

'/Users/jm/Code/fao-ppa-classifier/notebooks/here/GLM_1_AutoML_52_20240610_223417.zip'

In [50]:
clfs[0][0].clfs[0].clf

<h2o.automl._estimator.H2OAutoML at 0x11a2e1a90>

In [47]:
clfs[0][0].predict_proba(X_test).shape

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%
Parse progress: |


with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



████████████████████████████████████████████████████████████████| (done) 100%
glm prediction progress: |███████████████████████████████████████████████████████| (done) 100%



with h2o.utils.threading.local_context(polars_enabled=True, datatable_enabled=True):
    pandas_df = h2o_df.as_data_frame()



(40, 20)

In [32]:
experiments_df

In [None]:
import h2o
from h2o.automl import H2OAutoML

# Start the H2O cluster (locally)
h2o.init()

# Import a sample binary outcome train/test set into H2O
# train = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_train_10k.csv")
# test = h2o.import_file("https://s3.amazonaws.com/erin-data/higgs/higgs_test_5k.csv")
# h2o.Data

train_h2o_df = h2o.H2OFrame(train_df)
test_h2o_df = h2o.H2OFrame(test_df)

# Identify predictors and response
# x = train.columns
# y = "response"
# x.remove(y)

# For binary classification, response should be a factor
# train[y] = train[y].asfactor()
# test[y] = test[y].asfactor()

# Run AutoML for 20 base models
aml = H2OAutoML(max_models=2, seed=1)
aml.train(x=X_labels.to_list(), y="BP.1", training_frame=train_h2o_df)

# View the AutoML Leaderboard
lb = aml.leaderboard
lb.head(rows=lb.nrows) 

In [None]:
train_h2o_df

In [None]:
import numpy as np

# aa = h2o.H2OFrame(X_train)
# aml.train(x=X_labels.to_list(), y="BP.1", training_frame=train_h2o_df)
# aa
h2o.init()


In [None]:
X_df = pd.DataFrame(X_train).add_prefix("X_")
y_df = pd.DataFrame(y_train).add_prefix("y_").astype("int")
                                
y_col = y_df.columns[0]
train_h2o_df = h2o.H2OFrame(X_df.join(y_df))
train_h2o_df[y_col] = train_h2o_df[y_col].asfactor()

# test_h2o_df = h2o.H2OFrame(test_df)

# Identify predictors and response
# x = train.columns
# y = "response"
# x.remove(y)

# For binary classification, response should be a factor
# train[y] = train[y].asfactor()
# test[y] = test[y].asfactor()

# Run AutoML for 20 base models
aml = H2OAutoML(max_models=2, seed=1)
aml.train(x=X_df.columns.to_list(), y=y_df.columns[0], training_frame=train_h2o_df)

lb = aml.leaderboard
lb.head(rows=lb.nrows) 

In [None]:

c.fit(X_train, y_train)
roc_auc_score(test_df[ppas[0]].astype("int").to_numpy(), c.predict(X_test))

In [None]:
aml.predict(h2o.H2OFrame(test_df_2)).as_data_frame()

In [None]:
roc_auc_score(test_df[ppas[0]].astype("int").to_numpy(), aml.predict(h2o.H2OFrame(test_df_2)).as_data_frame()["p1"].to_numpy())

In [None]:
average_precision_score(test_df[ppas[0]].astype("int").to_numpy(), aml.predict(h2o.H2OFrame(test_df_2)).as_data_frame()["p1"].to_numpy())

In [None]:
# test_h2o_df2 = test_h2o_df
# test_h2o_df2.columns = X_df.columns.to_list()
aml.predict(h2o.H2OFrame(test_df_2)).as_data_frame()["p1"]

aml.predict(h2o.H2OFrame(test_df_2)).as_data_frame()["p1"]

In [None]:
aml.predict

In [None]:
y_df.sum().sum()

In [None]:
from cgi import test


train_df["BP.1"].to_numpy()

In [None]:
X_train.shape

In [None]:
y_train.shape

In [None]:
from sklearn.linear_model import LogisticRegression


LogisticRegression
OneVsRestClassifier()

In [None]:
roc_auc_score(test_df["BP.1"].astype("int").to_numpy(), aml.predict(test_h2o_df)["True"].as_data_frame().to_numpy())

In [None]:
average_precision_score(test_df["BP.1"].astype("int").to_numpy(), aml.predict(test_h2o_df)["True"].as_data_frame().to_numpy())

In [None]:
experiments_df

In [None]:
class CustomRidge(RidgeClassifier):
    def predict_proba(self, X):
        scores = self.decision_function(X)
        y_pred_proba = np.exp(scores) / np.sum(np.exp(scores))
        return y_pred_proba




clfs = [
    (MLPClassifier(), MLPClassifier(), "MLP_200it"),
    (MLPClassifier(max_iter=1000), MLPClassifier(max_iter=1000), "MLP_1000it"),
    (RandomForestClassifier(),RandomForestClassifier(), "Random Forest"),
    (CustomRidge(), RidgeClassifier(), "Ridge")
]

all_experiments = []



experiments = list(product([True, False], [True, False], clfs))

for hierarchical, oversampling, (clf, sklearn_clf, name) in tqdm.tqdm(experiments):
    train_df_exp = train_oversamples_df if oversampling else train_df
    
    X_train_exp = X_train_oversampled if oversampling else X_train
    y_train_exp = y_train_oversampled if oversampling else y_train
    
    X_test_exp = X_test
    y_test_exp_df = test_df[ppas].astype("int")
    
    if hierarchical:
        clf = Hierarchical(sklearn_clf, ppas)
        y_train_exp = train_df_exp.PPAs_list.apply(lambda ppa_list: [[ppa[:2], ppa] for ppa in ppa_list]).to_numpy()
        y_test_exp = test_df.PPAs_list.apply(lambda ppa_list: [[ppa[:2], ppa] for ppa in ppa_list]).to_numpy()    
    
    try:
        experiment_result = experiment(name, clf, X_train_exp, y_train_exp, X_test_exp, y_test_exp_df, ppas, hierarchical, oversampling)
        all_experiments.extend(experiment_result)
    except Exception as e:
        logging.error(f"Error in {(hierarchical, oversampling, (clf, sklearn_clf, name))}: {repr(e)}")
        
experiments_df = pd.DataFrame(all_experiments)
experiments_df.groupby(["name", "hierarchical", "oversampling"])[["roc_auc", "average_precision"]].agg(["mean","std"]).sort_values(("roc_auc", "mean"), ascending=False)

In [None]:
class CustomRidge(RidgeClassifier):
    def predict_proba(self, X):
        scores = self.decision_function(X)
        y_pred_proba = np.exp(scores) / np.sum(np.exp(scores))
        return y_pred_proba


class CustomRandomForest(RandomForestClassifier):
    def predict_proba(self, X):
        probs = super().predict_proba(X)
        return np.array(probs)[:, :, 0].T




clfs = [
    # (MLPClassifier(), MLPClassifier(), " £sifier(max_iter=1000), "MLP_1000it"),
    # (CustomRandomForest(),RandomForestClassifier(), "Random Forest"),
    # (CustomRidge(), RidgeClassifier(), "Ridge")
    (MLPClassifier(max_iter=10_000), MLPClassifier(max_iter=1000), "MLP_1000it"),
]

all_experiments = []



experiments = list(product([True, False], [True, False], clfs))

for hierarchical, oversampling, (clf, sklearn_clf, name) in tqdm.tqdm(experiments):
    train_df_exp = train_oversamples_df if oversampling else train_df
    
    X_train_exp = X_train_oversampled if oversampling else X_train
    y_train_exp = y_train_oversampled if oversampling else y_train
    
    X_test_exp = X_test
    y_test_exp_df = test_df[ppas].astype("int")
    
    if hierarchical:
        clf = Hierarchical(sklearn_clf, ppas)
        y_train_exp = train_df_exp.PPAs_list.apply(lambda ppa_list: [[ppa[:2], ppa] for ppa in ppa_list]).to_numpy()
        y_test_exp = test_df.PPAs_list.apply(lambda ppa_list: [[ppa[:2], ppa] for ppa in ppa_list]).to_numpy()    
    
    try:
        experiment_result = experiment(name, clf, X_train_exp, y_train_exp, X_test_exp, y_test_exp_df, ppas, hierarchical, oversampling)
        all_experiments.extend(experiment_result)
    except Exception as e:
        logging.error(f"Error in {(hierarchical, oversampling, (clf, sklearn_clf, name))}: {repr(e)}")
        
experiments_df = pd.DataFrame(all_experiments)
experiments_df.groupby(["name", "hierarchical", "oversampling"])[["roc_auc", "average_precision"]].agg(["mean","std"]).sort_values(("roc_auc", "mean"), ascending=False)

In [None]:
experiments_df.groupby(["name", "hierarchical", "oversampling"])[["roc_auc", "average_precision"]].agg(["mean","std"]).sort_values(("roc_auc", "mean"), ascending=False)