In [1]:
from pathlib import Path
import h2o
from h2o.estimators import H2OXGBoostEstimator
from tqdm import tqdm
import xgboost as xgb
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
import numpy as np 
import pandas as pd 

import warnings
warnings.filterwarnings('ignore')

input_path = Path('/kaggle/input/tabular-playground-series-jun-2022/')
dataset = pd.read_csv(input_path / 'data.csv')
sample_submission = pd.read_csv('../input/tabular-playground-series-jun-2022/sample_submission.csv')

In [2]:
h2o.init()

Checking whether there is an H2O instance running at http://localhost:54321 ..... not found.
Attempting to start a local H2O server...
  Java Version: openjdk version "11.0.15" 2022-04-19; OpenJDK Runtime Environment (build 11.0.15+10-Ubuntu-0ubuntu0.20.04.1); OpenJDK 64-Bit Server VM (build 11.0.15+10-Ubuntu-0ubuntu0.20.04.1, mixed mode, sharing)
  Starting server from /opt/conda/lib/python3.7/site-packages/h2o/backend/bin/h2o.jar
  Ice root: /tmp/tmpqgv0zr6a
  JVM stdout: /tmp/tmpqgv0zr6a/h2o_unknownUser_started_from_python.out
  JVM stderr: /tmp/tmpqgv0zr6a/h2o_unknownUser_started_from_python.err
  Server is running at http://127.0.0.1:54321
Connecting to H2O server at http://127.0.0.1:54321 ... successful.


0,1
H2O_cluster_uptime:,03 secs
H2O_cluster_timezone:,Etc/UTC
H2O_data_parsing_timezone:,UTC
H2O_cluster_version:,3.36.1.1
H2O_cluster_version_age:,1 month and 25 days
H2O_cluster_name:,H2O_from_python_unknownUser_4i7ffi
H2O_cluster_total_nodes:,1
H2O_cluster_free_memory:,3.910 Gb
H2O_cluster_total_cores:,2
H2O_cluster_allowed_cores:,2


# Goal of This Notebook

XGBoost is a great, robust tool for predicting tabular data. However due to its convergence speed sometimes it is not preferred (at least at first glance). Yet there are a couple of ways to speed up the convergence speed. One of them is to enable using histograms like in the LGBM algorithm.

Iterative Imputer is a great way to handle missing data. However, the convergence speed is very low when it is used with any tree algorithms. We could use linear models if the features are linearly correlated but from the Pearson correlations, we see that it is not the case. 

One idea is using Iterative Imputer with XGBoost algorithm while enabling gpu_hist. In this [notebook](https://www.kaggle.com/code/hiro5299834/tps-jun-2022-iterativeimputer-baseline), you can see how it is applied.

Another idea is using h2o.xgboost instead of the regular one. The claim is that h2o.xgboost is significantly faster both in CPU and GPU (for the full experiment and conclusion you can visit [here](https://sefiks.com/2019/11/07/why-you-should-build-xgboost-models-within-h2o/#:~:text=To%20sum%20up%2C%20h2o%20distribution,for%20a%20large%20data%20set.)).

* "Besides, training lasts 204 seconds in h2o when GPU is enabled whereas regular XGBoost cannot handle memory if GPU is enabled and this causes the kernel to die."

* "To sum up, h2o distribution is 1.6 times faster than the regular xgboost on CPU. Besides, building a model on a GPU can be run on just h2o for a large data set."

Regular XGBoost supports GPU under the tree method *gpu_hist*.

H2O supports GPU under several tree methods. For the large datasets it uses *approx* tree method which creates bins in every iterations. Optionally *hist* tree method can be used.

In this notebook, I tested the second claim to see whether it is true or not. Hope you'll enjoy it!

## 1. h2o.XGBoost (tree_method = approx) 

In [3]:
dataset_h2o = h2o.H2OFrame(dataset)

params = {
    'ntrees': 250,
    'booster': 'gbtree',
    'backend': 'gpu',
    'reg_lambda': 0.5013016642587416,
    'reg_alpha': 0.48576060322334563,
    'colsample_bytree': 0.9,
    'subsample': 1.0,
    'learn_rate': 0.1,
    'max_depth': 9,
    'min_child_weight': 3,
    'stopping_metric': 'RMSE'}

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


In [4]:
%%time
pred_list = {}

features = dataset_h2o.columns[1:]
for feat in tqdm(features):
    if dataset_h2o[feat].isna().any():
        missing_rows = dataset_h2o[feat].isna()
        train_data = dataset_h2o.drop(["row_id"],axis = 1)[~missing_rows,:]
        test_data = dataset_h2o.drop(["row_id", feat], axis = 1)[missing_rows,:]
        model = H2OXGBoostEstimator(**params)
        model.train(y = feat, training_frame = train_data)
        preds = model.predict(test_data).as_data_frame().values.ravel()
        pred_list[feat] = preds

  0%|          | 0/80 [00:00<?, ?it/s]

xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  1%|▏         | 1/80 [01:29<1:57:40, 89.37s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  2%|▎         | 2/80 [02:39<1:41:13, 77.86s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  4%|▍         | 3/80 [03:46<1:33:36, 72.94s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  5%|▌         | 4/80 [04:56<1:31:14, 72.03s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  6%|▋         | 5/80 [06:08<1:29:39, 71.73s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  8%|▊         | 6/80 [07:14<1:26:01, 69.75s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  9%|▉         | 7/80 [08:25<1:25:33, 70.33s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 10%|█         | 8/80 [09:40<1:26:13, 71.85s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 11%|█▏        | 9/80 [10:46<1:22:54, 70.07s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 12%|█▎        | 10/80 [11:51<1:19:59, 68.56s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 14%|█▍        | 11/80 [12:57<1:17:39, 67.53s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 15%|█▌        | 12/80 [14:04<1:16:18, 67.33s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 16%|█▋        | 13/80 [15:09<1:14:41, 66.88s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 18%|█▊        | 14/80 [16:15<1:13:01, 66.39s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |███████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 20%|██        | 16/80 [17:20<49:18, 46.22s/it]  

███████████████████████████████████████████████████| (done) 100%


 50%|█████     | 40/80 [17:22<00:16,  2.42it/s]

xgboost Model Build progress: |███

 50%|█████     | 40/80 [17:40<00:16,  2.42it/s]

███████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 51%|█████▏    | 41/80 [18:30<08:03, 12.40s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 52%|█████▎    | 42/80 [19:39<15:01, 23.71s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 54%|█████▍    | 43/80 [20:47<20:47, 33.72s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 55%|█████▌    | 44/80 [21:53<24:58, 41.62s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 56%|█████▋    | 45/80 [23:01<28:11, 48.33s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 57%|█████▊    | 46/80 [24:07<30:05, 53.12s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 59%|█████▉    | 47/80 [25:14<31:21, 57.02s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 60%|██████    | 48/80 [26:20<31:48, 59.63s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 61%|██████▏   | 49/80 [27:27<31:54, 61.77s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 62%|██████▎   | 50/80 [28:36<31:50, 63.68s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 64%|██████▍   | 51/80 [29:44<31:28, 65.14s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 65%|██████▌   | 52/80 [30:50<30:27, 65.26s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 66%|██████▋   | 53/80 [31:58<29:41, 65.98s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 68%|██████▊   | 54/80 [33:05<28:49, 66.50s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 69%|██████▉   | 55/80 [34:13<27:53, 66.93s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 70%|███████   | 56/80 [35:20<26:45, 66.88s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 71%|███████▏  | 57/80 [36:27<25:38, 66.91s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 72%|███████▎  | 58/80 [37:33<24:27, 66.72s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 74%|███████▍  | 59/80 [38:40<23:22, 66.78s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 75%|███████▌  | 60/80 [39:47<22:15, 66.77s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 76%|███████▋  | 61/80 [41:00<21:41, 68.51s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 78%|███████▊  | 62/80 [42:15<21:08, 70.49s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 79%|███████▉  | 63/80 [43:21<19:37, 69.24s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 80%|████████  | 64/80 [44:28<18:18, 68.66s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 81%|████████▏ | 65/80 [45:35<17:00, 68.01s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 82%|████████▎ | 66/80 [46:48<16:14, 69.62s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 84%|████████▍ | 67/80 [48:02<15:23, 71.01s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 85%|████████▌ | 68/80 [49:20<14:34, 72.88s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 86%|████████▋ | 69/80 [50:37<13:37, 74.29s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |███████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 88%|████████▊ | 70/80 [51:53<12:26, 74.65s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 89%|████████▉ | 71/80 [53:21<11:48, 78.74s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 90%|█████████ | 72/80 [54:36<10:20, 77.61s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 91%|█████████▏| 73/80 [55:51<08:58, 76.88s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 92%|█████████▎| 74/80 [57:06<07:37, 76.17s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 94%|█████████▍| 75/80 [58:19<06:16, 75.30s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 95%|█████████▌| 76/80 [59:38<05:05, 76.35s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 96%|█████████▋| 77/80 [1:00:48<03:43, 74.42s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 98%|█████████▊| 78/80 [1:02:04<02:29, 74.98s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 99%|█████████▉| 79/80 [1:03:20<01:15, 75.21s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

100%|██████████| 80/80 [1:04:32<00:00, 48.41s/it]

███████████████████████████████████████████████████| (done) 100%
CPU times: user 55.2 s, sys: 3.71 s, total: 59 s
Wall time: 1h 4min 32s





In [5]:
dataset_h2o = dataset_h2o.as_data_frame()
for col,val in pred_list.items():
    dataset_h2o.loc[dataset_h2o[col].isnull(),col] = val

In [7]:
row_cols = sample_submission["row-col"].str.split("-", expand = True)
relevant_rows = row_cols[0].astype(np.int32).values
relevant_columns = row_cols[1].values
predictions = []
for row, col in zip(relevant_rows,relevant_columns):
    predictions.append(dataset_h2o.loc[row,col])
submission = pd.DataFrame()
submission['row-col'] = sample_submission["row-col"]
submission["value"] = predictions
submission.to_csv("submission.csv", index = False)

# Score: 0.93

## 2. Regular XGBoost (gpu-hist)

In [10]:
dataset_xgb = dataset.copy()

In [25]:
params = {
    'n_estimators': 250,
    'booster': 'gbtree',
    'reg_lambda': 0.5013016642587416,
    'reg_alpha': 0.48576060322334563,
    'colsample_bytree': 0.9,
    'missing_values': np.nan,
    'subsample': 1.0,
    'learn_rate': 0.1,
    'max_depth': 9,
    'min_child_weight': 3,
    'stopping_metric': 'RMSE',
    'tree_method': 'gpu_hist',
    'verbosity' : 0 }

In [40]:
%%time
pred_list = {}
for feat in tqdm(features):
    if dataset_xgb[feat].isnull().any():
        missing_rows = np.where(dataset_xgb.loc[:,feat].isnull())[0]
        non_missing_rows = np.where(dataset_xgb.loc[:,feat].notnull())[0]
        train_data = dataset_xgb.drop(["row_id"],axis = 1).iloc[non_missing_rows,:].reset_index(drop = True)
        test_data = dataset_xgb.drop(["row_id", feat], axis = 1).iloc[missing_rows,:].reset_index(drop = True)
        X = train_data.drop(feat, axis = 1)
        y = train_data[feat]
        model = xgb.XGBRegressor(**params)
        model.fit(X,y)
        preds = model.predict(test_data)
        pred_list[feat] = preds

100%|██████████| 80/80 [17:51<00:00, 13.40s/it]

CPU times: user 18min 38s, sys: 54.1 s, total: 19min 32s
Wall time: 17min 51s





In [None]:
for col,val in pred_list.items():
    dataset_xgb.loc[dataset_xgb[col].isnull(),col] = val

## 3. h2o.XGBoost (tree_method = hist)

In [42]:
dataset_h2o = h2o.H2OFrame(dataset)

params = {
    'ntrees': 250,
    'booster': 'gbtree',
    'backend': 'gpu',
    'reg_lambda': 0.5013016642587416,
    'reg_alpha': 0.48576060322334563,
    'colsample_bytree': 0.9,
    'tree_method': 'hist',
    'subsample': 1.0,
    'learn_rate': 0.1,
    'max_depth': 9,
    'min_child_weight': 3,
    'stopping_metric': 'RMSE'}

Parse progress: |████████████████████████████████████████████████████████████████| (done) 100%


In [43]:
%%time
pred_list = {}

features = dataset_h2o.columns[1:]
for feat in tqdm(features):
    if dataset_h2o[feat].isna().any():
        missing_rows = dataset_h2o[feat].isna()
        train_data = dataset_h2o.drop(["row_id"],axis = 1)[~missing_rows,:]
        test_data = dataset_h2o.drop(["row_id", feat], axis = 1)[missing_rows,:]
        model = H2OXGBoostEstimator(**params)
        model.train(y = feat, training_frame = train_data)
        preds = model.predict(test_data).as_data_frame().values.ravel()
        pred_list[feat] = preds

  0%|          | 0/80 [00:00<?, ?it/s]

xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  1%|▏         | 1/80 [01:10<1:32:27, 70.22s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  2%|▎         | 2/80 [02:20<1:31:09, 70.12s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  4%|▍         | 3/80 [03:35<1:33:15, 72.66s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  5%|▌         | 4/80 [04:46<1:30:52, 71.75s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  6%|▋         | 5/80 [05:53<1:27:24, 69.93s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  8%|▊         | 6/80 [06:59<1:24:51, 68.81s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

  9%|▉         | 7/80 [08:05<1:22:43, 67.99s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 10%|█         | 8/80 [09:13<1:21:26, 67.87s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 11%|█▏        | 9/80 [10:20<1:19:53, 67.52s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 12%|█▎        | 10/80 [11:28<1:19:08, 67.84s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 14%|█▍        | 11/80 [12:38<1:18:38, 68.39s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 15%|█▌        | 12/80 [13:47<1:17:40, 68.54s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 16%|█▋        | 13/80 [14:56<1:16:35, 68.60s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 18%|█▊        | 14/80 [16:03<1:15:01, 68.20s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 19%|█▉        | 15/80 [17:10<1:13:35, 67.94s/it]

███████████████████████████████████████████████████| (done) 100%


 50%|█████     | 40/80 [17:15<00:08,  4.74it/s]  

xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 51%|█████▏    | 41/80 [18:24<13:33, 20.87s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 52%|█████▎    | 42/80 [19:31<21:56, 34.63s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 54%|█████▍    | 43/80 [20:38<27:22, 44.39s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 55%|█████▌    | 44/80 [21:51<31:43, 52.88s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 56%|█████▋    | 45/80 [22:58<33:17, 57.08s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 57%|█████▊    | 46/80 [24:07<34:20, 60.60s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 59%|█████▉    | 47/80 [25:13<34:22, 62.49s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 60%|██████    | 48/80 [26:28<35:18, 66.20s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 61%|██████▏   | 49/80 [27:35<34:16, 66.35s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 62%|██████▎   | 50/80 [28:41<33:07, 66.26s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 64%|██████▍   | 51/80 [29:59<33:44, 69.80s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 65%|██████▌   | 52/80 [31:08<32:23, 69.42s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 66%|██████▋   | 53/80 [32:16<31:06, 69.13s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 68%|██████▊   | 54/80 [33:23<29:42, 68.57s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 69%|██████▉   | 55/80 [34:33<28:40, 68.83s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 70%|███████   | 56/80 [35:45<27:53, 69.74s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 71%|███████▏  | 57/80 [36:55<26:45, 69.83s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 72%|███████▎  | 58/80 [38:05<25:38, 69.93s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 74%|███████▍  | 59/80 [39:20<24:59, 71.42s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 75%|███████▌  | 60/80 [40:27<23:20, 70.03s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 76%|███████▋  | 61/80 [41:43<22:45, 71.84s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |███████████████████████████████████████████████████| (done) 100%


 78%|███████▊  | 62/80 [42:51<21:16, 70.93s/it]

xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 79%|███████▉  | 63/80 [44:00<19:55, 70.35s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 80%|████████  | 64/80 [45:11<18:48, 70.53s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 81%|████████▏ | 65/80 [46:19<17:25, 69.71s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 82%|████████▎ | 66/80 [47:40<17:01, 72.97s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 84%|████████▍ | 67/80 [48:59<16:13, 74.87s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 85%|████████▌ | 68/80 [50:21<15:25, 77.14s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 86%|████████▋ | 69/80 [51:39<14:09, 77.20s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 88%|████████▊ | 70/80 [52:59<13:01, 78.20s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 89%|████████▉ | 71/80 [54:17<11:42, 78.02s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 90%|█████████ | 72/80 [55:31<10:15, 76.94s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 91%|█████████▏| 73/80 [56:47<08:55, 76.46s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 92%|█████████▎| 74/80 [58:05<07:42, 77.11s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 94%|█████████▍| 75/80 [59:26<06:31, 78.25s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 95%|█████████▌| 76/80 [1:00:43<05:11, 77.94s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 96%|█████████▋| 77/80 [1:02:04<03:55, 78.62s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 98%|█████████▊| 78/80 [1:03:25<02:38, 79.44s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

 99%|█████████▉| 79/80 [1:04:41<01:18, 78.32s/it]

███████████████████████████████████████████████████| (done) 100%
xgboost Model Build progress: |██████████████████████████████████████████████████| (done) 100%
xgboost prediction progress: |

100%|██████████| 80/80 [1:05:56<00:00, 49.46s/it]

███████████████████████████████████████████████████| (done) 100%
CPU times: user 1min 19s, sys: 4.53 s, total: 1min 24s
Wall time: 1h 5min 56s





## Dataset Conversion Time

In [None]:
#%%time
#a = dataset_h2o.as_data_frame()

# Results

* The total run time of h2o.XGBoost is 1.04 and 1.05 hours for approx and hist tree methods respectively whereas regular XGBoost with same hyperparameters took 17 min. There is a big difference between regular XGBoost and the other. 

* One thing that I realized during training was converting Pandas DataFrame to H2OFrame takes a long time. Because of that, I suspected that some of the difference might be caused due to converting H2OFrame to Pandas DataFrame so I decided to calculate the total time of this process. The conversion time is approximately 14 seconds. There are 55 columns having missing values so total conversion time was approximately 13 min. The difference between two algorithms can not be explained with conversion time. 

## Other Inspirational Kernels

* https://www.kaggle.com/code/cv13j0/tps-jun22-nn-multivariate-feature-imputation/notebook
* https://www.kaggle.com/code/hiro5299834/tps-jun-2022-iterativeimputer-baseline

## References

* https://sefiks.com/2019/11/07/why-you-should-build-xgboost-models-within-h2o/#:~:text=To%20sum%20up%2C%20h2o%20distribution,for%20a%20large%20data%20set.
* https://xgboost.readthedocs.io/en/stable/gpu/index.html
* https://docs.h2o.ai/h2o/latest-stable/h2o-docs/data-science/xgboost.html


Thanks...