In [8]:
import argparse
import os
import pickle

import mlflow
import numpy as np
from hyperopt import STATUS_OK, Trials, fmin, hp, tpe
from hyperopt.pyll import scope
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

In [9]:
mlflow.set_tracking_uri("http://127.0.0.1:5000")
mlflow.set_experiment("random-forest-hyperopt")

2022/05/28 16:26:19 INFO mlflow.tracking.fluent: Experiment with name 'random-forest-hyperopt' does not exist. Creating a new experiment.


<Experiment: artifact_location='./mlruns/1', experiment_id='1', lifecycle_stage='active', name='random-forest-hyperopt', tags={}>

In [10]:
def load_pickle(filename):
    with open(filename, "rb") as f_in:
        return pickle.load(f_in)

In [11]:
def run(data_path, num_trials):

    X_train, y_train = load_pickle(os.path.join(data_path, "train.pkl"))
    X_valid, y_valid = load_pickle(os.path.join(data_path, "valid.pkl"))

        
    def objective(params):
        with mlflow.start_run():
            mlflow.autolog()
            rf = RandomForestRegressor(**params)
            rf.fit(X_train, y_train)
            y_pred = rf.predict(X_valid)
            rmse = mean_squared_error(y_valid, y_pred, squared=False)
            mlflow.log_metric('rmse', rmse)
            return {'loss': rmse, 'status': STATUS_OK}

    search_space = {
        'max_depth': scope.int(hp.quniform('max_depth', 1, 20, 1)),
        'n_estimators': scope.int(hp.quniform('n_estimators', 10, 50, 1)),
        'min_samples_split': scope.int(hp.quniform('min_samples_split', 2, 10, 1)),
        'min_samples_leaf': scope.int(hp.quniform('min_samples_leaf', 1, 4, 1)),
        'random_state': 42
    }

    rstate = np.random.default_rng(42)  # for reproducible results
    fmin(
        fn=objective,
        space=search_space,
        algo=tpe.suggest,
        max_evals=num_trials,
        trials=Trials(),
        rstate=rstate
    )

In [12]:
run('./pre-processed-data/',20)

  0%|                                                                                                                                                                                                  | 0/20 [00:00<?, ?trial/s, best loss=?]

2022/05/28 16:26:36 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



  5%|████████▍                                                                                                                                                                | 1/20 [00:22<07:00, 22.15s/trial, best loss: 6.658956269343007]

2022/05/28 16:26:57 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 10%|████████████████▉                                                                                                                                                        | 2/20 [00:25<03:22, 11.25s/trial, best loss: 6.658956269343007]

2022/05/28 16:27:00 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 15%|█████████████████████████▎                                                                                                                                               | 3/20 [00:29<02:14,  7.94s/trial, best loss: 6.658956269343007]

2022/05/28 16:27:04 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 20%|█████████████████████████████████▊                                                                                                                                       | 4/20 [00:41<02:33,  9.62s/trial, best loss: 6.651438559376775]

2022/05/28 16:27:16 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 25%|██████████████████████████████████████████▎                                                                                                                              | 5/20 [00:49<02:12,  8.85s/trial, best loss: 6.651438559376775]

2022/05/28 16:27:24 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 30%|██████████████████████████████████████████████████▋                                                                                                                      | 6/20 [01:15<03:26, 14.73s/trial, best loss: 6.651438559376775]

2022/05/28 16:27:51 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 35%|███████████████████████████████████████████████████████████▏                                                                                                             | 7/20 [01:45<04:16, 19.71s/trial, best loss: 6.651438559376775]

2022/05/28 16:28:20 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 40%|███████████████████████████████████████████████████████████████████▌                                                                                                     | 8/20 [01:50<03:00, 15.04s/trial, best loss: 6.651438559376775]

2022/05/28 16:28:25 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 45%|████████████████████████████████████████████████████████████████████████████                                                                                             | 9/20 [02:03<02:38, 14.38s/trial, best loss: 6.651438559376775]

2022/05/28 16:28:38 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 50%|████████████████████████████████████████████████████████████████████████████████████                                                                                    | 10/20 [02:16<02:18, 13.80s/trial, best loss: 6.651438559376775]

2022/05/28 16:28:51 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 55%|████████████████████████████████████████████████████████████████████████████████████████████▍                                                                           | 11/20 [02:25<01:53, 12.62s/trial, best loss: 6.642137287429206]

2022/05/28 16:29:00 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                   | 12/20 [02:34<01:30, 11.30s/trial, best loss: 6.642137287429206]

2022/05/28 16:29:09 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 13/20 [02:40<01:07,  9.68s/trial, best loss: 6.642137287429206]

2022/05/28 16:29:15 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                  | 14/20 [02:53<01:04, 10.76s/trial, best loss: 6.642137287429206]

2022/05/28 16:29:28 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                          | 15/20 [03:05<00:55, 11.13s/trial, best loss: 6.642137287429206]

2022/05/28 16:29:40 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 80%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                 | 16/20 [03:14<00:41, 10.38s/trial, best loss: 6.642137287429206]

2022/05/28 16:29:49 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 85%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                         | 17/20 [03:26<00:32, 10.87s/trial, best loss: 6.642137287429206]

2022/05/28 16:30:01 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 90%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                | 18/20 [03:42<00:24, 12.46s/trial, best loss: 6.629728007710133]

2022/05/28 16:30:17 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌        | 19/20 [03:51<00:11, 11.44s/trial, best loss: 6.629728007710133]

2022/05/28 16:30:26 INFO mlflow.tracking.fluent: Autologging successfully enabled for sklearn.



100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 20/20 [03:56<00:00, 11.85s/trial, best loss: 6.629728007710133]
