# AutoML with hyperopt-sklearn

## Use the diabetes dataset

In [1]:
from sklearn import datasets
import pandas as pd
diabetes = datasets.load_diabetes()
dia_df = pd.DataFrame(data=diabetes.data, columns=diabetes.feature_names)
dia_df.columns = ['age',
  'sex',
  'bmi',
  'bp',
  'tc',
  'ldl',
  'hdl',
  'tch',
  'ltg',
  'glu']
dia_df["target"] = diabetes.target

## Train test split

In [2]:
from sklearn.model_selection import train_test_split
df_train, df_test = train_test_split(dia_df, train_size=0.8, test_size=0.2, random_state=1231)

## hyperopt-sklearn autoML workflow

In [3]:
from hpsklearn import HyperoptEstimator
from hpsklearn import any_regressor
from hpsklearn import any_preprocessing
from hyperopt import tpe

# define search use tpe suggested algorithm
model = HyperoptEstimator(regressor=any_regressor('rgr'), preprocessing=any_preprocessing('pre'), algo=tpe.suggest, max_evals=50, trial_timeout=30)
# perform the search
model.fit(df_train.iloc[:,0:10], df_train['target'])

100%|██████████████████████████████████████████████████████████| 1/1 [00:01<00:00,  1.74s/trial, best loss: 0.8745985056989667]
100%|██████████████████████████████████████████████████████████| 2/2 [00:01<00:00,  1.48s/trial, best loss: 0.6697465757811737]
100%|██████████████████████████████████████████████████████████| 3/3 [00:01<00:00,  1.46s/trial, best loss: 0.6697465757811737]
100%|██████████████████████████████████████████████████████████| 4/4 [00:01<00:00,  1.54s/trial, best loss: 0.6697465757811737]
100%|██████████████████████████████████████████████████████████| 5/5 [00:01<00:00,  1.50s/trial, best loss: 0.6697465757811737]
100%|██████████████████████████████████████████████████████████| 6/6 [00:01<00:00,  1.51s/trial, best loss: 0.6697465757811737]
100%|██████████████████████████████████████████████████████████| 7/7 [00:01<00:00,  1.63s/trial, best loss: 0.6290059703836733]
100%|██████████████████████████████████████████████████████████| 8/8 [00:01<00:00,  1.45s/trial, best lo



100%|████████████████████████████████████████████████████████| 16/16 [00:01<00:00,  1.57s/trial, best loss: 0.6260150972151176]
100%|████████████████████████████████████████████████████████| 17/17 [00:01<00:00,  2.00s/trial, best loss: 0.6260150972151176]
100%|████████████████████████████████████████████████████████| 18/18 [00:01<00:00,  1.53s/trial, best loss: 0.6260150972151176]
100%|████████████████████████████████████████████████████████| 19/19 [00:01<00:00,  1.60s/trial, best loss: 0.6260150972151176]
100%|████████████████████████████████████████████████████████| 20/20 [00:01<00:00,  1.61s/trial, best loss: 0.6260150972151176]
100%|████████████████████████████████████████████████████████| 21/21 [00:01<00:00,  1.67s/trial, best loss: 0.6260150972151176]
100%|████████████████████████████████████████████████████████| 22/22 [00:01<00:00,  1.86s/trial, best loss: 0.6199489079749813]
100%|████████████████████████████████████████████████████████| 23/23 [00:02<00:00,  2.52s/trial, best lo




100%|█████████████████████████████████████████████████████████| 40/40 [00:03<00:00,  3.26s/trial, best loss: 0.611030297522025]
100%|█████████████████████████████████████████████████████████| 41/41 [00:02<00:00,  2.34s/trial, best loss: 0.611030297522025]
100%|████████████████████████████████████████████████████████| 42/42 [00:07<00:00,  7.30s/trial, best loss: 0.6041518428725485]
100%|████████████████████████████████████████████████████████| 43/43 [00:02<00:00,  2.49s/trial, best loss: 0.6041518428725485]
100%|████████████████████████████████████████████████████████| 44/44 [00:02<00:00,  2.55s/trial, best loss: 0.6041518428725485]
100%|████████████████████████████████████████████████████████| 45/45 [00:09<00:00,  9.48s/trial, best loss: 0.6041518428725485]
100%|████████████████████████████████████████████████████████| 46/46 [00:02<00:00,  2.54s/trial, best loss: 0.6041518428725485]
100%|████████████████████████████████████████████████████████| 47/47 [00:02<00:00,  2.61s/trial, best l




100%|████████████████████████████████████████████████████████| 50/50 [00:02<00:00,  2.51s/trial, best loss: 0.6041518428725485]


## Performance on the test data

In [5]:
model.score(df_test.iloc[:,0:10], df_test['target'])



0.5259070668921988

In [9]:
model.predict(df_test.iloc[1:3,0:10])



array([230.84881978, 199.79898839])

## Check the best model

In [6]:
print(model.best_model())

{'learner': RandomForestRegressor(criterion='absolute_error', max_depth=4,
                      max_features='sqrt', max_leaf_nodes=15,
                      min_impurity_decrease=0.02, min_samples_split=3,
                      n_estimators=2669, n_jobs=1, random_state=0,
                      verbose=False), 'preprocs': (Normalizer(),), 'ex_preprocs': ()}


A random forest model seems to be the best model 
using the hyperopt_sklearn autoML approach

## save the model

In [7]:
import pickle
filehandler = open(b"diabetes_hyperopt_automl.model","wb")
pickle.dump(model,filehandler)
filehandler.close()

## Use R2 to score the predictions

In [10]:
from sklearn.metrics import r2_score
y_test_predicted_hyperopt=model.predict(df_test.iloc[:,0:10])
r2_score(df_test["target"],y_test_predicted_hyperopt)



0.5259070668921988

## Use mean absolute error to score the predictions

In [11]:
from sklearn.metrics import mean_absolute_error
mean_absolute_error(df_test["target"],y_test_predicted_hyperopt)

44.89379517641165