In [2]:
import pandas as pd
from tqdm import tqdm
import os
import numpy as np
from pathlib import Path
import csv
import random

from sklearn.model_selection import train_test_split
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV
from sklearn.model_selection import cross_val_score

from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor
from sklearn.ensemble import GradientBoostingRegressor
# import lightgbm as lgb

from sklearn.metrics import (precision_score, recall_score, roc_auc_score, accuracy_score, mean_squared_error,
                             confusion_matrix, precision_recall_curve, roc_curve, brier_score_loss)

from scipy.stats import uniform as sp_randFloat
from scipy.stats import randint as sp_randInt

In [3]:
# Random Forest Module -> hyperparameter tuning
def RF_pred_tuned(train_path, validation_path, train_column_drop, validation_column, details=None):
    
    df_train = pd.read_csv(train_path)
    df_validation = pd.read_csv(validation_path)
    
    X = df_train.drop(train_column_drop, axis = 1)
    y = df_train[validation_column]
    
    X_validation = df_validation.drop(train_column_drop, axis = 1)
    y_validation = df_validation[validation_column]
    
    # Build models with hyperparameters sets
    RSC = RandomizedSearchCV(
        estimator=RandomForestRegressor(),
        param_distributions={
            'n_estimators': range(1, 200, 10),
            'max_depth': range(1, 100, 10),
            'max_features': ['auto', 'sqrt', 'log2']}, cv=5, scoring='neg_root_mean_squared_error', n_jobs=-1)
    
    # Fit RandomizedSearchCV to find best hyperparameters
    search_result = RSC.fit(X, y.values.ravel())
    print("Best using: ", search_result.best_params_, "Score: ", search_result.best_score_)

    # Build models with optimized hyperparameters
    model_RF = RandomForestRegressor(
        n_estimators=search_result.best_params_["n_estimators"],
        max_depth=search_result.best_params_["max_depth"],
        max_features=search_result.best_params_["max_features"]
    )
    
    model_RF.fit(X, y.values.ravel())
    train_pred = model_RF.predict(X)
    y_pred = model_RF.predict(X_validation)
    
    train_rmse = mean_squared_error(y, train_pred, squared=False)
    
    test_rmse = mean_squared_error(y_validation, y_pred, squared=False)

    details['training_rmse'] = train_rmse
    details['testing_rmse'] = test_rmse

    print('Training RMSE: ', train_rmse, 'Testing RMSE: ', test_rmse)
    
    return model_RF

In [4]:
# Random Forest Module -> default parameters
def RF_pred_default(train_path, validation_path, train_column_drop, validation_column, details=None):
    
    df_train = pd.read_csv(train_path)
    df_validation = pd.read_csv(validation_path)
    
    X = df_train.drop(train_column_drop, axis = 1)
    y = df_train[validation_column]
    
    X_validation = df_validation.drop(train_column_drop, axis = 1)
    y_validation = df_validation[validation_column]
    
    model_RF = RandomForestRegressor()
    
    model_RF.fit(X, y.values.ravel())
    train_pred = model_RF.predict(X)
    y_pred = model_RF.predict(X_validation)
    
    train_rmse = mean_squared_error(y, train_pred, squared=False)
    
    test_rmse = mean_squared_error(y_validation, y_pred, squared=False)

    details['training_rmse'] = train_rmse
    details['testing_rmse'] = test_rmse

    print('Training RMSE: ', train_rmse, 'Testing RMSE: ', test_rmse)
    
    return model_RF

In [8]:
# dataset metadata

data_dir = "/home/asim/ssriva59/setup-stuff/gateway_and_dataset"
datasets = [
    "Facebook_data", # -> done,
    "Features_TestSet", # -> done,
    "House_Price_Adv_Regression", # -> done,
    # "Instant_Liking",
    "Insurance", # -> done,
    "Isolet",
    "new_data_trans", # -> done,
    "OnlineNewsPopularity", # -> done,
    "ParkinsonData", # -> done,
    "Sberbank_Russian_Housing_Market", # -> done, Gradiant Boosting remains
    "slice_localization_data", # -> done,
    "Telecom_data", # -> done,
    "yearMSD_new", # -> done,
    "arrhythmia", # -> done,
    "Big_mart_sales", # -> done,
    "blogData", # -> done
    "communities", # -> done,
    "dengue_features", # -> done,
    "ECG0_p02", # -> done,
    "ENERGY_DATA_COMPLETE", # -> done
]

x_column_drop = {
    "Facebook_data": ['Unnamed: 0', 'Total.Interactions'],
    "Features_TestSet": ['Unnamed: 0', 'Target'],
    "House_Price_Adv_Regression": ['Unnamed: 0', 'SalePrice'],
    # "Instant_Liking": ['Instant.Liking'] -> NaN needs to be fixed,
    "Insurance": ['Unnamed: 0', 'charges'],
    "Isolet": ['Unnamed: 0', 'Target'], # -> some random error, need to see,
    "new_data_trans": ['Unnamed: 0', 'X23.Humedad_Exterior_Sensor'],
    "OnlineNewsPopularity": ['Unnamed: 0', 'shares'],
    "ParkinsonData": ['Unnamed: 0', 'total_UPDRS'],
    "Sberbank_Russian_Housing_Market": ['Unnamed: 0', 'price_doc'],
    "slice_localization_data": ['Unnamed: 0', 'reference'],
    "Telecom_data": ['Unnamed: 0', 'Churned.Label'],
    "yearMSD_new": ['Unnamed: 0', 'Year'],
    "arrhythmia": ['Unnamed: 0', 'Defection'],
    "Big_mart_sales": ['Unnamed: 0', 'Item_Outlet_Sales'],
    "blogData": ['Unnamed: 0', 'Comments'],
    "communities": ['Unnamed: 0','ViolentCrimesPerPop'],
    "dengue_features": ['Unnamed: 0','total_cases'],
    "ECG0_p02": ['Unnamed: 0', 'CurrentValue'],
    "ENERGY_DATA_COMPLETE": ['Unnamed: 0', 'Appliances']
}

target_column = {
    "Facebook_data": ['Total.Interactions'],
    "Features_TestSet": ['Target'],
    "House_Price_Adv_Regression": ['SalePrice'],
    # "Instant_Liking": ['Instant.Liking'] -> NaN needs to be fixed,
    "Insurance": ['charges'],
    "Isolet": ['Target'], # -> some random error, need to see,
    "new_data_trans": ['X23.Humedad_Exterior_Sensor'],
    "OnlineNewsPopularity": ['shares'],
    "ParkinsonData": ['total_UPDRS'],
    "Sberbank_Russian_Housing_Market": ['price_doc'],
    "slice_localization_data": ['reference'],
    "Telecom_data": ['Churned.Label'],
    "yearMSD_new": ['Year'],
    "arrhythmia": ['Defection'],
    "Big_mart_sales": ['Item_Outlet_Sales'],
    "blogData": ['Comments'],
    "communities": ['ViolentCrimesPerPop'],
    "dengue_features": ['total_cases'],
    "ECG0_p02": ['CurrentValue'],
    "ENERGY_DATA_COMPLETE": ['Appliances']
}

seeds = [1, 50, 100, 150, 200, 250, 300, 350, 400, 450]

In [None]:
# Driver for tuned RF

for index, dataset in enumerate(datasets):
    df = pd.DataFrame()
    print(dataset)
    for seed in tqdm(seeds):
        csv_path_train = os.path.join(data_dir, dataset, "Train", dataset + '_seed_' + str(seed) + '_train.csv')
        csv_path_validation = os.path.join(data_dir, dataset, "Train", dataset + '_seed_' + str(seed) + '_validation.csv')
        csv_path_test = os.path.join(data_dir, dataset, "Test", dataset + '_Test_seed' + str(seed) + '_modified.csv')
        df_test = pd.read_csv(csv_path_test)
        
        X_test = df_test.drop(x_column_drop[dataset], axis = 1)
        y_test = df_test[target_column[dataset]]
        
        details = {
            'dataset': dataset,
            'seed': str(seed)
        }
        
        # For RF
        model_RF = RF_pred_tuned(csv_path_train, csv_path_validation, x_column_drop[dataset], target_column[dataset], details)
        
        importances = model_RF.feature_importances_
        indices = np.argsort(importances)[::-1]
        top_k = 10
        top_indices = indices[:top_k]
        details['best_feature_list'] = np.array(X_test.columns)[indices][0:top_k]
        
        y_pred = model_RF.predict(X_test)
        validation_rmse = mean_squared_error(y_test, y_pred, squared=False)
        details['validation_rmse'] = validation_rmse
        
        df = df.append(details, ignore_index=True)
        filepath = Path(dataset + '_RF_tuned.csv')
        filepath.parent.mkdir(parents=True, exist_ok=True)
        df.to_csv(filepath, index=False)

In [None]:
# Driver for default RF

for index, dataset in enumerate(datasets):
    df = pd.DataFrame()
    print(dataset)
    for seed in tqdm(seeds):
        csv_path_train = os.path.join(data_dir, dataset, "Train", dataset + '_seed_' + str(seed) + '_train.csv')
        csv_path_validation = os.path.join(data_dir, dataset, "Train", dataset + '_seed_' + str(seed) + '_validation.csv')
        csv_path_test = os.path.join(data_dir, dataset, "Test", dataset + '_Test_seed' + str(seed) + '_modified.csv')
        df_test = pd.read_csv(csv_path_test)
        
        X_test = df_test.drop(x_column_drop[dataset], axis = 1)
        y_test = df_test[target_column[dataset]]
        
        details = {
            'dataset': dataset,
            'seed': str(seed)
        }
        
        # For RF
        model_RF = RF_pred_default(csv_path_train, csv_path_validation, x_column_drop[dataset], target_column[dataset], details)
        
        importances = model_RF.feature_importances_
        indices = np.argsort(importances)[::-1]
        top_k = 10
        top_indices = indices[:top_k]
        details['best_feature_list'] = np.array(X_test.columns)[indices][0:top_k]
        
        y_pred = model_RF.predict(X_test)
        validation_rmse = mean_squared_error(y_test, y_pred, squared=False)
        details['validation_rmse'] = validation_rmse
        
        df = df.append(details, ignore_index=True)
        filepath = Path(dataset + '_RF_default.csv')
        filepath.parent.mkdir(parents=True, exist_ok=True)
        df.to_csv(filepath, index=False)

Facebook_data


 10%|███████████████████▌                                                                                                                                                                                | 1/10 [00:00<00:02,  3.64it/s]

Training RMSE:  89.9766982742384 Testing RMSE:  65.76811528392766


 20%|███████████████████████████████████████▏                                                                                                                                                            | 2/10 [00:00<00:01,  4.07it/s]

Training RMSE:  18.12736787291525 Testing RMSE:  83.6367658628668


 30%|██████████████████████████████████████████████████████████▊                                                                                                                                         | 3/10 [00:00<00:01,  4.15it/s]

Training RMSE:  90.4946032681876 Testing RMSE:  34.1963558487353


 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 4/10 [00:00<00:01,  4.24it/s]

Training RMSE:  19.920319617583115 Testing RMSE:  22.815343959712738


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 5/10 [00:01<00:01,  4.26it/s]

Training RMSE:  112.44421781784364 Testing RMSE:  77.1560714223666


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 6/10 [00:01<00:00,  4.26it/s]

Training RMSE:  20.797781708634215 Testing RMSE:  17.465827053611473


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 7/10 [00:01<00:00,  4.12it/s]

Training RMSE:  102.6883616531104 Testing RMSE:  96.52860217918143


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 8/10 [00:01<00:00,  4.18it/s]

Training RMSE:  18.871176054148478 Testing RMSE:  515.2503872384118


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 9/10 [00:02<00:00,  4.16it/s]

Training RMSE:  78.30705363290502 Testing RMSE:  39.45844769712396


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:02<00:00,  4.13it/s]


Training RMSE:  18.918733370216234 Testing RMSE:  46.75083086605699
Features_TestSet


 10%|███████████████████▌                                                                                                                                                                                | 1/10 [00:08<01:14,  8.32s/it]

Training RMSE:  32.52573341950795 Testing RMSE:  86.57966420156211


 20%|███████████████████████████████████████▏                                                                                                                                                            | 2/10 [00:17<01:09,  8.66s/it]

Training RMSE:  29.616343763087148 Testing RMSE:  72.5180812312457


 30%|██████████████████████████████████████████████████████████▊                                                                                                                                         | 3/10 [00:26<01:01,  8.81s/it]

Training RMSE:  29.913114291860392 Testing RMSE:  96.70676568813917


 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 4/10 [00:35<00:52,  8.81s/it]

Training RMSE:  33.041940924104466 Testing RMSE:  62.29014598518601


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 5/10 [00:44<00:44,  8.88s/it]

Training RMSE:  29.118416434828447 Testing RMSE:  94.00851488421974


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 6/10 [00:52<00:35,  8.90s/it]

Training RMSE:  32.974769354101475 Testing RMSE:  80.19285829734348


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 7/10 [01:02<00:26,  8.95s/it]

Training RMSE:  34.975094955314624 Testing RMSE:  56.97345518829194


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 8/10 [01:11<00:18,  9.10s/it]

Training RMSE:  32.22104416760119 Testing RMSE:  99.24114875390421


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 9/10 [01:20<00:09,  9.07s/it]

Training RMSE:  31.530307289368924 Testing RMSE:  101.34799342422488


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [01:29<00:00,  8.97s/it]


Training RMSE:  28.287875682306144 Testing RMSE:  97.51063777854242
House_Price_Adv_Regression


 10%|███████████████████▌                                                                                                                                                                                | 1/10 [00:01<00:13,  1.46s/it]

Training RMSE:  13000.724796399112 Testing RMSE:  26621.363147498832


 20%|███████████████████████████████████████▏                                                                                                                                                            | 2/10 [00:02<00:11,  1.48s/it]

Training RMSE:  10368.862188626885 Testing RMSE:  29354.193786205622


 30%|██████████████████████████████████████████████████████████▊                                                                                                                                         | 3/10 [00:04<00:10,  1.47s/it]

Training RMSE:  12663.066785161023 Testing RMSE:  25598.406059749457


 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 4/10 [00:05<00:08,  1.48s/it]

Training RMSE:  12081.909818852382 Testing RMSE:  24788.69929133828


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 5/10 [00:07<00:07,  1.47s/it]

Training RMSE:  11444.668228061773 Testing RMSE:  31047.676805519608


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 6/10 [00:08<00:05,  1.48s/it]

Training RMSE:  12357.689298463196 Testing RMSE:  29050.514139736024


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 7/10 [00:10<00:04,  1.48s/it]

Training RMSE:  11780.902035271354 Testing RMSE:  35142.62973129341


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 8/10 [00:11<00:02,  1.48s/it]

Training RMSE:  12189.007158151557 Testing RMSE:  30433.570422922534


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 9/10 [00:13<00:01,  1.48s/it]

Training RMSE:  12410.376890923793 Testing RMSE:  23581.38340793552


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:14<00:00,  1.48s/it]


Training RMSE:  10852.26303022737 Testing RMSE:  46452.788207067744
Insurance


 10%|███████████████████▌                                                                                                                                                                                | 1/10 [00:00<00:02,  4.06it/s]

Training RMSE:  1819.762141600934 Testing RMSE:  4447.216328789917


 20%|███████████████████████████████████████▏                                                                                                                                                            | 2/10 [00:00<00:01,  4.05it/s]

Training RMSE:  1821.777387430624 Testing RMSE:  4998.527926539163


 30%|██████████████████████████████████████████████████████████▊                                                                                                                                         | 3/10 [00:00<00:01,  4.08it/s]

Training RMSE:  1711.1244092948104 Testing RMSE:  5039.148020844155


 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 4/10 [00:00<00:01,  4.08it/s]

Training RMSE:  1752.532676684631 Testing RMSE:  4682.082770653244


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 5/10 [00:01<00:01,  4.08it/s]

Training RMSE:  1888.1240100162815 Testing RMSE:  5231.74592603481


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 6/10 [00:01<00:01,  3.98it/s]

Training RMSE:  1855.339347850154 Testing RMSE:  5322.257511382064


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 7/10 [00:01<00:00,  3.96it/s]

Training RMSE:  1947.2529008109575 Testing RMSE:  4481.342009124444


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 8/10 [00:01<00:00,  4.00it/s]

Training RMSE:  1821.3811113738834 Testing RMSE:  4182.126017894765


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                   | 9/10 [00:02<00:00,  4.00it/s]

Training RMSE:  1732.0070178808267 Testing RMSE:  5060.487399057017


100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 10/10 [00:02<00:00,  4.02it/s]


Training RMSE:  1811.06173693235 Testing RMSE:  5087.918093006973
Isolet


 10%|███████████████████▌                                                                                                                                                                               | 1/10 [01:42<15:19, 102.19s/it]

Training RMSE:  0.07458172711807151 Testing RMSE:  0.19081738049269523


 20%|███████████████████████████████████████▏                                                                                                                                                            | 2/10 [03:14<12:52, 96.58s/it]

Training RMSE:  0.07388760375087984 Testing RMSE:  0.19919782998643187


 30%|██████████████████████████████████████████████████████████▊                                                                                                                                         | 3/10 [04:47<11:04, 94.95s/it]

Training RMSE:  0.07271598351453668 Testing RMSE:  0.19991844866166386


 40%|██████████████████████████████████████████████████████████████████████████████▍                                                                                                                     | 4/10 [06:22<09:29, 94.97s/it]

Training RMSE:  0.07380356678048955 Testing RMSE:  0.19045860698617792


 50%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                                                  | 5/10 [08:00<07:59, 95.84s/it]

Training RMSE:  0.07366487217908463 Testing RMSE:  0.19341144213438943


 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                              | 6/10 [09:37<06:25, 96.41s/it]

Training RMSE:  0.07326920504838463 Testing RMSE:  0.193259409086529


 70%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                          | 7/10 [11:16<04:51, 97.11s/it]

Training RMSE:  0.07493714050868493 Testing RMSE:  0.19009089833329243


 80%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                       | 8/10 [12:55<03:15, 97.72s/it]

Training RMSE:  0.07482449484544126 Testing RMSE:  0.18791173075206094
