In [7]:

import pathlib
import timeit
import math
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
from sklearn import preprocessing
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import train_test_split
from tqdm import tqdm


# ---------------- DEFINE FUNCTIONS ----------------

def predict_random_forest(x_te, x_tr, y_tr, kList):
    every_prediction = []
    for k in tqdm(kList):
        rndf = RandomForestClassifier(n_estimators=k, criterion="entropy")
        rndf.fit(x_tr, y_tr)
        prediction = rndf.predict(x_te)
        every_prediction.append(prediction)
    return every_prediction


# Check the accuracy of given predictions on the test set y_test
def check_accuracy(y_test, predictions):
    ground_truth = y_test.to_list()
    size = len(ground_truth)
    lst = []

    for predict in predictions:
        count = 0
        for i, j in enumerate(ground_truth):
            if predict[i] == ground_truth[i]:
                count += 1
        lst.append(count / size)
    return lst


# ---------------- PREPARE DATA ----------------

# Read the data
df = pd.read_csv("../Datasets/purchase600-100cls-15k.lrn.csv", encoding="ISO-8859-1")


In [9]:
# PLOT TIME VS DATASET SIZE

selectionSizeRange = list(range(1, 11, 1))
runtime = [] 
for size in selectionSizeRange:
    df=pd.read_csv(dirPath)
    df = df.sample(int(math.floor(df.shape[0]*size/10)), random_state=35)
#     print(df.head())

    # Split into input and target variables
    X = df.iloc[:, 1:-1]  # Remove the ID and Class columns
    Y = df.iloc[:, -1]


    df_x_scaled = X
    
    KList = [1, 5, 10, 50, 100, 1000]

    X_train, X_test, Y_train, Y_test = train_test_split(df_x_scaled, Y, test_size=0.1 , random_state=35)

    # RANDOM FORESTS
    start = timeit.default_timer()
    all_predictions = predict_random_forest(X_test, X_train, Y_train, KList)
    stop = timeit.default_timer()
    time = stop - start
    print('Time: ', time)
    runtime.append(time)



100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:06<00:00,  1.02s/it]


Time:  6.203364500001044


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:11<00:00,  1.99s/it]


Time:  12.047020999998495


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:18<00:00,  3.08s/it]


Time:  18.65510170000016


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:25<00:00,  4.19s/it]


Time:  25.347617600000376


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:34<00:00,  5.74s/it]


Time:  34.647616799999014


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:40<00:00,  6.80s/it]


Time:  41.044901299999765


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:48<00:00,  8.06s/it]


Time:  48.65283819999968


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [00:57<00:00,  9.55s/it]


Time:  57.76439510000091


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [01:06<00:00, 11.09s/it]


Time:  66.99019279999993


100%|██████████████████████████████████████████████████████████████████████████████████████████████| 6/6 [01:17<00:00, 12.88s/it]


Time:  77.90179349999926


In [None]:
fig = plt.figure()
newList = [x / 10 for x in selectionSizeRange]
plt.scatter(newList, runtime)
fig.suptitle('Time vs Dataset size (params: K=[1, 5, 10, 50, 100, 1000])', fontsize=14)
plt.xlabel('Dataset Size', fontsize=14)
plt.ylabel('Time', fontsize=14)
plt.savefig('Purchase_RF_plot_timeVSdatasetsize.png')
plt.show()

In [None]:
runtime

In [None]:
runtimes = []
for key in runtime.keys():
    print(runtime[key])
    runtimes.append(sum(runtime[key])/len(runtime[key]))
print(runtimes)