In [1]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
import numpy as np
import pandas as pd
from sklearn.metrics import accuracy_score, f1_score, precision_score, recall_score, classification_report, confusion_matrix
import warnings
warnings.filterwarnings('ignore')

In [2]:
PATH = r"C:\Users\terry\Documents\MLOptimization\Optimizer\data\cm1.csv"

In [3]:
def de(func, bounds, mut=0.8, crossp=0.7, popsize=20, its=200):
    dimensions = len(bounds)
    pop = np.random.rand(popsize, dimensions)

    # pdb.set_trace()
    min_b, max_b = np.asarray(bounds).T
    diff = np.fabs(min_b - max_b)
    pop_denorm = min_b + pop * diff

    # convert from float to integer
    pop_denorm_convert = pop_denorm.tolist()

    result_list = []
    temp_list = []

    for index in pop_denorm_convert:
        temp_list.append(np.int_(np.round_(index[0])))
        temp_list.append(np.int_(np.round_(index[1])))
        temp_list.append(np.int_(np.round_(index[2])))
        temp_list.append(np.int_(np.round_(index[3])))
        temp_list.append(float('%.2f' % index[4]))
        temp_list.append(np.int(np.round_(index[5])))
        result_list.append(temp_list)
        temp_list = []

    fitness = np.asarray([func(index[0], index[1], index[2], index[3], index[4], index[5])
                          for index in result_list])

    best_idx = np.argmax(fitness)
    best = pop_denorm[best_idx]

    for i in range(its):
        for j in range(popsize):
            idxs = [idx for idx in range(popsize) if idx != j]
            a, b, c = pop[np.random.choice(idxs, 3, replace=False)]
            mutant = a + mut * (b - c)
            for i, v in enumerate(mutant):
                if 0 < v < 1: continue
                if v < 0: mutant[i] = v + 1
                if v > 1: mutant[i] = v - 1
            # mutant = np.clip(res, 0, 1)

            cross_points = np.random.rand(dimensions) < crossp
            if not np.any(cross_points):
                cross_points[np.random.randint(0, dimensions)] = True

            trial = np.where(cross_points, mutant, pop[j])
            trial_denorm = min_b + trial * diff
            trail_denorm_convert = trial_denorm.tolist()
            f = func(np.int_(np.round_(trail_denorm_convert[0])), np.int_(np.round_(trail_denorm_convert[1])), np.int_(np.round_(trail_denorm_convert[2])),
                     np.int_(np.round_(trail_denorm_convert[3])), float('%.2f' % trail_denorm_convert[4]), np.int_(np.round_(trail_denorm_convert[5])))

            if f > fitness[j]:
                fitness[j] = f
                pop[j] = trial
                if f > fitness[best_idx]:
                    best_idx = j
                    best = trial_denorm
        yield best, fitness[best_idx]

In [4]:
def read_data(path):
    """
    Read the data into pandas dataframe
    :param path:
    :return:
    """
    data = pd.read_csv(path)
    data = data.sample(frac=1)
    return data

In [5]:
def split_dataset(dataset, train_percentage):
    """
    Split the dataset with train_percentage
    :param dataset:
    :param train_percentage:
    :param featureX:
    :param targetY:
    :return: train_x, test_x, train_y, test_y
    """
    X = dataset.iloc[:, :-1]
    y = dataset['defects'].map({True: 1, False: 0})
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=train_percentage, random_state=42)
    return X_train, X_test, y_train, y_test

In [6]:
def random_forest_classifier_with_default(features, target):
    """
    To train the random forest classifier with features and target data, and with some default value
    :param features:
    :param target:
    :n_estimators:
    :min_samples_leaf:
    :min_samples_split:
    :max_leaf_nodes:
    :max_features:
    :max_depth
    :return: trained random forest classifier
    """
    rf = RandomForestClassifier(n_estimators=100, min_samples_leaf=1, min_samples_split=2, max_leaf_nodes=None,
                                max_features=None, max_depth=5)
    rf.fit(features, target)
    return rf

In [7]:
def dataset_statistics(dataset):
    """
    Basic statistics of the dataset
    :param dataset: Pandas dataframe
    :return: None, print the basic statistics of the dataset
    """
    print(dataset.describe())

In [8]:
def target_tuning_function(n_estimators, min_samples_leaf, min_samples_split, max_leaf_nodes, max_features, max_depth):
    """
    Define the tuning target function, e.g., to achieve higher precision score in RandomForest
    """
    rf = RandomForestClassifier(n_estimators=n_estimators, min_samples_leaf=min_samples_leaf, 
                                min_samples_split=min_samples_split, max_leaf_nodes=max_leaf_nodes,
                                max_features=max_features, max_depth=max_depth)
    rf.fit(train_x, train_y)
    predictions = rf.predict(test_x)
    precision = precision_score(test_y, predictions, average="macro")
    return precision

In [9]:
def main():
    """
    Main function
    :return:
    """
    dataset = read_data(PATH)
    dataset_statistics(dataset)
    
    global train_x
    global test_x
    global train_y
    global test_y
    
    train_x, test_x, train_y, test_y = split_dataset(dataset, 0.25)
    print("Train_x Shape :: ", train_x.shape)
    print("Train_y Shape :: ", train_y.shape)
    print("Test_x Shape :: ", test_x.shape)
    print("Test_y Shape :: ", test_y.shape)
    
    trained_model = random_forest_classifier_with_default(train_x, train_y)
    print("Trained model :: ", trained_model)
    
    predictions = trained_model.predict(test_x)
    
    # print some sample prediction results
    #for i in range(0, 20):
    #    print("Actual outcome :: {} and Predicted outcome :: {}".format(list(test_y)[i], predictions[i]))
    
    print("Train Accuracy :: ", accuracy_score(train_y, trained_model.predict(train_x)))
    print("Test Accuracy  :: ", accuracy_score(test_y, predictions))
    print(" Confusion matrix ", confusion_matrix(test_y, predictions))
    
    print("Precision  :: ", precision_score(test_y, predictions, average="macro"))
    print("f1 score :: ", f1_score(test_y, predictions, average="macro"))
    print("recall score ::", recall_score(test_y, predictions, average="macro"))
    
    
    print("----------Tuning with DE----------")
    result = list(de(target_tuning_function, bounds=[(50, 150), (1, 20), (2, 20), (2, 50), (0.01, 1), (1, 10)]))
    print(result)
    
    

In [10]:
if __name__ == "__main__":
    main()

              loc        v(g)       ev(g)       iv(g)            n  \
count  498.000000  498.000000  498.000000  498.000000   498.000000   
mean    29.644779    5.382329    2.490763    3.528916   143.956426   
std     42.753572    8.347359    3.658847    5.464398   221.049888   
min      1.000000    1.000000    1.000000    1.000000     1.000000   
25%      8.000000    1.000000    1.000000    1.000000    25.000000   
50%     17.000000    3.000000    1.000000    2.000000    67.500000   
75%     31.000000    6.000000    1.000000    4.000000   151.750000   
max    423.000000   96.000000   30.000000   63.000000  2075.000000   

                  v           l           d           i             e  \
count    498.000000  498.000000  498.000000  498.000000  4.980000e+02   
mean     900.175823    0.146325   15.829378   38.455361  3.488493e+04   
std     1690.814334    0.159337   15.330960   36.996297  1.341647e+05   
min        0.000000    0.000000    0.000000    0.000000  0.000000e+00   
25% 

0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.4463087248322148
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0

0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.4463087248322148
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0

0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.4463087248322148
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0

0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.4463087248322148
0.44666666666666666
0.4463087248322148
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.

0.44666666666666666
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44594594594594594
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.4463087248322148
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0.44666666666666666
0

KeyboardInterrupt: 