## Feature Selection-Information gain - mutual information In Classification Problem Statements

#### Mutual Information 

MI Estimate mutual information for a discrete target variable.

Mutual information (MI) between two random variables is a non-negative value, which measures the dependency between the variables. It is equal to zero if and only if two random variables are independent, and higher values mean higher dependency.

The function relies on nonparametric methods based on entropy estimation from k-nearest neighbors distances.

Inshort

A quantity called mutual information measures the amount of information one can obtain from one random variable given another.

The mutual information between two random variables X and Y can be stated formally as follows:

<b>I(X ; Y) = H(X) – H(X | Y)<b>
Where I(X ; Y) is the mutual information for X and Y, H(X) is the entropy for X and H(X | Y) is the conditional entropy for X given Y. The result has the units of bits.

#### Youtube Videos

Entropy: https://www.youtube.com/watch?v=1IQOtJ4NI_0
        
Information Gain: https://www.youtube.com/watch?v=FuTRucXB9rA
        
Gini Impurity: https://www.youtube.com/watch?v=5aIFgrrTqOw

Statistical test: https://www.youtube.com/watch?v=4-rxTA_5_xA

In [7]:
#libraries buat seleksi fitur
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_selection import mutual_info_classif
from sklearn.feature_selection import SelectKBest

#libraries buat klasifikasi
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_validate
from sklearn import metrics
from sklearn.ensemble import RandomForestClassifier
from sklearn import svm
import time
import sys

In [8]:
#import dataset
df = pd.read_csv('nirsMangga.csv')

# separate dataset into train and test
x_train, x_test, y_train, y_test = train_test_split(
    df.drop(labels=['No', 'Mango Cultivars', 'Vit C (mg/100g)', 'TA (mg/100g)', 'SSC (oBrix)', 'label'], axis=1),
    df['label'],
    test_size=0.3,
    random_state=0)

x_train.head()

Unnamed: 0,999.9,1000.3,1000.7,1001.1,1001.4,1001.8,1002.2,1002.6,1003,1003.4,...,2478.7,2481.1,2483.5,2485.8,2488.2,2490.6,2493,2495.4,2497.8,2500.2
16,0.471459,0.471074,0.470934,0.470379,0.47026,0.46988,0.469497,0.469435,0.469454,0.468998,...,1.413537,1.41574,1.417568,1.419698,1.421711,1.42307,1.424394,1.426121,1.427552,1.428625
51,0.433239,0.432622,0.432626,0.432379,0.43162,0.43071,0.430836,0.430847,0.430188,0.42947,...,1.601232,1.602877,1.604524,1.605982,1.606778,1.607837,1.608756,1.609967,1.6109,1.611099
183,0.545045,0.544204,0.543792,0.543596,0.543338,0.542534,0.541493,0.541139,0.541308,0.540831,...,1.524657,1.525973,1.527454,1.529518,1.530097,1.530315,1.530254,1.531191,1.532366,1.533183
145,0.545846,0.544815,0.544524,0.544631,0.544169,0.543143,0.542535,0.54208,0.541842,0.541258,...,1.421962,1.422955,1.423717,1.424639,1.42508,1.425797,1.426503,1.427164,1.427838,1.428271
40,0.381048,0.380483,0.380541,0.380151,0.379599,0.379189,0.379009,0.378722,0.378309,0.377719,...,1.571125,1.572674,1.574303,1.576075,1.577273,1.57798,1.578561,1.579334,1.580042,1.581424


# Seleksi Fitur Mutual Information

In [9]:
%%time

# determine the mutual information
mutual_info = mutual_info_classif(x_train, y_train)
mutual_info

CPU times: user 4.51 s, sys: 2.09 ms, total: 4.51 s
Wall time: 4.51 s


array([0.63194121, 0.63677335, 0.63393088, ..., 0.5091611 , 0.49290951,
       0.48903907])

In [10]:
x_train.columns

Index(['999.9', '1000.3', '1000.7', '1001.1', '1001.4', '1001.8', '1002.2',
       '1002.6', '1003', '1003.4',
       ...
       '2478.7', '2481.1', '2483.5', '2485.8', '2488.2', '2490.6', '2493',
       '2495.4', '2497.8', '2500.2'],
      dtype='object', length=1557)

In [11]:
# Create features score, features p_value, and features name
features_mi = pd.DataFrame(mutual_info)
features = pd.DataFrame(x_train.columns)
features_mi = pd.concat([features, features_mi],axis=1)

#reset index, supaya tidak ada nilai nan di dataframe yg dibikin
features_mi.reset_index(drop=True, inplace=True)
features.reset_index(drop=True, inplace=True)

# Assign the column name
features_mi.columns = ["Input_Features", "Mutual Information Value"]

# Print features score
print(features_mi.nlargest(100,columns="Mutual Information Value"))

    Input_Features  Mutual Information Value
318         1139.7                  0.709039
319         1140.2                  0.703579
322         1141.7                  0.702486
315         1138.2                  0.700575
316         1138.7                  0.699476
..             ...                       ...
697         1367.5                  0.633102
536         1260.4                  0.632364
0            999.9                  0.631941
569           1281                  0.631650
565         1278.5                  0.631549

[100 rows x 2 columns]


In [6]:
print(features_mi.nlargest(100,columns="Mutual Information Value").iloc[:,0].values.flatten().tolist())

['1139.7', '1140.2', '1141.7', '1138.2', '1138.7', '1139.2', '1140.7', '1141.2', '1142.2', '1132.2', '1137.7', '1131.7', '1137.2', '1359.6', '1358.9', '1142.7', '1134.2', '1360.3', '1133.7', '1361', '1131.2', '1132.7', '1272.8', '1358.2', '1133.2', '1357.5', '1356.7', '1267.2', '1275.3', '1262.3', '1276', '1272.2', '1270.9', '1143.2', '1267.8', '1136.7', '1273.4', '1266', '1270.3', '1266.6', '1265.4', '1274.7', '1269.1', '1369.6', '1370.4', '1263.5', '1271.6', '1361.7', '1368.9', '1135.7', '1276.6', '1268.5', '1269.7', '1264.7', '1261.7', '1134.7', '1277.2', '1662', '1274.1', '1264.1', '1279.7', '1262.9', '1135.2', '1659.9', '1660.9', '1130.7', '1136.2', '1632.7', '1663.1', '1368.2', '1279.1', '1654.6', '1349.7', '1651.4', '1664.1', '1631.7', '1657.8', '1652.5', '1658.8', '1000.3', '1628.6', '1653.5', '1297.7', '1277.8', '1630.6', '1280.4', '1655.6', '1350.4', '1353.9', '1259.8', '1000.7', '1665.2', '1282.9', '1656.7', '1371.1', '1367.5', '1260.4', '999.9', '1281', '1278.5']


# Klasifikasi Random Forest Classifier

In [7]:
#buat n-fold cv
#cross validation 10-fold
cv = KFold(n_splits=10, random_state=1, shuffle=True)

## Testing Performa Model Random Forest Classifier

In [7]:
%%time

#tentukan metode scoring yang digunakan
scoring_rfe = {'acc': 'accuracy',
               'prec_micro': 'precision_micro',
               'rec_micro': 'recall_micro'}

#tentukan total fitur dan trees yang digunakan dalam proses klasifikasi ini
n_feat = [20]
n_trees = [100]

for nfeat in n_feat:
    for ntrees in n_trees:        
        #ambil n fitur input hasil seleksi fitur MI
        x_train_selected = x_train[features_mi.nlargest(30,columns="Mutual Information Value").iloc[0:nfeat, 0]]
        x_test_selected = x_test[features_mi.nlargest(30,columns="Mutual Information Value").iloc[0:nfeat, 0]]

        #Create a Gaussian Classifier
        clf_rfe = RandomForestClassifier(n_estimators=ntrees)
        
        #Train the model using the training sets
        clf_rfe.fit(x_train_selected, y_train)
        y_pred_rfe=clf_rfe.predict(x_test_selected)
        
        #hitung score model dari data train
        scores_rfe = cross_validate(clf_rfe, x_train_selected, y_train, scoring=scoring_rfe, cv=cv, return_train_score=True)
        
        print("Akurasi model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_acc'].mean(), 2)))
        print("Akurasi model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.accuracy_score(y_test, y_pred_rfe), 2)))
        print("Precision model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_prec_micro'].mean(), 2)))
        print("Precision model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)))
        print("Recall model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_rec_micro'].mean(), 2)))
        print("Recall model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)))
        print(" ")

Akurasi model RFE data Train dengan 20 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 20 fitur dan 100 trees:0.93
Precision model RFE data Train dengan 20 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 20 fitur dan 100 trees:0.93
Recall model RFE data Train dengan 20 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 20 fitur dan 100 trees:0.93
 
CPU times: user 3.77 s, sys: 0 ns, total: 3.77 s
Wall time: 9.88 s


In [8]:
%%time

#tentukan metode scoring yang digunakan
scoring_rfe = {'acc': 'accuracy',
               'prec_micro': 'precision_micro',
               'rec_micro': 'recall_micro'}

#tentukan total fitur dan trees yang digunakan dalam proses klasifikasi ini
n_feat = [20]
n_trees = [150]

for nfeat in n_feat:
    for ntrees in n_trees:        
        #ambil n fitur input hasil seleksi fitur MI
        x_train_selected = x_train[features_mi.nlargest(30,columns="Mutual Information Value").iloc[0:nfeat, 0]]
        x_test_selected = x_test[features_mi.nlargest(30,columns="Mutual Information Value").iloc[0:nfeat, 0]]

        #Create a Gaussian Classifier
        clf_rfe = RandomForestClassifier(n_estimators=ntrees)
        
        #Train the model using the training sets
        clf_rfe.fit(x_train_selected, y_train)
        y_pred_rfe=clf_rfe.predict(x_test_selected)
        
        #hitung score model dari data train
        scores_rfe = cross_validate(clf_rfe, x_train_selected, y_train, scoring=scoring_rfe, cv=cv, return_train_score=True)
        
        print("Akurasi model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_acc'].mean(), 2)))
        print("Akurasi model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.accuracy_score(y_test, y_pred_rfe), 2)))
        print("Precision model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_prec_micro'].mean(), 2)))
        print("Precision model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)))
        print("Recall model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_rec_micro'].mean(), 2)))
        print("Recall model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)))
        print(" ")

Akurasi model RFE data Train dengan 20 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 20 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 20 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 20 fitur dan 150 trees:0.93
Recall model RFE data Train dengan 20 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 20 fitur dan 150 trees:0.93
 
CPU times: user 5.53 s, sys: 42.7 ms, total: 5.57 s
Wall time: 17 s


In [9]:
%%time

#tentukan metode scoring yang digunakan
scoring_rfe = {'acc': 'accuracy',
               'prec_micro': 'precision_micro',
               'rec_micro': 'recall_micro'}

#tentukan total fitur dan trees yang digunakan dalam proses klasifikasi ini
n_feat = [20]
n_trees = [200]

for nfeat in n_feat:
    for ntrees in n_trees:        
        #ambil n fitur input hasil seleksi fitur MI
        x_train_selected = x_train[features_mi.nlargest(30,columns="Mutual Information Value").iloc[0:nfeat, 0]]
        x_test_selected = x_test[features_mi.nlargest(30,columns="Mutual Information Value").iloc[0:nfeat, 0]]

        #Create a Gaussian Classifier
        clf_rfe = RandomForestClassifier(n_estimators=ntrees)
        
        #Train the model using the training sets
        clf_rfe.fit(x_train_selected, y_train)
        y_pred_rfe=clf_rfe.predict(x_test_selected)
        
        #hitung score model dari data train
        scores_rfe = cross_validate(clf_rfe, x_train_selected, y_train, scoring=scoring_rfe, cv=cv, return_train_score=True)
        
        print("Akurasi model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_acc'].mean(), 2)))
        print("Akurasi model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.accuracy_score(y_test, y_pred_rfe), 2)))
        print("Precision model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_prec_micro'].mean(), 2)))
        print("Precision model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)))
        print("Recall model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_rec_micro'].mean(), 2)))
        print("Recall model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)))
        print(" ")

Akurasi model RFE data Train dengan 20 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 20 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 20 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 20 fitur dan 200 trees:0.93
Recall model RFE data Train dengan 20 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 20 fitur dan 200 trees:0.93
 
CPU times: user 7.39 s, sys: 72.6 ms, total: 7.46 s
Wall time: 19.7 s


# Klasifikasi Support Vector Machine

Untuk train dan test set, serta cv-nya ambil dari yang Random Forest Classifier, sama aja 

## Testing Performa Model Support Vector Machine

In [8]:
%%time

#tentukan metode scoring yang digunakan
scoring_svm = {'acc': 'accuracy',
               'prec_micro': 'precision_micro',
               'rec_micro': 'recall_micro'}

#tentukan total fitur yang digunakan dalam proses klasifikasi SVM ini
n_feat = range(1, 101)

for nfeat in n_feat:

        print("==================================================")
        start_time = time.time()
        
        #ambil n fitur input hasil seleksi fitur MI
        x_train_selected = x_train[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]
        x_test_selected = x_test[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]


        #Create a Support Vector Classifier
        clf_svm = svm.SVC()

        #Train the model using the training sets
        clf_svm.fit(x_train_selected, y_train)
        y_pred_svm = clf_svm.predict(x_test_selected)

        #hitung score model dari data train
        scores_svm = cross_validate(clf_svm, x_train_selected, y_train, scoring=scoring_svm, cv=cv, return_train_score=True)

        print("akurasi model SVM data Train dengan " + str(nfeat) + " fitur: " 
              + str(round(scores_svm['train_acc'].mean(), 2)))
        print("akurasi model SVM data Test dengan " + str(nfeat) + " fitur: " 
              + str(round(metrics.accuracy_score(y_test, y_pred_svm), 2)))
        print("Precision model SVM data Train dengan " + str(nfeat) + " fitur:"
              + str(round(scores_svm['train_prec_micro'].mean(), 2)))
        print("Precision model SVM data Test dengan " + str(nfeat) + " fitur:"
              + str(round(metrics.precision_score(y_test, y_pred_svm, average='micro'), 2)))
        print("Recall model SVM data Train dengan " + str(nfeat) + " fitur:"
              + str(round(scores_svm['train_rec_micro'].mean(), 2)))
        print("Recall model SVM data Test dengan " + str(nfeat) + " fitur:"
              + str(round(metrics.recall_score(y_test, y_pred_svm, average='micro'), 2)))
        print(" ")

        
        max_acc = 0
        max_prec = 0
        max_rec = 0
        
        if(round(metrics.accuracy_score(y_test, y_pred_svm), 2) > max_acc):
            max_acc = round(metrics.accuracy_score(y_test, y_pred_svm), 2)
        
        if(round(metrics.precision_score(y_test, y_pred_svm, average='micro'), 2) > max_prec):
            max_prec = round(metrics.precision_score(y_test, y_pred_svm, average='micro'), 2)
            
        if(round(metrics.recall_score(y_test, y_pred_svm, average='micro'), 2) > max_rec):
            max_rec = round(metrics.recall_score(y_test, y_pred_svm, average='micro'), 2)
            
        end_time = time.time()
        print("Total waktu: ", end_time - start_time)

print("====Nilai Performa Tertinggi====")
print("Nilai akurasi model tertinggi: " + str(max_acc))
print("Nilai presisi model tertinggi: " + str(max_prec))
print("Nilai Recall model tertinggi: " + str(max_rec))

akurasi model SVM data Train dengan 1 fitur: 0.71
akurasi model SVM data Test dengan 1 fitur: 0.64
Precision model SVM data Train dengan 1 fitur:0.71
Precision model SVM data Test dengan 1 fitur:0.64
Recall model SVM data Train dengan 1 fitur:0.71
Recall model SVM data Test dengan 1 fitur:0.64
 
Total waktu:  0.14014220237731934
akurasi model SVM data Train dengan 2 fitur: 0.71
akurasi model SVM data Test dengan 2 fitur: 0.64
Precision model SVM data Train dengan 2 fitur:0.71
Precision model SVM data Test dengan 2 fitur:0.64
Recall model SVM data Train dengan 2 fitur:0.71
Recall model SVM data Test dengan 2 fitur:0.64
 
Total waktu:  0.1002352237701416
akurasi model SVM data Train dengan 3 fitur: 0.71
akurasi model SVM data Test dengan 3 fitur: 0.64
Precision model SVM data Train dengan 3 fitur:0.71
Precision model SVM data Test dengan 3 fitur:0.64
Recall model SVM data Train dengan 3 fitur:0.71
Recall model SVM data Test dengan 3 fitur:0.64
 
Total waktu:  0.09466981887817383
akurasi 

akurasi model SVM data Train dengan 23 fitur: 0.73
akurasi model SVM data Test dengan 23 fitur: 0.62
Precision model SVM data Train dengan 23 fitur:0.73
Precision model SVM data Test dengan 23 fitur:0.62
Recall model SVM data Train dengan 23 fitur:0.73
Recall model SVM data Test dengan 23 fitur:0.62
 
Total waktu:  0.10444259643554688
akurasi model SVM data Train dengan 24 fitur: 0.72
akurasi model SVM data Test dengan 24 fitur: 0.61
Precision model SVM data Train dengan 24 fitur:0.72
Precision model SVM data Test dengan 24 fitur:0.61
Recall model SVM data Train dengan 24 fitur:0.72
Recall model SVM data Test dengan 24 fitur:0.61
 
Total waktu:  0.1006317138671875
akurasi model SVM data Train dengan 25 fitur: 0.73
akurasi model SVM data Test dengan 25 fitur: 0.61
Precision model SVM data Train dengan 25 fitur:0.73
Precision model SVM data Test dengan 25 fitur:0.61
Recall model SVM data Train dengan 25 fitur:0.73
Recall model SVM data Test dengan 25 fitur:0.61
 
Total waktu:  0.10882282

akurasi model SVM data Train dengan 45 fitur: 0.72
akurasi model SVM data Test dengan 45 fitur: 0.61
Precision model SVM data Train dengan 45 fitur:0.72
Precision model SVM data Test dengan 45 fitur:0.61
Recall model SVM data Train dengan 45 fitur:0.72
Recall model SVM data Test dengan 45 fitur:0.61
 
Total waktu:  0.11353492736816406
akurasi model SVM data Train dengan 46 fitur: 0.72
akurasi model SVM data Test dengan 46 fitur: 0.61
Precision model SVM data Train dengan 46 fitur:0.72
Precision model SVM data Test dengan 46 fitur:0.61
Recall model SVM data Train dengan 46 fitur:0.72
Recall model SVM data Test dengan 46 fitur:0.61
 
Total waktu:  0.11639857292175293
akurasi model SVM data Train dengan 47 fitur: 0.73
akurasi model SVM data Test dengan 47 fitur: 0.61
Precision model SVM data Train dengan 47 fitur:0.73
Precision model SVM data Test dengan 47 fitur:0.61
Recall model SVM data Train dengan 47 fitur:0.73
Recall model SVM data Test dengan 47 fitur:0.61
 
Total waktu:  0.1167142

akurasi model SVM data Train dengan 67 fitur: 0.73
akurasi model SVM data Test dengan 67 fitur: 0.61
Precision model SVM data Train dengan 67 fitur:0.73
Precision model SVM data Test dengan 67 fitur:0.61
Recall model SVM data Train dengan 67 fitur:0.73
Recall model SVM data Test dengan 67 fitur:0.61
 
Total waktu:  0.11548066139221191
akurasi model SVM data Train dengan 68 fitur: 0.74
akurasi model SVM data Test dengan 68 fitur: 0.61
Precision model SVM data Train dengan 68 fitur:0.74
Precision model SVM data Test dengan 68 fitur:0.61
Recall model SVM data Train dengan 68 fitur:0.74
Recall model SVM data Test dengan 68 fitur:0.61
 
Total waktu:  0.11843681335449219
akurasi model SVM data Train dengan 69 fitur: 0.74
akurasi model SVM data Test dengan 69 fitur: 0.61
Precision model SVM data Train dengan 69 fitur:0.74
Precision model SVM data Test dengan 69 fitur:0.61
Recall model SVM data Train dengan 69 fitur:0.74
Recall model SVM data Test dengan 69 fitur:0.61
 
Total waktu:  0.1208407

akurasi model SVM data Train dengan 89 fitur: 0.74
akurasi model SVM data Test dengan 89 fitur: 0.62
Precision model SVM data Train dengan 89 fitur:0.74
Precision model SVM data Test dengan 89 fitur:0.62
Recall model SVM data Train dengan 89 fitur:0.74
Recall model SVM data Test dengan 89 fitur:0.62
 
Total waktu:  0.12302136421203613
akurasi model SVM data Train dengan 90 fitur: 0.74
akurasi model SVM data Test dengan 90 fitur: 0.62
Precision model SVM data Train dengan 90 fitur:0.74
Precision model SVM data Test dengan 90 fitur:0.62
Recall model SVM data Train dengan 90 fitur:0.74
Recall model SVM data Test dengan 90 fitur:0.62
 
Total waktu:  0.12421798706054688
akurasi model SVM data Train dengan 91 fitur: 0.74
akurasi model SVM data Test dengan 91 fitur: 0.62
Precision model SVM data Train dengan 91 fitur:0.74
Precision model SVM data Test dengan 91 fitur:0.62
Recall model SVM data Train dengan 91 fitur:0.74
Recall model SVM data Test dengan 91 fitur:0.62
 
Total waktu:  0.1232407

## Tes Baru

In [31]:
aa = features_mi.sort_values("Mutual Information Value", ascending=False)

In [36]:
print(list(aa['Input_Features']))

['1139.7', '1140.2', '1141.7', '1138.2', '1138.7', '1139.2', '1140.7', '1141.2', '1142.2', '1132.2', '1137.7', '1131.7', '1137.2', '1359.6', '1358.9', '1142.7', '1134.2', '1360.3', '1133.7', '1361', '1131.2', '1132.7', '1272.8', '1358.2', '1133.2', '1357.5', '1356.7', '1267.2', '1275.3', '1262.3', '1276', '1272.2', '1270.9', '1143.2', '1267.8', '1136.7', '1273.4', '1270.3', '1266', '1266.6', '1265.4', '1274.7', '1269.1', '1369.6', '1370.4', '1263.5', '1271.6', '1361.7', '1368.9', '1135.7', '1276.6', '1268.5', '1269.7', '1264.7', '1261.7', '1134.7', '1277.2', '1662', '1274.1', '1264.1', '1279.7', '1262.9', '1135.2', '1659.9', '1660.9', '1130.7', '1136.2', '1632.7', '1663.1', '1368.2', '1279.1', '1654.6', '1349.7', '1651.4', '1664.1', '1631.7', '1657.8', '1652.5', '1658.8', '1000.3', '1628.6', '1653.5', '1297.7', '1277.8', '1630.6', '1280.4', '1655.6', '1350.4', '1353.9', '1259.8', '1000.7', '1665.2', '1282.9', '1656.7', '1371.1', '1367.5', '1260.4', '999.9', '1281', '1278.5', '1294.4', 

In [58]:
ab = range(1, 101)
len(ab)

100

In [59]:
for n in ab:
    x_train_selected = x_train[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:n, 0]]
    print(x_train_selected) 

       1139.7
16   0.492063
51   0.464010
183  0.586312
145  0.577506
40   0.402640
..        ...
103  0.543538
67   0.473749
117  0.503392
47   0.459436
172  0.499040

[130 rows x 1 columns]
       1139.7    1140.2
16   0.492063  0.493875
51   0.464010  0.466825
183  0.586312  0.589698
145  0.577506  0.580543
40   0.402640  0.405209
..        ...       ...
103  0.543538  0.546104
67   0.473749  0.476239
117  0.503392  0.506553
47   0.459436  0.462290
172  0.499040  0.501932

[130 rows x 2 columns]
       1139.7    1140.2    1141.7
16   0.492063  0.493875  0.500545
51   0.464010  0.466825  0.475396
183  0.586312  0.589698  0.600224
145  0.577506  0.580543  0.589776
40   0.402640  0.405209  0.413083
..        ...       ...       ...
103  0.543538  0.546104  0.554676
67   0.473749  0.476239  0.484654
117  0.503392  0.506553  0.516428
47   0.459436  0.462290  0.471228
172  0.499040  0.501932  0.510931

[130 rows x 3 columns]
       1139.7    1140.2    1141.7    1138.2
16   0.492063  0.493

       1139.7    1140.2    1141.7    1138.2    1138.7    1139.2    1140.7  \
16   0.492063  0.493875  0.500545  0.485824  0.487906  0.489890  0.496089   
51   0.464010  0.466825  0.475396  0.454894  0.457810  0.460916  0.469729   
183  0.586312  0.589698  0.600224  0.575629  0.579215  0.582786  0.593261   
145  0.577506  0.580543  0.589776  0.568155  0.571318  0.574446  0.583619   
40   0.402640  0.405209  0.413083  0.395286  0.397766  0.400044  0.407849   
..        ...       ...       ...       ...       ...       ...       ...   
103  0.543538  0.546104  0.554676  0.535210  0.538105  0.540964  0.549027   
67   0.473749  0.476239  0.484654  0.465488  0.468295  0.471059  0.479081   
117  0.503392  0.506553  0.516428  0.493610  0.496839  0.500089  0.509868   
47   0.459436  0.462290  0.471228  0.450392  0.453445  0.456400  0.465182   
172  0.499040  0.501932  0.510931  0.489965  0.492841  0.495920  0.504904   

       1141.2    1142.2    1132.2  ...    1134.2    1360.3    1133.7  \
16 

       1139.7    1140.2    1141.7    1138.2    1138.7    1139.2    1140.7  \
16   0.492063  0.493875  0.500545  0.485824  0.487906  0.489890  0.496089   
51   0.464010  0.466825  0.475396  0.454894  0.457810  0.460916  0.469729   
183  0.586312  0.589698  0.600224  0.575629  0.579215  0.582786  0.593261   
145  0.577506  0.580543  0.589776  0.568155  0.571318  0.574446  0.583619   
40   0.402640  0.405209  0.413083  0.395286  0.397766  0.400044  0.407849   
..        ...       ...       ...       ...       ...       ...       ...   
103  0.543538  0.546104  0.554676  0.535210  0.538105  0.540964  0.549027   
67   0.473749  0.476239  0.484654  0.465488  0.468295  0.471059  0.479081   
117  0.503392  0.506553  0.516428  0.493610  0.496839  0.500089  0.509868   
47   0.459436  0.462290  0.471228  0.450392  0.453445  0.456400  0.465182   
172  0.499040  0.501932  0.510931  0.489965  0.492841  0.495920  0.504904   

       1141.2    1142.2    1132.2  ...      1266    1270.3    1266.6  \
16 

       1139.7    1140.2    1141.7    1138.2    1138.7    1139.2    1140.7  \
16   0.492063  0.493875  0.500545  0.485824  0.487906  0.489890  0.496089   
51   0.464010  0.466825  0.475396  0.454894  0.457810  0.460916  0.469729   
183  0.586312  0.589698  0.600224  0.575629  0.579215  0.582786  0.593261   
145  0.577506  0.580543  0.589776  0.568155  0.571318  0.574446  0.583619   
40   0.402640  0.405209  0.413083  0.395286  0.397766  0.400044  0.407849   
..        ...       ...       ...       ...       ...       ...       ...   
103  0.543538  0.546104  0.554676  0.535210  0.538105  0.540964  0.549027   
67   0.473749  0.476239  0.484654  0.465488  0.468295  0.471059  0.479081   
117  0.503392  0.506553  0.516428  0.493610  0.496839  0.500089  0.509868   
47   0.459436  0.462290  0.471228  0.450392  0.453445  0.456400  0.465182   
172  0.499040  0.501932  0.510931  0.489965  0.492841  0.495920  0.504904   

       1141.2    1142.2    1132.2  ...      1662    1274.1    1264.1  \
16 

       1139.7    1140.2    1141.7    1138.2    1138.7    1139.2    1140.7  \
16   0.492063  0.493875  0.500545  0.485824  0.487906  0.489890  0.496089   
51   0.464010  0.466825  0.475396  0.454894  0.457810  0.460916  0.469729   
183  0.586312  0.589698  0.600224  0.575629  0.579215  0.582786  0.593261   
145  0.577506  0.580543  0.589776  0.568155  0.571318  0.574446  0.583619   
40   0.402640  0.405209  0.413083  0.395286  0.397766  0.400044  0.407849   
..        ...       ...       ...       ...       ...       ...       ...   
103  0.543538  0.546104  0.554676  0.535210  0.538105  0.540964  0.549027   
67   0.473749  0.476239  0.484654  0.465488  0.468295  0.471059  0.479081   
117  0.503392  0.506553  0.516428  0.493610  0.496839  0.500089  0.509868   
47   0.459436  0.462290  0.471228  0.450392  0.453445  0.456400  0.465182   
172  0.499040  0.501932  0.510931  0.489965  0.492841  0.495920  0.504904   

       1141.2    1142.2    1132.2  ...    1658.8    1000.3    1628.6  \
16 

In [76]:
%%time

#tentukan metode scoring yang digunakan
scoring_rfe = {'acc': 'accuracy',
               'prec_micro': 'precision_micro',
               'rec_micro': 'recall_micro'}

#tentukan total fitur dan trees yang digunakan dalam proses klasifikasi ini
n_feat = range(1, 101)
n_trees = [100]

for nfeat in n_feat:
    for ntrees in n_trees:
        print("==================================================")
        start_time = time.time()
        
        #ambil n fitur input hasil seleksi fitur MI
        x_train_selected = x_train[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]
        x_test_selected = x_test[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]

        #Create a Gaussian Classifier
        clf_rfe = RandomForestClassifier(n_estimators=ntrees)
        
        #Train the model using the training sets
        clf_rfe.fit(x_train_selected, y_train)
        y_pred_rfe=clf_rfe.predict(x_test_selected)
        
        #hitung score model dari data train
        scores_rfe = cross_validate(clf_rfe, x_train_selected, y_train, scoring=scoring_rfe, cv=cv, return_train_score=True)
        
        print("Akurasi model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_acc'].mean(), 2)))
        print("Akurasi model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.accuracy_score(y_test, y_pred_rfe), 2)))
        print("Precision model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_prec_micro'].mean(), 2)))
        print("Precision model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)))
        print("Recall model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_rec_micro'].mean(), 2)))
        print("Recall model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)))
        print(" ")
        
        max_acc = 0
        max_prec = 0
        max_rec = 0
        
        if(round(metrics.accuracy_score(y_test, y_pred_rfe), 2) > max_acc):
            max_acc = round(metrics.accuracy_score(y_test, y_pred_rfe), 2)
        
        if(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2) > max_prec):
            max_prec = round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)
            
        if(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2) > max_rec):
            max_rec = round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)
            
        end_time = time.time()
        print("Total waktu: ", end_time - start_time)

print("====Nilai Performa Tertinggi====")
print("Nilai akurasi model tertinggi: " + str(max_acc))
print("Nilai presisi model tertinggi: " + str(max_prec))
print("Nilai Recall model tertinggi: " + str(max_rec))

Akurasi model RFE data Train dengan 1 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 1 fitur dan 100 trees:0.82
Precision model RFE data Train dengan 1 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 1 fitur dan 100 trees:0.82
Recall model RFE data Train dengan 1 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 1 fitur dan 100 trees:0.82
 
total time taken this loop:  1.409531593322754
Akurasi model RFE data Train dengan 2 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 2 fitur dan 100 trees:0.82
Precision model RFE data Train dengan 2 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 2 fitur dan 100 trees:0.82
Recall model RFE data Train dengan 2 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 2 fitur dan 100 trees:0.82
 
total time taken this loop:  1.3524270057678223
Akurasi model RFE data Train dengan 3 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 3 fitur dan 100 trees:0.84
Precision model RFE data Trai

Akurasi model RFE data Train dengan 19 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 19 fitur dan 100 trees:0.93
Precision model RFE data Train dengan 19 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 19 fitur dan 100 trees:0.93
Recall model RFE data Train dengan 19 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 19 fitur dan 100 trees:0.93
 
total time taken this loop:  1.3394715785980225
Akurasi model RFE data Train dengan 20 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 20 fitur dan 100 trees:0.93
Precision model RFE data Train dengan 20 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 20 fitur dan 100 trees:0.93
Recall model RFE data Train dengan 20 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 20 fitur dan 100 trees:0.93
 
total time taken this loop:  1.3368539810180664
Akurasi model RFE data Train dengan 21 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 21 fitur dan 100 trees:0.93
Precision mode

Akurasi model RFE data Train dengan 37 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 37 fitur dan 100 trees:0.93
Precision model RFE data Train dengan 37 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 37 fitur dan 100 trees:0.93
Recall model RFE data Train dengan 37 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 37 fitur dan 100 trees:0.93
 
total time taken this loop:  1.283771276473999
Akurasi model RFE data Train dengan 38 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 38 fitur dan 100 trees:0.93
Precision model RFE data Train dengan 38 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 38 fitur dan 100 trees:0.93
Recall model RFE data Train dengan 38 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 38 fitur dan 100 trees:0.93
 
total time taken this loop:  1.2994225025177002
Akurasi model RFE data Train dengan 39 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 39 fitur dan 100 trees:0.93
Precision model

Akurasi model RFE data Train dengan 55 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 55 fitur dan 100 trees:0.93
Precision model RFE data Train dengan 55 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 55 fitur dan 100 trees:0.93
Recall model RFE data Train dengan 55 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 55 fitur dan 100 trees:0.93
 
total time taken this loop:  1.353942632675171
Akurasi model RFE data Train dengan 56 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 56 fitur dan 100 trees:0.93
Precision model RFE data Train dengan 56 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 56 fitur dan 100 trees:0.93
Recall model RFE data Train dengan 56 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 56 fitur dan 100 trees:0.93
 
total time taken this loop:  1.3548088073730469
Akurasi model RFE data Train dengan 57 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 57 fitur dan 100 trees:0.95
Precision model

Akurasi model RFE data Train dengan 73 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 73 fitur dan 100 trees:0.95
Precision model RFE data Train dengan 73 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 73 fitur dan 100 trees:0.95
Recall model RFE data Train dengan 73 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 73 fitur dan 100 trees:0.95
 
total time taken this loop:  1.3746337890625
Akurasi model RFE data Train dengan 74 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 74 fitur dan 100 trees:0.95
Precision model RFE data Train dengan 74 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 74 fitur dan 100 trees:0.95
Recall model RFE data Train dengan 74 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 74 fitur dan 100 trees:0.95
 
total time taken this loop:  1.366138219833374
Akurasi model RFE data Train dengan 75 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 75 fitur dan 100 trees:0.95
Precision model RF

Akurasi model RFE data Train dengan 91 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 91 fitur dan 100 trees:0.95
Precision model RFE data Train dengan 91 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 91 fitur dan 100 trees:0.95
Recall model RFE data Train dengan 91 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 91 fitur dan 100 trees:0.95
 
total time taken this loop:  1.392808198928833
Akurasi model RFE data Train dengan 92 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 92 fitur dan 100 trees:0.95
Precision model RFE data Train dengan 92 fitur dan 100 trees:1.0
Precision model RFE data Test dengan 92 fitur dan 100 trees:0.95
Recall model RFE data Train dengan 92 fitur dan 100 trees:1.0
Recall model RFE data Test dengan 92 fitur dan 100 trees:0.95
 
total time taken this loop:  1.399294137954712
Akurasi model RFE data Train dengan 93 fitur dan 100 trees:1.0
Akurasi model RFE data Test dengan 93 fitur dan 100 trees:0.95
Precision model 

In [9]:
%%time

#tentukan metode scoring yang digunakan
scoring_rfe = {'acc': 'accuracy',
               'prec_micro': 'precision_micro',
               'rec_micro': 'recall_micro'}

#tentukan total fitur dan trees yang digunakan dalam proses klasifikasi ini
n_feat = range(1, 101)
n_trees = [150]

for nfeat in n_feat:
    for ntrees in n_trees:
        print("==================================================")
        start_time = time.time()
        
        #ambil n fitur input hasil seleksi fitur MI
        x_train_selected = x_train[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]
        x_test_selected = x_test[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]

        #Create a Gaussian Classifier
        clf_rfe = RandomForestClassifier(n_estimators=ntrees)
        
        #Train the model using the training sets
        clf_rfe.fit(x_train_selected, y_train)
        y_pred_rfe=clf_rfe.predict(x_test_selected)
        
        #hitung score model dari data train
        scores_rfe = cross_validate(clf_rfe, x_train_selected, y_train, scoring=scoring_rfe, cv=cv, return_train_score=True)
        
        print("Akurasi model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_acc'].mean(), 2)))
        print("Akurasi model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.accuracy_score(y_test, y_pred_rfe), 2)))
        print("Precision model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_prec_micro'].mean(), 2)))
        print("Precision model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)))
        print("Recall model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_rec_micro'].mean(), 2)))
        print("Recall model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)))
        print(" ")
        
        max_acc = 0
        max_prec = 0
        max_rec = 0
        
        if(round(metrics.accuracy_score(y_test, y_pred_rfe), 2) > max_acc):
            max_acc = round(metrics.accuracy_score(y_test, y_pred_rfe), 2)
        
        if(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2) > max_prec):
            max_prec = round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)
            
        if(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2) > max_rec):
            max_rec = round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)
            
        end_time = time.time()
        print("Total waktu: ", end_time - start_time)

print("====Nilai Performa Tertinggi====")
print("Nilai akurasi model tertinggi: " + str(max_acc))
print("Nilai presisi model tertinggi: " + str(max_prec))
print("Nilai Recall model tertinggi: " + str(max_rec))

Akurasi model RFE data Train dengan 1 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 1 fitur dan 150 trees:0.82
Precision model RFE data Train dengan 1 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 1 fitur dan 150 trees:0.82
Recall model RFE data Train dengan 1 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 1 fitur dan 150 trees:0.82
 
Total waktu:  2.136610746383667
Akurasi model RFE data Train dengan 2 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 2 fitur dan 150 trees:0.82
Precision model RFE data Train dengan 2 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 2 fitur dan 150 trees:0.82
Recall model RFE data Train dengan 2 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 2 fitur dan 150 trees:0.82
 
Total waktu:  1.8688099384307861
Akurasi model RFE data Train dengan 3 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 3 fitur dan 150 trees:0.84
Precision model RFE data Train dengan 3 fitur dan 150 trees

Akurasi model RFE data Train dengan 19 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 19 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 19 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 19 fitur dan 150 trees:0.93
Recall model RFE data Train dengan 19 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 19 fitur dan 150 trees:0.93
 
Total waktu:  1.9458847045898438
Akurasi model RFE data Train dengan 20 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 20 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 20 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 20 fitur dan 150 trees:0.93
Recall model RFE data Train dengan 20 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 20 fitur dan 150 trees:0.93
 
Total waktu:  1.9476346969604492
Akurasi model RFE data Train dengan 21 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 21 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 21 fit

Akurasi model RFE data Train dengan 37 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 37 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 37 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 37 fitur dan 150 trees:0.93
Recall model RFE data Train dengan 37 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 37 fitur dan 150 trees:0.93
 
Total waktu:  2.0341920852661133
Akurasi model RFE data Train dengan 38 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 38 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 38 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 38 fitur dan 150 trees:0.93
Recall model RFE data Train dengan 38 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 38 fitur dan 150 trees:0.93
 
Total waktu:  2.030237913131714
Akurasi model RFE data Train dengan 39 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 39 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 39 fitu

Akurasi model RFE data Train dengan 55 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 55 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 55 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 55 fitur dan 150 trees:0.93
Recall model RFE data Train dengan 55 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 55 fitur dan 150 trees:0.93
 
Total waktu:  2.07586407661438
Akurasi model RFE data Train dengan 56 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 56 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 56 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 56 fitur dan 150 trees:0.93
Recall model RFE data Train dengan 56 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 56 fitur dan 150 trees:0.93
 
Total waktu:  2.0450968742370605
Akurasi model RFE data Train dengan 57 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 57 fitur dan 150 trees:0.93
Precision model RFE data Train dengan 57 fitur

Akurasi model RFE data Train dengan 73 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 73 fitur dan 150 trees:0.95
Precision model RFE data Train dengan 73 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 73 fitur dan 150 trees:0.95
Recall model RFE data Train dengan 73 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 73 fitur dan 150 trees:0.95
 
Total waktu:  2.025055170059204
Akurasi model RFE data Train dengan 74 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 74 fitur dan 150 trees:0.96
Precision model RFE data Train dengan 74 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 74 fitur dan 150 trees:0.96
Recall model RFE data Train dengan 74 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 74 fitur dan 150 trees:0.96
 
Total waktu:  2.0804507732391357
Akurasi model RFE data Train dengan 75 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 75 fitur dan 150 trees:0.95
Precision model RFE data Train dengan 75 fitu

Akurasi model RFE data Train dengan 91 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 91 fitur dan 150 trees:0.95
Precision model RFE data Train dengan 91 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 91 fitur dan 150 trees:0.95
Recall model RFE data Train dengan 91 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 91 fitur dan 150 trees:0.95
 
Total waktu:  2.1245505809783936
Akurasi model RFE data Train dengan 92 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 92 fitur dan 150 trees:0.95
Precision model RFE data Train dengan 92 fitur dan 150 trees:1.0
Precision model RFE data Test dengan 92 fitur dan 150 trees:0.95
Recall model RFE data Train dengan 92 fitur dan 150 trees:1.0
Recall model RFE data Test dengan 92 fitur dan 150 trees:0.95
 
Total waktu:  2.085028648376465
Akurasi model RFE data Train dengan 93 fitur dan 150 trees:1.0
Akurasi model RFE data Test dengan 93 fitur dan 150 trees:0.95
Precision model RFE data Train dengan 93 fitu

In [10]:
%%time

#tentukan metode scoring yang digunakan
scoring_rfe = {'acc': 'accuracy',
               'prec_micro': 'precision_micro',
               'rec_micro': 'recall_micro'}

#tentukan total fitur dan trees yang digunakan dalam proses klasifikasi ini
n_feat = range(1, 101)
n_trees = [200]

for nfeat in n_feat:
    for ntrees in n_trees:
        print("==================================================")
        start_time = time.time()
        
        #ambil n fitur input hasil seleksi fitur MI
        x_train_selected = x_train[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]
        x_test_selected = x_test[features_mi.nlargest(100,columns="Mutual Information Value").iloc[0:nfeat, 0]]

        #Create a Gaussian Classifier
        clf_rfe = RandomForestClassifier(n_estimators=ntrees)
        
        #Train the model using the training sets
        clf_rfe.fit(x_train_selected, y_train)
        y_pred_rfe=clf_rfe.predict(x_test_selected)
        
        #hitung score model dari data train
        scores_rfe = cross_validate(clf_rfe, x_train_selected, y_train, scoring=scoring_rfe, cv=cv, return_train_score=True)
        
        print("Akurasi model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_acc'].mean(), 2)))
        print("Akurasi model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.accuracy_score(y_test, y_pred_rfe), 2)))
        print("Precision model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_prec_micro'].mean(), 2)))
        print("Precision model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)))
        print("Recall model RFE data Train dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(scores_rfe['train_rec_micro'].mean(), 2)))
        print("Recall model RFE data Test dengan " + str(nfeat) + " fitur dan " + str(ntrees) + " trees:" 
              + str(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)))
        print(" ")
        
        max_acc = 0
        max_prec = 0
        max_rec = 0
        
        if(round(metrics.accuracy_score(y_test, y_pred_rfe), 2) > max_acc):
            max_acc = round(metrics.accuracy_score(y_test, y_pred_rfe), 2)
        
        if(round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2) > max_prec):
            max_prec = round(metrics.precision_score(y_test, y_pred_rfe, average='micro'), 2)
            
        if(round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2) > max_rec):
            max_rec = round(metrics.recall_score(y_test, y_pred_rfe, average='micro'), 2)
            
        end_time = time.time()
        print("Total waktu: ", end_time - start_time)

print("====Nilai Performa Tertinggi====")
print("Nilai akurasi model tertinggi: " + str(max_acc))
print("Nilai presisi model tertinggi: " + str(max_prec))
print("Nilai Recall model tertinggi: " + str(max_rec))

Akurasi model RFE data Train dengan 1 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 1 fitur dan 200 trees:0.82
Precision model RFE data Train dengan 1 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 1 fitur dan 200 trees:0.82
Recall model RFE data Train dengan 1 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 1 fitur dan 200 trees:0.82
 
Total waktu:  2.538083076477051
Akurasi model RFE data Train dengan 2 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 2 fitur dan 200 trees:0.82
Precision model RFE data Train dengan 2 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 2 fitur dan 200 trees:0.82
Recall model RFE data Train dengan 2 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 2 fitur dan 200 trees:0.82
 
Total waktu:  2.4159770011901855
Akurasi model RFE data Train dengan 3 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 3 fitur dan 200 trees:0.84
Precision model RFE data Train dengan 3 fitur dan 200 trees

Akurasi model RFE data Train dengan 19 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 19 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 19 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 19 fitur dan 200 trees:0.93
Recall model RFE data Train dengan 19 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 19 fitur dan 200 trees:0.93
 
Total waktu:  2.588836908340454
Akurasi model RFE data Train dengan 20 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 20 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 20 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 20 fitur dan 200 trees:0.93
Recall model RFE data Train dengan 20 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 20 fitur dan 200 trees:0.93
 
Total waktu:  2.6040196418762207
Akurasi model RFE data Train dengan 21 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 21 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 21 fitu

Akurasi model RFE data Train dengan 37 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 37 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 37 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 37 fitur dan 200 trees:0.93
Recall model RFE data Train dengan 37 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 37 fitur dan 200 trees:0.93
 
Total waktu:  2.6679811477661133
Akurasi model RFE data Train dengan 38 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 38 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 38 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 38 fitur dan 200 trees:0.93
Recall model RFE data Train dengan 38 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 38 fitur dan 200 trees:0.93
 
Total waktu:  2.6552281379699707
Akurasi model RFE data Train dengan 39 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 39 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 39 fit

Akurasi model RFE data Train dengan 55 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 55 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 55 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 55 fitur dan 200 trees:0.93
Recall model RFE data Train dengan 55 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 55 fitur dan 200 trees:0.93
 
Total waktu:  2.719602584838867
Akurasi model RFE data Train dengan 56 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 56 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 56 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 56 fitur dan 200 trees:0.93
Recall model RFE data Train dengan 56 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 56 fitur dan 200 trees:0.93
 
Total waktu:  2.7221615314483643
Akurasi model RFE data Train dengan 57 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 57 fitur dan 200 trees:0.93
Precision model RFE data Train dengan 57 fitu

Akurasi model RFE data Train dengan 73 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 73 fitur dan 200 trees:0.95
Precision model RFE data Train dengan 73 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 73 fitur dan 200 trees:0.95
Recall model RFE data Train dengan 73 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 73 fitur dan 200 trees:0.95
 
Total waktu:  2.8112399578094482
Akurasi model RFE data Train dengan 74 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 74 fitur dan 200 trees:0.96
Precision model RFE data Train dengan 74 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 74 fitur dan 200 trees:0.96
Recall model RFE data Train dengan 74 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 74 fitur dan 200 trees:0.96
 
Total waktu:  2.715848684310913
Akurasi model RFE data Train dengan 75 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 75 fitur dan 200 trees:0.95
Precision model RFE data Train dengan 75 fitu

Akurasi model RFE data Train dengan 91 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 91 fitur dan 200 trees:0.95
Precision model RFE data Train dengan 91 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 91 fitur dan 200 trees:0.95
Recall model RFE data Train dengan 91 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 91 fitur dan 200 trees:0.95
 
Total waktu:  2.7816498279571533
Akurasi model RFE data Train dengan 92 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 92 fitur dan 200 trees:0.95
Precision model RFE data Train dengan 92 fitur dan 200 trees:1.0
Precision model RFE data Test dengan 92 fitur dan 200 trees:0.95
Recall model RFE data Train dengan 92 fitur dan 200 trees:1.0
Recall model RFE data Test dengan 92 fitur dan 200 trees:0.95
 
Total waktu:  2.8505048751831055
Akurasi model RFE data Train dengan 93 fitur dan 200 trees:1.0
Akurasi model RFE data Test dengan 93 fitur dan 200 trees:0.96
Precision model RFE data Train dengan 93 fit