*Eduardus Tjitrahardja | @edutjie | 2022*

# Random Forest

## Import Libraries

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import seaborn as sns

from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import confusion_matrix, accuracy_score

## Load Dataset

In [4]:
balance_scale = pd.read_csv('../data/balance-scale.csv', sep=",", header=None)
balance_scale.columns = ['Balance', 'Left-weight', 'Left-distance', 'Right-weight', 'Right-distance']
balance_scale.head()

Unnamed: 0,Balance,Left-weight,Left-distance,Right-weight,Right-distance
0,B,1,1,1,1
1,R,1,1,1,2
2,R,1,1,1,3
3,R,1,1,1,4
4,R,1,1,1,5


In [5]:
balance_scale.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 625 entries, 0 to 624
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Balance         625 non-null    object
 1   Left-weight     625 non-null    int64 
 2   Left-distance   625 non-null    int64 
 3   Right-weight    625 non-null    int64 
 4   Right-distance  625 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 24.5+ KB


In [6]:
balance_scale.shape

(625, 5)

In [7]:
balance_scale.describe()

Unnamed: 0,Left-weight,Left-distance,Right-weight,Right-distance
count,625.0,625.0,625.0,625.0
mean,3.0,3.0,3.0,3.0
std,1.415346,1.415346,1.415346,1.415346
min,1.0,1.0,1.0,1.0
25%,2.0,2.0,2.0,2.0
50%,3.0,3.0,3.0,3.0
75%,4.0,4.0,4.0,4.0
max,5.0,5.0,5.0,5.0


## Split Data

In [8]:
X = balance_scale.drop(['Balance'], axis=1)
y = balance_scale['Balance']

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

## Train Data

In [16]:
clf_gini = DecisionTreeClassifier(
    criterion="gini",
    random_state=0,
    max_depth=3,
    min_samples_leaf=5
)

In [17]:
clf_entropy = DecisionTreeClassifier(
    criterion="entropy",
    random_state=0,
    max_depth=3,
    min_samples_leaf=5
)

In [18]:
clf_gini.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, min_samples_leaf=5, random_state=0)

In [19]:
clf_entropy.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy', max_depth=3, min_samples_leaf=5,
                       random_state=0)

## Predict

In [22]:
y_pred_gini = clf_gini.predict(X_test)
y_pred_gini

array(['L', 'R', 'L', 'L', 'L', 'R', 'R', 'L', 'R', 'R', 'R', 'L', 'R',
       'R', 'R', 'L', 'R', 'L', 'R', 'L', 'R', 'R', 'L', 'L', 'L', 'L',
       'L', 'L', 'R', 'R', 'L', 'R', 'L', 'L', 'R', 'L', 'L', 'R', 'R',
       'R', 'L', 'L', 'L', 'L', 'L', 'R', 'L', 'R', 'L', 'R', 'R', 'R',
       'L', 'R', 'L', 'L', 'R', 'L', 'L', 'L', 'L', 'R', 'L', 'L', 'L',
       'L', 'R', 'R', 'R', 'R', 'R', 'R', 'R', 'L', 'R', 'R', 'L', 'L',
       'L', 'R', 'L', 'R', 'L', 'R', 'L', 'R', 'L', 'L', 'R', 'R', 'R',
       'L', 'L', 'R', 'L', 'L', 'L', 'L', 'R', 'L', 'L', 'L', 'L', 'R',
       'L', 'R', 'L', 'R', 'R', 'R', 'L', 'R', 'L', 'R', 'L', 'R', 'L',
       'L', 'R', 'L', 'L', 'L', 'L', 'L', 'R', 'L', 'L', 'R', 'L', 'R',
       'L', 'R', 'R', 'R', 'L', 'R', 'R', 'R', 'R', 'L', 'R', 'R', 'R',
       'L', 'L', 'R', 'L', 'L', 'R', 'L', 'L', 'R', 'R', 'R', 'L', 'L',
       'R', 'R', 'L', 'L', 'L', 'R', 'L', 'L', 'R', 'L', 'R', 'L', 'R',
       'L', 'L', 'R', 'L', 'R', 'R', 'R', 'L', 'L', 'L', 'L', 'L

In [23]:
y_pred_entropy = clf_entropy.predict(X_test)
y_pred_entropy

array(['L', 'R', 'L', 'L', 'L', 'R', 'R', 'L', 'R', 'R', 'R', 'L', 'R',
       'R', 'R', 'L', 'R', 'L', 'R', 'L', 'R', 'R', 'L', 'L', 'L', 'L',
       'R', 'L', 'R', 'R', 'L', 'R', 'L', 'L', 'R', 'R', 'L', 'R', 'R',
       'R', 'L', 'L', 'L', 'L', 'L', 'R', 'L', 'R', 'L', 'R', 'R', 'R',
       'L', 'R', 'L', 'L', 'R', 'R', 'L', 'L', 'L', 'R', 'L', 'L', 'L',
       'L', 'R', 'R', 'R', 'R', 'R', 'R', 'R', 'R', 'R', 'R', 'L', 'L',
       'L', 'R', 'L', 'R', 'L', 'R', 'L', 'R', 'L', 'L', 'R', 'R', 'R',
       'L', 'L', 'R', 'L', 'L', 'L', 'L', 'R', 'R', 'L', 'L', 'L', 'R',
       'L', 'R', 'L', 'R', 'R', 'R', 'L', 'R', 'L', 'R', 'L', 'R', 'L',
       'L', 'R', 'R', 'L', 'L', 'L', 'L', 'R', 'L', 'L', 'R', 'L', 'R',
       'L', 'R', 'R', 'R', 'L', 'R', 'R', 'R', 'R', 'L', 'R', 'R', 'R',
       'L', 'L', 'R', 'L', 'L', 'R', 'L', 'L', 'R', 'R', 'R', 'L', 'L',
       'R', 'R', 'L', 'L', 'L', 'R', 'L', 'L', 'R', 'L', 'R', 'L', 'R',
       'L', 'L', 'R', 'L', 'R', 'R', 'R', 'L', 'L', 'L', 'L', 'L

## Evaluate Model

In [24]:
accuracy_gini = accuracy_score(y_test, y_pred_gini)
accuracy_gini

0.7180851063829787

In [25]:
accuracy_entropy = accuracy_score(y_test, y_pred_entropy)
accuracy_entropy

0.6968085106382979

In [26]:
clf_gini.feature_importances_

array([0.3232848 , 0.24198813, 0.20805606, 0.22667101])

In [27]:
clf_entropy.feature_importances_

array([0.26742974, 0.21463266, 0.29406923, 0.22386837])