In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

In [2]:
# download data from: 'https://archive.ics.uci.edu/ml/machine-learning-databases/balance-scale/balance-scale.data' 
s = pd.read_csv('data_balance_scale.txt',sep= ',', header= None)

In [3]:
print(s.shape)
print(s.head(20))

(625, 5)
    0  1  2  3  4
0   B  1  1  1  1
1   R  1  1  1  2
2   R  1  1  1  3
3   R  1  1  1  4
4   R  1  1  1  5
5   R  1  1  2  1
6   R  1  1  2  2
7   R  1  1  2  3
8   R  1  1  2  4
9   R  1  1  2  5
10  R  1  1  3  1
11  R  1  1  3  2
12  R  1  1  3  3
13  R  1  1  3  4
14  R  1  1  3  5
15  R  1  1  4  1
16  R  1  1  4  2
17  R  1  1  4  3
18  R  1  1  4  4
19  R  1  1  4  5


In [4]:
# features:
x = s.values[:, 1:5]

# target:
y = s.values[:,0]

In [5]:
x_train,x_test,y_train,y_test = train_test_split(x,y,test_size=0.3,random_state = 100)

In [6]:
# use gini_index criterion
clf = RandomForestClassifier(criterion = "gini", random_state = 100,
                               max_depth=3, min_samples_leaf=5)
clf.fit(x_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='gini',
            max_depth=3, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=5, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=100, verbose=0, warm_start=False)

In [7]:
# predict a specific case
clf.predict([[4, 4, 3, 3]])

array(['L'], dtype=object)

In [8]:
# predict a set of x_test
y_pred = clf.predict(x_test)
print(y_pred)

['L' 'L' 'R' 'L' 'R' 'L' 'R' 'L' 'L' 'R' 'L' 'L' 'L' 'L' 'R' 'R' 'L' 'L'
 'R' 'L' 'L' 'L' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'L' 'L' 'L'
 'R' 'R' 'L' 'L' 'R' 'L' 'R' 'L' 'R' 'R' 'L' 'R' 'R' 'L' 'L' 'R' 'L' 'L'
 'R' 'L' 'R' 'R' 'L' 'L' 'R' 'R' 'L' 'L' 'R' 'L' 'R' 'R' 'R' 'L' 'L' 'R'
 'R' 'L' 'R' 'L' 'R' 'R' 'R' 'L' 'R' 'L' 'L' 'L' 'R' 'R' 'R' 'L' 'R' 'L'
 'R' 'R' 'L' 'L' 'L' 'R' 'R' 'L' 'L' 'L' 'L' 'L' 'R' 'R' 'R' 'R' 'R' 'R'
 'L' 'L' 'R' 'L' 'R' 'R' 'L' 'R' 'R' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'L' 'L'
 'L' 'L' 'L' 'R' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'L' 'L' 'R' 'L' 'L' 'L' 'R'
 'L' 'L' 'R' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'R' 'R' 'L' 'R' 'L' 'R' 'R' 'R'
 'R' 'L' 'R' 'R' 'L' 'R' 'R' 'R' 'R' 'R' 'L' 'R' 'R' 'L' 'R' 'L' 'R' 'R'
 'R' 'R' 'R' 'L' 'L' 'L' 'R' 'R']


In [9]:
# prediction score
accuracy_score(y_test,y_pred)*100

85.1063829787234

In [10]:
# use entropy (information gain) criterion
clf = RandomForestClassifier(criterion = "entropy", random_state = 100,
                               max_depth=3, min_samples_leaf=5)
clf.fit(x_train, y_train)

RandomForestClassifier(bootstrap=True, class_weight=None, criterion='entropy',
            max_depth=3, max_features='auto', max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=5, min_samples_split=2,
            min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=1,
            oob_score=False, random_state=100, verbose=0, warm_start=False)

In [11]:
# predict
y_pred = clf.predict(x_test)
print(y_pred)

['L' 'L' 'R' 'L' 'R' 'L' 'R' 'L' 'L' 'R' 'L' 'L' 'L' 'L' 'R' 'R' 'L' 'L'
 'R' 'R' 'L' 'L' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'L' 'R' 'L' 'R' 'L' 'R' 'L'
 'R' 'R' 'R' 'L' 'L' 'L' 'R' 'L' 'R' 'R' 'L' 'R' 'R' 'L' 'L' 'R' 'L' 'L'
 'R' 'L' 'R' 'R' 'L' 'L' 'R' 'R' 'L' 'L' 'R' 'L' 'R' 'R' 'R' 'L' 'L' 'L'
 'R' 'L' 'R' 'L' 'L' 'R' 'R' 'L' 'R' 'L' 'L' 'L' 'R' 'R' 'R' 'L' 'R' 'L'
 'R' 'R' 'L' 'L' 'L' 'R' 'R' 'L' 'L' 'L' 'L' 'L' 'R' 'R' 'R' 'R' 'R' 'R'
 'L' 'L' 'L' 'L' 'R' 'R' 'L' 'R' 'R' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'L' 'L'
 'L' 'L' 'L' 'R' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'L' 'L' 'R' 'L' 'R' 'L' 'R'
 'L' 'L' 'R' 'L' 'L' 'R' 'L' 'L' 'L' 'R' 'R' 'R' 'L' 'R' 'R' 'R' 'R' 'L'
 'R' 'L' 'R' 'R' 'L' 'R' 'R' 'R' 'L' 'L' 'L' 'R' 'R' 'L' 'R' 'L' 'R' 'R'
 'R' 'R' 'R' 'L' 'L' 'L' 'R' 'R']


In [12]:
# score
accuracy_score(y_test,y_pred)*100

80.85106382978722