# Machine Learning Indonesian.AI
Pertemuan - 6 Decision Tree dan Random forest

In [2]:
import pandas as pd
import numpy as np

from matplotlib import pyplot as plt
import seaborn as sns

plt.style.use('ggplot')

# Load Datasets

In [7]:
balance_data = pd.read_csv("balance-scale.csv")
balance_data.columns = ["Balance", "Left-Weight", "Left-Distance", "Left-Weight", "Right-Distance"]
balance_data.head()

Unnamed: 0,Balance,Left-Weight,Left-Distance,Left-Weight.1,Right-Distance
0,R,1,1,1,2
1,R,1,1,1,3
2,R,1,1,1,4
3,R,1,1,1,5
4,R,1,1,2,1


# Exploratory Data Analysis

## Total data

In [8]:
print("Dataset length: ", len(balance_data))
print("Dataset shape: ", balance_data.shape)

Dataset length:  624
Dataset shape:  (624, 5)


## Describe data

In [11]:
balance_data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
Left-Weight,624.0,3.003205,1.41421,1.0,2.0,3.0,4.0,5.0
Left-Distance,624.0,3.003205,1.41421,1.0,2.0,3.0,4.0,5.0
Left-Weight,624.0,3.003205,1.41421,1.0,2.0,3.0,4.0,5.0
Right-Distance,624.0,3.003205,1.41421,1.0,2.0,3.0,4.0,5.0


## Datasets info

In [10]:
balance_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 624 entries, 0 to 623
Data columns (total 5 columns):
 #   Column          Non-Null Count  Dtype 
---  ------          --------------  ----- 
 0   Balance         624 non-null    object
 1   Left-Weight     624 non-null    int64 
 2   Left-Distance   624 non-null    int64 
 3   Left-Weight     624 non-null    int64 
 4   Right-Distance  624 non-null    int64 
dtypes: int64(4), object(1)
memory usage: 24.5+ KB


## Check unique

In [16]:
balance_data.nunique()

Balance           3
Left-Weight       5
Left-Distance     5
Left-Weight       5
Right-Distance    5
dtype: int64

## Check Missing data

In [20]:
balance_data.isna().sum()

Balance           0
Left-Weight       0
Left-Distance     0
Left-Weight       0
Right-Distance    0
dtype: int64

# Data Preparation

## Data slicing

In [35]:
X = balance_data.values[:, 1:5]
Y = balance_data.values[:, 0]

In [40]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.3, random_state=100)

# Data Training

In [42]:
from sklearn.tree import DecisionTreeClassifier

In [43]:
clf_gini = DecisionTreeClassifier(criterion = "gini", random_state = 100,
                               max_depth=3, min_samples_leaf=5)
clf_gini.fit(X_train, y_train)

DecisionTreeClassifier(max_depth=3, min_samples_leaf=5, random_state=100)

In [44]:
clf_entropy = DecisionTreeClassifier(criterion = "entropy", random_state = 100, 
                                     max_depth=3, min_samples_leaf=5)
clf_entropy.fit(X_train, y_train)

DecisionTreeClassifier(criterion='entropy', max_depth=3, min_samples_leaf=5,
                       random_state=100)

# Prediction

In [47]:
clf_gini.predict([[5, 5, 1, 3]])

array(['L'], dtype=object)

In [48]:
y_pred = clf_gini.predict(X_test)
y_pred

array(['R', 'L', 'R', 'R', 'L', 'L', 'L', 'L', 'R', 'L', 'R', 'R', 'L',
       'L', 'R', 'R', 'L', 'L', 'R', 'L', 'L', 'R', 'R', 'L', 'R', 'L',
       'R', 'R', 'R', 'L', 'L', 'L', 'R', 'L', 'L', 'L', 'R', 'R', 'L',
       'L', 'R', 'L', 'R', 'L', 'R', 'R', 'L', 'R', 'R', 'L', 'R', 'R',
       'R', 'R', 'R', 'R', 'R', 'R', 'L', 'R', 'R', 'R', 'R', 'L', 'L',
       'L', 'R', 'R', 'R', 'L', 'R', 'R', 'R', 'L', 'L', 'L', 'L', 'R',
       'R', 'L', 'R', 'R', 'L', 'L', 'L', 'R', 'R', 'L', 'R', 'L', 'R',
       'R', 'L', 'L', 'L', 'R', 'R', 'L', 'L', 'R', 'R', 'L', 'R', 'R',
       'L', 'R', 'R', 'R', 'L', 'L', 'R', 'L', 'R', 'L', 'L', 'R', 'R',
       'R', 'R', 'R', 'L', 'L', 'R', 'L', 'L', 'L', 'L', 'L', 'L', 'R',
       'L', 'R', 'L', 'L', 'R', 'R', 'R', 'R', 'L', 'R', 'L', 'R', 'L',
       'R', 'L', 'R', 'R', 'L', 'L', 'R', 'L', 'R', 'L', 'R', 'R', 'R',
       'L', 'R', 'L', 'R', 'R', 'R', 'R', 'L', 'R', 'R', 'R', 'R', 'R',
       'R', 'R', 'L', 'R', 'R', 'R', 'L', 'L', 'R', 'R', 'R', 'R

In [49]:
y_pred_en = clf_entropy.predict(X_test)
y_pred_en

array(['R', 'L', 'R', 'L', 'L', 'L', 'L', 'L', 'R', 'R', 'R', 'L', 'L',
       'R', 'R', 'R', 'L', 'L', 'R', 'R', 'L', 'R', 'R', 'L', 'R', 'R',
       'R', 'R', 'R', 'L', 'L', 'L', 'R', 'L', 'R', 'R', 'R', 'L', 'R',
       'L', 'L', 'L', 'R', 'L', 'R', 'R', 'R', 'R', 'R', 'L', 'R', 'R',
       'R', 'R', 'R', 'R', 'R', 'R', 'L', 'L', 'R', 'L', 'R', 'L', 'L',
       'R', 'R', 'R', 'R', 'L', 'R', 'L', 'R', 'L', 'L', 'R', 'L', 'R',
       'R', 'R', 'R', 'R', 'L', 'L', 'R', 'R', 'R', 'L', 'R', 'L', 'R',
       'R', 'L', 'L', 'R', 'R', 'R', 'L', 'L', 'R', 'L', 'L', 'L', 'R',
       'L', 'R', 'R', 'R', 'L', 'L', 'R', 'R', 'R', 'R', 'L', 'R', 'R',
       'R', 'R', 'R', 'L', 'L', 'R', 'R', 'L', 'L', 'R', 'L', 'R', 'R',
       'L', 'R', 'L', 'L', 'R', 'R', 'R', 'R', 'R', 'R', 'L', 'R', 'R',
       'R', 'R', 'L', 'R', 'L', 'L', 'R', 'R', 'R', 'L', 'R', 'L', 'R',
       'L', 'R', 'L', 'R', 'R', 'L', 'R', 'L', 'R', 'R', 'R', 'R', 'R',
       'R', 'R', 'L', 'R', 'R', 'R', 'L', 'L', 'R', 'R', 'R', 'R

# Accuracy score

In [51]:
from sklearn.metrics import accuracy_score

In [52]:
print("Accuracy is ", accuracy_score(y_test,y_pred)*100)

Accuracy is  71.80851063829788


In [53]:
print("Accuracy is ", accuracy_score(y_test,y_pred_en)*100)

Accuracy is  66.48936170212765


## Importance feature

In [54]:
clf_gini.feature_importances_

array([0.35255605, 0.11716495, 0.31705049, 0.21322852])

In [56]:
clf_entropy.feature_importances_

array([0.31927857, 0.09670494, 0.27874549, 0.305271  ])