## Random Forest

- Random Forest dikembangkan berdasarkan algoritma decision tree
- Random Forest terdiri dari kumpulan decision tree yang tidak terikat satu sama lain. Karena kumpulan decision tree menyebabkan ada banyaknya pohon yang dibuat kemudian menhasilkan nilai prediksi. Nilai prediksi yang muncul ini akan dipilih secara mayoritas oleh Random Forest 

![image.png](attachment:5994b3d5-96fc-4c36-ac90-c4a02beca8f3.png)

Berikut tahapan cara kerja Random Forest
- tentukan jumlah pohon yang akan dibuat 
- lakukan bagging, yaitu mengambil sample dari fitur dan sample dari baris untuk dimodelkan dan dibangun sebanyak jumlah pohon yang ditentukan
- dapat menggunakan gini indeks untuk membuat pohon ataupun information gain
- lihat prediksi mayoritas 

### a. Melakukan Import Library

In [2]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn import metrics

### b. Membaca Dataset

In [3]:
df = pd.read_csv('dataset/covid19.csv')

In [4]:
df.head()

Unnamed: 0,temperatur badan,sesak nafas,batuk,diagnosis sakit covid-19
0,1,1,0,1
1,0,1,1,1
2,0,0,0,0
3,1,0,1,0
4,1,1,0,1


### c. Menentukan variable prediktor dan variable target

In [5]:
X = df.iloc[:, :-1].values
y = df.iloc[:, 3].values

### d. Melakukan Splitting Data

In [6]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=1)

### e. Melakukan Pemodelan Random Forest

In [8]:
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier(criterion = "gini", n_estimators = 100)
# hyperparamter yang digunakan adalah gini artinya perhitungan mencari root node menggunakan gini indeks
# jumlah pohon yang digunakan sebanyak 100

model.fit(X_train, y_train)

In [12]:
print(model.feature_importances_) 

[0.03016493 0.67252604 0.29730903]


### f. Melakukan Prediksi Data

In [10]:
y_pred = model.predict(X_test)

### g. Menguji akurasi model 

In [11]:
print("Accuracy:",metrics.accuracy_score(y_test, y_pred))

Accuracy: 0.6666666666666666


# Kelebihan dan Kekurangan Random Forest

## Kelebihan

- dapat mengurangi overfitting data dengan teknik bagging (bootstrap aggregating)
- akurasi yang dihasilkan cenderung lebih baik dari decision tree
- algoritma ini dapat digunakan untuk tugas klasifikasi dan regresi
- algoritma ini bekerja dengan baik untuk tipe data kategorik dan numerik
- tidak memerlukan normalisasi data

## Kekurangan 

- pemodelan algoritma ini cukup berat dan komplek
- membutuhkan banyak waktu saat training data 
- tidak dapat ditafsirkan dengan aturan IF-THEN