# Random Forest 
### (untuk masuk ke bagian ini, lebih baik pelajari decision tree)

##### Random forest adalah algoritma machine learning. Algoritma ini hampir sama dengan decision tree. Perbedaannya pada decision tree, pohon yang dibangun hanya satu, sedangkan pada random forest diciptakan beberapa pohon. Setiap pohon saling mengeluarkan hasilnya sendiri. Hasil yang diambil adalah hasil yang paling banyak muncul.

Bayangkan anda berada di sebuah hutan. Hutan ini adalah hutan ajaib, masing-masing pohon memiliki kemampuan spiritual sendiri seperti membaca suhu dan membaca cuaca. 
- Ketika anda ingin keluar anda bertanya kepada hutan ini "bagaimana cuaca hari ini?". 
- Pohon dengan kemampuan membaca cuaca akan membaca cuaca, kemudian masing-masing pohon mengeluarkan hasil, tetapi karena hasil yang berbeda maka pohon ini berdiskusi terlebih dahulu. Pohon A mengatakan hari ini hujan, Pohon B mengatakan hari ini cerah, Pohon C mengatakan hari ini hujan, Pohon D mengatakan hari ini mendung. 
- Karena banyak pohon yang meramal bahwa hari ini akan hujan, maka keputusan akhir adalah hari ini akan hujan.
- Ketua pohon akan memberi tahu anda bahwa "hari ini hujan".

begitupun ketika anda bertanya "bagaimana suhu hari ini?", pohon dengan kemampuan membaca suhu akan membaca dan berdiskusi kemudian menyampaikan kepada anda suhu hari ini.

# 1. Penggunaan file

In [1]:
import pandas as pd
import sklearn.model_selection as ms

# apabila ingin memasukkan file sendiri (nama file lain)
# try:
#     file_name = input("Masukkan nama file CSV: ")
#     df1 = pd.read_csv(file_name, sep=';')
#     print("Pembacaan file berhasil")
# except FileNotFoundError:
#     print("File tidak berhasil dibaca")

try:
    df1 = pd.read_csv("decisiontree1.csv", sep=";")
    print("File berhasil dibaca")
except FileNotFoundError:
    print("File tidak berhasil dibaca")

# encoding, untuk mengubah kode, dikarekan pada file excel kolom mesin terdapat bensin dan diesel, maka bensin inisialisasi menjadi 0 dan diesel menjadi 1
# selain itu perlu encoding untuk kolom penggerak dengan data depan sebagai 0 dan belakang sebagai 1
encoding = {"mesin": {"bensin": 0, "diesel": 1},
           "penggerak": {"depan":0, "belakang":1}}

# replace untuk menyimpan dan mengubah sesuai encoding yang kita buat
df1.replace(encoding,inplace=True)

# berikut adalah contoh hasil setelah di encoding
print(df1)

File berhasil dibaca
    ID  mesin  bangku  penggerak    label
0    1      0       4          0    sedan
1    2      0       2          0    sedan
2    3      0       8          1  minibus
3    4      1       6          0  minibus
4    5      0       5          1  minibus
5    6      1       8          1  minibus
6    7      1       8          1  minibus
7    8      0       4          0    sedan
8    9      1       7          1  minibus
9   10      0       4          0    sedan
10  11      0       2          0    sedan
11  12      1       6          1  minibus
12  13      1       8          0  minibus
13  14      0       4          0    sedan
14  15      1       2          0    sedan
15  16      0       4          0    sedan
16  17      0       8          1  minibus
17  18      0       4          0    sedan
18  19      1       8          1  minibus
19  20      1       8          1  minibus
20  21      0       4          0    sedan
21  22      0       4          0  minibus
22  23      1

In [2]:
# X = df1.drop(['ID','label'], axis=1) artinya kita akan drop kolom ID dan label karena kolom ini tidak akan kita pakai sebagai X
# y = df1['label'] dikarekan kita akan menyimpan kolom label ke dalam y
X = df1.drop(['ID','label'], axis=1)
y = df1['label']

# print("""X:
# {}""" .format(X))

# print("""y:
# {}""" .format(y))

# 2. Melakukan algoritma Random Forest

In [3]:
import sklearn.ensemble as ens

# rf = ens.RandomForestClassifier(n_estimators=100) digunakan untuk membuat banyak pohon pada random forest
rf = ens.RandomForestClassifier(n_estimators=100)
X_train, X_test, y_train, y_test = ms.train_test_split(X, y, test_size=0.2)

# latih model rf dengan fungsi fit
rf.fit(X_train, y_train)

In [4]:
# untuk melihat parameter yang terkandung dalam pelatihan model rf.fit(X_train, y_train)
print(rf.get_params())

{'bootstrap': True, 'ccp_alpha': 0.0, 'class_weight': None, 'criterion': 'gini', 'max_depth': None, 'max_features': 'sqrt', 'max_leaf_nodes': None, 'max_samples': None, 'min_impurity_decrease': 0.0, 'min_samples_leaf': 1, 'min_samples_split': 2, 'min_weight_fraction_leaf': 0.0, 'n_estimators': 100, 'n_jobs': None, 'oob_score': False, 'random_state': None, 'verbose': 0, 'warm_start': False}


In [5]:
y_prediksi = rf.predict(X_test)
print(y_prediksi)

['sedan' 'sedan' 'sedan' 'minibus' 'minibus' 'minibus' 'sedan' 'minibus']


# 3. Memeriksa seberapa akurat Random Forest yang telah dibuat

In [6]:
# mengukur seberapa sering model prediksi benar dari total prediksi yang dilakukan
import sklearn.metrics as met
akurasi = met.accuracy_score(y_test, y_prediksi)
print(akurasi)

1.0


In [7]:
# bertujuan memberi tahu pentingnya setiap fitur dalam membuat prediksi (dalam kasus ini fitur terdapat mesin, bangku, penggerak)
score = rf.feature_importances_
print(score)

[0.17759954 0.44768262 0.37471785]
