# CLASSIFICATION FOR PREDICTION  ON ALGERIAN FOREST FIRES


Kebakaran hutan adalah masalah lingkungan yang serius dan sering kali sulit untuk diprediksi dan ditangani secara efektif. Untuk memahami dan memprediksi kebakaran hutan, data historis mengenai kondisi meteorologi dan lingkungan sangat penting. Dataset "Algerian Forest Fires" dari UCI Machine Learning Repository menyediakan informasi tersebut untuk dua wilayah di Aljazair, yaitu Bejaia dan Sidi Bel-abbes. 

## Tujuan Analisis

Data ini mencakup berbagai informasi meteorologi dan kondisi lingkungan yang dapat mempengaruhi terjadinya kebakaran hutan. Dengan menggunakan dataset ini, peneliti dapat melakukan analisis faktor-faktor yang mempengaruhi kebakaran, mengembangkan model prediktif untuk deteksi dini kebakaran, serta mempelajari dampak perubahan iklim terhadap kebakaran hutan. Dataset ini juga berguna untuk evaluasi dan validasi algoritma machine learning dalam prediksi kebakaran hutan, sehingga dapat membantu dalam mengembangkan strategi yang lebih efektif untuk pencegahan dan penanganan kebakaran hutan di wilayah Aljazair.

In [1]:
import pandas as pd
import numpy as np
import joblib
import seaborn as sns 
from matplotlib import pyplot as plt
from sklearn.neighbors import LocalOutlierFactor
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import StackingClassifier #

# DATA UNDERSTANDING

Data Understanding atau memahami data adalah sebuah tahapan di dalam metodologi sains data dan pengembangan AI yang bertujuan untuk mendapatkan pemahaman awal mengenai data yang dibutuhkan untuk memecahkan permasalahan yang diberikan. Pada case kali ini kita akan memahami Dataset Algerian Forest Fire

## MENGUMPULKAN DATA

### Mencari Data

Tahapan pertama pada mengumpulkan data adalah dengan mencari dataset yang akan kita gunakan, sesuai penjelasan di atas kita akan menggunakan Dataset Algerian Forest Fires yang bersumber dari:

https://archive.ics.uci.edu/dataset/547/algerian+forest+fires+dataset

### Menarik Data

Setelah kita mendapatkan data yang sesuai, selanjutnya kita upload data tersebut ke drive atau database yang kita miliki. Kemudian kami integrasikan dataset tersebut ke notebooks yang kami gunakan dengan tujuan akan memudahkan akses sesama anggota kelompok.

In [2]:
df = pd.read_excel('datasets_forest.xlsx')

df

Unnamed: 0,id,Region,day,month,year,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
0,1,Bejaia,1,6,2012,29,57,18,0,657,34,7.6,13,34,0.5,not fire
1,2,Bejaia,2,6,2012,29,61,13,13,644,41,7.6,1,39,0.4,not fire
2,3,Bejaia,3,6,2012,26,82,22,131,471,25,7.1,3,27,0.1,not fire
3,4,Bejaia,4,6,2012,25,89,13,25,286,13,6.9,0,17,0.0,not fire
4,5,Bejaia,5,6,2012,27,77,16,0,648,3,14.2,12,39,0.5,not fire
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
239,240,Sidi-Bel Abbes,26,9,2012,30,65,14,0,854,16,44.5,45,169,6.5,fire
240,241,Sidi-Bel Abbes,27,9,2012,28,87,15,44,411,65,8.0,1,62,0.0,not fire
241,242,Sidi-Bel Abbes,28,9,2012,27,87,29,5,459,35,7.9,4,34,0.2,not fire
242,243,Sidi-Bel Abbes,29,9,2012,24,54,18,1,797,43,15.2,17,51,0.7,not fire


Data diatas adalah data yang akan kita gunakan pada analisis kali ini.

## Memahami Data

Dataset "Algerian Forest Fires" dari UCI Machine Learning Repository berisi informasi mengenai kebakaran hutan di dua wilayah berbeda di Aljazair, yaitu Bejaia dan Sidi Bel-abbes. Dataset ini terdiri dari data harian mengenai kebakaran hutan di wilayah Bejaia (Bagian A) dan Sidi Bel-abbes (Bagian B) di Aljazair selama periode Juni 2012 hingga September 2012. Data ini mencakup berbagai informasi meteorologi dan kondisi lingkungan yang dapat mempengaruhi terjadinya kebakaran hutan. Dengan menggunakan dataset ini, peneliti dapat melakukan analisis faktor-faktor yang mempengaruhi kebakaran, mengembangkan model prediktif untuk deteksi dini kebakaran, serta mempelajari dampak perubahan iklim terhadap kebakaran hutan.

pada dataset ini tedapat sejumlah 245 data 

### Deskripsi Data

In [3]:
df.groupby('Classes').size()

Classes
fire           138
not fire       106
dtype: int64

### Penjelasan Fitur 

Dataset ini berisi beberapa fitur yang digunakan untuk analisis dan prediksi kebakaran hutan, dengan tipe data masing-masing fitur dijelaskan sebagai berikut:

Date: Tanggal pencatatan data. (datetime)

Temperature: Suhu udara harian dalam derajat Celsius. (numeric - real)

Relative Humidity: Kelembaban relatif dalam persen. (numeric - real)

Wind Speed: Kecepatan angin dalam km/jam. (numeric - real)

Rainfall: Curah hujan harian dalam mm. (numeric - real)

FFMC (Fine Fuel Moisture Code): Indeks kelembaban bahan bakar halus. (numeric - real)

DMC (Duff Moisture Code): Indeks kelembaban lapisan organik. (numeric - real)

DC (Drought Code): Indeks kekeringan. (numeric - real)

ISI (Initial Spread Index): Indeks awal penyebaran api. (numeric - real)

BUI (Buildup Index): Indeks pengumpulan bahan bakar. (numeric - real)

FWI (Fire Weather Index): Indeks cuaca kebakaran, menggabungkan beberapa parameter untuk memberikan perkiraan tingkat bahaya kebakaran. (numeric - real)

Classes: Kategori kebakaran (0: tidak ada kebakaran, 1: ada kebakaran). (categorical - integer)

Dengan menambahkan tipe data untuk setiap fitur, analisis dapat dilakukan dengan lebih tepat, serta pemilihan model prediksi dan metode evaluasi dapat disesuaikan dengan jenis data yang digunakan

### Eksplorasi Data

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 244 entries, 0 to 243
Data columns (total 16 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   id           244 non-null    int64  
 1   Region       244 non-null    object 
 2   day          244 non-null    int64  
 3   month        244 non-null    int64  
 4   year         244 non-null    int64  
 5   Temperature  244 non-null    int64  
 6   RH           244 non-null    int64  
 7   Ws           244 non-null    int64  
 8   Rain         244 non-null    int64  
 9   FFMC         244 non-null    int64  
 10  DMC          244 non-null    int64  
 11  DC           244 non-null    float64
 12  ISI          244 non-null    int64  
 13  BUI          244 non-null    int64  
 14  FWI          244 non-null    float64
 15  Classes      244 non-null    object 
dtypes: float64(2), int64(12), object(2)
memory usage: 30.6+ KB


In [5]:
df.describe()

Unnamed: 0,id,day,month,year,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI
count,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0,244.0
mean,122.5,15.754098,7.5,2012.0,32.172131,61.938525,15.504098,6.942623,700.348361,134.081967,49.288115,42.356557,151.930328,7.019262
std,70.580923,8.825059,1.112961,0.0,3.633843,14.8842,2.810178,19.559469,258.073485,126.267701,47.619662,40.904686,136.771442,7.429515
min,1.0,1.0,6.0,2012.0,22.0,21.0,6.0,0.0,45.0,3.0,6.9,0.0,3.0,0.0
25%,61.75,8.0,7.0,2012.0,30.0,52.0,14.0,0.0,628.75,37.75,13.275,11.0,50.25,0.7
50%,122.5,16.0,7.5,2012.0,32.0,63.0,15.0,0.0,808.0,97.5,33.1,27.0,112.0,4.2
75%,183.25,23.0,8.0,2012.0,35.0,73.25,17.0,4.0,878.75,188.75,68.15,68.0,217.5,11.375
max,244.0,31.0,9.0,2012.0,42.0,90.0,29.0,168.0,943.0,659.0,220.4,185.0,674.0,31.1


Berikut adalah beberapa informasi yang dihasilkan oleh describe():

- Count (Jumlah): Jumlah entri non-null dalam setiap kolom.

- Mean (Rata-rata): Rata-rata dari setiap kolom.

- Std (Standar Deviasi): Standar deviasi dari setiap kolom, mengukur seberapa tersebar data di sekitar rata-rata.

- Min (Minimum): Nilai minimum dalam setiap kolom.

- 25% (Kuartil Pertama): Nilai kuartil pertama (25th percentile) dari setiap kolom, menandakan nilai di bawahnya 25% dari data.

- 50% (Median): Nilai median (50th percentile) dari setiap kolom, membagi data menjadi dua bagian yang sama.

- 75% (Kuartil Ketiga): Nilai kuartil ketiga (75th percentile) dari setiap kolom, menandakan nilai di bawahnya 75% dari data.

- Max (Maksimum): Nilai maksimum dalam setiap kolom Jumlah data setiap class/specie

# KUALITAS DATA

## Missing Value

Missing value adalah informasi yang tidak tersedia untuk sebuah objek (kasus). Missing value terjadi karena informasi untuk sesuatu tentang objek tidak diberikan, sulit dicari, atau memang informasi tersebut tidak ada

Kita akan mengecek untuk kualitas data, apakah data tersebut memiliki missing value atau tidak.

In [6]:
df.isnull().sum()

id             0
Region         0
day            0
month          0
year           0
Temperature    0
RH             0
Ws             0
Rain           0
FFMC           0
DMC            0
DC             0
ISI            0
BUI            0
FWI            0
Classes        0
dtype: int64

pada dataset diatas diketahui bahwa tidak terdapat adanya missing values.

In [7]:
df.groupby('Classes').size()

Classes
fire           138
not fire       106
dtype: int64

# DATA PREPROCESSING

Dalam hal ini kita tidak akan menggunakan kolom region, day, month, dan year untuk preprocessing data. Hal ini disebebkan karena :

Kolom Region:

- Kolom region berisi data kategori yang merepresentasikan lokasi geografis. Data kategori seperti ini tidak secara langsung relevan dengan deteksi outlier yang berdasarkan pada fitur numerik dan kontinual seperti suhu, kelembaban, dan kecepatan angin.

Kolom Day, Month, Year:

- Kolom day, month, dan year berisi informasi waktu yang biasanya lebih relevan untuk analisis tren temporal atau musiman. Dalam konteks deteksi outlier dan prediksi model berbasis fitur numerik lingkungan, informasi ini kurang memberikan kontribusi yang berarti. Fokus utama adalah pada atribut yang menggambarkan kondisi fisik dan lingkungan yang memiliki pengaruh langsung terhadap deteksi outlier dan prediksi kebakaran hutan.
Dengan demikian, kita akan memfokuskan preprocessing pada fitur numerik yang lebih relevan seperti suhu (Temperature), kelembaban (RH), kecepatan angin (Ws), curah hujan (Rain), dan indeks bahan bakar hutan (FFMC, DMC, DC, ISI, BUI, FWI). Dengan cara ini, model yang dibangun akan lebih akurat dan efisien dalam mendeteksi outlier dan melakukan prediksi.

In [8]:
df.drop(columns=['id','Region','day','month','year'], inplace=True)

df

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
0,29,57,18,0,657,34,7.6,13,34,0.5,not fire
1,29,61,13,13,644,41,7.6,1,39,0.4,not fire
2,26,82,22,131,471,25,7.1,3,27,0.1,not fire
3,25,89,13,25,286,13,6.9,0,17,0.0,not fire
4,27,77,16,0,648,3,14.2,12,39,0.5,not fire
...,...,...,...,...,...,...,...,...,...,...,...
239,30,65,14,0,854,16,44.5,45,169,6.5,fire
240,28,87,15,44,411,65,8.0,1,62,0.0,not fire
241,27,87,29,5,459,35,7.9,4,34,0.2,not fire
242,24,54,18,1,797,43,15.2,17,51,0.7,not fire


In [9]:
import pandas as pd
from IPython.display import display

# Misalkan forest adalah DataFrame Anda
forest = pd.DataFrame(df)

# Mengambil kolom yang diinginkan
columns_to_keep = ['Temperature', 'RH', 'Ws', 'Rain', 'FFMC', 'DMC', 'DC', 'ISI', 'BUI', 'FWI']
forest_filtered = forest[columns_to_keep]

# Menampilkan data dalam bentuk tabel
display(forest_filtered.head(10))  # Menampilkan lima baris pertama sebagai contoh

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI
0,29,57,18,0,657,34,7.6,13,34,0.5
1,29,61,13,13,644,41,7.6,1,39,0.4
2,26,82,22,131,471,25,7.1,3,27,0.1
3,25,89,13,25,286,13,6.9,0,17,0.0
4,27,77,16,0,648,3,14.2,12,39,0.5
5,31,67,14,0,826,58,22.2,31,7,2.5
6,33,54,13,0,882,99,30.5,64,109,7.2
7,30,73,15,0,866,121,38.3,56,135,7.1
8,25,88,13,2,529,79,38.8,4,105,0.3
9,28,79,12,0,732,95,46.3,13,126,0.9


## Local Outlier Factor

Outlier adalah titik data yang secara signifikan berbeda atau jauh dari titik data lainnya dalam sebuah kumpulan data. Mereka bisa menunjukkan anomali, kesalahan pengukuran, atau kejadian yang jarang terjadi. Local Outlier Factor (LOF) adalah salah satu algoritma yang digunakan untuk mengidentifikasi outlier dalam dataset.

LOF bekerja dengan memperhitungkan kepadatan lingkungan dari setiap titik data. Konsep utamanya adalah bahwa titik yang dianggap sebagai outlier akan memiliki kepadatan lingkungan yang lebih rendah daripada tetangga-tetangganya. Dalam konteks LOF, ketika suatu titik dianggap sebagai outlier berdasarkan kepadatan lingkungan lokalnya, maka titik tersebut disebut sebagai local outlier.

Algoritma LOF mengevaluasi kepadatan setiap titik data relatif terhadap kepadatan titik-titik tetangga di sekitarnya. Dengan cara ini, LOF dapat mengidentifikasi outlier yang mungkin tersembunyi dalam berbagai tingkat kepadatan di seluruh kumpulan data. Ini membuat LOF efektif ketika kepadatan data tidak merata di seluruh dataset, karena mampu menyesuaikan dengan lingkungan lokal setiap titik data. untuk langkah langkahnya sebagai berikut :

1. Menghitung jarak dan menentukan tetangga

<img src="_image/image-20240627-022004.png" width="" align="" />

2. Menghitung Reachability Distance (RD)

<img src="_image/image-20240627-022023.png" width="" align="" />

3 Menghitung Local Reachability Distance (LRD)

<img src="_image/image-20240627-022038.png" width="" align="" />

4. Menghitung Local Outlier Factor (LOF)

<img src="_image/image-20240627-022056.png" width="" align="" />

In [10]:
lof = LocalOutlierFactor(n_neighbors=5, p=2)

lof_predict = lof.fit_predict(df.drop(['Classes'], axis=1))

outlier = df.index[lof_predict == -1]

print("Index predicted table:", df.index[lof_predict == -1])

Index predicted table: Index([  8,  52,  55,  58,  73,  87,  90,  91,  93, 132, 135, 158, 172, 173,
       184, 194, 203, 208, 209, 210, 215, 236, 237],
      dtype='int64')


In [11]:
df.loc[outlier]

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
8,25,88,13,2,529,79,38.8,4,105,0.3,not fire
52,27,66,22,4,682,105,71.3,18,154,2.1,not fire
55,36,53,19,0,892,171,98.6,10,239,15.3,fire
58,32,73,15,0,866,267,127.0,56,35,11.9,fire
73,35,63,15,0,87,19,85.1,59,244,10.2,fire
87,33,82,21,0,849,47,200.2,44,593,13.2,fire
90,35,70,17,8,727,252,180.4,17,374,4.2,not fire
91,28,80,21,168,525,87,8.7,6,83,0.3,not fire
93,22,86,15,101,305,7,7.0,0,11,0.0,not fire
132,31,42,21,0,906,182,30.5,134,18,16.7,fire


In [12]:
for column in df.drop(['Classes'], axis=1).columns:
    column_mean = df[column].mean()
    
    if df[column].dtype == 'int64':
        column_mean = int(column_mean)
    
    df.loc[outlier, column] = column_mean

# df_replaced = df.copy()
# for index in outlier:
#     for column in df_replaced.drop(['Classification'], axis=1).columns:
#         median_value = df_replaced[column].median()
#         if df_replaced[column].dtype == 'int64':
#             median_value = int(median_value)
#         df_replaced.loc[index, column] = median_value
# df=df_replaced        

# print("Data after replacing outliers with median:")
# print(df)

In [13]:
df

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
0,29,57,18,0,657,34,7.6,13,34,0.5,not fire
1,29,61,13,13,644,41,7.6,1,39,0.4,not fire
2,26,82,22,131,471,25,7.1,3,27,0.1,not fire
3,25,89,13,25,286,13,6.9,0,17,0.0,not fire
4,27,77,16,0,648,3,14.2,12,39,0.5,not fire
...,...,...,...,...,...,...,...,...,...,...,...
239,30,65,14,0,854,16,44.5,45,169,6.5,fire
240,28,87,15,44,411,65,8.0,1,62,0.0,not fire
241,27,87,29,5,459,35,7.9,4,34,0.2,not fire
242,24,54,18,1,797,43,15.2,17,51,0.7,not fire


# DATA MODELLING

Modeling dalam machine learning adalah proses menciptakan dan melatih algoritma yang dapat mengenali pola dalam data dan membuat prediksi atau keputusan berdasarkan pola tersebut. Proses ini melibatkan penggunaan teknik statistik dan komputasi untuk mengembangkan model yang dapat secara akurat merepresentasikan hubungan dalam data dan memprediksi hasil baru yang belum pernah dilihat sebelumnya. karena didalam kasus Datasets Fertility ini tujuannya adalah untuk melakukan diagnosis fertilitas jadi tentunya kita menggunakan Metode Klasifikasi.

Metode klasifikasi adalah teknik analisis data yang digunakan untuk memisahkan atau mengelompokkan data ke dalam kategori atau kelas berdasarkan atribut-atribut yang ada. Tujuan utama dari metode ini adalah membangun model yang dapat memprediksi kelas atau label data yang belum pernah dilihat sebelumnya berdasarkan fitur-fitur yang diamati. Dalam hal ini, kita menggunakan metode klasifikasi Naive Bayes karena sangat cocok untuk klasifikasi teks dan memiliki kinerja yang baik pada dataset dengan dimensi tinggi. Mari kita langsung implementasikan metode ini.

Pada klasifikasi naive bayes gaussian kita memerlukan data train dan data test. Data train merupakan bagian dalam kumpulan dataset yang disediakan untuk menjadi bahan pembelajaran model agar model dapat menggeneralisasi (menemukan pola) data sehingga nantinya dapat digunakan untuk memprediksi data baru. Sedangkan data test adalah bagian dari kumpulan data set yang akan digunakan untuk mengetest dengan acuan prediksi dari data train yang digunakan. Untuk pembagian data nya sendiri adalah 30% menjadi data Test dan 70% menjadi data Train. Pada kode berikut random state dimulai dari 20.

In [14]:
x = df.drop(['Classes'], axis=1)
y = df['Classes']

x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.3, random_state=20)

In [15]:
x_train

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI
183,38,52,14,0,783,44,10.5,2,44,0.8
179,33,57,16,0,875,157,37.6,67,157,9.0
124,29,80,14,2,487,22,7.6,3,26,0.1
112,31,55,11,0,878,165,57.9,54,192,8.3
233,34,58,13,2,795,187,88.0,21,244,3.8
...,...,...,...,...,...,...,...,...,...,...
156,34,45,18,0,905,187,46.4,113,187,15.0
223,29,74,15,11,595,47,8.2,8,46,0.3
15,29,89,13,7,361,17,7.6,0,22,0.0
218,30,58,12,41,661,4,8.4,1,39,0.4


In [16]:
x_test

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI
87,32,61,15,6,700,134,49.288115,42,151,7.019262
236,32,61,15,6,700,134,49.288115,42,151,7.019262
209,32,61,15,6,700,134,49.288115,42,151,7.019262
153,33,48,16,0,876,79,17.800000,68,78,6.400000
128,35,44,17,2,856,99,28.900000,54,107,6.000000
...,...,...,...,...,...,...,...,...,...,...
64,34,69,13,0,85,82,19.800000,4,82,3.900000
73,32,61,15,6,700,134,49.288115,42,151,7.019262
92,25,76,17,72,46,13,7.500000,2,18,0.100000
184,32,61,15,6,700,134,49.288115,42,151,7.019262


In [17]:
y_train

183    not fire   
179        fire   
124    not fire   
112        fire   
233    not fire   
          ...     
156        fire   
223    not fire   
15     not fire   
218    not fire   
99     not fire   
Name: Classes, Length: 170, dtype: object

In [18]:
y_test

87         fire   
236        fire   
209        fire   
153        fire   
128        fire   
          ...     
64         fire   
73         fire   
92     not fire   
184        fire   
171        fire   
Name: Classes, Length: 74, dtype: object

Menggabungkan data x dan y

In [19]:
df_train = pd.concat([x_train, y_train], axis=1, join='inner')
df_test = pd.concat([x_test, y_test], axis=1, join='inner')

df_test

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
87,32,61,15,6,700,134,49.288115,42,151,7.019262,fire
236,32,61,15,6,700,134,49.288115,42,151,7.019262,fire
209,32,61,15,6,700,134,49.288115,42,151,7.019262,fire
153,33,48,16,0,876,79,17.800000,68,78,6.400000,fire
128,35,44,17,2,856,99,28.900000,54,107,6.000000,fire
...,...,...,...,...,...,...,...,...,...,...,...
64,34,69,13,0,85,82,19.800000,4,82,3.900000,fire
73,32,61,15,6,700,134,49.288115,42,151,7.019262,fire
92,25,76,17,72,46,13,7.500000,2,18,0.100000,not fire
184,32,61,15,6,700,134,49.288115,42,151,7.019262,fire


## Gaussian Naive bayes

Gaussian Naive Bayes adalah teknik klasifikasi dalam machine learning yang menggunakan probabilitas dan Distribusi Gaussian atau Normal. Distribusi Gaussian menganggap bahwa setiap fitur pada data independen satu sama lain dalam memprediksi target. Prediksi dari seluruh parameter digabungkan untuk menghasilkan prediksi akhir dengan probabilitas target yang diklasifikasikan ke dalam dua kelas. Hasil klasifikasi akhir adalah kelas data berdasarkan probabilitas tertinggi dari grup target.

berikut adalah code naive bayes Gaussian dari data raisin sebelum masuk ke codenya dibawah ini ada rumus naive bayes gaussian:

Untuk pembagiannya data train dan data test akan dibagi menjadi 20% data test dan 80% data train

berikut langkah-langkah perhitungannya:

1.Ambil data pelatihan dari model yang telah dibuat.
2.Hitung probabilitas untuk setiap data pelatihan.

3.Hitung rata-rata dan standar deviasi untuk setiap fitur dalam setiap kelas pada data pelatihan. 

4.Setelah itu, tentukan input data yang terdiri dari Area, MajorAxisLength, MinorAxisLength, Eccentricity, ConvexArea, Extent, Perimeter

5.Hitung distribusi Gaussian untuk setiap fitur dalam setiap kelas pada data pelatihan.

<img src="_image/image-20240627-022155.png" width="" align="" />

6. Hitung probabilitas posterior untuk setiap Target.

<img src="_image/image-20240627-022208.png" width="" align="" />

7.tentukan maximum posteriori

<img src="_image/image-20240627-022308.png" width="" align="" />


8. Pada Target yg mendapat posteriori maksimal itulah Target dari data inputan baru tersebut

Berikut adalah code gaussian naive bayes dengan menggunakan sklearn:

In [20]:
gnb_model = GaussianNB()

# Melatih model dengan menggunakan data latih
gnb_model = gnb_model.fit(x_train, y_train)

# Evaluasi Model
y_pred = gnb_model.predict(x_test)

accuracy = gnb_model.score(x_test, y_test)
print(f"Accuracy: {accuracy}")


Accuracy: 0.8513513513513513


In [21]:
print(gnb_model.predict([[30.0, 45, 20, 0, 85.5, 27.2, 129.2, 8.3, 70.1, 6.1]]))

['fire   ']


## KNN

In [22]:
classifier = KNeighborsClassifier(n_neighbors=8)

classifier.fit(x_train, y_train)

result = classifier.predict(x_test)

classifier.score(x_test, y_test)

0.8243243243243243

# ESEMBLE LEARNING

## Stacking Classifier

<img src="_image/image-20240627-022333.png" width="" align="" />

Stacking classifier adalah metode ensemble learning yang menggabungkan beberapa model (disebut sebagai base models atau level-0 models) dengan menggunakan model lain (disebut sebagai meta-learner atau level-1 model) untuk membuat prediksi akhir. Prosesnya adalah sebagai berikut:

- Melatih beberapa base models pada data pelatihan.

- Membuat prediksi dari setiap base model pada data validasi dan data pelatihan.

- Menggunakan prediksi dari base models sebagai fitur baru untuk melatih meta-learner.

- Meta-learner membuat prediksi akhir berdasarkan fitur-fitur baru ini.

- Keunggulan stacking adalah kemampuan untuk menggabungkan kekuatan dari berbagai model yang berbeda untuk menghasilkan prediksi yang lebih akurat.

### Membuat model knn dengan n = 7

In [23]:
from sklearn.neighbors import KNeighborsClassifier

In [24]:
clf_n_7 = KNeighborsClassifier(n_neighbors=7)

clf_n_7.fit(x_train, y_train)

#joblib.dump(clf_n_7, 'stacking/knn_7.joblib')

result = clf_n_7.predict(x_train)

result_n_7 = pd.DataFrame(result, columns=['P1'])

result_n_7

Unnamed: 0,P1
0,not fire
1,fire
2,not fire
3,fire
4,fire
...,...
165,fire
166,not fire
167,not fire
168,not fire


### Membuat model knn dengan n = 12

In [25]:
clf_n_12 = KNeighborsClassifier(n_neighbors=12)

clf_n_12.fit(x_train, y_train)

#joblib.dump(clf_n_12, 'stacking/knn_12.joblib')

result = clf_n_12.predict(x_train)

result_n_12 = pd.DataFrame(result, columns=['P2'])

result_n_12

Unnamed: 0,P2
0,not fire
1,fire
2,not fire
3,fire
4,fire
...,...
165,fire
166,not fire
167,not fire
168,not fire


menggabungkan 2 knn

In [26]:
x_combined = pd.concat([result_n_7, result_n_12], axis=1)

x_combined

Unnamed: 0,P1,P2
0,not fire,not fire
1,fire,fire
2,not fire,not fire
3,fire,fire
4,fire,fire
...,...,...
165,fire,fire
166,not fire,not fire
167,not fire,not fire
168,not fire,not fire


### Merubah data menjadi numerik

In [27]:
X = pd.get_dummies(x_combined,prefix=["P1","P2"],columns=["P1","P2"], dtype='int')

X

Unnamed: 0,P1_fire,P1_not fire,P2_fire,P2_not fire
0,0,1,0,1
1,1,0,1,0
2,0,1,0,1
3,1,0,1,0
4,1,0,1,0
...,...,...,...,...
165,1,0,1,0
166,0,1,0,1
167,0,1,0,1
168,0,1,0,1


### MODELLING GAUSSIAN NAIVES BAYES SEBAGAI META CLASSIFIER

In [28]:
y_train

183    not fire   
179        fire   
124    not fire   
112        fire   
233    not fire   
          ...     
156        fire   
223    not fire   
15     not fire   
218    not fire   
99     not fire   
Name: Classes, Length: 170, dtype: object

In [29]:
clf_nb = GaussianNB()

clf_nb.fit(X, y_train)

clf_nb.score(X, y_train)

0.9235294117647059

### PREDIKSI

In [30]:
# def stackingClassifier(data):
#   result_n_7 = pd.DataFrame(clf_n_7.predict(data), columns=['P1'])
#   result_n_12 = pd.DataFrame(clf_n_12.predict(data), columns=['P2'])
#   data = pd.concat([result_n_7, result_n_12], axis=1)
#   x_predict = pd.get_dummies(data,prefix=["P1","P2"],columns=["P1","P2"], dtype='int')
#   if 'P1_fire' not in x_predict.columns and 'P2_fire' not in x_predict.columns:
#     x_predict.insert(0, "P1_fire", [0], True)
#     x_predict.insert(2, "P2_fire", [0], True)
#   elif 'P1_not fire' not in x_predict.columns and 'P2_not fire' not in x_predict.columns:
#     x_predict.insert(1, "P1_not fire", [0], True)
#     x_predict.insert(3, "P2_not fire", [0], True)
#   return clf_nb.predict(x_predict), clf_nb.score(X, y_train)

def stackingClassifier(data):
  result_n_7 = pd.DataFrame(clf_n_7.predict(data), columns=['P1'])
  result_n_12 = pd.DataFrame(clf_n_12.predict(data), columns=['P2'])
  data = pd.concat([result_n_7, result_n_12], axis=1)
  x_predict = pd.get_dummies(data,prefix=["P1","P2"],columns=["P1","P2"], dtype='int')
  if 'P1_not fire' not in x_predict.columns and 'P2_not fire' not in x_predict.columns:
    x_predict.insert(0, "P1_not fire", [0], True)
    x_predict.insert(2, "P2_not fire", [0], True)
  elif 'P1_fire' not in x_predict.columns and 'P2_fire' not in x_predict.columns:
    x_predict.insert(1, "P1_fire", [0], True)
    x_predict.insert(3, "P2_fire", [0], True)
  return clf_nb.predict(x_predict), clf_nb.score(X, y_train)

In [31]:
data = df_test.head(1).drop('Classes', axis=1)
prediction, score = stackingClassifier(data)
print(f'prediction : {prediction}, accuration : {score}')

prediction : ['not fire   '], accuration : 0.9235294117647059
Feature names unseen at fit time:
- P1_not fire
- P2_not fire
Feature names seen at fit time, yet now missing:
- P1_not fire   
- P2_not fire   



# Bagging Classifier

<img src="_image/image-20240627-025854.png" width="50%" align="center" />

## Membuat sample data

In [32]:
B1 = df_train.sample(frac=1)

B1

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
52,32,61,15,6,700,134,49.288115,42,151,7.019262,not fire
222,30,80,15,0,831,79,34.500000,35,10,3.700000,fire
115,29,65,19,6,683,55,15.200000,15,58,0.700000,not fire
118,31,66,11,0,857,83,24.900000,4,9,4.100000,fire
60,35,64,17,0,872,319,145.700000,68,412,15.700000,fire
...,...,...,...,...,...,...,...,...,...,...,...
32,32,76,20,7,631,26,9.200000,13,3,0.500000,not fire
79,35,62,19,0,894,232,120.900000,97,313,17.200000,fire
189,34,63,13,29,697,72,9.800000,12,69,0.600000,not fire
37,33,68,19,0,856,125,49.800000,6,154,8.000000,fire


In [33]:
B2 = df_train.sample(frac=1)

B2

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
51,28,79,18,1,734,164,79.900000,18,217,2.800000,not fire
183,38,52,14,0,783,44,10.500000,2,44,0.800000,not fire
196,37,40,13,0,919,223,55.500000,108,223,15.700000,fire
242,24,54,18,1,797,43,15.200000,17,51,0.700000,not fire
9,28,79,12,0,732,95,46.300000,13,126,0.900000,not fire
...,...,...,...,...,...,...,...,...,...,...,...
52,32,61,15,6,700,134,49.288115,42,151,7.019262,not fire
110,29,57,14,0,893,125,41.300000,78,142,9.700000,fire
150,37,36,13,6,862,179,36.700000,48,178,7.200000,fire
146,34,70,16,0,86,128,25.600000,54,127,6.700000,fire


In [34]:
B3 = df_train.sample(frac=1)

B3

Unnamed: 0,Temperature,RH,Ws,Rain,FFMC,DMC,DC,ISI,BUI,FWI,Classes
37,33,68,19,0,856,125,49.800000,6,154,8.000000,fire
239,30,65,14,0,854,16,44.500000,45,169,6.500000,fire
7,30,73,15,0,866,121,38.300000,56,135,7.100000,fire
93,32,61,15,6,700,134,49.288115,42,151,7.019262,not fire
114,32,54,11,5,737,79,30.400000,12,96,0.700000,not fire
...,...,...,...,...,...,...,...,...,...,...,...
23,32,66,17,0,859,112,55.800000,56,149,7.500000,fire
76,36,61,18,3,802,117,90.400000,28,176,4.200000,fire
25,31,64,18,0,868,178,71.800000,67,216,10.600000,fire
148,36,55,15,0,891,209,43.300000,8,208,12.000000,fire


## Modelling dengan Naive Bayes

Jadikan tiga model Naives Bayes sebagai estimator untuk digunakan dalam BaggingClassifiers

In [35]:
B1_x = B1.drop(['Classes'], axis=1)
B1_y = B1['Classes']

M1 = GaussianNB()
M1.fit(B1_x, B1_y)

# saving model with joblib
#joblib.dump(M1, 'bagging/m1.joblib')

M1_predict = M1.predict(x_train)

M1_result = pd.DataFrame(M1_predict, columns=['P1'])

# M1.score(x_test, y_test)

In [36]:
B2_x = B2.drop(['Classes'], axis=1)
B2_y = B2['Classes']

M2 = GaussianNB()
M2.fit(B2_x, B2_y)

#joblib.dump(M2, 'bagging/m2.joblib')

M2_predict = M2.predict(x_train)

M2_result = pd.DataFrame(M2_predict, columns=['P2'])

# M2.score(x_test, y_test)

In [37]:
B3_x = B3.drop(['Classes'], axis=1)
B3_y = B3['Classes']

M3 = GaussianNB()
M3.fit(B3_x, B3_y)

# saving model with joblib
#joblib.dump(M3, 'bagging/m3.joblib')

M3_predict = M3.predict(x_train)

M3_result = pd.DataFrame(M3_predict, columns=['P3'])

# M3.score(x_test, y_test)

## Change categorical to numeric

In [38]:
# X = pd.concat([M1_result, M2_result, M3_result], axis=1)
# X
x_combined = pd.concat([M1_result, M2_result, M3_result], axis=1)

# x_combined

X = pd.get_dummies(x_combined,prefix=["P1","P2", "P3"],columns=["P1","P2", "P3"], dtype='int')

X


Unnamed: 0,P1_fire,P1_not fire,P2_fire,P2_not fire,P3_fire,P3_not fire
0,0,1,0,1,0,1
1,1,0,1,0,1,0
2,0,1,0,1,0,1
3,1,0,1,0,1,0
4,1,0,1,0,1,0
...,...,...,...,...,...,...
165,1,0,1,0,1,0
166,0,1,0,1,0,1
167,0,1,0,1,0,1
168,0,1,0,1,0,1


## Make aggregation

In [39]:
clf_knn = KNeighborsClassifier(n_neighbors=3)

clf_knn.fit(X, y_train)

# saving model with joblib
#joblib.dump(clf_knn, 'bagging/aggregation.joblib')

# result = clf_nb.predict(x_train)
# result

clf_knn.score(X, y_train)

0.888235294117647

## Make prediction function

In [40]:
def baggingClassifier(data):
    B1 = df_train.sample(frac=1)
    B2 = df_train.sample(frac=1)
    B3 = df_train.sample(frac=1)

    B1_x = B1.drop(['Classes'], axis=1)
    B1_y = B1['Classes']

    M1.fit(B1_x, B1_y)
    M1_predict = M1.predict(data)
    M1_result = pd.DataFrame(M1_predict, columns=['P1'])

    B2_x = B2.drop(['Classes'], axis=1)
    B2_y = B2['Classes']

    M2.fit(B2_x, B2_y)
    M2_predict = M2.predict(data)
    M2_result = pd.DataFrame(M2_predict, columns=['P2'])

    B3_x = B3.drop(['Classes'], axis=1)
    B3_y = B3['Classes']

    M3.fit(B3_x, B3_y)
    M3_predict = M3.predict(data)
    M3_result = pd.DataFrame(M3_predict, columns=['P3'])

    x_combined = pd.concat([M1_result, M2_result, M3_result], axis=1)
    x_predict = pd.get_dummies(x_combined,prefix=["P1","P2", "P3"],columns=["P1","P2", "P3"], dtype='int')

    if 'P1_not fire' not in x_predict.columns and 'P2_not fire' not in x_predict.columns and 'P3_not fire' not in x_predict.columns:
        x_predict.insert(0, "P1_not fire", [0], True)
        x_predict.insert(2, "P2_not fire", [0], True)
        x_predict.insert(4, "P3_not fire", [0], True)
    elif 'P1_fire' not in x_predict.columns and 'P2_fire' not in x_predict.columns and 'P3_fire' not in x_predict.columns:
        x_predict.insert(1, "P1_fire", [0], True)
        x_predict.insert(3, "P2_fire", [0], True)
        x_predict.insert(4, "P3_fire", [0], True)

    clf_knn.fit(X, y_train)
    return clf_knn.predict(x_predict), clf_knn.score(X, y_train)

In [41]:
data = df_test.head(1).drop('Classes', axis=1)
prediction, score = baggingClassifier(data)
print(f'prediction : {prediction}, accuration : {score}')

prediction : ['not fire   '], accuration : 0.888235294117647
Feature names unseen at fit time:
- P1_fire
- P2_fire
- P3_fire
Feature names seen at fit time, yet now missing:
- P1_not fire   
- P2_not fire   
- P3_not fire   



# Kesimpulan

Dari beberapa tahapan pengerjaan yang telah kita lalui, kami mendapatkan kesimpulan bahwa hasil yang terbaik untuk di bawa ke tahapan selanjutnya adalah dengan menggunakan model dari stacking.

Dapat dilihat kembali hasil akurasi stacking lebih tinggi daripada akurasi bagging, yaitu akurasi stacking 0.9235294117647059 sedangkan akurasi bagging 0.888235294117647

<a style='text-decoration:none;line-height:16px;display:flex;color:#5B5B62;padding:10px;justify-content:end;' href='https://deepnote.com?utm_source=created-in-deepnote-cell&projectId=7ef3b710-b879-4d43-8380-181ddcce80f4' target="_blank">
 </img>
Created in <span style='font-weight:600;margin-left:4px;'>Deepnote</span></a>