# Contoh Klasifikasi

Pada contoh ini kita akan melakukan klasifikasi untuk kasus apakah berdasarkan data cuaca yang ada, cocok dengan kondisi 'BBQ Weather' di Kota Basel. Untuk memprediksi apakah data cuaca cocok dengan kondisi 'BBQ Weather' maka kita akan coba memprediksinya dengan menggunakan model klasifikasi

***Disclaimer***
> Data didapatkan dari [https://github.com/florian-huber/weather_prediction_dataset](https://github.com/florian-huber/weather_prediction_dataset) dengan sedikit modifikasi untuk keperluan contoh

## Persiapan Data

### Load Data

In [9]:
# Import library
import numpy as np
import pandas as pd

# Load data
df = pd.read_csv('weather_prediction_bbq_basel.csv')

# Cek data
df.head()

Unnamed: 0.1,Unnamed: 0,BASEL_cloud_cover,BASEL_humidity,BASEL_pressure,BASEL_global_radiation,BASEL_precipitation,BASEL_sunshine,BASEL_temp_mean,BASEL_temp_min,BASEL_temp_max,BASEL_BBQ_weather
0,0,8,0.89,1.0286,0.2,0.03,0.0,2.9,1.6,3.9,False
1,1,8,0.87,1.0318,0.25,0.0,0.0,3.6,2.7,4.8,False
2,2,5,0.81,1.0314,0.5,0.0,3.7,2.2,0.1,4.8,False
3,3,7,0.79,1.0262,0.63,0.35,6.9,3.9,0.5,7.5,False
4,4,5,0.9,1.0246,0.51,0.07,3.7,6.0,3.8,8.6,False


## Seleksi Fitur

Pada tahap ini kita akan memotong data (*slicing*) untuk mendapatkan fitur (variabel independen) dan label/kelas (variabel dependen) sesuai dengan kebutuhan

In [10]:
# Fitur
# Potong mulai kolom ke-2 sampai kolom ke-2 dari akhir 
# Catatan: python mengugnakan zero index, sehingga selalu diawali dengan data ke-0
X = df.iloc[:, 1:-1] 

# Label/Kelas
y = df.iloc[:, -1]

## Split Data Training dan Testing

In [11]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=50)

## Membuat Model

Pada kasus ini, model klasifikasi yang akan kita buat adalah Gaussian Naive Bayes. Naive bayes adalah model machine learning untuk klasifiksi yang di kalkulasi berdasarkan kaidah Bayes. Khusus model gaussian, model ini berasumsi bahwa data terdistribusi secara normal (*gaussian distribution*). Oleh karena itu, kita harus menstandarisasi data yang kita miliki.

### Pipeline Model

Untuk mempermudah proses standarisasi data dan pembuatan model, kita dapat menggunakan sebuah pipeline. Pipeline adalah sebuah alur kerja yang dapat kita manfaatkan untuk membuat model sehingga kita tidak perlu melakukan tahapan pembersihan sampai pelatihan secara satu per satu

In [12]:
# Import library
from sklearn.preprocessing import StandardScaler # untuk standarisasi data
from sklearn.naive_bayes import GaussianNB # import model Gaussian Naive Bayes
from sklearn.pipeline import Pipeline

pipe = Pipeline([
    ('standariasi', StandardScaler()),
    ('model', GaussianNB())
])

### Latih Model (dengan Pipeline) - Untuk Data Training

In [13]:
# Latih model dengan menggunakan data training
pipe.fit(X_train, y_train)

# Prediksi hasil model dengan menggunakan data training
y_predict_train = pipe.predict(X_train)

### Evalusi Model Berdasarkan Data Training

Kita akan menggunakan metric akurasi untuk menguji performa dari model

In [14]:
from sklearn.metrics import accuracy_score

# Kalkulasi akurasi
train_acc = accuracy_score(y_train, y_predict_train)

# Cek akurasi
print(f'Akurais data training: {train_acc}')

Akurais data training: 0.9339069221744232


### Evaluasi Model Berdasarkan Data Testing

Kali ini kita akan benar-benar menggunakan data testing atau data yang memang tidak digunakan untuk melatih model

In [15]:
# Prediksi hasil model dengan menggunakan data test
y_predict_test = pipe.predict(X_test)

# Kalkulasi akurasi data testing
test_acc = accuracy_score(y_test, y_predict_test)

# Cek akurasi
print(f'Akurais data testing: {test_acc}')

Akurais data testing: 0.9216043755697356


## Kesimpulan

Model dapat bekerja dengan cukup baik untuk memprediksi 'BBQ Weather' dengan tingkat akurasi lebih dari $90\%$ baik dari data training maupun testing