## Decision Tree

## Library

In [None]:
import pandas as pd
import numpy as np
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings("ignore")

## Load Data

In [None]:
#Menggunakan pandas untuk membaca file CSV dari URL dan menyimpannya ke dalam Dataframe df
df = pd.read_csv("https://raw.githubusercontent.com/rahmantaufik27/dataset/main/study/daily_weather_prediction.csv")

In [None]:
#Menampilkan seluruh isi DataFrame df
df

## EDA (Exploratory Data Analysis)

In [None]:
#Menampilkan informasi tentang DataFrame df, termasuk jumlah baris dan kolom, tipe data setiap kolom
#serta jumlah nilai non-null dan pengunaan memori
df.info()

In [None]:
df.isnull().sum()

In [None]:
#Menggunakan method describe() untuk mendapatkan ringkasan statistik dari data numerik dalam DataFrame df
df.describe()

## Preprocessing

In [None]:
#Menggunakan method dropna() untuk menghapus baris yang mengandung nilai null dari dataframe df
#dan menyimpan dataframe yang telah dimodifikasi kembali ke variabel df
df = df.dropna()

In [None]:
#Menambahkan kolom baru 'high_humidity_label' ke dataframe df
df['high_humidity_label'] = (df['relative_humidity_3pm'] > 24.99) * 1

In [None]:
#Mendapatkan list nama-nama kolom dari DataFrame df
features = list(df.columns)

#Menghapus kolom 'number' dari list fitur
features.remove('number')

#Menghapus kolom 'relative_humidity_9am' dari list fitur
features.remove('relative_humidity_9am')

#Menghapus kolom 'relative_humidity_3pm' dari list fitur
features.remove('relative_humidity_3pm')

#Menghapus kolom 'high_humidity_label' dari list fitur
features.remove('high_humidity_label')

#Menampilkan list fitur yang telah dimodifikasi
features

In [None]:
#Memilih subset dari DataFrame df yang hanya terdiri dari fitur-fitur yang telah dipersiapkan sebelumnya
x = df[features].copy()

#Memilih kolom 'high_humidity_label' dari DataFrame df sebagai target variabel yang akan diprediksi
y = df["high_humidity_label"].copy()

In [None]:
train_pct_index = int(0.8 * len(x))
x_train, x_test = x[:train_pct_index], x[train_pct_index:]
y_train, y_test = y[:train_pct_index], y[train_pct_index:]

## Modelling

In [None]:
#Membuat objek DecisionTreeClassifier dengan mengatur jumlah maksimum leaf nodes (simpul daun) menjadi 10
#dan menetapkan nilai random_state agar hasilnya dapat direproduksi dengan konsisten
dt_cls = DecisionTreeClassifier(max_leaf_nodes=10, random_state=0)

#Melatih model DecisionTreeClassifier menggunakan data pelatihan yang telah dipersiapkan
#Ini dilakukan dengan menggunakan metode fit(), di mana x_train adalah fitur-fitur pelatihan
#dan y_train adalah label pelatihan yang ingin diprediksi oleh model
dt_cls.fit(x_train, y_train)

## Prediction

In [None]:
#Melakukan prediksi menggunakan model DecisionTreeClassifier yang telah dilatih sebelumnya
#Pada data pengujian x_test, ini dilakukan dengan menggunakan metode predict()
y_pred = dt_cls.predict(x_test)

#Menampilkan hasil prediksi yang disimpan dalam variabel y_pred
y_pred

In [None]:
#Menghitung akurasi antara label yang sebenarnya (y_test) dan label yang diprediksi (y_pred)
acc = accuracy_score(y_test, y_pred)

#Menampilkan akurasi dalam bentuk persentase dengan dua angka desimal
print("Akurasi: %.2f%%" % (acc * 100))

## Conclusion
Dengan menggunakan model Decision Tree Classifier dengan batasan maksimum 10 leaf nodes, akurasi prediksi pada data pengujian adalah sekitar 78.87% Ini menunjukkan bahwa model tersebut dapat dengan tepat memprediksi label "High_Humidity" dengan tingkat keberhasilan sekitar 78.87% berdasarkan fitur-fitur yang telah dipilih.