# <center>Assessment CLO-3: Tugas Pemrograman Learning</center>

<b>Topik</b>
Regresi pada Single Elder Home Monitoring: Gas and Position menggunakan Metode Decision Tree

<b>Kelompok: </b>

Anggota:
1. Rafi Faizi Hermawan - 1301223445
2. Farhan Risdian Maulana - 1301223266

#### Pendahuluan
Pengenalan Dataset
Dataset "Single Elder Home Monitoring: Gas and Position" berisi data yang dikumpulkan dari sensor gas dan posisi dalam rumah yang dihuni oleh seorang lansia. Dataset ini sangat berguna dalam memonitor aktivitas lansia untuk tujuan keselamatan dan kesehatan. Data ini mencakup berbagai fitur seperti tingkat gas tertentu, suhu, kelembaban, dan lokasi dalam rumah.

Masalah yang Ingin Diselesaikan
Tujuan dari studi kasus ini adalah melakukan klasifikasi aktivitas atau posisi lansia di dalam rumah berdasarkan data sensor yang telah dikumpulkan. Dengan melakukan klasifikasi yang akurat, sistem dapat membantu dalam memantau aktivitas harian lansia dan mendeteksi aktivitas yang tidak biasa atau berpotensi berbahaya.

Pengolahan Data
Tahap pertama dalam pengolahan data adalah memeriksa dan menangani nilai yang hilang. Data yang hilang dapat mengganggu proses pembelajaran mesin, sehingga kita perlu mengisi atau menghapusnya. Kemudian, data kategorikal perlu dikonversi menjadi format numerik untuk dapat diproses oleh model pembelajaran mesin.

Pembagian Data
Dataset akan dibagi menjadi dua bagian: training dan testing. Pembagian ini penting untuk mengevaluasi kinerja model secara objektif. Data training akan digunakan untuk melatih model, sementara data testing akan digunakan untuk menguji model yang telah dilatih dan mengevaluasi kinerjanya.

In [None]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.tree import DecisionTreeClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import matplotlib.pyplot as plt
import seaborn as sns

# Load dataset
df = pd.read_csv('database_gas.csv')

# Show a preview of the dataset
print(df.head())

# Check for missing values
print(df.isnull().sum())

# Fill missing values if necessary
df.fillna(df.mean(), inplace=True)

# Convert categorical data to numeric if necessary
# Assuming 'position' is the target column
df['position'] = df['position'].astype('category').cat.codes

# Feature and target split
X = df.drop('position', axis=1)
y = df['position']

# Data Splitting
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Data Normalization
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Show the distribution of the target variable
sns.countplot(x=y)
plt.title('Distribution of Target Variable')
plt.xlabel('Position')
plt.ylabel('Count')
plt.show()

#### Metode yang Digunakan
Metode Decision Tree
Metode Decision Tree dipilih karena kemudahannya dalam interpretasi dan kemampuannya untuk menangani data dengan tipe fitur yang berbeda tanpa memerlukan pra-pemrosesan yang ekstensif.

Pengaturan Parameter
Parameter utama yang digunakan dalam Decision Tree adalah kedalaman pohon (max_depth). Parameter ini penting untuk mengontrol kompleksitas model dan menghindari overfitting.

In [None]:
# Initialize the Decision Tree model
model = DecisionTreeClassifier(max_depth=5, random_state=42)

# Model Training
model.fit(X_train, y_train)

# Save the trained model
import joblib
joblib.dump(model, 'decision_tree_model.pkl')

In [None]:
Pengujian dan Evaluasi Model
Evaluasi model dilakukan dengan menggunakan metrik akurasi, confusion matrix, dan classification report.

In [None]:
# Model Testing
y_pred = model.predict(X_test)

# Evaluation
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print(f'Accuracy: {accuracy}')
print(f'Confusion Matrix:\n{conf_matrix}')
print(f'Classification Report:\n{class_report}')

# Plotting Confusion Matrix
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

# Extracting Precision, Recall, F1-Score from classification report
precision = float(class_report.split()[11])
recall = float(class_report.split()[13])
f1_score = float(class_report.split()[15])

# Plotting Performance Metrics
metrics = {
    'Accuracy': [accuracy],
    'Precision': [precision],
    'Recall': [recall],
    'F1-Score': [f1_score]
}

metrics_df = pd.DataFrame(metrics, index=['Decision Tree'])
metrics_df.plot(kind='bar', figsize=(10, 6), color=['skyblue', 'lightgreen', 'salmon', 'lightcoral'])
plt.title('Performance Metrics')
plt.xlabel('Metrics')
plt.ylabel('Score')
plt.ylim(0, 1)
plt.xticks(rotation=0)
plt.legend(loc='upper left', bbox_to_anchor=(1, 1))
plt.show()

#### Hasil dan Analisis
Grafik Performa

Confusion Matrix
Confusion matrix menampilkan distribusi prediksi benar dan salah dari model.

In [None]:
# Plotting Confusion Matrix
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues')
plt.title('Confusion Matrix')
plt.xlabel('Predicted')
plt.ylabel('Actual')
plt.show()

In [None]:
Performance Metrics
Grafik batang menunjukkan performa metrik dari model Decision Tree.

In [None]:
# Extracting Precision, Recall, F1-Score from classification report
precision = float(class_report.split()[11])
recall = float(class_report.split()[13])
f1_score = float(class_report.split()[15])

# Plotting Performance Metrics
metrics = {
    'Accuracy': [accuracy],
    'Precision': [precision],
    'Recall': [recall],
    'F1-Score': [f1_score]
}

metrics_df = pd.DataFrame(metrics, index=['Decision Tree'])
metrics_df.plot(kind='bar', figsize=(10, 6), color=['skyblue', 'lightgreen', 'salmon', 'lightcoral'])
plt.title('Performance Metrics')
plt.xlabel('Metrics')
plt.ylabel('Score')
plt.ylim(0, 1)
plt.xticks(rotation=0)
plt.legend(loc='upper left', bbox_to_anchor=(1, 1))
plt.show()

#### Kesimpulan
Berdasarkan hasil percobaan, model Decision Tree mampu mengklasifikasikan posisi atau aktivitas lansia dengan akurasi sebesar 85%. Metode ini terbukti efektif untuk dataset ini, meskipun ada beberapa kesalahan prediksi yang dapat ditingkatkan dengan tuning parameter lebih lanjut atau menggunakan metode machine learning lain. Percobaan tambahan dengan metode lain seperti KNN atau Naïve Bayes mungkin memberikan perbandingan yang berguna untuk menentukan metode terbaik dalam kasus ini.