<a href="https://colab.research.google.com/github/Andicleomj/Machine-Learning/blob/main/Week2/Kaggle/CitarumWater.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
# Import libraries
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, confusion_matrix, roc_auc_score, roc_curve, accuracy_score, precision_score, recall_score, f1_score
import matplotlib.pyplot as plt

* Pada bagian pertama, kita mengimpor beberapa library yang diperlukan
untuk membaca data, melakukan preprocessing, membangun model, dan mengevaluasi kinerja model.

In [None]:
# Membaca dataset
df = pd.read_csv('/content/sample_data/CitarumWater.csv')

* Dataset CitarumWater.csv dibaca menggunakan pd.read_csv(). File tersebut harus berada pada path /content/sample_data/CitarumWater.csv.

In [None]:
df.head()

Unnamed: 0,pH,Temp,TSS,DO,BOD,COD,Nitrat,FecalColiform,Fosfat,IP,Class
0,7.57,25.55,11.0,6.11,3.3,6.1,1.08,17000.0,0.043,5.12,3
1,7.69,25.55,13.0,6.2,5.31,12.5,1.85,28000.0,0.011,5.91,3
2,7.39,25.55,15.0,3.61,7.4,23.5,1.25,90000.0,0.23,7.76,3
3,7.49,25.55,17.0,3.17,8.13,27.5,1.21,300000.0,0.057,9.61,3
4,7.17,25.55,6.0,6.82,2.89,5.44,1.04,3000.0,0.11,2.44,2


* Menampilkan 5 baris pertama dari DataFrame df.

In [None]:
# Hanya mengambil kolom yang diperlukan
df = df[['pH', 'Temp', 'TSS', 'DO', 'BOD', 'COD', 'Nitrat', 'FecalColiform', 'Fosfat', 'IP', 'Class']]

* Pada langkah ini, kita hanya mengambil kolom yang relevan untuk analisis: 'pH', 'Temp', 'TSS', 'DO', 'BOD', 'COD', 'Nitrat', 'FecalColiform', 'Fosfat', 'IP' sebagai fitur (X) dan kolom Class sebagai target (y).

In [None]:
# Cek missing values
print("\nMissing Values:\n", df.isnull().sum())


Missing Values:
 pH               0
Temp             0
TSS              0
DO               0
BOD              0
COD              0
Nitrat           0
FecalColiform    0
Fosfat           0
IP               0
Class            0
dtype: int64


* Mengecek apakah ada nilai yang hilang (missing values) dalam dataset. Jika ada, nilai yang hilang dapat mengganggu pelatihan model, sehingga perlu ditangani.

In [None]:
# Mengisi missing values jika ada (contoh: dengan mean, median, atau metode lainnya)
df.fillna(df.mean(), inplace=True)

* Mengisi missing values (jika ada) menggunakan nilai rata-rata (mean) dari setiap kolom. Ini adalah salah satu cara untuk mengatasi missing values, meskipun terdapat metode lain seperti menggunakan nilai median atau modus.

In [None]:
# Memisahkan fitur dan target
X = df.drop(['Class'], axis=1)  # Semua kolom kecuali 'Class' sebagai fitur
y = df['Class']                # Kolom 'Class' sebagai target

* X diambil dari semua kolom kecuali Class (yang menjadi target).
* y adalah kolom Class, yang merupakan variabel target.

In [None]:
# Membagi dataset menjadi train dan test set (rasio 70:30)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

* Dataset dibagi menjadi data latih (train set) dan data uji (test set) dengan rasio 70:30 menggunakan train_test_split. Parameter random_state=42 digunakan agar hasil pembagian selalu konsisten.

In [None]:
# Normalisasi fitur untuk skala yang sama
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

* Fitur dinormalisasi agar semua fitur memiliki skala yang sama. Ini penting dalam banyak algoritma machine learning, termasuk regresi logistik, untuk mempercepat konvergensi dan meningkatkan akurasi model.
* StandardScaler digunakan untuk mengubah nilai setiap fitur agar memiliki mean 0 dan standar deviasi 1.
* fit_transform digunakan pada X_train (menghitung rata-rata dan standar deviasi, kemudian mentransformasi data).
* transform diterapkan pada X_test menggunakan rata-rata dan standar deviasi dari X_train.

In [None]:
# Membangun model Logistic Regression
model = LogisticRegression()
model.fit(X_train, y_train)

* Model LogisticRegression digunakan karena ini adalah kasus klasifikasi, di mana kita ingin mengklasifikasikan kualitas air sungai.
* Model dilatih pada data latih (X_train dan y_train).

In [None]:
# Prediksi pada data uji
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

* model.predict(X_test) menghasilkan prediksi kelas (label) pada data uji (X_test).
* model.predict_proba(X_test)[:, 1] memberikan probabilitas prediksi untuk setiap sampel pada kelas 1 (positif).

In [None]:
# Evaluasi model
print("\nConfusion Matrix:\n", confusion_matrix(y_test, y_pred))
print("\nClassification Report:\n", classification_report(y_test, y_pred))
print("\nAccuracy Score:", accuracy_score(y_test, y_pred))
print("Precision Score:", precision_score(y_test, y_pred, average='weighted'))
print("Recall Score:", recall_score(y_test, y_pred, average='weighted'))
print("F1 Score:", f1_score(y_test, y_pred, average='weighted'))


Confusion Matrix:
 [[277  13   0   0]
 [ 12 435   0   0]
 [  0   1   7   0]
 [  0   0   2   3]]

Classification Report:
               precision    recall  f1-score   support

           1       0.96      0.96      0.96       290
           2       0.97      0.97      0.97       447
           3       0.78      0.88      0.82         8
           4       1.00      0.60      0.75         5

    accuracy                           0.96       750
   macro avg       0.93      0.85      0.88       750
weighted avg       0.96      0.96      0.96       750


Accuracy Score: 0.9626666666666667
Precision Score: 0.9629907473768726
Recall Score: 0.9626666666666667
F1 Score: 0.9624608856064016


* Confusion Matrix: Tabel yang menunjukkan jumlah prediksi yang benar dan salah untuk setiap kelas.
* Classification Report: Menyediakan nilai presisi, recall, F1-score, dan support untuk setiap kelas.
* Accuracy Score: Proporsi prediksi yang benar dari total sampel.
* Precision Score: Proporsi prediksi positif yang benar dari total prediksi positif.
* Recall Score: Proporsi prediksi positif yang benar dari total kasus positif aktual.
* F1 Score: Rata-rata harmonik dari presisi dan recall.