# Prediksi Hujan di Denpasar

Praktikum ini menggunakan _dataset_ [Denpasar Weather Data](https://www.kaggle.com/datasets/cornflake15/denpasarbalihistoricalweatherdata?select=openweatherdata-denpasar-1990-2020v0.1.csv) dengan modifikasi. _Dataset_ digunakan untuk melakukan prediksi penarikan kesimpulan kebenaran kondisi hujan pada kondisi tertentu. Hal itu diperoleh dengan meninjau `raining` (diekstrak dari `weather_main`) sebagai target. Fitur yang digunakan adalah sebagai berikut:
- `hour` (diekstrak dari `dt_iso`)
- `temp`
- `temp_min`
- `temp_max`
- `pressure`
- `humidity`
- `wind_speed`
- `wind_deg`

Tujuan praktikum:
1.   Peserta memahami rangkaian proses analitik data menggunakan pendekatan pembelajaran mesin. 
2.   Peserta memahami bahwa proses pengembangan model pembelajaran mesin juga ditentukan dari kualitas data, penanganan data, dan penentuan algoritma serta hiperparameternya; tidak cukup hanya dengan memastikan implementasi algoritma berjalan tanpa kesalahan.
3.   Peserta mampu menginterpretasikan hasil dari evaluasi model dalam proses analitik menggunakan pendekatan pembelajaran mesin.

Praktikum dilaksanakan secara berkelompok. Setiap kelompok terdiri atas 2 mahasiswa. Perhatikan bahwa terdapat berkas yang harus dikumpulkan sebelum waktu praktikum selesai (17 April 2023, pukul 10.59 WIB) dan berkas yang dikumpulkan setelah waktu praktikum selesai (17 April 2023, pukul 23.59 WIB).

# Persiapan Data

In [3]:
import pandas as pd
import numpy as np
import seaborn as sb
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.preprocessing import RobustScaler
from sklearn.linear_model import LogisticRegression
from sklearn.feature_selection import SelectFromModel
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report, precision_score, recall_score, f1_score

In [4]:
data = pd.read_csv("../data/openweatherdata-denpasar-1990-2020v0.1-simplified.csv")
data.head()

Unnamed: 0,hour,temp,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,raining
0,0,25.82,25.82,25.82,1010.0,86,1.36,225,True
1,1,26.2,26.2,26.2,1011.0,84,2.09,247,True
2,2,26.45,26.45,26.45,1011.0,84,2.44,262,True
3,3,26.8,26.8,26.8,1011.0,82,2.29,271,True
4,4,27.04,27.04,27.04,1010.0,82,1.71,274,False


In [5]:
X = data.drop(columns="raining")
y = data["raining"].copy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=123)

df_train = pd.concat([X_train, y_train], axis=1)
df_val = pd.concat([X_val, y_val], axis=1)
df_test = pd.concat([X_test, y_test], axis=1)

# Soal

Disediakan data yang sudah dibagi menjadi data latih (`df_train`), data validasi (`df_val`), dan data uji (`df_test`).

**Bagian 1**: (batas waktu: 17 April 2023, 10.59 WIB)

1. Buatlah _baseline_ dengan menggunakan model _logistic regression_.
2. Lakukan analisis data terkait hal berikut:
    - _duplicate value_,
    - _missing value_,
    - _outlier_,
    - _balance of data_.
3. Jelaskan rencana penanganan yang ada pada poin 2.
4. Jelaskan teknik _encoding_ yang digunakan terhadap data yang disediakan, disertai dengan alasan.
5. Buatlah desain eksperimen dengan menentukan hal berikut:
    - tujuan eksperimen,
    - variabel dependen dan independen,
    - strategi eksperimen,
    - skema validasi.
    
**Bagian 2**: (batas waktu: 17 April 2023, 23.59 WIB)

6. Implementasikan strategi eksperimen dan skema validasi yang telah ditentukan pada poin 5.
7. Berdasarkan hasil prediksi yang dihasilkan, buatlah kesimpulan analisis karakteristik kondisi hujan.

---

Jika terdapat perubahan jawaban pada poin 1—5 (contoh: perbedaan penanganan _outlier_), jelaskan pada laporan mengenai jawaban sebelum, jawaban sesudah, dan alasan pengubahan jawaban.

| NIM          | Nama       | Bagian pengerjaan      |
| -------------- | -------------- | -------------- |
| 13520138 | Gerald Abraham Sianturi| Baseline, analisis duplicate value, analisis missing value, analisis outlier, penanganan duplicate value, penanganan missing value, penanganan outlier, variabel dependen dan independen, strategi eksperimen. Implementasi penanganan duplicate value, implementasi penanganan missing value, implementasi penanganan outlier, hyperparameter tuning, validasi. Laporan| 
| 13520162 | Daffa Romyz Aufa        | Analisis imbalance dataset, penanganan imbalance dataset, teknik encoding, tujuan eksperimen, skema validasi. Implementasi penanganan imbalance dataset. Laporan | 

# _Deliverable_

_Deliverable_ yang akan dihasilkan adalah sebagai berikut:
1. berkas _notebook_ dengan format nama `PraktikumIF3270_M1_NIM1_NIM2.ipynb` untuk Bagian 1;
2. berkas _notebook_ dengan format nama `PraktikumIF3270_M2_NIM1_NIM2.ipynb` untuk Bagian 1 + Bagian 2; serta
3. berkas laporan dengan format nama `PraktikumIF3270_NIM1_NIM2.pdf` yang mencakup hal berikut:
    - hasil analisis data,
    - penanganan dari hasil analisis data,
    - justifikasi teknik-teknik yang dipilih,
    - perubahan yang dilakukan pada jawaban poin 1—5 jika ada,
    - desain eksperimen,
    - hasil eksperimen.
    - analisis dari hasil eksperimen,
    - kesimpulan,
    - pembagian tugas/kerja per anggota kelompok

Batas waktu pengumpulan:
- _Deliverable_ poin 1: Senin, 17 April 2023, pukul 10.59 WIB
- _Deliverable_ poin 2: Senin, 17 April 2023, pukul 23.59 WIB
- _Deliverable_ poin 3: Senin, 17 April 2023, pukul 23.59 WIB

# Bagian 1

In [6]:
def updateDataWithNewChange(df):
  features = list(df.columns)
  features.remove('raining')
  
  numericFeaturesDf = df.select_dtypes(include=['float64', 'int64'])
  numericFeatures = list(numericFeaturesDf.columns)
  
  categoricalFeaturesDf = df.select_dtypes(include=['bool'])
  categoricalFeaturesDf = categoricalFeaturesDf.drop(columns=['raining'])
  categoricalFeatures = list(categoricalFeaturesDf.columns)
  
  return features, numericFeaturesDf, numericFeatures, categoricalFeaturesDf, categoricalFeatures

features, numericFeaturesDf, numericFeatures, categoricalFeaturesDf, categoricalFeatures = updateDataWithNewChange(data)

## 1.1 Buatlah _baseline_ dengan menggunakan model _logistic regression_.

In [7]:
logreg = LogisticRegression(solver='liblinear', random_state=0)
logreg.fit(X_train, y_train)
y_test_predict_log = logreg.predict(X_test)
y_train_predict_log = logreg.predict(X_train)

In [8]:
def displayEvaluationMetric(y_test, y_test_predict, name_of_set: str, 
name_of_model: str):
  accuracyTestSet = accuracy_score(y_test, y_test_predict)
  precisionTestSet = precision_score(y_test, y_test_predict)
  recallTestSet = recall_score(y_test, y_test_predict)
  f1TestSet = f1_score(y_test, y_test_predict)
  print(f"=== Evaluation metric pada {name_of_set} set dengan {name_of_model} ===")
  print(f"Skor akurasi pada test set: {round(accuracyTestSet, 4)}")
  print(f"Skor precision pada test set: {round(precisionTestSet, 4)}")
  print(f"Skor recall pada test set: {round(recallTestSet, 4)}")
  print(f"Skor f1 pada test set: {round(f1TestSet, 4)}\n")
  
displayEvaluationMetric(y_test, y_test_predict_log, "test", "logistic regression")

=== Evaluation metric pada test set dengan logistic regression ===
Skor akurasi pada test set: 0.8728
Skor precision pada test set: 0.5819
Skor recall pada test set: 0.128
Skor f1 pada test set: 0.2099



## 1.2 Lakukan analisis data terkait duplicate/missing value, outlier, dan balance data

In [9]:
# Duplicate value
countOfDuplicateValue = data.duplicated().value_counts()[1]
print(f"Banyak nilai duplikat: {countOfDuplicateValue}")

Banyak nilai duplikat: 7253


In [10]:
# Missing value
numOfRows = data.shape[0]

listOfCountMissingVal = data.isna().sum().values
for i, col in enumerate(data):
  numOfMissingValue = listOfCountMissingVal[i]
  proportionOfMissingValue = round(numOfMissingValue / numOfRows * 
100, 2)
  print(f"{col}: {numOfMissingValue} ({proportionOfMissingValue} %)")

hour: 0 (0.0 %)
temp: 0 (0.0 %)
temp_min: 0 (0.0 %)
temp_max: 0 (0.0 %)
pressure: 0 (0.0 %)
humidity: 0 (0.0 %)
wind_speed: 0 (0.0 %)
wind_deg: 0 (0.0 %)
raining: 0 (0.0 %)


In [11]:
# Outlier
numericFeatNoOutlier = []
for feature in numericFeatures:
  Q1 = X[feature].quantile(0.25)
  Q3 = X[feature].quantile(0.75)
  IQR = round(Q3 - Q1, 2)
  countOutlier = ((X[feature] < (Q1 - 1.5 * IQR)) | (X[feature] > (Q3 
+ 1.5 * IQR))).sum()
  proportionOutlier = round(countOutlier / numOfRows * 100, 2)
  print(f"{feature}: {countOutlier} ({proportionOutlier} %)")
  if(countOutlier == 0):
    numericFeatNoOutlier.append(feature)

numericFeatWithOutlier = list(set(numericFeatures) - set(numericFeatNoOutlier))

hour: 0 (0.0 %)
temp: 1458 (0.55 %)
temp_min: 1716 (0.65 %)
temp_max: 547 (0.21 %)
pressure: 1067 (0.4 %)
humidity: 231 (0.09 %)
wind_speed: 3439 (1.3 %)
wind_deg: 0 (0.0 %)


In [12]:
# Balance of data
df_true = data[data["raining"] == True]
df_false = data[data["raining"] == False]
print( "Class True = ", len(df_true), "; Class False =", len(df_false))

Class True =  34901 ; Class False = 230023


## 1.3 Rencana penanganan yang ada pada poin 2.

### Penanganan duplicate value
Duplicate value ditangani dengan menghapus row yang merupakan duplicate value. 

### Penangangan missing value
Tidak terdapat missing value sehingga penanganan tidak dilakukan

### Penangangan outlier
Tidak dilakukan penghapusan data yang mengandung nilai outlier karena pada kasus ini, jumlah outlier proporsinya kecil dan kami melihat bahwa outlier pada dataset yang ada dapat memberikan insight pada data dan menunjukkan pola tertentu.

### Penangangan imbalance dataset
Imbalance dataset ditangani dengan teknik oversampling. Terdapat dua kelas yaitu kelas True dan kelas False. Kelas True merupakan kelas minoritas yang akan diduplikasi sehingga memiliki jumlah yang mirip dengan kelas False. Pemilihan teknik oversampling dari pada undersampling adalah agar informasi pada kelas mayoritas tidak hilang. 

## 1.4 Teknik _encoding_ yang digunakan terhadap data yang disediakan, disertai dengan alasan

Encoding dilakukan pada kolom raining, yang merupakan target columns. Teknik encoding yang dilakukan adalah integer encoding, yakni dengan:

- Nilai False akan diencode menjadi nilai 0. 
- Nilai True aka diencode menjadi nilai 1. 

Hal ini mengikuti nilai boolean dimana False bernilai 0 dan True bernilai 1. 

## 1.5 Desain eksperimen

### Tujuan eksperimen

Eksperimen dilakukan untuk mengoptimalkan performa model dengan menggunakan data yang ada. Perfoma yang diinginkan dari eksperimen ini adalah seberapa benarnya prediksi model pada kelas True karena merupakan kelas minoritas dari imbalace dataset. Performa akan dicari adalah nilai f1 dan recall yang besar tanpa mengorbankan precision.

### Variabel dependen dan independen

Pada kasus ini, variabel independennya adalah fitur-fitur yang ada, yakni hour, temp, temp_min, temp_max, pressure, humidity, wind_speed, dan wind_deg. Sedangkan variabel dependennya adalah kolom target, yakni raining

### Strategi eksperimen

Eksperimen dilakukan _hyperparameter tuning_ pada parameter logistic regression.

### Skema validasi
Validasi dilakukan dengan menggunakan data validasi (df_val). Data validasi akan diprediksi kelasnya dengan model. Hasil prediksi tersebut akan dibandingkan dengan kelas aslinya. Metrik yang digunakan adalah accuracy, precision, recall, dan f1. Model yang dipilih adalah model yang memiliki nilai recall dan f1 yang baik tanpa mengorbankan precision.

# Bagian 2

## Data pre-processing

### Handle duplicate value

In [13]:
data_drop_duplicate = data.drop_duplicates()
X_drop_duplicate, y_drop_duplicate = data_drop_duplicate[features], data_drop_duplicate['raining']
data_drop_duplicate.head()

Unnamed: 0,hour,temp,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,raining
0,0,25.82,25.82,25.82,1010.0,86,1.36,225,True
1,1,26.2,26.2,26.2,1011.0,84,2.09,247,True
2,2,26.45,26.45,26.45,1011.0,84,2.44,262,True
3,3,26.8,26.8,26.8,1011.0,82,2.29,271,True
4,4,27.04,27.04,27.04,1010.0,82,1.71,274,False


### Handle variance of range in the columns

In [14]:
X_scaled_res = RobustScaler().fit_transform(X_drop_duplicate)

X_scaled = pd.DataFrame(X_scaled_res, columns = features)
y_drop_duplicate = pd.DataFrame(y_drop_duplicate)

df_scaled = pd.concat([X_scaled.reset_index(drop=True), y_drop_duplicate.reset_index(drop=True)], axis=1)
df_scaled.head()

Unnamed: 0,hour,temp,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,raining
0,-1.0,-0.455598,-0.491667,-0.393333,-0.057143,0.214286,-0.828996,0.729167,True
1,-0.916667,-0.30888,-0.333333,-0.266667,0.228571,0.071429,-0.557621,0.881944,True
2,-0.833333,-0.212355,-0.229167,-0.183333,0.228571,0.071429,-0.427509,0.986111,True
3,-0.75,-0.07722,-0.083333,-0.066667,0.228571,-0.071429,-0.483271,1.048611,True
4,-0.666667,0.015444,0.016667,0.013333,-0.057143,-0.071429,-0.698885,1.069444,False


### Binarisasi pada target column

In [15]:
df_scaled['raining'] = df_scaled['raining'].map({True: 1, False: 0})
final_df = df_scaled
final_df.head()

Unnamed: 0,hour,temp,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,raining
0,-1.0,-0.455598,-0.491667,-0.393333,-0.057143,0.214286,-0.828996,0.729167,1
1,-0.916667,-0.30888,-0.333333,-0.266667,0.228571,0.071429,-0.557621,0.881944,1
2,-0.833333,-0.212355,-0.229167,-0.183333,0.228571,0.071429,-0.427509,0.986111,1
3,-0.75,-0.07722,-0.083333,-0.066667,0.228571,-0.071429,-0.483271,1.048611,1
4,-0.666667,0.015444,0.016667,0.013333,-0.057143,-0.071429,-0.698885,1.069444,0


## Implementasi strategi eksperimen dan skema validasi yang telah ditentukan pada poin 5.

### Men-_generate_ data baru (hasil pre-processing)

In [16]:
X = final_df.drop(columns="raining")
y = final_df["raining"].copy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=123)

# Oversampling 
df_train = pd.concat([X_train, y_train], axis=1)
df_true = df_train[df_train["raining"] == True]
df_false = df_train[df_train["raining"] == False]
df_mayor = df_false
df_minor = df_true
n_mayor = len(df_false)
n_minor = len(df_true)
df_over = df_minor.sample(n_mayor, replace=True)
df_oversample = pd.concat([df_mayor, df_over])
X_OS_train = df_oversample.drop(columns=["raining"])
y_OS_train = df_oversample["raining"]

df_val = pd.concat([X_val, y_val], axis=1)
df_test = pd.concat([X_test, y_test], axis=1)

### Hyperparameter tuning dan mencari parameter terbaik

In [17]:
logreg_new = LogisticRegression(random_state=0)
logreg_new.fit(X_OS_train, y_OS_train)
listParam = {
    'C': [0.5, 1.0, 10.0],
    'penalty': ['l1', 'l2', 'elasticnet'],
    'solver': ['newton-cholesky', 'lbfgs']
}

logreg_variant = GridSearchCV(logreg_new, listParam, error_score=0.0)
logreg_variant.fit(X_OS_train, y_OS_train)

60 fits failed out of a total of 90.
The score on these train-test partitions for these parameters will be set to 0.0.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
15 fits failed with the following error:
Traceback (most recent call last):
  File "c:\Users\geral\anaconda3\lib\site-packages\sklearn\model_selection\_validation.py", line 686, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "c:\Users\geral\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 1162, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "c:\Users\geral\anaconda3\lib\site-packages\sklearn\linear_model\_logistic.py", line 54, in _check_solver
    raise ValueError(
ValueError: Solver newton-cholesky supports only 'l2' or 'none' penalties, got l1 penalty.

-------------------

In [18]:
print("=== Best Parameter ===")
best_param = logreg_variant.best_params_
print(best_param, "\n")

print("=== Metrik Evaluasi ===")
logreg_variant_val_predict = logreg_variant.predict(X_val)
print(classification_report(y_val, logreg_variant_val_predict))

=== Best Parameter ===
{'C': 0.5, 'penalty': 'l2', 'solver': 'lbfgs'} 

=== Metrik Evaluasi ===
              precision    recall  f1-score   support

           0       0.95      0.71      0.81     35695
           1       0.29      0.74      0.41      5533

    accuracy                           0.72     41228
   macro avg       0.62      0.73      0.61     41228
weighted avg       0.86      0.72      0.76     41228



In [19]:
logreg_tuning = LogisticRegression(C=best_param['C'], penalty=best_param['penalty'], solver=best_param['solver'], random_state=0)
logreg_tuning.fit(X_OS_train, y_OS_train)

y_test_predict_log_tuning = logreg_tuning.predict(X_test)
y_train_predict_log_tuning = logreg_tuning.predict(X_OS_train) # Untuk pengecekan underfitting atau overfitting

displayEvaluationMetric(y_test, y_test_predict_log_tuning, "test", "logistic regression tuning")
displayEvaluationMetric(y_OS_train, y_train_predict_log_tuning, "training", "logistic regression tuning")

=== Evaluation metric pada test set dengan logistic regression tuning ===
Skor akurasi pada test set: 0.7183
Skor precision pada test set: 0.2918
Skor recall pada test set: 0.7472
Skor f1 pada test set: 0.4197

=== Evaluation metric pada training set dengan logistic regression tuning ===
Skor akurasi pada test set: 0.728
Skor precision pada test set: 0.7206
Skor recall pada test set: 0.7447
Skor f1 pada test set: 0.7324



### Validasi dengan cross validation (k = 5)

In [20]:
scores = cross_val_score(logreg, X, y, cv=10).round(decimals=3)
print(scores)
print(f"Means: {round(scores.mean(), 3)}; standar deviasi: {round(scores.std(), 3)}")

[0.872 0.847 0.864 0.854 0.878 0.862 0.881 0.891 0.876 0.879]
Means: 0.87; standar deviasi: 0.013


In [21]:
scores_1 = cross_val_score(logreg_tuning, X, y, cv=10).round(decimals=3)
print(scores_1)
print(f"Means: {round(scores_1.mean(), 3)}; standar deviasi: {round(scores_1.std(), 3)}")

[0.872 0.847 0.864 0.854 0.878 0.862 0.881 0.891 0.876 0.879]
Means: 0.87; standar deviasi: 0.013


## Hasil Eksperimen

| Model          | Accuracy       | Precision      | Recall           | F1 score       |
| -------------- | -------------- | -------------- | -------------- | -------------- |
| Baseline | 0.8728         | 0.5819         | 0.128         | 0.2099            |
| Eksperimen | 0.7177         | 0.2912         | 0.7468         | 0.419            |

## Analisis hasil eksperimen

Model baseline memiliki akurasi yang tinggi, yakni 0.8728, yang berarti model dapat memprediksi 87% dari keseluruhan test set dengan benar. Namun, ketika memprediksi true positive (kasus raining = true atau raining terjadi), model memberikan banyak prediksi keliru. Nilai precision sebesar 0.5819 mengindikasikan bahwa dari seluruh hasil prediksi model yang memprediksi raining = true, hanya 58% yang benar. Nilai f1 cukup kecil yang menunjukkan ketidakseimbangan antara nilai precision dan recall.

Setelah dilakukan eksperimen, nilai akurasi cukup tinggi, yakni dapat memprediksi 71% test set dengan benar. Ketika memprediksi ketika memprediksi true positive (kasus raining = true atau raining benar terjadi), model memberikan prediksi yang jauh lebih baik dibandingkan sebelum dilakukan eksperimen. Namun, ketika model memprediksi raining = true, hanya 29% yang prediksinya tepat. Walaupun nilai f1 yang menunjukkan keseimbangan trade-off antara nilai precision dan recall lebih baik dibandingkan model baseline, skor ini tergolong kecil.

## Kesimpulan

Berdasarkan metrik evaluasi yang diperoleh, terdapat peningkatan pada metrik recall dan f1, dan sebaliknya terdapat pengurangan angka accuracy dan precision setelah dilakukan eksperimen. Dengan demikian, dengan memperhatikan trade-off antara metrik yang ada, model hasil eksperimen memberikan hasil yang lebih baik karena untuk kasus memprediksi apakah hujan benar terjadi atau tidak, kita lebih memperhatikan cost dari false negative (nilai recall), yakni rain sebenarnya bernilai true tetapi prediksinya false, seperti tidak membawa payung ketika sebenaranya hujan, akan jauh lebih diperhatikan.