# Prediksi Hujan di Denpasar

Praktikum ini menggunakan _dataset_ [Denpasar Weather Data](https://www.kaggle.com/datasets/cornflake15/denpasarbalihistoricalweatherdata?select=openweatherdata-denpasar-1990-2020v0.1.csv) dengan modifikasi. _Dataset_ digunakan untuk melakukan prediksi penarikan kesimpulan kebenaran kondisi hujan pada kondisi tertentu. Hal itu diperoleh dengan meninjau `raining` (diekstrak dari `weather_main`) sebagai target. Fitur yang digunakan adalah sebagai berikut:
- `hour` (diekstrak dari `dt_iso`)
- `temp`
- `temp_min`
- `temp_max`
- `pressure`
- `humidity`
- `wind_speed`
- `wind_deg`

Tujuan praktikum:
1.   Peserta memahami rangkaian proses analitik data menggunakan pendekatan pembelajaran mesin. 
2.   Peserta memahami bahwa proses pengembangan model pembelajaran mesin juga ditentukan dari kualitas data, penanganan data, dan penentuan algoritma serta hiperparameternya; tidak cukup hanya dengan memastikan implementasi algoritma berjalan tanpa kesalahan.
3.   Peserta mampu menginterpretasikan hasil dari evaluasi model dalam proses analitik menggunakan pendekatan pembelajaran mesin.

Praktikum dilaksanakan secara berkelompok. Setiap kelompok terdiri atas 2 mahasiswa. Perhatikan bahwa terdapat berkas yang harus dikumpulkan sebelum waktu praktikum selesai (17 April 2023, pukul 10.59 WIB) dan berkas yang dikumpulkan setelah waktu praktikum selesai (17 April 2023, pukul 23.59 WIB).

# Persiapan Data

In [1]:
import pandas as pd
from sklearn.model_selection import train_test_split

In [2]:
data = pd.read_csv("openweatherdata-denpasar-1990-2020v0.1-simplified.csv")
data

Unnamed: 0,hour,temp,temp_min,temp_max,pressure,humidity,wind_speed,wind_deg,raining
0,0,25.82,25.82,25.82,1010.0,86,1.36,225,True
1,1,26.20,26.20,26.20,1011.0,84,2.09,247,True
2,2,26.45,26.45,26.45,1011.0,84,2.44,262,True
3,3,26.80,26.80,26.80,1011.0,82,2.29,271,True
4,4,27.04,27.04,27.04,1010.0,82,1.71,274,False
...,...,...,...,...,...,...,...,...,...
264919,19,27.00,27.00,27.00,1007.0,94,4.10,300,False
264920,20,27.00,27.00,27.00,1007.0,94,5.70,300,False
264921,21,28.00,28.00,28.00,1007.0,83,6.70,290,False
264922,22,28.00,28.00,28.00,1007.0,83,6.20,290,False


In [3]:
X = data.drop(columns="raining")
y = data["raining"].copy()

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=123)
X_train, X_val, y_train, y_val = train_test_split(X_train, y_train, test_size=0.2, random_state=123)

df_train = pd.concat([X_train, y_train], axis=1)
df_val = pd.concat([X_val, y_val], axis=1)
df_test = pd.concat([X_test, y_test], axis=1)

# Soal

Disediakan data yang sudah dibagi menjadi data latih (`df_train`), data validasi (`df_val`), dan data uji (`df_test`).

**Bagian 1**: (batas waktu: 17 April 2023, 10.59 WIB)

1. Buatlah _baseline_ dengan menggunakan model _logistic regression_.
2. Lakukan analisis data terkait hal berikut:
    - _duplicate value_,
    - _missing value_,
    - _outlier_,
    - _balance of data_.
3. Jelaskan rencana penanganan yang ada pada poin 2.
4. Jelaskan teknik _encoding_ yang digunakan terhadap data yang disediakan, disertai dengan alasan.
5. Buatlah desain eksperimen dengan menentukan hal berikut:
    - tujuan eksperimen,
    - variabel dependen dan independen,
    - strategi eksperimen,
    - skema validasi.
    
**Bagian 2**: (batas waktu: 17 April 2023, 23.59 WIB)

6. Implementasikan strategi eksperimen dan skema validasi yang telah ditentukan pada poin 5.
7. Berdasarkan hasil prediksi yang dihasilkan, buatlah kesimpulan analisis karakteristik kondisi hujan.

---

Jika terdapat perubahan jawaban pada poin 1—5 (contoh: perbedaan penanganan _outlier_), jelaskan pada laporan mengenai jawaban sebelum, jawaban sesudah, dan alasan pengubahan jawaban.

Pada sel ini, jelaskan pembagian tugas/kerja per anggota kelompok dalam eksperimen.

# _Deliverable_

_Deliverable_ yang akan dihasilkan adalah sebagai berikut:
1. berkas _notebook_ dengan format nama `PraktikumIF3270_M1_NIM1_NIM2.ipynb` untuk Bagian 1;
2. berkas _notebook_ dengan format nama `PraktikumIF3270_M2_NIM1_NIM2.ipynb` untuk Bagian 1 + Bagian 2; serta
3. berkas laporan dengan format nama `PraktikumIF3270_NIM1_NIM2.pdf` yang mencakup hal berikut:
    - hasil analisis data,
    - penanganan dari hasil analisis data,
    - justifikasi teknik-teknik yang dipilih,
    - perubahan yang dilakukan pada jawaban poin 1—5 jika ada,
    - desain eksperimen,
    - hasil eksperimen.
    - analisis dari hasil eksperimen,
    - kesimpulan,
    - pembagian tugas/kerja per anggota kelompok

Batas waktu pengumpulan:
- _Deliverable_ poin 1: Senin, 17 April 2023, pukul 10.59 WIB
- _Deliverable_ poin 2: Senin, 17 April 2023, pukul 23.59 WIB
- _Deliverable_ poin 3: Senin, 17 April 2023, pukul 23.59 WIB

# Bagian 1

In [4]:
#1
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score, confusion_matrix

model = LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

accuracy = model.score(X_val, y_val)
print('Validation Accuracy:', accuracy)

y_pred = model.predict(X_test)

# Evaluate the model using accuracy score
test_accuracy = accuracy_score(y_test, y_pred)
print('Test Accuracy:', test_accuracy)

precision = precision_score(y_test, y_pred)
print('Precision:', precision)

recall = recall_score(y_test, y_pred)
print('Recall:', recall)

f1 = f1_score(y_test, y_pred)
print('F1:', f1)

# Print the confusion matrix
cm = confusion_matrix(y_test, y_pred)
cm

Validation Accuracy: 0.8736198924223837
Test Accuracy: 0.8728508068321224
Precision: 0.5824675324675325
Recall: 0.12830782434558718
F1: 0.21029187668503105


array([[45351,   643],
       [ 6094,   897]], dtype=int64)

In [5]:
#2. Lakukan analisis data terkait hal berikut
#duplicate value
print("banyak data duplicate: ", data.duplicated().sum())

#missing value
print("banyak data missing: \n",data.isnull().sum())

#outliers
y = data["raining"]
X = data.drop(columns="raining")
LowOutliner = 0
HighOutliner = 0

Q1 = X.quantile(0.25)
Q3 = X.quantile(0.75)
IQR = Q3 - Q1

outliers = (X< (Q1 - 1.5 * IQR)) | (X > (Q3 + 1.5 * IQR))
print("banyak outliers:")
print(outliers.sum())

#handle balance of data
print("banyak data raining: ", y.value_counts()[1])
print("banyak data not raining: ", y.value_counts()[0])

banyak data duplicate:  7253
banyak data missing: 
 hour          0
temp          0
temp_min      0
temp_max      0
pressure      0
humidity      0
wind_speed    0
wind_deg      0
raining       0
dtype: int64
banyak outliers:
hour             0
temp          1458
temp_min      1716
temp_max       547
pressure      1067
humidity       231
wind_speed    3439
wind_deg         0
dtype: int64
banyak data raining:  34901
banyak data not raining:  230023


3. Jelaskan rencana penanganan yang ada pada poin 2.
    - Data yang duplicate rencananya akan dihapuskan
    - Data yang missing rencananya akan digantikan dengan median
    - Data outliers akan digantikan dengan median
    - Akan dilakukan oversampling dan undersampling untuk menghandle balance of data

4. Jelaskan teknik encoding yang digunakan terhadap data yang disediakan, disertai dengan alasan.
    - Pada data Denpasar Weather Data, hanya terdapat satu kolom non numeric, yaitu kolom raining. Kolom raining nantinya akan di encoding dengan menggunakan label encoding. Teknik encoding ini dipilih karena raining merupakan kolom target, sehingga tidak perlu men-generate kolom baru (bila melakukan one hot encoding). Selain itu, label encoding cukup mudah dan cepat dilakukan, serta tidak membutuhkan banyak memori dan waktu komputasi.

5.1 Tujuan Eksperimen

Tujuan dari eksperimen ini adalah untuk mencoba melakukan improvement terhadap baseline model yang sudah dibuat agar dapat lebih robust dalam melakukan prediksi data tidak terlihat.

5.2 Variabel Dependen dan Independen

Variabel dependen adalah fitur/kolom yang ingin diprediksi. 
Variabel independen adalah fitur/kolom yang digunakan untuk melakukan prediksi variabel dependen.

Untuk dataset ini, Variabel dependen merupakan kolom **raining** dan Variable independen adalah kolom hour, temp, temp_min, temp_max, pressure, humidity, wind_speed, wind_deg.

5.3 Strategi Eksperimen

Data prepocessing: Melakukan cleaning dan modifikasi data seperti handling missing values, duplicate data, outliers, imbalanced data.

Feature selection: Tidak diperlukan karena semua data sudah cukup relevan.

Hyperparameter tuning: Melakukan tuning parameter dengan menggunakan teknik grid search

5.4 Skema Validasi

Validasi menggunakan k-fold *cross-validation* menggunakan data training yang sudah dipisah sebelumnya.

# Bagian 2

In [6]:
#6 Implementasi Strategi Eksperimen

# handle duplicate values
print("banyak data duplicate: ", df_train.duplicated().sum())
df_train = df_train.drop_duplicates(keep='first')
df_val = df_val.drop_duplicates(keep='first')
df_test = df_test.drop_duplicates(keep='first')

#     - _missing value_,
print("banyak data missing: \n",df_train.isnull().sum())
# tidak ada missing value
print()

#handle outliers
y_train = df_train["raining"]
X_train = df_train.drop(columns="raining")
y_val = df_val["raining"]
X_val = df_val.drop(columns="raining")
y_test = df_test["raining"]
X_test = df_test.drop(columns="raining")

LowOutliner = 0
HighOutliner = 0

for i in X_train.columns:
    Q1 = X[i].quantile(0.25)
    Q2 = X[i].quantile(0.5)
    Q3 = X[i].quantile(0.75)
    IQR = Q3 - Q1
    MIN = Q1 - 1.5 * IQR
    MAX = Q3 + 1.5 * IQR
    outliers = df_train[(X_train[i] < MIN) | (X_train[i] > MAX)]
    df_train.loc[outliers.index, i] = Q2

for i in X_val.columns:
    Q1 = X[i].quantile(0.25)
    Q2 = X[i].quantile(0.5)
    Q3 = X[i].quantile(0.75)
    IQR = Q3 - Q1
    MIN = Q1 - 1.5 * IQR
    MAX = Q3 + 1.5 * IQR
    outliers = df_val[(X_val[i] < MIN) | (X_val[i] > MAX)]
    df_val.loc[outliers.index, i] = Q2

for i in X_test.columns:
    Q1 = X[i].quantile(0.25)
    Q2 = X[i].quantile(0.5)
    Q3 = X[i].quantile(0.75)
    IQR = Q3 - Q1
    MIN = Q1 - 1.5 * IQR
    MAX = Q3 + 1.5 * IQR
    outliers = df_test[(X_test[i] < MIN) | (X_test[i] > MAX)]
    df_test.loc[outliers.index, i] = Q2

banyak data duplicate:  3309
banyak data missing: 
 hour          0
temp          0
temp_min      0
temp_max      0
pressure      0
humidity      0
wind_speed    0
wind_deg      0
raining       0
dtype: int64



Semua kolom fitur yang terdapat pada dataset Denpasar Feature Data diperlukan dan sudah cukup untuk memprediksi kolom target. Oleh karena itu, tidak ada kolom yang di drop dan ditambahkan.

In [20]:
#oversampling 
from imblearn.over_sampling import RandomOverSampler
from sklearn.metrics import accuracy_score, classification_report

oversample = RandomOverSampler(sampling_strategy="minority",random_state=0)

X_over, y_over = oversample.fit_resample(X_train, y_train)
model.fit(X_over, y_over)
y_pred = model.predict(X_test)

In [21]:
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

precision = precision_score(y_test, y_pred)
print('Precision:', precision)

recall = recall_score(y_test, y_pred)
print('Recall:', recall)

f1 = f1_score(y_test, y_pred)
print('F1:', f1)

cm = confusion_matrix(y_test, y_pred)
cm

Accuracy: 0.7151877068198242
Precision: 0.28456600312887737
Recall: 0.7547574760337673
F1: 0.413304082112356


array([[32331, 13262],
       [ 1714,  5275]], dtype=int64)

In [18]:
#undersampling
from imblearn.under_sampling import RandomUnderSampler
undersample = RandomUnderSampler(sampling_strategy="majority",random_state=0)

X_over, y_over = undersample.fit_resample(X_train, y_train)

model.fit(X_over, y_over)
y_pred = model.predict(X_test)

In [19]:
accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

precision = precision_score(y_test, y_pred)
print('Precision:', precision)

recall = recall_score(y_test, y_pred)
print('Recall:', recall)

f1 = f1_score(y_test, y_pred)
print('F1:', f1)

cm = confusion_matrix(y_test, y_pred)
cm

Accuracy: 0.7164809250313796
Precision: 0.28519503065154883
Recall: 0.752182000286164
F1: 0.4135787900243883


array([[32417, 13176],
       [ 1732,  5257]], dtype=int64)

In [38]:
#hyperparameter tuning and skema validasi
from sklearn.model_selection import GridSearchCV, cross_val_score
from sklearn.linear_model import LogisticRegression

model = LogisticRegression(max_iter=10000)
model.fit(X_over, y_over)

params = {'C': [0.001, 0.01, 0.1, 1, 10, 100, 1000], 'penalty': ['l1', 'l2']}

grid_search = GridSearchCV(model, param_grid=params, cv=5, n_jobs=-1, verbose=1)
grid_search.fit(X_over, y_over)
print("Best Hyperparameters:", grid_search.best_params_)


Fitting 5 folds for each of 14 candidates, totalling 70 fits


35 fits failed out of a total of 70.
The score on these train-test partitions for these parameters will be set to nan.
If these failures are not expected, you can try to debug them by setting error_score='raise'.

Below are more details about the failures:
--------------------------------------------------------------------------------
35 fits failed with the following error:
Traceback (most recent call last):
  File "C:\Users\Furniture\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\sklearn\model_selection\_validation.py", line 680, in _fit_and_score
    estimator.fit(X_train, y_train, **fit_params)
  File "C:\Users\Furniture\AppData\Local\Packages\PythonSoftwareFoundation.Python.3.9_qbz5n2kfra8p0\LocalCache\local-packages\Python39\site-packages\sklearn\linear_model\_logistic.py", line 1461, in fit
    solver = _check_solver(self.solver, self.penalty, self.dual)
  File "C:\Users\Furniture\AppData\Local\Packages\

Best Hyperparameters: {'C': 10, 'penalty': 'l2'}


In [37]:
y_pred = grid_search.predict(X_test)

accuracy = accuracy_score(y_test, y_pred)
print('Accuracy:', accuracy)

precision = precision_score(y_test, y_pred)
print('Precision:', precision)

recall = recall_score(y_test, y_pred)
print('Recall:', recall)

f1 = f1_score(y_test, y_pred)
print('F1:', f1)

cm = confusion_matrix(y_test, y_pred)
cm

Accuracy: 0.8718763074816477
Precision: 0.581924577373212
Recall: 0.128058377450279
F1: 0.20992142605840272


array([[44950,   643],
       [ 6094,   895]], dtype=int64)

In [None]:
#7 Analisis Hasil Eksperimen