### Import Library

In [None]:
# import library
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns


### Load Dataset

In [None]:
df = pd.read_csv("../dataset/dataset_laporan_iklim_harian.csv")
df.columns

### EDA Dasar

In [None]:
# cek jumlah data
df.shape

In [None]:
# Info umum dataset
print("\n== Info Dataset ==")
df.info()

# Menampilkan 10 baris pertama dataset
print("\n== 10 Baris Pertama Dataset ==")
df.head(20)

In [None]:
# Statistik deskriptif
print("\n== Statistik Deskriptif ==")
df.describe()

In [None]:
# Cek missing values
print("\n== Cek Missing Values ==")
df.isnull().sum()

In [None]:
# cek total data 0
print("\n== Cek Total Data Nol ==")
(df == 0).sum()

In [None]:
# cek duplikasi data
df.duplicated().sum()

### Parsing Tanggal & Time Series Index

In [None]:
# Convert tanggal ke format datetime dengan dayfirst=True
# Penjelasan: Data tanggal menggunakan format dd-mm-yyyy, sehingga perlu menambahkan dayfirst=True

df["TANGGAL"] = pd.to_datetime(df["TANGGAL"], dayfirst=True)

# Set sebagai index (best practice time-series)
df = df.set_index("TANGGAL")

### Normalisasi Nilai Tidak Valid BMKG (8888 & 9999)

In [None]:
# Daftar kolom numerik iklim
climate_cols = ["TN", "TX", "TAVG", "RH_AVG", "RR", "FF_X", "FF_AVG"]

# Replace nilai invalid BMKG
df[climate_cols] = df[climate_cols].replace([8888, 9999], np.nan)

### Penanganan Nilai 0 (BERBASIS DOMAIN)

In [None]:
# 0 dianggap error untuk fitur-fitur ini
zero_as_nan_cols = ["TN", "TX", "TAVG", "RH_AVG", "FF_X", "FF_AVG"]

for col in zero_as_nan_cols:
    df.loc[df[col] == 0, col] = np.nan

### Validasi Missing Value

In [None]:
# validasi missing values setelah cleaning
print("\n== Cek Missing Values Setelah Cleaning ==")
df.isnull().sum()

### Interpolasi Time Series

In [None]:
# interpolasi missing values dengan metode time
df_clean = df.interpolate(method="time")
df_clean.shape

### Penanganan Akhir Curah Hujan (RR)

In [None]:
# ubah nilai RR yang masih NaN menjadi 0
df_clean["RR"] = df_clean["RR"].fillna(0)

### Final Validation

In [None]:
# validasi missing values setelah cleaning
print("\n== Cek Missing Values Setelah Cleaning ==")
df_clean.isna().sum()

# display data setelah cleaning
df_clean.head(10)


== Cek Missing Values Setelah Cleaning ==


TN        0
TX        0
TAVG      0
RH_AVG    0
RR        0
FF_X      0
FF_AVG    0
dtype: int64