In [None]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import RobustScaler
from statsmodels.tsa.statespace.sarimax import SARIMAX
from sklearn.ensemble import IsolationForest
from tensorflow import keras
from sklearn.metrics import silhouette_score
import matplotlib.pyplot as plt

# 1. Membaca Data
data = pd.read_csv('nama_file_anda.csv')

# 2. Preprocessing
# Mengisi Nilai Hilang dengan Interpolasi Kubik
data['pm25'] = data['pm25'].interpolate(method='cubic')

# Differencing
data['pm10_diff'] = data['pm10'].diff()
data.dropna(inplace=True)

# Standarisasi dengan RobustScaler
scaler = RobustScaler()
data[['pm10_scaled']] = scaler.fit_transform(data[['pm10_diff']])

# 3. Uji ADF
from statsmodels.tsa.stattools import adfuller
result = adfuller(data['pm10_diff'])
print('ADF Statistic: %f' % result[0])
print('p-value: %f' % result[1])

# 4. Metode Deteksi Anomali
# LSTM
# (Implementasi LSTM memerlukan konfigurasi model dan pelatihan yang lebih lanjut)

# Isolation Forest
model_isolation_forest = IsolationForest(contamination=0.05) # Sesuaikan kontaminasi
model_isolation_forest.fit(data[['pm10_scaled']])
data['anomaly_isolation_forest'] = model_isolation_forest.predict(data[['pm10_scaled']])

# Autoencoder
# (Implementasi Autoencoder memerlukan konfigurasi model dan pelatihan yang lebih lanjut)

# 5. Penentuan Jumlah Cluster yang Optimum
# (Jika diperlukan clustering)
# Contoh menggunakan KMeans dan Silhouette Score
from sklearn.cluster import KMeans
inertia = []
silhouette_scores = []
for n_clusters in range(2, 11): # Mencoba jumlah cluster dari 2 hingga 10
    kmeans = KMeans(n_clusters=n_clusters, random_state=42)
    kmeans.fit(data[['pm10_scaled']])
    inertia.append(kmeans.inertia_)
    silhouette_scores.append(silhouette_score(data[['pm10_scaled']], kmeans.labels_))

# Grafik Elbow Method
plt.plot(range(2, 11), inertia, marker='o')
plt.xlabel('Jumlah Cluster')
plt.ylabel('Inersia')
plt.title('Elbow Method untuk Menentukan Jumlah Cluster Optimal')
plt.show()

# Grafik Silhouette Score
plt.plot(range(2, 11), silhouette_scores, marker='o')
plt.xlabel('Jumlah Cluster')
plt.ylabel('Silhouette Score')
plt.title('Silhouette Score untuk Menentukan Jumlah Cluster Optimal')
plt.show()