### Business Understanding (NO2 Medan)
#### Studi Kasus: Prediksi Kualitas Udara (NO₂) Kota Medan Menggunakan Data GeoJSON dan Model K-NN Regression  



### 1. Latar Belakang Masalah
Kota Medan merupakan salah satu kota besar di Indonesia dengan tingkat aktivitas transportasi dan industri yang tinggi. Aktivitas tersebut menghasilkan emisi gas Nitrogen Dioksida (NO₂), salah satu indikator utama kualitas udara. Kadar NO₂ yang tinggi berdampak negatif terhadap kesehatan masyarakat dan lingkungan.

Untuk mengantisipasi peningkatan polusi udara, diperlukan sistem prediksi yang mampu memperkirakan konsentrasi NO₂ pada hari berikutnya (H+1). Dengan adanya prediksi ini, pemerintah daerah dan masyarakat dapat melakukan tindakan pencegahan lebih dini seperti pembatasan kendaraan, peringatan kesehatan, dan pengendalian emisi industri.

### 2. Tujuan Bisnis
Proyek ini bertujuan untuk:
1. Mengambil data spasial wilayah Kota Medan (GeoJSON) sebagai batas area pengambilan data.  
2. Mengumpulkan data konsentrasi NO₂ harian dari citra satelit Sentinel-5P melalui Copernicus Data Space Ecosystem (CDSE).  
3. Melakukan pemrosesan dan analisis data untuk membangun model prediksi kualitas udara (NO₂) menggunakan **K-Nearest Neighbors Regression (K-NN)**.

Secara khusus, penelitian ini akan menghasilkan prediksi nilai konsentrasi NO₂ untuk hari berikutnya (H+1) berdasarkan data historis beberapa hari sebelumnya.



### 3. Permasalahan Bisnis
1. Bagaimana cara memanfaatkan data spasial (GeoJSON) dan data pengamatan satelit untuk membangun dataset NO₂ harian Kota Medan?  
2. Bagaimana cara menangani data yang memiliki nilai hilang (missing values) agar hasil prediksi lebih akurat?  
3. Berapa lag (jumlah hari sebelumnya) yang optimal untuk digunakan sebagai fitur dalam model K-NN Regression agar hasil prediksi paling akurat?  



### 4. Sasaran (Business Objective)
- Menghasilkan model K-NN Regression yang mampu memprediksi konsentrasi NO₂ di Kota Medan untuk hari berikutnya (H+1).  
- Menganalisis pengaruh jumlah lag (fitur historis) terhadap akurasi model.  
- Menyediakan data hasil prediksi dan evaluasi performa model menggunakan metrik seperti RMSE dan R².



### 5. Dampak Bisnis (Business Value)
- Pemerintah dapat menggunakan hasil prediksi untuk memberikan peringatan dini kualitas udara.  
- Masyarakat dapat merencanakan aktivitas harian berdasarkan kondisi udara yang diprediksi.  
- Data dan model dapat digunakan untuk penelitian lanjutan di bidang pemantauan lingkungan dan perencanaan kebijakan berbasis data.



### 6. Lingkup Studi (Scope)
- **Wilayah penelitian:** Kota Medan (berdasarkan file GeoJSON).  
- **Variabel utama:** Konsentrasi NO₂ (µmol/m² atau mol/m²).  
- **Sumber data:** Sentinel-5P (produk TROPOMI) diambil melalui OpenEO atau Copernicus Data Space Ecosystem.  
- **Periode data:** 1 bulan terakhir.  
- **Target prediksi:** Nilai NO₂ untuk hari berikutnya (H+1).  



### 7. Rencana Teknis Analisis
Langkah-langkah teknis yang dilakukan dalam penelitian ini adalah sebagai berikut:

1. **Mengumpulkan Data**
   - Mengambil data NO₂ dari area Kota Medan berdasarkan GeoJSON.  
   - Menyimpan hasil pengambilan data ke dalam format `.csv`.

2. **Memproses Data**
   - Melakukan pembersihan data dan penanganan *missing values* menggunakan metode **interpolasi** (misalnya linear interpolation).  
   - Memastikan tidak ada anomali atau nilai ekstrem yang dapat mengganggu model.

3. **Membentuk Data Supervised**
   - Mengonversi data deret waktu (time series) menjadi data supervised learning dengan membuat fitur lag (misalnya NO₂ pada hari sebelumnya: t-1, t-2, dst).  
   - Lag ini digunakan sebagai fitur untuk memprediksi nilai NO₂ hari berikutnya (t+1).

4. **Normalisasi Data**
   - Melakukan normalisasi data agar semua fitur berada pada skala yang sama.  
   - Menggunakan salah satu metode berikut:
     - **Min-Max Scaling**
     - **Z-Score Standardization (StandardScaler dari sklearn)**

5. **Membangun Model K-NN Regression**
   - Melatih model **K-Nearest Neighbors Regression** menggunakan data hasil preprocessing.  
   - Melakukan eksperimen dengan beberapa konfigurasi lag (misalnya lag = 1, 3, 5, dst).  
   - Mengevaluasi performa model menggunakan metrik:
     - Root Mean Square Error (RMSE)  
     - Coefficient of Determination (R²)


### 8. Indikator Keberhasilan (Success Criteria)
**Kuantitatif:**  
- Model memiliki nilai **RMSE sekecil mungkin** dan **R² mendekati 1**.  

**Kualitatif:**  
- Hasil prediksi NO₂ dapat divisualisasikan secara grafis (misalnya dengan matplotlib).  
- Distribusi prediksi menunjukkan tren yang sesuai dengan pola data historis.


### 9. Ringkasan
Penelitian ini berfokus pada prediksi kualitas udara di Kota Medan berdasarkan konsentrasi NO₂. Data diperoleh dari satelit Sentinel-5P dan diproses menjadi dataset siap pakai untuk model K-NN Regression. Dengan pendekatan ini, diharapkan dapat diperoleh model prediksi yang akurat dan dapat memberikan manfaat praktis dalam pengendalian kualitas udara di masa depan.
