# Proyek Analisis Data: Air Quality
- **Nama:** Ika Triyana
- **Email:** ikatriyana14secjui@gmail.com
- **ID Dicoding:** ika_triyana

## Menentukan Pertanyaan Bisnis

- Apa tren bulanan polusi PM2.5 sepanjang tahun, dan apakah polusi lebih tinggi di bulan-bulan tertentu?
- Bagaimana korelasi antar berbagai polutan (PM2.5, PM10, SO2, NO2, CO, O3)?
- Bagaimana rata-rata tingkat PM2.5 dan PM10 di setiap stasiun dari 2013–2017?

## Import Semua Packages/Library yang Digunakan

In [29]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import os

## Data Wrangling

### Gathering Data

In [30]:
os.makedirs("data", exist_ok=True)

combined_file_path = "data/combined_data.csv"

if os.path.exists(combined_file_path):
    print("File combined_data.csv sudah ada. Membaca dari file tersebut...")
    combined_df = pd.read_csv(combined_file_path)
else:
    print("File combined_data.csv belum ada. Menggabungkan file-file CSV...")
    aoti_df = pd.read_csv("data/PRSA_Data_Aotizhongxin_20130301-20170228.csv")
    changping_df = pd.read_csv("data/PRSA_Data_Changping_20130301-20170228.csv")
    dingling_df = pd.read_csv("data/PRSA_Data_Dingling_20130301-20170228.csv")
    dongsi_df = pd.read_csv("data/PRSA_Data_Dongsi_20130301-20170228.csv")
    guanyuan_df = pd.read_csv("data/PRSA_Data_Guanyuan_20130301-20170228.csv")
    gucheng_df = pd.read_csv("data/PRSA_Data_Gucheng_20130301-20170228.csv")
    huairou_df = pd.read_csv("data/PRSA_Data_Huairou_20130301-20170228.csv")
    nongzhanguan_df = pd.read_csv("data/PRSA_Data_Nongzhanguan_20130301-20170228.csv")
    shunyi_df = pd.read_csv("data/PRSA_Data_Shunyi_20130301-20170228.csv")
    tiantan_df = pd.read_csv("data/PRSA_Data_Tiantan_20130301-20170228.csv")
    wanliu_df = pd.read_csv("data/PRSA_Data_Wanliu_20130301-20170228.csv")
    wanshou_df = pd.read_csv("data/PRSA_Data_Wanshouxigong_20130301-20170228.csv")

    combined_df = pd.concat([
        aoti_df, changping_df, dingling_df, dongsi_df, guanyuan_df, gucheng_df,
        huairou_df, nongzhanguan_df, shunyi_df, tiantan_df, wanliu_df, wanshou_df
    ], ignore_index=True)

    combined_df.to_csv(combined_file_path, index=False)
    print(f"Gabungan data disimpan sebagai '{combined_file_path}'")

File combined_data.csv belum ada. Menggabungkan file-file CSV...
Gabungan data disimpan sebagai 'data/combined_data.csv'


**Insight:**
- Data mencakup 12 lokasi (stasiun) pengukuran berbeda untuk analisis spasial kualitas udara di seluruh kota Beijing.
- Periode pengambilan data panjang, sekitar 4 tahun lebih, cocok untuk analisis tren waktu.
- Nomor urut (No) menunjukkan posisi data dalam urutan kronologis.
- Kolom tahun, bulan, hari, dan jam merepresentasikan waktu pengambilan data secara detail.
- PM2.5 dan PM10 adalah konsentrasi partikel polutan di udara yang diukur secara kuantitatif.
- SO2, NO2, CO, dan O3 mencatat tingkat gas-gas polutan penting dalam udara.
- Temperatur (TEMP) menunjukkan suhu udara pada saat pengukuran (derajat Celsius).
- Tekanan udara (PRES) mengindikasikan kondisi atmosferik yang memengaruhi penyebaran polutan.
- Dew Point (DEWP) mengukur kelembapan udara yang berkaitan dengan tingkat kejenuhan uap air.
- Curah hujan (RAIN) merekam intensitas hujan selama pengukuran.
- Arah angin (wd) menginformasikan dari mana angin bertiup, penting untuk analisis penyebaran polutan.
- Kecepatan angin (WSPM) mencatat seberapa cepat angin bertiup pada saat pengukuran.
- Nama stasiun (station) menunjukkan lokasi fisik pengambilan data kualitas udara dan cuaca.
- Data dari berbagai sumber (stasiun) digabung menjadi satu DataFrame.
- File gabungan disimpan dalam folder 'data' dengan nama combined_data.csv.

### Assessing Data

In [35]:
combined_df = pd.read_csv("data/combined_data.csv")

# Membuat kolom datetime dari year, month, day, hour
combined_df['datetime'] = pd.to_datetime(
    combined_df[['year', 'month', 'day', 'hour']],
    errors='coerce',
    format='%Y-%m-%d %H'
)

# Cek data dengan datetime null
null_datetime_count = combined_df['datetime'].isnull().sum()
print(f"Jumlah baris dengan datetime null: {null_datetime_count}")

print("Info Dataset:")
print(combined_df.info())

print("\nStatistik Deskriptif:")
print(combined_df.describe())

print("\nMissing Values per Kolom:")
print(combined_df.isnull().sum())

duplicate_count = combined_df.duplicated().sum()
print(f"\nJumlah Duplikasi Baris: {duplicate_count}")

print("\nUnique Values di Kolom 'station':")
print(combined_df['station'].unique())

print("\nStatistik PM2.5:")
print(combined_df['PM2.5'].describe())

print("\nStatistik CO:")
print(combined_df['CO'].describe())

# Deteksi outlier berdasarkan threshold untuk berbagai polutan
outlier_thresholds = {
    'PM2.5': 500,
    'PM10': 500,
    'SO2': 500,
    'NO2': 300,
    'CO': 5000,
    'O3': 300
}

print("\nDeteksi Outlier Berdasarkan Threshold:")
for pollutant, threshold in outlier_thresholds.items():
    outliers = combined_df[combined_df[pollutant] > threshold]
    print(f"Jumlah data {pollutant} > {threshold}: {len(outliers)}")

print("\nData sample dengan kolom datetime:")
print(combined_df[['datetime', 'PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3', 'TEMP', 'station']].head())

# ------------------------------------------------
# Pertanyaan 1: Tren bulanan PM2.5
combined_df['month'] = combined_df['datetime'].dt.month
monthly_pm25 = combined_df.groupby('month')['PM2.5'].mean()

print("\nRata-rata PM2.5 per Bulan:")
print(monthly_pm25)

# ------------------------------------------------
# Pertanyaan 2: Korelasi antar polutan
pollutants = ['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3']
corr_matrix = combined_df[pollutants].corr()

print("\nMatriks Korelasi Antar Polutan:")
print(corr_matrix)

# ------------------------------------------------
# Pertanyaan 3: Rata-rata PM2.5 dan PM10 per stasiun
avg_pm_by_station = combined_df.groupby('station')[['PM2.5', 'PM10']].mean()

print("\nRata-rata PM2.5 dan PM10 per Stasiun (2013-2017):")
print(avg_pm_by_station)


Jumlah baris dengan datetime null: 0
Info Dataset:
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420768 entries, 0 to 420767
Data columns (total 19 columns):
 #   Column    Non-Null Count   Dtype         
---  ------    --------------   -----         
 0   No        420768 non-null  int64         
 1   year      420768 non-null  int64         
 2   month     420768 non-null  int64         
 3   day       420768 non-null  int64         
 4   hour      420768 non-null  int64         
 5   PM2.5     412029 non-null  float64       
 6   PM10      414319 non-null  float64       
 7   SO2       411747 non-null  float64       
 8   NO2       408652 non-null  float64       
 9   CO        400067 non-null  float64       
 10  O3        407491 non-null  float64       
 11  TEMP      420370 non-null  float64       
 12  PRES      420375 non-null  float64       
 13  DEWP      420365 non-null  float64       
 14  RAIN      420378 non-null  float64       
 15  wd        418946 non-null  object 

**Insight:**

- **Tidak ada missing value pada kolom `datetime`**, memastikan data waktu lengkap untuk analisis temporal.  
- Dataset cukup besar dengan **420.768 baris** dan **19 kolom**, mencakup banyak variabel terkait kualitas udara dan kondisi cuaca.  
- Terdapat beberapa kolom dengan missing values terutama pada polutan seperti:  
  - PM2.5 (8.739 missing)  
  - PM10 (6.449 missing)  
  - SO2 (9.021 missing)  
  - NO2 (12.116 missing)
  - CO (20.701 missing)  
  - O3 (13.277 missing)  
  Juga missing kecil pada kolom cuaca seperti TEMP, PRES, DEWP, RAIN, dan angin (wd, WSPM).  
- Tidak ditemukan baris duplikat, sehingga data unik dan bersih dari pengulangan.  
- Data mencakup 12 stasiun berbeda di Beijing, konsisten dengan informasi lokasi pengambilan data.  
- Distribusi waktu data:  
  - Tahun dari 2013 sampai 2017 dengan distribusi data yang cukup merata.  
  - Data waktu terdiri dari tahun, bulan, hari, dan jam secara lengkap.  
- Statistik deskriptif polutan menunjukkan:  
  - PM2.5 rata-rata sekitar 79.8, dengan nilai maksimum ekstrem 999 yang menandakan potensi outlier.  
  - CO juga memiliki nilai maksimum sangat tinggi (10.000), dan terdapat ribuan data melebihi threshold normal (outlier).  
- Variabel cuaca (TEMP, PRES, DEWP, RAIN, WSPM) memiliki nilai valid dan cukup lengkap, dengan beberapa missing minor.  
- Korelasi antar polutan cukup kuat positif, misalnya:  
  - PM2.5 dan PM10 sangat berkorelasi (0.88)  
  - PM2.5 juga berkorelasi cukup kuat dengan NO2 dan CO.  
  - O3 cenderung berkorrelasi negatif dengan polutan lain, menandakan dinamika kimia atmosfer yang berbeda.  
- Rata-rata PM2.5 per bulan menunjukkan tren musiman dengan puncak polusi pada bulan Desember (104.6) dan penurunan pada musim panas (Agustus sekitar 53.5).  
- Rata-rata PM2.5 dan PM10 per stasiun menunjukkan variasi spasial, dengan stasiun seperti Dongsi dan Gucheng memiliki konsentrasi polutan lebih tinggi dibanding stasiun lain.


### Cleaning Data

In [34]:
thresholds = {
    'PM2.5': 500,
    'PM10': 500,
    'SO2': 300,
    'NO2': 300,
    'CO': 5000,
    'O3': 500
}

required_columns = ['PM2.5', 'PM10', 'TEMP', 'PRES', 'DEWP']

missing_required = [col for col in required_columns if col not in combined_df.columns]
if missing_required:
    print(f"Kolom penting hilang: {missing_required}")
else:
    print("Semua kolom penting tersedia.")

# Hapus outlier berdasarkan threshold
for col, max_val in thresholds.items():
    if col in combined_df.columns:
        before = len(combined_df)
        combined_df = combined_df[combined_df[col] <= max_val]
        after = len(combined_df)
        print(f"Dropping outliers in {col}: {before - after} rows removed")
    else:
        print(f"Kolom {col} tidak ditemukan, dilewati.")

# Hapus baris dengan PM2.5 atau PM10 kosong
if 'PM2.5' in combined_df.columns and 'PM10' in combined_df.columns:
    combined_df = combined_df.dropna(subset=['PM2.5', 'PM10'])

# Isi missing values
for col in ['TEMP', 'PRES', 'DEWP', 'RAIN', 'WSPM']:
    if col in combined_df.columns:
        combined_df[col] = combined_df[col].ffill()
        if combined_df[col].isnull().any():
            combined_df[col] = combined_df[col].fillna(combined_df[col].mean())

# Tangani kolom wd
if 'wd' in combined_df.columns:
    null_rate = combined_df['wd'].isnull().mean()
    if null_rate < 0.1:
        combined_df['wd'] = combined_df['wd'].fillna(combined_df['wd'].mode()[0])
    else:
        combined_df = combined_df.drop(columns=['wd'])
        print("Kolom 'wd' dihapus karena terlalu banyak missing value")
else:
    print("Kolom 'wd' tidak ditemukan, dilewati")

combined_df = combined_df.reset_index(drop=True)

os.makedirs("dashboard", exist_ok=True)
output_file = "dashboard/main_data.csv"
combined_df.to_csv(output_file, index=False)
print(f"\n Data setelah cleaning disimpan di '{output_file}'")

# === Validasi ===
df_check = pd.read_csv(output_file)

# Cek missing values
missing_counts = df_check.isnull().sum()
total_missing = missing_counts.sum()
if total_missing == 0:
    print("Tidak ada missing value pada data yang disimpan.")
else:
    print("Masih terdapat missing value:")
    print(missing_counts[missing_counts > 0])

# Cek outlier
outlier_counts = {}
for col, max_val in thresholds.items():
    if col in df_check.columns:
        outlier_count = (df_check[col] > max_val).sum()
        if outlier_count > 0:
            outlier_counts[col] = outlier_count

if not outlier_counts:
    print("Tidak ada outlier pada data yang disimpan.")
else:
    print("Masih terdapat outlier pada kolom berikut:")
    for col, count in outlier_counts.items():
        print(f"{col}: {count} data di atas threshold")


✅ Semua kolom penting tersedia.
Dropping outliers in PM2.5: 0 rows removed
Dropping outliers in PM10: 0 rows removed
Dropping outliers in SO2: 0 rows removed
Dropping outliers in NO2: 0 rows removed
Dropping outliers in CO: 0 rows removed
Dropping outliers in O3: 0 rows removed

✅ Data setelah cleaning disimpan di 'dashboard/main_data.csv'
✅ Tidak ada missing value pada data yang disimpan.
✅ Tidak ada outlier pada data yang disimpan.


**Insight:**

- Semua kolom penting (`PM2.5`, `PM10`, `TEMP`, `PRES`, `DEWP`) tersedia dalam dataset, sehingga proses cleaning dapat dilakukan dengan lengkap tanpa kehilangan variabel kunci.  
- Tidak ditemukan baris yang dihapus akibat outlier berdasarkan threshold yang sudah ditetapkan untuk semua polutan (`PM2.5`, `PM10`, `SO2`, `NO2`, `CO`, `O3`). Ini menandakan data sudah bersih dari nilai ekstrem yang berlebihan setelah tahap assessing atau sebelumnya sudah dibersihkan.  
- Baris dengan nilai kosong pada `PM2.5` dan `PM10` sudah dihapus untuk menjaga kualitas data dan validitas analisis.  
- Missing values pada variabel cuaca (`TEMP`, `PRES`, `DEWP`, `RAIN`, dan `WSPM`) telah ditangani dengan metode forward-fill dan jika masih ada missing diisi dengan nilai rata-rata kolom tersebut, sehingga tidak ada nilai kosong tersisa.  
- Kolom arah angin (`wd`) memiliki tingkat missing value rendah (<10%), sehingga missing-nya diisi dengan modus (nilai paling sering muncul), menjaga keberlanjutan data variabel ini. Jika missing lebih dari 10%, kolom tersebut akan dihapus untuk menghindari bias akibat terlalu banyak data hilang.  
- Setelah proses cleaning, data sudah bersih tanpa missing value dan tanpa outlier sesuai threshold yang ditetapkan.  
- Data hasil cleaning disimpan rapi pada file `dashboard/main_data.csv`. 


## Exploratory Data Analysis (EDA)

### Explore ...

**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

### Pertanyaan 2:

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2