# Proyek Analisis Data: Air Quality Dataset
- **Nama:** Satya Bintang E R
- **Email:** satyabintang10@gmail.com
- **ID Dicoding:** satchh

## Menentukan Pertanyaan Bisnis

- Bagaimana tren AQI Index ?
- Bagaimana statistik deskriptif komponen AQI Index ?
- Bagaimana perbandingan pollutan sebagai pembentuk AQI Index ?
- Berapa estimasi AQI Index yang dihasilkan oleh pollutan ?
- Bagaimana hubungan antara kecepatan angin dengan arah mata angin ?
- Bagaimana korelasi / hubungan ( heatmap ) antara pollutan ?

## Import Semua Packages/Library yang Digunakan

In [None]:
import streamlit as st
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.graph_objects as go
import numpy as np

## Data Wrangling

### Gathering Data

In [None]:
import glob

# Path ke subfolder
folder_path = "extracted_files/PRSA_Data_20130301-20170228"

# Mencari semua file CSV dalam subfolder
csv_files = glob.glob(os.path.join(folder_path, "*.csv"))

# Menampilkan daftar file CSV
print("Daftar file CSV dalam folder:")
for file in csv_files:
    print("-", os.path.basename(file))

try:
    df = pd.read_csv("C:/Users/resia/Downloads/airrdataa.csv", encoding="utf-8")
except Exception as e:
    st.error(f"Error reading CSV file: {e}")
    st.stop()

**Insight:**
- Mengekstrak zip yang berisi beberapa data file csv
- Mengimpor dan membaca beberapa file csv tersebut
- Menyatukan beberapa file csv tersebut menjadi satu file untuk memudahkan analisis

### Assessing Data

In [None]:
final_df.info()
final_df.isna().sum()

**Insight:**
- Melihat informasi awal dataset ( tipe data, jumlah data, banyaknya variabel )
- Mengetahui data yang memiliki jumlah berbeda

### Cleaning Data

In [None]:
# Menghapus spasi dari nama kolom (jika ada)
df.columns = df.columns.str.strip()
final_df.dropna(inplace=True)

**Insight:**
- Melakukan pengecekan data yang kosong
- Menghapus nilai yang kosong ( NaN ) untuk membuat data yang bersih

## Exploratory Data Analysis (EDA)

### Explore ...

In [None]:
# Menampilkan statistik dasar untuk data yang difilter
st.subheader('Basic Statistics of Selected Data')
st.write(filtered_df[['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3', 'TEMP', 'PRES', 'DEWP', 'RAIN']].describe())

**Insight:**
- Menampilkan statistik deskriptif untuk keseluruhan variabel
- Mengetahui persebaran keseluruhan variabel

## Visualization & Explanatory Analysis

### Pertanyaan 1:

In [None]:
st.subheader("AQI Trend per Month")
monthly_aqi = filtered_df.groupby('month')[['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3']].mean().max(axis=1)
fig, ax = plt.subplots()
ax.plot(monthly_aqi.index, monthly_aqi.values, marker='o', linestyle='-', color='purple', label='AQI')
ax.set_xlabel('Month')
ax.set_ylabel('AQI Level')
ax.set_title(f'AQI Trend for {selected_station} in {selected_year}')
ax.legend()
st.pyplot(fig)

### Pertanyaan 2:

In [None]:
# Perhitungan AQI sederhana
st.subheader("Air Quality Index (AQI)")
AQI = filtered_df[['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3']].mean().max()
st.metric(label="Estimated AQI Index", value=round(AQI, 2))

# Gauge Chart untuk AQI
st.subheader("Air Quality Gauge Indicator")
gauge = go.Figure(go.Indicator(
    mode="gauge+number",
    value=AQI,
    title={'text': "AQI Level"},
    gauge={'axis': {'range': [None, 500]}, 'bar': {'color': "purple"}}
))
st.plotly_chart(gauge)

**Insight:**
- Mengetahui pola tren AQI Index di suatu wilayah dan tahun tertentu ( dalam bulan )
- Mengestimasi AQI Index dari perhitungan variabel pollutan

## Analisis Lanjutan (Opsional)

In [None]:
# Wind Rose Chart
st.subheader("Wind Rose Chart")
wind_data = filtered_df.groupby('wd')['WSPM'].mean()
fig, ax = plt.subplots()
wind_data.plot(kind='bar', ax=ax, color='skyblue')
ax.set_ylabel('Average Wind Speed')
ax.set_title('Wind Speed Distribution by Wind Direction')
st.pyplot(fig)

# Heatmap Korelasi Polutan
st.subheader("Heatmap: Correlation Between Pollutants")
corr = filtered_df[['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3']].corr()
fig, ax = plt.subplots()
sns.heatmap(corr, annot=True, cmap='coolwarm', ax=ax)
st.pyplot(fig)

# Scatter Plot 2 Variabel (TEMP vs PM2.5)
st.subheader("Scatter Plot: Temperature vs PM2.5")
fig, ax = plt.subplots()
ax.scatter(filtered_df['TEMP'], filtered_df['PM2.5'], alpha=0.5, color='red')
ax.set_xlabel('Temperature (°C)')
ax.set_ylabel('PM2.5 Level')
ax.set_title('Temperature vs PM2.5')
st.pyplot(fig)

# Scatter Plot Hubungan Suhu, Tekanan, Kelembapan, dan Polusi
st.subheader("Scatter Plot: Temperature, Pressure, and PM2.5")
fig, ax = plt.subplots()
sc = ax.scatter(filtered_df['TEMP'], filtered_df['PRES'], c=filtered_df['PM2.5'], cmap='coolwarm', alpha=0.7)
plt.colorbar(sc, label='PM2.5 Level')
ax.set_xlabel('Temperature (°C)')
ax.set_ylabel('Pressure (hPa)')
ax.set_title('Relationship Between Temperature, Pressure, and PM2.5')
st.pyplot(fig)


## Conclusion

- Pola tren waktu ( dalam bulan ) cenderung fluktuatif menyesuaikan wilayah dan waktu
- Perhitungan AQI Index didasarkan pada perhitungan variabel pollutan yang menunjukkan kondisi udara di suatu wilayah