# Proyek Analisis Data: Air Quality Dataset
- **Nama:** Aldin Nasrun Minalloh
- **Email:** m268d4ky3374@bangkit.academy
- **ID Dicoding:** aldinnasrunm

## Menentukan Pertanyaan Bisnis
- Apakah ada tren yang terjadi pada setiap kolom?
- Apakah ada bulan-bulan tertentu yang memiliki tren peningkatan atau penurunan?
- Sebutkan korelasi antar kolom yang terkuat dan terlemah?
- Bagaimana distribusi setiap kolom apakah normal atau tidak?

## Data Dictionary
- No : row number
- year : year of data in this row
- month : month of data in this row
- day : day of data in this row
- hour : hour of data in this row
- PM2.5 : PM2.5 concentration (ug/m^3)
- PM10 : PM10 concentration (ug/m^3)
- SO2 : SO2 concentration (ug/m^3)
- NO2 : NO2 concentration (ug/m^3)
- CO : CO concentration (ug/m^3)
- O3 : Ozone concentration (ug/m^3)
- TEMP : temperature (degree Celsius)
- PRES : pressure (hPa)
- DEWP : dew point temperature (degree Celsius)
- RAIN : precipitation (mm)
- wd : wind direction
- WSPM : wind speed (m/s)
- station : name of the air-quality monitoring site

## Import Semua Packages/Library yang Digunakan

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

import warnings
warnings.filterwarnings('ignore')

## Data Wrangling

### Gathering Data

In [None]:
df_Aotizhongxin = pd.read_csv('data/PRSA_Data_Aotizhongxin_20130301-20170228.csv')
df_Changping = pd.read_csv('data/PRSA_Data_Changping_20130301-20170228.csv')
df_Dingling = pd.read_csv('data/PRSA_Data_Dingling_20130301-20170228.csv')
df_Dongsi = pd.read_csv('data/PRSA_Data_Dongsi_20130301-20170228.csv')
df_Guanyuan = pd.read_csv('data/PRSA_Data_Guanyuan_20130301-20170228.csv')
df_Gucheng = pd.read_csv('data/PRSA_Data_Gucheng_20130301-20170228.csv')
df_Huairou = pd.read_csv('data/PRSA_Data_Huairou_20130301-20170228.csv')
df_Nongzhanguan = pd.read_csv('data/PRSA_Data_Nongzhanguan_20130301-20170228.csv')
df_Shunyi = pd.read_csv('data/PRSA_Data_Shunyi_20130301-20170228.csv')
df_Tiantan = pd.read_csv('data/PRSA_Data_Tiantan_20130301-20170228.csv')
df_Wanliu = pd.read_csv('data/PRSA_Data_Wanliu_20130301-20170228.csv')
df_Wanshouxigong = pd.read_csv('data/PRSA_Data_Wanshouxigong_20130301-20170228.csv')

In [None]:
# concat dataframe

df_all = pd.concat([df_Aotizhongxin, df_Changping, df_Dingling, df_Dongsi, df_Guanyuan, df_Gucheng, df_Huairou, df_Nongzhanguan, df_Shunyi, df_Tiantan, df_Wanliu, df_Wanshouxigong])

### Assessing Data

In [None]:
df_all.head()

### Cleaning Data

In [None]:
df_all.isna().sum()

#### Drop Column No

karena kolom ini tidak digunakan

In [None]:
df_all = df_all.drop(columns=['No'])

#### Create Missing values imputation Function

Sebuah function yang berfungsi untuk menimpute misssing value beberapa column. Di mana nilai yang diinput di ambil dari nilai mean yang sudah di kelompokkan berdasarkan stasiun.

In [None]:
def missing_values_imputation(dataframe, column):
    df_groupby_column = dataframe.groupby(by='station')[column].mean().reset_index()
    
    Aotizhongxin =  df_groupby_column.iloc[0][column]
    Changping =  df_groupby_column.iloc[1][column]
    Dingling =  df_groupby_column.iloc[2][column]
    Dongsi =  df_groupby_column.iloc[3][column]
    Guanyuan =  df_groupby_column.iloc[4][column]
    Gucheng =  df_groupby_column.iloc[5][column]
    Huairou =  df_groupby_column.iloc[6][column]
    Nongzhanguan =  df_groupby_column.iloc[7][column]
    Shunyi =  df_groupby_column.iloc[8][column]
    Tiantan =  df_groupby_column.iloc[9][column]
    Wanliu =  df_groupby_column.iloc[10][column]
    Wanshouxigong =  df_groupby_column.iloc[11][column]
    
    df_null = dataframe[dataframe[column].isna()]
    df_not_null = dataframe[dataframe[column].notna()]

    data_impute = []

    for i in df_null['station']:
        if i == 'Aotizhongxin':
            data_impute.append(Aotizhongxin)
        elif i == 'Changping':
            data_impute.append(Changping)
        elif i == 'Dingling':
            data_impute.append(Dingling)
        elif i == 'Dongsi':
            data_impute.append(Dongsi)
        elif i == 'Guanyuan':
            data_impute.append(Guanyuan)
        elif i == 'Gucheng':
            data_impute.append(Gucheng)
        elif i == 'Huairou':
            data_impute.append(Huairou)
        elif i == 'Nongzhanguan':
            data_impute.append(Nongzhanguan)
        elif i == 'Shunyi':
            data_impute.append(Shunyi)
        elif i == 'Tiantan':
            data_impute.append(Tiantan)
        elif i == 'Wanliu':
            data_impute.append(Wanliu)
        elif i == 'Wanshouxigong':
            data_impute.append(Wanshouxigong)

    df_null[column] = data_impute

    dataframe = pd.concat([df_not_null, df_null]).reset_index(drop=True)

    return dataframe

#### Missing Values Imputation

In [None]:
df_all = missing_values_imputation(df_all, 'PM2.5')
df_all = missing_values_imputation(df_all, 'PM10')
df_all = missing_values_imputation(df_all, 'SO2')
df_all = missing_values_imputation(df_all, 'NO2')
df_all = missing_values_imputation(df_all, 'CO')
df_all = missing_values_imputation(df_all, 'O3')
df_all = missing_values_imputation(df_all, 'TEMP')
df_all = missing_values_imputation(df_all, 'PRES')
df_all = missing_values_imputation(df_all, 'DEWP')
df_all = missing_values_imputation(df_all, 'RAIN')
df_all = missing_values_imputation(df_all, 'WSPM')

#### Missing Values Imputation wd

karena data type kolumn wd merupakan object jadi saya menggunakan nilai modus yang di kelompokkan berdasarkan stasiun untuk mengisi nilai missing values dari kolom wd.

In [None]:
df_all.groupby(by='station')['wd'].agg(pd.Series.mode).reset_index()

In [None]:
df_null = df_all[df_all['wd'].isna()]
df_not_null = df_all[df_all['wd'].notna()]

In [None]:
data_impute = []

for i in df_null['station']:
    if i == 'Aotizhongxin':
        data_impute.append('NE')
    elif i == 'Changping':
        data_impute.append('NNW')
    elif i == 'Dingling':
        data_impute.append('NNW')
    elif i == 'Dongsi':
        data_impute.append('ENE')
    elif i == 'Guanyuan':
        data_impute.append('NE')
    elif i == 'Gucheng':
        data_impute.append('N')
    elif i == 'Huairou':
        data_impute.append('NW')
    elif i == 'Nongzhanguan':
        data_impute.append('ENE')
    elif i == 'Shunyi':
        data_impute.append('NNE')
    elif i == 'Tiantan':
        data_impute.append('ENE')
    elif i == 'Wanliu':
        data_impute.append('NE')
    elif i == 'Wanshouxigong':
        data_impute.append('NE')

df_null['wd'] = data_impute

In [None]:
df_all = pd.concat([df_not_null, df_null]).reset_index(drop=True)

#### Grouping Data Based On year, month, day and station

Data di kelompokkan berdasarkan year, month, day dan stasiun dan diambil nilai mean nya yang bertujuan untuk mendapatkan insight yang lebih jelas, karena kita hanya menggunakan padatan informasi untuk analisis.

In [None]:
df_grouping = df_all.groupby(by=['year', 'month','day','station'])[['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3', 'TEMP', 'PRES', 'DEWP', 'RAIN', 'WSPM']].mean().reset_index()

#### Make New Date Column

Untuk timiseries analysis

In [None]:
df_grouping['date'] =  pd.to_datetime(df_grouping[['year', 'month', 'day']])

#### Drop year, month, day, column

Karena sudah tidak dibutuhkan

In [None]:
df_grouping = df_grouping.drop(columns=['year', 'month','day'])

## Exploratory Data Analysis (EDA)

### Correlation Heat Map Plot

Untuk menampilkan korelasi antar kolum

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(df_grouping.drop(columns=['station', 'date']).corr(), cmap='coolwarm', annot=True) 
plt.show()

Berdasarkan plot diatas dapat diambil kesimpulan :
1. korelasi terkuat dimiliki oleh kolom PM2.5 dengan PM10 dengan korelasi 0.92.
2. Korelasi terlemah dimiliki oleh kolom CO dan RAIN sebesar -0.037.
3. Terdapat korelasi kuat antar kolum yang ditunjukkan oleh beberapa kolom seperti : PM2.5 dengan PM10, PM2.5 dengan CO PM2.5 dengan NO2, PM10 dengan CO, PM 10 dengan NO2, dan masih banyak lagi.

### Distrbution Plot 

Untuk menampilkan distribusi tiap-tiap kolom.

In [None]:
fig, axes = plt.subplots(3,4, figsize=(20,12))
row = 0
col = 0

for i in df_grouping.drop(columns=['date']):
    if col < 4:
        sns.histplot(data=df_grouping.drop(columns=['date']), x=i, kde=True, ax=axes[row][col])
        axes[row][col].set_title(f'Distribution of {i}')
        col+=1
    else:
        col = 0
        row+=1
        sns.histplot(data=df_grouping.drop(columns=['date']), x=i, kde=True, ax=axes[row][col])
        axes[row][col].set_title(f'Distribution of {i}')
        col+=1
plt.tight_layout()
plt.show()

Berdasarkan plot diatas diambil kesimpulan : 
1. Semua plot berdistribusi tidak normal.
2. Ada beberapa kolom yang memiliki distribusi mendekati normal seperti : TEMP, PRES dan DEWP

### Box Plot 

Untuk mengamati distribusi dan outlier dari setiap kolom.

In [None]:
fig, axes = plt.subplots(3,4, figsize=(20,12))
row = 0
col = 0

for i in df_grouping.drop(columns=['station', 'date']):
    if col < 4:
        sns.boxplot(data=df_grouping.drop(columns=['station', 'date']), y=i, ax=axes[row][col])
        axes[row][col].set_title(f'Distribution of {i}')
        col+=1
    else:
        col = 0
        row+=1
        sns.boxplot(data=df_grouping.drop(columns=['station', 'date']), y=i, ax=axes[row][col])
        axes[row][col].set_title(f'Distribution of {i}')
        col+=1
plt.tight_layout()
plt.show()

Berdasarkan plot diatas dapat diambil kesimpulan:
1. Kebanyakan kolum memiliki outlier (skewness) yang menyatakan bahwa distribusi nya juga tidak normal.
2. Beberapa kolom tidak memiliki outlier seperti TEMP, PRES dan DEWP.

### Desctitive Statistics

In [None]:
df_grouping.drop(columns=['station', 'date']).describe()

### Time Series Analysis

Melihat tren dari kolom terhadap waktu.

Data dikelompokkan berdasarkan 4 stasiun agar insight lebih jelas.

In [None]:
df_Aotizhongxin_Changping_Dingling_Dongsi = df_grouping[(df_grouping['station'] == 'Aotizhongxin') | (df_grouping['station'] == 'Changping') | (df_grouping['station'] == 'Dingling') | (df_grouping['station'] == 'Dongsi')]
df_Guanyuan_Gucheng_Huairou_Nongzhanguan = df_grouping[(df_grouping['station'] == 'Guanyuan') | (df_grouping['station'] == 'Gucheng') | (df_grouping['station'] == 'Huairou') | (df_grouping['station'] == 'Nongzhanguan')]
df_Shunyi_Tiantan_Wanliu_Wanshouxigong = df_grouping[(df_grouping['station'] == 'Shunyi') | (df_grouping['station'] == 'Tiantan') | (df_grouping['station'] == 'Wanliu') | (df_grouping['station'] == 'Wanshouxigong')]

In [None]:
df_merge = {
    "Aotizhongxin_Changping_Dingling_Dongsi" : df_Aotizhongxin_Changping_Dingling_Dongsi,
    "Guanyuan_Gucheng_Huairou_Nongzhanguan" : df_Guanyuan_Gucheng_Huairou_Nongzhanguan,
    "Shunyi_Tiantan_Wanliu_Wanshouxigong" : df_Shunyi_Tiantan_Wanliu_Wanshouxigong
}

Fungsi yang berfungsi menampilkan line plot

In [None]:
def create_line_plot(df, column, title):
    plt.figure(figsize=(25,4))
    sns.lineplot(data=df, x='date', y = column , hue='station')
    plt.title(title)
    plt.show()

#### PM2.5

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'PM2.5', f'PM2.5 in {key}')

Berdasarkan plot diatas tidak ada tren (semua nilai acak) yang di tunjunkkan oleh PM2.5 hal ini juga terjadi di semua station

#### PM10

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'PM10', f'PM10 in {key}')

Berdasarkan plot diatas tidak ada tren (semua nilai acak) yang di tunjunkkan oleh PM10 hal ini juga terjadi di semua station

#### SO2

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'SO2', f'SO2 in {key}')

Berdasarkan plot diatas pada SO2 terlihat tren naik ppada bulan 10 dan sampai puncaknya pada bulan 1. Lalu menurun pada bulan 2 sampai bulan 7.

#### NO2

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'NO2', f'NO2 in {key}')

Berdasarkan plot diatas pada NO2 terlihat tren naik ppada bulan 7 dan sampai puncaknya pada bulan 1. Lalu menurun pada bulan 2 sampai bulan 7.

#### CO

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'CO', f'CO in {key}')

Berdasarkan plot diatas pada CO terdapat tren kenaikkan pada bulan 1 dan menurun di bulan berikutnya.

#### O3

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'O3', f'O3 in {key}')

Berdasarkan plot diatas pada O3 terdapat tren kenaikan pada bulan 1 ke bulan 7 lalu terjadi penurunan dari bulan 7 ke bulan 1.

#### TEMP

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'TEMP', f'TEMP in {key}')

Berdasarkan plot diatas pada TEMP terjadi tren naik pada bulan 1 ke bulan 7 dan penurunan di bukan 7 ke bulan 1.

#### PRES

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'PRES', f'TEMP in {key}')

Berdasarkan plot diatas pada PRES terdapat tren naik pada bulan 7 ke bulan 1 dan terjadi tren penurunan pada bulan 1 ke bulan 7.

#### DEWP

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'DEWP', f'DEWP in {key}')

Berdasarkan plot diatas pada DEWP terdapat tren kenaikan pada bulan 1 ke bulan 7 dan terjadi tren penurunan di bulan 7 ke bulan 1.

#### RAIN

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'RAIN', f'RAIN in {key}')

#### WSPM

In [None]:
for key in df_merge:
    create_line_plot(df_merge[key], 'WSPM', f'WSPM in {key}')

Berdasarkan plot diatas tidak ada tren (semua nilai acak) yang di tunjunkkan oleh WSPM hal ini juga terjadi di semua station

## Visualization & Explanatory Analysis

### Pertanyaan 1:
Apakah ada tren yang terjadi pada setiap kolom?

<b>Jawaban : </b>

Kebanyakan kolom memiliki tren meningkat lalu menurun seperti seasonal hal ini ditunjukkan oleh kolom : SO2, NO2, CO, O3, TEMP, PRES, DEWP, RAIN dan WSPM.

Namun ada juga kolom yang tidak menunjukkan tren (semua nilai acak) seperti : PM2.5 dan PM10,

In [None]:
create_line_plot(df_Aotizhongxin_Changping_Dingling_Dongsi, 'DEWP', 'DEWP in Aotizhongxin_Changping_Dingling_Dongsi')
create_line_plot(df_Aotizhongxin_Changping_Dingling_Dongsi, 'PM2.5', 'PM2.5 in Aotizhongxin_Changping_Dingling_Dongsi')

### Pertanyaan 2:

Apakah ada bulan-bulan tertentu yang memiliki tren peningkatan atau penurunan?

<b>Jawaban : </b>

Kebanyakan tren terjadi dibulan 1 atau 7 baik peningkatan atau penurunan

In [None]:
create_line_plot(df_Aotizhongxin_Changping_Dingling_Dongsi, 'DEWP', 'DEWP in Aotizhongxin_Changping_Dingling_Dongsi')
create_line_plot(df_Aotizhongxin_Changping_Dingling_Dongsi, 'PRES', 'PRES in Aotizhongxin_Changping_Dingling_Dongsi')

### Pertanyaan 3:

Sebutkan korelasi antar kolom yang terkuat dan terlemah?

<b>Jawaban : </b>
- korelasi terkuat dimiliki oleh kolom PM2.5 dengan PM10 dengan korelasi 0.92.
- Korelasi terlemah dimiliki oleh kolom CO dan RAIN sebesar -0.037.

In [None]:
plt.figure(figsize=(10,10))
sns.heatmap(df_grouping.drop(columns=['station', 'date']).corr(), cmap='coolwarm', annot=True) 
plt.show()

### Pertanyaan 4:

Bagaimana distribusi setiap kolom apakah normal atau tidak?

<b>Jawaban : </b>

setiap kolom memiliki distrbusi tidak normal namun ada beberapa kolom yang tidak memiliki outlier seperti : TEMP, PRES dan DEWP.

In [None]:
fig, axes = plt.subplots(3,4, figsize=(20,12))
row = 0
col = 0

for i in df_grouping.drop(columns=['date']):
    if col < 4:
        sns.histplot(data=df_grouping.drop(columns=['date']), x=i, kde=True, ax=axes[row][col])
        axes[row][col].set_title(f'Distribution of {i}')
        col+=1
    else:
        col = 0
        row+=1
        sns.histplot(data=df_grouping.drop(columns=['date']), x=i, kde=True, ax=axes[row][col])
        axes[row][col].set_title(f'Distribution of {i}')
        col+=1
plt.tight_layout()
plt.show()

## Conclusion

- Conclution pertanyaan 1 : Kebanyakan kolom memiliki tren meningkat lalu menurun seperti seasonal hal ini ditunjukkan oleh kolom : SO2, NO2, CO, O3, TEMP, PRES, DEWP, RAIN dan WSPM. 
Namun ada juga kolom yang tidak menunjukkan tren (semua nilai acak) seperti : PM2.5 dan PM.0,
- Conclution pertanyaan : Kebanyakan tren terjadi dibulan 1 atau 7 baik peningkatan atau penurunan.
- Conclution pertanyaan 3 : korelasi terkuat dimiliki oleh kolom PM2.5 dengan PM10 dengan korelasi 0.92. 
Korelasi terlemah dimiliki oleh kolom CO dan RAIN sebesar -0.037.
- Conclution pertanyaan 4  setiap kolom memiliki distrbusi tidak normal namun ada beberapa kolom yang tidak memiliki outlier seperti : TEMP, PRES dan DEWP.: 2

## Clustering (K-Means)
Mengclustering feature PM2.5 dan feature PM10 untuk mengkelompokkan kualitas udara berdasarkan kolom-kolom tersebut.

In [None]:
from sklearn.cluster import KMeans

In [None]:
df_grouping.head()

In [None]:
# ubah menjadi bentuk array
X = np.asarray(df_grouping[["PM2.5", "PM10"]])

In [None]:
# range k dari Kmeans
k = range(1, 10)
inertia = [] 
for i in k:
    model = KMeans(n_clusters = i, max_iter = 1000, random_state=0) # jumlah cluster akan di loop sebanyak k range(9 times)
    model.fit(X)
    inertia.append(model.inertia_)


In [None]:
for i,j in enumerate(inertia):
    print(f'Iterasi {i} - inertia = {j}')

In [None]:
# plot elbow curve
plt.plot(k, inertia, "o-")
plt.xlabel('k value')
plt.ylabel('inertia sum squared error')
plt.show()

In [None]:
model_km = KMeans(n_clusters=4, max_iter= 1000, random_state=0)

In [None]:
model_km.fit(X)

In [None]:
df_grouping['cluster_km'] = model_km.predict(X)

In [None]:
df_grouping.head()

In [None]:
plt.figure(figsize=(10,6))
sns.scatterplot(data=df_grouping, x='PM2.5', y='PM10', hue='cluster_km', palette='bright')
sns.scatterplot(x=model_km.cluster_centers_[:, 0], y=model_km.cluster_centers_[:, 1], color='yellow', marker='X', s=300, label='Centroids')
plt.legend()
plt.show()

In [None]:
df_grouping.drop(columns=['cluster_km']).to_csv('dashboard/main_data.csv', index=False)