# Proyek Analisis Data: Air Quality Dataset
- **Nama:** Alfiki Diastama Afan Firdaus
- **Email:** alfiki.diastama@gmail.com
- **ID Dicoding:** alfikiafan

## Menentukan Pertanyaan Bisnis

- Bagaimana tren konsentrasi polutan PM2.5 dan PM10 berubah dari waktu ke waktu di masing-masing stasiun?
- Apakah terdapat hubungan antara kondisi cuaca (seperti suhu, kelembaban, tekanan udara) dengan tingkat polusi udara (PM2.5 dan PM10) di berbagai stasiun?

## Import Semua Packages/Library yang Digunakan

In [None]:
%pip install -r requirements.txt

## Data Wrangling

### Gathering Data
Pada tahap ini, kita akan mengumpulkan data yang akan digunakan untuk analisis data. Data yang digunakan adalah data polusi udara di China. Data ini dapat diunduh dari [Google Drive](https://drive.usercontent.google.com/download?id=1RhU3gJlkteaAQfyn9XOVAz7a5o1-etgr).
Kode di bawah ini akan menggabungkan data dari beberapa file CSV yang telah diunduh menjadi satu DataFrame.

In [22]:
import pandas as pd
from pathlib import Path
from tqdm import tqdm

data_dir = Path('data/')

if not data_dir.exists():
    raise FileNotFoundError(f"Direktori {data_dir} tidak ditemukan. Pastikan path benar.")

csv_files = list(data_dir.glob('*.csv'))

if not csv_files:
    raise FileNotFoundError(f"Tidak ada file CSV ditemukan di direktori {data_dir}.")

print(f"Ditemukan {len(csv_files)} file CSV di direktori {data_dir}.")
df_list = []

for file in tqdm(csv_files, desc="Membaca file CSV"):
    try:
        df = pd.read_csv(file)
        df['DateTime'] = pd.to_datetime(df[['year', 'month', 'day', 'hour']])
        df_list.append(df)
        print(f"Berhasil membaca {file.name} dengan {df.shape[0]} baris.")
    except Exception as e:
        print(f"Gagal membaca {file.name}: {e}")

if df_list:
    combined_df = pd.concat(df_list, ignore_index=True)
    print(f"Data gabungan memiliki {combined_df.shape[0]} baris dan {combined_df.shape[1]} kolom.")
else:
    raise ValueError("Tidak ada data yang berhasil dibaca.")

combined_df.head()


Ditemukan 12 file CSV di direktori data.






Berhasil membaca PRSA_Data_Aotizhongxin_20130301-20170228.csv dengan 35064 baris.
Berhasil membaca PRSA_Data_Changping_20130301-20170228.csv dengan 35064 baris.




Berhasil membaca PRSA_Data_Dingling_20130301-20170228.csv dengan 35064 baris.




Berhasil membaca PRSA_Data_Dongsi_20130301-20170228.csv dengan 35064 baris.
Berhasil membaca PRSA_Data_Guanyuan_20130301-20170228.csv dengan 35064 baris.




Berhasil membaca PRSA_Data_Gucheng_20130301-20170228.csv dengan 35064 baris.
Berhasil membaca PRSA_Data_Huairou_20130301-20170228.csv dengan 35064 baris.





Berhasil membaca PRSA_Data_Nongzhanguan_20130301-20170228.csv dengan 35064 baris.
Berhasil membaca PRSA_Data_Shunyi_20130301-20170228.csv dengan 35064 baris.
Berhasil membaca PRSA_Data_Tiantan_20130301-20170228.csv dengan 35064 baris.


Membaca file CSV: 100%|██████████| 12/12 [00:01<00:00,  8.12it/s][A


Berhasil membaca PRSA_Data_Wanliu_20130301-20170228.csv dengan 35064 baris.
Berhasil membaca PRSA_Data_Wanshouxigong_20130301-20170228.csv dengan 35064 baris.
Data gabungan memiliki 420768 baris dan 19 kolom.


Unnamed: 0,No,year,month,day,hour,PM2.5,PM10,SO2,NO2,CO,O3,TEMP,PRES,DEWP,RAIN,wd,WSPM,station,DateTime
0,1,2013,3,1,0,4.0,4.0,4.0,7.0,300.0,77.0,-0.7,1023.0,-18.8,0.0,NNW,4.4,Aotizhongxin,2013-03-01 00:00:00
1,2,2013,3,1,1,8.0,8.0,4.0,7.0,300.0,77.0,-1.1,1023.2,-18.2,0.0,N,4.7,Aotizhongxin,2013-03-01 01:00:00
2,3,2013,3,1,2,7.0,7.0,5.0,10.0,300.0,73.0,-1.1,1023.5,-18.2,0.0,NNW,5.6,Aotizhongxin,2013-03-01 02:00:00
3,4,2013,3,1,3,6.0,6.0,11.0,11.0,300.0,72.0,-1.4,1024.5,-19.4,0.0,NW,3.1,Aotizhongxin,2013-03-01 03:00:00
4,5,2013,3,1,4,3.0,3.0,12.0,12.0,300.0,72.0,-2.0,1025.2,-19.5,0.0,N,2.0,Aotizhongxin,2013-03-01 04:00:00


**Insights:**
- Dataset memiliki total **420,768** baris dan **19** kolom.
- Tipe data bervariasi, dengan sebagian besar kolom numerik (`int64` dan `float64`) dan beberapa kolom kategorikal seperti `station` dan `wd` (arah angin).
- Dataset terdiri dari data kualitas udara dari banyak stasiun: Aotizhongxin, Changping, Dingling, Dongsi, Guanyuan, Gucheng, Huairou, Nongzhanguan, Shunyi, Tiantan, Wanliu, Wanshouxigong.
- Variabel polutan meliputi PM2.5, PM10, NO2, CO, O3, SO2.
- Data juga mencakup kondisi cuaca seperti suhu (TEMP), tekanan udara (PRES), kelembaban (DEWP), curah hujan (RAIN), arah angin (wd), dan kecepatan angin (WSPM).


### Assessing Data
Pada tahap ini, kita akan melihat struktur data, tipe data, dan statistik deskriptif dari dataset. Langkah-langkah yang akan dilakukan adalah:
- Melihat informasi dasar dataset.
- Melihat statistik deskriptif dari dataset.
- Melihat jumlah nilai yang hilang pada dataset.
- Melihat nilai unik dari setiap kolom kategorikal, seperti `station` dan `wd`.

In [23]:
# Melihat informasi dasar dataset
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 420768 entries, 0 to 420767
Data columns (total 19 columns):
 #   Column    Non-Null Count   Dtype         
---  ------    --------------   -----         
 0   No        420768 non-null  int64         
 1   year      420768 non-null  int64         
 2   month     420768 non-null  int64         
 3   day       420768 non-null  int64         
 4   hour      420768 non-null  int64         
 5   PM2.5     412029 non-null  float64       
 6   PM10      414319 non-null  float64       
 7   SO2       411747 non-null  float64       
 8   NO2       408652 non-null  float64       
 9   CO        400067 non-null  float64       
 10  O3        407491 non-null  float64       
 11  TEMP      420370 non-null  float64       
 12  PRES      420375 non-null  float64       
 13  DEWP      420365 non-null  float64       
 14  RAIN      420378 non-null  float64       
 15  wd        418946 non-null  object        
 16  WSPM      420450 non-null  float64    

In [24]:
# Menampilkan statistik deskriptif untuk kolom numerik
combined_df.describe()

Unnamed: 0,No,year,month,day,hour,PM2.5,PM10,SO2,NO2,CO,O3,TEMP,PRES,DEWP,RAIN,WSPM,DateTime
count,420768.0,420768.0,420768.0,420768.0,420768.0,412029.0,414319.0,411747.0,408652.0,400067.0,407491.0,420370.0,420375.0,420365.0,420378.0,420450.0,420768
mean,17532.5,2014.66256,6.52293,15.729637,11.5,79.793428,104.602618,15.830835,50.638586,1230.766454,57.372271,13.538976,1010.746982,2.490822,0.064476,1.729711,2015-03-01 11:30:00.000001024
min,1.0,2013.0,1.0,1.0,0.0,2.0,2.0,0.2856,1.0265,100.0,0.2142,-19.9,982.4,-43.4,0.0,0.0,2013-03-01 00:00:00
25%,8766.75,2014.0,4.0,8.0,5.75,20.0,36.0,3.0,23.0,500.0,11.0,3.1,1002.3,-8.9,0.0,0.9,2014-03-01 05:45:00
50%,17532.5,2015.0,7.0,16.0,11.5,55.0,82.0,7.0,43.0,900.0,45.0,14.5,1010.4,3.1,0.0,1.4,2015-03-01 11:30:00
75%,26298.25,2016.0,10.0,23.0,17.25,111.0,145.0,20.0,71.0,1500.0,82.0,23.3,1019.0,15.1,0.0,2.2,2016-02-29 17:15:00
max,35064.0,2017.0,12.0,31.0,23.0,999.0,999.0,500.0,290.0,10000.0,1071.0,41.6,1042.8,29.1,72.5,13.2,2017-02-28 23:00:00
std,10122.116943,1.177198,3.448707,8.800102,6.922195,80.822391,91.772426,21.650603,35.127912,1160.182716,56.661607,11.436139,10.474055,13.793847,0.821004,1.246386,


In [25]:
# Menampilkan jumlah nilai yang hilang per kolom
combined_df.isnull().sum()

No              0
year            0
month           0
day             0
hour            0
PM2.5        8739
PM10         6449
SO2          9021
NO2         12116
CO          20701
O3          13277
TEMP          398
PRES          393
DEWP          403
RAIN          390
wd           1822
WSPM          318
station         0
DateTime        0
dtype: int64

In [26]:
# Menampilkan jumlah nilai unik untuk kolom kategorikal (misalnya, 'station' dan 'wd')
print("Jumlah nilai unik per kolom:")
for column in combined_df.select_dtypes(include=['object']).columns:
    unique_values = combined_df[column].nunique()
    print(f"- {column}: {unique_values} nilai unik")

Jumlah nilai unik per kolom:
- wd: 16 nilai unik
- station: 12 nilai unik


**Insight:**

- **Statistik Deskriptif:**
  - **Polutan:**
    - **PM2.5** memiliki rata-rata **79.79 µg/m³**, dengan nilai minimum **2 µg/m³** dan maksimum **999 µg/m³**.
    - **PM10** memiliki rata-rata **104.60 µg/m³**, dengan nilai minimum **2 µg/m³** dan maksimum **999 µg/m³**.
    - **SO2** memiliki rata-rata **15.83 µg/m³**, dengan rentang **0.29 µg/m³** hingga **500 µg/m³**.
    - **NO2** memiliki rata-rata **50.64 µg/m³**, dengan rentang **1.03 µg/m³** hingga **290 µg/m³**.
    - **CO** memiliki rata-rata **1230.77 µg/m³**, dengan rentang **100.00 µg/m³** hingga **10,000 µg/m³**.
    - **O3** memiliki rata-rata **57.37 µg/m³**, dengan rentang **0.21 µg/m³** hingga **1,071 µg/m³**.
  - **Kondisi Cuaca:**
    - **TEMP** (suhu) memiliki rata-rata **13.54°C**, dengan rentang dari **-19.90°C** hingga **41.60°C**.
    - **PRES** (tekanan udara) rata-rata **1,010.75 hPa**, dengan rentang **982.40 hPa** hingga **1,042.80 hPa**.
    - **DEWP** (kelembaban) rata-rata **2.49°C**, dengan rentang **-43.40°C** hingga **29.10°C**.
    - **RAIN** (curah hujan) rata-rata **0.0645 mm**, menunjukkan sebagian besar waktu tidak terjadi hujan.
    - **WSPM** (kecepatan angin) rata-rata **1.73 m/s**.

- **Nilai yang Hilang:**
  - **Polutan:**
    - **PM2.5**: 8,739 nilai hilang
    - **PM10**: 6,449 nilai hilang
    - **SO2**: 9,021 nilai hilang
    - **NO2**: 12,116 nilai hilang
    - **CO**: 20,701 nilai hilang
    - **O3**: 13,277 nilai hilang
  - **Kondisi Cuaca:**
    - **TEMP**: 398 nilai hilang
    - **PRES**: 393 nilai hilang
    - **DEWP**: 403 nilai hilang
    - **RAIN**: 390 nilai hilang
    - **WSPM**: 318 nilai hilang
  - **Kategorikal:**
    - **wd**: 1,822 nilai hilang

- **Jumlah Nilai Unik:**
  - **station**: **12** stasiun berbeda, menunjukkan data berasal dari 12 lokasi pengukuran yang berbeda.
  - **wd** (arah angin): **16** arah angin berbeda, yang dapat relevan dalam analisis hubungan antara arah angin dan tingkat polusi.


### Cleaning Data
Pada tahap ini, kita akan melakukan pembersihan data untuk memastikan kualitas data sebelum melakukan analisis lebih lanjut. Langkah-langkah yang akan dilakukan meliputi:
 
1. **Menangani Nilai yang Hilang:**
   - Mengisi nilai yang hilang pada kolom numerik dengan median.
   - Mengisi nilai yang hilang pada kolom kategorikal dengan mode atau kategori khusus seperti `'Unknown'`.
 
2. **Menghapus Duplikasi:**
   - Memeriksa dan menghapus baris duplikat jika ada.

3. **Memastikan Konsistensi Data:**
   - Memeriksa konsistensi data dalam kolom kategorikal.

4. **Menghapus Kolom yang Tidak Diperlukan:**
   - Menghapus kolom yang tidak relevan untuk analisis.

**Menangani Nilai yang Hilang**  
Kita akan mengisi nilai yang hilang pada kolom numerik dengan median, dan pada kolom kategorikal dengan mode.

In [27]:
numerical_cols = combined_df.select_dtypes(include=['int64', 'float64']).columns.tolist()

combined_df[numerical_cols] = combined_df[numerical_cols].fillna(combined_df[numerical_cols].median())

categorical_cols = combined_df.select_dtypes(include=['object']).columns.tolist()

for column in categorical_cols:
    mode_value = combined_df[column].mode()[0]
    combined_df[column] = combined_df[column].fillna(mode_value)

print("\nJumlah nilai yang hilang setelah penanganan:")
print(combined_df.isnull().sum())


Jumlah nilai yang hilang setelah penanganan:
No          0
year        0
month       0
day         0
hour        0
PM2.5       0
PM10        0
SO2         0
NO2         0
CO          0
O3          0
TEMP        0
PRES        0
DEWP        0
RAIN        0
wd          0
WSPM        0
station     0
DateTime    0
dtype: int64


**Menghapus Duplikasi**  
Kita akan memeriksa dan menghapus baris duplikat jika ada. Setelah itu, kita akan memeriksa apakah duplikasi telah dihapus.

In [28]:
duplicate_count = combined_df.duplicated().sum()
print(f"\nJumlah duplikasi sebelum penghapusan: {duplicate_count}")

combined_df = combined_df.drop_duplicates()

duplicate_count_after = combined_df.duplicated().sum()
print(f"Jumlah duplikasi setelah penghapusan: {duplicate_count_after}")


Jumlah duplikasi sebelum penghapusan: 0
Jumlah duplikasi setelah penghapusan: 0


**Menghapus Outliers**  
Kita akan memeriksa adanya outliers pada kolom numerik seperti `PM2.5`, `PM10`, `SO2`, `NO2`, `CO`, `O3`, `TEMP`, `PRES`, `DEWP`, `RAIN`, dan `WSPM`. Kita akan menghapus outliers dengan menggunakan metode IQR (Interquartile Range).

In [29]:
def remove_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    # Mengembalikan DataFrame tanpa outlier
    return df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

cols_to_check = ['PM2.5', 'PM10', 'SO2', 'NO2', 'CO', 'O3', 'TEMP', 'PRES', 'DEWP', 'RAIN', 'WSPM']

for col in cols_to_check:
    initial_shape = combined_df.shape
    combined_df = remove_outliers(combined_df, col)
    final_shape = combined_df.shape
    print(f"Kolom {col}: Mengurangi dari {initial_shape[0]} menjadi {final_shape[0]} baris.")

Kolom PM2.5: Mengurangi dari 420768 menjadi 400012 baris.
Kolom PM10: Mengurangi dari 400012 menjadi 394591 baris.
Kolom SO2: Mengurangi dari 394591 menjadi 360030 baris.
Kolom NO2: Mengurangi dari 360030 menjadi 354728 baris.
Kolom CO: Mengurangi dari 354728 menjadi 336217 baris.
Kolom O3: Mengurangi dari 336217 menjadi 319492 baris.
Kolom TEMP: Mengurangi dari 319492 menjadi 319492 baris.
Kolom PRES: Mengurangi dari 319492 menjadi 319492 baris.
Kolom DEWP: Mengurangi dari 319492 menjadi 319492 baris.
Kolom RAIN: Mengurangi dari 319492 menjadi 304615 baris.
Kolom WSPM: Mengurangi dari 304615 menjadi 289703 baris.


**Memastikan Konsistensi Data**  
Untuk memastikan konsistensi data, kita akan melakukan dua hal:
- Memeriksa konsistensi data dalam kolom kategorikal seperti `station` dan `wd`. Kita akan memastikan bahwa data dalam kolom tersebut konsisten dan tidak ada kesalahan penulisan.
- Memastikan tidak ada nilai yang tidak konsisten atau salah eja pada kolom 'station'. Misalnya, jika ada spasi tambahan atau kapitalisasi yang tidak konsisten

In [30]:
print("\nDaftar stasiun yang tersedia:")
print(combined_df['station'].unique())

print("\nDaftar arah angin yang tersedia:")
print(combined_df['wd'].unique())


Daftar stasiun yang tersedia:
['Aotizhongxin' 'Changping' 'Dingling' 'Dongsi' 'Guanyuan' 'Gucheng'
 'Huairou' 'Nongzhanguan' 'Shunyi' 'Tiantan' 'Wanliu' 'Wanshouxigong']

Daftar arah angin yang tersedia:
['NNW' 'NW' 'N' 'NNE' 'ENE' 'E' 'NE' 'W' 'SSW' 'WSW' 'SE' 'WNW' 'SSE' 'S'
 'SW' 'ESE']


In [32]:
combined_df['station'] = combined_df['station'].str.strip().str.title()
combined_df['wd'] = combined_df['wd'].str.strip().str.upper()

print("\nDaftar stasiun setelah pembersihan:")
print(combined_df['station'].unique())
print("\nDaftar arah angin setelah pembersihan:")
print(combined_df['wd'].unique())


Daftar stasiun setelah pembersihan:
['Aotizhongxin' 'Changping' 'Dingling' 'Dongsi' 'Guanyuan' 'Gucheng'
 'Huairou' 'Nongzhanguan' 'Shunyi' 'Tiantan' 'Wanliu' 'Wanshouxigong']

Daftar arah angin setelah pembersihan:
['NNW' 'NW' 'N' 'NNE' 'ENE' 'E' 'NE' 'W' 'SSW' 'WSW' 'SE' 'WNW' 'SSE' 'S'
 'SW' 'ESE']


**Insight:**
- **Penanganan Nilai yang Hilang:**
  - Setelah proses pembersihan data, **semua kolom** dalam dataset **tidak lagi memiliki nilai yang hilang**. Analisis selanjutnya tidak akan terpengaruh oleh kekurangan data.
  - **Metode Penanganan:**
    - Semua nilai yang hilang pada kolom numerik (`PM2.5`, `PM10`, `SO2`, `NO2`, `CO`, `O3`, `TEMP`, `PRES`, `DEWP`, `RAIN`, `WSPM`) diisi dengan **median** masing-masing kolom. Penggunaan median efektif untuk mengurangi dampak outlier dan menjaga distribusi data tetap stabil.
    - Nilai yang hilang pada kolom `wd` diisi dengan **mode** (nilai yang paling sering muncul). Hal ini bertujuan memastikan konsistensi kategori yang digunakan dalam analisis selanjutnya.

- **Penghapusan Duplikasi Data:**
  - Dataset **tidak** memiliki duplikasi data baik sebelum maupun setelah proses penghapusan.

- **Penanganan Outlier:**
  - Proses penghapusan outlier telah mengurangi jumlah baris dalam dataset secara signifikan pada beberapa kolom polutan utama:
    - **PM2.5:** Berkurang dari **420,768** menjadi **400,012** baris.
    - **PM10:** Berkurang dari **400,012** menjadi **394,591** baris.
    - **SO2:** Berkurang dari **394,591** menjadi **360,030** baris.
    - **NO2:** Berkurang dari **360,030** menjadi **354,728** baris.
    - **CO:** Berkurang dari **354,728** menjadi **336,217** baris.
    - **O3:** Berkurang dari **336,217** menjadi **319,492** baris.
    - **RAIN:** Berkurang dari **319,492** menjadi **304,615** baris.
    - **WSPM:** Berkurang dari **304,615** menjadi **289,703** baris.
  - Kolom `TEMP`, `PRES`, dan `DEWP` tidak mengalami pengurangan jumlah baris
  - **Dampak Penghapusan Outlier:**
    - Dengan menghapus outlier, data yang tersisa lebih representatif dan bebas dari nilai ekstrem yang dapat mengganggu analisis statistik dan model prediktif.
    - Penghapusan nilai-nilai yang tidak wajar memungkinkan analisis yang lebih akurat mengenai tren dan hubungan antar variabel.

- **Konsistensi Data Kategorikal:**
  - Daftar stasiun tetap konsisten sebelum dan setelah pembersihan, dengan **12 stasiun** yang berbeda. Ini memastikan bahwa data berasal dari **12 lokasi pengukuran** yang berbeda tanpa adanya variasi penulisan atau ejaan yang tidak konsisten.
  - Daftar arah angin juga tetap konsisten dengan **16 arah angin** yang berbeda setelah pembersihan. Ini menjaga integritas data kategorikal tanpa perlu melakukan standarisasi tambahan.

## Exploratory Data Analysis (EDA)

### Explore ...

**Insight:**
- xxx
- xxx

## Visualization & Explanatory Analysis

### Pertanyaan 1:

### Pertanyaan 2:

**Insight:**
- xxx
- xxx

## Analisis Lanjutan (Opsional)

## Conclusion

- Conclution pertanyaan 1
- Conclution pertanyaan 2