# TIỀN XỬ LÍ DỮ LIỆU

In [32]:
import pandas as pd
import numpy as np

In [33]:
df = pd.read_csv("./historical_air_quality_2021_en.csv")
df.head()

Unnamed: 0,Station ID,AQI index,Location,Station name,Url,Dominent pollutant,CO,Dew,Humidity,NO2,...,Pressure,PM10,PM2.5,SO2,Temperature,Wind,Data Time S,Data Time Tz,Status,Alert level
0,8767.0,102.0,"10.782978,106.700711","Ho Chi Minh City US Consulate, Vietnam (Lãnh s...",https://aqicn.org/city/vietnam/ho-chi-minh-cit...,pm25,-,,83.0,-,...,1009.0,,102.00,-,27.0,3.6,2021-01-21 19:00:00,+07:00,#NAME?,#NAME?
1,8688.0,221.0,"21.0811211,105.8180306","United Nations International School of Hanoi, ...",https://aqicn.org/city/vietnam/hanoi/unis,aqi,-,,77.0,-,...,1015.0,,-,-,18.0,1.5,2021-01-21 20:00:00,+07:00,#NAME?,#NAME?
2,8641.0,281.0,"21.0215063,105.8188748","Hanoi US Embassy, Vietnam (Đại sứ quán Mỹ, Hà ...",https://aqicn.org/city/vietnam/hanoi/us-embassy,pm25,0.30,,77.0,8.70,...,1015.0,,281.00,2.10,18.0,1.5,2021-01-21 20:00:00,+07:00,#NAME?,#NAME?
3,13012.0,36.0,"13.998599,107.996482","Gia Lai/phường Thống Nhất - Pleiku, Vietnam",https://aqicn.org/city/vietnam/gia-lai/phuong-...,pm25,3.00,,60.2,6.00,...,923.7,29.0,36.00,1.00,24.3,1.0,2021-01-21 20:00:00,+07:00,#NAME?,#NAME?
4,12488.0,68.0,"16.46226,107.596351","Thừa Thiên Huế/83 Hùng Vương, Vietnam",https://aqicn.org/city/vietnam/thua-thien-hue/...,pm25,2.00,,88.0,-,...,1015.0,52.0,68.00,-,21.0,1.0,2021-01-21 19:00:00,+07:00,#NAME?,#NAME?


## Dữ liệu có bao nhiêu dòng, bao nhiêu cột?

In [34]:
num_rows, num_cols = df.shape
num_rows, num_cols

(3415, 21)

## Mỗi dòng có ý nghĩa gì ?

Thể hiện tình trạng không khí tại từng thời điểm ở một vị trí xác định.

## Mỗi cột có ý nghĩa gì ?

Bao gồm 21 cột:
- Station ID: ID của trạm quan trắc không khí.
- AQI index: Chỉ số chất lượng không khí (Air Quality Index).
- Location: Vị trí địa lý của trạm quan trắc không khí.
- Station name: Tên trạm quan trắc không khí.
- Url: Đường dẫn đến trang web liên quan đến dữ liệu không khí của trạm.
- Dominent pollutant: Chất gây ô nhiễm nổi bật.
- CO: Nồng độ khí CO (carbon monoxide).
- Dew: Điểm sương.
- Humidity: Độ ẩm.
- NO2: Nồng độ khí NO2 (nitrogen dioxide).
- O3: Nồng độ khí O3 (ozone).
- Pressure: Áp suất khí quyển.
- PM10: Nồng độ bụi mịn PM10 (particulate matter 10 micrometers or less).
- PM2.5: Nồng độ bụi mịn PM2.5 (particulate matter 2.5 micrometers or less).
- SO2: Nồng độ khí SO2 (sulfur dioxide).
- Temperature: Nhiệt độ.
- Wind: Tốc độ gió.
- Data Time S: Thời gian dữ liệu được ghi lại (theo múi giờ cục bộ).
- Data Time Tz: Múi giờ của dữ liệu.
- Status: Trạng thái dữ liệu.
- Alert level: Cấp độ cảnh báo.


Loại bỏ những cột không cần thiết

In [35]:
to_be_droped = ['Station ID', 'Url','Status', 'Alert level', 'Data Time Tz']
df = df.drop(columns=to_be_droped)

## Mỗi cột hiện đang có kiểu dữ liệu gì? Có dữ liệu nào bị thiếu không?

In [36]:
df.dtypes

AQI index              object
Location               object
Station name           object
Dominent pollutant     object
CO                     object
Dew                   float64
Humidity              float64
NO2                    object
O3                     object
Pressure               object
PM10                   object
PM2.5                  object
SO2                    object
Temperature           float64
Wind                  float64
Data Time S            object
dtype: object

In [37]:
df = df.replace('-', np.nan)
df.isna().sum()

AQI index             1314
Location               793
Station name           793
Dominent pollutant    1301
CO                    1260
Dew                   1152
Humidity               807
NO2                   1423
O3                    2188
Pressure               807
PM10                  1527
PM2.5                 1231
SO2                   2154
Temperature            800
Wind                   800
Data Time S            793
dtype: int64

Quan sát thấy có số lượng lớn dữ liệu bị thiếu và có những cột phải xử lý kiểu dữ liệu do vậy ta phải tiền xử lý dữ liệu.

## Tiền xử lí dữ liệu

Xóa các dòng không có `AQI index`

In [38]:
df = df[~df['AQI index'].isna()]

Đưa các cột numerical về đúng kiểu dữ liệu

In [39]:
df['Pressure'] = df['Pressure'].str.replace(',', '')

numerical_labels = ['AQI index', 'CO', 'Dew', 
'Humidity', 'NO2', 'O3','Pressure', 
'PM10', 'PM2.5','SO2', 'Temperature', 'Wind']
df[numerical_labels] = df[numerical_labels].astype('float64')

Điền các cột dữ liệu còn thiếu bằng trung vị

In [40]:
df[numerical_labels[1:]] = df[numerical_labels[1:]].apply(lambda x: x.fillna(x.median()), axis=0)

Xóa những dòng trùng lặp / thiếu dữ liệu

In [41]:
df = df.dropna()
df = df.drop_duplicates()

Xây dựng lại cột `Status` theo tiêu chuẩn của Cục Bảo vệ Môi trường Hoa Kỳ (US-EPA)

|AQI|Status|
|--|:------:|
|0-50|Good|
|51-100|Moderate|
|101-150|Unhealthy for sensitive groups|
|151-200|Unhealthy|
|201-300|Very unhealthy|
|301+|Hazardous|

In [42]:
def status(x):
    if 0 <= x <= 50:
        return 'Good'
    if 51 <= x <= 100:
        return 'Moderate'
    if 101 <= x <= 150:
        return 'Unhealthy for sensitive groups'
    if 151 <= x <= 200:
        return 'Unhealthy'
    if 201 <= x <= 300:
        return 'Very unhealthy'
    if 301 <= x:
        return 'Hazardous'
df['Status'] = df['AQI index'].apply(status)

Gom nhóm các tỉnh thành

In [43]:
def classify_region(station_name):
    state_labels = ["Hà Nội", "Bắc Ninh","Quảng Ninh", "Cao Bằng", "Gia Lai", "Lào Cai","Nha Trang","Hồ Chí Minh","Đà Nẵng","Thừa Thiên Huế", "Hạ Long"]
    for state in state_labels:
        if state in station_name:   return state
    print(station_name)

df['Station name'] = df['Station name'].apply(classify_region)

Tách `Location` thành `Latitude` và `Longitude`

In [44]:
location = df['Location'].str.split(',')
df['Latitude'] = location.apply(lambda x: x[0]).astype(float)
df['Longitude'] = location.apply(lambda x: x[1]).astype(float)
df = df.drop(columns='Location')

#### Lưu dataset đã xử lí

In [45]:
df.to_csv("./processed.csv")