# AIR QUALITY AND HEALTH IMPACT

### Trong đồ án này, nhóm chúng em xin phép được trình bày một quy trình Khoa Học Dữ Liệu với dataset về ảnh hưởng của chất lượng không khí đối với sức khỏe.

### Các bước thực hiện:
* Tiền xử lý dữ liệu.
* Đưa ra các câu hỏi.
* Phân tích và đánh giá.

#### Lý do chọn bộ dữ liệu:
* Trong tình hình bối cảnh hiện nay, những tác động của ô nhiễm không khí đến sức khỏe trở nên rõ ràng hơn bao giờ hết. Do đó việc phân tích bộ dữ liệu này mang lại giá trị trong việc tăng nhận thức cộng đồng và hỗ trợ xây dựng các biện pháp cải thiện.
* Bộ dữ liệu này phong phú cho phép ta phân tích nhiều khía cạnh khác nhau, từ đo lường mức độ ô nhiễm đến dự đoán tác động sức khỏe.

#### Thông tin về bộ dữ liệu:
* Đường dẫn của bộ dữ liệu: [🌍 Air Quality and Health Impact Dataset🌍](https://www.kaggle.com/datasets/rabieelkharoua/air-quality-and-health-impact-dataset).
* Bộ dữ liệu được lấy từ [Kaggle](https://www.kaggle.com).
* Tập dữ liệu này được chia sẻ bởi **Rabie El Kharoua**. Nó được cung cấp theo giấy phép **CC BY 4.0**, cho phép mọi người sử dụng tập dữ liệu dưới mọi hình thức miễn là tác giả được trích dẫn thích hợp.

## Khai báo các thư viện cần thiết

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Khám phá dữ liệu
### Đọc dữ liệu từ file vào dataframe.

In [2]:
file_name = './data/air_quality_health_impact_data.csv'
raw_df = pd.read_csv(file_name)
raw_df.head()

Unnamed: 0,RecordID,AQI,PM10,PM2_5,NO2,SO2,O3,Temperature,Humidity,WindSpeed,RespiratoryCases,CardiovascularCases,HospitalAdmissions,HealthImpactScore,HealthImpactClass
0,1,187.270059,295.853039,13.03856,6.639263,66.16115,54.62428,5.150335,84.424344,6.137755,7,5,1,97.244041,0.0
1,2,475.357153,246.254703,9.984497,16.318326,90.499523,169.621728,1.543378,46.851415,4.521422,10,2,0,100.0,0.0
2,3,365.996971,84.443191,23.11134,96.317811,17.87585,9.006794,1.169483,17.806977,11.157384,13,3,0,100.0,0.0
3,4,299.329242,21.020609,14.273403,81.234403,48.323616,93.161033,21.925276,99.473373,15.3025,8,8,1,100.0,0.0
4,5,78.00932,16.987667,152.111623,121.235461,90.866167,241.795138,9.217517,24.906837,14.534733,9,0,1,95.182643,0.0


### Có bao nhiêu dòng và cột của bộ dữ liệu thô này?
Tiếp theo, ta sẽ tính số dòng và số cột của DataFrame 'raw_df' và lưu trữ nó vào biến 'shape' (tuple).

**Nếu dữ liệu có số dòng nhỏ hơn 1000, thì ta sẽ tìm bộ liệu khác cũng liên quan đến chủ đề này.**

In [3]:
shape = raw_df.shape

In [4]:
print(f"Current shape: {shape}")

if shape[0] > 1000:
    print(f"Our data good!.")
else:
    print(f"Our raw data absolutely small. Please choose a different dataset.!")

Current shape: (5811, 15)
Our data good!.


### Mỗi dòng có ý nghĩa gì?

* Mỗi dòng là một bản ghi lưu trữ thông tin về chỉ số chất lượng không khí (AQI), nồng độ các chất ô nhiễm khác nhau, điều kiện thời tiết và số liệu tác động đến sức khỏe của chúng đến con người tại một thời điểm trong một khu vực.
* Bộ dữ liệu không lưu trữ thông tin về thời gian và địa điểm vì nó không có ý nghĩa trong việc phân tích ảnh hưởng chất lượng không khí đến sức khỏe.

#### Dữ liệu thô có dòng nào bị trùng không?
Tiếp theo, chúng ta tính toán số dòng bị trùng và lưu trữ nó vào biến 'num_duplicated_rows'.

In [5]:
num_duplicated_rows = raw_df[raw_df.duplicated()].shape[0]

In [6]:
if num_duplicated_rows == 0:
    print(f"Our raw data have no duplicated line.!")
else:
    if num_duplicated_rows > 1:
        ext = "lines"
    else:
        ext = "line"
    print(f"Our raw data have {num_duplicated_rows} duplicated " + ext + ". Please de-deduplicate your raw data.!")

Our raw data have no duplicated line.!


### Mỗi cột có ý nghĩa gì?

**RecordID**: ID của mỗi bản ghi (1 tới 5811).

**AQI**: Air Quality Index, đo lường mức độ ô nhiễm không khí hiện tại.

**PM10**: Nồng độ bụi mịn có đường kính nhỏ hơn 10 micromet (μg/m³).

**PM2_5**: Nồng độ bụi mịn có đường kính nhỏ hơn 2.5 micromet (μg/m³).

**NO2**: Nồng độ khí nitrogen dioxide (ppb).

**SO2**: Nồng độ khí sulfur dioxide (ppb).

**O3**: Nồng độ khí ozone (ppb).

**Temperature**: Nhiệt độ môi trường, tính bằng độ C (°C).

**Humidity**: Độ ẩm không khí, tính bằng phần trăm (%).

**WindSpeed**: Tốc độ gió, tính bằng mét trên giây (m/s).

**RespiratoryCases**: Số lượng các trường hợp bệnh liên quan đến đường hô hấp được ghi nhận.

**CardiovascularCases**: Số lượng các trường hợp bệnh tim mạch được ghi nhận.

**HospitalAdmissions**: Số lượt nhập viện được ghi nhận.

**HealthImpactScore**: Điểm đánh giá tác động sức khỏe tổng thể dựa trên chất lượng không khí và các yếu tố liên quan khác, với thang điểm từ 0 đến 100.

**HealthImpactClass**: Phân loại tác động sức khỏe dựa trên điểm số HealthImpactScore:
* 0: Very High - Tác động rất cao (HealthImpactScore ≥ 80).

* 1: High - Tác động cao (60 ≤ HealthImpactScore < 80).

* 2: Moderate - Tác động trung bình (40 ≤ HealthImpactScore < 60).

* 3: Low - Tác động thấp (20 ≤ HealthImpactScore < 40).

* 4: Very Low - Tác động rất thấp (HealthImpactScore < 20).​

Trước khi kiểm tra kiểu dữ liệu của các thuộc tính trong dataframe, chúng ta quan sát thì thấy cột RecordID có thể dùng làm index.

In [7]:
raw_df = raw_df.set_index('RecordID')

In [8]:
raw_df

Unnamed: 0_level_0,AQI,PM10,PM2_5,NO2,SO2,O3,Temperature,Humidity,WindSpeed,RespiratoryCases,CardiovascularCases,HospitalAdmissions,HealthImpactScore,HealthImpactClass
RecordID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,187.270059,295.853039,13.038560,6.639263,66.161150,54.624280,5.150335,84.424344,6.137755,7,5,1,97.244041,0.0
2,475.357153,246.254703,9.984497,16.318326,90.499523,169.621728,1.543378,46.851415,4.521422,10,2,0,100.000000,0.0
3,365.996971,84.443191,23.111340,96.317811,17.875850,9.006794,1.169483,17.806977,11.157384,13,3,0,100.000000,0.0
4,299.329242,21.020609,14.273403,81.234403,48.323616,93.161033,21.925276,99.473373,15.302500,8,8,1,100.000000,0.0
5,78.009320,16.987667,152.111623,121.235461,90.866167,241.795138,9.217517,24.906837,14.534733,9,0,1,95.182643,0.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
5807,171.112762,11.246387,197.984628,158.643107,17.743678,280.370909,37.359323,61.707640,4.097129,14,5,2,100.000000,4.0
5808,490.691667,275.340762,55.774170,132.336871,29.334724,108.043492,34.532542,21.528555,6.682549,8,6,2,100.000000,3.0
5809,314.841798,41.892699,184.708551,82.105823,68.334578,105.568503,22.975564,92.725625,2.889698,12,2,3,100.000000,1.0
5810,208.080473,165.533785,199.177255,100.796385,87.586488,166.469537,36.090620,25.836286,10.722393,6,2,3,100.000000,4.0


#### Kiểu dữ liệu của mỗi cột hiện tại là gì? Có bao nhiêu cột có kiểu dữ liệu không phù hợp cho việc phân tích sau này?

Tiếp theo, chúng ta sẽ xem xét kiểu dữ liệu (dtype) của mỗi cột trong DataFrame 'raw_df' và lưu kết quả vào Series 'dtypes' (Series này có index là tên cột trong DataFrame).

In [9]:
dtypes = raw_df.dtypes

In [10]:
dtypes

AQI                    float64
PM10                   float64
PM2_5                  float64
NO2                    float64
SO2                    float64
O3                     float64
Temperature            float64
Humidity               float64
WindSpeed              float64
RespiratoryCases         int64
CardiovascularCases      int64
HospitalAdmissions       int64
HealthImpactScore      float64
HealthImpactClass      float64
dtype: object

Chúng ta thấy rằng cột 'HealthImpactClass' có kiểu dữ liệu numeric. Tuy nhiên, độ lớn của giá trị của nó không có ý nghĩa. Và nó thực ra biểu diễn một phân loại tác động của chất lượng không khí đối với sức khỏe. Vì vậy, ta sẽ chuyển nó sáng kiểu categorical.

In [11]:
raw_df['HealthImpactClass'] = raw_df['HealthImpactClass'].astype(pd.CategoricalDtype())

In [12]:
dtypes = raw_df.dtypes
dtypes

AQI                     float64
PM10                    float64
PM2_5                   float64
NO2                     float64
SO2                     float64
O3                      float64
Temperature             float64
Humidity                float64
WindSpeed               float64
RespiratoryCases          int64
CardiovascularCases       int64
HospitalAdmissions        int64
HealthImpactScore       float64
HealthImpactClass      category
dtype: object

### Đối với mỗi cột có kiểu dữ liệu numeric, những giá trị trong các cột đó phân bố như thế nào?

Với các cột có kiểu dữ liệu numeric, chúng ta sẽ tính:
* Phần trăm (từ 0 đến 100) của missing values.
* Min.
* Tứ phân vị thứ nhất (The lower quartile).
* Trung vị.
* Tứ phâmn vị thứ ba (The upper quartile).
* Max.
Chúng ta sẽ lưu kết quả vào một DataFrame 'num_col_info_df':
* Tên các cột là tên của các cột dữ liệu numeric trong 'raw_df'.
* Index của mỗi hàng là: "missing_ratio", "min", "lower_quartile", "median", "upper_quartile" và "max".

In [13]:
def missing_ratio(series: pd.Series) -> float:
    nan_df = series.isnull()
    return nan_df.mean() * 100
    
def lower_quartile(series: pd.Series) -> float:
    if series.dtypes in [float, int]:
        return series.quantile(0.25)
    return None

def median(series: pd.Series) -> float:
    if series.dtypes in [float, int]:
        return series.quantile(0.5)
    return None

def upper_quartile(series: pd.Series) -> float:
    if series.dtypes in [float, int]:
        return series.quantile(0.75)
    return None

num_col_info_df = raw_df.select_dtypes(exclude = ['object', 'category']).agg([missing_ratio, 'min', lower_quartile, median, upper_quartile,
                                                                              'max'])

In [14]:
num_col_info_df

Unnamed: 0,AQI,PM10,PM2_5,NO2,SO2,O3,Temperature,Humidity,WindSpeed,RespiratoryCases,CardiovascularCases,HospitalAdmissions,HealthImpactScore
missing_ratio,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
min,0.005817,0.015848,0.031549,0.009625,0.011023,0.001661,-9.990998,10.001506,0.002094,1.0,0.0,0.0,22.448488
lower_quartile,122.951293,75.374954,49.435171,53.538538,24.887264,73.999665,2.4815,31.995262,4.952343,8.0,3.0,1.0,98.203057
median,249.127841,147.634997,100.506337,102.987736,49.530165,149.559871,14.942428,54.543904,10.051742,10.0,5.0,2.0,100.0
upper_quartile,373.630668,222.436759,151.34026,151.658516,73.346617,223.380126,27.465374,77.641639,14.97184,12.0,6.0,3.0,100.0
max,499.858837,299.901962,199.984965,199.980195,99.969561,299.936812,39.963434,99.997493,19.999139,23.0,14.0,12.0,100.0


Sau khi xác định các số liệu thống kê cơ bản miêu tả dữ liệu, chúng ta cần xác định những đặc trưng nào có nhiều missing values. Những đặc trưng này thì không hữu ích trong quá trình phân tích và phải bị xóa khỏi bộ dữ liệu.

Tùy vào mục đích, ngưỡng của từ "nhiều" có thể được ta định nghĩa. Thường thì nếu phần trăm của missing values lớn hơn 75%, cột đó sẽ bị loại bỏ khỏi dataframe và trả về một dataframe đã update.

In [15]:
def drop_missing_features(df: pd.DataFrame, missing_series: pd.Series = num_col_info_df.loc['missing_ratio', :], threshold: float = 75.0) -> pd.DataFrame:
    dropedColumns = missing_series[missing_series > threshold].to_list()
    df = df.drop(columns = dropedColumns)
    return df
raw_df = drop_missing_features(raw_df)

In [16]:
raw_df.head()

Unnamed: 0_level_0,AQI,PM10,PM2_5,NO2,SO2,O3,Temperature,Humidity,WindSpeed,RespiratoryCases,CardiovascularCases,HospitalAdmissions,HealthImpactScore,HealthImpactClass
RecordID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,187.270059,295.853039,13.03856,6.639263,66.16115,54.62428,5.150335,84.424344,6.137755,7,5,1,97.244041,0.0
2,475.357153,246.254703,9.984497,16.318326,90.499523,169.621728,1.543378,46.851415,4.521422,10,2,0,100.0,0.0
3,365.996971,84.443191,23.11134,96.317811,17.87585,9.006794,1.169483,17.806977,11.157384,13,3,0,100.0,0.0
4,299.329242,21.020609,14.273403,81.234403,48.323616,93.161033,21.925276,99.473373,15.3025,8,8,1,100.0,0.0
5,78.00932,16.987667,152.111623,121.235461,90.866167,241.795138,9.217517,24.906837,14.534733,9,0,1,95.182643,0.0


Sau khi xóa những đặc trưng có nhiều missing values, bộ dữ liệu của chúng ta vẫn có thể có những missing values. Vì thế, chúng ta cần điền những giá trị này để chúng ta có thể sử dụng chúng trong các bước phân tích. Chúng ta sẽ điền các giá trị còn thiếu này bằng median của cột.

In [17]:
def filling_missing_value(df: pd.DataFrame) -> pd.DataFrame:
    return df.fillna(num_col_info_df.loc['median'])
raw_df = filling_missing_value(raw_df)

In [18]:
raw_df.head()

Unnamed: 0_level_0,AQI,PM10,PM2_5,NO2,SO2,O3,Temperature,Humidity,WindSpeed,RespiratoryCases,CardiovascularCases,HospitalAdmissions,HealthImpactScore,HealthImpactClass
RecordID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
1,187.270059,295.853039,13.03856,6.639263,66.16115,54.62428,5.150335,84.424344,6.137755,7,5,1,97.244041,0.0
2,475.357153,246.254703,9.984497,16.318326,90.499523,169.621728,1.543378,46.851415,4.521422,10,2,0,100.0,0.0
3,365.996971,84.443191,23.11134,96.317811,17.87585,9.006794,1.169483,17.806977,11.157384,13,3,0,100.0,0.0
4,299.329242,21.020609,14.273403,81.234403,48.323616,93.161033,21.925276,99.473373,15.3025,8,8,1,100.0,0.0
5,78.00932,16.987667,152.111623,121.235461,90.866167,241.795138,9.217517,24.906837,14.534733,9,0,1,95.182643,0.0


### Đối với mỗi cột có kiểu dữ liệu non-numeric, những giá trị trong các cột đó phân bố như thế nào?

Với các cột có kiểu dữ liệu non-numeric, chúng ta sẽ tính:
* Phần trăm (từ 0 đến 100) của missing values.
* Số lượng giá trị khác nhau.
* Phần trăm mỗi giá trị (từ 0 đến 100) của mỗi giá trị được sắp xếp giảm dần: Chúng ta sử dụng dictionary để lưu trữ, key là giá trị, value là phần trăm.
Chúng ta sẽ lưu kết quả vào một DataFrame 'cat_col_info_df':
* Tên cột là các cột non-numeric trong 'raw_df'.
* Tên của dòng là: "missing_ratio", "num_values" và "value_ratios".

In [19]:
def num_values(series: pd.Series) -> float:
    category_counts = series.value_counts()
    return len(category_counts)

def value_ratios(series: pd.Series) -> dict:
    valuesDict = (series.dropna().value_counts(normalize = True) * 100).sort_values(ascending=False).round(1).to_dict()
    return valuesDict

cat_col_info_df = raw_df.select_dtypes(exclude = 'number').agg([missing_ratio, num_values, value_ratios])

In [20]:
cat_col_info_df

Unnamed: 0,HealthImpactClass
missing_ratio,0.0
num_values,5
value_ratios,"{0.0: 82.7, 1.0: 10.0, 2.0: 4.7, 3.0: 1.6, 4.0..."


### Dữ liệu được thu thập có hợp lý chưa?

Đọc phần mô tả các thuộc tính, thì trừ thuộc tính **Temperture** và các thuộc tính không phải kiểu số ra thì tất cả các thuộc tính còn lại đều không được nhỏ hơn 0. 

In [21]:
num_col_info_df.loc['min'][num_col_info_df.loc['min'] < 0]

Temperature   -9.990998
Name: min, dtype: float64

Đến đây bộ dữ liệu có vẻ đã tốt, ta lưu lại bộ dữ liệu đã được làm sạch này vào file './data/cleaned_air_quality_health_impact_data.csv'.

In [22]:
save_file_name = './data/cleaned_air_quality_health_impact_data.csv'
raw_df.to_csv(save_file_name, index = False)