# AIR QUALITY AND HEALTH IMPACT

### Trong đồ án này, nhóm chúng em xin phép được trình bày một quy trình Khoa Học Dữ Liệu với dataset về ảnh hưởng của chất lượng không khí đối với sức khỏe.

### Các bước thực hiện:
* Tiền xử lý dữ liệu.
* Đưa ra các câu hỏi.
* Phân tích và đánh giá.

#### Lý do chọn bộ dữ liệu:
* Trong tình hình bối cảnh hiện nay, những tác động của ô nhiễm không khí đến sức khỏe trở nên rõ ràng hơn bao giờ hết. Do đó việc phân tích bộ dữ liệu này mang lại giá trị trong việc tăng nhận thức cộng đồng và hỗ trợ xây dựng các biện pháp cải thiện.
* Bộ dữ liệu này phong phú cho phép ta phân tích nhiều khía cạnh khác nhau, từ đo lường mức độ ô nhiễm đến dự đoán tác động sức khỏe.

#### Thông tin về bộ dữ liệu:
* Đường dẫn của bộ dữ liệu: [🌍 Air Quality and Health Impact Dataset🌍](https://www.kaggle.com/datasets/rabieelkharoua/air-quality-and-health-impact-dataset).
* Bộ dữ liệu được lấy từ [Kaggle](https://www.kaggle.com).
* Tập dữ liệu này được chia sẻ bởi **Rabie El Kharoua**. Nó được cung cấp theo giấy phép **CC BY 4.0**, cho phép mọi người sử dụng tập dữ liệu dưới mọi hình thức miễn là tác giả được trích dẫn thích hợp.

## Khai báo các thư viện cần thiết

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

## Khám phá dữ liệu
### Đọc dữ liệu từ file vào dataframe.

In [None]:
file_name = './data/air_quality_health_impact_data.csv'
raw_df = pd.read_csv(file_name)
raw_df.head()

### Có bao nhiêu dòng và cột của bộ dữ liệu thô này?
Tiếp theo, ta sẽ tính số dòng và số cột của DataFrame 'raw_df' và lưu trữ nó vào biến 'shape' (tuple).

**Nếu dữ liệu có số dòng nhỏ hơn 1000, thì ta sẽ tìm bộ liệu khác cũng liên quan đến chủ đề này.**

In [None]:
shape = raw_df.shape

In [None]:
print(f"Current shape: {shape}")

if shape[0] > 1000:
    print(f"Our data good!.")
else:
    print(f"Our raw data absolutely small. Please choose a different dataset.!")

### Mỗi dòng có ý nghĩa gì?

* Mỗi dòng là một bản ghi lưu trữ thông tin về chỉ số chất lượng không khí (AQI), nồng độ các chất ô nhiễm khác nhau, điều kiện thời tiết và số liệu tác động đến sức khỏe của chúng đến con người tại một thời điểm trong một khu vực.
* Bộ dữ liệu không lưu trữ thông tin về thời gian và địa điểm vì nó không có ý nghĩa trong việc phân tích ảnh hưởng chất lượng không khí đến sức khỏe.

### Dữ liệu thô có dòng nào bị trùng không?
Tiếp theo, chúng ta tính toán số dòng bị trùng và lưu trữ nó vào biến 'num_duplicated_rows'.

In [None]:
num_duplicated_rows = raw_df[raw_df.duplicated()].shape[0]

In [None]:
if num_duplicated_rows == 0:
    print(f"Your raw data have no duplicated line.!")
else:
    if num_duplicated_rows > 1:
        ext = "lines"
    else:
        ext = "line"
    print(f"Your raw data have {num_duplicated_rows} duplicated " + ext + ". Please de-deduplicate your raw data.!")

### Mỗi cột có ý nghĩa gì?

RecordID: ID của mỗi bản ghi (1 tới 5811).

AQI: Air Quality Index, đo lường mức độ ô nhiễm không khí hiện tại.

PM10: Nồng độ bụi mịn có đường kính nhỏ hơn 10 micromet (μg/m³).

PM2_5: Nồng độ bụi mịn có đường kính nhỏ hơn 2.5 micromet (μg/m³).

NO2: Nồng độ khí nitrogen dioxide (ppb).

SO2: Nồng độ khí sulfur dioxide (ppb).

O3: Nồng độ khí ozone (ppb).

Temperature: Nhiệt độ môi trường, tính bằng độ C (°C).

Humidity: Độ ẩm không khí, tính bằng phần trăm (%).

WindSpeed: Tốc độ gió, tính bằng mét trên giây (m/s).

RespiratoryCases: Số lượng các trường hợp bệnh liên quan đến đường hô hấp được ghi nhận.

CardiovascularCases: Số lượng các trường hợp bệnh tim mạch được ghi nhận.

HospitalAdmissions: Số lượt nhập viện được ghi nhận.

HealthImpactScore: Điểm đánh giá tác động sức khỏe tổng thể dựa trên chất lượng không khí và các yếu tố liên quan khác, với thang điểm từ 0 đến 100.

HealthImpactClass: Phân loại tác động sức khỏe dựa trên điểm số HealthImpactScore:
0: Very High - Tác động rất cao (HealthImpactScore ≥ 80).

1: High - Tác động cao (60 ≤ HealthImpactScore < 80).

2: Moderate - Tác động trung bình (40 ≤ HealthImpactScore < 60).

3: Low - Tác động thấp (20 ≤ HealthImpactScore < 40).

4: Very Low - Tác động rất thấp (HealthImpactScore < 20).​

#### Trước khi kiểm tra kiểu dữ liệu của các thuộc tính trong dataframe, chúng ta quan sát thì thấy cột RecordID có thể dùng làm index.

In [None]:
raw_df = raw_df.set_index('RecordID')

In [None]:
raw_df

### Kiểu dữ liệu của mỗi cột hiện tại là gì? Có bao nhiêu cột có kiểu dữ liệu không phù hợp cho việc phân tích sau này?

Tiếp theo, chúng ta sẽ xem xét kiểu dữ liệu (dtype) của mỗi cột trong DataFrame 'raw_df' và lưu kết quả vào Series 'dtypes' (Series này có index là tên cột trong DataFrame).

In [None]:
dtypes = raw_df.dtypes

In [None]:
dtypes