Dự án nhằm xử lý và phân tích tập dữ liệu chất lượng không khí tại các tỉnh/thành phố ở Việt Nam bằng các công cụ Big Data. Kết hợp giữa PySpark để xử lý dữ liệu lớn và Power BI để trực quan hóa thông tin, hỗ trợ ra quyết định.
data/
: Chứa dữ liệu gốc và dữ liệu đã xử lý (air_quality.csv
,predicted_aqi.csv
)pyspark_processing/
: Notebook hoặc script xử lý dữ liệu bằng PySparkpowerbi_dashboard/
: Dashboard và báo cáo Power BIreport/
: File báo cáo, hình ảnh sơ đồ hệ thống
- Python
- Apache Spark (PySpark)
- Power BI
- Hadoop HDFS (nếu có)
- Jupyter Notebook
-
Tiền xử lý dữ liệu:
- Làm sạch dữ liệu đầu vào (loại bỏ giá trị thiếu, định dạng cột)
- Chuẩn hóa đơn vị đo và chuẩn hóa dữ liệu dạng thời gian
-
Xây dựng pipeline xử lý:
- Đọc và xử lý dữ liệu bằng PySpark
- Áp dụng các hàm phân tích để trích xuất đặc trưng
-
Dự đoán chỉ số AQI:
- Huấn luyện mô hình hồi quy để dự đoán chỉ số AQI
- Đánh giá độ chính xác bằng MAE, RMSE
-
Trực quan hóa bằng Power BI:
- Thiết kế dashboard tương tác hiển thị AQI theo thời gian, khu vực
- So sánh giữa AQI thực tế và dự đoán
- Mô hình dự đoán AQI đạt MAE < 10
- Dashboard Power BI thể hiện rõ xu hướng và điểm nóng ô nhiễm
- Có thể mở rộng sang cảnh báo chất lượng không khí thời gian thực