Skip to content

caonguyen2004/bigdata

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 

Repository files navigation

Đồ án Big Data: Phân tích chất lượng không khí tại Việt Nam bằng PySpark và Power BI

Mô tả dự án

Dự án nhằm xử lý và phân tích tập dữ liệu chất lượng không khí tại các tỉnh/thành phố ở Việt Nam bằng các công cụ Big Data. Kết hợp giữa PySpark để xử lý dữ liệu lớn và Power BI để trực quan hóa thông tin, hỗ trợ ra quyết định.

Cấu trúc thư mục

  • data/: Chứa dữ liệu gốc và dữ liệu đã xử lý (air_quality.csv, predicted_aqi.csv)
  • pyspark_processing/: Notebook hoặc script xử lý dữ liệu bằng PySpark
  • powerbi_dashboard/: Dashboard và báo cáo Power BI
  • report/: File báo cáo, hình ảnh sơ đồ hệ thống

Công nghệ sử dụng

  • Python
  • Apache Spark (PySpark)
  • Power BI
  • Hadoop HDFS (nếu có)
  • Jupyter Notebook

🛠 Các bước thực hiện

  1. Tiền xử lý dữ liệu:

    • Làm sạch dữ liệu đầu vào (loại bỏ giá trị thiếu, định dạng cột)
    • Chuẩn hóa đơn vị đo và chuẩn hóa dữ liệu dạng thời gian
  2. Xây dựng pipeline xử lý:

    • Đọc và xử lý dữ liệu bằng PySpark
    • Áp dụng các hàm phân tích để trích xuất đặc trưng
  3. Dự đoán chỉ số AQI:

    • Huấn luyện mô hình hồi quy để dự đoán chỉ số AQI
    • Đánh giá độ chính xác bằng MAE, RMSE
  4. Trực quan hóa bằng Power BI:

    • Thiết kế dashboard tương tác hiển thị AQI theo thời gian, khu vực
    • So sánh giữa AQI thực tế và dự đoán

Kết quả

  • Mô hình dự đoán AQI đạt MAE < 10
  • Dashboard Power BI thể hiện rõ xu hướng và điểm nóng ô nhiễm
  • Có thể mở rộng sang cảnh báo chất lượng không khí thời gian thực

About

đồ án dữ liệu lớn

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published