### Yêu cầu về phần mềm và công cụ:

- **Hadoop Cluster**: Cài đặt Hadoop trên môi trường phân tán hoặc cục bộ (Hadoop Single Node Cluster).
- **HDFS (Hadoop Distributed File System)**: Dùng để lưu trữ dữ liệu.
- **MapReduce**: Xây dựng các chương trình phân tích dữ liệu bằng MapReduce.
- **Hive**: Tạo các bảng, truy vấn dữ liệu bằng ngôn ngữ SQL.
- **Spark**: Xử lý dữ liệu nhanh hơn, sử dụng PySpark hoặc Scala.
- **Các công cụ bổ trợ**:
    - **Sqoop**: Nếu cần nhập dữ liệu từ cơ sở dữ liệu.
    - **Flume**: Để thu thập dữ liệu thời gian thực.
    - **Pig**: Xử lý dữ liệu bán cấu trúc.

Connect Hadoop to Shell: ssh@ssh_id -p : 2222

In [1]:
import os 
os.environ['SPARK_HOME'] = '/usr/hdp/current/spark2-client'
os.environ['PYSPARK_DRIVER_PYTHON'] = 'jyputer'
os.environ['PYSPARK_DRIVER_PYTHON_OPTS'] = 'lab'
os.environ['PYSPARK_PYTHON'] = 'python'

In [2]:
from pyspark.sql import SparkSession

In [3]:
# Create a SparkSession
spark = SparkSession.builder.appName("SparkSQL").getOrCreate()

FileNotFoundError: [WinError 2] The system cannot find the file specified

## Bài 1. Phân tích dữ liệu thời tiết

### 1. Thu thập dữ liệu
- Dữ liệu từ NOAA hoặc các nguồn cung cấp dữ liệu thời tiết miễn phí (như Kaggle, OpenWeatherMap API).
- Dữ liệu thời tiết lịch sử ở định dạng CSV, JSON, hoặc XML.
- Cấu trúc dữ liệu: Thông tin cần có: ngày tháng, nhiệt độ cao nhất, nhiệt độ thấp nhất, lượng mưa, tốc độ gió, độ ẩm, áp suất khí quyển.

In [None]:
from pyspark.sql import SparkSession
from pyspark.sql.functions import col

spark = SparkSession.builder.appName("WeatherAnalysis").getOrCreate()
df = spark.read.csv("dataset/weatherHistory.csv", header=True, inferSchema=True)
    
# Convert Fhrenheit to Celsius
df = df.withColumn("Temp_C", (col("Temp_F") - 32) * 5/9)
df.show()

### 2. Kiểm tra và làm sạch dữ liệu



### 3. Xử lý dữ liệu bằng MapReduce:
- Tính toán các chỉ số trung bình: nhiệt độ trung bình, lượng mưa trung bình theo tháng, năm.
- Xác định ngày có nhiệt độ cao nhất và thấp nhất.
- Tổng hợp dữ liệu theo khu vực địa lý.


### 4. Tìm kiếm và tải dữ liệu về thời tiết (theo vị trí, thời gian)
- [NOAA](https://www.ncei.noaa.gov/)

### 5. Làm sạch dữ liệu:
- Xử lý dữ liệu thiếu và sai
- Chuyển đổi dữ liệu (từ Fahrenheit sang Celsius, …)

### 6. Phân tích sự thay đổi của nhiệt độ, lượng mưa theo thời gian hoặc theo mùa
- Tính các chỉ số nhiệt độ trung bình, tối đa, tối thiểu.
- Tính tổng lượng mưa, tổng độ ẩm
- Xác định xu hướng: Phân tích sự thay đổi của các yếu tố thời tiết theo thời gian (theo tháng, năm).
- Xác định mùa và các xu hướng thời tiết (nhiệt độ nóng, lạnh, mưa nhiều hay ít).

### 7. Phân tích dữ liệu bằng Hive:
- Tạo bảng trong Hive để lưu trữ dữ liệu thời tiết.
- Viết truy vấn SQL để phân tích: nhiệt độ theo mùa, lượng mưa theo vùng.

### 8. Sử dụng Spark cho phân tích nhanh:
- Tạo các DataFrame từ dữ liệu thời tiết.
- Thực hiện các thao tác như: lọc dữ liệu, tính toán trung bình, vẽ biểu đồ.
- Phân tích các xu hướng thời tiết bất thường theo thời gian.
- Dự đoán thời tiết bằng các thuật toán học máy trên Spark MLlib.

### 9. Trực quan hóa dữ liệu:
- Xuất kết quả từ Hadoop và sử dụng công cụ như Tableau, Power BI, hoặc Python (Matplotlib, Seaborn) để tạo biểu đồ, đồ thị.
- Trực quan hóa xu hướng nhiệt độ, lượng mưa, và các hiện tượng thời tiết.