Chắc chắn rồi! Dưới đây là phần **"How to Run"** của dự án được giải thích chi tiết bằng tiếng Việt để bạn có thể dễ dàng thiết lập và chạy dự án của mình.

---

## **6. Cách Thức Chạy (How to Run)**

Để thiết lập và chạy dự án cục bộ, hãy làm theo các bước dưới đây:

### **Bước 1: Sao Chép Kho Lưu Trữ (Clone the Repository)**

Trước tiên, bạn cần sao chép (clone) kho lưu trữ về máy tính của mình.

```bash
git clone https://github.com/aymane-maghouti/Big-Data-Project
```

### **Bước 2: Chạy Tầng Stream (Stream Layer)**

Tầng Stream chịu trách nhiệm xử lý dữ liệu thời gian thực. Dưới đây là các bước để khởi động tầng Stream:

1. **Khởi động Apache Zookeeper**

   Zookeeper là dịch vụ điều phối được sử dụng bởi Kafka để quản lý các broker và các dịch vụ liên quan.

   ```bash
   zookeeper-server-start.bat C:/kafka_2.13_2.6.0/config/zookeeper.properties
   ```

2. **Khởi động Kafka Server**

   Kafka là hệ thống message broker dùng để xử lý và truyền tải dữ liệu thời gian thực.

   ```bash
   kafka-server-start.bat C:/kafka_2.13_2.6.0/config/server.properties
   ```

3. **Tạo Kafka Topic**

   Topic là nơi dữ liệu sẽ được gửi và nhận trong Kafka.

   ```bash
   kafka-topics.bat --create --topic smartphoneTopic --bootstrap-server localhost:9092
   ```

4. **Chạy Kafka Producer**

   Producer sẽ gửi dữ liệu vào Kafka Topic đã tạo.

   ```bash
   kafka-console-producer.bat --topic smartphoneTopic --bootstrap-server localhost:9092
   ```

   *Lưu ý:* Bạn có thể nhập dữ liệu trực tiếp vào dòng lệnh để gửi vào Kafka.

5. **Chạy Kafka Consumer**

   Consumer sẽ nhận dữ liệu từ Kafka Topic.

   ```bash
   kafka-console-consumer.bat --topic smartphoneTopic --from-beginning --bootstrap-server localhost:9092
   ```

6. **Khởi động HDFS và YARN**

   HDFS là hệ thống lưu trữ phân tán, còn YARN quản lý tài nguyên cho các ứng dụng Hadoop.

   ```bash
   start-all
   ```

   *Lưu ý:* Lệnh này sẽ khởi động cả HDFS và YARN. Nếu gặp lỗi, bạn có thể khởi động riêng từng dịch vụ:

   ```bash
   start-dfs
   start-yarn
   ```

7. **Khởi động HBase**

   HBase là cơ sở dữ liệu NoSQL cung cấp khả năng truy xuất dữ liệu thời gian thực.

   ```bash
   start-hbase
   ```

8. **Chạy Thrift Server (Cho HBase)**

   Thrift Server cho phép các ứng dụng không phải viết bằng Java tương tác với HBase.

   ```bash
   hbase thrift start
   ```

9. **Chạy Script `stream_pipeline.py`**

   Sau khi đã khởi động tất cả các dịch vụ trên, bạn cần chạy script Python để xử lý dữ liệu stream.

   ```bash
   python stream_pipeline.py
   ```

10. **Chạy Ứng Dụng Spring Boot**

    Mở dự án Spring Boot trong IDE (ví dụ: IntelliJ IDEA) và chạy ứng dụng. Bạn có thể truy cập ứng dụng web tại địa chỉ:

    ```
    http://localhost:8081/
    ```

    *Lưu ý:* Có phiên bản khác của ứng dụng web được phát triển bằng Flask. Bạn có thể xem video demo để biết thêm chi tiết.

### **Bước 3: Chạy Tầng Batch (Batch Layer)**

Tầng Batch xử lý dữ liệu hàng loạt và cung cấp các phân tích lịch sử.

1. **Khởi động Apache Airflow**

   Airflow được sử dụng để điều phối các workflow xử lý batch.

   ```bash
   docker-compose up -d
   ```

   *Lưu ý:* Đảm bảo bạn đang ở trong thư mục chứa tệp `docker-compose.all.yml` khi chạy lệnh này.

2. **Truy cập Giao Diện Web của Apache Airflow**

   Mở trình duyệt và truy cập:

   ```
   http://localhost:8080
   ```

   Tại đây, bạn có thể chạy DAG (Directed Acyclic Graph) để bắt đầu các workflow batch.

3. **Khởi động Apache Spark**

   Spark là framework xử lý dữ liệu lớn, được sử dụng để thực hiện các phép biến đổi dữ liệu.

   ```bash
   spark-shell
   ```

4. **Khởi động Apache Zookeeper và Kafka Server**

   Nếu bạn chưa khởi động Zookeeper và Kafka trong bước Stream Layer, hãy thực hiện lại các lệnh sau:

   ```bash
   zookeeper-server-start.bat C:/kafka_2.13_2.6.0/config/zookeeper.properties
   kafka-server-start.bat C:/kafka_2.13_2.6.0/config/server.properties
   ```

5. **Chạy Kafka Producer và Consumer**

   Tương tự như bước Stream Layer, chạy producer và consumer để gửi và nhận dữ liệu.

   ```bash
   kafka-console-producer.bat --topic smartphoneTopic --bootstrap-server localhost:9092
   kafka-console-consumer.bat --topic smartphoneTopic --from-beginning --bootstrap-server localhost:9092
   ```

6. **Khởi động HDFS và YARN**

   ```bash
   start-all
   ```

7. **Mở Tệp Power BI**

   Sử dụng Power BI Desktop để mở tệp `dashboard.pbix` kèm theo dự án. Tệp này chứa bảng điều khiển (dashboard) để trực quan hóa dữ liệu.

8. **Chạy Script `syc_with_Airflow.py`**

   Sau khi đã khởi động tất cả các dịch vụ và mở bảng điều khiển, chạy script Python để đồng bộ hóa dữ liệu với Airflow.

   ```bash
   python syc_with_Airflow.py
   ```

### **Bước 4: Truy Cập Các Dashboard**

Dự án sử dụng hai bảng điều khiển để trực quan hóa dữ liệu:

1. **Dashboard Thời Gian Thực (Real-Time Dashboard - Ứng Dụng Spring Boot)**

   - **Mô Tả:** Dashboard này được xây dựng bằng ứng dụng web Spring Boot, hiển thị giá dự đoán của smartphone theo thời gian thực.
   - **Địa Chỉ Truy Cập:** `http://localhost:8081/`
   - **Hình Ảnh Giao Diện:**
     ![Spring Boot Web Application](images/spring_boot_web_app.png)

2. **Dashboard Batch (Batch Dashboard - Power BI)**

   - **Mô Tả:** Dashboard này sử dụng Power BI để khám phá dữ liệu tương tác, cung cấp cái nhìn sâu sắc về xu hướng giá smartphone trong quá khứ.
   - **Địa Chỉ Truy Cập:** Mở tệp `dashboard.pbix` bằng Power BI Desktop.
   - **Hình Ảnh Bảng Điều Khiển:**
     ![Phone Dashboard](images/dashboard_phone.png)

### **Bước 5: Lưu Ý Bổ Sung**

- **Phiên Bản Ứng Dụng Web Khác:** Có phiên bản khác của ứng dụng web được phát triển bằng Flask micro-framework. Bạn có thể xem video demo để biết thêm chi tiết.

---

## **Tóm Tắt Các Bước Chạy Dự Án**

1. **Clone kho lưu trữ về máy tính của bạn:**

   ```bash
   git clone https://github.com/aymane-maghouti/Big-Data-Project
   ```

2. **Khởi động tầng Stream:**

   - Khởi động Zookeeper và Kafka.
   - Tạo Kafka Topic.
   - Chạy Kafka Producer và Consumer.
   - Khởi động HDFS và YARN.
   - Khởi động HBase và Thrift Server.
   - Chạy script `stream_pipeline.py`.
   - Khởi động ứng dụng Spring Boot và truy cập tại `http://localhost:8081/`.

3. **Khởi động tầng Batch:**

   - Khởi động Apache Airflow.
   - Truy cập Airflow Web UI tại `http://localhost:8080` và chạy DAG.
   - Khởi động Spark.
   - Khởi động lại Zookeeper và Kafka nếu cần.
   - Chạy Kafka Producer và Consumer.
   - Khởi động HDFS và YARN.
   - Mở bảng điều khiển Power BI.
   - Chạy script `syc_with_Airflow.py`.

4. **Truy cập các Dashboard:**

   - **Real-Time Dashboard:** `http://localhost:8081/`
   - **Batch Dashboard:** Mở `dashboard.pbix` bằng Power BI Desktop.

---

## **Lưu Ý Khi Chạy Dự Án**

- **Yêu Cầu Phần Cứng:** Đảm bảo máy tính của bạn có đủ tài nguyên (CPU, RAM, bộ nhớ lưu trữ) để chạy đồng thời nhiều dịch vụ như Kafka, Zookeeper, HDFS, Spark, HBase, Airflow, và các ứng dụng web.
  
- **Cấu Hình Mạng:** Các dịch vụ cần được kết nối qua mạng nội bộ hoặc Docker Compose để đảm bảo giao tiếp hiệu quả giữa chúng.

- **Quản Lý Tài Nguyên:** Sử dụng Docker Compose để quản lý và khởi động các dịch vụ một cách dễ dàng hơn.

- **Kiểm Tra Log:** Nếu gặp sự cố, hãy kiểm tra log của từng dịch vụ để xác định nguyên nhân và khắc phục.

---

Hy vọng phần giải thích này sẽ giúp bạn thiết lập và chạy dự án một cách dễ dàng. Nếu bạn gặp bất kỳ vấn đề nào trong quá trình thiết lập hoặc chạy dự án, đừng ngần ngại hỏi thêm để được hỗ trợ!