## **Real Time Data Engineering Projects**

> โปรเจกต์นี้ออกแบบมาให้เป็นแนวทางแบบครบวงจร (end-to-end) สำหรับการสร้าง data engineering pipeline ตั้งแต่ขั้นตอน ingestion, streaming, processing ไปจนถึงการจัดเก็บข้อมูล โดยใช้โครงสร้างพื้นฐานที่เน้น real-time processing และ containerized deployment

#### **สถาปัตยกรรมระบบ (System Architecture)**

มี component หลักดังนี้:

- **Data Source**: ดึงข้อมูลจาก API เช่น randomuser.me เพื่อใช้เป็นข้อมูลจำลอง (dummy data) 

- **Apache Airflow**: ทำหน้าที่ orchestration ของ pipeline และเก็บข้อมูลที่ fetch เข้าไว้ใน PostgreSQL 

- **Kafka + Zookeeper**: ใช้สำหรับ streaming ข้อมูลจาก PostgreSQL ไปยัง processing engine 

- **Control Center & Schema Registry**: สำหรับดูแล schema และ monitoring Kafka streams 

- **Apache Spark**: ใช้ประมวลผลข้อมูล (stream processing) ผ่าน cluster (master/worker nodes) 

- **Cassandra**: ใช้เก็บข้อมูลหลังผ่านการประมวลผล

#### **เทคโนโลยีที่ใช้**

- Orchestration: Apache Airflow

- Streaming: Apache Kafka & Zookeeper

- Processing: Apache Spark

- Storage: PostgreSQL (ก่อนประมวลผล), Cassandra (หลังประมวลผล)

- Containerization: Docker

#### 📌 **Kafka พื้นฐาน (สำหรับ Data Engineer)**

##### **1. Kafka คืออะไร?**

- Kafka = ระบบ distributed event streaming platform
  → ใช้สำหรับส่ง, เก็บ และประมวลผลข้อมูลแบบ real-time

- มันทำตัวเหมือน message broker (ท่อข้อมูลกลาง)

- ใช้กันเยอะในงาน real-time analytics, log streaming, data pipeline

##### **2. แนวคิดหลัก (Concepts)**

ลองคิดเป็น "ห้อง chat" 👇

- **Producer** → คนพิมพ์ข้อความ (ส่งข้อมูลเข้าไปใน Kafka)

- **Consumer** → คนอ่านข้อความ (ดึงข้อมูลออกมาใช้)

- **Topic** → ห้องสนทนา (channel ที่ใช้ส่ง/รับข้อมูล)

- **Broker** → Server ของ Kafka ที่เก็บ topic

- **Cluster** → กลุ่ม broker หลายๆ ตัว

- **Partition** → การแบ่ง topic ออกเป็นส่วนๆ เพื่อ scale (แต่ละ partition คือท่อแยก)

- **Offset** → เลขบอกลำดับของ message ใน partition

👉 Keyword: Publish–Subscribe system
Producer ยิงข้อมูล → Kafka → Consumer อ่านข้อมูล

##### **3. Kafka Data Flow**

1. Producer สร้าง event → ส่งไปที่ Kafka topic

2. Kafka เก็บ event ไว้ใน log แบบ append-only

3. Consumer subscribe topic → อ่าน event ตามลำดับ offset

4. Data ถูก process หรือส่งต่อไป DB, Data Lake, Dashboard

#### **เริ่มต้นโปรเจ็ค**

ตรวจสอบ version ของ Python และ Spark ที่จาก Docker Container

In [4]:
!python3 --version
!spark-submit --version

Python 3.11.6
Welcome to
      ____              __
     / __/__  ___ _____/ /__
    _\ \/ _ \/ _ `/ __/  '_/
   /___/ .__/\_,_/_/ /_/\_\   version 3.5.1
      /_/
                        
Using Scala version 2.12.18, OpenJDK 64-Bit Server VM, 11.0.28
Branch HEAD
Compiled by user heartsavior on 2024-02-15T11:24:58Z
Revision fd86f85e181fc2dc0f50a096855acf83a6cc5d9c
Url https://github.com/apache/spark
Type --help for more information.


#### ดึงค่าจาก API

In [7]:
import requests

res = requests.get("https://randomuser.me/api/")
res = res.json() # แปลงเป็น json
res = res['results'][0]