สร้าง Data pipeline จากข้อมูลราคาคริปโตเคอเรนซี่ของ Coinmarketcap
เป็นการปรับปรุงโปรเจกต์ Data Pipeline หนึ่งใน Reddit ที่ดึงข้อมูลจาก CoinMarketCap แต่เป็นการเก็บข้อมูลภายใน PostgreSQL ในโปรเจกต์นี้ จะมีการดึงข้อมูลส่งออกไปยัง Data Lake ที่เป็น Google Cloud Storage (GCS) และโหลดเข้า Google Cloud BigQuery (BQ)
- ดึงข้อมูลมาจาก CoinMarketCap API ผ่าน Python
- นำข้อมูลที่ได้จาก CoinMarketCap ในรูปแบบ JSON แปลงเป็น CSV (Flattening) และบันทึกทั้ง CSV และ JSON เข้าไปใน GCS
- โหลด CSV เข้าไปใน BQ
- สร้าง Fact Table กับ Dimension Table จาก ตารางที่เก็บรักษาข้อมูลไว้
- กำหนดให้รัน Pipeline ทุก 1 ชั่วโมง
- Data Ingestion: Python
- Data Transformation: dbt
- Orchestrator: Prefect
- ✅ สร้าง Minimum Viable Product
- ⏳ ปรับปรุง Idempotency
- ⏳ ปรับปรุง Unit test
- ✅ เชื่อมต่อ Task แต่ละตัวเข้ากับ Orchestrator
- ⏳ พัฒนางานอย่างต่อเนื่อง