#### 📊 EDA Workflow for Data Engineer (with PySpark)

##### 🔁 1. Sampling & Basic Exploration

 - ✅ Load ข้อมูลผ่าน Spark (`read.csv`, `read.parquet`, etc.)

 - ✅ ดู schema (`df.printSchema()`)

 - ✅ ดูจำนวน row (`df.count()`)

 - ✅ ดูตัวอย่างข้อมูล (`df.show(5)`)

  🔹 ใช้ `.sample(fraction=0.05, seed=42)` แทน `.toPandas()`
 
  🔹 ใช้ `.summary()` หรือ `.describe()` ดูค่าพื้นฐาน

#### 📐 2. Data Profiling (Statistical Summary)

- ✅ คำนวณค่ากลาง (mean, median)

- ✅ Approx quantiles (Q1, Q3, IQR)

In [None]:
q1, q3 = df.approxQuantile("col", [0.25, 0.75], 0.01) # type: ignore
iqr = q3 - q1

- ✅ ตรวจค่า missing/null

In [None]:
df.select([F.count(F.when(F.col(c).isNull(), 1)).alias(c) for c in df.columns]) # type: ignore

- ✅ ดู unique values ต่อ column

In [None]:
df.select("col").distinct().count() # type: ignore

##### 📦 3. Data Quality Check

- ✅ Null / Duplicate / Inconsistent Format

- ✅ Data type mismatch (เช่นจำนวนที่เป็น string)

- ✅ Logical errors (ex. quantity < 0)

🔹 ใช้ `.filter()` และ `.isNull()` / `.isNotNull()` ตรวจ

##### 🚩 4. Outlier Detection

- ✅ IQR method (หรือ Z-score ถ้า normal)

- ✅ กรองข้อมูลผิดปกติ (optional drop)

- ✅ Flag หรือแยกข้อมูลผิดปกติ

🔹 ใช้ `.filter((col > upper_bound) | (col < lower_bound))`

🔹 หรือ `.withColumn("is_outlier", condition)`

##### 🧠 5. Human Insight via Visualization

- ✅ สุ่ม sample แล้ว `collect()` มาทำ Pandas / Seaborn plot

- ✅ Histogram / Boxplot / Countplot

- ✅ Heatmap (สำหรับ correlation)

🔹 เน้นดู skew, distribution, outlier รูปแบบ

🔹 ใช้ `seed` เพื่อให้สุ่มแบบ reproducible

##### 📁 6. Store Cleaned/Prepared Data

- ✅ Save data หลัง clean แบบ partitioned Parquet (หรือ Delta Lake)

- ✅ หรือ cache ไว้ถ้าต้องทำต่อ