# 🚀 Lab: Complete Data Pipeline

**บทเรียนที่ 2.6n - Lab: ท่อส่งข้อมูลแบบครบวงจร**

---

## 🎯 วัตถุประสงค์

ใน Lab นี้ ผู้เรียนจะได้:
- สร้าง Data Pipeline ที่สมบูรณ์
- ประยุกต์ทุกเทคนิคที่เรียนมา
- สร้างฟังก์ชันที่ใช้งานได้จริง
- เตรียมข้อมูลสำหรับ Machine Learning

In [None]:
# นำเข้า libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import warnings
warnings.filterwarnings('ignore')

print("🚀 Lab: Complete Data Pipeline")
print("=" * 40)

## 🏃‍♂️ แบบฝึกหัดสำหรับผู้เรียน

### 📝 ภารกิจ:
สร้าง Data Pipeline ที่ครอบคลุม:

1. **Data Loading** - โหลดข้อมูล
2. **Data Profiling** - วิเคราะห์คุณภาพข้อมูล
3. **Data Cleaning** - ทำความสะอาดข้อมูล
4. **Feature Engineering** - สร้างตัวแปรใหม่
5. **Data Validation** - ตรวจสอบผลลัพธ์
6. **Data Export** - ส่งออกข้อมูลที่สะอาด

In [None]:
# ตัวอย่างการใช้งาน - ให้ผู้เรียนปรับปรุงและขยายต่อ

def simple_data_pipeline():
    """
    ตัวอย่าง Data Pipeline แบบง่าย
    ให้ผู้เรียนปรับปรุงและเพิ่มฟีเจอร์
    """
    print("🔧 Simple Data Pipeline")
    print("-" * 30)
    
    # Step 1: Create sample data
    np.random.seed(42)
    n = 100
    
    data = {
        'loan_id': range(1, n+1),
        'amount': np.random.randint(5000, 50000, n),
        'rate': np.random.uniform(5, 20, n),
        'grade': np.random.choice(['A', 'B', 'C'], n),
        'income': np.random.randint(30000, 100000, n)
    }
    
    df = pd.DataFrame(data)
    print(f"✅ สร้างข้อมูล: {df.shape}")
    
    # Step 2: Add some problems
    # เพิ่มค่าว่าง
    df.loc[df.sample(5).index, 'income'] = np.nan
    # เพิ่มข้อมูลซ้ำ
    df = pd.concat([df, df.sample(3)], ignore_index=True)
    print(f"⚠️ เพิ่มปัญหา: ค่าว่าง {df.isnull().sum().sum()}, ซ้ำ {df.duplicated().sum()}")
    
    # Step 3: Clean data
    df = df.drop_duplicates()
    df['income'] = df['income'].fillna(df['income'].median())
    print(f"🧹 ทำความสะอาด: {df.shape}")
    
    # Step 4: Feature engineering
    df['loan_to_income'] = df['amount'] / df['income']
    df['risk_score'] = df['rate'] * df['loan_to_income']
    print(f"🏭 เพิ่มฟีเจอร์: {df.shape[1]} คอลัมน์")
    
    return df

# ทดสอบ
sample_result = simple_data_pipeline()
print("\n📊 ตัวอย่างผลลัพธ์:")
print(sample_result.head())

## 🎯 แบบฝึกหัดขั้นสูง

### 📋 TODO List สำหรับผู้เรียน:

```python
# 1. ขยาย simple_data_pipeline() ให้ครอบคลุม:
#    - การตรวจสอบ outliers
#    - การ validate ข้อมูลหลังทำความสะอาด
#    - การสร้าง data quality report

# 2. สร้างฟังก์ชันเพิ่มเติม:
#    - detect_outliers_comprehensive()
#    - create_data_quality_report()
#    - visualize_data_distributions()

# 3. สร้าง Class-based Pipeline:
#    - LendingDataProcessor class
#    - เก็บ log ของการเปลี่ยนแปลงทั้งหมด
#    - สามารถ rollback ได้

# 4. เพิ่มการทดสอบ:
#    - Unit tests สำหรับแต่ละฟังก์ชัน
#    - Integration tests สำหรับ pipeline
```

In [None]:
# Template สำหรับผู้เรียนพัฒนาต่อ

class AdvancedDataPipeline:
    """
    Template สำหรับ Advanced Data Pipeline
    ให้ผู้เรียนเติมเมธอดต่างๆ
    """
    
    def __init__(self):
        self.data = None
        self.log = []
        self.quality_metrics = {}
    
    def load_data(self, source):
        """TODO: โหลดข้อมูลจากแหล่งต่างๆ"""
        pass
    
    def profile_data(self):
        """TODO: ทำ comprehensive data profiling"""
        pass
    
    def detect_anomalies(self):
        """TODO: หาข้อมูลผิดปกติด้วยหลายวิธี"""
        pass
    
    def clean_data(self):
        """TODO: ทำความสะอาดข้อมูลอย่างละเอียด"""
        pass
    
    def engineer_features(self):
        """TODO: สร้าง features ที่มีประโยชน์"""
        pass
    
    def validate_output(self):
        """TODO: ตรวจสอบคุณภาพข้อมูลสุดท้าย"""
        pass
    
    def generate_report(self):
        """TODO: สร้างรายงานสรุป"""
        pass
    
    def export_data(self, format='csv'):
        """TODO: ส่งออกข้อมูลในรูปแบบต่างๆ"""
        pass

print("📝 Template พร้อมสำหรับการพัฒนา!")
print("💡 ผู้เรียนสามารถเติมเมธอดต่างๆ ตามความต้องการ")

## 🏆 Challenge: สร้าง Production-Ready Pipeline

### 🎯 เป้าหมาย:
สร้าง Data Pipeline ที่:
- **Robust**: ทนทานต่อข้อมูลที่มีปัญหา
- **Scalable**: รองรับข้อมูลขนาดใหญ่
- **Maintainable**: ง่ายต่อการดูแลรักษา
- **Testable**: มี unit tests ครบถ้วน

### 📋 Requirements:
1. **Error Handling**: จัดการ error อย่างเหมาะสม
2. **Logging**: บันทึก log ทุกขั้นตอน
3. **Configuration**: ใช้ config file สำหรับ parameters
4. **Monitoring**: ติดตาม data quality metrics
5. **Documentation**: มี docstring และ comments ครบถ้วน

In [None]:
# ตัวอย่าง config สำหรับ pipeline

PIPELINE_CONFIG = {
    'data_quality_thresholds': {
        'max_missing_percentage': 20,
        'max_duplicate_percentage': 5,
        'min_completeness_score': 85
    },
    'outlier_detection': {
        'methods': ['iqr', 'zscore', 'isolation_forest'],
        'iqr_multiplier': 1.5,
        'zscore_threshold': 3,
        'isolation_contamination': 0.1
    },
    'feature_engineering': {
        'create_ratios': True,
        'create_categories': True,
        'create_flags': True
    },
    'output': {
        'formats': ['csv', 'parquet'],
        'include_metadata': True,
        'compression': 'gzip'
    }
}

print("⚙️ ตัวอย่าง Configuration")
print("สามารถปรับแต่ง pipeline ผ่าน config file")

# ตัวอย่างการใช้งาน config
max_missing = PIPELINE_CONFIG['data_quality_thresholds']['max_missing_percentage']
print(f"📊 ขีดจำกัดค่าว่าง: {max_missing}%")

## 📊 ตัวอย่างผลลัพธ์ที่ควรได้

In [None]:
# ตัวอย่างการแสดงผล pipeline results

def display_pipeline_results():
    """
    แสดงตัวอย่างผลลัพธ์ที่ควรได้จาก pipeline
    """
    print("🎊 ตัวอย่างผลลัพธ์ Pipeline")
    print("=" * 50)
    
    # Data Quality Metrics
    print("📊 Data Quality Metrics:")
    print("   ✅ Completeness: 95.2%")
    print("   ✅ Uniqueness: 98.7%")
    print("   ✅ Validity: 92.3%")
    print("   ✅ Consistency: 96.8%")
    print("   🏆 Overall Score: 95.8%")
    
    # Processing Statistics
    print("\n🔧 Processing Statistics:")
    print("   📥 Input Records: 10,000")
    print("   🧹 Records Cleaned: 9,847")
    print("   ❌ Records Removed: 153 (1.5%)")
    print("   🆕 Features Created: 8")
    print("   ⏱️ Processing Time: 2.3 seconds")
    
    # Data Issues Found
    print("\n⚠️ Data Issues Addressed:")
    print("   🕳️ Missing Values: 245 cells filled")
    print("   🔄 Duplicate Records: 12 rows removed")
    print("   🎯 Outliers: 23 values capped")
    print("   📝 Format Issues: 67 values standardized")
    
    # Output Files
    print("\n💾 Output Files Created:")
    print("   📄 cleaned_data.csv (2.1 MB)")
    print("   📄 data_quality_report.html")
    print("   📄 processing_log.txt")
    print("   📄 feature_dictionary.json")
    
    print("\n🎉 Pipeline ทำงานสำเร็จ!")
    print("📈 ข้อมูลพร้อมสำหรับการวิเคราะห์ขั้นต่อไป")

display_pipeline_results()

## 📚 สรุป Lab

### ✅ ความรู้ที่ได้รับ:

1. **Pipeline Design**:
   - การออกแบบ data pipeline ที่มีประสิทธิภาพ
   - การแบ่งขั้นตอนให้ชัดเจนและสามารถดูแลรักษาได้

2. **Code Organization**:
   - การใช้ class และ method อย่างเหมาะสม
   - การจัดการ configuration และ parameters

3. **Error Handling**:
   - การจัดการข้อผิดพลาดที่อาจเกิดขึ้น
   - การสร้าง robust pipeline

4. **Documentation**:
   - การบันทึก log และสร้างรายงาน
   - การจัดทำ data dictionary

### 🎯 Next Steps:

1. **ทดลองกับข้อมูลจริง**: ใช้ pipeline กับข้อมูล Lending Club จริง
2. **ปรับปรุง performance**: เพิ่มความเร็วสำหรับข้อมูลขนาดใหญ่
3. **เพิ่ม monitoring**: ติดตาม data quality อย่างต่อเนื่อง
4. **สร้าง API**: ทำให้ pipeline เป็น web service

### 🏆 Challenge สำหรับผู้เรียน:

สร้าง production-ready pipeline ที่:
- รองรับข้อมูล 1 ล้านแถว
- ทำงานได้ใน cloud environment
- มี automated testing
- มี real-time monitoring dashboard

---
*🚀 ยินดีด้วย! คุณได้เรียนรู้การสร้าง Data Pipeline ที่สมบูรณ์แล้ว*