# 🔍 Data Profiling คืออะไร?

**บทเรียนที่ 2.2a - ความรู้เบื้องต้น**

---

In [None]:
# ฟังก์ชัน Data Profiling แบบครบถ้วน
def comprehensive_data_profile(df, title="Data Profiling Report"):
    """
    สร้างรายงาน Data Profiling อย่างครบถ้วน
    """
    print(f"📊 {title}")
    print("=" * 60)
    
    # ข้อมูลทั่วไป
    print("📯 ข้อมูลทั่วไป:")
    print(f"   📊 จำนวนแถว: {len(df):,}")
    print(f"   📋 จำนวนคอลัมน์: {len(df.columns)}")
    print(f"   💾 ขนาดไฟล์: {df.memory_usage(deep=True).sum() / 1024 / 1024:.2f} MB")
    
    # ประเภทข้อมูล
    print("\n🎯 ประเภทข้อมูล:")
    dtype_summary = df.dtypes.value_counts()
    for dtype, count in dtype_summary.items():
        print(f"   {str(dtype):15}: {count} คอลัมน์")
    
    # ค่าว่าง
    print("\n🕳️ ค่าว่าง:")
    missing_data = df.isnull().sum()
    missing_cols = missing_data[missing_data > 0]
    
    if len(missing_cols) == 0:
        print("   ✅ ไม่มีค่าว่าง")
    else:
        for col, count in missing_cols.items():
            pct = (count / len(df)) * 100
            print(f"   {col:20}: {count:4d} ({pct:5.1f}%)")
    
    # ความไม่ซ้ำกัน
    print("\n🔢 ความไม่ซ้ำกัน:")
    for col in df.columns:
        unique_count = df[col].nunique()
        total_count = len(df)
        unique_ratio = unique_count / total_count
        
        if unique_ratio == 1.0:
            status = "🔑 Unique Key"
        elif unique_ratio > 0.95:
            status = "🎆 เกือบไม่ซ้ำ"
        elif unique_ratio < 0.1:
            status = "📄 ค่าน้อย"
        else:
            status = "📅 ปกติ"
        
        print(f"   {col:20}: {unique_count:4d} / {total_count} ({unique_ratio:5.1%}) {status}")
    
    # สถิติสำคัญ
    numeric_cols = df.select_dtypes(include=[np.number]).columns
    if len(numeric_cols) > 0:
        print("\n📊 สถิติข้อมูลตัวเลข (5 คอลัมน์แรก):")
        print(df[numeric_cols[:5]].describe())
    
    # คำแนะนำ
    print("\n💡 คำแนะนำ:")
    
    # 1. คอลัมน์ที่มีค่าว่างมาก
    high_missing = missing_data[missing_data > len(df) * 0.5]
    if len(high_missing) > 0:
        print(f"   ⚠️ คอลัมน์ที่มีค่าว่าง >50%: {list(high_missing.index)}")
    
    # 2. คอลัมน์ที่มีค่าเดียวเท่านั้น
    single_value_cols = [col for col in df.columns if df[col].nunique() == 1]
    if single_value_cols:
        print(f"   📄 คอลัมน์ที่มีค่าเดียว: {single_value_cols}")
    
    # 3. คอลัมน์ที่อาจเป็น ID
    potential_ids = [col for col in df.columns if df[col].nunique() / len(df) > 0.95]
    if potential_ids:
        print(f"   🔑 คอลัมน์ที่อาจเป็น ID: {potential_ids}")
    
    print("\n✅ การทำ Data Profiling เสร็จสมบูรณ์!")
    return df

# ใช้งานฟังก์ชัน
comprehensive_data_profile(df_loans, "Lending Club Data Profiling")

## 📚 สรุป

### ✅ สิ่งที่เราได้เรียนรู้:

1. **ความหมายของ Data Profiling**:
   - การตรวจสอบและวิเคราะห์ข้อมูลอย่างละเอียด
   - เหมือนการตรวจสุขภาพของข้อมูล
   - เตรียมพร้อมสำหรับการวิเคราะห์

2. **3 องค์ประกอบหลัก**:
   - Structure Profiling (โครงสร้าง)
   - Content Profiling (เนื้อหา)
   - Statistical Profiling (สถิติ)

3. **การประเมินคุณภาพข้อมูล**:
   - Completeness (ความสมบูรณ์)
   - Uniqueness (ความไม่ซ้ำ)
   - Validity (ความถูกต้อง)
   - Consistency (ความสอดคล้อง)

4. **เครื่องมือและเทคนิค**:
   - `.info()`, `.describe()`, `.isnull()`
   - `.nunique()`, `.value_counts()`
   - การสร้างฟังก์ชันช่วย

### 🚀 บทถัดไป:
เราจะเรียนรู้การ **วิเคราะห์แบบ Univariate** - การมองข้อมูลทีละตัวแปร

---
*💡 เคล็ดลับ: Data Profiling ที่ดีช่วยให้เราเข้าใจข้อมูลก่อนเริ่มวิเคราะห์!*