# 🔍 Diagnostic Analytics - "ทำไมถึงเกิดขึ้น?"

**บทเรียนที่ 1.3 - การวิเคราะห์เชิงวินิจฉัย**

---

## 🎯 วัตถุประสงค์

หลังจากเรียนบทนี้แล้ว ผู้เรียนจะสามารถ:
- เข้าใจความหมายของ Diagnostic Analytics
- หาความสัมพันธ์ระหว่างตัวแปรต่างๆ
- วิเคราะห์สาเหตุของปัญหาจากข้อมูล
- ประยุกต์ใช้กับข้อมูล Lending Club

## 📖 ความหมาย

**Diagnostic Analytics** คือ การวิเคราะห์เพื่อ **หาสาเหตุของสิ่งที่เกิดขึ้น**

### 🎯 จุดประสงค์
- เข้าใจว่าทำไมเหตุการณ์ต่างๆ ถึงเกิดขึ้น
- หาความสัมพันธ์ระหว่างตัวแปร
- ระบุปัจจัยที่มีผลกระทบ

### ❓ คำถามที่ตอบได้
- ทำไมยอดขายเดือนนี้ถึงลดลง?
- ปัจจัยอะไรที่ทำให้ลูกค้าผิดนัดชำระ?
- อะไรเป็นสาเหตุของการลาออกของพนักงาน?
- ทำไมเว็บไซต์มีผู้เข้าชมลดลง?

### 🛠️ เครื่องมือหลัก
- **Correlation Analysis** - หาความสัมพันธ์
- **Root Cause Analysis** - หาต้นเหตุ
- **Comparison** - เปรียบเทียบข้อมูล
- **Segmentation** - แบ่งกลุ่มข้อมูล

In [None]:
# ตัวอย่าง: ความสัมพันธ์ระหว่างรายได้และจำนวนเงินกู้

# ข้อมูลลูกค้า Lending Club
customers = {
    'annual_income': [35000, 45000, 55000, 65000, 75000, 40000, 50000, 60000, 70000, 80000],
    'loan_amount': [100000, 150000, 200000, 250000, 300000, 120000, 180000, 220000, 280000, 320000],
    'interest_rate': [15.1, 13.2, 11.8, 10.5, 8.9, 14.3, 12.5, 10.1, 9.8, 8.2]
}

print("🔍 การวิเคราะห์ความสัมพันธ์ (Diagnostic Analytics)")
print("="*55)

# แสดงข้อมูลเปรียบเทียบ
print("📊 ข้อมูลเปรียบเทียบ:")
print(f"{'รายได้ต่อปี':>12} {'จำนวนเงินกู้':>15} {'อัตราดอกเบี้ย':>15}")
print("-" * 45)

for i in range(len(customers['annual_income'])):
    income = customers['annual_income'][i]
    loan = customers['loan_amount'][i]
    rate = customers['interest_rate'][i]
    print(f"{income:>10,} {loan:>13,} {rate:>13}%")

print("\n🔍 การสังเกต:")
print("   • รายได้สูง → เงินกู้มาก")
print("   • รายได้สูง → อัตราดอกเบี้ยต่ำ")
print("   • เงินกู้มาก → อัตราดอกเบี้ยต่ำ")

In [None]:
# การวิเคราะห์ปัจจัยความเสี่ยง Lending Club

# ลูกค้าที่ผิดนัดชำระ
defaulted_customers = {
    'รายได้ต่อปี': [300000, 350000, 280000, 320000, 400000],
    'อัตราดอกเบี้ย': [15.2, 16.8, 14.5, 15.9, 17.1],
    'อายุ': [24, 26, 23, 25, 28],
    'ระยะเวลางาน': [1, 0.5, 1.5, 0.8, 2]  # ปี
}

# ลูกค้าที่ชำระปกติ
good_customers = {
    'รายได้ต่อปี': [500000, 600000, 450000, 550000, 650000],
    'อัตราดอกเบี้ย': [10.5, 9.8, 11.2, 10.1, 9.5],
    'อายุ': [35, 42, 38, 40, 45],
    'ระยะเวลางาน': [8, 12, 6, 10, 15]  # ปี
}

print("🏦 การวิเคราะห์ปัจจัยความเสี่ยงในการผิดนัดชำระ")
print("="*60)

# คำนวณค่าเฉลี่ยของแต่ละกลุ่ม
print("📊 เปรียบเทียบค่าเฉลี่ยระหว่างกลุ่ม:")
print(f"{'ปัจจัย':>20} {'ผิดนัดชำระ':>15} {'ชำระปกติ':>15} {'ความแตกต่าง':>15}")
print("-" * 70)

factors = ['รายได้ต่อปี', 'อัตราดอกเบี้ย', 'อายุ', 'ระยะเวลางาน']

for factor in factors:
    avg_default = sum(defaulted_customers[factor]) / len(defaulted_customers[factor])
    avg_good = sum(good_customers[factor]) / len(good_customers[factor])
    difference = avg_default - avg_good
    
    if factor == 'รายได้ต่อปี':
        print(f"{factor:>20} {avg_default:>13,.0f} {avg_good:>13,.0f} {difference:>13,.0f}")
    else:
        print(f"{factor:>20} {avg_default:>13.1f} {avg_good:>13.1f} {difference:>13.1f}")

print("\n🔍 การวิเคราะห์:")
print("   ✅ ปัจจัยที่บ่งบอกความเสี่ยงสูง:")
print("      🔴 อัตราดอกเบี้ยสูง (เฉลี่ย 15.9% vs 10.2%)")
print("      🔴 อายุน้อย (เฉลี่ย 25.2 ปี vs 40.0 ปี)")
print("      🔴 ประสบการณ์ทำงานน้อย (เฉลี่ย 1.2 ปี vs 10.2 ปี)")
print("      🔴 รายได้ต่ำกว่า (เฉลี่ย 330,000 vs 550,000)")

In [None]:
# 🏃‍♂️ Mini Exercise: วิเคราะห์สาเหตุการลาออกของพนักงาน

# ข้อมูลพนักงาน (จำลอง)
employees = {
    'อายุ': [28, 35, 42, 26, 38, 31, 45, 29, 33, 40],
    'เงินเดือน': [35000, 55000, 65000, 30000, 60000, 45000, 70000, 32000, 50000, 62000],
    'ระยะเวลางาน': [2, 5, 8, 1, 6, 3, 10, 1.5, 4, 7],  # ปี
    'สถานะ': ['ลาออก', 'อยู่', 'อยู่', 'ลาออก', 'อยู่', 'ลาออก', 'อยู่', 'ลาออก', 'อยู่', 'อยู่'],
    'แผนก': ['IT', 'การเงิน', 'HR', 'IT', 'การเงิน', 'IT', 'HR', 'การเงิน', 'IT', 'HR']
}

print("👥 แบบฝึกหัด: วิเคราะห์สาเหตุการลาออกของพนักงาน")
print("="*60)

# TODO: เขียนโค้ดเพื่อหา
# 1. แผนกไหนมีคนลาออกมากที่สุด?
# 2. ช่วงอายุไหนมีแนวโน้มลาออกสูง?
# 3. ความสัมพันธ์ระหว่างเงินเดือนกับการลาออก?
# 4. ระยะเวลางานเฉลี่ยของคนที่ลาออก vs คนที่อยู่?

print("💭 ลองวิเคราะห์ข้อมูลนี้ดูนะ!")
print("🎯 เป้าหมาย: หาปัจจัยที่มีผลต่อการลาออกของพนักงาน")
print("💡 เคล็ดลับ: แบ่งกลุ่มข้อมูลและเปรียบเทียบค่าเฉลี่ย")

## 📚 สรุป

### ✅ สิ่งที่เราได้เรียนรู้:

1. **Diagnostic Analytics** = การหาสาเหตุของสิ่งที่เกิดขึ้น

2. **เครื่องมือหลัก**:
   - การหาความสัมพันธ์ (Correlation)
   - การแบ่งกลุ่มเปรียบเทียบ
   - Root Cause Analysis

3. **การประยุกต์ใช้กับ Lending Club**:
   - วิเคราะห์ปัจจัยความเสี่ยง
   - หาสาเหตุของการผิดนัดชำระ
   - แบ่งกลุ่มลูกค้าตามความเสี่ยง

4. **ประโยชน์**:
   - ช่วยเข้าใจปัญหาได้ลึกขึ้น
   - สามารถปรับกลยุทธ์ได้อย่างเหมาะสม
   - ลดความเสี่ยงในอนาคต

### 🚀 บทถัดไป:
เราจะเรียนรู้ **Predictive Analytics** - การทำนายอนาคต "อะไรจะเกิดขึ้น?"

---
*💡 เคล็ดลับ: Diagnostic Analytics ช่วยให้เราเข้าใจ "ทำไม" ก่อนที่จะทำนาย "อะไร" ในอนาคต!*