# 🔗 Correlation Analysis - ส่วนที่ 1

**บทเรียนที่ 2.4i - การวิเคราะห์ความสัมพันธ์ (พื้นฐาน)**

---

## 🎯 วัตถุประสงค์

หลังจากเรียนบทนี้แล้ว ผู้เรียนจะสามารถ:
- เข้าใจประเภทของ Correlation ต่างๆ
- คำนวณและตีความ Correlation Coefficient
- เปรียบเทียบ Pearson, Spearman และ Kendall

In [None]:
# นำเข้า libraries ที่จำเป็น
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
from scipy.stats import pearsonr, spearmanr, kendalltau
import warnings
warnings.filterwarnings('ignore')

print("🔗 Correlation Analysis - ส่วนที่ 1")
print("=" * 40)

## 📖 ประเภทของ Correlation

### 1. 📊 **Pearson Correlation**
- วัดความสัมพันธ์**เชิงเส้น**
- ใช้กับข้อมูลที่มีการกระจายแบบปกติ
- ค่าอยู่ระหว่าง -1 ถึง +1
- **เมื่อใช้**: ข้อมูลต่อเนื่อง, การกระจายปกติ

### 2. 📈 **Spearman Correlation**
- วัดความสัมพันธ์**เชิงอันดับ** (monotonic)
- ใช้กับข้อมูลที่ไม่เป็นปกติ
- ทนต่อ outliers มากกว่า Pearson
- **เมื่อใช้**: ข้อมูลไม่เป็นปกติ, มี outliers

### 3. 📉 **Kendall Tau**
- วัดความสัมพันธ์เชิงอันดับ
- เหมาะกับข้อมูลขนาดเล็ก
- ทนต่อ outliers มากที่สุด
- **เมื่อใช้**: ข้อมูลน้อย, ต้องการความแม่นยำสูง

## 📊 เตรียมข้อมูลตัวอย่าง

In [None]:
# สร้างข้อมูลที่มี correlation patterns ต่างๆ
np.random.seed(42)
n = 500

# ข้อมูลชุดที่ 1: ความสัมพันธ์เชิงเส้นแข็งแกร่ง
x1 = np.random.normal(0, 1, n)
y1 = 2 * x1 + np.random.normal(0, 0.5, n)

# ข้อมูลชุดที่ 2: ความสัมพันธ์เชิงเส้นอ่อน
x2 = np.random.normal(0, 1, n)
y2 = 0.5 * x2 + np.random.normal(0, 2, n)

# ข้อมูลชุดที่ 3: ความสัมพันธ์แบบโค้ง (non-linear)
x3 = np.random.uniform(-3, 3, n)
y3 = x3**2 + np.random.normal(0, 2, n)

# ข้อมูลชุดที่ 4: ไม่มีความสัมพันธ์
x4 = np.random.normal(0, 1, n)
y4 = np.random.normal(0, 1, n)

# รวมข้อมูล
df_examples = pd.DataFrame({
    'linear_strong_x': x1,
    'linear_strong_y': y1,
    'linear_weak_x': x2,
    'linear_weak_y': y2,
    'nonlinear_x': x3,
    'nonlinear_y': y3,
    'random_x': x4,
    'random_y': y4
})

print("📊 ข้อมูลตัวอย่าง 4 ชุด:")
print(f"ขนาด: {df_examples.shape}")
print(df_examples.head())

## 🔍 ตัวอย่างการคำนวณ Correlation

In [None]:
def simple_correlation_demo(x, y, title):
    """
    Demo การคำนวณ correlation แบบง่าย
    """
    print(f"\n📊 {title}")
    print("-" * 50)
    
    # คำนวณ correlation 3 แบบ
    pearson_r, pearson_p = pearsonr(x, y)
    spearman_r, spearman_p = spearmanr(x, y)
    kendall_r, kendall_p = kendalltau(x, y)
    
    print(f"Pearson r:  {pearson_r:>7.3f} (p = {pearson_p:.4f})")
    print(f"Spearman ρ: {spearman_r:>7.3f} (p = {spearman_p:.4f})")
    print(f"Kendall τ:  {kendall_r:>7.3f} (p = {kendall_p:.4f})")
    
    # ตีความ
    if abs(pearson_r) >= 0.7:
        strength = "แข็งแกร่ง"
    elif abs(pearson_r) >= 0.3:
        strength = "ปานกลาง"
    elif abs(pearson_r) >= 0.1:
        strength = "อ่อน"
    else:
        strength = "ไม่มี"
    
    direction = "บวก" if pearson_r > 0 else "ลบ"
    print(f"การตีความ: ความสัมพันธ์{strength} ทิศทาง{direction}")
    
    return pearson_r, spearman_r, kendall_r

# ทดสอบกับข้อมูล 4 ชุด
print("🔍 การเปรียบเทียบ Correlation Methods")
print("=" * 60)

results = {}
results['strong'] = simple_correlation_demo(
    df_examples['linear_strong_x'], df_examples['linear_strong_y'],
    "1. ความสัมพันธ์เชิงเส้นแข็งแกร่ง"
)

results['weak'] = simple_correlation_demo(
    df_examples['linear_weak_x'], df_examples['linear_weak_y'],
    "2. ความสัมพันธ์เชิงเส้นอ่อน"
)

results['nonlinear'] = simple_correlation_demo(
    df_examples['nonlinear_x'], df_examples['nonlinear_y'],
    "3. ความสัมพันธ์แบบโค้ง (Non-linear)"
)

results['random'] = simple_correlation_demo(
    df_examples['random_x'], df_examples['random_y'],
    "4. ไม่มีความสัมพันธ์ (Random)"
)

## 📊 การแสดงผลด้วยกราฟ

In [None]:
# สร้างกราฟเปรียบเทียบ
fig, axes = plt.subplots(2, 2, figsize=(15, 12))
fig.suptitle('🔗 ตัวอย่าง Correlation Patterns', fontsize=16, fontweight='bold')

# กราฟที่ 1: ความสัมพันธ์แข็งแกร่ง
axes[0, 0].scatter(df_examples['linear_strong_x'], df_examples['linear_strong_y'], 
                   alpha=0.6, color='blue')
axes[0, 0].set_title(f'ความสัมพันธ์แข็งแกร่ง\nPearson r = {results["strong"][0]:.3f}')
axes[0, 0].set_xlabel('X')
axes[0, 0].set_ylabel('Y')

# กราฟที่ 2: ความสัมพันธ์อ่อน
axes[0, 1].scatter(df_examples['linear_weak_x'], df_examples['linear_weak_y'], 
                   alpha=0.6, color='green')
axes[0, 1].set_title(f'ความสัมพันธ์อ่อน\nPearson r = {results["weak"][0]:.3f}')
axes[0, 1].set_xlabel('X')
axes[0, 1].set_ylabel('Y')

# กราฟที่ 3: ความสัมพันธ์แบบโค้ง
axes[1, 0].scatter(df_examples['nonlinear_x'], df_examples['nonlinear_y'], 
                   alpha=0.6, color='red')
axes[1, 0].set_title(f'ความสัมพันธ์แบบโค้ง\nPearson r = {results["nonlinear"][0]:.3f}\nSpearman ρ = {results["nonlinear"][1]:.3f}')
axes[1, 0].set_xlabel('X')
axes[1, 0].set_ylabel('Y')

# กราฟที่ 4: ไม่มีความสัมพันธ์
axes[1, 1].scatter(df_examples['random_x'], df_examples['random_y'], 
                   alpha=0.6, color='gray')
axes[1, 1].set_title(f'ไม่มีความสัมพันธ์\nPearson r = {results["random"][0]:.3f}')
axes[1, 1].set_xlabel('X')
axes[1, 1].set_ylabel('Y')

plt.tight_layout()
plt.show()

## 💡 Key Takeaways

### ✅ ข้อสังเกต:

1. **Pearson vs Spearman**: 
   - ใกล้เคียงกันในความสัมพันธ์เชิงเส้น
   - ต่างกันมากในความสัมพันธ์แบบโค้ง

2. **Non-linear Relationships**:
   - Pearson อาจให้ค่าต่ำแม้มีความสัมพันธ์
   - Spearman สามารถจับความสัมพันธ์แบบโค้งได้ดีกว่า

3. **การเลือกใช้**:
   - **Pearson**: ข้อมูลปกติ, ความสัมพันธ์เชิงเส้น
   - **Spearman**: ข้อมูลไม่ปกติ, มี outliers
   - **Kendall**: ข้อมูลน้อย, ต้องการความแม่นยำ

### 🚀 ในบทถัดไป:
เราจะเรียนรู้การสร้าง **Correlation Matrix** และ **Heatmap**

---
*💡 เคล็ดลับ: ใช้หลายวิธีเปรียบเทียบเพื่อให้ได้ภาพรวมที่ครบถ้วน!*