# 🐼 Pandas DataFrame คืออะไร?

**บทเรียนที่ 2.1a - ความรู้เบื้องต้น**

---

## 🎯 วัตถุประสงค์

หลังจากเรียนบทนี้แล้ว ผู้เรียนจะสามารถ:
- เข้าใจความหมายและโครงสร้างของ Pandas DataFrame
- สร้าง DataFrame จากข้อมูลต่างๆ
- ดูข้อมูลเบื้องต้นของ DataFrame
- เข้าใจความแตกต่างระหว่าง DataFrame กับโครงสร้างข้อมูลอื่น

## 📖 ความหมาย

**Pandas DataFrame** คือ โครงสร้างข้อมูลแบบตาราง (2 มิติ) ที่:

### ✨ ลักษณะเด่น
- มีแถว (rows) และคอลัมน์ (columns)
- แต่ละคอลัมน์สามารถมีชนิดข้อมูลต่างกันได้
- มี index สำหรับแถวและคอลัมน์
- สามารถจัดการข้อมูลได้อย่างยืดหยุ่น

### 💡 เปรียบเทียบง่ายๆ
คิดเหมือน **Excel Spreadsheet** แต่อยู่ใน Python:
- แถว = แต่ละรายการข้อมูล (เช่น ลูกค้าแต่ละคน)
- คอลัมน์ = คุณสมบัติต่างๆ (เช่น ชื่อ, อายุ, เงินเดือน)
- เซลล์ = ค่าข้อมูลแต่ละตัว

In [None]:
# นำเข้า Pandas
import pandas as pd
import numpy as np

print("🐼 ยินดีต้อนรับสู่โลกของ Pandas!")
print(f"📦 Pandas version: {pd.__version__}")

## 🏗️ การสร้าง DataFrame

มีหลายวิธีในการสร้าง DataFrame

In [None]:
# วิธีที่ 1: สร้างจาก Dictionary

# ข้อมูลลูกค้า Lending Club (ตัวอย่าง)
customer_data = {
    'customer_id': ['LC001', 'LC002', 'LC003', 'LC004', 'LC005'],
    'age': [28, 35, 42, 31, 29],
    'annual_income': [450000, 650000, 800000, 520000, 480000],
    'loan_amount': [200000, 300000, 350000, 250000, 180000],
    'loan_purpose': ['การศึกษา', 'ซื้อรถ', 'ปรับปรุงบ้าน', 'ผ่อนหนี้', 'ธุรกิจ']
}

# สร้าง DataFrame
df_customers = pd.DataFrame(customer_data)

print("📊 ตัวอย่าง DataFrame ข้อมูลลูกค้า:")
print(df_customers)

In [None]:
# วิธีที่ 2: สร้างจาก List of Lists

# ข้อมูลในรูปแบบ list
loan_data = [
    ['A', 8.5, 36, 'Paid'],
    ['B', 12.3, 60, 'Current'],
    ['C', 15.1, 36, 'Default'],
    ['A', 9.8, 48, 'Paid'],
    ['B', 11.2, 60, 'Current']
]

# กำหนดชื่อคอลัมน์
columns = ['grade', 'interest_rate', 'term_months', 'loan_status']

# สร้าง DataFrame
df_loans = pd.DataFrame(loan_data, columns=columns)

print("\n📊 ตัวอย่าง DataFrame ข้อมูลเงินกู้:")
print(df_loans)

In [None]:
# วิธีที่ 3: สร้าง DataFrame ว่าง แล้วเพิ่มข้อมูลทีละคอลัมน์

# สร้าง DataFrame ว่าง
df_empty = pd.DataFrame()

# เพิ่มข้อมูลทีละคอลัมน์
df_empty['month'] = ['ม.ค.', 'ก.พ.', 'มี.ค.', 'เม.ย.', 'พ.ค.']
df_empty['applications'] = [150, 180, 165, 200, 175]
df_empty['approvals'] = [120, 144, 132, 160, 140]

# คำนวณอัตราการอนุมัติ
df_empty['approval_rate'] = (df_empty['approvals'] / df_empty['applications'] * 100).round(1)

print("\n📊 ตัวอย่าง DataFrame ที่สร้างทีละคอลัมน์:")
print(df_empty)

## 🔍 การดูข้อมูลเบื้องต้น

ฟังก์ชันพื้นฐานสำหรับสำรวจ DataFrame

In [None]:
# ใช้ข้อมูลลูกค้าเป็นตัวอย่าง
print("🔍 การสำรวจ DataFrame เบื้องต้น")
print("="*50)

# 1. ขนาดของ DataFrame
print(f"📏 ขนาดข้อมูล (แถว, คอลัมน์): {df_customers.shape}")
print(f"📋 จำนวนแถว: {len(df_customers)}")
print(f"📊 จำนวนคอลัมน์: {len(df_customers.columns)}")

# 2. ชื่อคอลัมน์
print(f"\n🏷️ ชื่อคอลัมน์: {list(df_customers.columns)}")

# 3. ชนิดข้อมูลของแต่ละคอลัมน์
print("\n📊 ชนิดข้อมูลของแต่ละคอลัมน์:")
print(df_customers.dtypes)

# 4. ข้อมูลทั่วไป
print("\n📋 ข้อมูลทั่วไป:")
print(df_customers.info())

In [None]:
# การดูข้อมูลบางส่วน

print("👀 การดูข้อมูลบางส่วน")
print("="*40)

# ดู 3 แถวแรก
print("🔝 3 แถวแรก:")
print(df_customers.head(3))

# ดู 2 แถวสุดท้าย
print("\n🔚 2 แถวสุดท้าย:")
print(df_customers.tail(2))

# ดูข้อมูลแบบสุ่ม
print("\n🎲 2 แถวแบบสุ่ม:")
print(df_customers.sample(2))

## 📊 โครงสร้างของ DataFrame

เข้าใจส่วนประกอบต่างๆ ของ DataFrame

In [None]:
print("🏗️ โครงสร้างของ DataFrame")
print("="*40)

# 1. Index (ดัชนีแถว)
print("📑 Index (ดัชนีแถว):")
print(df_customers.index)
print(f"ประเภท: {type(df_customers.index)}")

# 2. Columns (ดัชนีคอลัมน์)
print("\n📊 Columns (ดัชนีคอลัมน์):")
print(df_customers.columns)
print(f"ประเภท: {type(df_customers.columns)}")

# 3. Values (ค่าข้อมูล)
print("\n💾 Values (ค่าข้อมูล):")
print(df_customers.values)
print(f"ประเภท: {type(df_customers.values)}")
print(f"รูปร่าง: {df_customers.values.shape}")

## 🎯 การเข้าถึงข้อมูล

วิธีการเลือกและเข้าถึงข้อมูลใน DataFrame

In [None]:
# การเลือกคอลัมน์

print("🎯 การเลือกข้อมูล")
print("="*30)

# เลือกคอลัมน์เดียว
print("📊 คอลัมน์ 'age':")
print(df_customers['age'])
print(f"ประเภท: {type(df_customers['age'])}\n")

# เลือกหลายคอลัมน์
print("📊 หลายคอลัมน์:")
selected_cols = df_customers[['customer_id', 'age', 'annual_income']]
print(selected_cols)
print(f"ประเภท: {type(selected_cols)}")

In [None]:
# การเลือกแถว

print("📑 การเลือกแถว")
print("="*25)

# เลือกแถวตามตำแหน่ง (iloc)
print("🔢 แถวที่ 0 (iloc):")
print(df_customers.iloc[0])

# เลือกแถวตาม index (loc)
print("\n🏷️ แถวที่ index = 1 (loc):")
print(df_customers.loc[1])

# เลือกหลายแถว
print("\n📚 แถวที่ 1-3:")
print(df_customers.iloc[1:4])  # ไม่รวม index 4

## 🏦 ตัวอย่างข้อมูล Lending Club

มาดู DataFrame ที่ซับซ้อนขึ้นกับข้อมูลจริง

In [None]:
# สร้างข้อมูล Lending Club ที่สมจริงมากขึ้น

import random
import datetime

# กำหนด seed เพื่อให้ผลลัพธ์เหมือนกันทุกครั้ง
random.seed(42)
np.random.seed(42)

# สร้างข้อมูลจำลอง
n_customers = 10

lending_data = {
    'loan_id': [f'LC{i:04d}' for i in range(1, n_customers + 1)],
    'member_id': [f'M{i:06d}' for i in range(100001, 100001 + n_customers)],
    'loan_amount': np.random.randint(50000, 500000, n_customers),
    'funded_amount': lambda: [amt * random.uniform(0.9, 1.0) for amt in lending_data['loan_amount']],
    'term': np.random.choice([36, 60], n_customers),
    'interest_rate': np.round(np.random.uniform(6.0, 18.0, n_customers), 2),
    'grade': np.random.choice(['A', 'B', 'C', 'D', 'E'], n_customers),
    'employment_length': np.random.choice(['< 1 year', '1 year', '2 years', '3 years', '4 years', 
                                         '5 years', '6 years', '7 years', '8 years', '9 years', 
                                         '10+ years'], n_customers),
    'home_ownership': np.random.choice(['RENT', 'OWN', 'MORTGAGE'], n_customers),
    'annual_income': np.random.randint(200000, 1000000, n_customers),
    'loan_status': np.random.choice(['Current', 'Fully Paid', 'Charged Off', 'Late'], n_customers),
    'purpose': np.random.choice(['debt_consolidation', 'credit_card', 'home_improvement', 
                               'major_purchase', 'car', 'medical', 'vacation', 'wedding'], n_customers)
}

# แก้ไข funded_amount
lending_data['funded_amount'] = [int(amt * random.uniform(0.9, 1.0)) for amt in lending_data['loan_amount']]

# สร้าง DataFrame
df_lending = pd.DataFrame(lending_data)

print("🏦 ตัวอย่างข้อมูล Lending Club")
print("="*50)
print(df_lending)

In [None]:
# การสำรวจข้อมูล Lending Club

print("🔍 การสำรวจข้อมูล Lending Club")
print("="*45)

# ข้อมูลทั่วไป
print(f"📊 จำนวนเงินกู้: {len(df_lending)} รายการ")
print(f"📋 จำนวนคอลัมน์: {len(df_lending.columns)} คอลัมน์")

# สถิติเบื้องต้น
print(f"\n💰 สถิติจำนวนเงินกู้:")
print(f"   เฉลี่ย: {df_lending['loan_amount'].mean():,.0f} บาท")
print(f"   สูงสุด: {df_lending['loan_amount'].max():,.0f} บาท")
print(f"   ต่ำสุด: {df_lending['loan_amount'].min():,.0f} บาท")

# การแจกแจงตามเกรด
print(f"\n📊 การแจกแจงตามเกรด:")
grade_counts = df_lending['grade'].value_counts().sort_index()
for grade, count in grade_counts.items():
    percentage = (count / len(df_lending)) * 100
    print(f"   เกรด {grade}: {count} รายการ ({percentage:.1f}%)")

## 🎯 แบบฝึกหัด

### 💭 คำถามให้คิด:

1. **ความแตกต่างระหว่าง DataFrame กับ Excel:**
   - DataFrame มีข้อดีอะไรเหนือกว่า Excel?
   - เมื่อไหร่ควรใช้ DataFrame แทน Excel?

2. **จากข้อมูล Lending Club:**
   - คอลัมน์ไหนที่น่าจะมีความสัมพันธ์กัน?
   - ข้อมูลไหนที่อาจต้องทำความสะอาดก่อน?

In [None]:
# 🏃‍♂️ Mini Exercise: สร้าง DataFrame ของคุณเอง

# ข้อมูลพนักงานบริษัท (ตัวอย่าง)
employee_data = {
    'emp_id': ['E001', 'E002', 'E003', 'E004', 'E005'],
    'name': ['สมใส', 'วิชัย', 'มานี', 'สุดา', 'ประสิทธิ์'],
    'department': ['IT', 'HR', 'Finance', 'IT', 'Marketing'],
    'salary': [55000, 48000, 62000, 58000, 45000],
    'years_experience': [3, 7, 5, 2, 4]
}

print("🏃‍♂️ แบบฝึกหัด: สร้างและสำรวจ DataFrame")
print("="*50)

# TODO: 
# 1. สร้าง DataFrame จากข้อมูลข้างต้น
# 2. ดูข้อมูลเบื้องต้น (shape, dtypes, head)
# 3. หาพนักงานที่มีเงินเดือนสูงสุดและต่ำสุด
# 4. นับจำนวนพนักงานในแต่ละแผนก
# 5. คำนวณเงินเดือนเฉลี่ยของแต่ละแผนก

print("💭 ลองสร้างและวิเคราะห์ DataFrame นี้ดูนะ!")
print("🎯 เป้าหมาย: เข้าใจการใช้งาน DataFrame พื้นฐาน")
print("💡 เคล็ดลับ: ใช้ .max(), .min(), .value_counts(), .groupby()")

## 📚 สรุป

### ✅ สิ่งที่เราได้เรียนรู้:

1. **DataFrame คืออะไร**:
   - โครงสร้างข้อมูลแบบตาราง 2 มิติ
   - มีแถว (rows) และคอลัมน์ (columns)
   - คล้าย Excel แต่มีความสามารถมากกว่า

2. **การสร้าง DataFrame**:
   - จาก Dictionary
   - จาก List of Lists
   - สร้างว่างแล้วเพิ่มข้อมูล

3. **การสำรวจข้อมูล**:
   - .shape, .dtypes, .info()
   - .head(), .tail(), .sample()
   - การเข้าถึงแถวและคอลัมน์

4. **โครงสร้าง DataFrame**:
   - Index (ดัชนีแถว)
   - Columns (ดัชนีคอลัมน์)
   - Values (ค่าข้อมูล)

### 🚀 บทถัดไป:
เราจะเรียนรู้การ **อ่านข้อมูลจากไฟล์** CSV, Excel และการจัดการข้อมูลขั้นพื้นฐาน

---
*💡 เคล็ดลับ: DataFrame เป็นหัวใจสำคัญของการวิเคราะห์ข้อมูลใน Python!*