# 🔢 การใช้งาน Python กับข้อมูล Lending Club

**เสริมสำหรับ Module 1: Essential Data Analytics & Basic Python**

---

## 🎯 วัตถุประสงค์
- ฝึกใช้ Python เบื้องต้นกับข้อมูลจริง
- เข้าใจการทำงานกับ Pandas DataFrame
- ประยุกต์ใช้ Python ในการวิเคราะห์ข้อมูลเบื้องต้น

## 📚 Quick Setup

รัน cell นี้เพื่อเตรียมข้อมูลสำหรับการเรียนรู้ Python

In [None]:
# 🚀 Quick Setup
from google.colab import drive
import pandas as pd
import numpy as np

# Mount Drive
drive.mount('/content/drive')

# โหลดข้อมูลตัวอย่าง
DATA_PATH = '/content/drive/MyDrive/NT_Python_for_Data_Analytics/LoanStats_web_14422.csv'

try:
    df = pd.read_csv(DATA_PATH, nrows=500)  # โหลด 500 แถวสำหรับฝึกหัด
    print(f'✅ โหลดข้อมูลสำเร็จ: {df.shape}')
    print(f'📊 คอลัมน์ที่มี: {len(df.columns)} คอลัมน์')
except:
    print('❌ ไม่สามารถโหลดข้อมูลได้ - จะใช้ข้อมูลจำลองแทน')
    # สร้างข้อมูลจำลองสำหรับฝึกหัด
    df = pd.DataFrame({
        'loan_amnt': [10000, 15000, 5000, 20000, 12000],
        'int_rate': [10.5, 12.3, 8.9, 15.2, 11.1],
        'grade': ['A', 'B', 'A', 'C', 'B'],
        'annual_inc': [50000, 45000, 60000, 40000, 55000]
    })
    print('✅ สร้างข้อมูลจำลองสำหรับฝึกหัด')

## 🔠 การทำงานกับ Python Basics

ลองใช้ Python เบื้องต้นกับข้อมูลสินเชื่อ

In [None]:
# 1. การใช้งาน Variables และ Data Types
print('🔠 Python Basics กับข้อมูลสินเชื่อ')
print('='*40)

# ตัวแปรเบื้องต้น
course_name = "Python for Data Analytics"
total_students = 25
pass_rate = 85.5
is_online = True

print(f'📚 ชื่อหลักสูตร: {course_name}')
print(f'👥 จำนวนนักเรียน: {total_students} คน')
print(f'📊 อัตราผ่าน: {pass_rate}%')
print(f'💻 เรียนออนไลน์: {is_online}')

# ตรวจสอบ data types
print(f'\n🔍 ประเภทข้อมูล:')
print(f'   course_name: {type(course_name)}')
print(f'   total_students: {type(total_students)}')
print(f'   pass_rate: {type(pass_rate)}')
print(f'   is_online: {type(is_online)}')

In [None]:
# 2. การใช้งาน Lists และ Dictionaries
print('📋 Lists และ Dictionaries')
print('='*30)

# Lists - รายการข้อมูลสินเชื่อ
loan_purposes = ['car', 'home_improvement', 'debt_consolidation', 'vacation', 'medical']
loan_amounts = [15000, 25000, 10000, 5000, 8000]

print('🎯 วัตถุประสงค์การกู้:')
for i, purpose in enumerate(loan_purposes, 1):
    print(f'   {i}. {purpose}')

print(f'\n💰 จำนวนเงินกู้ที่สูงที่สุด: ${max(loan_amounts):,}')
print(f'💰 จำนวนเงินกู้ที่ต่ำที่สุด: ${min(loan_amounts):,}')
print(f'💰 จำนวนเงินกู้เฉลี่ย: ${sum(loan_amounts)/len(loan_amounts):,.2f}')

# Dictionary - ข้อมูลลูกค้า
customer = {
    'name': 'John Doe',
    'age': 35,
    'annual_income': 75000,
    'credit_score': 720,
    'loan_purpose': 'home_improvement'
}

print(f'\n👤 ข้อมูลลูกค้า:')
for key, value in customer.items():
    print(f'   {key}: {value}')

In [None]:
# 3. การใช้งาน Conditions และ Loops
print('🔄 Conditions และ Loops')
print('='*25)

# Function สำหรับประเมินความเสี่ยง
def assess_loan_risk(income, credit_score, loan_amount):
    """ประเมินความเสี่ยงการให้สินเชื่อ"""
    debt_to_income = loan_amount / income
    
    if credit_score >= 750 and debt_to_income < 0.3:
        return 'Low Risk', 'A'
    elif credit_score >= 650 and debt_to_income < 0.4:
        return 'Medium Risk', 'B'
    elif credit_score >= 550 and debt_to_income < 0.5:
        return 'High Risk', 'C'
    else:
        return 'Very High Risk', 'D'

# ทดสอบกับลูกค้าหลายคน
customers = [
    {'name': 'Alice', 'income': 80000, 'credit_score': 780, 'loan_amount': 20000},
    {'name': 'Bob', 'income': 45000, 'credit_score': 650, 'loan_amount': 15000},
    {'name': 'Charlie', 'income': 60000, 'credit_score': 580, 'loan_amount': 25000},
    {'name': 'Diana', 'income': 90000, 'credit_score': 720, 'loan_amount': 30000}
]

print('🏦 การประเมินความเสี่ยงลูกค้า:')
print('-'*50)

for customer in customers:
    risk, grade = assess_loan_risk(
        customer['income'], 
        customer['credit_score'], 
        customer['loan_amount']
    )
    
    print(f"👤 {customer['name']}:")
    print(f"   💰 รายได้: ${customer['income']:,}")
    print(f"   📊 เครดิตสกอร์: {customer['credit_score']}")
    print(f"   💵 เงินกู้: ${customer['loan_amount']:,}")
    print(f"   ⚠️  ความเสี่ยง: {risk} (เกรด {grade})")
    print()

## 📊 การทำงานกับ Pandas DataFrame

เรียนรู้การใช้ Pandas กับข้อมูลสินเชื่อจริง

In [None]:
# 4. การสำรวจ DataFrame
print('📊 การสำรวจ Pandas DataFrame')
print('='*35)

# ข้อมูลพื้นฐาน
print(f'📏 ขนาดข้อมูล: {df.shape}')
print(f'📋 คอลัมน์: {list(df.columns)}')
print(f'🔢 ประเภทข้อมูล:')
print(df.dtypes)

# แสดงข้อมูลตัวอย่าง
print(f'\n👀 ข้อมูล 3 แถวแรก:')
print(df.head(3))

# สถิติเบื้องต้น
if 'loan_amnt' in df.columns:
    print(f'\n💰 สถิติจำนวนเงินกู้:')
    print(df['loan_amnt'].describe())

In [None]:
# 5. การกรองและเลือกข้อมูล
print('🔍 การกรองและเลือกข้อมูล')
print('='*28)

# เลือกคอลัมน์เดียว
if 'loan_amnt' in df.columns:
    loan_amounts = df['loan_amnt']
    print(f'💰 จำนวนเงินกู้เฉลี่ย: ${loan_amounts.mean():,.2f}')
    print(f'💰 จำนวนเงินกู้สูงสุด: ${loan_amounts.max():,.2f}')

# เลือกหลายคอลัมน์
key_columns = ['loan_amnt', 'int_rate'] if all(col in df.columns for col in ['loan_amnt', 'int_rate']) else df.columns[:2]
subset = df[key_columns]
print(f'\n📊 ข้อมูลย่อย ({len(key_columns)} คอลัมน์):')
print(subset.head())

# การกรองข้อมูล
if 'loan_amnt' in df.columns:
    high_loans = df[df['loan_amnt'] > df['loan_amnt'].median()]
    print(f'\n🔺 สินเชื่อที่มากกว่ามัธยฐาน: {len(high_loans)} รายการ')
    print(f'📊 เปอร์เซ็นต์: {len(high_loans)/len(df)*100:.1f}%')

In [None]:
# 6. การคำนวณและการสร้างคอลัมน์ใหม่
print('➕ การคำนวณและสร้างคอลัมน์ใหม่')
print('='*38)

# สร้างข้อมูลเสริม
df_calc = df.copy()

# สร้างคอลัมน์ใหม่
if 'loan_amnt' in df_calc.columns:
    # แปลงเป็นหมื่น
    df_calc['loan_amnt_10k'] = df_calc['loan_amnt'] / 10000
    
    # จัดกลุ่มขนาดสินเชื่อ
    def categorize_loan_size(amount):
        if amount < 10000:
            return 'Small'
        elif amount < 25000:
            return 'Medium'
        else:
            return 'Large'
    
    df_calc['loan_size_category'] = df_calc['loan_amnt'].apply(categorize_loan_size)
    
    # แสดงผลลัพธ์
    print('📊 การจัดกลุ่มขนาดสินเชื่อ:')
    category_counts = df_calc['loan_size_category'].value_counts()
    for category, count in category_counts.items():
        pct = (count / len(df_calc)) * 100
        print(f'   {category}: {count} รายการ ({pct:.1f}%)')

# การคำนวณตามเงื่อนไข
if 'int_rate' in df_calc.columns and 'loan_amnt' in df_calc.columns:
    # แปลง interest rate ถ้าเป็น string
    if df_calc['int_rate'].dtype == 'object':
        df_calc['int_rate_num'] = pd.to_numeric(df_calc['int_rate'].str.rstrip('%'), errors='coerce')
    else:
        df_calc['int_rate_num'] = df_calc['int_rate']
    
    # คำนวณดอกเบี้ยต่อปี (ประมาณ)
    df_calc['annual_interest'] = (df_calc['loan_amnt'] * df_calc['int_rate_num'] / 100)
    
    print(f'\n💸 ดอกเบี้ยเฉลี่ยต่อปี: ${df_calc["annual_interest"].mean():,.2f}')
    print(f'💸 ดอกเบี้ยสูงสุดต่อปี: ${df_calc["annual_interest"].max():,.2f}')

## 🎯 แบบฝึกหัด Python กับข้อมูลจริง

In [None]:
# 🏃‍♂️ แบบฝึกหัด: สร้างระบบวิเคราะห์สินเชื่ออย่างง่าย
print('🎯 แบบฝึกหัด: ระบบวิเคราะห์สินเชื่อ')
print('='*40)

class LoanAnalyzer:
    def __init__(self, data):
        self.data = data
        print(f'✅ สร้าง LoanAnalyzer กับข้อมูล {len(data)} รายการ')
    
    def summary_stats(self):
        """แสดงสถิติสรุป"""
        print('\n📊 สถิติสรุป:')
        print(f'   จำนวนรายการ: {len(self.data)}')
        
        if 'loan_amnt' in self.data.columns:
            print(f'   เงินกู้เฉลี่ย: ${self.data["loan_amnt"].mean():,.2f}')
            print(f'   เงินกู้รวม: ${self.data["loan_amnt"].sum():,.2f}')
    
    def risk_distribution(self):
        """แสดงการกระจายความเสี่ยง"""
        if 'grade' in self.data.columns:
            print('\n🏆 การกระจายเกรดสินเชื่อ:')
            grade_counts = self.data['grade'].value_counts().sort_index()
            for grade, count in grade_counts.items():
                pct = (count / len(self.data)) * 100
                print(f'   เกรด {grade}: {count} รายการ ({pct:.1f}%)')
        else:
            print('\n⚠️ ไม่มีข้อมูลเกรดสินเชื่อ')
    
    def find_outliers(self, column='loan_amnt'):
        """หา outliers ในคอลัมน์ที่กำหนด"""
        if column in self.data.columns:
            Q1 = self.data[column].quantile(0.25)
            Q3 = self.data[column].quantile(0.75)
            IQR = Q3 - Q1
            
            lower_bound = Q1 - 1.5 * IQR
            upper_bound = Q3 + 1.5 * IQR
            
            outliers = self.data[(self.data[column] < lower_bound) | 
                               (self.data[column] > upper_bound)]
            
            print(f'\n🔍 Outliers ใน {column}:')
            print(f'   จำนวน: {len(outliers)} รายการ ({len(outliers)/len(self.data)*100:.1f}%)')
            if len(outliers) > 0:
                print(f'   ค่าสูงสุด: ${outliers[column].max():,.2f}')
                print(f'   ค่าต่ำสุด: ${outliers[column].min():,.2f}')
        else:
            print(f'\n⚠️ ไม่พบคอลัมน์ {column}')

# ใช้งาน LoanAnalyzer
analyzer = LoanAnalyzer(df)
analyzer.summary_stats()
analyzer.risk_distribution()
analyzer.find_outliers()

## 📝 สรุปและข้อควรจำ

### ✅ สิ่งที่เราได้เรียนรู้:

1. **Python Basics กับข้อมูลจริง**
   - Variables, Lists, Dictionaries
   - Conditions และ Loops
   - Functions และ Classes

2. **Pandas DataFrame**
   - การโหลดและสำรวจข้อมูล
   - การเลือกและกรองข้อมูล
   - การสร้างคอลัมน์ใหม่

3. **การประยุกต์ใช้**
   - ระบบประเมินความเสี่ยง
   - การวิเคราะห์ข้อมูลเบื้องต้น
   - การจัดกลุ่มและหา Outliers

### 🚀 ขั้นตอนถัดไป:
- **Module 2**: Data Profiling และการเตรียมข้อมูลอย่างละเอียด
- การทำความสะอาดข้อมูล (Data Cleaning)
- การวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร

### 💡 เคล็ดลับ:
- ฝึกเขียน Python ทุกวัน แม้แต่ 15 นาที
- ลองนำไปประยุกต์กับข้อมูลอื่นๆ
- อย่ากลัวผิดพลาด - การผิดคือการเรียนรู้!

---
*🎓 Course: 250FDEV01C00 - Python for Data Analytics*