# 🔗 การเชื่อมต่อ Google Drive และโหลดข้อมูล Lending Club

**Notebook สำหรับ Course 250FDEV01C00**

---

## 🎯 วัตถุประสงค์
- เรียนรู้การเชื่อมต่อ Google Drive ใน Google Colab
- โหลดและสำรวจข้อมูล Lending Club เบื้องต้น
- ทำความเข้าใจโครงสร้างข้อมูลที่จะใช้ตลอดหลักสูตร

## 📋 ขั้นตอนการเตรียมความพร้อม

### ก่อนรันโค้ดนี้ ให้แน่ใจว่า:
1. ✅ คุณมี Google Account
2. ✅ ได้อัปโหลดไฟล์ `LoanStats_web_14422.csv` ไปยัง Google Drive
3. ✅ ไฟล์อยู่ในโฟลเดอร์: `MyDrive/NT_Python_for_Data_Analytics/`

## 🚀 ขั้นตอนที่ 1: Import Libraries และ Mount Google Drive

In [None]:
# Import libraries ที่จำเป็น
from google.colab import drive
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import os

print("📚 Libraries imported successfully!")

In [None]:
# Mount Google Drive
print("🔗 กำลังเชื่อมต่อ Google Drive...")
drive.mount('/content/drive')
print("✅ เชื่อมต่อสำเร็จ!")

# ตรวจสอบว่า Drive มีอะไรบ้าง
print("\n📁 ไฟล์และโฟลเดอร์ใน MyDrive:")
try:
    files = os.listdir('/content/drive/MyDrive')
    for i, file in enumerate(files[:10], 1):  # แสดง 10 ไฟล์แรก
        print(f"  {i}. {file}")
    if len(files) > 10:
        print(f"  ... และอีก {len(files) - 10} ไฟล์")
except Exception as e:
    print(f"❌ ไม่สามารถเข้าถึง Drive ได้: {e}")

## 📂 ขั้นตอนที่ 2: สร้างโฟลเดอร์และตรวจสอบไฟล์ข้อมูล

In [None]:
# สร้างโฟลเดอร์สำหรับหลักสูตร (ถ้ายังไม่มี)
course_folder = '/content/drive/MyDrive/NT_Python_for_Data_Analytics'
os.makedirs(course_folder, exist_ok=True)
print(f"📁 โฟลเดอร์หลักสูตร: {course_folder}")

# กำหนด path ไปยังไฟล์ข้อมูล
DATA_PATH = os.path.join(course_folder, 'LoanStats_web_14422.csv')
print(f"📄 ไฟล์ข้อมูล: {DATA_PATH}")

# ตรวจสอบว่ามีไฟล์หรือไม่
if os.path.exists(DATA_PATH):
    file_size = os.path.getsize(DATA_PATH) / (1024 * 1024)  # MB
    print(f"✅ พบไฟล์ข้อมูล!")
    print(f"📊 ขนาดไฟล์: {file_size:.2f} MB")
else:
    print(f"❌ ไม่พบไฟล์ LoanStats_web_14422.csv")
    print(f"📝 กรุณาอัปโหลดไฟล์ไปยัง: {course_folder}")
    
    # แสดงไฟล์ที่มีในโฟลเดอร์
    if os.path.exists(course_folder):
        files_in_folder = os.listdir(course_folder)
        if files_in_folder:
            print(f"\n📋 ไฟล์ที่มีในโฟลเดอร์:")
            for file in files_in_folder:
                print(f"  - {file}")
        else:
            print(f"\n📋 โฟลเดอร์ว่างเปล่า")

## 📊 ขั้นตอนที่ 3: โหลดและสำรวจข้อมูลเบื้องต้น

In [None]:
# ฟังก์ชันสำหรับโหลดข้อมูล
def load_lending_club_data(file_path, sample_size=None):
    """
    โหลดข้อมูล Lending Club
    
    Parameters:
    file_path (str): path ไปยังไฟล์ CSV
    sample_size (int): จำนวนแถวที่ต้องการโหลด (None = ทั้งหมด)
    
    Returns:
    pandas.DataFrame: ข้อมูลที่โหลดแล้ว
    """
    try:
        print(f"📥 กำลังโหลดข้อมูล...")
        
        if sample_size:
            df = pd.read_csv(file_path, nrows=sample_size, low_memory=False)
            print(f"📊 โหลดข้อมูลตัวอย่าง {sample_size:,} แถว")
        else:
            df = pd.read_csv(file_path, low_memory=False)
            print(f"📊 โหลดข้อมูลทั้งหมด")
        
        print(f"✅ โหลดสำเร็จ!")
        print(f"📏 ขนาดข้อมูล: {df.shape[0]:,} แถว × {df.shape[1]:,} คอลัมน์")
        
        return df
        
    except FileNotFoundError:
        print(f"❌ ไม่พบไฟล์: {file_path}")
        return None
    except Exception as e:
        print(f"❌ เกิดข้อผิดพลาด: {e}")
        return None

# โหลดข้อมูลตัวอย่าง (1000 แถวแรก เพื่อความเร็ว)
df_sample = load_lending_club_data(DATA_PATH, sample_size=1000)

In [None]:
# สำรวจข้อมูลเบื้องต้น
if df_sample is not None:
    print("🔍 การสำรวจข้อมูล LENDING CLUB")
    print("=" * 50)
    
    # ข้อมูลพื้นฐาน
    print(f"📊 จำนวนข้อมูล: {len(df_sample):,} รายการสินเชื่อ")
    print(f"📋 จำนวนฟีเจอร์: {len(df_sample.columns)} ตัวแปร")
    print(f"💾 ขนาดในหน่วยความจำ: {df_sample.memory_usage(deep=True).sum() / 1024**2:.2f} MB")
    
    # แสดงคอลัมน์สำคัญ
    important_columns = ['loan_amnt', 'int_rate', 'grade', 'loan_status', 'annual_inc', 
                        'purpose', 'dti', 'emp_length']
    available_important = [col for col in important_columns if col in df_sample.columns]
    
    print(f"\n🔑 คอลัมน์สำคัญที่พบ ({len(available_important)}/{len(important_columns)}):")
    for i, col in enumerate(available_important, 1):
        print(f"  {i}. {col}")
    
    # แสดงคอลัมน์ทั้งหมด (10 ตัวแรก)
    print(f"\n📋 คอลัมน์ทั้งหมด (แสดง 10 ตัวแรก):")
    for i, col in enumerate(df_sample.columns[:10], 1):
        print(f"  {i:2d}. {col}")
    
    if len(df_sample.columns) > 10:
        print(f"  ... และอีก {len(df_sample.columns) - 10} คอลัมน์")
        
else:
    print("❌ ไม่สามารถโหลดข้อมูลได้")

## 📈 ขั้นตอนที่ 4: การวิเคราะห์ข้อมูลเบื้องต้น

In [None]:
# วิเคราะห์ข้อมูลสำคัญ
if df_sample is not None:
    print("📊 การวิเคราะห์ข้อมูลเบื้องต้น")
    print("=" * 40)
    
    # 1. ข้อมูลจำนวนเงินกู้
    if 'loan_amnt' in df_sample.columns:
        loan_stats = df_sample['loan_amnt'].describe()
        print(f"\n💰 สถิติจำนวนเงินกู้:")
        print(f"   💵 เฉลี่ย: ${loan_stats['mean']:,.2f}")
        print(f"   📊 มัธยฐาน: ${loan_stats['50%']:,.2f}")
        print(f"   📈 สูงสุด: ${loan_stats['max']:,.2f}")
        print(f"   📉 ต่ำสุด: ${loan_stats['min']:,.2f}")
    
    # 2. ข้อมูลอัตราดอกเบี้ย
    if 'int_rate' in df_sample.columns:
        # แปลง string เป็น numeric (ลบเครื่องหมาย %)
        try:
            if df_sample['int_rate'].dtype == 'object':
                int_rate_clean = df_sample['int_rate'].str.rstrip('%').astype(float)
            else:
                int_rate_clean = df_sample['int_rate']
            
            print(f"\n📊 สถิติอัตราดอกเบี้ย:")
            print(f"   📈 เฉลี่ย: {int_rate_clean.mean():.2f}%")
            print(f"   📊 มัธยฐาน: {int_rate_clean.median():.2f}%")
            print(f"   🔺 สูงสุด: {int_rate_clean.max():.2f}%")
            print(f"   🔻 ต่ำสุด: {int_rate_clean.min():.2f}%")
        except:
            print(f"\n⚠️ ไม่สามารถวิเคราะห์อัตราดอกเบี้ยได้")
    
    # 3. การจัดเกรดสินเชื่อ
    if 'grade' in df_sample.columns:
        grade_counts = df_sample['grade'].value_counts().sort_index()
        print(f"\n🏆 การกระจายเกรดสินเชื่อ:")
        for grade, count in grade_counts.head(7).items():
            percentage = (count / len(df_sample)) * 100
            print(f"   เกรด {grade}: {count:,} คน ({percentage:.1f}%)")
    
    # 4. สถานะการชำระ
    if 'loan_status' in df_sample.columns:
        status_counts = df_sample['loan_status'].value_counts()
        print(f"\n📋 สถานะการชำระ (Top 5):")
        for status, count in status_counts.head(5).items():
            percentage = (count / len(df_sample)) * 100
            print(f"   {status}: {count:,} คน ({percentage:.1f}%)")

## 👀 ขั้นตอนที่ 5: ดูตัวอย่างข้อมูล

In [None]:
# แสดงตัวอย่างข้อมูล
if df_sample is not None:
    print("👀 ตัวอย่างข้อมูล 5 แถวแรก")
    print("=" * 30)
    
    # เลือกคอลัมน์สำคัญมาแสดง
    display_columns = ['loan_amnt', 'int_rate', 'grade', 'loan_status', 'annual_inc']
    available_display = [col for col in display_columns if col in df_sample.columns]
    
    if available_display:
        sample_data = df_sample[available_display].head()
        print(sample_data)
    else:
        print("แสดงคอลัมน์ที่มี:")
        print(df_sample.head())

## 🔍 ขั้นตอนที่ 6: ตรวจสอบคุณภาพข้อมูล

In [None]:
# ตรวจสอบคุณภาพข้อมูล
if df_sample is not None:
    print("🔍 การตรวจสอบคุณภาพข้อมูล")
    print("=" * 35)
    
    # 1. Missing values
    missing_counts = df_sample.isnull().sum()
    missing_columns = missing_counts[missing_counts > 0].sort_values(ascending=False)
    
    total_missing = missing_counts.sum()
    total_cells = len(df_sample) * len(df_sample.columns)
    missing_percentage = (total_missing / total_cells) * 100
    
    print(f"❓ Missing Values:")
    print(f"   📊 ทั้งหมด: {total_missing:,} ค่า ({missing_percentage:.2f}%)")
    print(f"   📋 คอลัมน์ที่มี missing: {len(missing_columns)}/{len(df_sample.columns)}")
    
    if len(missing_columns) > 0:
        print(f"\n   🔝 Top 5 คอลัมน์ที่มี missing มากที่สุด:")
        for col, count in missing_columns.head(5).items():
            pct = (count / len(df_sample)) * 100
            print(f"     - {col}: {count:,} ({pct:.1f}%)")
    
    # 2. Data types
    dtype_counts = df_sample.dtypes.value_counts()
    print(f"\n📊 ประเภทข้อมูล:")
    for dtype, count in dtype_counts.items():
        print(f"   {dtype}: {count} คอลัมน์")
    
    # 3. Duplicates
    duplicate_count = df_sample.duplicated().sum()
    print(f"\n🔄 ข้อมูลซ้ำ: {duplicate_count:,} แถว ({(duplicate_count/len(df_sample)*100):.2f}%)")

## 🎯 ขั้นตอนที่ 7: ฟังก์ชันสำหรับใช้งานต่อไป

In [None]:
# ฟังก์ชันเสริมสำหรับใช้งานใน Labs ต่อไป
def quick_data_info(df, title="Data Information"):
    """
    แสดงข้อมูลสรุปอย่างรวดเร็ว
    """
    print(f"📊 {title}")
    print("=" * len(title))
    print(f"Shape: {df.shape}")
    print(f"Missing values: {df.isnull().sum().sum():,}")
    print(f"Memory usage: {df.memory_usage(deep=True).sum()/1024**2:.2f} MB")
    return df.info()

def load_full_data():
    """
    โหลดข้อมูลเต็ม (ใช้เมื่อต้องการข้อมูลทั้งหมด)
    """
    return load_lending_club_data(DATA_PATH)

def get_sample_data(n=1000):
    """
    โหลดข้อมูลตัวอย่าง n แถว
    """
    return load_lending_club_data(DATA_PATH, sample_size=n)

# ทดสอบฟังก์ชัน
if df_sample is not None:
    print("✅ ฟังก์ชันเสริมพร้อมใช้งาน!")
    print("\n📝 ฟังก์ชันที่สามารถใช้งานได้:")
    print("   - quick_data_info(df, title)")
    print("   - load_full_data()")
    print("   - get_sample_data(n)")

## 📝 สรุปและขั้นตอนถัดไป

### ✅ สิ่งที่เราได้ทำในบทนี้:
1. **เชื่อมต่อ Google Drive** และตรวจสอบการเข้าถึงข้อมูล
2. **โหลดข้อมูล Lending Club** และสำรวจโครงสร้างเบื้องต้น
3. **วิเคราะห์ข้อมูลสำคัญ** เช่น จำนวนเงินกู้ อัตราดอกเบี้ย และเกรดสินเชื่อ
4. **ตรวจสอบคุณภาพข้อมูล** รวมถึง missing values และ data types
5. **สร้างฟังก์ชันเสริม** สำหรับใช้งานใน Labs ถัดไป

### 🚀 ขั้นตอนถัดไป:
- **Module 1**: เรียนรู้หลักการ Data Analytics และ Python เบื้องต้น
- **Module 2**: Data Profiling และการเตรียมข้อมูลอย่างละเอียด
- **Module 3**: สร้าง Machine Learning Models เพื่อพยากรณ์และจำแนกข้อมูล

### 💡 เคล็ดลับ:
- ใช้ `df_sample` สำหรับการทดลองเพื่อความเร็ว
- ใช้ `load_full_data()` เมื่อต้องการข้อมูลเต็ม
- อย่าลืม Mount Drive ก่อนเสมอในทุก Notebook ใหม่

---
*🎓 Course: 250FDEV01C00 - Python for Data Analytics*