# การใช้ Pandas สำหรับการวิเคราะห์ข้อมูล

## วัตถุประสงค์การเรียนรู้
- เข้าใจความสามารถของ Pandas ในการจัดการข้อมูล
- สามารถนำเข้าข้อมูลจากหลายรูปแบบ (CSV, Excel)
- สามารถจัดการและทำความสะอาดข้อมูล
- สามารถทำการ filter และ transform ข้อมูล

## 1. แนะนำ Pandas

Pandas เป็นไลบรารีที่ทรงพลังสำหรับการวิเคราะห์ข้อมูลใน Python โดยมีโครงสร้างข้อมูลหลัก 2 แบบ:

1. **Series** - อาร์เรย์ 1 มิติที่มีดัชนี
2. **DataFrame** - ตารางข้อมูล 2 มิติที่มีแถวและคอลัมน์ (คล้ายกับตารางใน Excel หรือตารางใน SQL)

ก่อนเริ่มต้นใช้งาน เราต้องนำเข้าไลบรารี Pandas:

In [None]:
# นำเข้าไลบรารี
import pandas as pd
import numpy as np

# ตรวจสอบเวอร์ชัน
print(f"Pandas version: {pd.__version__}")
print(f"NumPy version: {np.__version__}")

## 2. การสร้าง DataFrame

มีหลายวิธีในการสร้าง DataFrame:

In [None]:
# การสร้าง DataFrame จากดิกชันนารี
data = {
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Emma'],
    'age': [25, 30, 35, 40, 45],
    'city': ['Bangkok', 'Chiang Mai', 'Phuket', 'Bangkok', 'Khon Kaen'],
    'salary': [30000, 40000, 50000, 60000, 70000]
}

df = pd.DataFrame(data)
print("DataFrame จากดิกชันนารี:")
display(df)

In [None]:
# การสร้าง DataFrame จากลิสต์ของลิสต์
data_list = [
    ['Alice', 25, 'Bangkok', 30000],
    ['Bob', 30, 'Chiang Mai', 40000],
    ['Charlie', 35, 'Phuket', 50000],
    ['David', 40, 'Bangkok', 60000],
    ['Emma', 45, 'Khon Kaen', 70000]
]

df_from_list = pd.DataFrame(data_list, columns=['name', 'age', 'city', 'salary'])
print("\nDataFrame จากลิสต์ของลิสต์:")
display(df_from_list)

## 3. การนำเข้าข้อมูลจากไฟล์

Pandas สามารถอ่านข้อมูลจากหลายรูปแบบไฟล์ เช่น CSV, Excel, JSON, SQL และอื่น ๆ

### 3.1 การอ่านไฟล์ CSV

In [None]:
# สร้างไฟล์ CSV ตัวอย่าง
df.to_csv('sample_data.csv', index=False)

# อ่านไฟล์ CSV
df_csv = pd.read_csv('sample_data.csv')
print("DataFrame จากไฟล์ CSV:")
display(df_csv)

### 3.2 การอ่านไฟล์ Excel

ในการอ่านไฟล์ Excel เราต้องใช้ไลบรารี openpyxl หรือ xlrd

In [None]:
# สร้างไฟล์ Excel ตัวอย่าง
df.to_excel('sample_data.xlsx', index=False)

# อ่านไฟล์ Excel
try:
    df_excel = pd.read_excel('sample_data.xlsx')
    print("DataFrame จากไฟล์ Excel:")
    display(df_excel)
except ImportError:
    print("คุณต้องติดตั้งไลบรารี openpyxl หรือ xlrd ก่อน:")
    print("!pip install openpyxl")

## 4. การสำรวจข้อมูล

หลังจากที่เรามีข้อมูลใน DataFrame แล้ว เราสามารถสำรวจข้อมูลได้ด้วยเมธอดต่าง ๆ:

In [None]:
# ดูข้อมูลสรุปของ DataFrame
print("\nข้อมูลสรุป:")
display(df.info())

# ดูสถิติพื้นฐานของข้อมูลตัวเลข
print("\nสถิติพื้นฐาน:")
display(df.describe())

# ดูข้อมูลส่วนหัว (แถวแรก ๆ)
print("\nข้อมูล 3 แถวแรก:")
display(df.head(3))

# ดูข้อมูลส่วนท้าย (แถวสุดท้าย)
print("\nข้อมูล 2 แถวสุดท้าย:")
display(df.tail(2))

## 5. การเข้าถึงข้อมูล

เราสามารถเข้าถึงข้อมูลได้หลายวิธี:

In [None]:
# เข้าถึงคอลัมน์
print("คอลัมน์ 'name':")
display(df['name'])

# เข้าถึงหลายคอลัมน์
print("\nคอลัมน์ 'name' และ 'age':")
display(df[['name', 'age']])

# เข้าถึงแถวด้วย .loc (ใช้ label)
print("\nแถวที่ 2:")
display(df.loc[2])

# เข้าถึงแถวด้วย .iloc (ใช้ position)
print("\nแถวที่ 3 และคอลัมน์ที่ 0 และ 2:")
display(df.iloc[3, [0, 2]])

## 6. การกรองข้อมูล (Filtering)

เราสามารถกรองข้อมูลได้โดยการใช้เงื่อนไข:

In [None]:
# กรองข้อมูลด้วยเงื่อนไขเดียว
print("คนที่มีอายุมากกว่า 30:")
display(df[df['age'] > 30])

# กรองข้อมูลด้วยหลายเงื่อนไข
print("\nคนที่มีอายุมากกว่า 30 และอาศัยอยู่ในกรุงเทพฯ:")
display(df[(df['age'] > 30) & (df['city'] == 'Bangkok')])

# การใช้ .isin() เพื่อกรองด้วยค่าหลายค่า
print("\nคนที่อาศัยอยู่ในกรุงเทพฯ หรือ เชียงใหม่:")
display(df[df['city'].isin(['Bangkok', 'Chiang Mai'])])

## 7. การจัดเรียงข้อมูล (Sorting)

In [None]:
# จัดเรียงตามคอลัมน์เดียว
print("จัดเรียงตามอายุ (น้อยไปมาก):")
display(df.sort_values('age'))

# จัดเรียงตามหลายคอลัมน์
print("\nจัดเรียงตามเมืองและเงินเดือน (จากมากไปน้อย):")
display(df.sort_values(['city', 'salary'], ascending=[True, False]))

## 8. การแปลงข้อมูล (Transforming)

### 8.1 การเพิ่มคอลัมน์ใหม่

In [None]:
# เพิ่มคอลัมน์ใหม่
df['salary_usd'] = df['salary'] / 35  # สมมติอัตราแลกเปลี่ยน 1 USD = 35 THB
df['age_group'] = pd.cut(df['age'], bins=[20, 30, 40, 50], labels=['20-30', '31-40', '41-50'])
display(df)

### 8.2 การใช้ apply() เพื่อปรับเปลี่ยนข้อมูล

In [None]:
# การใช้ apply() กับคอลัมน์
def get_first_name(name):
    return name.split()[0]  # แยกชื่อและนามสกุล (ถ้ามี) และเลือกเฉพาะชื่อ

df['first_name'] = df['name'].apply(get_first_name)
display(df)

## 9. การจัดการกับข้อมูลที่หายไป (Missing Values)

In [None]:
# สร้าง DataFrame ที่มีข้อมูลหายไป
df_missing = pd.DataFrame({
    'A': [1, 2, np.nan, 4],
    'B': [5, np.nan, np.nan, 8],
    'C': [9, 10, 11, 12]
})

print("DataFrame ที่มีข้อมูลหายไป:")
display(df_missing)

# ตรวจสอบข้อมูลที่หายไป
print("\nตรวจสอบข้อมูลที่หายไป:")
display(df_missing.isnull())
print(f"จำนวนค่าที่หายไปในแต่ละคอลัมน์:\n{df_missing.isnull().sum()}")

# แทนที่ข้อมูลที่หายไปด้วยค่าเฉลี่ย
df_filled = df_missing.fillna(df_missing.mean())
print("\nDataFrame หลังจากแทนที่ข้อมูลที่หายไปด้วยค่าเฉลี่ย:")
display(df_filled)

# ลบแถวที่มีข้อมูลหายไป
df_dropped = df_missing.dropna()
print("\nDataFrame หลังจากลบแถวที่มีข้อมูลหายไป:")
display(df_dropped)

## 10. การจัดกลุ่มและรวมข้อมูล (Grouping and Aggregation)

In [None]:
# จัดกลุ่มตามเมือง
city_group = df.groupby('city')

# หาค่าเฉลี่ยของอายุและเงินเดือนในแต่ละกลุ่ม
print("ค่าเฉลี่ยของอายุและเงินเดือนตามเมือง:")
display(city_group[['age', 'salary']].mean())

# หาหลายค่าสถิติพร้อมกัน
print("\nค่าสถิติหลายค่าสำหรับเงินเดือนตามเมือง:")
display(city_group['salary'].agg(['min', 'max', 'mean', 'count']))

# จัดกลุ่มตามหลายคอลัมน์
print("\nเงินเดือนเฉลี่ยตามเมืองและกลุ่มอายุ:")
display(df.groupby(['city', 'age_group'])['salary'].mean())

## 11. การ Join/Merge DataFrames

การรวม DataFrames ทำได้คล้ายกับการ JOIN ในตาราง SQL

In [None]:
# สร้าง DataFrame เพิ่มเติม
df_departments = pd.DataFrame({
    'name': ['Alice', 'Bob', 'Charlie', 'David', 'Frank'],
    'department': ['IT', 'Marketing', 'Finance', 'HR', 'IT']
})

print("DataFrame ตั้งต้น:")
display(df[['name', 'salary']])

print("\nDataFrame แผนก:")
display(df_departments)

# Inner Join
print("\nInner Join:")
inner_join = pd.merge(df[['name', 'salary']], df_departments, on='name', how='inner')
display(inner_join)

# Left Join
print("\nLeft Join:")
left_join = pd.merge(df[['name', 'salary']], df_departments, on='name', how='left')
display(left_join)

# Right Join
print("\nRight Join:")
right_join = pd.merge(df[['name', 'salary']], df_departments, on='name', how='right')
display(right_join)

## 12. การปรับเปลี่ยนรูปแบบข้อมูล (Reshaping)

### 12.1 Pivot Table

In [None]:
# สร้างข้อมูลสำหรับการทำ pivot
df_sales = pd.DataFrame({
    'date': ['2025-01-01', '2025-01-01', '2025-01-02', '2025-01-02', '2025-01-03', '2025-01-03'],
    'product': ['A', 'B', 'A', 'B', 'A', 'B'],
    'sales': [100, 150, 200, 250, 300, 350]
})

print("ข้อมูลยอดขาย:")
display(df_sales)

# สร้าง pivot table
pivot = df_sales.pivot_table(index='date', columns='product', values='sales')
print("\nPivot Table:")
display(pivot)

### 12.2 Melt (Unpivot)

In [None]:
# Melt (ทำ unpivot)
melted = pd.melt(pivot.reset_index(), id_vars='date', var_name='product', value_name='sales')
print("Melted (Unpivoted) Data:")
display(melted)

## 13. การบันทึกข้อมูล

Pandas สามารถบันทึกข้อมูลในหลายรูปแบบ:

In [None]:
# บันทึกเป็น CSV
df.to_csv('output_data.csv', index=False)
print("บันทึกเป็น CSV เรียบร้อยแล้ว")

# บันทึกเป็น Excel
try:
    df.to_excel('output_data.xlsx', index=False)
    print("บันทึกเป็น Excel เรียบร้อยแล้ว")
except ImportError:
    print("คุณต้องติดตั้งไลบรารี openpyxl ก่อน:")
    print("!pip install openpyxl")

## แบบฝึกหัด

ให้ทำแบบฝึกหัดต่อไปนี้เพื่อทดสอบความเข้าใจ:

### แบบฝึกหัดที่ 1: นำเข้าและวิเคราะห์ข้อมูลยอดขาย

ในแบบฝึกหัดนี้ เราจะสร้างข้อมูลยอดขายจำลองและทำการวิเคราะห์ข้อมูล

In [None]:
# สร้างข้อมูลจำลอง
np.random.seed(42)
dates = pd.date_range(start='2024-01-01', end='2024-12-31', freq='D')
products = ['ProductA', 'ProductB', 'ProductC', 'ProductD']
regions = ['North', 'South', 'East', 'West', 'Central']

data = []
for date in dates:
    for product in products:
        for region in regions:
            # สร้างยอดขายจำลอง
            base_sales = 100 if product in ['ProductA', 'ProductB'] else 50
            season_factor = 1.5 if date.month in [6, 7, 8, 12] else 1.0  # ขายดีในช่วงฤดูร้อนและเทศกาลปีใหม่
            region_factor = 1.2 if region in ['Central', 'North'] else 0.9
            random_factor = np.random.uniform(0.8, 1.2)
            
            sales = int(base_sales * season_factor * region_factor * random_factor)
            
            data.append([date, product, region, sales])

# สร้าง DataFrame
sales_df = pd.DataFrame(data, columns=['date', 'product', 'region', 'sales'])

# บันทึกเป็น CSV เพื่อใช้ในการฝึก
sales_df.to_csv('sales_data.csv', index=False)

# แสดงข้อมูลตัวอย่าง
print("ข้อมูลยอดขายจำลอง (5 แถวแรก):")
display(sales_df.head())

คำถาม:

1. อ่านข้อมูลจากไฟล์ 'sales_data.csv' และตรวจสอบโครงสร้างข้อมูล (ประเภทข้อมูล, จำนวนแถว, จำนวนคอลัมน์)
2. แปลงคอลัมน์ 'date' ให้เป็นประเภท datetime
3. สร้างคอลัมน์ใหม่ 'month', 'quarter', และ 'year' จากคอลัมน์ 'date'
4. หายอดขายรวมและยอดขายเฉลี่ยตามผลิตภัณฑ์
5. หายอดขายรวมตามภูมิภาคและไตรมาส
6. สร้าง pivot table ที่แสดงยอดขายรวมตามผลิตภัณฑ์ (แถว) และเดือน (คอลัมน์)
7. คำนวณยอดขายเฉลี่ยต่อวันตามผลิตภัณฑ์และภูมิภาค
8. หาผลิตภัณฑ์ที่มียอดขายสูงสุดในแต่ละภูมิภาค

In [None]:
# เพิ่มโค้ดของคุณที่นี่

# 1. อ่านข้อมูลจากไฟล์ 'sales_data.csv' และตรวจสอบโครงสร้างข้อมูล


# 2. แปลงคอลัมน์ 'date' ให้เป็นประเภท datetime


# 3. สร้างคอลัมน์ใหม่ 'month', 'quarter', และ 'year' จากคอลัมน์ 'date'


# 4. หายอดขายรวมและยอดขายเฉลี่ยตามผลิตภัณฑ์


# 5. หายอดขายรวมตามภูมิภาคและไตรมาส


# 6. สร้าง pivot table ที่แสดงยอดขายรวมตามผลิตภัณฑ์ (แถว) และเดือน (คอลัมน์)


# 7. คำนวณยอดขายเฉลี่ยต่อวันตามผลิตภัณฑ์และภูมิภาค


# 8. หาผลิตภัณฑ์ที่มียอดขายสูงสุดในแต่ละภูมิภาค


### แบบฝึกหัดที่ 2: การจัดการข้อมูลที่หายไปและการสร้างเงื่อนไข

ในแบบฝึกหัดนี้ เราจะฝึกการจัดการกับข้อมูลที่หายไปและการสร้างเงื่อนไขต่าง ๆ

In [None]:
# สร้างข้อมูลจำลองที่มีค่า missing
np.random.seed(42)
data = {
    'customer_id': range(1, 21),
    'name': ['Customer' + str(i) for i in range(1, 21)],
    'age': np.random.randint(18, 70, 20),
    'income': np.random.randint(15000, 100000, 20),
    'purchase_amount': np.random.randint(100, 10000, 20),
    'loyalty_points': np.random.randint(0, 1000, 20)
}

# สร้าง DataFrame
customers_df = pd.DataFrame(data)

# สร้างข้อมูล missing ใน DataFrame
customers_df.loc[np.random.choice(customers_df.index, 4, replace=False), 'age'] = np.nan
customers_df.loc[np.random.choice(customers_df.index, 5, replace=False), 'income'] = np.nan
customers_df.loc[np.random.choice(customers_df.index, 3, replace=False), 'purchase_amount'] = np.nan

# แสดงข้อมูล
print("ข้อมูลลูกค้าที่มี missing values:")
display(customers_df)

คำถาม:

1. ตรวจสอบและระบุจำนวน missing values ในแต่ละคอลัมน์
2. แทนที่ missing values ในคอลัมน์ 'age' ด้วยค่ามัธยฐาน (median)
3. แทนที่ missing values ในคอลัมน์ 'income' ด้วยค่าเฉลี่ย (mean)
4. ลบแถวทั้งหมดที่มี missing values ในคอลัมน์ 'purchase_amount' และบันทึกในตัวแปรใหม่
5. สร้างคอลัมน์ใหม่ 'income_category' โดยแบ่งเป็น 3 กลุ่ม: 'Low' (< 30000), 'Medium' (30000-60000), 'High' (> 60000)
6. สร้างคอลัมน์ 'loyalty_tier' ตามเงื่อนไข:
   - 'Bronze' ถ้า loyalty_points < 200
   - 'Silver' ถ้า loyalty_points อยู่ระหว่าง 200 และ 500
   - 'Gold' ถ้า loyalty_points > 500
7. หาค่าเฉลี่ย purchase_amount ตาม income_category และ loyalty_tier

In [None]:
# เพิ่มโค้ดของคุณที่นี่

# 1. ตรวจสอบและระบุจำนวน missing values ในแต่ละคอลัมน์


# 2. แทนที่ missing values ในคอลัมน์ 'age' ด้วยค่ามัธยฐาน (median)


# 3. แทนที่ missing values ในคอลัมน์ 'income' ด้วยค่าเฉลี่ย (mean)


# 4. ลบแถวทั้งหมดที่มี missing values ในคอลัมน์ 'purchase_amount' และบันทึกในตัวแปรใหม่


# 5. สร้างคอลัมน์ใหม่ 'income_category' โดยแบ่งเป็น 3 กลุ่ม


# 6. สร้างคอลัมน์ 'loyalty_tier' ตามเงื่อนไข


# 7. หาค่าเฉลี่ย purchase_amount ตาม income_category และ loyalty_tier


## สรุป

ในบทนี้ เราได้เรียนรู้เกี่ยวกับการใช้ Pandas สำหรับการวิเคราะห์ข้อมูล ประกอบด้วย:

1. การสร้างและนำเข้าข้อมูลใน DataFrame
2. การสำรวจและเข้าถึงข้อมูล
3. การกรองและจัดเรียงข้อมูล
4. การแปลงข้อมูลและเพิ่มคอลัมน์ใหม่
5. การจัดการกับข้อมูลที่หายไป
6. การจัดกลุ่มและรวมข้อมูล
7. การรวม DataFrame หลายตัว
8. การปรับเปลี่ยนรูปแบบข้อมูลด้วย pivot และ melt
9. การบันทึกข้อมูลในรูปแบบต่าง ๆ

ทักษะเหล่านี้เป็นพื้นฐานสำคัญสำหรับการวิเคราะห์ข้อมูลในโปรเจ็กต์ Data Science และ Data Analysis