# Pandas Level 4: Aggregation & Merging

ใน Level สุดท้ายนี้ เราจะเรียนรู้วิธีสรุปผลข้อมูล (Aggregation) และการรวมตาราง (Merging) ซึ่งเป็นหัวใจของการวิเคราะห์ข้อมูล
1. **Grouping**: การจัดกลุ่มข้อมูล (`groupby`)
2. **Pivot Tables**: การสรุปข้อมูลในรูปแบบตารางไขว้
3. **Merging/Joining**: การเชื่อมตารางหลายๆ ตารางเข้าด้วยกัน

In [None]:
import pandas as pd
import numpy as np

<a id='loading'></a>
## 1. Load Sales Data

ใช้ข้อมูลยอดขายสินค้าแยกตามภูมิภาค

In [None]:
df = pd.read_csv('data/sales_data.csv')
display(df.head())

<a id='groupby'></a>
## 2. GroupBy (การจัดกลุ่ม)

หลักการ: Split -> Apply -> Combine
แยกกลุ่ม -> คำนวณค่า (เช่น หาผลรวม) -> รวมกลับมาเป็นตารางใหม่

In [None]:
# 2.1 หาผลรวมยอดขาย (Sales) แยกตาม Product
product_sales = df.groupby('Product')['Sales'].sum()
print("--- Total Sales by Product ---")
display(product_sales)

# 2.2 หาค่าเฉลี่ยกำไร (Profit) แยกตาม Region
region_profit = df.groupby('Region')['Profit'].mean()
print("\n--- Average Profit by Region ---")
display(region_profit)

# 2.3 จัดกลุ่มหลายชั้น (Multi-level GroupBy)
# แยกตาม Region ก่อน แล้วค่อยแยกตาม Product
multi_group = df.groupby(['Region', 'Product'])[['Sales', 'Profit']].sum()
print("\n--- Total Sales & Profit by Region & Product ---")
display(multi_group)

<a id='pivot'></a>
## 3. Pivot Tables

คล้ายกับ Excel Pivot Table ช่วยให้สรุปข้อมูลได้ง่ายและสวยงาม

In [None]:
# สร้างตาราง: แนวนอน (columns) เป็น Region, แนวตั้ง (index) เป็น Product, ค่า (values) เป็น Sales
pivot = df.pivot_table(values='Sales', index='Product', columns='Region', aggfunc='sum', fill_value=0)
print("--- Sales Pivot Table ---")
display(pivot)

<a id='merging'></a>
## 4. Merging (Joining DataFrames)

การนำข้อมูลจาก 2 ตารางมารวมกัน โดยใช้ Key ร่วมกัน (เหมือน SQL JOIN)

In [None]:
# สร้างตารางข้อมูลลูกค้า (Customers)
customers = pd.DataFrame({
    'Customer_ID': [1, 2, 3, 4],
    'Name': ['Alice', 'Bob', 'Charlie', 'David'],
    'City': ['New York', 'Los Angeles', 'Chicago', 'Houston']
})

# สร้างตารางคำสั่งซื้อ (Orders) มี Customer_ID เป็น Key
orders = pd.DataFrame({
    'Order_ID': [101, 102, 103, 104, 105],
    'Customer_ID': [1, 2, 1, 3, 99], # สังเกต 99 ไม่มีในตาราง Customers
    'Amount': [250, 150, 300, 200, 100]
})

print("--- Customers ---")
display(customers)
print("\n--- Orders ---")
display(orders)

# 4.1 Inner Join (เอาเฉพาะที่มีทั้ง 2 ตาราง)
inner_merge = pd.merge(orders, customers, on='Customer_ID', how='inner')
print("\n--- Inner Join (ตัด ID 99 ออก เพราะไม่มีชื่อลูกค้า) ---")
display(inner_merge)

# 4.2 Left Join (ยึดตารางซ้ายเป็นหลัก)
# ID 99 จะยังอยู่ แต่ Name/City จะเป็น NaN
left_merge = pd.merge(orders, customers, on='Customer_ID', how='left')
print("\n--- Left Join (เก็บ Orders ทั้งหมดไว้) ---")
display(left_merge)

<a id='concat'></a>
## 5. Concatenation

การนำตารางมาต่อกัน (บน-ล่าง หรือ ซ้าย-ขวา)

In [None]:
df1 = pd.DataFrame({'A': [1, 2], 'B': [3, 4]})
df2 = pd.DataFrame({'A': [5, 6], 'B': [7, 8]})

# ต่อกันแนวตั้ง (axis=0)
concat_df = pd.concat([df1, df2], ignore_index=True)
print("--- Concatenation (Stack Vertically) ---")
display(concat_df)