In [None]:
!pip install pandas openpyxl sqlalchemy mysql-connector-python

# นำเข้าข้อมูลจากไฟล์ Excel

In [None]:
%%time
import pandas as pd

# อ่านทั้ง 2 sheet
df_2009_2010 = pd.read_excel('../data/online_retail_II.xlsx', sheet_name='Year 2009-2010')
df_2010_2011 = pd.read_excel('../data/online_retail_II.xlsx', sheet_name='Year 2010-2011')


In [None]:
# รวมข้อมูลจากทั้งสอง DataFrame
df = pd.concat([df_2009_2010, df_2010_2011], ignore_index=True)

In [None]:
df.info()

# สร้างฐานข้อมูล เพื่อเก็บข้อมูล

In [None]:
# สร้างฐานข้อมูล retail_db หากยังไม่มีอยู่ใน MySQL
from sqlalchemy import create_engine, text  # นำเข้า create_engine และ text จาก sqlalchemy

engine = create_engine("mysql+mysqlconnector://root:123456@localhost")  # สร้าง engine สำหรับเชื่อมต่อ MySQL

with engine.connect() as conn:  # เปิดการเชื่อมต่อกับฐานข้อมูล
    conn.execute(text("CREATE DATABASE IF NOT EXISTS retail_db"))  # สร้างฐานข้อมูล retail_db ถ้ายังไม่มี

engine.dispose()  # ปิดการเชื่อมต่อกับ MySQL


```python
create_engine("mysql+mysqlconnector://root:123456@localhost")
```

คำสั่งนี้คือการ สร้างช่องทางเชื่อมต่อ (engine) ระหว่าง Python กับฐานข้อมูล MySQL ด้วย SQLAlchemy

| ส่วนของคำสั่ง                  | ความหมาย                                                                   |
| ------------------------------ | -------------------------------------------------------------------------- |
| `create_engine(...)`           | ฟังก์ชันจาก SQLAlchemy ที่ใช้สร้าง "ช่องเชื่อมต่อ" กับฐานข้อมูล            |
| `"mysql+mysqlconnector://..."` | เป็น connection string (เหมือน URL) ที่บอกว่าเราจะเชื่อมต่อแบบไหน          |
| `mysql+mysqlconnector`         | บอกว่าใช้ฐานข้อมูล MySQL และใช้ driver ที่ชื่อว่า `mysql-connector-python` |
| `root:123456`                  | คือ username และ password ในการล็อกอินเข้าสู่ฐานข้อมูล                     |
| `@localhost`                   | บอกว่าฐานข้อมูลรันอยู่บนเครื่องนี้ (localhost)                             |
---
```python
conn.execute(text("CREATE DATABASE IF NOT EXISTS retail_db"))
```
คำสั่งนี้ใช้เพื่อสร้างฐานข้อมูลใหม่ชื่อ `retail_db` ถ้าหากยังไม่มีอยู่ใน MySQL
| ส่วนของคำสั่ง                  | ความหมาย                                                                   |
| ------------------------------ | -------------------------------------------------------------------------- |
| `conn.execute(...)`            | ใช้เพื่อรันคำสั่ง SQL บนฐานข้อมูลที่เชื่อมต่ออยู่                            |
| `text("CREATE DATABASE IF NOT EXISTS retail_db")` | คำสั่ง SQL ที่จะรัน ซึ่งจะสร้างฐานข้อมูลชื่อ `retail_db` ถ้ายังไม่มีอยู่ |


In [None]:
# Check table in sql server
engine = create_engine("mysql+mysqlconnector://root:123456@localhost/retail_db")  # เชื่อมต่อกับฐานข้อมูล retail_db
with engine.connect() as conn:  # เปิดการเชื่อมต่อ
    result = conn.execute(text("SHOW TABLES"))  # แสดงตารางทั้งหมดในฐานข้อมูล
    tables = result.fetchall()  # ดึงข้อมูลตารางทั้งหมด
    print(tables)  # แสดงชื่อของตาราง

# นำเข้าข้อมูล เข้าไปยังฐานข้อมูล retail_db

In [None]:
%%time
from sqlalchemy import create_engine

# ✅ ระบุ database ให้ชัดเจนใน connection string (เช่น retail_db)
engine = create_engine("mysql+mysqlconnector://root:123456@localhost:3306/retail_db")

# ส่งให้ df.to_sql()
df.to_sql(
    name='retail_data',
    con=engine,
    if_exists='replace',
    index=False,
    chunksize=1000  # ✅ ป้องกัน packet ใหญ่เกิน
)

In [None]:
# Check table in sql server
engine = create_engine("mysql+mysqlconnector://root:123456@localhost/retail_db")  # เชื่อมต่อกับฐานข้อมูล retail_db
with engine.connect() as conn:  # เปิดการเชื่อมต่อ
    result = conn.execute(text("SHOW TABLES"))  # แสดงตารางทั้งหมดในฐานข้อมูล
    tables = result.fetchall()  # ดึงข้อมูลตารางทั้งหมด
    print(tables)  # แสดงชื่อของตาราง

ลองดูข้อมูล ที่อยู่ใน data base ผ่าน MySQL Workbench

In [None]:
# ลบ DataFrame ที่ไม่ใช้แล้ว เพื่อลดการใช้หน่วยความจำ
del df 
del df_2009_2010
del df_2010_2011

# ✅ ปิดการเชื่อมต่อฐานข้อมูล
engine.dispose()

In [None]:
# เชื่อมต่อฐานข้อมูล retail_db
engine = create_engine("mysql+mysqlconnector://root:123456@localhost:3306/retail_db")

# Playground

In [None]:
# เรียกดู Schema ของตาราง retail_data
with engine.connect() as conn:
    result = conn.execute(text("DESCRIBE retail_data"))  # ใช้คำสั่ง DESCRIBE เพื่อดู Schema
    schema = result.fetchall()  # ดึงข้อมูล Schema ทั้งหมด
    for column in schema:  # แสดงชื่อคอลัมน์และประเภทข้อมูล
        print(column)

In [None]:
# แก้ไขชื่อคอลัมน์ที่มีช่องว่าง
with engine.connect() as conn:
    conn.execute(text("ALTER TABLE retail_data CHANGE `Customer ID` CustomerID INT"))

In [None]:
with engine.connect() as conn:
    result = conn.execute(text("DESCRIBE retail_data"))  # ใช้คำสั่ง DESCRIBE เพื่อดู Schema
    schema = result.fetchall()  # ดึงข้อมูล Schema ทั้งหมด
    for column in schema:  # แสดงชื่อคอลัมน์และประเภทข้อมูล
        print(column)

In [None]:
# แสดงข้อมูล CustomerID ทีที่เป็น NaN
query = "SELECT * FROM retail_data WHERE CustomerID IS NULL"
df_nan_customer_id = pd.read_sql(query, engine)  # ใช้ pd.read_sql เพื่อดึงข้อมูลที่เป็น NaN
df_nan_customer_id

> ดึงข้อมูล จาก Data Base ที่มี Price < 0>

In [None]:
# Code Here

ลองรันคำสัั่งด้วย python เพื่อวิเคราะห์รายได้ จากการขายสินค้าในแต่ละประเทศ โดยเรียงลำดับ ประเทศที่มีรายได้สูงสุด 10 อันดับแรก


In [None]:
query = """
SELECT Country, SUM(Quantity * Price) AS Revenue
FROM retail_data
WHERE Quantity > 0 AND Price > 0
GROUP BY Country
ORDER BY Revenue DESC
"""
df_country = pd.read_sql(query, engine)
df_country.head(10).style.format({
    'Revenue': '{:,.2f}'  # แสดง Revenue ในรูปแบบตัวเลขที่มีจุดทศนิยม 2 ตำแหน่ง
})

ลองรันคำสัั่งด้วย python เพื่อหาว่า สินค้าใดที่ขายดีที่สุดในแต่ละประเทศ โดยเรียงลำดับจากสินค้าที่มียอดขายสูงสุด 10 อันดับแรก


In [None]:
query = """
SELECT Description, SUM(Quantity) AS TotalSold
FROM retail_data
WHERE Quantity > 0
GROUP BY Description
ORDER BY TotalSold DESC
LIMIT 10
"""
df_top_products = pd.read_sql(query, engine)
df_top_products

ลองรันคำสัั่งด้วย python เพื่อหาว่า ลูกค้าคนไหนที่มียอดใช้จ่ายสูงสุด 10 อันดับแรก

In [None]:
query = """
SELECT CustomerID, SUM(Quantity * Price) AS TotalSpent
FROM retail_data
WHERE CustomerID IS NOT NULL AND Quantity > 0 AND Price > 0
GROUP BY CustomerID
ORDER BY TotalSpent DESC
LIMIT 10
"""
df_top_customers = pd.read_sql(query, engine)
df_top_customers

> ทำการ query ข้อมูล customer กับประเทศของลูกค้า เพื่อดูว่า ลูกค้า top 10 มาจากประเทศใดบ้าง

In [None]:
# Code Here

Query ข้อมูล เพื่อดูแนวโน้วรายได้ในแต่ละเดือน

In [None]:
query = """
SELECT DATE_FORMAT(InvoiceDate, '%Y-%m') AS YearMonth,
       SUM(Quantity * Price) AS MonthlyRevenue
FROM retail_data
GROUP BY YearMonth
ORDER BY YearMonth
"""
df_monthly = pd.read_sql(query, engine)

# Visualization
df_monthly.set_index("YearMonth").plot(kind='line', title='Monthly Revenue Trend', figsize=(10,5))


In [None]:
# ลองเปรียบเทียบยอดขายในช่วงเดือนสุดท้ายของปี 2010 กับเดือนต้นปี 2011
query = """
SELECT DATE_FORMAT(InvoiceDate, '%Y-%m') AS YearMonth,
       SUM(Quantity * Price) AS MonthlyRevenue
FROM retail_data
WHERE InvoiceDate >= '2010-12-01' AND InvoiceDate < '2011-02-01'
GROUP BY YearMonth
ORDER BY YearMonth
"""
df_dec_2010_jan_2011 = pd.read_sql(query, engine)
df_dec_2010_jan_2011.set_index("YearMonth").plot(kind='bar', title='Revenue in Dec 2010 and Jan 2011', figsize=(10,5))

In [None]:
# Export DataFrame to Excel
df_monthly.to_excel('../data/monthly_revenue.xlsx', index=False)


In [None]:
# Export DataFrame to CSV
df_monthly.to_csv('../data/monthly_revenue.csv', index=False)

In [None]:
engine.dispose()
# ✅ ปิดการเชื่อมต่อ

**💡 Bonus Challenge:**
> ลองใช้ข้อมูลนี้ทำ RFM Analysis (Recency, Frequency, Monetary) เพื่อจัดกลุ่มลูกค้า!

In [None]:
import pandas as pd

# --- RFM Analysis (Recency, Frequency, Monetary) ---

# 1. ดึงข้อมูลที่จำเป็นจากฐานข้อมูล
query = """
SELECT CustomerID, InvoiceDate, Invoice, Quantity, Price
FROM retail_data
WHERE CustomerID IS NOT NULL AND Quantity > 0 AND Price > 0
"""
df_rfm = pd.read_sql(query, engine)

# 2. กำหนดวันอ้างอิงล่าสุด (วันถัดจากวันสุดท้ายในข้อมูล)
latest_date = df_rfm['InvoiceDate'].max() + pd.Timedelta(days=1)
# เพิ่มคอลัมน์ Revenue
df_rfm['Revenue'] = df_rfm['Quantity'] * df_rfm['Price']
# 3. สร้างตาราง RFM
def calc_recency(x):
    return (latest_date - x.max()).days


# สร้างตาราง RFM
rfm = df_rfm.groupby('CustomerID').agg(
    Recency=('InvoiceDate', lambda x: (latest_date - x.max()).days),
    Frequency=('Invoice', 'nunique'),
    Monetary=('Revenue', 'sum')
).reset_index()


# 4. แสดงผลลัพธ์ RFM 10 อันดับแรก
rfm.sort_values(by='Monetary', ascending=False).head(10)

In [None]:
import matplotlib.pyplot as plt

plt.figure(figsize=(10, 6))
scatter = plt.scatter(
    x=rfm['Recency'],
    y=rfm['Frequency'],
    c=rfm['Monetary'],
    s=rfm['Monetary'] / rfm['Monetary'].max() * 200,
    cmap='viridis',
    alpha=0.4
)
plt.colorbar(scatter, label='Monetary')
plt.xlabel('Recency')
plt.ylabel('Frequency')
plt.title('RFM Analysis Scatter Plot')
plt.show()


In [None]:
plt.scatter??

# 🐥 Handout: เชื่อมต่อ Python กับฐานข้อมูล MotherDuck

🎯 เป้าหมายการเรียนรู้

- เข้าใจการใช้งาน MotherDuck (DuckDB บน Cloud)
- เชื่อมต่อฐานข้อมูล MotherDuck ผ่าน Python
- เขียน SQL query และวิเคราะห์ข้อมูลในรูปแบบ DataFrame

In [None]:
!pip install duckdb motherduck 

🔗 ขั้นตอนการเชื่อมต่อ MotherDuck ด้วย Python

```python
import duckdb

# เชื่อมต่อกับ MotherDuck โดยใช้ Token
con = duckdb.connect("md:your_database_name", config={
    "motherduck_token": "YOUR_MOTHERDUCK_TOKEN"
})
```

📌 หมายเหตุ:

md: คือ prefix สำหรับฐานข้อมูลบน MotherDuck

your_database_name คือชื่อ database ที่ตั้งไว้ (หรือปล่อยว่างถ้าไม่เจาะจง)

Token เป็นแบบ Secret อย่าแชร์

In [None]:
import duckdb

# เชื่อมต่อกับ MotherDuck โดยใช้ Token
con = duckdb.connect("md:my_db", config={
    "motherduck_token": "token-1234567890abcdef1234567890abcdef"  # แทนที่ด้วย Token ที่ถูกต้อง
})


In [None]:
# list table 
con.execute("SHOW TABLES").fetchall()

In [None]:
query = """
SELECT * FROM superstore
"""
df_duckdb = con.execute(query).df()  # ใช้ .df() เพื่อดึงข้อมูลเป็น DataFrame

In [None]:
df_duckdb

In [None]:
# Write df_duckdb DataFrame to MotherDuck (DuckDB) as a new table named 'superstore_copy'
df_duckdb.to_sql('superstore_copy', con, if_exists='replace', index=False)