# Python: Lab 2 สำรวจข้อมูลเบื้องต้น (Exploratory Data Analysis)



การทำ Exploratory Data Analysis (EDA) หรือกระบวนการตรวจสอบ สำรวจข้อมูลเบื้องต้น จะช่วยให้สามารถเห็นภาพรวมการกระจายของข้อมูลที่กำลังจะทำการวิเคราะห์ 

ใน Lab นี้ จะทำการสอน EDA ด้วย Library ที่ชื่อว่า Seaborn 




## Seaborn คืออะไร 

[Seaborn](https://seaborn.pydata.org/introduction.html) คือ Library ที่ช่วยในการแสดงข้อมูลทางสถิติ ซึ่งเป็น Library ในภาษา Python ยอดนิยมสำหรับการทำ EDA

โดยมีการทำงานบนพื้นฐานของ [Matplotlib](https://matplotlib.org/) และมีอินเทอร์เฟซระดับสูงสำหรับการวาดภาพกราฟฟิกทางสถิติ




### การติดตั้ง

การติดตั้ง Library Seaborn ควบคู่กับ Matplotlib สามารถทำได้โดยการคำสั่งดังต่อไปนี้

In [None]:
!pip install matplotlib seaborn

### การเข้าถึงการใช้งาน
การเข้าถึงการใช้งาน Library ของ Seaborn และ Matplotlib ด้วยการ `import`

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

`as` คือการเปลี่ยนชื่อ Library ที่โหลดเข้ามา โดยจะทำให้เวลาเรียกใช้ Seaborn สามารถเรียกใช้โดยการเรียก `sns` ก็เพียงพอ

### นำเข้า Library อื่น ๆ ด้วยการ import

In [None]:
import pandas as pd
import numpy as np

# สองบรรทัดด้านล่างเพื่อให้การแสดงผลไม่มี Warning
import warnings
warnings.filterwarnings('ignore')

## ดาวน์โหลดข้อมูลและอ่านข้อมูลด้วย Pandas

สำหรับ Lab นี้ เราจะใช้ข้อมูลราคาค่าโดยสารจากบริการเรียกรถประเภทหนึ่ง (ride-hailing service) ซึ่งถูกรวบรวมไว้ในชุดข้อมูล Dynamic Pricing Dataset จาก Kaggle โดยข้อมูลจำลองนี้สะท้อนสถานการณ์จริงในการกำหนดราคาค่าโดยสารที่เปลี่ยนแปลงไปตามเงื่อนไขต่าง ๆ เช่น จำนวนผู้โดยสาร ความต้องการในช่วงเวลาใดเวลาหนึ่ง ประเภทของยานพาหนะ และสถานที่ให้บริการ

ที่มาของข้อมูล: [Dynamic Pricing Dataset - Maximize revenue and profitability by dynamic pricing](https://www.kaggle.com/datasets/arashnic/dynamic-pricing-dataset)

โดยใน Lab นี้ ข้อมูลจะถูกเตรียมไว้ให้ที่ Folder `data` ที่ไฟล์ `dynamic_pricing.csv`
![Dynamic Pricing](../images/dynamic-pricing-machine-learning-strategies-examples.png)


### นำเข้าข้อมูล

เริ่มจากการโหลดข้อมูล `.csv` ผ่าน Library Pandas

In [None]:
df = pd.read_csv('../data/dynamic_pricing.csv')

In [None]:
df.head()

ลำดับถัดไป คือ การดูรายละเอียดของแต่ละคอลัมม์ได้ที่ ไฟล์ `data_description.txt` ด้วยคำสั่งการอ่าน text file ดังนี้

In [None]:
with open('../data/data_description.txt', 'r') as text:
    data_description = text.read()
    print(data_description)

## การสำรวจและวิเคราะห์ข้อมูลเบื้องต้น
### ทำไมต้องทำ EDA ในงาน Dynamic Pricing?
ในการบริหารธุรกิจบริการเรียกรถ เราต้องเข้าใจว่า "ราคา" ที่ลูกค้าเห็นถูกกำหนดจากอะไร เช่น:
- จำนวนผู้โดยสารเยอะ ทำให้ราคาสูงขึ้นหรือไม่?
- ประเภทของรถมีผลต่อราคาไหม?
- ช่วงเวลาการจอง เช่น ดึก/เย็น ทำให้ราคาสูงขึ้นหรือไม่?

EDA ช่วยให้เราเข้าใจแนวโน้มเหล่านี้ เพื่อเตรียมข้อมูลไปสร้างโมเดล Dynamic Pricing

สำหรับการวิเคราะห์ จะประกอบด้วยขั้นตอนดังนี้



1.   การวิเคราะห์ข้อมูลแบบตัวแปรเดียว (Univariate Data Analysis) โดยให้ความสนใจเฉพาะคอลัมม์ Historical_Cost_of_Ride หรือราคาค่าโดยสารที่เคยเรียกเก็บในอดีต ซึ่งเป็นตัวแปรตามในข้อมูลนี้
2.   การวิเคราะห์พหุตัวแปร (Multivariate Analysis) เพื่อดูความสัมพันธ์ระหว่าง Historical_Cost_of_Ride และปัจจัยอื่นๆ
3.   ทำการวิเคราะห์ missing df 

---
### Basic Info

In [None]:
# ดูชื่อของคอลัมม์ทั้งหมดของข้อมูล
df.columns

In [None]:
# ดูจำนวนแถวและคอลัมน์ของข้อมูล
df.shape

In [None]:
# ดูคอลัมน์และประเภทข้อมูลของแต่ละคอลัมน์
# df.info() # ดูข้อมูลทั้งหมด
df.info(show_counts=True) #จะแสดงจำนวนข้อมูล (non-null) ต่อคอลัมน์ แม้ว่าจะไม่มี missing value

### 1. การวิเคราะห์ข้อมูลแบบตัวแปรเดียว (Univariate Data Analysis) สำหรับ Historical_Cost_of_Ride

เนื่องจาก Historical_Cost_of_Ride หรือราคาค่าโดยสารที่เคยเรียกเก็บในอดีต คือเป้าหมายสำหรับการวิเคราะห์ จึงทำการวิเคราะห์คุณลักษณะและข้อมูลเชิงสถิติของตัวแปรนี้เป็นอันดับแรก

In [None]:
# แสดงสถิติพื้นฐานของข้อมูลทั้งหมดใน DataFrame
df.describe()

In [None]:
# แสดงสถิติพื้นฐานของข้อมูลทั้งหมดใน DataFrame (แบบ transpose เพื่อให้อ่านง่ายขึ้น)
df.describe().T

In [None]:
# ดูข้อมูลสถิติพื้นฐานของ Historical_Cost_of_Ride
df['Historical_Cost_of_Ride'].describe()

In [None]:
import matplotlib.pyplot as plt
# ดูลักษณะการกระจายตัว หรือ Histogram ของ Historical_Cost_of_Ride 
fig, axes  = plt.subplots(1,3, figsize=(20, 5))
# Histogram
sns.histplot(df['Historical_Cost_of_Ride'], alpha=0.5, kde=True, bins=30, ax=axes[0])
axes[0].set_xlabel('Historical Cost of Rides')
axes[0].set_ylabel('Frequency')
axes[0].axvline(df['Historical_Cost_of_Ride'].mean(), color='red', linestyle='dashed', linewidth=1)
axes[0].axvline(df['Historical_Cost_of_Ride'].median(), color='blue', linestyle='dashed', linewidth=1)
axes[0].set_title('Distribution of Historical Cost of Ride')
# Boxplot
sns.boxplot(x=df['Historical_Cost_of_Ride'], ax=axes[1], boxprops=dict(alpha=0.5))
axes[1].set_xlabel('Historical Cost of Ride')
axes[1].set_title('Boxplot of Historical Cost of Ride')
# Violinplot
sns.violinplot(x=df['Historical_Cost_of_Ride'], ax=axes[2],)
axes[2].set_xlabel('Historical Cost of Ride')
axes[2].set_title('Violinplot of Historical Cost of Ride')
plt.show()

## 🔍 การวิเคราะห์ผล 
1. Histogram + KDE จะเห็นได้ว่า

- การกระจายของราคาค่าโดยสารมีลักษณะ เบ้ขวา (Right-skewed) เล็กน้อย
- ค่าเฉลี่ย (เส้นประสีแดง) อยู่สูงกว่าค่ามัธยฐาน (เส้นประสีน้ำเงิน) → แสดงว่ามีค่าโดยสารที่สูงผิดปกติ (outliers) อยู่ด้านขวา
- ช่วงราคาที่พบมากที่สุดอยู่ระหว่าง 300 – 500 หน่วย

2. Boxplot จะเห็นได้ว่า
- กล่อง (IQR) อยู่ในช่วงประมาณ 250 – 600
- ค่ามัธยฐานอยู่เกือบกึ่งกลาง → ข้อมูลกระจายค่อนข้างสมดุล
- ไม่มี outliers แสดงเป็นจุด (ซึ่งอาจถูกตัดทิ้งไว้แล้ว หรือใช้การจัดกลุ่มที่ไม่แสดงจุดพิเศษ)
- Boxplot ยืนยันว่าข้อมูลส่วนใหญ่อยู่ในช่วงราคาที่ปกติ

3. Violinplot จะเห็นได้ว่า
- รูปทรงของ violin แสดงความหนาแน่นของข้อมูลในแต่ละช่วงซึ่งมีความหนาแน่นสูงสุดในช่วงกลาง (ประมาณ 350–500)
- มีขนาดที่ยาวในส่วนปลายด้านล่างและบน แสดงว่ามีบางกรณีราคาต่ำมากและสูงมาก
- ความหนาแน่นต่ำบริเวณราคาสูงเกิน 700 แต่อาจเป็นช่วงที่สำคัญสำหรับการวิเคราะห์ premium ride

## Visualization ด้วย pandas สามารถทำได้ง่าย ๆ

In [None]:
df['Historical_Cost_of_Ride'].plot.hist(bins=30, alpha=0.7, edgecolor='black')
plt.title('Histogram of Historical Cost of Ride')
plt.show()

ศึกษาเพิ่มเติมได้ที่ [pandas visualization](https://pandas.pydata.org/pandas-docs/stable/user_guide/visualization.html)

In [None]:
# List all plot methods available for a pandas DataFrame
print([method for method in dir(df.plot) if not method.startswith('_')])

### 2. การวิเคราะห์พหุตัวแปร (Multivariate Analysis) เพื่อดูความสัมพันธ์ระหว่าง Historical Cost of Ride และปัจจัยอื่นๆ
🧠 ทำไปทำไม?
1. เพื่อเข้าใจปัจจัยที่มีอิทธิพลร่วม
ตัวแปรหนึ่งอาจไม่มีผลชัดเจนเมื่อดูแยกกัน (univariate หรือ bivariate)
แต่เมื่อนำมาวิเคราะห์พร้อมกัน อาจพบ interaction หรือความสัมพันธ์ที่ซ่อนอยู่

ตัวอย่าง:

จำนวนผู้โดยสารมาก อาจทำให้ราคาสูง → แต่เฉพาะในช่วงเย็น

ประเภทรถ Premium ราคาสูง → แต่เฉพาะเมื่อคะแนนรีวิวสูง

2. เพื่อเตรียมข้อมูลสำหรับสร้างโมเดล (Modeling)
ถ้าเราต้องการทำนาย Historical_Cost_of_Ride ด้วย Machine Learning (เช่น Linear Regression, Random Forest ฯลฯ)
เราต้องเข้าใจว่า ตัวแปรใดควรใช้ร่วมกัน และมีความสัมพันธ์อย่างไร

3. เพื่อลดการตัดสินใจผิดพลาดจากการดูข้อมูลแบบแยกส่วน
Multivariate Analysis ช่วยป้องกันความเข้าใจผิดจากการดูความสัมพันธ์แบบ 1:1 ที่อาจหลอกตาได้

เช่น:
การดูแค่ Vehicle_Type กับราคา อาจคิดว่า Premium แพงเสมอ
แต่ถ้ารวม Duration และ Loyalty_Status อาจพบว่าบางคนได้โปรโมชัน

📌 ใช้ในสถานการณ์ใด?
|**สถานการณ์**|**ตัวอย่างการวิเคราะห์ Multivariate**|
|---|---|
|การตั้งราคาขาย (Dynamic Pricing)|ราคาควรขึ้น/ลงตาม Vehicle_Type, Time_of_Booking, Demand, Ratings|
|การให้ส่วนลดหรือโปรโมชัน|ลูกค้าเก่าที่เดินทางนานและให้คะแนนดี อาจควรได้ส่วนลด|
|การจัดการทรัพยากรคนขับ (Supply)|วิเคราะห์ว่าช่วงไหนที่ควรเพิ่มหรือลดคนขับเพื่อลดต้นทุน|
|การทำนายราคาค่าโดยสารในอนาคต|ใช้หลายปัจจัยร่วมกันเพื่อสร้างโมเดลทำนายราคาล่วงหน้า|


#### ดูความสัมพันธ์ระหว่าง Historical Cost of Ride และปัจจัยอื่นที่เป็นตัวเลข (Numerical features)

In [None]:
# เลือกคอลัมท์ ที่เป็นตัวเลขทั้งหมด
numeric_columns = df.select_dtypes(include=['int','float']).columns.tolist()
numeric_columns

In [None]:
# เลือกคอลัมท์ ที่เป็น categorical ทั้งหมด
categorical_columns = df.select_dtypes(include=['object']).columns.tolist()
categorical_columns

In [None]:
# Scatter plot ระหว่าง Historical_Cost_of_Ride (ราคาค่าโดยสารที่เคยเรียกเก็บในอดีต) และ Expected_Ride_Duration (พืระยะเวลาการเดินทางที่คาดไว้)
sns.scatterplot(data=df, x='Expected_Ride_Duration', y='Historical_Cost_of_Ride')
plt.title('Scatter plot of Expected Ride Duration vs Historical Cost of Ride')
plt.xlabel('Expected Ride Duration')
plt.ylabel('Historical Cost of Ride')
plt.show()


In [None]:
# สร้าง scatter plot ระหว่าง Historical_Cost_of_Ride (ราคาค่าโดยสารที่เคยเรียกเก็บในอดีต) และ Expected_Ride_Duration (ระยะเวลาการเดินทางที่คาดไว้)
# พร้อมแยกสีตาม Vehicle_Type (ประเภทการเดินทาง) และแสดงเส้นแนวโน้ม (trend line) สำหรับแต่ละประเภท
sns.lmplot(data=df, x='Expected_Ride_Duration', y='Historical_Cost_of_Ride', hue='Vehicle_Type',scatter_kws={'alpha':0.3}, line_kws={'alpha':0.9})
plt.title('Scatter plot of Expected Ride Duration vs Historical Cost of Ride with trend line')
plt.xlabel('ระยะเวลาการเดินทางที่คาดไว้')
plt.ylabel('ราคาค่าโดยสารที่เคยเรียกเก็บในอดีต')
plt.show()

In [None]:
# แสดงรายชื่อฟอนต์ทั้งหมดที่ติดตั้งในระบบ
from matplotlib import font_manager
print([f.name for f in font_manager.fontManager.ttflist])

In [None]:
import matplotlib.pyplot as plt
import matplotlib

# 1. โหลดฟอนต์ภาษาไทย เช่น 'Sarabun', 'TH Sarabun New'
matplotlib.rcParams['font.family'] = 'Sarabun'  # หรือใช้ 'TH Sarabun New'
# 2. วาดกราฟ
fig, axes  = plt.subplots(1,2, figsize=(20, 5))

# ใช้ scatterplot เพื่อแสดง hue และ regplot สำหรับเส้น regression
sns.scatterplot(ax=axes[0], data=df, x='Expected_Ride_Duration', y='Historical_Cost_of_Ride', hue='Vehicle_Type', alpha=0.5)
# Draw regression line for each Vehicle_Type
for vtype, color in zip(df['Vehicle_Type'].unique(), sns.color_palette()):
	sns.regplot(
		ax=axes[0],
		data=df[df['Vehicle_Type'] == vtype],
		x='Expected_Ride_Duration',
		y='Historical_Cost_of_Ride',
		scatter=False,
		color=color,
		label=f"Trend: {vtype}"
	)
axes[0].set_title('ความสัมพันธ์ระหว่างระยะเวลาเดินทางที่คาดไว้ กับ ราคาค่าโดยสารในอดีต', fontsize=14)
axes[0].set_xlabel('ระยะเวลาเดินทางที่คาดไว้ (นาที)')
axes[0].set_ylabel('ราคาค่าโดยสารในอดีต')

# Boxplot
sns.boxplot(ax=axes[1], data=df, x='Vehicle_Type', y='Historical_Cost_of_Ride', hue='Vehicle_Type')
axes[1].set_title('ราคาค่าโดยสารในอดีต ตามประเภทการเดินทาง', fontsize=14)
axes[1].set_xlabel('ประเภทการเดินทาง')
axes[1].set_ylabel('ราคาค่าโดยสารในอดีต')
plt.show()


🤔 จะเห็นได้ว่า Expected_Ride_Duration มีความสัมพันธ์เชิงเส้นกับ Historical_Cost_of_Ride
หมายความว่า ยิ่งระยะเวลาเดินทางที่คาดไว้มีค่าสูง ราคาค่าโดยสารในอดีตก็มีแนวโน้มเพิ่มสูงขึ้นตามไปด้วย ซึ่งสอดคล้องกับหลักการคิดราคาของบริการเรียกรถที่มักกำหนดราคาตามระยะทางหรือระยะเวลาเดินทาง นอกจากนี้ ยังสามารถสังเกตได้ว่า ประเภทรถ (Vehicle_Type) มีผลต่อระดับราคาด้วย โดยรถประเภท Premium มีราคาสูงกว่า Economy อย่างชัดเจนแม้จะอยู่ในช่วงเวลาเดินทางเดียวกัน

In [None]:
# สร้างกราฟ scatter plot เพื่อดูความสัมพันธ์ระหว่างจำนวนผู้โดยสารกับราคาค่าโดยสารในอดีต
sns.scatterplot(data=df, x='Number_of_Riders', y='Historical_Cost_of_Ride')
plt.title('Scatter plot of Number of Riders vs Historical Cost of Ride')
plt.xlabel('Number of Riders')
plt.ylabel('Historical Cost of Ride')
plt.show()

🔍 วิเคราะห์
- การกระจายของจุดแสดงว่า ไม่มีแนวโน้มความสัมพันธ์เชิงเส้นชัดเจน ระหว่างจำนวนผู้โดยสารกับราคาค่าโดยสาร
- ราคาค่าโดยสารมีค่ากระจายกว้างตั้งแต่ ประมาณ 0 ถึง 800+ หน่วย โดยไม่มีแนวโน้มเพิ่มขึ้นชัดเจนตามจำนวนผู้โดยสารโดยตรง (demand)

In [None]:
# สร้างกราฟ scatter plot เพื่อดูความสัมพันธ์ระหว่างจำนวนคนขับกับราคาค่าโดยสารในอดีต
sns.scatterplot(data=df, x='Number_of_Drivers', y='Historical_Cost_of_Ride')
plt.title('Scatter plot of Number of Drivers vs Historical Cost of Ride')
plt.xlabel('Number of Drivers')
plt.ylabel('Historical Cost of Ride')
plt.show()

🔍 วิเคราะห์
- จุดส่วนใหญ่กระจุกอยู่ในช่วง จำนวนคนขับระหว่าง 5 – 30 คน

In [None]:
sns.kdeplot(
    data=df,
    x='Number_of_Drivers',
    y='Historical_Cost_of_Ride',
    fill=True,
    cmap='viridis',
    thresh=0.05,
    cbar=True
)
plt.title('KDE plot of Number of Drivers vs Historical Cost of Ride')
plt.xlabel('Number of Drivers')
plt.ylabel('Historical Cost of Ride')
plt.show()

🔍 Marginal Plot
📌 จุดประสงค์ของ Marginal Plot:
- แสดงการกระจาย (distribution) ของแต่ละตัวแปร แยกตามแกน เช่น:
        - Boxplot หรือ Histogram ของ Number_of_Drivers ด้านบน (แกน X)
        - Boxplot หรือ KDE ของ Historical_Cost_of_Ride ด้านข้าง (แกน Y)
- ช่วยให้เข้าใจโครงสร้างของข้อมูลมากขึ้นนอกเหนือจากความสัมพันธ์ระหว่างกัน

In [None]:
import matplotlib.gridspec as gridspec

# สร้าง layout
fig = plt.figure(figsize=(8, 8))
gs = gridspec.GridSpec(4, 4)

# KDE plot (ตรงกลาง)
ax_main = fig.add_subplot(gs[1:4, 0:3])
sns.kdeplot(
    data=df,
    x='Number_of_Drivers',
    y='Historical_Cost_of_Ride',
    fill=True,
    cmap='viridis',
    thresh=0.05,
    ax=ax_main
)
ax_main.set_xlabel("Number of Drivers")
ax_main.set_ylabel("Historical Cost of Ride")
ax_main.set_title("KDE with Marginal Boxplots")

# Boxplot ด้านบน (แกน X)
ax_x = fig.add_subplot(gs[0, 0:3], sharex=ax_main)
sns.boxplot(
    data=df,
    x='Number_of_Drivers',
    ax=ax_x
)
ax_x.set_ylabel("")
ax_x.set_xlabel("")
ax_x.tick_params(axis="x", labelbottom=False)

# Boxplot ด้านขวา (แกน Y)
ax_y = fig.add_subplot(gs[1:4, 3], sharey=ax_main)
sns.boxplot(
    data=df,
    y='Historical_Cost_of_Ride',
    ax=ax_y,
    orient="h"
)
ax_y.set_ylabel("")
ax_y.set_xlabel("")
ax_y.tick_params(axis="y", labelleft=False)

plt.tight_layout()
plt.show()


In [None]:
# KDE + Marginal Histogram

# สร้าง layout
fig = plt.figure(figsize=(8, 8))
gs = gridspec.GridSpec(4, 4)

# KDE Plot ตรงกลาง
ax_main = fig.add_subplot(gs[1:4, 0:3])
sns.kdeplot(
    data=df,
    x='Number_of_Drivers',
    y='Historical_Cost_of_Ride',
    fill=True,
    cmap='viridis',
    thresh=0.05,
    ax=ax_main
)
ax_main.set_xlabel("Number of Drivers")
ax_main.set_ylabel("Historical Cost of Ride")
ax_main.set_title("KDE Plot with Marginal Histograms")

# Histogram ด้านบน (สำหรับแกน X)
ax_x = fig.add_subplot(gs[0, 0:3], sharex=ax_main)
sns.histplot(
    data=df,
    x='Number_of_Drivers',
    bins=30,
    kde=False,
    color='skyblue',
    ax=ax_x
)
ax_x.set_ylabel("")
ax_x.set_xlabel("")
ax_x.tick_params(axis="x", labelbottom=False)

# Histogram ด้านขวา (สำหรับแกน Y)
ax_y = fig.add_subplot(gs[1:4, 3], sharey=ax_main)
sns.histplot(
    data=df,
    y='Historical_Cost_of_Ride',
    bins=30,
    kde=False,
    color='skyblue',
    ax=ax_y
)
ax_y.set_xlabel("")
ax_y.set_ylabel("")
ax_y.tick_params(axis="y", labelleft=False)

plt.tight_layout()
plt.show()


In [None]:
sns.jointplot(
    data=df,
    x='Number_of_Drivers',
    y='Historical_Cost_of_Ride',
    cmap='viridis',
    kind='hex',              # หรือ 'scatter', 'hex'
    marginal_kws=dict(fill=True),
    color='skyblue'
)

🔍 วิเคราะห์
1. ศูนย์กลางความหนาแน่นสูงสุด:
    - อยู่ที่ช่วง จำนวนคนขับประมาณ 10–25 คน
    - และราคาค่าโดยสารประมาณ 300–500 หน่วย
    - แสดงว่า “สถานการณ์ปกติ” มักจะเกิดในช่วงคนขับระดับนี้ และราคากลางถึงสูง

2. พื้นที่ความหนาแน่นต่ำ (สีน้ำเงิน–ม่วง):
   - พบมากขึ้นเมื่อจำนวนคนขับเกิน 50 คน
   - และเมื่อราคาสูงเกิน 600 หน่วย หรือ ต่ำกว่า 100 หน่วย
   - แสดงว่าเป็นสถานการณ์ที่พบไม่บ่อย อาจเป็นช่วง peak hour หรือมี demand/supply ผิดปกติ

3. แนวโน้มโดยรวม:
   - ความหนาแน่นไม่ได้เรียงในแนวเส้นตรง → ไม่มีความสัมพันธ์เชิงเส้นชัดเจน
   - แต่มีการกระจุกตัวที่น่าสนใจ ซึ่งอาจสะท้อนพฤติกรรมตลาดหรือการตั้งราคาแบบ dynamic

#### ดูความสัมพันธ์ระหว่าง Historical_Cost_of_Ride และปัจจัยอื่นที่เป็นหมวดหมู่ (Categorical features)

🧠 ทำไปทำไม?
1. เพื่อดู “แนวโน้มราคา” แยกตามหมวดหมู่
ช่วยให้เห็นว่าแต่ละกลุ่ม (category) ส่งผลต่อราคาค่าโดยสารอย่างไร เช่น:
- รถ Premium มีราคาสูงกว่า Economy จริงไหม?
- ลูกค้า Silver จ่ายแพงกว่ากลุ่ม Regular หรือไม่?
- พื้นที่ Urban มีราคาสูงกว่าชนบทหรือไม่?
  
2. เพื่อระบุ “feature ที่สำคัญ” สำหรับโมเดล
- ถ้าค่าราคาแตกต่างกันมากในแต่ละกลุ่ม นั่นแปลว่า feature นั้น มีผลจริง ต่อราคา → ควรนำไปใช้ในโมเดลทำนาย (เช่น Dynamic Pricing)

3. เพื่อหาความผิดปกติ / Outlier เฉพาะกลุ่ม
Boxplot แสดง Outliers ได้ดี → ช่วยให้เห็นว่ามีกลุ่มไหนราคาผิดปกติหรือสูงมากกว่าปกติ เช่น:
- Economy แต่มีราคาสูงผิดปกติ
- Suburban ที่ควรราคาถูก แต่กลับมีราคาสูงมากในบางเคส

📊 ใช้ในสถานการณ์ใด?
|สถานการณ์ธุรกิจ|ตัวอย่างการวิเคราะห์
|---|---|
|วิเคราะห์การตั้งราคา|Premium vs Economy มีราคาต่างกันชัดเจนหรือไม่
|การออกแบบโปรโมชัน|หากกลุ่ม Silver จ่ายสูงกว่าชัดเจน อาจให้ reward เพิ่ม
|การระบุตลาดเป้าหมาย|พื้นที่ใดจ่ายแพงกว่าปกติ อาจเป็นกลุ่มลูกค้าพรีเมียม
|สร้าง feature ใหม่|หากบาง group มีแนวโน้มราคาชัดเจน อาจ encode กลุ่มนั้นเป็น feature

🔧 ทำไมใช้ทั้ง boxplot และ violinplot?
|Plot|	จุดเด่น
|---|---|
|Boxplot|แสดงค่ากลาง (median), IQR, outliers ได้ดี
|Violinplot|เห็นรูปทรงการกระจายของข้อมูล (distribution shape) ว่าบิดเบี้ยวหรือกระจุกตัวหรือไม่

ใช้คู่กันจะได้ภาพที่ ทั้งแม่นยำและเข้าใจง่าย



การแสดง Box plot เพื่อแสดงค่าควอไทร์ของข้อมูล รวมไปถึงแสดงถึง Outlier ของข้อมูล
ดูวิธีการใช้งานเพิ่มเติมได้ที่นี่: https://seaborn.pydata.org/generated/seaborn.boxplot.html?highlight=boxplot#seaborn.boxplot

In [None]:
for col in categorical_columns:
    fig, axes  = plt.subplots(1,2, figsize=(20, 5))
    # Boxplot
    sns.boxplot(x=col, y='Historical_Cost_of_Ride', data=df, ax=axes[0])
    axes[0].set_title(f'Boxplot of {col} vs Historical Cost of Ride')
    # Violinplot
    sns.violinplot(x=col, y='Historical_Cost_of_Ride', data=df, ax=axes[1])
    axes[1].set_title(f'Violinplot of {col} vs Historical Cost of Ride')
    plt.show()

ตัวอย่าง การวิเคราะห์เชิงลึกที่ผสมผสานระหว่างการ แปลงข้อมูลเชิงตัวเลขเป็นกลุ่ม (categorization) + การสำรวจข้อมูล (EDA) เพื่อตอบคำถามว่า:

❓ “คะแนนความพึงพอใจของลูกค้า (Average_Ratings) มีความสัมพันธ์กับราคาค่าโดยสาร (Historical_Cost_of_Ride) หรือไม่?”

✅ การแปลงคะแนนเฉลี่ยเป็นกลุ่ม:
- เพื่อเปลี่ยน Average_Ratings (ที่เป็นค่าต่อเนื่อง เช่น 4.3, 4.8) ให้กลายเป็นกลุ่มคุณภาพ (average, good)
- สะดวกต่อการเปรียบเทียบ → เช่น การทำ boxplot หรือ countplot

In [None]:
# สร้างกราฟฮิสโตแกรมเพื่อดูการกระจายของคะแนนความพึงพอใจ (Average_Ratings)
df['Average_Ratings'].hist(bins=30, alpha=0.7, edgecolor='black')
plt.title('Histogram of Average Ratings')
plt.xlabel('Average Ratings')
plt.ylabel('Frequency')
plt.show()

ข้อสังเกตุ: การกระจายตัวของ Average_Ratings ค่อนข้างสม่ำเสมอ ค่ามาที่สุดอยู่ที่ 5.0 ค่าน้อที่สุดอยูที่ 3.5 
- ค่า Average_Ratings กระจายตัวอยู่ทั่วช่วง โดย ไม่มีการกระจุกตัวเพียงจุดเดียว
- สะท้อนว่า ระบบได้รับการรีวิวที่หลากหลายจากลูกค้าหลายระดับ
- ข้อมูลนี้อาจจะมี Bias เนื่องจาก ไม่มี Average_Ratings ที่เป็นตระดับต่ำกว่า 3.5

ใช้ Percentile ในการแบ่งกลุ่ม
- 0–25%: ต่ำ (fair)
- 25–50%: ปานกลาง (average)
- 50–75%: ดี (good)
- 75–100%: ดีมาก (excellent)

In [None]:
# คำนวณ percentiles
percentiles = np.percentile(df['Average_Ratings'], [0, 25, 50, 75, 100])
print("Percentiles of Average Ratings:")
for i, p in enumerate(percentiles):
    print(f"{i*25}th percentile: {p}")

In [None]:
# แปลงคอลัมน์ Average_Ratings เป็นกลุ่มตาม percentiles
df['Average_Ratings_Class'] = pd.cut(df['Average_Ratings'], bins=percentiles, include_lowest=True, labels=['fair', 'average', 'good', 'excellent'])
df['Average_Ratings_Class'].value_counts()

In [None]:
df.head()

**ดูจำนวนลูกค้าแต่ละกลุ่ม (countplot):**
เพื่อตรวจสอบว่าแต่ละกลุ่มมีจำนวนข้อมูลเพียงพอสำหรับเปรียบเทียบหรือไม่
ถ้ามี bias เช่น กลุ่ม good มากเกินไป → อาจต้องระวังในการตีความผลลัพธ์

In [None]:
# นับจำนวนข้อมูลในแต่ละกลุ่มของ Average_Ratings_Class และแสดงผลด้วย countplot
sns.countplot(data=df, x='Average_Ratings_Class', hue='Average_Ratings_Class')

ใส่ label บนแท่ง countplot:ช่วยให้ผู้อ่านกราฟเข้าใจจำนวนแต่ละกลุ่มอย่างรวดเร็ว โดยไม่ต้องเดาตัวเลขจากความสูงของแท่ง
```python
ax.annotate(f'{height}', ...)
```

In [None]:
# นับจำนวนข้อมูลในแต่ละกลุ่มของ Average_Ratings_Class และแสดงผลด้วย countplot พร้อมแสดงจำนวนบนแต่ละแท่ง
ax = sns.countplot(data=df, x='Average_Ratings_Class', hue='Average_Ratings_Class')
for p in ax.patches:
    height = p.get_height()
    ax.annotate(f'{height}', (p.get_x() + p.get_width() / 2, height), ha='center', va='bottom')
plt.show()

เปรียบเทียบค่าโดยสารด้วย boxplot (ตามกลุ่ม Rating):
- เพื่อดูว่า ลูกค้าที่ให้คะแนนดี (excellent) จ่ายค่าโดยสารต่างจากลูกค้าที่ให้คะแนนเฉลี่ย (fair) หรือไม่

- วิเคราะห์ได้ว่า หาก excellent มีราคาสูง → อาจเป็นลูกค้า premium ที่ยอมจ่ายแพง

In [None]:
# สร้าง boxplot เพื่อเปรียบเทียบราคาค่าโดยสารในอดีต (Historical_Cost_of_Ride) ตามกลุ่มคะแนนความพึงพอใจ (Average_Ratings_Class)
sns.boxplot(data=df, x='Average_Ratings_Class', y='Historical_Cost_of_Ride', hue='Average_Ratings_Class')

วิเคราะห์ราคากับระยะเวลา โดยแยกกลุ่ม Rating (Scatter + Trendline):
- เพื่อดูว่าในแต่ละกลุ่ม Rating ความสัมพันธ์ระหว่าง ระยะเวลาเดินทาง (Expected_Ride_Duration) กับราคาค่าโดยสาร เป็นอย่างไร

- เส้นแนวโน้ม (trend line) ของแต่ละกลุ่มจะช่วยให้เห็นว่า:

    - กลุ่ม excellent มี slope ราคาแรงกว่ากลุ่ม อื่นๆ หรือไม่?

    - อธิบายพฤติกรรมลูกค้าที่ต่างกัน → ลูกค้ากลุ่มดีอาจเดินทางไกลและยอมจ่ายแพง


In [None]:
# สร้าง scatter plot ระหว่าง Historical_Cost_of_Ride (ราคาค่าโดยสารที่เคยเรียกเก็บในอดีต) และ Expected_Ride_Duration (ระยะเวลาการเดินทางที่คาดไว้)
# พร้อมแยกสีตาม Vehicle_Type (ประเภทการเดินทาง) และแสดงเส้นแนวโน้ม (trend line) สำหรับแต่ละประเภท
sns.lmplot(data=df, x='Expected_Ride_Duration', y='Historical_Cost_of_Ride', hue='Average_Ratings_Class', scatter_kws={'alpha': 0.2})
plt.title('Scatter plot of Expected Ride Duration vs Historical Cost of Ride with trend line')
plt.xlabel('ระยะเวลาการเดินทางที่คาดไว้')
plt.ylabel('ราคาค่าโดยสารที่เคยเรียกเก็บในอดีต')
plt.show()

🎯 สรุป:
- แบ่งกลุ่มลูกค้าตามคะแนนความพึงพอใจ
- วิเคราะห์พฤติกรรมการใช้จ่ายของแต่ละกลุ่ม
- เข้าใจแนวโน้มราคาและระยะทางของลูกค้าแต่ละประเภท

การวิเคราะห์ความสัมพันธ์ระหว่าง ราคาค่าโดยสาร (Historical_Cost_of_Ride) กับ ตัวแปรเชิงหมวดหมู่ (Categorical Features) โดยเน้นไปที่การสำรวจความสัมพันธ์ระหว่าง:

- Location_Category กับ Customer_Loyalty_Status (2 ตัวแปรเชิงกลุ่ม)

- Time_of_Booking กับราคาค่าโดยสาร (ผ่าน Expected_Ride_Duration)

Heatmap ของ Crosstab
- เพื่อดูว่า กลุ่มลูกค้า (Loyalty Status) แต่ละประเภทมีสัดส่วนอย่างไรในแต่ละพื้นที่ (Location_Category) เช่น:

    - พื้นที่เมือง (Urban) มีลูกค้า Silver เยอะไหม?

    - ชนบทมีลูกค้า Regular มากกว่า?

In [None]:
# สร้าง Crosstab (ตารางความถี่) ระหว่าง Location_Category และ Customer_Loyalty_Status
ct = pd.crosstab(df['Location_Category'], df['Customer_Loyalty_Status'])

# สร้าง Heatmap เพื่อแสดงความถี่ของแต่ละกลุ่ม
sns.heatmap(ct, annot=True, fmt='d', cmap='Blues')
plt.title('Heatmap of Location vs Customer Loyalty')
plt.ylabel('Location Category')
plt.xlabel('Customer Loyalty Status')
plt.show()


🧠 ข้อสังเกต
✅ 1. กลุ่มลูกค้า Silver มีจำนวนมากที่สุดในทุกพื้นที่
- โดยเฉพาะในพื้นที่ Urban (127 คน) และ Suburban (123 คน)

- สะท้อนว่ากลุ่ม Silver อาจเป็นกลุ่มที่ใช้บริการบ่อย หรือมี engagement สูง

- ควรเป็นกลุ่มเป้าหมายสำคัญในการออกแบบแผนราคาหรือโปรโมชัน
  
✅ 2. พื้นที่ Urban มีลูกค้าทุกกลุ่มกระจายตัวค่อนข้างสมดุล
    Gold: 109
    Regular: 110
    Silver: 127
- อาจแสดงว่าเมืองใหญ่มีลูกค้าทุกประเภท ทำให้ ต้องมีกลยุทธ์ที่หลากหลาย
  
✅ 3. พื้นที่ Suburban มีลูกค้า Gold น้อยที่สุด (92 คน)
- อาจสะท้อนถึงพฤติกรรมลูกค้าในเขตชานเมืองที่ไม่ใช่กลุ่มจ่ายสูง
- เหมาะสำหรับ บริการราคาประหยัด (Economy) มากกว่า Premium
  
✅ 4. Rural ยังคงมีการกระจายที่ดี โดยเฉพาะกลุ่ม Silver
- บ่งบอกว่ากลุ่มลูกค้าภักดีมีอยู่ทั่วถึง แม้ในพื้นที่ห่างไกล
- ควรพิจารณาโปรโมชันรักษาลูกค้าเก่าในเขต Rural

lmplot — ความสัมพันธ์ Duration กับ Cost แยกตาม Time_of_Booking
- เพื่อดูว่าแต่ละช่วงเวลา (Time_of_Booking: เช่น Morning, Night) มีแนวโน้มราคาค่าโดยสารต่างกันอย่างไร เมื่อ ระยะเวลาเดินทาง (Expected_Ride_Duration) เปลี่ยนแปลง

In [None]:
# สร้างกราฟ lmplot เพื่อดูความสัมพันธ์ระหว่าง Expected_Ride_Duration กับ Historical_Cost_of_Ride โดยแยกสีตาม Time_of_Booking
sns.lmplot(data=df, x='Expected_Ride_Duration', y='Historical_Cost_of_Ride', hue='Time_of_Booking', scatter_kws={'alpha': 0.2})

📈 วิเคราะห์ที่ได้:
- ถ้าเส้นของช่วง Afernoon ชันกว่าช่วงอื่น → อาจแปลว่า เวลาเดินทางช่วงบ่ายมีราคาสูงกว่าช่วงอื่น

- เปรียบเทียบ slope ของแต่ละกลุ่ม เพื่อดู “ความชันของการคิดราคา”

### การสรุปข้อมูลเชิงตารางสรุปแบบเข้าใจง่าย ด้วยการใช้ `pivot_table` ของ pandas

การทำ Pivot Table

In [None]:
# Pivot Table: หาราคาค่าโดยสารเฉลี่ย แยกตามประเภทพาหนะและช่วงเวลาการจอง
pivot = df.pivot_table(
    values='Historical_Cost_of_Ride',
    index='Vehicle_Type',            # row: ประเภทรถ
    columns='Time_of_Booking',       # column: เวลาในการจอง
    aggfunc='mean',                  # การรวม: ค่าเฉลี่ย
    margins=True,                    # เพิ่มแถว/คอลัมน์รวมทั้งหมด
    margins_name='Average'
)

# แสดงผลลัพธ์
pivot

In [None]:
pivot.style.background_gradient(cmap='viridis', low=0, high=1)

In [None]:
# ถ้าอยากดูยอดการเดินทางรวมในแต่ละช่วง:
df.pivot_table(values='Expected_Ride_Duration', index='Location_Category', columns='Vehicle_Type', aggfunc='count')


In [None]:
sns.heatmap(pivot.drop(index='Average').drop(columns='Average'), annot=True, fmt='.1f', cmap='YlGnBu')
plt.title('Avg Historical Cost by Vehicle Type and Time of Booking')
plt.show()


In [None]:
# ปรับ cateforical data ของ Time_of_Booking ให้เป็น ordinal
from pandas.api.types import CategoricalDtype
# สร้างลำดับที่ต้องการ
time_order = ['Morning', 'Afternoon', 'Evening', 'Night']
# สร้าง CategoricalDtype โดยระบุลำดับ
time_cat = CategoricalDtype(categories=time_order, ordered=True)
# แปลงคอลัมน์ Time_of_Booking เป็น CategoricalDtype
df['Time_of_Booking'] = df['Time_of_Booking'].astype(time_cat)


pivot_order = df.pivot_table(
    values='Historical_Cost_of_Ride',
    index='Vehicle_Type',            # row: ประเภทรถ
    columns='Time_of_Booking',       # column: เวลาในการจอง
    aggfunc='mean',                  # การรวม: ค่าเฉลี่ย
    margins=True,                    # เพิ่มแถว/คอลัมน์รวมทั้งหมด
    margins_name='Average'
)


sns.heatmap(pivot_order.drop(index='Average').drop(columns='Average'), annot=True, fmt='.1f', cmap='YlGnBu')
plt.title('Avg Historical Cost by Vehicle Type and Time of Booking')
plt.show()

## วิเคราะห์ปัจจัยอื่นเพิ่มเติม

เนื่องจากมีปัจจัยอีกมากมายให้ทำการวิเคราะห์ จึงขอเลือกใช้วิธี Visualization ที่ทำให้เห็นความสัมพันธ์ของทุกปัจจัย ดังนี้

1.   การวิเคราะห์สหสัมพันธ์ (Correlation matrix ด้วย Heatmap) 
2.   การวิเคราะห์สหสัมพันธ์ โดยมุ่งเน้นที่ราคาค่าโดยสาร (Historical_Cost_of_Ride)

### การวิเคราะห์สหสัมพันธ์ (Correlation matrix ด้วย Heatmap)

In [None]:
# Correlation matrix (numeric columns only)
corrmat = df.select_dtypes(include=['int','float']).corr()
plt.figure(figsize=(12, 9))
sns.heatmap(corrmat, annot=True, fmt='.2f', cmap='coolwarm', cbar_kws={"shrink": .8})
plt.title('Correlation Matrix')
plt.show()

In [None]:
corrmat = df.select_dtypes(include=['int','float']).corr()
mask = np.triu(np.ones_like(corrmat, dtype=bool))
plt.figure(figsize=(12, 9))
sns.heatmap(corrmat, mask=mask, annot=True, fmt='.2f', cmap='coolwarm', cbar_kws={"shrink": .8})
plt.title('Correlation Matrix (Lower Triangle)')
plt.show()

การ Visualize ด้วย Heatmap นับเป็นหนึ่งในวิธีที่มีประสิทธิภาพ ในการทำให้เห็นภาพรวมของความสัมพันธ์ในแต่ละปัจจัยของข้อมูล 
บทวิเคราะห์ความสัมพันธ์ระหว่างตัวแปร (Correlation Matrix)
จุดที่น่าสังเกตคือ 

เมทริกซ์นี้แสดง ค่า Pearson correlation coefficient (r) ระหว่างตัวแปรเชิงตัวเลขในชุดข้อมูล

ค่าความสัมพันธ์อยู่ระหว่าง -1 ถึง 1:

ใกล้ 1 = ความสัมพันธ์ทางบวกสูง (ค่าเพิ่ม-เพิ่ม)

ใกล้ -1 = ความสัมพันธ์ทางลบสูง (ค่าเพิ่ม-ลด)

ใกล้ 0 = ไม่มีความสัมพันธ์




### ✅ วิเคราะห์ตัวแปรที่เกี่ยวข้องกับ Historical_Cost_of_Ride
|ตัวแปร|	ค่าความสัมพันธ์ (r)	|ความหมาย	|วิเคราะห์เชิงธุรกิจ
|---|---|---|---|
|Expected_Ride_Duration|	0.93|	สูงมาก (บวก)|	ราคาค่าโดยสารเพิ่มตามระยะเวลาเดินทาง เป็นปัจจัยหลักในการตั้งราคา
|Number_of_Past_Rides|	0.04|	ต่ำ (บวกเล็กน้อย)|	ลูกค้าที่มีประสบการณ์เดินทางมาก ไม่ได้จ่ายแพงกว่าชัดเจน
|Number_of_Drivers|	0.02|	ต่ำมาก|	จำนวนคนขับไม่ได้ส่งผลชัดเจนต่อราคาค่าโดยสาร
|Number_of_Riders|	0.01|	แทบไม่มี|	ความต้องการของผู้โดยสารไม่มีผลโดยตรงต่อราคาค่าโดยสาร
|Average_Ratings|	-0.00|	ไม่มีเลย|	ความพึงพอใจของลูกค้าไม่ได้มีผลต่อราคาที่เรียกเก็บ

---
✅ ความสัมพันธ์อื่นที่น่าสนใจ
| คู่ตัวแปร                                    | r        | วิเคราะห์                                                                                                            |
| -------------------------------------------- | -------- | -------------------------------------------------------------------------------------------------------------------- |
| **Number\_of\_Riders – Number\_of\_Drivers** | **0.63** | ความต้องการและอุปทานมีแนวโน้มไปด้วยกัน เช่น ช่วงที่คนจองเยอะ ก็มีคนขับมากขึ้น (ระบบอาจมีการจัดสรร supply ตาม demand) |



# สรุป

Lab 2: การสำรวจข้อมูลเบื้องต้นด้วยวิธีการทางสถิติด้วยข้อมูล Dynamic Pricing นี้ ได้ทำการสอนการทำ Exploratory Data Analysis หรือ EDA ซึ่งคือกระบวนการตรวจสอบและสำรวจข้อมูลเบื้องต้น เพื่อใช้ทำการวิเคราะห์หรือตั้งสมมติฐานทางสถิติ โดยใช้ Seaborn เป็นเครื่องมือ ด้วยเทคนิคดังนี้

*   การวิเคราะห์ข้อมูลแบบตัวแปรเดียว (Univariate Analysis)
*   การวิเคราะห์พหุตัวแปร (Multivariate Analysis)
*   การวิเคราะห์สหสัมพันธ์ (Correlation)

---

# **🔧 จากการทำ EDA สู่การสร้าง Data Product**
- การวิเคราะห์ข้อมูลเชิงลึก (Exploratory Data Analysis) เป็นขั้นตอนสำคัญในการทำความเข้าใจข้อมูลก่อนการสร้างโมเดล
- ช่วยให้เราเห็นภาพรวมของข้อมูล และความสัมพันธ์ระหว่างตัวแปรต่างๆ
- การสร้าง Data Product จะช่วยให้เราสามารถนำข้อมูลที่วิเคราะห์แล้วไปใช้ประโยชน์ได้จริง เช่น การตั้งราคาแบบ Dynamic Pricing

**📌 ทำไมต้องสร้าง Data Product หลังจาก EDA?**

หลังจากที่เราทำ EDA (Exploratory Data Analysis) เสร็จสิ้น เราเข้าใจแล้วว่า:

- ปัจจัยใดบ้างที่มีผลต่อราคาค่าโดยสาร

- ความสัมพันธ์ระหว่างจำนวนผู้โดยสาร / คนขับ / ประเภทรถ / เวลาจอง กับราคาจริง

ดังนั้น ขั้นตอนถัดไปคือการเปลี่ยนข้อมูลเหล่านี้ให้กลายเป็น Data Product ที่สามารถใช้ได้จริง เพื่อสร้างประโยชน์ให้กับธุรกิจ เช่น การตั้งราคาที่เหมาะสมและยืดหยุ่นตามสถานการณ์

---

**💡 Data Product คืออะไร?**

Data Product คือโซลูชันหรือระบบที่ใช้ข้อมูลเป็นแกนหลักในการสร้างมูลค่า เช่น:

- ฟังก์ชันปรับราคาค่าโดยสารแบบอัตโนมัติ (Dynamic Pricing)

- โมเดล Machine Learning ที่ทำนายราคาค่าโดยสารล่วงหน้า

- API สำหรับนำไปเชื่อมต่อในแอปเรียกรถของผู้ใช้จริง

การเปลี่ยนแปลงจาก Fixed Pricing Model ที่อิงแค่ระยะเวลาเดินทาง มาเป็น Dynamic Pricing Strategy ที่พิจารณาทั้ง Demand และ Supply เพื่อปรับราคาค่าโดยสารแบบยืดหยุ่น

🔍 อธิบายเป็นรูปแบบสมการ:
Fixed Pricing Model (แบบเดิม)ที่บริษัทใช้โมเดลราคาแบบง่าย โดยพิจารณาแค่ระยะเวลาเดินทาง:

$$

Price=k⋅Expected Ride Duration
$$
โดยที่ $k$ คืออัตราค่าบริการต่อหน่วยเวลา (fixed rate)

## Data Product: Dynamic Pricing Engine
- Dynamic Pricing Engine จะใช้ข้อมูลที่เราวิเคราะห์ใน EDA มาสร้างโมเดลที่สามารถปรับราคาได้ตาม Demand และ Supply

✅ 1. Dynamic Pricing Engine (การตั้งราคาแบบใหม่)
ปรับราคาตามทั้ง Demand และ Supply โดยอิงกับราคาจากอดีต:

โดยคำนวณจาก percentiles ของ demand และ supply เพื่อปรับราคาแบบอัตโนมัติตามสถานการณ์จริง เช่น ช่วง peak มีผู้โดยสารเยอะและคนขับน้อย → ราคาจะปรับสูงขึ้นโดยอัตโนมัติ

$$
Adjusted Price = Historical Cost of Ride \times Demand Multiplier \times Supply Multiplier
$$

โดยที่:

- **Demand Multiplier**:

$$
\text{Demand Multiplier} =
\begin{cases}
\frac{\text{Number of Riders}}{\text{High Demand Percentile}}, & \text{ถ้า demand สูง} \\\\
\frac{\text{Number of Riders}}{\text{Low Demand Percentile}}, & \text{ถ้า demand ต่ำ}
\end{cases}

$$

- **Supply Multiplier**:
$$
\text{Supply Multiplier} =
\begin{cases}
\frac{\text{High Supply Percentile}}{\text{Number of Drivers}}, & \text{ถ้า supply สูง} \\\\
\frac{\text{Low Supply Percentile}}{\text{Number of Drivers}}, & \text{ถ้า supply ต่ำ}
\end{cases}
$$

มีการตั้งค่า threshold เพื่อควบคุมไม่ให้ราคาผันผวนเกินไป:
$$
Adjusted Price = Historical Cost of Ride \times \max(Demand Multiplier,\theta_{dt_l}) \times \max(Supply Multiplier,\theta_{st_h})
$$
โดยที่: 

$\theta_{dt_l}$ คือ $\text{demand threshold low boundary}$ และ 

$\theta_{st_h}$ คือ $\text{supply threshold high boundary}$

เป็นการกำหนด **การตั้งค่าคงที่ของ Threshold**: ควบคุมไม่ให้ราคาสูง/ต่ำเกินไป
 - $\theta_{dt_l}$: ค่าต่ำสุดที่ Demand Multiplier จะไม่ต่ำกว่านี้
  - $\theta_{st_h}$: ค่าต่ำสุดที่ Supply Multiplier จะไม่ต่ำกว่านี้

ทำการเพิ่มเติมข้อมูลที่จำเป็นสำหรับการสร้าง Data Product เช่น:
- **Demand Multiplier**: ตัวคูณที่ใช้ปรับราคาตามความต้องการ
- **Supply Multiplier**: ตัวคูณที่ใช้ปรับราคาตามอุปทาน
- **Adjusted Ride Cost**: ราคาที่ปรับตาม Demand และ Supply

In [None]:
# คำนวณตัวคูณฝั่งดีมานด์ (demand_multiplier) โดยใช้เปอร์เซ็นไทล์สำหรับดีมานด์สูงและต่ำ
high_demand_percentile = 75
low_demand_percentile = 25

high_demand = np.percentile(df['Number_of_Riders'], high_demand_percentile)
low_demand = np.percentile(df['Number_of_Riders'], low_demand_percentile)

df['demand_multiplier'] = np.where(
    df['Number_of_Riders'] > high_demand,
    df['Number_of_Riders'] / high_demand,
    df['Number_of_Riders'] / low_demand
)

# คำนวณตัวคูณฝั่งซัพพลาย (supply_multiplier) โดยใช้เปอร์เซ็นไทล์สำหรับซัพพลายสูงและต่ำ
high_supply_percentile = 75
low_supply_percentile = 25

high_supply = np.percentile(df['Number_of_Drivers'], high_supply_percentile)
low_supply = np.percentile(df['Number_of_Drivers'], low_supply_percentile)
df['supply_multiplier'] = np.where(
    df['Number_of_Drivers'] > low_supply,
    high_supply / df['Number_of_Drivers'],
    low_supply / df['Number_of_Drivers']
)

# กำหนด threshold สำหรับการปรับราคาตามดีมานด์และซัพพลาย

demand_threshold_low = 0.8   # กรณีดีมานด์ต่ำ
supply_threshold_high = 0.8  # กรณีซัพพลายสูง

# คำนวณราคาที่ปรับตามดีมานด์/ซัพพลาย (อ่านง่ายขึ้น)
demand_mult = np.maximum(df['demand_multiplier'], demand_threshold_low)
supply_mult = np.maximum(df['supply_multiplier'], supply_threshold_high)
df['adjusted_ride_cost'] = df['Historical_Cost_of_Ride'] * demand_mult * supply_mult


In [None]:
print(f"Hight supply อุปสงค์-จำนวนคนขับ-สูง ที่ P75: {high_supply}")
print(f"Low supply อุปสงค์-จำนวนคนขับ-ต่ำ ที่ P25: {low_supply}")
print(f"Hight demand อุปทาน-จำนวนผู้โดยสาร-สูง ที่ P75: {high_demand}")
print(f"Low demand อุปทาน-จำนวนผู้โดยสาร-ต่ำ ที่ P25: {low_demand}")

In [None]:
df.head()

✅ 2. Profitability Insight Dashboard
- วิเคราะห์ผลกำไรหลังจากใช้ dynamic pricing
- แสดงผลลัพธ์ในรูปแบบ donut chart (เช่น จำนวน ride ที่มีกำไรและขาดทุน)
- ช่วยให้ทีมธุรกิจประเมินผลลัพธ์จาก pricing strategy ที่นำไปใช้ได้จริง

In [None]:
# คำนวณเปอร์เซ็นต์กำไรของแต่ละการเดินทาง (profit_percentage)
df['profit_percentage'] = ((df['adjusted_ride_cost'] - df['Historical_Cost_of_Ride']) / df['Historical_Cost_of_Ride']) * 100

# แยกข้อมูลการเดินทางที่มีกำไร (เปอร์เซ็นต์กำไรเป็นบวก)
profitable_rides = df[df['profit_percentage'] > 0]

# แยกข้อมูลการเดินทางที่ขาดทุน (เปอร์เซ็นต์กำไรเป็นลบ)
loss_rides = df[df['profit_percentage'] < 0]

# สร้าง DataFrame สรุปผลลัพธ์ เช่น จำนวนรอบทั้งหมด รอบที่มีกำไร รอบที่ขาดทุน และค่าเฉลี่ยเปอร์เซ็นต์กำไร/ขาดทุน
summary_df = pd.DataFrame({
    'Total_Rides': [len(df)],
    'Profitable_Rides': [len(profitable_rides)],
    'Loss_Rides': [len(loss_rides)],
    # กำไรเฉลี่ยที่เพิ่มขึ้นจากราคาดั้งเดิมในเที่ยวที่ได้กำไร
    'Average_Profit_Percent': [profitable_rides['profit_percentage'].mean() if len(profitable_rides) > 0 else 0],
    # ขาดทุนเฉลี่ยที่ลดลงจากราคาดั้งเดิมในเที่ยวที่ขาดทุน
    'Average_Loss_Percent': [loss_rides['profit_percentage'].mean() if len(loss_rides) > 0 else 0]
})

# แสดงผลลัพธ์ในรูปแบบตาราง (transpose) และกำหนดชื่อคอลัมน์
table_summary = summary_df.T
table_summary.columns = ['ค่า']

# แสดงผลลัพธ์โดยให้ทศนิยม 2 ตำแหน่ง
table_summary.style.format("{:.2f}")

In [None]:
# Prepare data
labels = ['Profitable Rides', 'Loss Rides']
values = [len(profitable_rides), len(loss_rides)]

# Create Donut Chart
fig, ax = plt.subplots(figsize=(6, 6))
# Create a circle at the center of the plot
center_circle = plt.Circle( (0,0), 0.7, color='white')
wedges, texts, autotexts = ax.pie(
    values,
    labels=labels,
    autopct='%1.1f%%',
    colors=['green', 'red'],
    startangle=-200,
    wedgeprops=dict(width=0.4)
)
ax.set(aspect="equal", title='Profitability of Rides\n(Dynamic Pricing vs. Historical)')
plt.show()

In [None]:
df.to_csv('../data/dynamic_pricing_with_profit.csv', index=False)

✅ 3. Predictive Pricing Model (Machine Learning)

**สร้างโมเดลทำนายราคาค่าโดยสารอัตโนมัติ**

เราจะสร้าง Machine Learning Model ที่ช่วย "ทำนายราคาค่าโดยสาร" โดยใช้ข้อมูลต่าง ๆ เช่น  
- จำนวนผู้โดยสาร  
- จำนวนคนขับ  
- ประเภทของรถ  
- ระยะเวลาเดินทางที่คาดไว้  

**เป้าหมาย:**  
เมื่อมีการจองเข้ามา ระบบจะสามารถคำนวณราคาที่เหมาะสมให้ทันที โดยอาศัยความสัมพันธ์ของข้อมูลในอดีต

**วิธีการ:**  
- ใช้เทคนิค Machine Learning ประเภท Regression (เหมาะกับการทำนายตัวเลข)
- สอนโมเดลด้วยข้อมูลจริงในอดีต เพื่อให้เรียนรู้ว่าปัจจัยต่าง ๆ ส่งผลต่อราคาค่าโดยสารอย่างไร

**ประโยชน์:**  
- ช่วยให้บริษัทตั้งราคาที่เหมาะสมและยุติธรรมกับลูกค้าแต่ละราย
- ระบบสามารถเสนอราคาทันทีโดยไม่ต้องรอคำนวณเอง

## การสร้าง Model สำหรับทำ Data Product: Dynamic Pricing

In [None]:
# ติดตั้ง PyCaret (ถ้ายังไม่ติดตั้ง)
!pip install ipywidgets

In [None]:
!!pip install scikit-learn

### 🟦 1. นำเข้าไลบรารี

In [None]:

from sklearn.ensemble import RandomForestRegressor

### 🟩 2. ฟังก์ชันเตรียมข้อมูล (Preprocessing)

In [None]:
def data_preprocessing_pipeline(data):
    # แยกข้อมูลตัวเลขและข้อความ
    numeric_features = data.select_dtypes(include=['float', 'int']).columns
    categorical_features = data.select_dtypes(include=['object']).columns

    # เติม missing values ของตัวเลขด้วยค่าเฉลี่ย
    data[numeric_features] = data[numeric_features].fillna(data[numeric_features].mean())

    # ตรวจหาและจัดการ outliers ด้วย IQR
    for feature in numeric_features:
        Q1 = data[feature].quantile(0.25)
        Q3 = data[feature].quantile(0.75)
        IQR = Q3 - Q1
        lower_bound = Q1 - (1.5 * IQR)
        upper_bound = Q3 + (1.5 * IQR)
        data[feature] = np.where((data[feature] < lower_bound) | (data[feature] > upper_bound),
                                 data[feature].mean(), data[feature])

    # เติม missing ของตัวแปรประเภทข้อความด้วยค่าที่พบบ่อยที่สุด
    data[categorical_features] = data[categorical_features].fillna(data[categorical_features].mode().iloc[0])

    return data

### 🟨 3. โหลดและเตรียมข้อมูล

In [None]:
# สมมุติว่าคุณมี DataFrame ชื่อ data
# หากยังไม่ได้ preprocessing ให้รัน pipeline
data = data_preprocessing_pipeline(df)

# แปลง Vehicle_Type เป็นตัวเลข
data["Vehicle_Type"] = data["Vehicle_Type"].map({"Premium": 1, "Economy": 0})

### 🟥 4. แยกข้อมูลสำหรับเทรนและทดสอบ

In [None]:
from sklearn.model_selection import train_test_split

X = data[["Number_of_Riders", "Number_of_Drivers", "Vehicle_Type", "Expected_Ride_Duration"]]
y = data["adjusted_ride_cost"]

x_train, x_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


### 🟪 5. เทรนโมเดลด้วย Random Forest

In [None]:
model = RandomForestRegressor()
model.fit(x_train, y_train)

### 🟫 6. สร้างฟังก์ชันทำนายราคาค่าโดยสาร

In [None]:
def get_vehicle_type_numeric(vehicle_type):
    mapping = {"Premium": 1, "Economy": 0}
    return mapping.get(vehicle_type)

def predict_price(number_of_riders, number_of_drivers, vehicle_type, expected_ride_duration):
    vehicle_type_numeric = get_vehicle_type_numeric(vehicle_type)
    if vehicle_type_numeric is None:
        raise ValueError("Invalid vehicle type")
    
    input_data = np.array([[number_of_riders, number_of_drivers, vehicle_type_numeric, expected_ride_duration]])
    return model.predict(input_data)[0]

### 🟦 7. ตัวอย่างการทำนาย

In [None]:
user_number_of_riders = 50
user_number_of_drivers = 25
user_vehicle_type = "Economy"
expected_ride_duration = 30

predicted_price = predict_price(user_number_of_riders, user_number_of_drivers, user_vehicle_type, expected_ride_duration)
print(f"🎯 Predicted price for user ride: {predicted_price:.2f}")

In [None]:
import numpy as np
import ipywidgets as widgets
from IPython.display import display
# Widget function
def interactive_prediction(number_of_riders, number_of_drivers, vehicle_type, expected_ride_duration):
    vt = 1 if vehicle_type == "Premium" else 0
    input_data = np.array([[number_of_riders, number_of_drivers, vt, expected_ride_duration]])
    prediction = model.predict(input_data)[0]
    print(f"🎯 Predicted Ride Cost: {prediction:.2f}")

# Show interactive UI
display(widgets.interactive(
    interactive_prediction,
    number_of_riders=widgets.IntSlider(50, 0, 100, 1, description='Number of Riders', style={'description_width': 'initial'}),
    number_of_drivers=widgets.IntSlider(25, 0, 100, 1, description='Number of Drivers', style={'description_width': 'initial'}),
    vehicle_type=widgets.Dropdown(options=["Economy", "Premium"], value="Economy", description='Vehicle Type', style={'description_width': 'initial'}),
    expected_ride_duration=widgets.IntSlider(30, 0, 200, 5, description='Expected Duration', style={'description_width': 'initial'})
))

# พื้นที่สำหรับการทดลอง

ให้ทดลองด้วยตัวเอง เพื่อสำรวจข้อมูลในส่วนอื่น ๆ

In [None]:
# Code Here

