In [43]:
import random
import csv
from datetime import datetime, timedelta

# Số lượng record mới muốn tạo
num_records = 6000
output_file = "synthetic_waiting_6000.csv"

records = []

for i in range(1, num_records + 1):
    # Arrival time
    day = random.randint(1, 30)
    hour = random.randint(6, 20)  # giờ rộng từ sáng đến chiều muộn
    minute = random.randint(0, 59)
    arrival_time = datetime(2025, 9, day, hour, minute)
    day_of_week = arrival_time.weekday()  # 0=Monday, 6=Sunday

    # Queue length
    if 9 <= hour <= 11 or 14 <= hour <= 16:  # giờ cao điểm
        queue_length = random.randint(5, 25)
    else:
        queue_length = random.randint(0, 10)

    # Waiting time
    base_time = random.randint(2, 5)
    avg_service_time = random.randint(2, 4)
    noise = random.randint(-2, 2)
    wait_time = base_time + queue_length * avg_service_time + noise
    wait_time = max(0, wait_time)  # tránh âm

    # Start time và finish time
    start_time = arrival_time + timedelta(minutes=wait_time)
    service_duration = random.randint(5, 10)
    finish_time = start_time + timedelta(minutes=service_duration)

    # Lưu record
    records.append([
        arrival_time.strftime("%Y-%m-%d %H:%M"),
        start_time.strftime("%Y-%m-%d %H:%M"),
        finish_time.strftime("%Y-%m-%d %H:%M"),
        wait_time,
        queue_length,
        hour,
        day_of_week
    ])

# Ghi CSV
with open(output_file, mode='w', newline='') as f:
    writer = csv.writer(f)
    writer.writerow(["arrival_time", "start_time", "finish_time", "wait_time", "queue_length", "hour", "day_of_week"])
    writer.writerows(records)

print(f"CSV '{output_file}' đã được tạo với {num_records} record.")


CSV 'synthetic_waiting_6000.csv' đã được tạo với 6000 record.


In [45]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error
import joblib

# 1. Load dataset
data = pd.read_csv("synthetic_waiting_6000.csv")

# 2. Chọn feature và label
X = data[['queue_length', 'hour', 'day_of_week']]
y = data['wait_time']

# 3. Chia train/test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 4. Khởi tạo model Random Forest
model = RandomForestRegressor(
    n_estimators=100,   # số cây
    max_depth=10,       # chiều sâu tối đa để tránh overfit
    random_state=42
)

# 5. Train model
model.fit(X_train, y_train)

# 6. Dự đoán trên test set
y_pred = model.predict(X_test)

# 7. Đánh giá model
mae = mean_absolute_error(y_test, y_pred)
mse = mean_squared_error(y_test, y_pred)
rmse = mse ** 0.5

print(f"MAE: {mae:.2f} phút")
print(f"RMSE: {rmse:.2f} phút")

# 8. Lưu model để dùng sau
joblib.dump(model, "random_forest_waiting_time.pkl")
print("Model đã được lưu thành công!")


MAE: 7.30 phút
RMSE: 10.36 phút
Model đã được lưu thành công!


In [46]:
import random
import pandas as pd
import joblib
from datetime import datetime

# Load model đã train
model = joblib.load("random_forest_waiting_time.pkl")

# Số vé test muốn tạo
num_tickets = 20  # ví dụ 20 vé
tickets = []

for i in range(num_tickets):
    # Sinh thời gian đến
    day = random.randint(1, 30)
    hour = random.randint(6, 20)
    minute = random.randint(0, 59)
    arrival_time = datetime(2025, 9, day, hour, minute)
    day_of_week = arrival_time.weekday()

    # Queue length
    if 9 <= hour <= 11 or 14 <= hour <= 16:
        queue_length = random.randint(5, 25)
    else:
        queue_length = random.randint(0, 10)

    tickets.append({
        "ticket_id": i+1,
        "arrival_time": arrival_time.strftime("%Y-%m-%d %H:%M"),
        "queue_length": queue_length,
        "hour": hour,
        "day_of_week": day_of_week
    })

# Chuyển sang DataFrame để dự đoán
df_tickets = pd.DataFrame(tickets)
X_test = df_tickets[['queue_length', 'hour', 'day_of_week']]
df_tickets['predicted_wait_time'] = model.predict(X_test)

# In kết quả
print(df_tickets)


    ticket_id      arrival_time  queue_length  hour  day_of_week  \
0           1  2025-09-20 20:13             3    20            5   
1           2  2025-09-30 20:34             2    20            1   
2           3  2025-09-02 12:50            10    12            1   
3           4  2025-09-02 09:08            19     9            1   
4           5  2025-09-18 13:15             4    13            3   
5           6  2025-09-08 11:38            23    11            0   
6           7  2025-09-07 20:56             7    20            6   
7           8  2025-09-19 17:13             7    17            4   
8           9  2025-09-21 14:45             9    14            6   
9          10  2025-09-13 17:34             1    17            5   
10         11  2025-09-06 12:35             3    12            5   
11         12  2025-09-16 14:14            24    14            1   
12         13  2025-09-30 12:11             6    12            1   
13         14  2025-09-11 09:21            23   