## Import thư viện

In [2]:
import pandas as pd
import numpy as np
from faker import Faker
import random
from datetime import datetime, timedelta

## Kiểm tra các thuộc tính độc lập của cột Popular Facilities

In [3]:
# Đọc dữ liệu
df = pd.read_csv('hotels_data_final.csv')

# Bỏ giá trị NaN (nếu có), nối thành chuỗi lớn
all_facilities = df['Popular Facilities'].dropna().str.cat(sep=',')

# Tách từng phần theo dấu phẩy
facilities_list =  all_facilities.split(',')

# Loại trùng lặp bằng cách đưa về set rồi lại thành list
unique_facilities = list(set(facilities_list))

# In ra hoặc dùng tùy mục đích
print(unique_facilities)

[' WiFi tốt miễn phí (21 Mbps)', ' Nhà hàng', 'Lễ tân 24 giờ', ' Sân thượng / hiên', 'WiFi nhanh miễn phí (63 Mbps)', 'Dịch vụ đưa đón sân bay (miễn phí)', 'Điều hòa nhiệt độ', ' WiFi cơ bản miễn phí (12 Mbps)', 'WiFi cơ bản miễn phí (15 Mbps)', ' WiFi nhanh miễn phí (195 Mbps)', ' Chỗ đỗ xe', 'WiFi nhanh miễn phí (86 Mbps)', ' Tiện nghi BBQ', '3 hồ bơi', ' WiFi tốt miễn phí (47 Mbps)', 'Hồ bơi  - ngoài trời (dành cho trẻ em)(Tạm thời ngừng hoạt động)', ' WiFi cơ bản miễn phí (9 Mbps)', ' WiFi tốt miễn phí (35 Mbps)', ' WiFi nhanh miễn phí (122 Mbps)', ' WiFi nhanh miễn phí (85 Mbps)', 'Trung tâm thể dục', ' Điều hòa nhiệt độ', ' WiFi nhanh miễn phí (80 Mbps)', ' WiFi tốt miễn phí (46 Mbps)', ' WiFi nhanh miễn phí (405 Mbps)', ' WiFi nhanh miễn phí (257 Mbps)', ' WiFi nhanh miễn phí (291 Mbps)', ' Bữa sáng xuất sắc', ' WiFi nhanh miễn phí (63 Mbps)', ' 7 nhà hàng', ' Khu vực cho phép hút thuốc', ' WiFi nhanh miễn phí (57 Mbps)', ' WiFi cơ bản miễn phí (14 Mbps)', ' WiFi n

## Kiểm tra khoảng giá của khách sạn (min, max, average)

In [4]:
# Đọc dữ liệu
df = pd.read_csv('hotels_data_final.csv')

# Hàm chuyển đổi giá tiền từ chuỗi về số
def parse_price(price_str):
    if pd.isna(price_str):
        return None
    price_str = price_str.replace(' VND', '').replace('.', '')
    try:
        return int(price_str)
    except:
        return None

# Thêm cột giá đã chuyển đổi
df['Parsed_Price'] = df['Overview Price'].apply(parse_price)

# Bỏ giá trị NaN
valid_df = df.dropna(subset=['Parsed_Price'])

# Tính toán
min_price = valid_df['Parsed_Price'].min()
max_price = valid_df['Parsed_Price'].max()
mean_price = valid_df['Parsed_Price'].mean()

# In kết quả tổng quan
print(f"Giá thấp nhất: {min_price:,} VND")
print(f"Giá cao nhất: {max_price:,} VND")
print(f"Giá trung bình: {mean_price:,.0f} VND\n")

# In toàn bộ hàng có giá thấp nhất
print("=> Hàng có giá thấp nhất:")
print(valid_df[valid_df['Parsed_Price'] == min_price], "\n")

# In toàn bộ hàng có giá cao nhất
print("=> Hàng có giá cao nhất:")
print(valid_df[valid_df['Parsed_Price'] == max_price])

Giá thấp nhất: 42,500 VND
Giá cao nhất: 134,036,659 VND
Giá trung bình: 1,724,017 VND

=> Hàng có giá thấp nhất:
                                               Hotel URL  \
13792  https://www.booking.com/hotel/vn/homestay-pho-...   

                        Hotel Name Overview Price  \
13792  Homestay phố núi suối giàng     42.500 VND   

                                                 Address  Overall Rating  \
13792  Km9 đường suối giàng sơn thịnh văn chấn yên bá...             8.7   

       Staff  Facilities  Cleanliness  Comfort  Value for Money  Location  \
13792    9.4         8.7          9.3      9.4              9.1       8.9   

       Free Wifi                                 Popular Facilities  \
13792        8.0  Chỗ đỗ xe miễn phí, 2 nhà hàng, Dịch vụ ...   

         Checkin Time     Checkout Time Province  Parsed_Price  
13792  Phục vụ 24 giờ  Từ 01:00 - 14:00  Yên Bái         42500   

=> Hàng có giá cao nhất:
                                              Hotel

## Hàm tạo sinh dữ liệu khách tham quan với Faker dựa trên đặc điểm các trường của danh sách khách sạn

In [None]:
# Thiết lập Faker cho tiếng Việt
fake = Faker('vi_VN')
random.seed(42)
np.random.seed(42)

# Hàm loại bỏ các danh xưng (prefix) phổ biến khỏi tên người
def clean_name(name):
    prefixes = ["Ông ", "Bà ", "Cô ", "Chú ", "Bác ", "Anh ", "Chị ", "Em ","Quý cô ","Quý ông ", "Ngài "]
    for prefix in prefixes:
        if name.startswith(prefix):
            return name[len(prefix):]
    return name

locations = [
    "An Giang", "Bà Rịa - Vũng Tàu", "Bạc Liêu", "Bắc Giang", "Bắc Kạn", "Bắc Ninh",
    "Bến Tre", "Bình Dương", "Bình Định", "Bình Phước", "Bình Thuận", "Cà Mau",
    "Cao Bằng", "Cần Thơ", "Đà Nẵng", "Đắk Lắk", "Đắk Nông", "Điện Biên", "Đồng Nai",
    "Đồng Tháp", "Gia Lai", "Hà Giang", "Hà Nam", "Hà Nội", "Hà Tĩnh", "Hải Dương",
    "Hải Phòng", "Hậu Giang", "Hòa Bình", "Hưng Yên", "Khánh Hòa", "Kiên Giang",
    "Kon Tum", "Lai Châu", "Lâm Đồng", "Lạng Sơn", "Lào Cai", "Long An", "Nam Định",
    "Nghệ An", "Ninh Bình", "Ninh Thuận", "Phú Thọ", "Phú Yên", "Quảng Bình",
    "Quảng Nam", "Quảng Ngãi", "Quảng Ninh", "Quảng Trị", "Sóc Trăng", "Sơn La",
    "Tây Ninh", "Thái Bình", "Thái Nguyên", "Thanh Hóa", "Thừa Thiên Huế", "Tiền Giang",
    "TP. Hồ Chí Minh", "Trà Vinh", "Tuyên Quang", "Vĩnh Long", "Vĩnh Phúc", "Yên Bái"
]

facilities = list(set([
    "WiFi miễn phí", "Phòng không hút thuốc", "Điều hòa nhiệt độ", 
    "Nôi/cũi theo yêu cầu", "Dọn phòng hàng ngày", "Hồ bơi ngoài trời", 
    "Hồ bơi trong nhà", "Nhà hàng", "Chỗ đỗ xe", "Bữa sáng", 
    "Thang máy", "Xe đưa đón sân bay", "Dịch vụ phòng", "Quầy bar",
    "Phòng gia đình", "Giặt ủi", "Lễ tân 24 giờ", "Tiện nghi cho khách khuyết tật",
    "Máy pha trà/cà phê", "Khu vực bãi tắm riêng", "Sân vườn", "Tiện nghi BBQ",
    "Trung tâm Spa & chăm sóc sức khoẻ", "Sân thượng / hiên", "Trung tâm thể dục"
]))

special_requests = list(set([
    "Phòng yên tĩnh", "Hướng biển", "Giường phụ", "Tầng cao", "View đẹp", 
    "Không cần dọn phòng", "Nôi em bé", "Phòng không cửa sổ", "Giáp biển",
    "Khu vực cho phép hút thuốc", "Chỗ đậu xe riêng"
]))

# Hàm tạo budget ngẫu nhiên
def generate_budget():
    # Chọn giá thấp nhất trong khoảng 50.000 -> 18.000.000 VND (để max không vượt quá 20 triệu)
    min_budget = random.randint(5, 1800) * 10000

    # Tăng thêm từ 10.000 đến tối đa 2.000.000 VND so với min_budget
    max_budget = min_budget + random.randint(1, 200) * 10000  # +10.000 → +2.000.000

    # Trả về chuỗi định dạng: "xxx.xxx - yyy.yyy VND"
    return f"{min_budget:,} - {max_budget:,} VND".replace(",", ".")

# Hàm tạo thời gian checkin/checkout
def generate_time(preference):
    if preference == "checkin":
        hour = random.randint(11, 15)
    else:
        hour = random.randint(9, 12)
    minute = random.choice(["00", "30"])
    return f"{hour}:{minute}"

# Hàm tạo requirements và facilities
def generate_requirements():
    num = random.randint(1, 4)
    selected = random.sample(facilities, num)
    return ", ".join(selected)

# Tạo dữ liệu
data = []
for i in range(1, 10001):
    record = {
        "id": i,
        "name": clean_name(fake.name()),
        "budget_range": generate_budget(),
        "preferred_location": random.choice(locations),
        "requirements": generate_requirements(),
        "checkin_time_preference": f"{generate_time('checkin')} - {random.randint(13, 18)}:00",
        "checkout_time_preference": f"{generate_time('checkout')} - 12:00",
        "preferred_facilities": generate_requirements(),
        "special_requests": random.choice(special_requests) if random.random() > 0.3 else ""
    }
    data.append(record)

# Tạo DataFrame
df = pd.DataFrame(data)

In [6]:
# Lưu thành file CSV
df.to_csv("tourist_dataset_10k.csv", index=False, encoding='utf-8-sig')
print("Đã tạo xong dataset 10,000 khách du lịch!")

Đã tạo xong dataset 10,000 khách du lịch!
