In [34]:
import pandas as pd
from sqlalchemy import create_engine
from sklearn.neighbors import NearestNeighbors
import numpy as np

# Thông tin kết nối cơ sở dữ liệu
db_user = 'root'
db_password = '1234'
db_host = 'localhost'
db_port = '3306'
db_name = 'doan_travel'

# Tạo kết nối
engine = create_engine(f"mysql+pymysql://{db_user}:{db_password}@{db_host}:{db_port}/{db_name}")

# Truy vấn dữ liệu từ các bảng
customer_query = "SELECT id AS customer_id, name, email FROM customer"
tour_query = "SELECT id AS tour_id, title FROM tour"
review_query = "SELECT customer_id, tour_id, rating FROM review"

# Đọc dữ liệu vào DataFrame
customer_df = pd.read_sql(customer_query, engine)
tour_df = pd.read_sql(tour_query, engine)
review_df = pd.read_sql(review_query, engine)
# Đổi tên cột 'id' thành 'customer_id' trong customer_df và 'tour_id' trong tour_df
customer_df.rename(columns={'id': 'customer_id'}, inplace=True)
tour_df.rename(columns={'id': 'tour_id'}, inplace=True)

# Mở rộng bảng review với thông tin tour và khách hàng
merged_df = pd.merge(review_df, customer_df[['customer_id']], on='customer_id')
merged_df = pd.merge(merged_df, tour_df[['tour_id', 'title']], on='tour_id')
print("rating:")
# merged_df = merged_df[merged_df['rating'] > 0]
print(merged_df['rating'].unique())  # Xem các giá trị unique trong cột rating

print(merged_df)

# Chuyển dữ liệu review thành dạng ma trận (pivot table)
pivot_df = merged_df.pivot_table(index='tour_id', columns='customer_id', values='rating', aggfunc='mean').fillna(0)
# Kiểm tra kiểu dữ liệu của các cột
print(merged_df.dtypes)

# In ma trận pivot_df để kiểm tra
print("Pivot DataFrame:")
print(pivot_df)

# Chuyển ma trận thành numpy array
pivot_matrix = pivot_df.values

# Sử dụng KNN để tìm khách hàng tương tự
knn = NearestNeighbors(n_neighbors=5, metric='cosine')  # 5 là số lượng khách hàng tương tự
knn.fit(pivot_matrix)

# Hàm đề xuất tour cho khách hàng
def recommend_tour_for_customer(customer_id, k=5):
    # Tìm chỉ số khách hàng trong ma trận (có thể có nhiều cách để tìm, ví dụ theo customer_id)
    customer_idx = pivot_df.index.get_loc(customer_id)
    
    # Tìm k khách hàng tương tự
    distances, indices = knn.kneighbors(pivot_matrix[customer_idx].reshape(1, -1), n_neighbors=k)
    
    # Lấy danh sách các tour đã được đánh giá bởi khách hàng tương tự
    similar_customers = pivot_df.index[indices.flatten()]
    
    # Tạo một set các tour đã được đánh giá bởi các khách hàng tương tự
    similar_customers_tours = merged_df[merged_df['customer_id'].isin(similar_customers)]['tour_id'].unique()
    
    # Lấy các tour chưa được khách hàng mục tiêu đánh giá
    customer_reviews = merged_df[merged_df['customer_id'] == customer_id]['tour_id'].unique()
    recommended_tours = np.setdiff1d(similar_customers_tours, customer_reviews)
    
    # Lấy tên các tour từ bảng tour_df
    recommended_tour_titles = tour_df[tour_df['tour_id'].isin(recommended_tours)]['title'].tolist()
    
    return recommended_tour_titles

# Ví dụ sử dụng hàm để đề xuất tour cho khách hàng có ID = 1
customer_id = 1
recommended_tours = recommend_tour_for_customer(customer_id, k=5)
print(f"Recommended tours for customer {customer_id}: {recommended_tours}")


rating:
[5. 4. 0. 1. 2. 3.]
      customer_id  tour_id  rating                                title
0               1       46     5.0       Khám phá Gabrielview - Tour 46
1               1      678     5.0    Khám phá Andersonmouth - Tour 678
2               1     1189     4.0      Khám phá Staceyside - Tour 1189
3               1     1261     4.0  Khám phá Williamsonland - Tour 1261
4               1     2216     0.0  Khám phá North Loritown - Tour 2216
...           ...      ...     ...                                  ...
1497          100     4624     5.0        Khám phá Port Amy - Tour 4624
1498          100     5843     5.0  Khám phá Gregorychester - Tour 5843
1499          100     6149     1.0       Khám phá Reedburgh - Tour 6149
1500          100     7411     2.0     Khám phá East Krista - Tour 7411
1501          100     9246     4.0      Khám phá New Kristy - Tour 9246

[1502 rows x 4 columns]
customer_id      int64
tour_id          int64
rating         float64
title         