### Set up

In [None]:
from langchain_core.prompts import ChatPromptTemplate
from sentence_transformers import SentenceTransformer
from langchain_google_genai import ChatGoogleGenerativeAI
import re
import json
import subprocess
import time
import threading
import psycopg2
import pandas as pd
import numpy as np
from sklearn.preprocessing import MultiLabelBinarizer
from sklearn.metrics.pairwise import cosine_similarity
from sklearn.preprocessing import MinMaxScaler

  from tqdm.autonotebook import tqdm, trange


In [None]:
import getpass
import os

postgres_url = "postgresql://public_owner:7CBm0fdOPkgz@ep-sweet-field-a1urmrzw.ap-southeast-1.aws.neon.tech/public?sslmode=require"

In [None]:
model = SentenceTransformer('bkai-foundation-models/vietnamese-bi-encoder')

### Gemini

In [None]:
os.environ["GOOGLE_API_KEY"] = "AIzaSyB1rDWcTNFLJG83QEnI4_2ghFrKr-gjx2g"

In [None]:
llm = ChatGoogleGenerativeAI(
    model="gemini-1.5-flash",
    temperature=0,
    max_tokens=None,
    timeout=None,
    max_retries=2,
)

### Query

#### Get features

##### Hotels

In [None]:
# amenities
conn = psycopg2.connect(postgres_url)
cur = conn.cursor()

cur.execute("SET search_path TO travel_database, public;")

cur.execute("""
    SELECT DISTINCT unnest(amenities) AS unique_amenities
    FROM hotel;
""")

rows = cur.fetchall()

cur.close()
conn.close()

amenities_list = [row[0] for row in rows]
amenities_list_str = "\n    ".join(f'"{amenities_type}"' for amenities_type in amenities_list)
print(amenities_list_str)

"WiFi tại khu vực chung"
    "Money changer"
    "Bathtub"
    "Tiện nghi cho trẻ"
    "Quầy bar bên hồ bơi"
    "Heater"
    "Dù (ô) che nắng"
    "Đưa đón đến khu trượt tuyết (thu phí)"
    "Tiện nghi hội họp"
    "Sân quần vợt ngoài trời"
    "Trung tâm chăm sóc trẻ em"
    "Roll-in shower"
    "Vegetarian meal"
    "Hồ bơi"
    "Tủ lạnh (dùng chung)"
    "Máy photocopy"
    "Giữ trẻ"
    "Porter"
    "Bicycle storage"
    "Dịch vụ cho thuê xe đạp"
    "Conference room"
    "Dịch vụ trông trẻ có người giám hộ"
    "Grocery"
    "Giặt ủi"
    "Dịch vụ phòng 24 giờ"
    "Lò vi sóng"
    "Express check-out"
    "Đưa đón sân bay"
    "AC"
    "Dịch vụ phòng (có giới hạn thời gian)"
    "Bóng quần"
    "TV lounge"
    "A la carte lunch"
    "Bồn tắm nước nóng"
    "Gói cầu hôn lãng mạn"
    "Safety deposit box"
    "Vườn thú bán hoang dã"
    "Hồ bơi trẻ em"
    "Ghế dài tắm nắng"
    "Đưa đón đến trạm xe buýt (thu phí)"
    "Wifi (miễn phí)"
    "Thẩm mỹ viện"
    "Bữa trưa món tự chọn"

In [None]:
# style
conn = psycopg2.connect(postgres_url)
cur = conn.cursor()

cur.execute("SET search_path TO travel_database, public;")

cur.execute("""
    SELECT DISTINCT style
    FROM hotel
    WHERE style IS NOT NULL;
""")

rows = cur.fetchall()

cur.close()
conn.close()
style_list = [row[0] for row in rows]
style_list_str = "\n    ".join(f'"{style}"' for style in style_list)
print(style_list_str)

"Business
"
    "Adventure 
"
    "Romantic 
"
    "Eco-friendly 
"
    "Business 
"
    "Wellness 
"
    "Family-friendly 
"
    "Cultural
"
    "Romantic
"
    "Beachfront 
"
    "Luxury
"
    "Boutique
"
    "Eco-friendly
"
    "Adventure
"
    "Family-friendly
"
    "Boutique 
"
    "Cultural 
"
    "Wellness
"
    "Luxury 
"


##### Attractions

In [None]:
# types
conn = psycopg2.connect(postgres_url)
cur = conn.cursor()

cur.execute("SET search_path TO travel_database, public;")

cur.execute("""
    SELECT DISTINCT unnest(attraction_type) AS unique_attraction_type
    FROM touristattraction;
""")

rows = cur.fetchall()

cur.close()
conn.close()

att_type_list = [row[0] for row in rows]
att_type_list_str = "\n    ".join(f'"{att_type}"' for att_type in att_type_list)
print(att_type_list_str)

"Nhà hát và biểu diễn"
    "Viện bảo tàng lịch sử"
    "Thủy cung"
    "Khu vực đi dạo tham quan di tích lịch sử"
    "Trường đại học và trường học"
    "Quán bar và câu lạc bộ"
    "Khu vực đi dạo ngắm cảnh"
    "Viện bảo tàng nghệ thuật"
    "Vườn"
    "Di tích cổ"
    "Nhà thờ và nhà thờ lớn"
    "ATV và xe địa hình"
    "Đài kỷ niệm và tượng"
    "Cầu"
    "Xưởng vẽ và làm đồ gốm"
    "Chuyến tham quan văn hóa"
    "Núi"
    "Địa điểm giáo dục"
    "Khu liên hợp thể thao"
    "Buổi học và hội thảo"
    "Cửa hàng đồ cổ"
    "Sân gôn"
    "Triển lãm"
    "Đấu trường và sân vận động"
    "Phòng trưng bày nghệ thuật"
    "Điểm thu hút khách tham quan và thắng cảnh"
    "Địa điểm tâm linh"
    "Chợ hoa"
    "Cửa hàng của nhà máy"
    "Trung tâm nghệ thuật"
    "Quán bar rượu vang"
    "Căn cứ và doanh trại quân đội"
    "Địa điểm lịch sử"
    "Công viên nước"
    "Chuyến tham quan cà phê và trà"
    "Nhà hát"
    "Trung tâm trò chơi và giải trí"
    "Bảo t

##### Restaurant

In [None]:
# Type
# Establish the connection
conn = psycopg2.connect(postgres_url)
cur = conn.cursor()

# Set the search path to use the correct schema
cur.execute("SET search_path TO travel_database, public;")

# Query to extract distinct districts from the address composite type
cur.execute("""
    SELECT DISTINCT unnest(restaurant_type) AS unique_res_type
    FROM restaurant;
""")

# Fetch all rows
rows = cur.fetchall()

# Close the cursor and connection
cur.close()
conn.close()

# Convert the rows into a list and format the output
res_type_list = [row[0] for row in rows]
res_type_list_str = "\n    ".join(f'"{res_type}"' for res_type in res_type_list)
print(res_type_list_str)

"Karaoke"
    "Café/Dessert"
    "Buffet"
    "Ăn vặt/vỉa hè"
    "Tiệc cưới/Hội nghị"
    "Quán ăn"
    "Tiệm bánh"
    "Ăn chay"
    "Nhà hàng"


In [None]:
# Suitable for
# Establish the connection
conn = psycopg2.connect(postgres_url)
cur = conn.cursor()

# Set the search path to use the correct schema
cur.execute("SET search_path TO travel_database, public;")

# Query to extract distinct districts from the address composite type
cur.execute("""
    SELECT DISTINCT unnest(suitable_for) AS unique_res_suit
    FROM restaurant;
""")

# Fetch all rows
rows = cur.fetchall()

# Close the cursor and connection
cur.close()
conn.close()

# Convert the rows into a list and format the output
res_suit_list = [row[0] for row in rows]
res_suit_list_str = "\n    ".join(f'"{res_suit}"' for res_suit in res_suit_list)
print(res_suit_list_str)

"Uống bia - Nhậu"
    "Ăn gia đình"
    "Ăn chay"
    "Ăn Fastfood"
    "Đãi tiệc"
    "Tiếp khách"
    "Takeaway - Mang về"
    "Họp nhóm"
    "Ăn vặt"
    "Nghe nhạc"
    "Du lịch"
    "Ngắm cảnh"
    "Chụp hình - Quay phim"
    "BBQ - Món Nướng"
    "Tiệc ngoài trời"
    "Thư giãn"
    "Hẹn hò"
    "Buffet"


#### Prompt

Dựa vào câu prompt này để lấy ra các thông tin yêu cầu về hotel, restaurant, TouristAttraction

##### Extract first JSON

In [None]:
travel_type_list = ["Food Tour", "Văn hóa", "Thư giãn", "Trải nghiệm"]
companion_list = ["friends", "family", "colleagues"]
transport_list = ["self-drive car", "motorbike", "bicycle", "public transport"]
city_list = ["Hà Nội"]

In [None]:
template = """
You are an AI travel suggestion chatbot. Analyze the following travel request:

Request: "{travel_request}"

Extract general and specific requirements for Hotels, Restaurants, and Tourist Attractions, even if some are not explicitly mentioned. For each type, provide the following information:

**General Requirements:**
- Type: From this list: {travel_type_list} based on request or return null if not specified or only ask for one of Hotels, Restaurants, or Tourist Attractions.
- Number_of_people: Extract the number of people or return null if not specified.
- Companions: Extract the companions mentioned and from this list: {companion_list} or return null if not specified.
- Transportation: Identify the transportation method mentioned and from this list: {transport_list} or return null if not specified.
- Time: Any specific dates or time ranges mentioned or return null if not specified.
- City: The mentioned city (without "city" or "province") and from this list: {city_list}.
- Price_range: Specify as "low", "medium", or "high" based on the request.

**For Hotels, also identify:**
- Requirements: A summary text of specific requirements or preferences mentioned.
- Amenities: From this list: {amenities_list}
- Style: From this list: {style_list}

**For Restaurants, also identify:**
- Requirements: A summary text of specific requirements or preferences mentioned.
- Restaurant_Type: From this list: {restaurant_type_list}
- Suitable_For: From this list: {suitable_for_list}

**For Tourist Attractions, also identify:**
- Requirements: A list of specific requirements or preferences mentioned.
- Attraction_Type: From this list: {attraction_type_list}

Return the result using the following JSON format:

```json
{{
  "General": {{
    "Type": "...",
    "Number_of_people": "...",
    "Companion": "...",
    "Transportation": "...",
    "Time": "...",
    "City": "..."
    "Price_range": "...",
    "
  }},
  "Hotel": {{
    "Requirements": ...,
    "Amenities": [...],
    "Style": "..."
  }},
  "Restaurant": {{
    "Requirements": ...,
    "Restaurant_Type": "...",
    "Suitable_For": "..."
  }},
  "TouristAttraction": {{
    "Attraction_Type": "..."
  }}
}}

```

Ensure the JSON is valid. Use null for any unspecified information.
After the JSON output, add a note in Vietnamese:

"Nếu bạn cần thay đổi hoặc bổ sung bất kỳ thông tin nào, vui lòng cho tôi biết."
"""

In [None]:
prompt = ChatPromptTemplate.from_template(template)
chain = prompt | llm

##### Ask again if there's missing infor

format json due to type

ưu tiên hỏi time

In [None]:
ask_template = """
You are an AI travel suggestion chatbot. Analyze the following travel request:

Request: "{travel_output_json}"

If any fields in the JSON are null, ask the user for the missing information to fill those gaps.

**Check the JSON output for any null values:**
- Type: From this list: {travel_type_list}
- Number_of_people: 
- Companions: From this list: {companion_list}
- Transportation: From this list: {transport_list}
- Time: 
- City: From this list: {city_list}
- Price_range: 

**For Hotels:**
- Requirements: 
- Amenities: From this list: {amenities_list}
- Style: From this list: {style_list}

**For Restaurants:**
- Requirements: 
- Restaurant_Type: From this list: {restaurant_type_list}
- Suitable_For: From this list: {suitable_for_list}

**For Tourist Attractions:**
- Requirements: 
- Attraction_Type: From this list: {attraction_type_list}

Based on the null values found, generate the following questions for the user:

1. If the "Type" is null, ask: "Bạn muốn tìm loại hình du lịch nào: Khách sạn, Nhà hàng, hay Điểm tham quan? (Bạn có thể chọn từ danh sách trên.)"
2. If "Number_of_people" is null, ask: "Bạn đi bao nhiêu người? (Ví dụ: 1, 2, hoặc nhóm lớn hơn)"
3. If "Companion" is null, ask: "Bạn đi cùng ai? (Bạn bè, Gia đình, hoặc Đồng nghiệp)"
4. If "Transportation" is null, ask: "Bạn sẽ di chuyển bằng phương tiện gì? (Ví dụ: xe hơi tự lái, xe máy, hoặc phương tiện công cộng)"
5. If "Time" is null, ask: "Bạn có kế hoạch đi vào thời gian nào không? (Ngày cụ thể hoặc khoảng thời gian)"
6. If "Price_range" is null, ask: "Bạn muốn ngân sách cho chuyến đi này là bao nhiêu (thấp, trung bình, cao)? (Điều này sẽ giúp tôi gợi ý tốt hơn.)"

Return these questions to the user in a conversational format. 

After the questions, add a note in Vietnamese:

"Nếu bạn cần thay đổi hoặc bổ sung bất kỳ thông tin nào, vui lòng cho tôi biết."
"""


In [None]:
ask_template2 = """
You are an AI travel suggestion chatbot. Analyze the following travel request:

Request: "{travel_output_json}"

If any fields in the JSON are null, ask the user for the missing information to fill those gaps.

Based on the null values found, generate the following comprehensive question for the user:

"Cảm ơn bạn đã cung cấp thông tin! Tuy nhiên, tôi cần thêm một số thông tin để giúp bạn tốt hơn: Bạn muốn tìm loại hình du lịch nào (Khách sạn, Nhà hàng, hay Điểm tham quan)? Bạn đi bao nhiêu người và đi cùng ai (Bạn bè, Gia đình, hay Đồng nghiệp)? Bạn sẽ di chuyển bằng phương tiện gì (xe hơi tự lái, xe máy, hay phương tiện công cộng)? Bạn có kế hoạch đi vào thời gian nào (ngày cụ thể hoặc khoảng thời gian)? Và bạn muốn ngân sách cho chuyến đi này là bao nhiêu (thấp, trung bình, cao)?"

After the question, add a note in Vietnamese:

"Nếu bạn cần thay đổi hoặc bổ sung bất kỳ thông tin nào, vui lòng cho tôi biết."
"""


In [None]:
ask_prompt = ChatPromptTemplate.from_template(ask_template)
ask_chain = ask_prompt | llm

##### Query

In [None]:
# Your input query
query = """
Gợi ý cho tôi một lộ trình du lịch tại Hà Nội với khách sạn sang trọng, có Bồn tắm, bể bơi và Mát-xa toàn thân, nhà hàng phục vụ món ăn truyền thống và một điểm tham quan nổi tiếng phù hợp cho trẻ em về đề tài lịch sử.
Tôi muốn biết thêm về các tiện nghi của khách sạn và phong cách của nhà hàng.
"""

first response

In [None]:
response = chain.invoke({
    "travel_request": query,
    "travel_type_list": travel_type_list,
    "companion_list": companion_list,
    "transport_list": transport_list,
    "city_list": city_list,
    "amenities_list": amenities_list_str,
    "style_list": style_list_str,
    "restaurant_type_list": res_type_list_str,
    "suitable_for_list": res_suit_list_str,
    "attraction_type_list": att_type_list_str
})

# Extract and parse the JSON response
try:
    json_match = re.search(r'\{.*\}', response.content, re.DOTALL)
    if json_match:
        result_dict = json.loads(json_match.group(0))
        
        # Print the JSON result
        print("Extracted JSON Result:")
        print(json.dumps(result_dict, indent=2, ensure_ascii=False))
    else:
        print("No JSON object found in the response.")
except json.JSONDecodeError as e:
    print("Failed to decode JSON:", e)
    print("Raw response:", response.content)

Extracted JSON Result:
{
  "General": {
    "Type": null,
    "Number_of_people": null,
    "Companion": null,
    "Transportation": null,
    "Time": null,
    "City": "Hà Nội",
    "Price_range": "high"
  },
  "Hotel": {
    "Requirements": "Khách sạn sang trọng, có bồn tắm, bể bơi và mát-xa toàn thân.",
    "Amenities": [
      "Bathtub",
      "Hồ bơi",
      "Mát-xa"
    ],
    "Style": "Luxury"
  },
  "Restaurant": {
    "Requirements": "Phục vụ món ăn truyền thống.",
    "Restaurant_Type": "Nhà hàng",
    "Suitable_For": "Ăn gia đình"
  },
  "TouristAttraction": {
    "Requirements": "Điểm tham quan nổi tiếng phù hợp cho trẻ em về đề tài lịch sử",
    "Attraction_Type": "Địa điểm lịch sử"
  }
}


ask again if missing values

In [None]:
response1 = ask_chain.invoke({
    "travel_output_json": response,
    "travel_type_list": travel_type_list,
    "companion_list": companion_list,
    "transport_list": transport_list,
    "city_list": city_list,
    "amenities_list": amenities_list_str,
    "style_list": style_list_str,
    "restaurant_type_list": res_type_list_str,
    "suitable_for_list": res_suit_list_str,
    "attraction_type_list": att_type_list_str
})

print(response1.content)

Để tôi có thể đưa ra những gợi ý phù hợp nhất cho bạn, bạn có thể cho tôi biết thêm một vài thông tin:

1. Bạn muốn tìm loại hình du lịch nào: Khách sạn, Nhà hàng, hay Điểm tham quan? (Bạn có thể chọn từ danh sách trên.)
2. Bạn đi bao nhiêu người? (Ví dụ: 1, 2, hoặc nhóm lớn hơn)
3. Bạn đi cùng ai? (Bạn bè, Gia đình, hoặc Đồng nghiệp)
4. Bạn sẽ di chuyển bằng phương tiện gì? (Ví dụ: xe hơi tự lái, xe máy, hoặc phương tiện công cộng)
5. Bạn có kế hoạch đi vào thời gian nào không? (Ngày cụ thể hoặc khoảng thời gian)
6. Bạn muốn ngân sách cho chuyến đi này là bao nhiêu (thấp, trung bình, cao)? (Điều này sẽ giúp tôi gợi ý tốt hơn.)

Nếu bạn cần thay đổi hoặc bổ sung bất kỳ thông tin nào, vui lòng cho tôi biết. 

