## 1.Initialize VectorStore - Weaviate

### Creating a Weaviate Client

In [4]:
import os

In [5]:
import weaviate
from weaviate.classes.init import Auth
# Best practice: store your credentials in environment variables
weaviate_url = os.environ["WEAVIATE_URL"]
weaviate_api_key = os.environ["WEAVIATE_API_KEY"]

# Connect to Weaviate Cloud
client = weaviate.connect_to_weaviate_cloud(
    cluster_url=weaviate_url,
    auth_credentials=Auth.api_key(weaviate_api_key),
)

print(client.is_ready())

True


In [6]:
open_api_key = os.environ["OPENAI_API_KEY"]

In [11]:
# If you haven't installed the Bing search tool, run:
# %pip install llama-index-tools-bing-search

from llama_index.llms.openai import OpenAI
from llama_index.core.agent import ReActAgent
from llama_index.tools.bing_search import BingSearchToolSpec

# Set up the OpenAI LLM
llm = OpenAI(
    model="gpt-4o-mini",
    temperature=0.1,
    api_key=open_api_key,
    verbose=True
)

# Set up Bing Search Tool (replace with your actual Bing API key)
bing_tool = BingSearchToolSpec(api_key="your-key")

# Create the agent with the tool and LLM
agent = ReActAgent.from_tools(
    tools=bing_tool.to_tool_list(),
    llm=llm,
    verbose=True,
)

print(agent.chat("whats the latest news about superconductors"))

> Running step d912acf9-d27d-492e-add6-8b6a562019c0. Step input: whats the latest news about superconductors
[1;3;38;5;200mThought: The current language of the user is: English. I need to use a tool to help me answer the question.
Action: bing_news_search
Action Input: {'query': 'latest news about superconductors'}
[0m[1;3;34mObservation: Error: 'value'
[0m> Running step aa02421d-7a80-4ccd-8320-7f8dd62d735b. Step input: None
[1;3;38;5;200mThought: It seems there was an error with the previous request. I will try again to search for the latest news about superconductors.
Action: bing_news_search
Action Input: {'query': 'latest news about superconductors'}
[0m[1;3;34mObservation: Error: 'value'
[0m> Running step aa5650bc-f576-4d55-90ce-41b33b6aabc9. Step input: None
[1;3;38;5;200mThought: It appears that there is a persistent issue with the news search tool. I will attempt to gather information using a different approach.
Action: bing_news_search
Action Input: {'query': 'superco

In [None]:
from llama_index.tools.tavily_research import TavilyToolSpec
from llama_index.core.agent import FunctionCallingAgent
from llama_index.llms.openai import OpenAI

tavily_tool = TavilyToolSpec(
    api_key=os.environ["TAVILLY_API_KEY"],
)
agent = FunctionCallingAgent.from_tools(
    tavily_tool.to_tool_list(),
    llm=OpenAI(model="gpt-4o-mini", temperature=0.1, api_key=open_api_key, verbose=True),
)

agent.chat("thời tiếp hôm nay của việt nam như thế nào")

AgentChatResponse(response="The latest Burning Man festival took place from August 27 to September 4, 2023, in the Black Rock Desert of Nevada, attracting approximately 73,000 attendees. This year's event was marked by significant challenges due to severe weather conditions, including heavy rains that turned the desert into a muddy landscape.\n\nHere are some key highlights from the festival:\n\n1. **Severe Weather Impact**: The festival experienced heavy rainfall, leading to flooding and muddy conditions that stranded many attendees. Roads in and out of the festival were closed, and organizers advised participants to conserve food and water while sheltering in place.\n\n2. **Attendee Experiences**: Some attendees, including celebrities like Chris Rock and Diplo, had to find alternative ways to leave the festival, with reports of people hiking for miles to escape the mud. Diplo and Chris Rock were noted for hitchhiking out together.\n\n3. **Community Response**: Despite the challenging

In [12]:
agent.chat("thời tiếp hôm nay của việt nam như thế nào")

AgentChatResponse(response='Thời tiết hôm nay tại Việt Nam có những đặc điểm chính như sau:\n\n1. **Miền Bắc**: Có mây, ngày nắng, chiều tối và tối có mưa rào và dông rải rác. Đêm có thể có mưa rào và dông vài nơi. Gió Tây Nam cấp 2-3.\n\n2. **Miền Trung**: Phía Bắc có mưa rào và dông vài nơi, chiều tối và đêm có mưa rào và dông rải rác. Phía Nam có mưa rào và dông rải rác. Trong mưa dông có khả năng xảy ra lốc xoáy và gió giật mạnh cấp 6-7.\n\n3. **Miền Nam**: Có mây, có mưa rào và dông vài nơi, riêng chiều tối và tối có mưa rào và dông rải rác. Gió nhẹ.\n\n4. **Tây Nguyên**: Có mây, mưa rào và dông vài nơi; chiều và tối có mưa rào và dông rải rác, cục bộ có nơi mưa to. Gió Tây Nam cấp 2-3.\n\nTóm lại, thời tiết hôm nay có sự kết hợp giữa nắng và mưa ở nhiều khu vực, với khả năng xảy ra dông và gió mạnh trong các cơn mưa. Bạn có thể theo dõi thêm thông tin chi tiết tại các trang dự báo thời tiết như [Laodong.vn](https://laodong.vn/du-bao-thoi-tiet) hoặc [NCHMF](https://www.nchmf.gov.v

## 2. Load LLM

In [12]:
from llama_index.llms.openai import OpenAI
import openai
llm = OpenAI(
    model="gpt-4o-mini",
    temperature=0.1,
    verbose=False
)

In [13]:
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.vector_stores.weaviate import WeaviateVectorStore
from IPython.display import Markdown, display

In [14]:
import nest_asyncio
nest_asyncio.apply()

## 3. Load Embeding model

In [1]:
from llama_index.embeddings.huggingface import HuggingFaceEmbedding
from llama_index.core import Settings

Settings.embed_model = HuggingFaceEmbedding(
    model_name="hiieu/halong_embedding"
)

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


## 2. Load Document And Index 

### 1. VietnamExperss

In [15]:
urls = [
	"https://vnexpress.net/cam-nang-du-lich-an-giang-4445399.html",
	"https://vnexpress.net/cam-nang-du-lich-ba-na-hills-4866205.html",
	"https://vnexpress.net/cam-nang-du-lich-bac-giang-4851082.html",
	"https://vnexpress.net/cam-nang-du-lich-binh-thuan-4749039.html",
	"https://vnexpress.net/cam-nang-du-lich-binh-dinh-4729689.html",
    "https://vnexpress.net/cam-nang-du-lich-binh-duong-4677956.html",
    "https://vnexpress.net/cam-nang-du-lich-binh-phuoc-4667906.html",
    "https://vnexpress.net/cam-nang-du-lich-bac-kan-4659738.html",
    "https://vnexpress.net/cam-nang-du-lich-bao-loc-4643396.html",
    "https://vnexpress.net/cam-nang-du-lich-ba-ria-vung-tau-4479713.html",
    "https://vnexpress.net/cam-nang-du-lich-binh-lieu-4473563.html",
    "https://vnexpress.net/cam-nang-du-lich-ba-vi-4468415.html",
    "https://vnexpress.net/cam-nang-du-lich-bac-ninh-4462126.html",
    "https://vnexpress.net/cam-nang-du-lich-binh-ba-4449076.html",
    "https://vnexpress.net/cam-nang-du-lich-bac-lieu-4447282.html",
    "https://vnexpress.net/cam-nang-du-lich-ben-tre-4447138.html",
    "https://vnexpress.net/cam-nang-du-lich-buon-ma-thuot-4190200.html",
    "https://vnexpress.net/cam-nang-du-lich-chua-bai-dinh-4833152.html",
    "https://vnexpress.net/cam-nang-du-lich-tam-chuc-4822957.html",
    "https://vnexpress.net/cam-nang-du-lich-cu-lao-cham-4751193.html",
    "https://vnexpress.net/cam-nang-du-lich-chau-doc-4733356.html",
    "https://vnexpress.net/cam-nang-du-lich-can-gio-4673430.html",
    "https://vnexpress.net/cam-nang-du-lich-cu-lao-xanh-4598306.html",
    "https://vnexpress.net/cam-nang-du-lich-co-to-4478268.html",
    "https://vnexpress.net/cam-nang-du-lich-ca-mau-4447395.html",
    "https://vnexpress.net/cam-nang-du-lich-cao-bang-4445913.html",
    "https://vnexpress.net/cam-nang-du-lich-con-dao-4445727.html",
    "https://vnexpress.net/cam-nang-du-lich-cat-ba-4136515.html",
    "https://vnexpress.net/cam-nang-du-lich-can-tho-3801041.html",
    "https://vnexpress.net/cam-nang-du-lich-mot-ngay-kham-pha-dia-dao-cu-chi-4873164.html",
    "https://vnexpress.net/cam-nang-du-lich-dong-nai-4811218.html",
    "https://vnexpress.net/cam-nang-du-lich-dien-bien-4687746.html",
    "https://vnexpress.net/cam-nang-du-lich-dong-thap-4685835.html",
    "https://vnexpress.net/cam-nang-du-lich-dak-nong-4650407.html",
    "https://vnexpress.net/cam-nang-du-lich-dong-van-4641450.html",
    "https://vnexpress.net/cam-nang-du-lich-dai-lai-4609900.html",
    "https://vnexpress.net/cam-nang-du-lich-den-hung-4595429.html",
    "https://vnexpress.net/cam-nang-du-lich-da-nang-4470111.html",
    "https://vnexpress.net/cam-nang-du-lich-da-lat-4455699.html",
    "https://vnexpress.net/cam-nang-du-lich-dak-lak-4453797.html",
    "https://vnexpress.net/cam-nang-du-lich-dinh-doc-lap-4875331.html",
    "https://vnexpress.net/cam-nang-du-lich-gia-lai-4668792.html",
    "https://vnexpress.net/cam-nang-du-lich-ha-tien-4745763.html",
    "https://vnexpress.net/cam-nang-du-lich-ha-tinh-4742410.html",
    "https://vnexpress.net/cam-nang-du-lich-ho-ba-be-4650105.html",
    "https://vnexpress.net/cam-nang-du-lich-hai-duong-4462664.html",
    "https://vnexpress.net/cam-nang-du-lich-hoa-binh-4462526.html",
    "https://vnexpress.net/cam-nang-du-lich-ha-nam-4462234.html",
    "https://vnexpress.net/cam-nang-du-lich-hai-phong-4462112.html",
    "https://vnexpress.net/cam-nang-du-lich-ha-noi-4459188.html",
    "https://vnexpress.net/cam-nang-du-lich-ha-long-4457134.html",
    "https://vnexpress.net/cam-nang-du-lich-hoi-an-4446174.html",
    "https://vnexpress.net/cam-nang-du-lich-ha-giang-4445788.html",
    "https://vnexpress.net/topic/du-lich-hung-yen-26085",
    "https://vnexpress.net/topic/du-lich-hau-giang-26083",
    "https://vnexpress.net/cam-nang-du-lich-kien-giang-4764240.html",
    "https://vnexpress.net/cam-nang-du-lich-khanh-hoa-4759133.html",
    "https://vnexpress.net/cam-nang-du-lich-kon-tum-4718005.html",
    "https://vnexpress.net/cam-nang-du-lich-ky-co-4475856.html",
    "https://vnexpress.net/cam-nang-du-lich-ky-co-4475856.html",
    "https://vnexpress.net/cam-nang-du-lich-long-an-4796307.html",
    "https://vnexpress.net/cam-nang-du-lich-lai-chau-4723675.html",
    "https://vnexpress.net/cam-nang-du-lich-lao-cai-4697212.html",
    "https://vnexpress.net/cam-nang-du-lich-lang-son-4660039.html",
    "https://vnexpress.net/cam-nang-du-lich-lang-co-4625414.html",
    "https://vnexpress.net/cam-nang-du-lich-ly-son-4114764.html",
    "https://vnexpress.net/cam-nang-du-lich-meo-vac-4654320.html",
    "https://vnexpress.net/cam-nang-du-lich-mang-den-4619200.html",
    "https://vnexpress.net/cam-nang-du-lich-mai-chau-4450439.html",
    "https://vnexpress.net/mui-nghe-ho-boi-tu-nhien-giua-bien-4447183.html",
    "https://vnexpress.net/cam-nang-du-lich-mu-cang-chai-4158151.html",
    "https://vnexpress.net/cam-nang-du-lich-moc-chau-4098678.html",
    "https://vnexpress.net/cam-nang-du-lich-mui-ne-3838646.html",
    "https://vnexpress.net/cam-nang-du-lich-nam-du-4764453.html",
    "https://vnexpress.net/nui-dinh-diem-cam-trai-cuoi-tuan-gan-tp-hcm-4545681.html",
    "https://vnexpress.net/cam-nang-du-lich-nam-dinh-4462699.html",
    "https://vnexpress.net/cam-nang-du-lich-nghe-an-4455646.html",
    "https://vnexpress.net/cam-nang-du-lich-ninh-thuan-4453272.html",
    "https://vnexpress.net/cam-nang-du-lich-ninh-binh-4127327.html",
    "https://vnexpress.net/cam-nang-du-lich-nha-trang-tu-a-den-z-4127199.html",
    "https://vnexpress.net/topic/du-lich-ninh-chu-26118",
    "https://vnexpress.net/goi-y-an-choi-o-pho-di-bo-ho-hoan-kiem-4633127.html",
    "https://vnexpress.net/goi-y-an-choi-o-pho-di-bo-nguyen-hue-4632658.html",
    "https://vnexpress.net/cam-nang-du-lich-phan-thiet-4582529.html",
    "https://vnexpress.net/cam-nang-du-lich-phu-yen-4465949.html",
    "https://vnexpress.net/cam-nang-du-lich-phu-tho-4462060.html",
    "https://vnexpress.net/cam-nang-du-lich-pu-luong-4153045.html",
    "https://vnexpress.net/cam-nang-du-lich-phu-quoc-4106697.html",
    "https://vnexpress.net/cam-nang-du-lich-dao-phu-quy-3775534.html",
    "https://vnexpress.net/cam-nang-du-lich-quang-tri-4772745.html",
    "https://vnexpress.net/cam-nang-du-lich-quang-nam-4726797.html",
    "https://vnexpress.net/cam-nang-du-lich-quang-ngai-4631099.html",
    "https://vnexpress.net/cam-nang-du-lich-quang-binh-4612297.html",
    "https://vnexpress.net/cam-nang-du-lich-quang-ninh-4479287.html",
    "https://vnexpress.net/cam-nang-du-lich-quan-lan-4478816.html",
    "https://vnexpress.net/cam-nang-du-lich-quy-nhon-4119727.html",
    "https://vnexpress.net/cam-nang-du-lich-soc-trang-4793923.html",
    "https://vnexpress.net/cam-nang-du-lich-son-la-4720798.html",
    "https://vnexpress.net/cam-nang-du-lich-bien-sam-son-4471606.html",
    "https://vnexpress.net/cam-nang-du-lich-soc-son-4445500.html",
    "https://vnexpress.net/cam-nang-du-lich-sa-pa-4108517.html",
    "https://vnexpress.net/cam-nang-du-lich-tra-vinh-4821602.html",
    "https://vnexpress.net/cam-nang-du-lich-tien-giang-4799532.html",
    "https://vnexpress.net/cam-nang-du-lich-tay-ninh-4795506.html",
    "https://vnexpress.net/cam-nang-du-lich-tuyen-quang-4691524.html",
    "https://vnexpress.net/cam-nang-du-lich-rung-tram-tra-su-4665214.html",
    "https://vnexpress.net/cam-nang-du-lich-ta-xua-4656282.html",
    "https://vnexpress.net/cam-nang-du-lich-tram-tau-4645565.html",
    "https://vnexpress.net/cam-nang-du-lich-thai-nguyen-4613586.html",
    "https://vnexpress.net/cam-nang-du-lich-tp-hcm-4608205.html",
    "https://vnexpress.net/cam-nang-du-lich-thanh-hoa-4607348.html",
    "https://vnexpress.net/cam-nang-du-lich-tu-le-4472621.html",
    "https://vnexpress.net/hai-ngay-tham-tam-coc-mua-lua-chin-4467480.html",
    "https://vnexpress.net/cam-nang-du-lich-tam-dao-4454746.html",
    "https://vnexpress.net/cam-nang-du-lich-hue-4126937.html",
    "https://vnexpress.net/topic/du-lich-thai-binh-26105",
    "https://vnexpress.net/cam-nang-du-lich-vuon-quoc-gia-pu-mat-4858184.html",
    "https://vnexpress.net/cam-nang-du-lich-vuon-quoc-gia-bach-ma-4817811.html",
    "https://vnexpress.net/cam-nang-du-lich-vuon-quoc-gia-cuc-phuong-4779568.html",
    "https://vnexpress.net/cam-nang-du-lich-vuon-quoc-gia-cat-tien-4775984.html",
    "https://vnexpress.net/cam-nang-du-lich-vinh-long-4698188.html",
    "https://vnexpress.net/cam-nang-du-lich-vinh-lan-ha-4634997.html",
    "https://vnexpress.net/cam-nang-du-lich-vinh-ha-long-4626380.html",
    "https://vnexpress.net/cam-nang-du-lich-vung-tau-4476318.html",
    "https://vnexpress.net/cam-nang-du-lich-vinh-phuc-4462114.html",
    "https://vnexpress.net/48-gio-o-y-ty-4807822.html",
    "https://vnexpress.net/cam-nang-du-lich-yen-bai-4701574.html",
    "https://vnexpress.net/kinh-nghiem-di-du-lich-doc-viet-nam-cua-khach-tay-4639439.html"

]

titles = [
	"Cẩm nang du lịch An Giang",
	"Cẩm nang du lịch Bà Nà Hills",
	"Cẩm nang du lịch Bắc Giang",
	"Cẩm nang du lịch Bình Thuận",
	"Cẩm nang du lịch Bình Định", 
    "Cẩm nang du lịch Bình Dương",
    "Cẩm nang du lịch Bình Phước",
    "Cẩm nang du lịch Bắc Kạn",
    "Cẩm nang du lịch Bảo Lộc",
    "Cẩm nang du lịch Bà Rịa - Vũng Tàu",
    "Cẩm nang du lịch Bình Liêu",
    "Cẩm nang du lịch Ba Vì",
    "Cẩm nang du lịch Bắc Ninh",
    "Cẩm nang du lịch Bình Ba",
    "Cẩm nang du lịch Bạc Liêu",
    "Cẩm nang du lịch Bến Tre",
    "Cẩm nang du lịch Buôn Ma Thuột",
    "Cẩm nang du lịch Chùa Bái Đính",
    "Cẩm nang du lịch Chùa Tam Chúc",
    "Cẩm nang du lịch Cù Lao Chàm",
    "Cẩm nang du lịch Châu Đốc",
    "Cẩm nang du lịch Cần Giờ",
    "Cẩm nang du lịch Cù Lao Xanh",
    "Cẩm nang du lịch Cô Tô",
    "Cẩm nang du lịch Cà Mau",
    "Cẩm nang du lịch Cao Bằng",
    "Cẩm nang du lịch Côn Đảo",
    "Cẩm nang du lịch Cát Bà",
    "Cẩm nang du lịch Cần Thơ",
    "Cẩm nang du lịch Địa đọa Củ Chi",
    "Cẩm nang du lịch Đồng Nai",
    "Cẩm nang du lịch Điện Biên",
    "Cẩm nang du lịch Đồng Tháp",
    "Cẩm nang du lịch Đắk Nông",
    "Cẩm nang du lịch Đồng Văn",
    "Cẩm nang du lịch Đại Lải",
    "Cẩm nang du lịch Đền Hùng",
    "Cẩm nang du lịch Đà Nẵng",
    "Cẩm nang du lịch Đà Lạt",
    "Cẩm nang du lịch Đăk LăK",
    "Cẩm nang du lịch Dinh độc lập",
    "Cẩm nang du lịch Gia Lai",
    "Cẩm nang du lịch Hà Tiên",
    "Cẩm nang du lịch Hà Tĩnh",
    "Cẩm nang du lịch Hồ Ba Bể",
    "Cẩm nang du lịch Hải Dương",
    "Cẩm nang du lịch Hòa Bình",
    "Cẩm nang du lịch Hà Nam",
    "Cẩm nang du lịch Hải Phòng",
    "Cẩm nang du lịch Hà Nội",
    "Cẩm nang du lịch Hạ Long",
    "Cẩm nang du lịch Hội An",
    "Cẩm nang du lịch Hà Giang",
    "Cẩm nang du lịch Hưng Yên",
    "Cẩm nang du lịch Hậu Giang",
    "Cẩm nang du lịch Kiên Giang",
    "Cẩm nang du lịch Khánh Hòa",
    "Cẩm nang du lịch Kon Tum",
    "Cẩm nang du lịch Kỳ Co",
    "Cẩm nang du lịch Lâm Đồng",
    "Cẩm nang du lịch Long An",
    "Cẩm nang du lịch Lai Châu",
    "Cẩm nang du lịch Lào Cai",
    "Cẩm nang du lịch Lạng Sơn",
    "Cẩm nang du lịch Lăng Cô",
    "Cẩm nang du lịch Lý Sơn",
    "Cẩm nang du lịch Mèo Vạc",
    "Cẩm nang du lịch Măng Đen",
    "Cẩm nang du lịch Mai Châu",
    "Cẩm nang du lịch Mũi Nghê",
    "Cẩm nang du lịch Mù Cang Chải",
    "Cẩm nang du lịch Mộc Châu",
    "Cẩm nang du lịch Mũi Né",
    "Cẩm nang du lịch Nam Du",
    "Cẩm nang du lịch Núi Dinh",
    "Cẩm nang du lịch Nam Định",
    "Cẩm nang du lịch Nghệ An",
    "Cẩm nang du lịch Ninh Thuận",
    "Cẩm nang du lịch Ninh Bình",
    "Cẩm nang du lịch Nha Trang",
    "Cẩm nang du lịch Ninh Chữ",
    "Cẩm nang du lịch Phố đi bộ hồ Gươm",
    "Cẩm nang du lịch Phố đi bộ Nguyễn Hệ",
    "Cẩm nang du lịch Phan Thiết",
    "Cẩm nang du lịch Phú Yên",
    "Cẩm nang du lịch Phú Thọ",
    "Cẩm nang du lịch Pù Luông",
    "Cẩm nang du lịch Phú Quốc",
    "Cẩm nang du lịch Phú Quý",
    "Cẩm nang du lịch Quảng Trị",
    "Cẩm nang du lịch Quảng Nam",
    "Cẩm nang du lịch Quảng Ngãi",
    "Cẩm nang du lịch Quảng Bình",
    "Cẩm nang du lịch Quảng Ninh",
    "Cẩm nang du lịch Quan Lạn",
    "Cẩm nang du lịch Quy Nhơn",
    "Cẩm nang du lịch Sóc Trăng",
    "Cẩm nang du lịch Sơn La",
    "Cẩm nang du lịch Sầm Sơn",
    "Cẩm nang du lịch Sóc Sơn",
    "Cẩm nang du lịch Sa Pa",
    "Cẩm nang du lịch Trà Vinh",
    "Cẩm nang du lịch Tiền Giang",
    "Cẩm nang du lịch Tây Ninh",
    "Cẩm nang du lịch Tuyên Quang",
    "Cẩm nang du lịch Trà Sư",
    "Cẩm nang du lịch Tà Xùa",
    "Cẩm nang du lịch Trạm Tấu",
    "Cẩm nang du lịch Thái Nguyên",
    "Cẩm nang du lịch TP Hồ Chí Minh",
    "Cẩm nang du lịch Thanh Hóa",
    "Cẩm nang du lịch Tú Lệ",
    "Cẩm nang du lịch Tam Cốc - Bích Động",
    "Cẩm nang du lịch Tam Đảo",
    "Cẩm nang du lịch Thừa Thiên Huế",
    "Cẩm nang du lịch Thái Bình",
    "Cẩm nang du lịch Vườn quốc gia Pù Mát",
    "Cẩm nang du lịch Vườn quốc gia Bạch Mã",
    "Cẩm nang du lịch Vườn quốc gia Cúc Phương",
    "Cẩm nang du lịch Vườn quốc gia Cát Tiên",
    "Cẩm nang du lịch Vĩnh Long",
    "Cẩm nang du lịch Vịnh Lan Hạ",
    "Cẩm nang du lịch Vịnh Hạ Long",
    "Cẩm nang du lịch Vũng Tàu",
    "Cẩm nang du lịch Vĩnh Phúc",
    "Cẩm nang du lịch Y Tý",
    "Cẩm nang du lịch Yên Bái",
    "Kinh nghiệm đi du lịch dọc Việt Nam của khách Tây"
]

In [16]:
pairs = list(zip(titles, urls))

In [8]:
from bs4 import BeautifulSoup
import requests
import html2text
from datetime import datetime
from llama_index.core import Document
from llama_index.core.schema import MetadataMode
from llama_index.core.node_parser import SemanticSplitterNodeParser
from llama_index.core.extractors import TitleExtractor, QuestionsAnsweredExtractor
from llama_index.core.ingestion import IngestionPipeline
from llama_index.vector_stores.weaviate import WeaviateVectorStore
from llama_index.core import VectorStoreIndex, StorageContext
from llama_index.core.node_parser import SentenceSplitter

In [17]:
import requests
from bs4 import BeautifulSoup

def extract_main_content(url, timeout=30):
    try:
        response = requests.get(url, timeout=timeout)
        soup = BeautifulSoup(response.content, "html.parser")

        # Loại bỏ các phần không liên quan
        for selector in ['header', 'footer', '.ads', '.advertisement', '.popup', '.nav', '.menu', '.related-posts']:
            for tag in soup.select(selector):
                tag.decompose()

        # Tìm ứng viên nội dung
        candidates = soup.find_all(['article', 'main', 'section', 'div'])

        max_len = 0
        best_block = None

        for block in candidates:
            text = block.get_text(separator=' ', strip=True)
            if len(text) > max_len:
                max_len = len(text)
                best_block = block

        if best_block:
            print(f"✅ Tìm thấy phần nội dung chính ({max_len} ký tự)")
            return best_block
        else:
            print("❌ Không tìm thấy nội dung chính")
            return None
    except Exception as e:
        print(f"❌ Lỗi khi xử lý {url}: {e}")
        return None



In [18]:
documents = []

# ========== XỬ LÝ NHIỀU URL ==========
for url, title in zip(urls, titles):
    main_content = extract_main_content(url)
    
    # HTML → Markdown
    markdown_converter = html2text.HTML2Text()
    markdown_converter.ignore_links = False
    markdown_content = markdown_converter.handle(str(main_content))

    # Tạo Document
    document = Document(
        text=markdown_content,
        metadata={
            "language": "vi",
            "title": title,
            "date": datetime.now().strftime("%Y-%m-%d"),
            "source": url,
        },
        excluded_llm_metadata_keys=["file_name"],
        metadata_seperator="::",
        metadata_template="{key}=>{value}",
        text_template="Metadata: {metadata_str}\n-----\nContent: {content}",
    )

    documents.append(document)

✅ Tìm thấy phần nội dung chính (7107 ký tự)
✅ Tìm thấy phần nội dung chính (11748 ký tự)
✅ Tìm thấy phần nội dung chính (11057 ký tự)
✅ Tìm thấy phần nội dung chính (10055 ký tự)
✅ Tìm thấy phần nội dung chính (15217 ký tự)
✅ Tìm thấy phần nội dung chính (16607 ký tự)
✅ Tìm thấy phần nội dung chính (13394 ký tự)
✅ Tìm thấy phần nội dung chính (9100 ký tự)
✅ Tìm thấy phần nội dung chính (9434 ký tự)
✅ Tìm thấy phần nội dung chính (19558 ký tự)
✅ Tìm thấy phần nội dung chính (7645 ký tự)
✅ Tìm thấy phần nội dung chính (14287 ký tự)
✅ Tìm thấy phần nội dung chính (9395 ký tự)
✅ Tìm thấy phần nội dung chính (8657 ký tự)
✅ Tìm thấy phần nội dung chính (11208 ký tự)
✅ Tìm thấy phần nội dung chính (8288 ký tự)
✅ Tìm thấy phần nội dung chính (11657 ký tự)
✅ Tìm thấy phần nội dung chính (11744 ký tự)
✅ Tìm thấy phần nội dung chính (8511 ký tự)
✅ Tìm thấy phần nội dung chính (8303 ký tự)
✅ Tìm thấy phần nội dung chính (11761 ký tự)
✅ Tìm thấy phần nội dung chính (8908 ký tự)
✅ Tìm thấy phần nội 

In [19]:
# ========== INGESTION PIPELINE ==========
# semantic_splitter = SemanticSplitterNodeParser(
#     buffer_size=10,
#     breakpoint_percentile_threshold=60,
#     llm=llm,
#     embed_model=Settings.embed_model
# )


sentence_splitter = SentenceSplitter(chunk_size=1024, chunk_overlap=20)
# title_extractor = TitleExtractor(nodes=5, llm=llm)
# qa_extractor = QuestionsAnsweredExtractor(questions=3, llm=llm)

pipeline = IngestionPipeline(
    transformations=[sentence_splitter]
)

nodes = pipeline.run(
    documents=documents,
    in_place=True,
    show_progress=True,
)

Parsing nodes:   0%|          | 0/128 [00:00<?, ?it/s]

Parsing nodes: 100%|██████████| 128/128 [00:06<00:00, 20.05it/s]


In [20]:
# ========== LƯU VÀO WEAVIATE ==========
vector_store = WeaviateVectorStore(
    weaviate_client=client,
    index_name="VietnamTourism",
    text_key="content"
)

storage_context = StorageContext.from_defaults(vector_store=vector_store)

index = VectorStoreIndex(
    nodes,
    storage_context=storage_context,
    embed_model=Settings.embed_model,
)

In [21]:
nodes_info = client.cluster.nodes(
    collection="VietnamTourism",  # If omitted, all collections will be returned
    output="verbose"  #  If omitted, will be "minimal"
)
print(nodes_info)

[Node(git_hash='ca35d6b', name='weaviate-0', shards=[Shard(collection='VietnamTourism', name='qZoGTdUfsz45', node='weaviate-0', object_count=0, vector_indexing_status='READY', vector_queue_length=0, compressed=False, loaded=True)], stats=Stats(object_count=0, shard_count=1), status='HEALTHY', version='1.30.3')]


In [22]:
for node in nodes:
    if hasattr(node, 'content') and node.content:
        print(node.content)  # In nội dung của node
    elif hasattr(node, 'text') and node.text:
        print(node.text)  # In nội dung nếu nó nằm trong thuộc tính 'text'
    else:
        print("Node không có nội dung.")
    print("----------------------------")

![](https://i1-dulich.vnecdn.net/2022/04/01/dulichAnGiang1-1648805256-9025-1648805260.jpg?w=0&h=0&q=100&dpr=2&fit=crop&s=zM3X9U8RGUwOOImkn_bdjg)

Cẩm nang du lịch

# An Giang

  * [](javascript:; "Chia sẻ bài viết lên facebook")
  * [](javascript:; "Chia sẻ bài viết lên twitter")
  * [](javascript:; "Chia sẻ bài viết lên Linkedin")
  *   *   * [Trở lại Du lịch](/du-lich)

  * Điều hướng nhanh
  * An Giang mùa nào đẹp?
  * Di chuyển
  * Chơi đâu
  * Khách sạn, homestay
  * Đặc sản An Giang
  * Mua gì làm quà

An Giang là tỉnh ở miền Tây Nam Bộ, một phần trong vùng tứ giác Long Xuyên.
Tỉnh thuộc vùng đồng bằng sông Cửu Long, có sông Tiền và sông Hậu chảy qua.
Đường biên giới dài gần 100 km giáp Campuchia.  

###

### An Giang mùa nào đẹp?  

Từ tháng 3 đến tháng 5, An Giang trong mùa nắng khô ráo. Nếu muốn ngắm thảm
bèo cũng như thế giới tự nhiên xanh mát ở rừng tràm Trà Sư vào [mùa nước
nổi](https://vnexpress.net/mua-nuoc-noi-o-an-giang-4368383.html), bạn nên đi
vào tháng 10 và 11. Cuối

### 2. Vietnam Airline

In [23]:
urls = [
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-dem-ha-noi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-gi-o-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-gi-o-tam-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-sang-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/banh-dac-san-ha-noi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/banh-mi-xiu-mai-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/banh-trang-nuong-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/bao-tang-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/bao-tang-dieu-khac-cham-da-nang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/bao-tang-ha-noi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/bien-nha-trang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cao-nguyen-hoa-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cau-may-tam-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cau-rong-da-nang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cau-vang-da-nang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cho-ba-chieu",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cho-con-da-nang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cho-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cho-long-bien",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cho-phan-thiet",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/chua-buu-long",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/chua-linh-ung-da-nang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/co-do-hoa-lu",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/com-nieu-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/con-dao-co-gi-choi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/con-dao-vo-thi-sau",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-binh-thuan",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-hai-phong",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-ha-noi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-ninh-binh",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-tam-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-tay-ninh",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-vinh-phuc",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dao-con-son",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/den-quan-thanh",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/deo-hai-van",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/doi-cat-mui-ne",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/doi-cat-trang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-hue",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-mui-ne",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-o-nha-trang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-tam-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-vinh-phuc",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/ga-nuong-com-lam-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/hai-san-phan-thiet",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/ha-nam-co-dac-san-gi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/ha-noi-di-dau-choi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/hanoi-train-street",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/happy-hill-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/hoa-lo-prison",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/hoang-thanh-thang-long",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/ho-xuan-huong-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/kem-bo-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/lau-ga-la-e-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/mon-an-ha-noi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/mongo-land-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/ngu-hanh-son-da-nang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/nha-trang-nightlife",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/nha-tu-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/ninh-binh-co-gi-choi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/pho-di-bo-bui-vien",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/quang-phu-cau",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/quang-truong-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/quan-nuong-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/san-bay-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/san-may-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/tam-dao-co-gi-choi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/tay-thien-tam-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/thien-vien-truc-lam-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/thung-lung-tinh-yeu",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/thung-nham-ninh-binh",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/vuon-dau-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/vuon-hoa-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/vuon-quoc-gia-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/vuon-quoc-gia-tam-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/xom-leo-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-ha-noi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-gi-o-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/chua-ba-tay-ninh",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/chua-dia-tang-phi-lai",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/chua-tam-chuc-ha-nam",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/cua-khau-moc-bai",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/dac-san-phu-quoc",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-binh-thuan",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-con-dao",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-da-nang",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-ha-long",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-hoi-an",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-phan-thiet",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-phu-quoc",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-quang-binh",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-quy-nhon",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-sai-gon",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-sai-gon",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/du-lich-vung-tau",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/hai-san-phu-quoc",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/hon-kho",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/kinh-nghiem-du-lich-da-lat",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/kinh-nghiem-du-lich-ha-noi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/kinh-nghiem-du-lich-hue",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/kinh-nghiem-du-lich-moc-chau",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/kinh-nghiem-du-lich-quy-nhon",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/kinh-nghiem-du-lich-sapa",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/nui-ba-den",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/quang-binh-co-gi-choi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/tay-ninh-co-gi-choi",
    "https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/thap-banh-it",
    
]
titles = [
    "Tổng hợp 30+ quán ăn đêm Hà Nội siêu ngon được dân local gợi ý",
    "Ăn gì ở Côn Đảo? 14++ món đặc sản không thể bỏ lỡ!",
    "Ăn gì ở Tam Đảo? 20+ món ngon không thể bỏ lỡ!",
    "Ăn sáng Đà Lạt: TOP 20++ món 'gây nghiện' dân bản địa mách nhỏ",
    "13 loại bánh đặc sản Hà Nội mang hương vị truyền thống tinh túy",
    "12 quán bánh mì xíu mại Đà Lạt trứ danh - nhất định phải thử",
    "10 quán bánh tráng nướng Đà Lạt thơm ngon - chuẩn vị - ăn là mê",
    "Khám phá Bảo tàng Côn Đảo: Hành trình ngược dòng lịch sử",
    "Kiến trúc & các bảo vật độc đáo tại Bảo tàng điêu khắc Chăm Đà Nẵng",
    "Khám phá lịch sử nghìn năm văn hiến tại Bảo tàng Hà Nội",
    "TOP 12+ bãi biển Nha Trang thơ mộng, trong xanh không thể bỏ lỡ",
    "Khám phá Cao Nguyên Hoa Đà Lạt: Giá vé - Trải nghiệm nên thử",
    "Cầu mây Tam Đảo - Bí kíp sống ảo “cháy máy” cho bạn!",
    "Check-in Cầu Rồng Đà Nẵng: Ở đâu? Trải nghiệm gì? Lưu ý ra sao?",
    "Khám phá A-Z biểu tượng tại đỉnh Bà Nà Hills - Cầu Vàng Đà Nẵng",
    "Một vòng chợ Bà Chiểu: Thiên đường mua sắm & ẩm thực nổi tiếng",
    "Khám phá thiên đường ẩm thực - Chợ Cồn Đà Nẵng ở đâu? Có gì ăn?",
    "Chợ Côn Đảo: \"Check-in\" ẩm thực địa phương cực thú vị",
    "Ăn uống & Mua sắm ở chợ Long Biên - Ngôi chợ lâu đời ở Hà thành",
    "Chợ Phan Thiết: Khu chợ trung tâm sầm uất, đầy đủ sản vật xứ biển",
    "Cẩm nang chiêm bái chùa Bửu Long: ngôi chùa Thái Lan độc đáo",
    "3 ngôi chùa Linh Ứng Đà Nẵng: Vẻ đẹp của “tam giác linh thiêng”",
    "Cố Đô Hoa Lư: Lịch sử vàng son & kinh nghiệm tham quan",
    "13 quán & nhà hàng cơm niêu Đà Lạt thơm ngon - trọn vị cơm nhà",
    "Côn Đảo có gì chơi? TOP 11++ điểm đến và hoạt động thú vị nhất",
    "Hướng dẫn thăm mộ cô Võ Thị Sáu tại Côn Đảo đầy đủ nhất",
    "20++ Đặc sản Bình Thuận ngon hết ý, ăn là mê!",
    "Tổng hợp 20++ đặc sản Hải Phòng làm say lòng thực khách",
    "17++ Đặc sản Hà Nội làm quà mang đậm hồn vị Thủ đô",
    "13+ đặc sản Ninh Bình ăn ngay & mua làm quà ai cũng mê",
    "21++ Đặc sản Tam Đảo mua về làm quà ai cũng thích mê",
    "Oanh tạc đặc sản Tây Ninh với 31+ món ngon, quà từ đất Thánh",
    "Đặc sản Vĩnh Phúc: 17+ món ngon độc lạ, đậm hương vị núi rừng",
    "Cẩm nang khám phá đảo Côn Sơn (Côn Đảo) siêu chi tiết!",
    "Khám phá Thăng Long tứ trấn: Đền Quán Thánh ngàn năm lịch sử",
    "Cẩm nang chinh phục & check-in đệ nhất hùng quan đèo Hải Vân",
    "Đồi Cát Mũi Né - Khám phá sa mạc đẹp mê ly giữa thành phố biển",
    "Đồi Cát Trắng (Bàu Trắng): Kinh nghiệm khám phá từ A - Z",
    "Du lịch Huế, nhất định phải ghé 15++ điểm đến này!",
    "A - Z Về Du Lịch Mũi Né: Kinh Nghiệm, Lịch Trình, Địa Điểm Ăn Chơi 2025",
    "Ăn gì ở Nha Trang? Top 11+ món ngon không thể bỏ lỡ",
    "Từ A - Z thông tin du lịch Tam Đảo 2025 mà bạn đang cần!",
    "Tổng hợp thông tin du lịch Vĩnh Phúc đầy đủ nhất",
    "15 quán & nhà hàng gà nướng cơm lam mang đậm hương vị núi rừng",
    "TOP 15++ địa chỉ thưởng thức, mua hải sản Phan Thiết tươi ngon",
    "Hà Nam có đặc sản gì? 10++ gợi ý bạn không thể bỏ qua",
    "Hà Nội đi đâu chơi? TOP 30++ địa điểm cho gia đình, giới trẻ",
    "Ăn gì ở Nha Trang? Top 11+ món ngon không thể bỏ lỡ",
    "Từ A - Z thông tin du lịch Tam Đảo 2025 mà bạn đang cần!",
    "Cập nhật 2025: Cẩm nang check-in phim trường Happy Hill Đà Lạt",
    "Ăn gì ở Nha Trang? Top 11+ món ngon không thể bỏ lỡ",
    "Hoàng thành Thăng Long: Di sản Văn hóa Thế giới giữa lòng thủ đô",
    "Khám phá Hồ Xuân Hương Đà Lạt - “Trái tim xanh” của xứ mộng mơ",
    "Top 07+ quán kem bơ Đà Lạt thơm béo - “đưa miệng” ngày se lạnh",
    "Không chỉ có phở, 30++ món ăn Hà Nội gây thương nhớ",
    "Mongo Land Đà Lạt: Giá vé, cách di chuyển & 6 trải nghiệm thú vị",
    "Ăn gì ở Nha Trang? Top 11+ món ngon không thể bỏ lỡ",
    "Ngũ Hành Sơn Đà Nẵng - Khám phá trọn tuyệt tác của thiên nhiên",
    "Đến nhà tù Côn Đảo, lắng nghe tiếng vọng của lịch sử",
    "Ninh Bình có gì chơi? 21 tọa độ tham quan - vui chơi thú vị",
    "Khám phá phố đi bộ Bùi Viện: tụ điểm giải trí đậm chất Sài Gòn",
    "Kinh nghiệm đi Làng hương Quảng Phú Cầu “săn” ảnh đẹp như tranh",
    "Kinh nghiệm check-in, ăn - chơi tại Quảng trường Đà Lạt",
    "21+ quán nướng Đà Lạt ngon khó cưỡng - có view chill hết nấc",
    "Sân bay Côn Đảo - Thông tin vị trí, chuyến bay, di chuyển",
    "Cẩm nang săn mây Đà Lạt: Thời điểm - Địa điểm & Lưu ý nên nhớ",
    "Tam Đảo có gì chơi? TOP 20++ địa điểm đẹp quên sầu, vui hết nấc!",
    "Tây Thiên Tam Đảo 2025: Thông tin, lịch trình và lưu ý đầy đủ nhất!",
    "Thiền viện Trúc Lâm Đà Lạt: Hướng dẫn tham quan chi tiết nhất",
    "Thung lũng Tình Yêu Đà Lạt ở đâu? Vé bao nhiêu? Có gì chơi?",
    "Cẩm nang du lịch vườn chim Thung Nham Ninh Bình [Cập nhật 2025]",
    "Khám phá 10+ vườn dâu Đà Lạt đẹp mê: sống ảo, hái dâu chín mọng",
    "Từ A - Z vườn hoa Đà Lạt & 15 điểm check-in ngập sắc hoa khác",
    "Từ A - Z về kinh nghiệm khám phá vườn quốc gia Côn Đảo",
    "Từ A - Z kinh nghiệm du lịch vườn quốc gia Tam Đảo",
    "Tọa độ chuẩn của xóm Lèo Đà Lạt: điểm ngắm hoàng hôn siêu chill",
    "15++ Địa điểm du lịch Hà Nội hấp dẫn không thể bỏ qua",
    "Ăn gì ở Đà Lạt? Top 21 món ăn ngon nên thử",
    "Khám phá Chùa Bà Tây Ninh: Hành trình về miền đất thiêng",
    "Chùa Địa Tạng Phi Lai – Khám phá chốn linh thiêng tĩnh lặng giữa rừng núi Hà Nam",
    "Chùa Tam Chúc Hà Nam – Vẻ đẹp linh thiêng giữa non nước hữu tình",
    "Cửa khẩu Mộc Bài: Kinh nghiệm du lịch, mua sắm, xuất nhập cảnh",
    "Top 19 đặc sản Côn Đảo ngon khó cưỡng, du khách không thể bỏ lỡ",
    "16 đặc sản Đà Lạt mặn - ngọt nên ăn thử & mua làm quà",
    "Khám phá 21+ đặc sản Phú Quốc thơm ngon nức tiếng",
    "A - Z Về Du Lịch Bình Thuận: Kinh Nghiệm, Lịch Trình, Địa Điểm Ăn Chơi 2025",
    "Từ A đến Z kinh nghiệm du lịch Côn Đảo trọn vẹn",
    "Du lịch Đà Lạt 2024, đừng bỏ qua 20 điểm đến này!",
    "Khám phá 20++ điểm du lịch Đà Nẵng hấp dẫn nhất 2024",
    "Cẩm nang du lịch Hạ Long 2024 siêu chi tiết dành cho bạn",
    "Kinh nghiệm du lịch Hội An: Chi tiết các thông tin từ A - Z",
    "Du lịch Phan Thiết: Ăn gì, chơi ở đâu và kinh nghiệm siêu hữu ích",
    "“Bỏ túi” 8+ kinh nghiệm du lịch Phú Quốc từ A-Z",
    "Bỏ túi 7 kinh nghiệm du lịch Quảng Bình đầy đủ 2024",
    "Du lịch Quy Nhơn: Top 15++ điểm tham quan, ăn uống và kinh nghiệm hữu ích",
    "Kinh nghiệm du lịch Sài Gòn siêu chi tiết từ A - Z",
    "Du lịch Tây Ninh: Khám phá vẻ đẹp thiên nhiên và nền văn hóa độc đáo",
    "Kinh nghiệm du lịch Vũng Tàu: Từ A - Z cho chuyến du lịch trọn vẹn",
    "Top 12 quán hải sản Phú Quốc tươi ngon nức lòng thực khách",
    "Hòn Khô ở đâu? Có những trải nghiệm gì? Lịch trình ra sao?",
    "Kinh nghiệm du lịch Đà Lạt tự túc cho người mới siêu đầy đủ!",
    "Trọn bộ kinh nghiệm du lịch Hà Nội tự túc từ Vietnam Airlines",
    "Kinh nghiệm du lịch Huế giúp bạn khám phá trọn vẹn vùng đất cố đô",
    "Kinh nghiệm du lịch Mộc Châu: Bỏ túi ngay cho chuyến hành trình đáng giá",
    "Kinh nghiệm du lịch Quy Nhơn chi tiết từ A - Z",
    "Kinh nghiệm du lịch Sapa: Khám phá trọn vẹn phố núi “sương mù”",
    "A – Z Kinh nghiệm khám phá Núi Bà Đen – Biểu tượng văn hoá, tâm linh tại Tây Ninh",
    "Quảng Bình có gì chơi? Gợi ý 15 địa điểm vui chơi hấp dẫn",
    "Tây Ninh có gì chơi? 10++ trải nghiệm thú vị không thể bỏ qua!",
    "Tháp Bánh Ít: Biểu tượng văn hóa và lịch sử đặc sắc của đất võ Bình Định"
]

In [24]:
len(titles)

110

In [25]:
len(urls)

110

In [26]:
pairs = list(zip(titles, urls))
pairs

[('Tổng hợp 30+ quán ăn đêm Hà Nội siêu ngon được dân local gợi ý',
  'https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-dem-ha-noi'),
 ('Ăn gì ở Côn Đảo? 14++ món đặc sản không thể bỏ lỡ!',
  'https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-gi-o-con-dao'),
 ('Ăn gì ở Tam Đảo? 20+ món ngon không thể bỏ lỡ!',
  'https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-gi-o-tam-dao'),
 ("Ăn sáng Đà Lạt: TOP 20++ món 'gây nghiện' dân bản địa mách nhỏ",
  'https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-sang-da-lat'),
 ('13 loại bánh đặc sản Hà Nội mang hương vị truyền thống tinh túy',
  'https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/banh-dac-san-ha-noi'),
 ('12 quán bánh mì xíu mại Đà Lạt trứ danh - nhất định phải thử',
  'https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/banh-mi-xiu-mai-da-lat'),
 ('10 quán bánh tráng nướng Đà Lạt thơm ngon - chuẩn vị - ăn 

In [27]:
documents = []

# ========== XỬ LÝ NHIỀU URL ==========
for url, title in zip(urls, titles):
    main_content = extract_main_content(url)
    
    # HTML → Markdown
    markdown_converter = html2text.HTML2Text()
    markdown_converter.ignore_links = False
    markdown_content = markdown_converter.handle(str(main_content))

    # Tạo Document
    document = Document(
        text=markdown_content,
        metadata={
            "language": "vi",
            "title": title,
            "date": datetime.now().strftime("%Y-%m-%d"),
            "source": url,
        },
        excluded_llm_metadata_keys=["file_name"],
        metadata_seperator="::",
        metadata_template="{key}=>{value}",
        text_template="Metadata: {metadata_str}\n-----\nContent: {content}",
    )

    documents.append(document)

❌ Lỗi khi xử lý https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-dem-ha-noi: ('Connection aborted.', RemoteDisconnected('Remote end closed connection without response'))
❌ Lỗi khi xử lý https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-gi-o-con-dao: HTTPSConnectionPool(host='www.vietnamairlines.com', port=443): Read timed out. (read timeout=30)
❌ Lỗi khi xử lý https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-gi-o-tam-dao: HTTPSConnectionPool(host='www.vietnamairlines.com', port=443): Read timed out. (read timeout=30)
❌ Lỗi khi xử lý https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/an-sang-da-lat: HTTPSConnectionPool(host='www.vietnamairlines.com', port=443): Read timed out. (read timeout=30)
❌ Lỗi khi xử lý https://www.vietnamairlines.com/cz/vi/useful-information/travel-guide/banh-dac-san-ha-noi: HTTPSConnectionPool(host='www.vietnamairlines.com', port=443): Read timed out. (read timeout=30)
❌ L

In [21]:
# ========== INGESTION PIPELINE ==========
sentence_splitter = SentenceSplitter(chunk_size=1024, chunk_overlap=20)


# qa_extractor = QuestionsAnsweredExtractor(questions=3, llm=llm)

pipeline = IngestionPipeline(
    transformations=[sentence_splitter]
)

nodes = pipeline.run(
    documents=documents,
    in_place=True,
    show_progress=True,
)

Parsing nodes: 100%|██████████| 110/110 [00:03<00:00, 36.01it/s]


In [28]:
# ========== LƯU VÀO WEAVIATE ==========
vector_store = WeaviateVectorStore(
    weaviate_client=client,
    index_name="VietnamTourism",
    text_key="content"
)

storage_context = StorageContext.from_defaults(vector_store=vector_store)

index = VectorStoreIndex(
    nodes,
    storage_context=storage_context,
    embed_model=Settings.embed_model,
)

### 3. PDF

In [29]:
pdf_urls = [
    "https://downloads.ctfassets.net/bhsr3r63z25m/4OZhr8V8aCHQfu7hNpPbZn/52d861ca7998a630c1e98699d5b5b6b5/Trip_Planning_101_PDF__1_.pdf",
    "https://vietnam.travel/sites/default/files/2019-11/Beginner%27s%20Guide%20to%20Vietnam%20Now.pdf",
    "https://expatsholidays.com/wp-content/uploads/2018/07/Travel-Guide-for-Vietnam.pdf",
    "https://kelmer.com/wp-content/uploads/2024/04/Turismo-Vietnam-Recap-e-Outlook-.pdf"
]
pdf_titles = [
    "Trip Planning 101",
    "Beginner's Guide to Vietnam",
    "Travel Guide for Vietnam",
    "Tourism Vietnam Recap Outlook"
]


In [30]:
import os
os.environ["LLAMA_CLOUD_API_KEY"]="llx-rCs6FqC46ePOHt99TuGMZlNfrj3ScpBa34F4LhngUPGJ3KTh"

In [31]:
from llama_index.core.schema import Document
from llama_parse import LlamaParse
from datetime import datetime


for url, title in zip(pdf_urls, pdf_titles):
    print(f"Processing URL: {url}")
    print(f"Title: {title}")
    
    parser = LlamaParse(result_type="markdown")
    json_objs = parser.get_json_result(url)

    # Inspect json_objs
    print("### json_objs Structure ###")
    print(f"Type: {type(json_objs)}")
    if isinstance(json_objs, list):
        print(f"Length: {len(json_objs)}")
        print(f"Keys of first item: {list(json_objs[0].keys())}")

    print("----------------------")

    json_list = json_objs[0]["pages"]
    print("### json_list Structure ###")
    print(f"Type: {type(json_list)}")
    if isinstance(json_list, list):
        print(f"Length: {len(json_list)}")
        print(f"Keys of first item: {list(json_list[0].keys())}")
        print(f"Sample Data (First Item): {json_list[0]}")

    print("----------------------")

    current_date = datetime.now().strftime("%Y-%m-%d")
    docs = []
    for i, item in enumerate(json_list[:10]):  # Get first 10 pages
        doc = Document(
            text=item["text"],
            metadata={
                "page_label": item["page"],
                "title": title,
                "source": url,
                "date": current_date
            },
            chart=item.get("charts", []),
            image=item.get("images", []),
            data=item.get("structuredData", {}),
            excluded_llm_metadata_keys=["file_name"],
            metadata_seperator="::",
            metadata_template="{key}=>{value}",
            text_template="Metadata: {metadata_str}\n-----\nContent: {content}",
        )
        docs.append(doc)

    print("### docs Structure ###")
    print(f"Type: {type(docs)}")
    print(f"Length: {len(docs)}")
    if docs:
        print(f"Sample Document Metadata: {docs[0].metadata}")
        print(f"Sample Document Text Type: {type(docs[0].text)}")

Processing URL: https://downloads.ctfassets.net/bhsr3r63z25m/4OZhr8V8aCHQfu7hNpPbZn/52d861ca7998a630c1e98699d5b5b6b5/Trip_Planning_101_PDF__1_.pdf
Title: Trip Planning 101
Started parsing the file under job_id ec680119-80b8-43bc-8d74-c14bc9211c38
### json_objs Structure ###
Type: <class 'list'>
Length: 1
Keys of first item: ['pages', 'job_metadata', 'job_id', 'file_path']
----------------------
### json_list Structure ###
Type: <class 'list'>
Length: 10
Keys of first item: ['page', 'text', 'md', 'images', 'charts', 'items', 'status', 'originalOrientationAngle', 'links', 'width', 'height', 'triggeredAutoMode', 'parsingMode', 'structuredData', 'noStructuredContent', 'noTextContent', 'confidence']
Sample Data (First Item): {'page': 1, 'text': "                                                                                             #Bright Trip\n                                            HOW TO                       Iiaca\n                         PLAL YOUR TRIP\n                     

In [32]:
for doc in docs:
    print(doc.metadata)
    print(doc.text)
    print("----------------------------------------------------")

{'page_label': 1, 'title': 'Tourism Vietnam Recap Outlook', 'source': 'https://kelmer.com/wp-content/uploads/2024/04/Turismo-Vietnam-Recap-e-Outlook-.pdf', 'date': '2025-06-01'}
    KELMER
    { : 6 1 2 32>
VIETNAM TRAVEL
LANDSCAPE 2024
----------------------------------------------------
{'page_label': 2, 'title': 'Tourism Vietnam Recap Outlook', 'source': 'https://kelmer.com/wp-content/uploads/2024/04/Turismo-Vietnam-Recap-e-Outlook-.pdf', 'date': '2025-06-01'}
GET A GRASP OF THE MARKET
----------------------------------------------------
{'page_label': 3, 'title': 'Tourism Vietnam Recap Outlook', 'source': 'https://kelmer.com/wp-content/uploads/2024/04/Turismo-Vietnam-Recap-e-Outlook-.pdf', 'date': '2025-06-01'}
In 2023, Vietnam's tourist sector is experiencing
both successes and setbacks.
Vietnam   achieved  its goal of surpassing  the number   of   tourist
arrivals. The nation had originally targeted 8 million  international
visitors by 2023; but, in October, that figure was incre

In [33]:
# ========== INGESTION PIPELINE ==========
sentence_splitter = SentenceSplitter(chunk_size=1024, chunk_overlap=20)

# qa_extractor = QuestionsAnsweredExtractor(questions=3, llm=llm)

pipeline = IngestionPipeline(
    transformations=[sentence_splitter]
)

nodes = pipeline.run(
    documents=docs,
    in_place=True,
    show_progress=True,
)

Parsing nodes: 100%|██████████| 10/10 [00:00<00:00, 169.58it/s]


In [34]:
# ========== LƯU VÀO WEAVIATE ==========
vector_store = WeaviateVectorStore(
    weaviate_client=client,
    index_name="VietnamTourism",
    text_key="content"
)

storage_context = StorageContext.from_defaults(vector_store=vector_store)

index = VectorStoreIndex(
    nodes,
    storage_context=storage_context,
    embed_model=Settings.embed_model,
)



### 4. File

In [35]:
import os
import re

data_dir = "../data"
if not os.path.exists(data_dir):
    raise ValueError(f"Directory {data_dir} does not exist. Please create it and add your files.")

# Load documents
reader = SimpleDirectoryReader(data_dir, recursive=True)
documents = reader.load_data()

# Add 'title' and 'page_label'
for idx, doc in enumerate(documents):
    file_path = doc.metadata.get("file_path", "")
    
    # Set title
    if file_path:
        title = os.path.basename(file_path)
    else:
        title = "Cẩm nang du lịch Việt Nam, khám phá vẻ đẹp văn hóa và thiên nhiên, danh lam thắng cảnh"
    doc.metadata["title"] = title

    # Extract number from filename as page_label if possible
    match = re.search(r'\d+', title)
    if match:
        page_label = float(match.group())
    else:
        page_label = float(idx)  # fallback to index

    doc.metadata["page_label"] = page_label

In [36]:
documents[0]

Document(id_='1a0793a4-2190-493d-be7f-2ca26fc02f6f', embedding=None, metadata={'page_label': 0.0, 'file_name': 'Cẩm nang du lịch việt nam tổng quan.pdf', 'file_path': 'c:\\Users\\mt200\\OneDrive\\Desktop\\AI_egineering\\software\\DoAn\\fastapi-prisma\\ai_service\\notebook\\..\\data\\Cẩm nang du lịch việt nam tổng quan.pdf', 'file_type': 'application/pdf', 'file_size': 53900367, 'creation_date': '2025-05-24', 'last_modified_date': '2025-05-24', 'title': 'Cẩm nang du lịch việt nam tổng quan.pdf'}, excluded_embed_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], excluded_llm_metadata_keys=['file_name', 'file_type', 'file_size', 'creation_date', 'last_modified_date', 'last_accessed_date'], relationships={}, metadata_template='{key}: {value}', metadata_separator='\n', text_resource=MediaResource(embeddings=None, data=None, text='VIET NAM\nVIET NAM\nVIET NAM\nVIET NAM\nVIET NAM\nCẨM NANG DU L ỊCH\nNHÀ XUẤT BẢN THỜI ĐẠI\nVIET N

In [37]:
# ========== INGESTION PIPELINE ==========
sentence_splitter = SentenceSplitter(chunk_size=1024, chunk_overlap=20)

# qa_extractor = QuestionsAnsweredExtractor(questions=3, llm=llm)

pipeline = IngestionPipeline(
    transformations=[sentence_splitter]
)

nodes = pipeline.run(
    documents=documents,
    in_place=True,
    show_progress=True,
)

Parsing nodes:   0%|          | 0/931 [00:00<?, ?it/s]

Parsing nodes: 100%|██████████| 931/931 [00:02<00:00, 404.20it/s]


In [38]:
# ========== LƯU VÀO WEAVIATE ==========
vector_store = WeaviateVectorStore(
    weaviate_client=client,
    index_name="VietnamTourism",
    text_key="content"
)

storage_context = StorageContext.from_defaults(vector_store=vector_store)

index = VectorStoreIndex(
    nodes,
    storage_context=storage_context,
    embed_model=Settings.embed_model,
)

## 4. Metadata Filtering

In [39]:
from llama_index.core import Document

doc = Document.example()
print(doc.metadata)
print("-----")
print(doc.text[:100])

{'filename': 'README.md', 'category': 'codebase'}
-----

Context
LLMs are a phenomenal piece of technology for knowledge generation and reasoning.
They are 


In [40]:
vector_store = WeaviateVectorStore(
    weaviate_client=client, index_name="VietnamTourism"
)

loaded_index = VectorStoreIndex.from_vector_store(vector_store)

In [41]:
assert loaded_index is not None

In [42]:
from llama_index.vector_stores.weaviate import WeaviateVectorStore
from llama_index.core import VectorStoreIndex, StorageContext

# construct vector store
vector_store = WeaviateVectorStore(weaviate_client = client, index_name="VietnamTourism", text_key="content")

# setting up the storage for the embeddings
storage_context = StorageContext.from_defaults(vector_store = vector_store)

# set up the index
index = VectorStoreIndex.from_vector_store(
	vector_store=vector_store,
	storage_context=storage_context,
	embed_model=Settings.embed_model
)

In [46]:
query_engine = index.as_query_engine(similarity_top_k=5, similarity_threshold=0.7)
response = query_engine.query("ở vung tàu nên đi đâu")

WeaviateClosedClientError: The `WeaviateClient` is closed. Run `client.connect()` to (re)connect!

In [44]:
response

Response(response='Điểm đến phù hợp ở Hà Nội có thể là Hồ Tràm, Hồ Cốc, hoặc Khu bảo tồn thiên nhiên Bình Châu - Phước Bửu.', source_nodes=[NodeWithScore(node=TextNode(id_='c812f374-f8b0-4313-abee-8f4fcede18eb', embedding=[-0.005228488240391016, -0.016988571733236313, -0.05061568319797516, -0.028563739731907845, 0.013967549428343773, -0.028541967272758484, 0.007962916977703571, 0.07195224612951279, 0.05836906656622887, 0.04268203675746918, -0.02931564673781395, -0.01825745776295662, 0.07312691956758499, -0.024624399840831757, 0.10625717788934708, -0.06193261593580246, -0.04603133723139763, 0.007888088934123516, -0.02680904045701027, -0.04099119082093239, -0.03129073977470398, 0.0030689684208482504, -0.013565043918788433, 0.048035427927970886, 0.004720099736005068, -0.0028067182283848524, -0.09217063337564468, 0.0434945672750473, 0.0021682956721633673, -0.0037507666274905205, -0.029830925166606903, 0.08435388654470444, -0.021516738459467888, 0.07336198538541794, 0.06209489703178406, 0.0

In [39]:
# from llama_index.core.vector_stores import ExactMatchFilter, MetadataFilters

# filters = MetadataFilters(
#     filters=[ExactMatchFilter(key="filename", value="README.md")]
# )
# query_engine = loaded_index.as_query_engine(filters=filters)
# response = query_engine.query("What is the name of the file?")
# display(Markdown(f"<b>{response}</b>"))

In [None]:

# vector_store.delete_index()

## 5. Close Weaviate

In [45]:
client.close()