In [1]:

# thêm thư viện
import requests, xml.etree.ElementTree as ET, json

# Sơ đồ trang web XML này được tạo bởi Plugin Rank Math WordPress SEO. Đó là những gì công cụ tìm kiếm như Google
# sử dụng để thu thập dữ liệu và thu thập dữ liệu lại các bài viết/trang/sản phẩm/hình ảnh/lưu trữ trên trang web của bạn.
sitemap_urls = [
    'https://hoatuoimymy.com/product-sitemap0.xml',
    'https://hoatuoimymy.com/product-sitemap1.xml',
    'https://hoatuoimymy.com/product-sitemap2.xml',
    'https://hoatuoimymy.com/product-sitemap3.xml'
]

all_urls = []
for url in sitemap_urls:
    try:
        r = requests.get(url)
        r.raise_for_status()
        root = ET.fromstring(r.content)
        all_urls += [loc.text for loc in root.iter('{http://www.sitemaps.org/schemas/sitemap/0.9}loc')]
    except Exception as e:
        print(f"Lỗi với {url}: {e}")
# lưu các đường dẫn trong xml vào file all_urls.json
with open('all_urls.json', 'w') as f:
    json.dump(all_urls, f, indent=4)

print(f"Extracted  {len(all_urls)} URLs and saved to all_urls.json")


Extracted  802 URLs and saved to all_urls.json


Danh sách các trang web

In [2]:
# import thư viện
import requests
from bs4 import BeautifulSoup
import json
import pandas as pd
from tqdm.notebook import tqdm

# mở file all_urls.json đã lưu các đường dẫn sản phẩm
with open('all_urls.json', 'r', encoding='utf-8') as f:
    urls = json.load(f)

data = []

for url in tqdm(urls):
    try:
        resp = requests.get(url, timeout=10)
        soup = BeautifulSoup(resp.content, 'html.parser')

        # Lấy title, price như cũ
        title = soup.select_one('h1.product_title')
        price = soup.select_one('.price span.amount')

        # Lấy mô tả sản phẩm (description) - lấy cả nhiều nguồn
        desc = None
        # 1. WooCommerce short description
        desc_tag = soup.select_one('.woocommerce-product-details__short-description')
        if desc_tag:
            desc = desc_tag.get_text(separator=' ', strip=True)
        # 2. Thử lấy từ .product-short-description
        if not desc:
            desc_tag2 = soup.select_one('.product-short-description')
            if desc_tag2:
                desc = desc_tag2.get_text(separator=' ', strip=True)
        # 3. Thử lấy từ meta description
        if not desc:
            meta_desc = soup.find('meta', attrs={'name': 'description'})
            if meta_desc and meta_desc.has_attr('content'):
                desc = meta_desc['content']

        # Lấy thông tin khuyến mãi (nếu có)
        khuyen_mai = None
        km_tag = soup.select_one('div.khuyen-mai')
        if km_tag:
            # Lấy text của các <li> trong khuyến mãi
            km_items = km_tag.find_all('li')
            if km_items:
                khuyen_mai = "; ".join([li.get_text(separator=' ', strip=True) for li in km_items])
            else:
                khuyen_mai = km_tag.get_text(separator=' ', strip=True)

        # Không gộp khuyến mãi vào description nữa, để riêng
        full_desc = desc if desc else None

        # Lấy ảnh: thử nhiều selector
        image = None
        # 1. Ảnh trong gallery
        img_tag = soup.select_one('.woocommerce-product-gallery__image img')
        if img_tag and img_tag.has_attr('src'):
            image = img_tag['src']
        # 2. Ảnh đại diện sản phẩm
        if not image:
            img_tag = soup.select_one('img.wp-post-image')
            if img_tag and img_tag.has_attr('src'):
                image = img_tag['src']
        # 3. Ảnh trong meta property
        if not image:
            meta_img = soup.find('meta', property='og:image')
            if meta_img and meta_img.has_attr('content'):
                image = meta_img['content']

        data.append({
            'url': url,
            'title': title.get_text(strip=True) if title else None,
            'price': price.get_text(strip=True) if price else None,
            'description': full_desc,
            'khuyen_mai': khuyen_mai,
            'image': image
        })
    except Exception as e:
        print(f"Lỗi với {url}: {e}")

df = pd.DataFrame(data)
# cào dữ liệu xong lưu lại file products.csv
df.to_csv('products.csv', index=False, encoding='utf-8-sig')
print("Đã lưu dữ liệu ra products.csv")

  0%|          | 0/802 [00:00<?, ?it/s]

Đã lưu dữ liệu ra products.csv


In [5]:
# read_CSV
df = pd.read_csv('products.csv')
# Display the first few rows of the DataFrame
df

Unnamed: 0,url,title,price,description,khuyen_mai,image
0,https://hoatuoimymy.com/cua-hang/,,1.800.000₫,Sản phẩm Archive - Shop Hoa Tươi My My,,/wp-content/uploads/2023/12/banner-1_0.jpg
1,https://hoatuoimymy.com/hoa-chia-buon-m55/,Hoa Chia Buồn M55,1.400.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
2,https://hoatuoimymy.com/hoa-chia-buon-m18/,Hoa Chia Buồn M18,1.550.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
3,https://hoatuoimymy.com/hoa-chia-buon-m20/,Hoa Chia Buồn M20,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
4,https://hoatuoimymy.com/hoa-dam-tang-m503/,Hoa Đám Tang M503,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
...,...,...,...,...,...,...
797,https://hoatuoimymy.com/bo-hoa-m68/,Bó Hoa M68,750.000₫,"Flower Mẫu hoa sang trọng, tinh tế. Freeship n...",Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
798,https://hoatuoimymy.com/bo-hoa-m67/,Bó Hoa M67,950.000₫,"Flower Mẫu hoa sang trọng, tinh tế. Freeship n...",Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
799,https://hoatuoimymy.com/bo-hoa-m66/,Bó Hoa M66,550.000₫,"Flower Mẫu hoa sang trọng, tinh tế. Freeship n...",Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
800,https://hoatuoimymy.com/lang-hoa-sinh-nhat-m65/,Lẵng Hoa Sinh Nhật M65,750.000₫,"Flower Mẫu hoa sang trọng, tinh tế. Freeship n...",Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...


In [6]:
df.head() # lấy ra 5 dòng đầu

Unnamed: 0,url,title,price,description,khuyen_mai,image
0,https://hoatuoimymy.com/cua-hang/,,1.800.000₫,Sản phẩm Archive - Shop Hoa Tươi My My,,/wp-content/uploads/2023/12/banner-1_0.jpg
1,https://hoatuoimymy.com/hoa-chia-buon-m55/,Hoa Chia Buồn M55,1.400.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
2,https://hoatuoimymy.com/hoa-chia-buon-m18/,Hoa Chia Buồn M18,1.550.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
3,https://hoatuoimymy.com/hoa-chia-buon-m20/,Hoa Chia Buồn M20,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
4,https://hoatuoimymy.com/hoa-dam-tang-m503/,Hoa Đám Tang M503,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...


In [9]:
# from dotenv import load_dotenv
# load_dotenv()
#cài đặt thư viện
!pip install qdrant-client
import os
import sys
import google.generativeai as genai
from qdrant_client import QdrantClient # qdrant vector nơi cơ sở dữ liệu
from qdrant_client.models import VectorParams, Distance


Collecting qdrant-client
  Downloading qdrant_client-1.16.1-py3-none-any.whl.metadata (11 kB)
Collecting portalocker<4.0,>=2.7.0 (from qdrant-client)
  Downloading portalocker-3.2.0-py3-none-any.whl.metadata (8.7 kB)
Downloading qdrant_client-1.16.1-py3-none-any.whl (378 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m378.5/378.5 kB[0m [31m11.7 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading portalocker-3.2.0-py3-none-any.whl (22 kB)
Installing collected packages: portalocker, qdrant-client
Successfully installed portalocker-3.2.0 qdrant-client-1.16.1


In [10]:
url = "https://4ef7f8a3-ee49-4cb5-b53b-41c05f890f41.europe-west3-0.gcp.cloud.qdrant.io:6333" # đường dẫn lưu cơ sở dữ liệu
key = "eyJhbGciOiJIUzI1NiIsInR5cCI6IkpXVCJ9.eyJhY2Nlc3MiOiJtIn0.Z1ATwOQWPvWrvZReWK7h8c0QjvBu8_NHclta7qOFgLQ" # key API kết nối với qdrant

client = QdrantClient(
        url=url,
        api_key=key
    )

In [11]:
client.get_collections()

CollectionsResponse(collections=[])

In [12]:
# create collection
collection_name = "RAG_HVNH"
#nếu chưa tồn tại cơ sở dữ liệu
if not client.collection_exists(collection_name):
    client.create_collection(
            collection_name=collection_name,
            vectors_config=VectorParams(size=768, distance=Distance.COSINE, on_disk=True),
            shard_number=2,
            timeout=180
        )
    #thông báo đã tạo thành công
    print(f"Collection '{collection_name}' created.")
else:
    # thông báo đã tồn tại
    print(f"Collection '{collection_name}' already exists.")

Collection 'RAG_HVNH' created.


In [13]:
model = genai.GenerativeModel('gemini-2.0-flash') # model từ Gemini


In [14]:
# Embeddings là các vector số học biểu diễn ngữ nghĩa của từ ngữ, giúp AI hiểu và xử lý ngôn ngữ tự nhiên một cách hiệu quả hơn.
from sentence_transformers import SentenceTransformer
embedding_model = SentenceTransformer("Alibaba-NLP/gte-multilingual-base",
                                      trust_remote_code=True)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

README.md: 0.00B [00:00, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/55.0 [00:00<?, ?B/s]

config.json: 0.00B [00:00, ?B/s]

configuration.py: 0.00B [00:00, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/Alibaba-NLP/new-impl:
- configuration.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


modeling.py: 0.00B [00:00, ?B/s]

A new version of the following files was downloaded from https://huggingface.co/Alibaba-NLP/new-impl:
- modeling.py
. Make sure to double-check they do not contain any added malicious code. To avoid downloading new versions of the code file, you can pin a revision.


model.safetensors:   0%|          | 0.00/611M [00:00<?, ?B/s]

Some weights of the model checkpoint at Alibaba-NLP/gte-multilingual-base were not used when initializing NewModel: ['classifier.bias', 'classifier.weight']
- This IS expected if you are initializing NewModel from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing NewModel from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


tokenizer_config.json: 0.00B [00:00, ?B/s]

tokenizer.json:   0%|          | 0.00/17.1M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/964 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

In [15]:
def get_vector(text):
    """
    Generate an embedding for the given text using the preloaded model.

    Args:
        text (str): The input text to encode.

    Returns:
        list: The embedding as a list of floats, or an empty list if input is empty.
    """
    if not text.strip():
        print("Attempted to get embedding for empty text.")
        return []

    embedding = embedding_model.encode(text)
    return embedding.tolist()

In [16]:
len(get_vector("Hello world")) # Test embedding function

768

In [17]:
df.head()

Unnamed: 0,url,title,price,description,khuyen_mai,image
0,https://hoatuoimymy.com/cua-hang/,,1.800.000₫,Sản phẩm Archive - Shop Hoa Tươi My My,,/wp-content/uploads/2023/12/banner-1_0.jpg
1,https://hoatuoimymy.com/hoa-chia-buon-m55/,Hoa Chia Buồn M55,1.400.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
2,https://hoatuoimymy.com/hoa-chia-buon-m18/,Hoa Chia Buồn M18,1.550.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
3,https://hoatuoimymy.com/hoa-chia-buon-m20/,Hoa Chia Buồn M20,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...
4,https://hoatuoimymy.com/hoa-dam-tang-m503/,Hoa Đám Tang M503,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...


In [18]:
# tạo thêm cột nội dung để gộp 4 trường lại
df['content'] = df['title'] +  ' giá ' + df['price'] + ' mô tả sản phẩm: ' + df['description'] + ' khuyêt mãi: ' + df['khuyen_mai'] + ' xem ảnh tại ' + df['image'].fillna('')
df.head()

Unnamed: 0,url,title,price,description,khuyen_mai,image,content
0,https://hoatuoimymy.com/cua-hang/,,1.800.000₫,Sản phẩm Archive - Shop Hoa Tươi My My,,/wp-content/uploads/2023/12/banner-1_0.jpg,
1,https://hoatuoimymy.com/hoa-chia-buon-m55/,Hoa Chia Buồn M55,1.400.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Chia Buồn M55 giá 1.400.000₫ mô tả sản phẩ...
2,https://hoatuoimymy.com/hoa-chia-buon-m18/,Hoa Chia Buồn M18,1.550.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Chia Buồn M18 giá 1.550.000₫ mô tả sản phẩ...
3,https://hoatuoimymy.com/hoa-chia-buon-m20/,Hoa Chia Buồn M20,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Chia Buồn M20 giá 1.300.000₫ mô tả sản phẩ...
4,https://hoatuoimymy.com/hoa-dam-tang-m503/,Hoa Đám Tang M503,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Đám Tang M503 giá 1.300.000₫ mô tả sản phẩ...


In [19]:
# tạo ra cột vector
df['vector'] = df['content'].astype(str).apply(lambda x: get_vector(x) if isinstance(x, str) else [])
df.head()

Unnamed: 0,url,title,price,description,khuyen_mai,image,content,vector
0,https://hoatuoimymy.com/cua-hang/,,1.800.000₫,Sản phẩm Archive - Shop Hoa Tươi My My,,/wp-content/uploads/2023/12/banner-1_0.jpg,,"[-0.061450496315956116, 0.04386734589934349, 0..."
1,https://hoatuoimymy.com/hoa-chia-buon-m55/,Hoa Chia Buồn M55,1.400.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Chia Buồn M55 giá 1.400.000₫ mô tả sản phẩ...,"[-0.044713906943798065, 0.03678002953529358, -..."
2,https://hoatuoimymy.com/hoa-chia-buon-m18/,Hoa Chia Buồn M18,1.550.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Chia Buồn M18 giá 1.550.000₫ mô tả sản phẩ...,"[-0.0500791072845459, 0.02567664533853531, -0...."
3,https://hoatuoimymy.com/hoa-chia-buon-m20/,Hoa Chia Buồn M20,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Chia Buồn M20 giá 1.300.000₫ mô tả sản phẩ...,"[-0.041653405874967575, 0.005678398534655571, ..."
4,https://hoatuoimymy.com/hoa-dam-tang-m503/,Hoa Đám Tang M503,1.300.000₫,Freeship nội thành. Tư vấn nhiệt tình. Nhận th...,Miễn phí giao hàng tại khu vực nội thành với h...,https://hoatuoimymy.com/wp-content/uploads/202...,Hoa Đám Tang M503 giá 1.300.000₫ mô tả sản phẩ...,"[-0.030913928523659706, 0.049509309232234955, ..."


In [20]:
#thêm thư viện
import qdrant_client
from qdrant_client.http import models as qdrant_models
import uuid

# tên của cơ sở dữ liệu
collection_name = "RAG_HVNH"

# To avoid WriteTimeout, split the upsert into smaller batches
import math

BATCH_SIZE = 50  # You can adjust this value as needed

def url_to_uuid(url):
    """
    Convert a URL string to a UUID using uuid5 and a fixed namespace.
    This ensures the same URL always maps to the same UUID.
    """
    return str(uuid.uuid5(uuid.NAMESPACE_URL, str(url)))
# chia các point để có thể dễ tìm kiếm hơn
points = []
for idx, row in df.iterrows():
    vector = row.get("vector")
    payload = {
        "url": row.get("url"),
        "title": row.get("title"),
        "price": row.get("price"),
        "description": row.get("description"),
        "khuyen_mai": row.get("khuyen_mai"),
        "image": row.get("image"),
        "id": int(row.get("id")) if not pd.isna(row.get("id")) else None
    }
    # Qdrant requires point id to be an unsigned integer or a UUID.
    # We'll use a UUID generated from the URL for uniqueness and compliance.
    url_val = row.get("url")
    point_id = url_to_uuid(url_val) if url_val else str(uuid.uuid4())
    points.append(
        qdrant_models.PointStruct(
            id=point_id,
            vector=vector,
            payload=payload
        )
    )

# Upsert in batches to avoid timeouts
total_points = len(points)
num_batches = math.ceil(total_points / BATCH_SIZE)

for i in range(num_batches):
    batch_points = points[i*BATCH_SIZE : (i+1)*BATCH_SIZE]
    try:
        client.upsert(
            collection_name=collection_name,
            points=batch_points,
        )
        print(f"Upserted batch {i+1}/{num_batches} ({len(batch_points)} points) to Qdrant collection '{collection_name}'.")
    except Exception as e:
        print(f"Error upserting batch {i+1}: {e}")

print(f"Finished upserting {total_points} points to Qdrant collection '{collection_name}'.")


Upserted batch 1/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 2/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 3/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 4/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 5/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 6/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 7/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 8/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 9/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 10/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 11/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 12/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 13/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 14/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 15/17 (50 points) to Qdrant collection 'RAG_HVNH'.
Upserted batch 16/1