In [None]:
# Cài đặt các thư viện cần thiết (nếu chưa có)
!pip install requests beautifulsoup4 pandas numpy torch
!pip install -U sentence-transformers faiss-cpu selenium
!apt-get update
!apt-get install -y chromium-chromedriver

# Cấu hình cho Selenium trong Colab
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('--headless')
options.add_argument('--no-sandbox')
options.add_argument('--disable-dev-shm-usage')

In [None]:
# Import thư viện
import requests
from bs4 import BeautifulSoup
import pandas as pd
import numpy as np
import re
import time
from sentence_transformers import SentenceTransformer
import faiss
import pickle
from tqdm.notebook import tqdm
import json
from selenium.webdriver.common.by import By

# Khởi tạo driver cho Colab
driver = webdriver.Chrome(options=options)

print("Tất cả thư viện đã được import và Selenium đã được cấu hình!")

In [None]:
# Xây dựng Pipeline Tiền xử lý NLP Nâng cao

# Danh sách stopword tiếng Việt được mở rộng
VIETNAMESE_STOPWORDS = [
    'a', 'anh', 'ba', 'bà', 'bác', 'bạn', 'bé', 'bên', 'bị', 'bỏ', 'bởi', 'ca', 'các', 'cách', 'cái',
    'cần', 'càng', 'chắc', 'chẳng', 'chỉ', 'chiếc', 'cho', 'chú', 'chưa', 'chuyện', 'có', 'coi', 'cô',
    'cũng', 'cùng', 'cứ', 'của', 'dạ', 'dành', 'do', 'đã', 'đang', 'đây', 'để', 'đến', 'đều',
    'đi', 'điều', 'do', 'đó', 'được', 'em', 'gì', 'gồm', 'hay', 'hết', 'hiện', 'họ', 'hơn', 'khi',
    'không', 'là', 'làm', 'lần', 'lên', 'lúc', 'mà', 'mình', 'mỗi', 'một', 'muốn', 'này', 'nên',
    'nếu', 'ngay', 'ngoài', 'nhiều', 'như', 'nhưng', 'những', 'nơi', 'nữa', 'ông', 'qua', 'ra', 'rằng',
    'rất', 'rồi', 'sau', 'sẽ', 'so', 'sự', 'tại', 'theo', 'thì', 'trên', 'trước', 'từ', 'từng', 'và',
    'vẫn', 'vào', 'vậy', 'vì', 'việc', 'với', 'vừa', 'ạ', 'đấy', 'ấy', 'tôi', 'chúng tôi', 'chúng ta'
]

def preprocess_vietnamese_text_advanced(text: str) -> str:
    """
    Hàm tiền xử lý văn bản tiếng Việt nâng cao, tích hợp các kỹ thuật NLP thuần.
    Pipeline: Chẩn hóa -> Tách từ & Gán nhãn từ loại -> Trích xuất cụm danh từ -> Loại bỏ stopword -> Tạo N-grams.
    """
    if not isinstance(text, str) or not text:
        return ""
    
    # 1. Chuẩn hóa Unicode và chuyển về chữ thường
    text = unicodedata.normalize('NFC', text).lower()
    
    # 2. Xóa URL, email và các ký tự đặc biệt không cần thiết
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    text = re.sub(r'\S+@\S+', '', text)
    text = re.sub(r'[^\w\s]', '', text)

    # 3. Tách từ và Gán nhãn Từ loại (Part-of-Speech Tagging)
    # Đây là bước nền tảng cho việc nhận diện cụm từ.
    # Ví dụ: [('laptop', 'N'), ('gaming', 'N'), ('siêu', 'A'), ('mạnh', 'A')]
    try:
        pos_tags = pos_tag(text)
    except Exception:
        # Nếu pos_tag lỗi, dùng phương pháp cơ bản
        tokens = word_tokenize(text)
        filtered_tokens = [word for word in tokens if word not in VIETNAMESE_STOPWORDS]
        return " ".join(filtered_tokens)

    # 4. Trích xuất Cụm danh từ (Noun Phrase Chunking) và các từ quan trọng khác
    # Ta sẽ giữ lại các Danh từ (N), Tính từ (A), và Động từ (V) vì chúng mang nhiều ngữ nghĩa nhất.
    # Các cụm danh từ liền kề sẽ được ghép lại bằng dấu gạch dưới "_".
    important_tokens = []
    current_chunk = []
    for word, tag in pos_tags:
        # Giữ lại các từ loại quan trọng: Noun, Proper Noun, Adjective, Verb
        if tag.startswith('N') or tag.startswith('A') or tag.startswith('V'):
            current_chunk.append(word)
        else:
            if current_chunk:
                important_tokens.append("_".join(current_chunk))
                current_chunk = []
    if current_chunk:
        important_tokens.append("_".join(current_chunk))

    # 5. Loại bỏ Stopwords khỏi các token đã được xử lý
    final_tokens = [token for token in important_tokens if token not in VIETNAMESE_STOPWORDS]
    
    # 6. (Tùy chọn) Tạo Bigrams từ các token còn lại để bắt ngữ cảnh
    # Ví dụ: ['laptop_gaming', 'siêu_mạnh'] -> ['laptop_gaming', 'siêu_mạnh', 'laptop_gaming_siêu_mạnh']
    bigrams = ["_".join(final_tokens[i:i+2]) for i in range(len(final_tokens)-1)]
    
    # Kết hợp token đơn và bigram để làm giàu thông tin
    return " ".join(final_tokens + bigrams)

In [None]:
sample_text = "Laptop Gaming MSI Katana GF66 12UC (475VN) giá rất tốt, rất đáng để mua!!! Các bạn có nên mua không?"
cleaned_text_advanced = preprocess_vietnamese_text_advanced(sample_text)
print(f"Văn bản gốc: '{sample_text}'")
print(f"Văn bản đã xử lý (Nâng cao): '{cleaned_text_advanced}'")

In [None]:
# Xây dựng bộ crawler dữ liệu từ Tiki

def get_product_links(category_url):
    """Lấy link của các sản phẩm từ trang danh mục Tiki."""
    driver.get(category_url)
    time.sleep(5) # Chờ trang tải JavaScript
    
    # Lăn chuột xuống để tải thêm sản phẩm
    last_height = driver.execute_script("return document.body.scrollHeight")
    for _ in range(2): # Lăn 2 lần
        driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")
        time.sleep(3)
        new_height = driver.execute_script("return document.body.scrollHeight")
        if new_height == last_height:
            break
        last_height = new_height

    soup = BeautifulSoup(driver.page_source, 'html.parser')
    product_links = []
    # Tiki sử dụng thẻ 'a' với attribute 'href' cho sản phẩm
    for a in soup.find_all('a', href=True):
        href = a['href']
        if '.html' in href and 'p' in href and 'spid' not in href:
            if not href.startswith('https://tiki.vn'):
                href = 'https://tiki.vn' + href
            product_links.append(href)
    return list(set(product_links)) # Loại bỏ link trùng lặp

def scrape_product_details(product_url):
    """Crawl thông tin chi tiết của một sản phẩm."""
    try:
        driver.get(product_url)
        time.sleep(3) # Chờ tải
        soup = BeautifulSoup(driver.page_source, 'html.parser')

        # Tên sản phẩm
        name = soup.find('h1', class_='title').get_text(strip=True) if soup.find('h1', class_='title') else "N/A"

        # Giá
        price_str = soup.find('div', class_='product-price__current-price').get_text(strip=True) if soup.find('div', class_='product-price__current-price') else "0"
        price = int(re.sub(r'[^\d]', '', price_str))
        
        # Mô tả
        description_div = soup.find('div', {'data-testid': 'desc-content'})
        description = description_div.get_text(strip=True, separator='\n') if description_div else ""

        # Thông số kỹ thuật
        specs = {}
        spec_table = soup.find('table', class_='Content_table')
        if spec_table:
            rows = spec_table.find_all('tr')
            for row in rows:
                cells = row.find_all('td')
                if len(cells) == 2:
                    key = cells[0].get_text(strip=True)
                    value = cells[1].get_text(strip=True)
                    specs[key] = value

        return {
            'url': product_url,
            'name': name,
            'price': price,
            'description': description,
            'specifications': specs
        }
    except Exception as e:
        print(f"Lỗi khi crawl sản phẩm {product_url}: {e}")
        return None

# === Thực thi crawling ===
CATEGORY_URL = "https://tiki.vn/laptop/c1846"
print(f"Bắt đầu crawl link sản phẩm từ: {CATEGORY_URL}")
product_links = get_product_links(CATEGORY_URL)
print(f"Tìm thấy {len(product_links)} link sản phẩm.")

# Giới hạn số lượng để demo
product_links = product_links[:20]

all_products_data = []
print("\nBắt đầu crawl thông tin chi tiết từng sản phẩm...")
for link in tqdm(product_links):
    product_data = scrape_product_details(link)
    if product_data and product_data['name'] != "N/A":
        all_products_data.append(product_data)

driver.quit() # Đóng trình duyệt
print(f"\nHoàn thành! Crawl được {len(all_products_data)} sản phẩm.")

df_ecommerce = pd.DataFrame(all_products_data)
df_ecommerce.head()

In [None]:
# Tạo trường văn bản tổng hợp để vector hóa

def create_searchable_text(row):
    """Tạo một chuỗi văn bản duy nhất chứa các thông tin quan trọng nhất của sản phẩm."""
    name = row['name']
    
    # Chuyển đổi dict thông số kỹ thuật thành chuỗi
    specs_list = []
    if isinstance(row['specifications'], dict):
        for key, value in row['specifications'].items():
            specs_list.append(f"{key}: {value}")
    specs_text = ". ".join(specs_list)
    
    # Ghép nối các thông tin
    # Đây là bước quan trọng để tạo ngữ cảnh cho việc tìm kiếm
    # Ví dụ: "Laptop ABC, chip Intel Core i5, RAM 8GB. Đây là dòng laptop văn phòng..."
    searchable = f"Tên sản phẩm: {name}. Thông số: {specs_text}. Mô tả: {row['description'][:300]}"
    return searchable

df_ecommerce['searchable_text'] = df_ecommerce.apply(create_searchable_text, axis=1)

# Lưu KB dạng thô
df_ecommerce.to_json('ecommerce_kb.json', orient='records', lines=True, force_ascii=False)

df_ecommerce[['name', 'searchable_text']].head()

In [None]:
# Vector hóa và xây dựng chỉ mục tìm kiếm FAISS

# Sử dụng lại model đã khai báo ở phần Healthcare
# Nếu chưa có, hãy chạy lại cell tải model
print("Bắt đầu tải model Sentence Transformer (nếu chưa có)...")
model = SentenceTransformer('bkai-foundation-models/vietnamese-bi-encoder')
print("Model đã sẵn sàng.")

chunks_to_encode = df_ecommerce['searchable_text'].tolist()

print(f"Bắt đầu vector hóa {len(chunks_to_encode)} sản phẩm...")
embeddings = model.encode(chunks_to_encode, show_progress_bar=True, normalize_embeddings=True)
print("Vector hóa hoàn tất!")

# Xây dựng chỉ mục FAISS
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index = faiss.IndexIDMap(index)
ids = np.array(df_ecommerce.index).astype('int64') # Dùng index của DataFrame làm ID
index.add_with_ids(embeddings, ids)

print(f"Đã thêm {index.ntotal} vector vào chỉ mục FAISS.")

# Lưu trữ
# 1. Dữ liệu gốc đã được lưu ở file ecommerce_kb.json
# 2. Lưu chỉ mục FAISS
with open('ecommerce_faiss.index', 'wb') as f:
    faiss.write_index(index, faiss.StandardIOWriter(f))

print("Chỉ mục FAISS cho sản phẩm đã được lưu.")

In [None]:
# Cell 6: Demo tìm kiếm sản phẩm trong Knowledge Base

# Load lại KB và chỉ mục
df_kb_loaded = pd.read_json('ecommerce_kb.json', orient='records', lines=True)
with open('ecommerce_faiss.index', 'rb') as f:
    index_loaded = faiss.read_index(faiss.StandardIOWriter(f))
    
model_loaded = SentenceTransformer('bkai-foundation-models/vietnamese-bi-encoder')

def search_products(query, top_k=3):
    """Hàm tìm kiếm sản phẩm trong KB."""
    print(f"Truy vấn của bạn: '{query}'")
    
    query_embedding = model_loaded.encode([query], normalize_embeddings=True)
    distances, ids = index_loaded.search(query_embedding, top_k)
    
    results = []
    print("\n--- Các sản phẩm phù hợp nhất ---")
    for i, doc_id in enumerate(ids[0]):
        if doc_id != -1:
            product = df_kb_loaded.iloc[doc_id]
            score = 1 - distances[0][i]
            
            print(f"\nKết quả {i+1} (Score: {score:.4f})")
            print(f"   Tên: {product['name']}")
            print(f"   Giá: {product['price']:,}đ")
            print(f"   URL: {product['url']}")
            
            # In ra một vài thông số chính
            specs = product.get('specifications', {})
            if isinstance(specs, dict):
                cpu = specs.get('CPU', 'N/A')
                ram = specs.get('RAM', 'N/A')
                print(f"   CPU: {cpu}, RAM: {ram}")
            
            results.append(product.to_dict())
            
    return results

# Thử tìm kiếm
search_products("laptop mỏng nhẹ cho sinh viên")
print("\n" + "="*50 + "\n")
search_products("máy tính gaming có card đồ họa rời")