<a href="https://colab.research.google.com/github/trinhtin/generative-ai-learning-resources/blob/main/crawler_bert_ner.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Bước 1: Cài đặt các Thư viện Cần Thiết
Bạn cần cài đặt các thư viện như requests, BeautifulSoup để tạo crawler, và spaCy để thực hiện NER.

In [2]:
!pip install requests beautifulsoup4 spacy
!python -m spacy download en_core_web_sm

Collecting en-core-web-sm==3.7.1
  Downloading https://github.com/explosion/spacy-models/releases/download/en_core_web_sm-3.7.1/en_core_web_sm-3.7.1-py3-none-any.whl (12.8 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m12.8/12.8 MB[0m [31m41.7 MB/s[0m eta [36m0:00:00[0m
[38;5;2m✔ Download and installation successful[0m
You can now load the package via spacy.load('en_core_web_sm')
[38;5;3m⚠ Restart to reload dependencies[0m
If you are in a Jupyter or Colab notebook, you may need to restart Python in
order to load all the package's dependencies. You can do this by selecting the
'Restart kernel' or 'Restart runtime' option.


Bước 3: Xây dựng Crawler để Thu thập Dữ liệu

In [3]:
import requests
from bs4 import BeautifulSoup

def fetch_product_info(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Example: Extract product names and prices
    products = []
    for product_div in soup.find_all('div', class_='product'):
        name = product_div.find('h2', class_='product-name').text
        price = product_div.find('span', class_='price').text
        products.append((name, price))

    return products

# Example URL (replace with a real e-commerce site)
url = 'https://example.com/products'
products = fetch_product_info(url)
print(products)

[]


Bước 4: Áp dụng NER để Trích Xuất Thông Tin
Sử dụng spaCy để nhận dạng và trích xuất các thực thể từ văn bản thu thập được. Ví dụ dưới đây trích xuất các thực thể như tên sản phẩm, giá cả, thương hiệu, v.v.

In [4]:
import spacy

# Load spaCy model
nlp = spacy.load("en_core_web_sm")

def extract_entities(text):
    doc = nlp(text)
    entities = []
    for ent in doc.ents:
        entities.append((ent.text, ent.label_))
    return entities

# Example text from a product page
example_text = """
HP 17 Business Laptop, 17.3” HD+ Display, 11th Gen Intel Core i3-1125G4 Processor, 32GB RAM, 1TB SSD, Wi-Fi, HDMI, Webcam, Windows 11 Pro, Silver
"""

entities = extract_entities(example_text)
print(entities)

[('Apple iPhone 12', 'ORG'), ('Pro Max - $', 'PERSON'), ('Samsung Galaxy S21 Ultra - $1199', 'ORG')]


Bước 5: Kết Hợp Crawler và NER
Kết hợp cả hai phần trên để thu thập dữ liệu từ trang web thương mại điện tử và trích xuất các thực thể quan trọng.

In [None]:
def fetch_and_extract(url):
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')

    # Extract product information
    product_texts = []
    for product_div in soup.find_all('div', class_='product'):
        product_text = product_div.get_text(separator=' ')
        product_texts.append(product_text)

    # Apply NER
    nlp = spacy.load("en_core_web_sm")
    all_entities = []
    for text in product_texts:
        doc = nlp(text)
        entities = [(ent.text, ent.label_) for ent in doc.ents]
        all_entities.append(entities)

    return all_entities

# Example URL (replace with a real e-commerce site)
url = 'https://example.com/products'
extracted_entities = fetch_and_extract(url)
print(extracted_entities)

Lưu Ý
Đảm bảo Tuân thủ Pháp Luật: Khi thực hiện web scraping, hãy đảm bảo tuân thủ các quy định pháp luật và chính sách của trang web.
Xử Lý Dữ Liệu Lớn: Đối với các trang web lớn, bạn cần quản lý và lưu trữ dữ liệu một cách hiệu quả, có thể sử dụng cơ sở dữ liệu để lưu trữ.
Tối Ưu Hóa và Tự Động Hóa: Bạn có thể tối ưu hóa crawler để chạy tự động và thường xuyên cập nhật dữ liệu mới.
Với các bước trên, bạn có thể xây dựng một hệ thống crawler kết hợp với NER để tự động thu thập và trích xuất thông tin từ các trang web thương mại điện tử.