# URL Seeding

URL Seeding trong `Crawl4ai` là một tính năng cho phép bạn **khám phá và lọc các URL** của một tên miền trước khi thực hiện quá trình thu thập dữ liệu (crawling). Thay vì bắt đầu từ một URL gốc và khám phá các liên kết một cách tuần tự (như trong Deep Crawling), URL Seeding giúp bạn có được một danh sách lớn các URL hiện có một cách nhanh chóng.

Hãy tưởng tượng việc thu thập dữ liệu giống như đọc sách trong thư viện:

* **Deep Crawling (Thu thập sâu)**: Bạn vào thư viện, chọn một cuốn sách, đọc nó, và sau đó tìm các cuốn sách khác được trích dẫn trong đó để đọc tiếp. Quá trình này diễn ra tuần tự và có thể tốn thời gian.
* **URL Seeding (Gieo mầm URL)**: Bạn xem qua danh mục của toàn bộ thư viện trước, lọc ra những cuốn sách có tiêu đề hoặc mô tả phù hợp với chủ đề bạn quan tâm, và chỉ đọc những cuốn sách đó. Cách này nhanh hơn và nhắm đúng mục tiêu hơn.

---

### Cách hoạt động của URL Seeding

URL Seeding sử dụng các nguồn dữ liệu lớn để tìm kiếm các URL liên quan đến một tên miền. Các nguồn chính bao gồm:

* **Common Crawl**: Một kho lưu trữ dữ liệu web khổng lồ chứa thông tin từ hàng tỷ trang web.
* **Sitemap**: Các tệp sitemap của chính trang web đó, cung cấp một danh sách có cấu trúc các URL của trang.

Bạn có thể kết hợp cả hai nguồn này (`cc+sitemap`) để có được danh sách URL đầy đủ nhất.

---

### Lợi ích chính của URL Seeding

* **Tốc độ**: Khám phá hàng loạt URL gần như ngay lập tức, nhanh hơn nhiều so với việc thu thập từng trang một.
* **Hiệu quả về tài nguyên**: Giảm thiểu việc sử dụng tài nguyên vì bạn chỉ thu thập những URL đã được lọc và lựa chọn trước.
* **Kiểm soát tốt hơn**: Cho phép bạn lọc và thậm chí xếp hạng các URL dựa trên mức độ liên quan (ví dụ: sử dụng truy vấn tìm kiếm) trước khi bắt đầu quá trình thu thập tốn kém.
* **Tránh "ngõ cụt"**: Giúp bạn tránh lãng phí thời gian vào việc khám phá các nhánh không liên quan trên một trang web.

---

### Khi nào nên sử dụng URL Seeding?

URL Seeding đặc biệt hữu ích khi:

* Bạn muốn thu thập dữ liệu từ một phần cụ thể của một trang web lớn (ví dụ: chỉ các bài đăng trên blog hoặc các trang sản phẩm).
* Bạn có một truy vấn hoặc chủ đề cụ thể và muốn tìm các trang có liên quan nhất trên một tên miền.
* Bạn muốn tiết kiệm thời gian và chi phí bằng cách tránh thu thập các trang không cần thiết.

Tóm lại, **URL Seeding** biến việc thu thập dữ liệu từ một cuộc thám hiểm "mù" thành một cuộc tấn công "chính xác", giúp bạn thu thập dữ liệu một cách thông minh và hiệu quả hơn.

In [14]:
sample_url='https://loigiaihay.com/de-thi-vao-lop-6-mon-toan-c1387.html'
sample_url = "https://loigiaihay.com/de-thi-vao-lop-6-mon-toan-truong-cau-giay-nam-2023-a142098.html"

## Basic uasge

In [10]:
from crawl4ai import AsyncUrlSeeder, SeedingConfig

config = SeedingConfig(
    source="sitemap",
    extract_head=True,
    pattern="*de-thi-vao-lop-6-mon-toan*" ,
    # max_urls=100
)
# Method 2: Context manager (recommended)
async with AsyncUrlSeeder() as seeder:
    urls = await seeder.urls(sample_url, config)
    # Automatically cleaned up on exit
    

print("🔍 Discovering blog posts...")
urls = await seeder.urls(sample_url, config)
print(f"✅ Found {len(urls)} blog posts")

🔍 Discovering blog posts...
✅ Found 0 blog posts


## Common Crawl (Most Comprehensive)

Common Crawl is a massive public dataset that regularly crawls the entire web

In [11]:
config = SeedingConfig(
    source="cc",
    extract_head=True,
    pattern="*de-thi-vao-lop-6-mon-toan*" ,
    # max_urls=100
)
# Method 2: Context manager (recommended)
async with AsyncUrlSeeder() as seeder:
    urls = await seeder.urls(sample_url, config)
    # Automatically cleaned up on exit
    

print("🔍 Discovering blog posts...")
urls = await seeder.urls(sample_url, config)
print(f"✅ Found {len(urls)} blog posts")

🔍 Discovering blog posts...
✅ Found 0 blog posts


## Both Sources (Maximum Coverage)

In [16]:
config = SeedingConfig(
    source="cc+sitemap",
    extract_head=True,
    pattern="*" ,
    # max_urls=100
)
# Method 2: Context manager (recommended)
async with AsyncUrlSeeder() as seeder:
    urls = await seeder.urls(sample_url, config)
    # Automatically cleaned up on exit
    

print("🔍 Discovering blog posts...")
urls = await seeder.urls(sample_url, config)
print(f"✅ Found {len(urls)} blog posts")

🔍 Discovering blog posts...
✅ Found 14615 blog posts


In [21]:
urls[0].keys()

dict_keys(['url', 'status', 'head_data'])

In [23]:
all_links = [url['url'] for url in urls]
len(all_links)

14615

In [24]:
all_links[0]

'https://loigiaihay.com/'

In [25]:
def write_output_to_file(filepath, content):
    with open(filepath, "w") as f:
        f.write(content)

In [26]:
write_output_to_file('loigiaihay.url.txt', '\n'.join(all_links))

In [27]:
len([l for l in all_links if "de-thi-vao-lop-6-mon-toan-" in l])

0

In [29]:
config = SeedingConfig(
    source="cc+sitemap",
    extract_head=True,
    query="đề thi vào lớp 6",
    scoring_method="bm25",
    score_threshold=0.35
)

async with AsyncUrlSeeder() as seeder:
    urls = await seeder.urls(sample_url, config)
    # Automatically cleaned up on exit
    
print("🔍 Discovering blog posts...")
urls = await seeder.urls('loigiaihay.com', config)
print(f"✅ Found {len(urls)} blog posts")

🔍 Discovering blog posts...
✅ Found 0 blog posts
