In [None]:
import asyncio
import json
from crawl4ai import AsyncWebCrawler, CrawlerRunConfig, CacheMode
from crawl4ai import JsonCssExtractionStrategy

config = CrawlerRunConfig(
    # e.g., first 30 items from Hacker News
    css_selector="#sub-question-2"  
)
async with AsyncWebCrawler() as crawler:
    result = await crawler.arun(
        url="https://loigiaihay.com/de-thi-vao-lop-6-mon-toan-truong-cau-giay-nam-2023-a142098.html", 
        config=config
    )
    

In [3]:
from IPython.display import Markdown, display, HTML
import pprint

def printmd(content):
    display(Markdown(content))
    
def printhtml(content):
    display(HTML(content))

In [6]:
printmd(result.markdown.raw_markdown[:100])

**Đáp án**
**HƯỚNG DẪN GIẢI CHI TIẾT**
**Phần 1: Trắc nghiệm**
**Câu 1.** Tìm x125<¯x,2<134
A. 5 
B.

###================================

In [9]:
import os
import asyncio
import json
from pydantic import BaseModel, Field
from typing import List, Optional
from crawl4ai import AsyncWebCrawler, BrowserConfig, CrawlerRunConfig, CacheMode, LLMConfig
from crawl4ai import LLMExtractionStrategy

In [10]:

class Exam(BaseModel):
    question: str = Field(..., description="Câu hỏi chính của bài thi, thường bắt đầu bằng 'Câu ...'. Câu hỏi có thể chứa các công thức latex")
    image_url: Optional[str] = Field(None, description="URL hình ảnh minh họa, trong trường hợp câu hỏi cần hình vẽ để mô tả")
    solution: str = Field(..., description="Hướng dẫn giải, trong hướng dẫn có thể có các công thức latex")
    result: Optional[str] = Field(None, description="Đáp án của những câu hỏi trắc nghiệm")

llm_strategy = LLMExtractionStrategy(
    llm_config = LLMConfig(provider="openai/gpt-4o-mini", api_token=os.getenv("OPENAI_API_KEY")),
    schema=Exam.model_json_schema(), # Or use model_json_schema()
    extraction_type="schema",
    instruction="""
    Bạn là một chuyên gia trích xuất dữ liệu web. Nhiệm vụ của bạn là đọc nội dung của một đề thi được cung cấp và trích xuất TOÀN BỘ các câu hỏi có trong đó.
    - Hãy trích xuất tất cả các câu hỏi, bắt đầu từ 'Câu 1' cho đến câu cuối cùng.
    - Với mỗi câu hỏi, lấy đầy đủ nội dung câu hỏi, hình ảnh minh họa (nếu có), lời giải chi tiết và đáp án cuối cùng.
    - Các công thức toán học trong câu hỏi và lời giải PHẢI được định dạng bằng LaTeX.
    - Bỏ qua tất cả các nội dung không phải là câu hỏi như: lời giới thiệu đầu trang, các bình luận, quảng cáo, hoặc các link liên quan ở cuối trang.
    - Định dạng kết quả đầu ra theo đúng cấu trúc JSON schema đã được cung cấp.
    """,
    chunk_token_threshold=1000,
    overlap_rate=0.0,
    apply_chunking=True,
    input_format="fit_markdown",   # or "html", "fit_markdown"
    )

crawl_config = CrawlerRunConfig(
    extraction_strategy=llm_strategy,
    cache_mode=CacheMode.BYPASS,
    css_selector="#sub-question-2"  
)

# 3. Create a browser config if needed
browser_cfg = BrowserConfig(headless=True)

In [11]:
result = await crawler.arun(
    url='https://loigiaihay.com/de-thi-vao-lop-6-mon-toan-truong-cau-giay-nam-2023-a142098.html',
    config=crawl_config,
)