In [2]:
%pip install requests beautifulsoup4 scrapy

Collecting beautifulsoup4
  Using cached beautifulsoup4-4.12.3-py3-none-any.whl.metadata (3.8 kB)
Collecting scrapy
  Using cached Scrapy-2.11.2-py2.py3-none-any.whl.metadata (5.3 kB)
Collecting cryptography>=36.0.0 (from scrapy)
  Using cached cryptography-43.0.3-cp39-abi3-win_amd64.whl.metadata (5.4 kB)
Collecting itemloaders>=1.0.1 (from scrapy)
  Using cached itemloaders-1.3.2-py3-none-any.whl.metadata (3.9 kB)
Collecting parsel>=1.5.0 (from scrapy)
  Using cached parsel-1.9.1-py2.py3-none-any.whl.metadata (11 kB)
Collecting pyOpenSSL>=21.0.0 (from scrapy)
  Using cached pyOpenSSL-24.2.1-py3-none-any.whl.metadata (13 kB)
Collecting service-identity>=18.1.0 (from scrapy)
  Using cached service_identity-24.2.0-py3-none-any.whl.metadata (5.1 kB)
Collecting tldextract (from scrapy)
  Using cached tldextract-5.1.2-py3-none-any.whl.metadata (11 kB)
Collecting cffi>=1.12 (from cryptography>=36.0.0->scrapy)
  Using cached cffi-1.17.1-cp312-cp312-win_amd64.whl.metadata (1.6 kB)
Collecting p

In [None]:
import requests
from bs4 import BeautifulSoup

def crawl_article(url, print_res=False):
    # Fetch the page content
    response = requests.get(url)
    if response.status_code == 200:
        print("Page retrieved successfully, URL:", url)
        page_content = response.content
    else:
        print("Failed to retrieve page:", url)
        return None

    # Parse the content
    soup = BeautifulSoup(page_content, "html.parser")

    # Extract Title
    title = soup.find("h1", class_="detail__title")
    if title is not None:
        title = title.get_text(strip=True)
    else:
        print("Title not found")
        title = ""

    # Extract Content
    content_paragraphs = soup.find("div", class_="detail__content")
    if content_paragraphs is not None:
        content_paragraphs = content_paragraphs.find_all("p")
        content = "\n".join([p.get_text(strip=True) for p in content_paragraphs])
    else:
        print("Content not found")
        content_paragraphs = ""
        content = ""

    # Extract Category
    category = soup.find("h1", class_="category-main")
    if category is not None:
        category = category.get_text(strip=True)
    else:
        print("Category not found")
        category = ""

    # Extract Date
    date = soup.find("div", class_="detail__meta")
    if date is not None:
        date = date.get_text(strip=True)
    else:
        print("Date not found")
        date = ""

    res = {
        "title": title,
        "date": date,
        "category": category,
        "url": url,
        "content": content
    }
    # Display the extracted information
    if print_res:
        print(res)
    
    return res

In [23]:
def crawl_article_list(home_url, num_page=1):
    article_links = set()
    for page in range(num_page):
        # Fetch the homepage content
        url = home_url+f'?trang={page+1}'
        response = requests.get(url)
        if response.status_code == 200:
            page_content = response.content
        else:
            print("Failed to retrieve homepage:", url)
            return None

        # Parse the homepage HTML
        soup = BeautifulSoup(page_content, "html.parser")

        # Find all article links
        for article in soup.find_all('article'):
            link = article.find('a', href=True)
            if link:
                article_links.add(link['href'])

    return article_links

In [8]:
crawl_article('https://vneconomy.vn/an-do-do-bo-lenh-cam-xuat-khau-gao-va-nhung-tac-dong.htm', True)

{'title': 'Ấn Độ dỡ bỏ lệnh cấm xuất khẩu gạo và những tác động', 'date': '15:21 27/10/2024', 'category': 'Thị trường', 'url': 'https://vneconomy.vn/an-do-do-bo-lenh-cam-xuat-khau-gao-va-nhung-tac-dong.htm', 'content': 'Theo số liệu của Bộ Nông nghiệp và Phát triển nông thôn, xuất khẩu gạo của Việt Nam 9 tháng năm 2024 đạt 7 triệu tấn, với trị giá 4,37 tỷ USD, tăng 9,2% về lượng và tăng 23,5% về trị giá so với cùng kỳ năm ngoái. Giá xuất khẩu gạo bình quân đạt 624 USD/tấn, tăng 13,1% so với cùng kỳ năm 2023.\nTrên thị trường thế giới, lệnh cấm xuất khẩu của Ấn Độ đối với gạo trắng không phải basmati - loại gạo đặc sản nổi tiếng của Ấn Độ và khu vực Nam Á - từ ngày 20/7/2023 đã có tác động sâu rộng đến giá gạo xuất khẩu toàn cầu trong hơn một năm qua, đẩy giá lên mức cao nhất trong 15 năm. Mặc dù áp dụng lệnh cấm, song theo số liệu từ Bộ Thương mại Ấn Độ, sau 9 tháng năm 2024, Ấn Độ vẫn là nước xuất khẩu gạo đứng vị trí thứ nhất trên thế giới, với gần 10,9 triệu tấn; vị trí thứ hai thuộ

{'title': 'Ấn Độ dỡ bỏ lệnh cấm xuất khẩu gạo và những tác động',
 'date': '15:21 27/10/2024',
 'category': 'Thị trường',
 'url': 'https://vneconomy.vn/an-do-do-bo-lenh-cam-xuat-khau-gao-va-nhung-tac-dong.htm',
 'content': 'Theo số liệu của Bộ Nông nghiệp và Phát triển nông thôn, xuất khẩu gạo của Việt Nam 9 tháng năm 2024 đạt 7 triệu tấn, với trị giá 4,37 tỷ USD, tăng 9,2% về lượng và tăng 23,5% về trị giá so với cùng kỳ năm ngoái. Giá xuất khẩu gạo bình quân đạt 624 USD/tấn, tăng 13,1% so với cùng kỳ năm 2023.\nTrên thị trường thế giới, lệnh cấm xuất khẩu của Ấn Độ đối với gạo trắng không phải basmati - loại gạo đặc sản nổi tiếng của Ấn Độ và khu vực Nam Á - từ ngày 20/7/2023 đã có tác động sâu rộng đến giá gạo xuất khẩu toàn cầu trong hơn một năm qua, đẩy giá lên mức cao nhất trong 15 năm. Mặc dù áp dụng lệnh cấm, song theo số liệu từ Bộ Thương mại Ấn Độ, sau 9 tháng năm 2024, Ấn Độ vẫn là nước xuất khẩu gạo đứng vị trí thứ nhất trên thế giới, với gần 10,9 triệu tấn; vị trí thứ hai 

In [24]:
crawl_article_list('https://vneconomy.vn/thi-truong.htm', num_page=5)

{'/an-do-do-bo-lenh-cam-xuat-khau-gao-va-nhung-tac-dong.htm',
 '/bao-trami-suy-yeu-thanh-ap-thap-gay-mua-lon-ngap-lut-o-trung-trung-bo.htm',
 '/cac-nuoc-asean-thong-nhat-thuc-day-phat-trien-nong-nghiep-ben-vung.htm',
 '/cac-tinh-mien-nui-kho-hoan-thanh-ke-hoach-xay-dung-nong-thon-moi.htm',
 '/can-giai-phap-tang-nang-luc-cho-doanh-nghiep-trong-nuoc.htm',
 '/chu-dong-va-khan-truong-ung-pho-bao-trami.htm',
 '/co-hoi-cho-det-may-viet-nam-tiep-can-giai-phap-cong-nghe-so-xanh.htm',
 '/dap-ung-86-tieu-chi-doanh-nghiep-det-may-moi-xuat-khau-duoc-don-hang.htm',
 '/dap-ung-yeu-cau-nang-luong-cho-phat-trien-chu-trong-uu-tien-dien-sach.htm',
 '/de-xuat-chan-quang-cao-khuyen-mai-qua-50-tren-san-thuong-mai-dien-tu.htm',
 '/dien-hat-nhan-la-can-thiet-nhung-phai-dam-bao-an-toan-tuyet-doi.htm',
 '/digital-twins-chia-khoa-giam-thieu-rui-ro-truoc-tac-dong-cua-bien-doi-khi-hau.htm',
 '/doanh-nghiep-hop-tac-xay-dung-chuoi-gia-tri-rong-bien-gia-tri-cao.htm',
 '/don-doc-tap-chi-kinh-te-viet-nam-so-44-2024.ht

In [38]:
import json, csv

def crawl_vneconomy(num_page=1, category='thi-truong',file='vneconomy',file_type='json'):
    home_url = 'https://vneconomy.vn'
    article_links = crawl_article_list(home_url+f'/{category}.htm', num_page)
    article_links.remove(f'/{category}.htm')
    articles = []
    for sub_link in article_links:
        article = crawl_article(home_url+sub_link)
        if article:
            articles.append(article)
    
    if file_type == 'json':
        with open(f'{file}.json', 'w', encoding='utf8') as f:
            json.dump(articles, f, ensure_ascii=False)
    elif file_type == 'csv':
        with open(f'{file}.csv', 'w', encoding='utf8') as f:
            writer = csv.DictWriter(f, fieldnames=articles[0].keys())
            writer.writeheader()
            writer.writerows(articles)

In [41]:
crawl_vneconomy(num_page=100, category='thi-truong', file='vneconomy', file_type='json')

Category not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
Category not found
Category not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
Title not found
Category not found
Date not found
