In [None]:
import requests
import time
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime



In [34]:
def scrape_fpt():
    print("Bắt đầu scraping tin tức FPT từ CafeF...")
    url = "https://cafef.vn/du-lieu/tin-doanh-nghiep/fpt/event.chn"
    try:
        respond = requests.get(url, timeout=10)
        respond.raise_for_status()
        print(
            f"Đã lấy được dữ liệu từ {url},\ntrạng thái dữ liệu: {respond.status_code}")
        soup = BeautifulSoup(respond.text, "html.parser")

        articles = soup.find_all("a",class_="docnhanhTitle")
        news_list = []
        for article in articles[:7]:
            title= article.get_text()
            link = article.get("href")
            if link and not link.startswith("http"):
                link = "https://cafef.vn" + link
            parent = article.find_parent("li")
            if parent:
                date_article = parent.find("span", class_="timeTitle")
                date = date_article.text.strip() if date_article else "Không có ngày"
                article_summary = parent.find("h2", class_="sapo")
                summary = article_summary.text.strip() if article_summary else "Không có tóm tắt"

            news_list.append({
                "title": title,
                "link": link,
                "date": date,
                "article_summary": summary
            })
        return news_list
    except Exception as e:
        print(f"Lỗi: {e},\ntrạng thái dữ liệu: {respond.status_code}")


def luu_vao_data_frame(news_list):

    df = pd.DataFrame(news_list)
    
    print("lưu dữ liệu đang")
    for i,row in df.iterrows():
        print(f"\n{i+1}. tên title: {row["title"]}")
        print(f"link bài viết: {row["link"]}")
        print(f"ngày đăng: {row["date"]}")
        print(f"tóm tắt: {row["article_summary"]}")

    print("lưu dữ liệu đã hoàn tất")

    timestamp = datetime.now().strftime("%d-%m-%y %H:%M:%S")
    file_excel = f"cổ phiếu FPT_{timestamp}.xlsx"

    with pd.ExcelWriter(file_excel, engine="openpyxl") as writer:
        df.to_excel(writer, sheet_name="FPT", index=False)
    
def main():
    news_list = scrape_fpt()
    luu_vao_data_frame(news_list)

if __name__ == "__main__":
    main()






Bắt đầu scraping tin tức FPT từ CafeF...
Đã lấy được dữ liệu từ https://cafef.vn/du-lieu/tin-doanh-nghiep/fpt/event.chn,
trạng thái dữ liệu: 200
lưu dữ liệu đang

1. tên title: FPT hoàn thành tăng vốn điều lệ lên hơn 17 nghìn tỷ đồng, cổ đông nước ngoài nắm 41%
link bài viết: https://cafef.vn/fpt-hoan-thanh-tang-von-dieu-le-len-hon-17-nghin-ty-dong-co-dong-nuoc-ngoai-nam-41-188250918112232235.chn
ngày đăng: 18/09/2025 11:22
tóm tắt: Không có tóm tắt

2. tên title: Tập đoàn công nghệ hàng đầu Việt Nam vừa có bản hợp đồng giá trị lớn nhất lịch sử 37 năm hoạt động
link bài viết: https://cafef.vn/tap-doan-cong-nghe-hang-dau-viet-nam-vua-co-ban-hop-dong-gia-tri-lon-nhat-lich-su-37-nam-hoat-dong-188250916163749126.chn
ngày đăng: 16/09/2025 17:30
tóm tắt: Không có tóm tắt

3. tên title: FPT ký kết hợp tác AI mở ra cơ hội lên đến 30 triệu USD với tập đoàn hàng đầu Đông Nam Á
link bài viết: https://cafef.vn/fpt-ky-ket-hop-tac-ai-mo-ra-co-hoi-len-den-30-trieu-usd-voi-tap-doan-hang-dau-dong-nam-a