# Refactor Job 3: Crawl website tin tức theo mô hình services

Chuyển từng bước xử lý thành các hàm riêng biệt (service) để dễ mở rộng, kiểm thử và tái sử dụng.

In [2]:
def fetch_html(url):
    import requests
    r = requests.get(url)
    return r.text

def extract_news(html, selector):
    from bs4 import BeautifulSoup
    soup = BeautifulSoup(html, 'html.parser')
    results = []
    for item in soup.select(selector):
        title = item.text
        link = item['href']
        results.append({'title': title, 'link': link})
    return results

def write_csv(data, filename):
    import csv
    with open(filename, 'w', newline='') as f:
        writer = csv.DictWriter(f, fieldnames=['title', 'link'])
        writer.writeheader()
        writer.writerows(data)

def read_csv(filename):
    import pandas as pd
    df = pd.read_csv(filename)
    return df

In [3]:
url = 'https://example.com/news'
selector = 'h2.title a'
html = fetch_html(url)
data = extract_news(html, selector)
write_csv(data, 'news.csv')
df = read_csv('news.csv')
display(df)

ModuleNotFoundError: No module named 'bs4'

# Job 3: Crawl website tin tức → Lưu vào file CSV

Quy trình sử dụng Jupyter Notebook để crawl dữ liệu từ website tin tức, trích xuất tiêu đề và link, ghi ra file CSV.

## 1. Cài đặt và kiểm tra các thư viện cần thiết

Cài đặt các thư viện Python cần thiết cho job này:

```bash
!pip install requests beautifulsoup4
```

Kiểm tra import và phiên bản các thư viện.

In [7]:
import requests
import bs4
print('requests:', requests.__version__)
print('bs4:', bs4.__version__)


requests: 2.22.0
bs4: 4.13.4


## 2. Định nghĩa URL và cấu trúc HTML cần crawl

Xác định URL trang tin tức và selector HTML để trích xuất tiêu đề, link.

In [22]:
url = 'https://google.com/search?q=example'
selector = 'a'  # Thay đổi selector cho phù hợp với trang thực tế
print('URL:', url)
print('Selector:', selector)

URL: https://google.com/search?q=example
Selector: a


## 3. Gửi request, lấy HTML

Sử dụng requests để lấy nội dung HTML của trang tin tức.

In [23]:
import requests
r = requests.get(url)
html = r.text
print(html[:500])  # Hiển thị 500 ký tự đầu tiên của HTML

<!DOCTYPE html><html lang="vi"><head><title>Google Search</title><style>body{background-color:#fff}</style></head><body><noscript><style>table,div,span,p{display:none}</style><meta content="0;url=/httpservice/retry/enablejs?sei=-i12aJX2LqXh2roPsN-fsAw" http-equiv="refresh"><div style="display:block">Xin vui lòng nh&#7845;n <a href="/httpservice/retry/enablejs?sei=-i12aJX2LqXh2roPsN-fsAw">vào &#273;ây</a> n&#7871;u b&#7841;n không &#273;&#432;&#7907;c chuy&#7875;n &#273;i trong vòng vài giây.</di


## 4. Trích xuất tiêu đề, link bằng BeautifulSoup

Dùng BeautifulSoup để lấy thông tin tiêu đề và link bài viết từ HTML.

In [24]:
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
results = []
for item in soup.select(selector):
    title = item.text
    link = item['href']
    results.append({'title': title, 'link': link})
print('Kết quả crawl:', results)

Kết quả crawl: [{'title': 'vào đây', 'link': '/httpservice/retry/enablejs?sei=-i12aJX2LqXh2roPsN-fsAw'}, {'title': 'click here', 'link': '/search?q=example&sca_esv=0f3f3d91d2ee70a0&ie=UTF-8&emsg=SG_REL&sei=-i12aJX2LqXh2roPsN-fsAw'}, {'title': 'feedback', 'link': 'https://support.google.com/websearch'}]


## 5. Ghi kết quả vào file CSV

Sử dụng csv để ghi kết quả vào file 'news.csv'.

In [25]:
import csv
with open('news.csv', 'w', newline='') as f:
    writer = csv.DictWriter(f, fieldnames=['title', 'link'])
    writer.writeheader()
    writer.writerows(results)
print('Đã ghi kết quả vào news.csv')

Đã ghi kết quả vào news.csv


## 6. Kiểm tra kết quả ghi ra file

Đọc lại file CSV vừa ghi để kiểm tra dữ liệu đã được lưu đúng.

In [27]:
import pandas as pd
df = pd.read_csv('news.csv')
display(df)

Unnamed: 0,title,link
0,vào đây,/httpservice/retry/enablejs?sei=-i12aJX2LqXh2r...
1,click here,/search?q=example&sca_esv=0f3f3d91d2ee70a0&ie=...
2,feedback,https://support.google.com/websearch
