Skip to content

hyperfxtech-archived/newsfx

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

23 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

newsfx

Bản beta hổ trợ cho 3 tờ báo lớn vnexpress.net, tuoitre.vn, thanhnien.vn và sẽ có cập nhập cho các trang như dự kiến bên dưới.

Bắt đầu nhanh

Cài đặt

Chỉ support Python 3.6+

pip install newsfx

Thực hiện

from newsfx import newsfx
run = newsfx('https://vnexpress.net/thoi-su/nguoi-dan-un-un-tro-lai-sai-gon-ha-noi-sau-ky-nghi-le-3917122.html')
run.parser()
print(run.get_title) # Người dân ùn ùn trở lại Sài Gòn, Hà Nội sau kỳ nghỉ lễ

lấy hình

#lấy link của hình 
print(run.get_top_image_link) #https://link_dan_toi_file.jpg

# save hình 
run.save_top_image_link(name='ten_file_anh.jpg')

Trang tin hỗ trợ

news site title published_date summary content author top_image
VnExpress ✔️ ✔️ ✔️ ✔️ ✔️ ✔️
Tuổi Trẻ Online ✔️ ✔️ ✔️ ✔️ ✔️ ️️️️️️✔️
Thanh Niên ✔️ ✔️ ✔️ ✔️ ✔️ ✔️
Tiền Phong
Lao Động
Báo mới
Người Lao Động
Nhân Dân
Đời Sống Pháp Luật
Vietnamnet
Zing News
Dân Trí
Nhịp Sống Số
Tri Thức Trẻ
Vietnam Plus

TODO

  • Tự động nhận dạng url đầu vào
  • Định dạng kết quả trả về trong dictionary
Tên Kiểu trả về Mô tả Hỗ trợ
title string Tiêu đề bài viết ✔️
html string Code html bài viết ✔️
text string Nội dung bài viết chưa được xử lý ✔️
clean_text string Nội dung bài viết đã được xử lý ✔️
author list Tác giả bài viết ✔️
published date Ngày đăng bài viết ✔️
top_image string Hình ảnh đặc trưng của bài viết ✔️
images list Danh sách hình ảnh có trong bài viết
keywords list Từ khóa bài viết (có sẵn từ bài viết)

About

[WIP] Trích xuất dữ liệu bài viết từ hơn 20 trang web tin tức tại Việt Nam

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages