Skip to content

Cung cấp thư viện Python để khai thác dữ liệu báo chí quét được từ các hệ thống sử dụng Đọc Báo

Notifications You must be signed in to change notification settings

hailoc12/docbao-open-data

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Khai thác dữ liệu mở từ dự án Theo Dõi Báo Chí

Theo Dõi Báo Chí là website tổng hợp tin tức từ trên 50 tờ báo điện tử phổ biến nhất Việt Nam. Dự án cũng kì vọng trở thành nguồn dữ liệu mở lớn nhất về tin tức tiếng Việt với dữ liệu khoảng 25.000 tiêu đề báo được xuất bản trong 1 tuần gần đây nhất và được cập nhật liên tục với tần suất 10p/lần.

Để việc khai thác, sử dụng dữ liệu mở từ dự án Theo Dõi Báo Chí được dễ dàng, Đọcbáo-Open-Data cung cấp thư viện bằng ngôn ngữ Python hỗ trợ tự động update dữ liệu từ server về local, và trả về data dưới dạng list dễ xử lý (xem thêm file example.py để biết chi tiết). Dự án kì vọng sẽ thúc đẩy việc ứng dụng Machine Learning trong xử lý tiếng Việt nói chung và các bài toán liên quan tới dữ liệu báo chí nói chung.

About

Cung cấp thư viện Python để khai thác dữ liệu báo chí quét được từ các hệ thống sử dụng Đọc Báo

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages