Skip to content

一个极简单的爬取中国官方/主流媒体网站文章数据的应用,用户自定义检索关键词和爬取页数,在选定的目标网站模拟实时搜索进行爬取

Notifications You must be signed in to change notification settings

MoonEater0912/News-Crawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

46 Commits
 
 
 
 
 
 

Repository files navigation

基于关键词爬取部分中国官网或新闻网站文章信息的应用(2024.4)

  • 使用了Safari webdriver
  • main.py中构建GUI界面,其余各个.py文件用于爬取文件名所指新闻平台
  • 用户在应用中可以指定目标平台、检索关键词和迭代次数(即爬取页数)
  • 爬取结果包括:标题、摘要和url
  • 爬取结果中标题重复的条目会被去重
  • 应付某科研助理工作写的,功能极粗糙,时常会爬取失败

已经更新chrome_main.py文件,直接运行即可,需要安装对应版本的chrome驱动

效果图

截屏2024-03-26 16 38 48 截屏2024-03-26 16 42 09

About

一个极简单的爬取中国官方/主流媒体网站文章数据的应用,用户自定义检索关键词和爬取页数,在选定的目标网站模拟实时搜索进行爬取

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages