GitHub - MoonEater0912/News-Crawler: 一个极简单的爬取中国官方/主流媒体网站文章数据的应用，用户自定义检索关键词和爬取页数，在选定的目标网站模拟实时搜索进行爬取

MoonEater0912 / News-Crawler Public

Notifications You must be signed in to change notification settings
Fork 0
Star 0

一个极简单的爬取中国官方/主流媒体网站文章数据的应用，用户自定义检索关键词和爬取页数，在选定的目标网站模拟实时搜索进行爬取

0 stars 0 forks Branches Tags Activity

Notifications

Name		Name	Last commit message	Last commit date
Latest commit History 46 Commits
MacOS		MacOS
README.md		README.md
chrome_main		chrome_main

Repository files navigation

基于关键词爬取部分中国官网或新闻网站文章信息的应用（2024.4）

使用了Safari webdriver
main.py中构建GUI界面，其余各个.py文件用于爬取文件名所指新闻平台
用户在应用中可以指定目标平台、检索关键词和迭代次数（即爬取页数）
爬取结果包括：标题、摘要和url
爬取结果中标题重复的条目会被去重
应付某科研助理工作写的，功能极粗糙，时常会爬取失败

已经更新chrome_main.py文件，直接运行即可，需要安装对应版本的chrome驱动

效果图

截屏2024-03-26 16 38 48

截屏2024-03-26 16 42 09

About

一个极简单的爬取中国官方/主流媒体网站文章数据的应用，用户自定义检索关键词和爬取页数，在选定的目标网站模拟实时搜索进行爬取

crawl

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%