- 用scrapy框架编写爬虫,爬取纽约客网站文章,包括文章url、文章标题、作者及发表时间、文章正文、图片等。
- 将上述爬取到的信息保存到mysql数据库中。
- 将数据库中的文章进行分页展示(使用了Flask框架)。
- 统计每篇文章正文的单词总数、段落总数、句子总数、词汇总数,并计算平均单词长度(单词字母数)、平均句子长度(句子单词数)、平均段落长度(段落句子数)。
-
Notifications
You must be signed in to change notification settings - Fork 1
myGoodLuck/Python
Folders and files
Name | Name | Last commit message | Last commit date | |
---|---|---|---|---|
Repository files navigation
About
No description, website, or topics provided.
Resources
Stars
Watchers
Forks
Releases
No releases published
Packages 0
No packages published