Skip to content
通过抓取微信文章和今日头条新闻,打造一个自己的今日头条
Python HTML JavaScript CSS
Branch: master
Clone or download
彭世瑜
彭世瑜 add
Latest commit 7753722 Jul 15, 2019
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
images add file Nov 13, 2018
spiders add Jul 15, 2019
static add Jul 15, 2019
templates add Jul 15, 2019
.gitignore add Jul 15, 2019
README.md add Jul 15, 2019
__init__.py add file Nov 13, 2018
models.py add file Nov 13, 2018
requirement.txt add Jul 15, 2019
run.py add Jul 15, 2019
views.py add Jul 15, 2019

README.md

Today News

项目简介

通过抓取微信文章和今日头条新闻,仿照今日头条,打造一个自己的今日头条

基本思路

新闻下载 -> 新闻存储 -> 新闻展示

抓取源:

  1. 今日头条app新闻

https://lf.snssdk.com/api/news/feed/v88/

  1. 搜狗微信首页新闻

https://weixin.sogou.com/

备注

微信文章的图片地址会过期,所有抓取的时候直接保存到本地

static/images

项目使用模块

  • 下载器使用了:requests
  • 解析器使用了:scrapy.Selector
  • 存储器使用了:peewee
  • web框架使用了:Flask

启动运行

git clone https://github.com/mouday/today-news.git
cd today-news
pip install -r requirement.txt
python run.py

访问地址就可以打开:http://127.0.0.1:5000/

扩展

如果需要更多的新闻源,可以自己抓取新的新闻源,放在spiders文件夹下,按照如下字段解析

item = {
    "title": title,   # 新闻标题
    "article_url": article_url,  # 新闻链接
    "source": source,   # 新闻发布者
    "source_url": source_url,  # 发布者链接
    "summary": summary,   # 新闻概要
    "tag": tag,  # 新闻标签
    "publish_time": publish_time,  # 新闻发布时间,datetime类型
    "image": image,  # 新闻图片
    }

将解析好的item 调用函数存入数据库

from models import ArticleModelUtils

ArticleModelUtils.insert(item)

这样前台就可以显示了

当然,如果有好的新闻源,可以提交到这个仓库,6小时之内会给出答复

转载

本项目已推荐给微信公众号:Python那些事(微信号:PythonSomething),推送的文章内容质量还不错,在同类公众号里边属于中上等了,学习Python可以关注

TODO

sf: https://segmentfault.com/t/python 掘金: https://juejin.im/tag/Python 知乎:https://www.zhihu.com/topic/19552832/hot csdn: https://www.csdn.net/nav/newarticles

Python头条

TODO: 爬虫模块 数据模块 接口模块 前端模块 app模块

You can’t perform that action at this time.