Skip to content

MagicDu/magicpython

Repository files navigation

python 爬虫示例仓库

getArticle

1. getArticle

爬虫获取文章内容(以金融之家 http://www.jrzj.com/ 为例)标题写入txt
2.getArticleInCSV

爬虫获取文章内容(以金融之家 http://www.jrzj.com/ 为例)标题,标签,日期写入csv
3.getArticleSql

爬取文章保存到数据库

getPic

1.get_pic

下载漫画
2.get_pic_thread

多线程下载漫画

getSohuNews

1.get_news
爬取搜狐新闻,并将新闻保存到本地

getPDF

1.download
http://www.sdedu.gov.cn/sdjy/_ztzl/810993/917785/index.html
这个连接中有不少培养质量报告,把这些学校的报告下载下来。主要是文件命名上,要体现出报告的学校和年度,比如:济南大学       2014.pdf,山东大学2015.pdf等

html2pdf

1.html2pdf
将html网页保存为pdf文档

dealViewState

1. contact.py
处理页面中的viewstate参数

About

magic_python

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages