baike_spider

python爬虫爬取百度百科页面

简单爬虫框架：爬虫调度器 -> URL管理器 -> 网页下载器(urllib2) -> 网页解析器(BeautifulSoup) -> 价值数据

目录结构：

注：mac osx下用alt+enter添加相应方法

(爬虫调度器)spider_main.py
(url管理器)url_manager.py
(下载器)html_downloader.py
(解析器)html_parser.py
(数据输出)html_outputer.py

运行程序spider_main.py可进行爬取页面，最终文件输出为output.html,里面包含词条和词条解释，爬取完毕。

output.html:

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
README.md		README.md
__init__.py		__init__.py
__init__.pyc		__init__.pyc
html_downloader.py		html_downloader.py
html_downloader.pyc		html_downloader.pyc
html_outputer.py		html_outputer.py
html_outputer.pyc		html_outputer.pyc
html_parser.py		html_parser.py
html_parser.pyc		html_parser.pyc
output.html		output.html
spider_main.py		spider_main.py
url_manager.py		url_manager.py
url_manager.pyc		url_manager.pyc

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

init.py

init.py

init.pyc

init.pyc

html_downloader.py

html_downloader.py

html_downloader.pyc

html_downloader.pyc

html_outputer.py

html_outputer.py

html_outputer.pyc

html_outputer.pyc

html_parser.py

html_parser.py

html_parser.pyc

html_parser.pyc

output.html

output.html

spider_main.py

spider_main.py

url_manager.py

url_manager.py

url_manager.pyc

url_manager.pyc

Repository files navigation

baike_spider

python爬虫爬取百度百科页面

About

Releases

Packages

Languages

masterpy/baike_spider

Folders and files

Latest commit

History

Repository files navigation

baike_spider

python爬虫爬取百度百科页面

About

Resources

Stars

Watchers

Forks

Languages