Skip to content

2016年8月上海图书馆,上海书展爬虫,用于爬取所有展出的4万余本书的书名、作者、ISBN编号、出版社、价格、展览区域信息,保存为Excel。

Notifications You must be signed in to change notification settings

henan715/scrapyShangHaiBook

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

scrapyShangHaiBook

2016年8月上海图书馆,上海书展爬虫,用于爬取所有展出的4万余本书的书名、作者、ISBN编号、出版社、价格、展览区域信息,保存为Excel。

主要库

  • BeautifulSoup
  • Urllib2
  • xlrd
  • xlwt

代码结构

代码分为两块:MainSpider用于下载数据,通过BeautifulSoup解析网页内容,然后存储为Excel,刚开始打算存数据库,后来发现数据量太小,直接存储Excel吧,text2excel用于将txt数据转换为Excel数据(后来废弃不用了)。

效果图Alt text

About

2016年8月上海图书馆,上海书展爬虫,用于爬取所有展出的4万余本书的书名、作者、ISBN编号、出版社、价格、展览区域信息,保存为Excel。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Languages