Skip to content

FreeSkyG/house-renting-spider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

3 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

house-renting-spider

豆瓣小组上海租房爬虫

System Requirements:

To start

# Clone the repo
$ git clone https://github.com/PeggyZWY/house-renting-spider
$ cd house-renting-spider

# Install requirements
$ pip install -r requirements.txt  

# Modify config.ini
$ vim config.ini

config.ini里配置并保存:

  1. key_search_word_list为想要搜索的关键词。如果有多个关键词,请用英文逗号,隔开
  2. custom_black_list为拒绝的关键词黑名单。同样如果有多个关键词,请用英文逗号,隔开
  3. start_time为要搜索在这个时间之后的信息。请用2016-05-01这种格式表示日期
  4. [douban]这个option下的douban_cookiedouban_sleep_time不需要改变。程序里会自动设置cookie;douban_sleep_time设为1秒钟比较合适,防止豆瓣反爬虫封号

比如:
config

配置好之后继续在终端输入:

$ python houseRentingSpider.py  

然后就等爬虫爬呀爬。

结束之后,命令行有提示。比如:
config

根据提示打开此HTML文件后会出现结果。比如(截图仅截取部分结果):
config

配色是根据豆瓣来的嘿嘿:)

Others

houseRentingSpider.py里,现在设置了如下小组。

config

douban_url这个数组里URL的参数中group的值以及douban_url_name数组里的小组名要一一对应。

也就是说,只要你是在豆瓣小组里对关键字进行爬取,在这里设置小组,在config.ini设置关键词,就可以定制出自己的爬虫。

About

豆瓣小组上海租房爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 91.8%
  • JavaScript 4.2%
  • CSS 4.0%