爬虫练习

题目内容

It 桔子网址: http://www.itjuzi.com
抓取目标：http://itjuzi.com/company/1786
抓取内容：

产品名称 (如上图的“36 氪 36KR”)

公司名称(如北京协力筑成金融信息服务有限公司)

地点(如北京,海淀区)

阶段(如成长发展期)

公司招聘页面的 url(http://36kr.com/pages/hire )

提交内容
代码,包括.git(可以放在 github 上)

companies.json:抓取的信息用 json 存在 companies.json 里

readme.txt 写清楚
a. 如何抓取 1000 个公司  
b. 如何抓取招聘页面 url,总共抓取到多少公司的招聘页面 url  
c. 完成任务花费的时间  
d. 有 bug 或可以提升的地方  

因为最擅长的是PHP，目前正在学习Node，所以打算先用PHP快速实现第一版，如果有剩余时间，再用Node的方式实现第二版。

题目分析

1. 如何采集到公司数据

从公司页面分析得出结论如下：公司采用整数自增，目前最大id为31068，目前共有有效数据25219条，每页有10条记录。所以有如下两种思路：

遍历从1到31068的所有公司页面，采集完所有数据需要31068次请求
遍历列表页，再匹配公司页面，这样采集完所有的数据需要ceil(25219/10)+25219=27741次请求

从效率上来看，2更优，但是从难易程度上，1更有优势，而且流程更容易控制。

2. 如何采集招聘页面

通过对前20个公司网站的观察，发现首页上一般都会有招聘页面的链接，格式如下：

加入XX
加入我们
人才招聘
招聘信息
诚聘英才
招贤纳士

所以可以通过关键字对招聘页面进行匹配。

时间记录

12-21 21:00 创建git
12-21 21:43 分析完毕
12-22 00:35 代码已经初步可以运行了，最近半个小时发现it橘子的网站经常502，不知道是不是并发开的太高了。
12-22 01:00 调试完毕，发现一些问题
经常采集不到数据，需要增加调试信息
采用并发策略可能时错误的，并发之后it桔子的延迟会很高，如果要保证抓取成功率，需要降低并发，并且需要重试机制。
12-22 10:00 进行第二轮调试。
发生了两次比较奇怪的情况，程序执行到一半的时候it桔子所有的链接都瞬间返回了，无法获取内容。
要不要这么巧，跑到990个的时候又发生了。。。
放弃批量模式，改用单线程。

PHP版本最终执行结果

从1-1115抓到了1000条公司数据，采集到138个招聘页面。

优化过匹配规则之后采集到187个招聘页面，不过采集错误率也有所上升。

目前已经用掉了6-7个小时，其中有一部分调试时间，每次单线程完整运行大概需要30分钟。

对curl的multi模式期望过高，发现里面还有很多坑没有处理好，最初对策略的选择也不正确，产生了不少错误，也浪费了很多时间，整体看来程序的各个方面还有很大的优化空间。

Node版本最终执行结果

采集到250个招聘页面，用时6分钟。

开发时间4个小时。

todolist

优化输出效果
优化招聘页面匹配规则
JS生成的页面抓取不到
it橘子服务器不太稳定，经常超时，如果这样下去可能需要重试机制和缓存机制
并发还可以优化
内存使用还可以调整
有一些网站可能有防采集策略，增加useragent之后有明显改善，不过还是有优化空间
重试机制
把“加入会员”也采集进来了，需要处理
发现很多公司是重复的，需要一个处理机制
公司名称有一些“暂未收录”，可能需要一个策略
忘记处理编码了，如果有非utf－8的主页可能会导致抓取失败

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
javascript		javascript
php		php
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

javascript

javascript

php

php

README.md

README.md

Repository files navigation

爬虫练习

题目内容

题目分析

1. 如何采集到公司数据

2. 如何采集招聘页面

时间记录

PHP版本最终执行结果

Node版本最终执行结果

todolist

About

Releases

Packages

Languages

m4ker/exam

Folders and files

Latest commit

History

Repository files navigation

爬虫练习

题目内容

题目分析

1. 如何采集到公司数据

2. 如何采集招聘页面

时间记录

PHP版本最终执行结果

Node版本最终执行结果

todolist

About

Resources

Stars

Watchers

Forks

Languages