job/LetvCrawler的疑问 #18

yangqihua · 2017-08-31T02:41:36Z

作者您好，请问关于job/LetvCrawler这个类，注释写着”乐视信息爬虫”，但你定义的常量（爬取的URL）全是腾讯视频的（job/LetvCrawler类 32~37行代码），这就导致了该类下的getHostsFromPcDocument方法在第139行的时候，获取到的videoElements获取到的list大小为0，进而导致了141行的数组边界溢出异常，我想问问是不是作者把爬取的URL写错了。

AnoyiX · 2017-08-31T03:51:20Z

猜测是乐视的页面发生了变化，预计今天修复，到时回复

AnoyiX · 2017-08-31T06:32:19Z

问题已解决，可更新最新代码

yangqihua · 2017-09-11T08:39:44Z

非常感谢，现在貌似优酷和腾讯都能正常爬取解析，但是爱奇艺总出现解析错误（网址请求失败：http://list.iqiyi.com/www/2/----------------iqiyi--.html），异常原因是：Read timed out，我猜想可能是爱奇艺有反爬虫策略，导致ip被加入了黑名单，作者有没有考虑用ip代理来爬？

AnoyiX · 2017-09-11T09:43:29Z

可以实现，没有稳定的 proxy 源

AnoyiX closed this as completed Dec 18, 2021

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

job/LetvCrawler的疑问 #18

job/LetvCrawler的疑问 #18

yangqihua commented Aug 31, 2017

AnoyiX commented Aug 31, 2017

AnoyiX commented Aug 31, 2017

yangqihua commented Sep 11, 2017

AnoyiX commented Sep 11, 2017

job/LetvCrawler的疑问 #18

job/LetvCrawler的疑问 #18

Comments

yangqihua commented Aug 31, 2017

AnoyiX commented Aug 31, 2017

AnoyiX commented Aug 31, 2017

yangqihua commented Sep 11, 2017

AnoyiX commented Sep 11, 2017