java爬虫 多线程的Java爬虫,目前实现了资源url获取,url里面含有图片资源的url 还需对资源url进行解析,以及将解析得到的图片url下载到本地磁盘
目标: 多线程自动爬取指定网页内容,根据参数爬取指定资源(图片资源, 视频资源等,通过参数指定)
未完成点: 网页获取超时问题,限制因素:网络问题,人为设定网页获取超时时间,超出时间限定直接跳转到下一链接 网页刷新问题:目前加载过程1、网页获取(完成页面加载),模拟人为下拉页面,完成核心资源加载(但有些核心资源需要模拟人为操作,例如:下拉页面,点击登录,点击操作等)。没有较好的解决办法,只能根据网站特点定制(后期实现封装试一试,都希望能有万金油代码) 重复资源问题:避免爬取同一资源,产生垃圾且耗费计算机资源(初步打算:将近期已爬取的资源url放入集合中,爬取资源时进行比对) 内存缓存问题:面对爬取大量数据来说,丢失部分数据能够接受。但也可以在程序退出时将内存资源导出文件