Skip to content

qiulin2/spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 

Repository files navigation

spider

java基于jsoup的链接爬虫

项目主要是针对于网站url解析,网站采集规则:采集深度maxDepth 采集最大链接数:maxLink 站内采集:domain 针对ip限制问题使用动态代理,项目中抓取西刺免费ip进行切换ip(ip质量不太好,用于生产项目可购买其他平台稳定ip)

针对base,abs,ftp,window标签以及不规则的../等url验证和拼接 兼容jspx,ashx,jhtml,php,ycs,shtml,jsp等后缀url 对jsessionid动态url进行处理

项目第一版为只采集url链接,对于网页内容没有进行解析处理,针对不同网站需要自己写解析逻辑

About

java基于jsoup的链接爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages