javaspider

java爬虫多线程的Java爬虫，目前实现了资源url获取，url里面含有图片资源的url 还需对资源url进行解析，以及将解析得到的图片url下载到本地磁盘

目标：多线程自动爬取指定网页内容，根据参数爬取指定资源（图片资源，视频资源等，通过参数指定）

未完成点：网页获取超时问题，限制因素：网络问题，人为设定网页获取超时时间，超出时间限定直接跳转到下一链接网页刷新问题：目前加载过程1、网页获取（完成页面加载），模拟人为下拉页面，完成核心资源加载（但有些核心资源需要模拟人为操作，例如：下拉页面，点击登录，点击操作等）。没有较好的解决办法，只能根据网站特点定制（后期实现封装试一试，都希望能有万金油代码）重复资源问题：避免爬取同一资源，产生垃圾且耗费计算机资源（初步打算：将近期已爬取的资源url放入集合中，爬取资源时进行比对）内存缓存问题：面对爬取大量数据来说，丢失部分数据能够接受。但也可以在程序退出时将内存资源导出文件

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.settings		.settings
bin		bin
src/com/hyh		src/com/hyh
target		target
.classpath		.classpath
.gitignore		.gitignore
.project		.project
LICENSE		LICENSE
README.md		README.md
catalina.jar		catalina.jar
filesource.properties		filesource.properties
pom.xml		pom.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

Repository files navigation

javaspider

About

Uh oh!

Releases

Packages

Uh oh!

Languages

License

githubhyh/spider

Folders and files

Latest commit

History

Repository files navigation

javaspider

About

Resources

License

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Languages

Packages