Skip to content

xucong0213/19tower-spider

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

6 Commits
 
 
 
 
 
 
 
 

Repository files navigation

介绍

  • 一个简单的爬虫,可爬取台州19楼网站所有帖子,寻找帖子回复中,有与自定义关键词相匹配的帖子路径,存入数据库.

  • 简单的demo,暂未实现增量爬虫等功能

  • 在首页输入关键词,开启新的任务,最多开启x个任务.

运行方式

  • 建立数据库: 19tower_spider
  • sql文件: resources/sql/schema.sql
  • 直接运行SpringBoot项目,自动启动爬虫
  • 可自定义参数: 搜素关键词,各任务线程数,队列长度,httpClient连接池配置等
  • 自定义参数查看SpiderConfig类,在application.yml中配置

简要流程

  • 开启单线程任务,爬取圈子列表页,并依次爬取所有圈子信息,存入阻塞队列
  • 开启线程,从圈子队列阻塞获取圈子对象; 异步运行从圈子中获取所有帖子任务; 将获取到的所有帖子存入阻塞队列;
  • 开启线程,从帖子队列阻塞获取帖子对象; 异步运行帖子解析任务; 爬取帖子所有页所有回复,并与关键词匹配,成功则入库.

注意点

  • 该网站稍微做了些反爬机制.
    • 所有页面的Get请求需要携带 User-Agent等请求头
    • 帖子详情页,还需要携带Host请求头,和它自己的一些Cookie(目前直接从浏览器复制,暂未测试失效时间).

idea上传文件到linux

  • 选择 tools - Deployment - Configuration; 点击+号,选择SFTP. 输入账号密码,上传到服务器的路径等信息;
  • 选择mappings,选择本地的目录(通常为项目的/target目录),然后继续输入服务器路径, 上个路径+这个路径,即为完整的服务器上路径.
  • 右击项目中的文件,选择Upload To xxx, 这个连接也可以直接作为ssh连接,连接到该服务器.

About

台州19楼网站爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Java 82.1%
  • HTML 9.4%
  • JavaScript 7.8%
  • CSS 0.7%