- 使用node js 批量爬取网站上的图片, --->photo_spider.js
- 爬取新闻列表信息(伪header技术使用)。使用到http.request,URL ,Buffer.concat ,Array.prototype.map.call($('img'),item=>{}) ,encodeURI(),----news_spider.js
- 使用typescript 封装自己的爬虫。----spider-oop/
- 使用selenium爬取拉钩网广州区所有前端信息(动态网站),分页功能。---->lagou.js
- cheerio ,服务器端,操作字符串。类似jQuery 操作dom。
- download,用于下载图片等资源。
- chromedriver.exe + selenium-webdriver 爬取动态网站
- node verson 10.15.3
`
npm i typescript -g
tsc --init 生成ts配置文件
`
-
vsc 右键运行命令不见
-
封装成类而不封装成函数的原因是,类或者对象将来好扩展,函数不易扩展
-
interface 接口的目的,在于约束作用
-
到npm 中下载 selenium 注意热度、质量、维护程度,selenium 不是需要的包,selenium-webdriver才是。
-
下载 chromedriver(.exe) ,注意:需要与chrome 版本对应,不然可能会报版本不一致的错误
-
把下载好的32位的文件(.exe)放到项目的根目录下。
-
下载安装npm包, npm install selenium-webdriver
-
自动翻页功能 使用到, 递归,while async await 方法
- 文档 https://www.npmjs.com/package/selenium-webdriver
- http://chromedriver.storage.googleapis.com/index.html
- https://www.seleniumhq.org/docs/ 找到javascript 版本
- 网站根目录 robots.txt 查看哪些能爬取的,哪些不允许爬取。
- ip 代理 防止爬取对象封杀IP
- vsc 编辑器没有提示对象的方法
- 控制台中,代码控制input 没法获取焦点(即使没有遮罩层)
- 反爬虫 前端tooken 加密?
- git reset HEAD 将file退回到unstage区
- 滚动到底部的分页这么爬取。
- 图片下载时,中文路径报错,需要encodeURL 编码