Skip to content
No description, website, or topics provided.
Branch: master
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
asset 第一次上传 Jun 12, 2019
component
dist 第一次上传 Jun 12, 2019
src/app 新增在线代码编辑器 Jun 14, 2019
views 第一次上传 Jun 12, 2019
.babelrc 第一次上传 Jun 12, 2019
README.md 新增线上演示地址 Jun 17, 2019
csdnlist.sql 第一次上传 Jun 12, 2019
index.html 更新replace跳转 Jun 12, 2019
jjIndex.js
jjchapter.sql 第一次上传 Jun 12, 2019
jjmysql.json 第一次上传 Jun 12, 2019
jjrequestUrl.json 第一次上传 Jun 12, 2019
package-lock.json 第一次上传 Jun 12, 2019
package.json 新增在线代码编辑器 Jun 14, 2019
webpack.config.js 第一次上传 Jun 12, 2019

README.md

基于nodejs+react+react-router+webpack+antDesign+mysql环境的爬取掘金跟csdn文章项目

开场白:

小明:你知道什么是爬虫吗?
小红:知道啊。
小明:是一种在地上爬的虫子吗?
小红:不是,它不是真正意义上的昆虫。是一种网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。
小明:哦!原来如此,我懂了,是计算机里的爬虫。

爬虫目标

以掘金和csdn技术文章作为爬取目标,最终实现至本地网页展示、后续还可以不停新增别的爬取目标。

文件说明

webpack.config.js-webpack配置文件
jjrequestUrl.json-后端请求配置文件
jjmysql.json-node连接mysql库的配置文件
jjchapter.sql&csdnlist.sql-数据库表运行sql文件
views-html页面文件
src-页面js文件入口
dist-页面打包出口
component-组件文件夹
asset-资源文件夹

爬虫技术

1)Nodejs作为核心后端爬取媒介
2)Mysql作为数据存储
3)Webpack+react+ant Design作为前端页面数据展示
4)react-router进行组件化页面路由

爬虫框架

superagent基于nodejs服务端请求的模块,是轻量级更为优化的ajax API,对比大量糟糕的现存的API,SuperAgent是灵活的、易读的、并且非常易学,同时SuperAgent可用于Node.js!

启动顺序

1.git clone 当前项目.git地址
2.npm install
3.已安装mysql并已启动,创建jjchapter数据库,导入项目下jjchapter.sql、csdnlist.sql两个数据库表,数据库账号root,密码123456,端口号3306
4.新开cmd窗口 node jjIndex.js,前提是安装了nodejs,推荐8.5以上稳定版本
5.新开cmd窗口 npm run online 线上模式 npm run dev 开发模式,开发模式需要新开窗口 npm run build 文件监听;
6.访问地址:localhost:5678
7.项目线上地址:http://www.xyji.top:5678

更新日志
  1. 更新package.json依赖
  2. 新增codem组件,添加codem路由;
  3. git pull更新项目后,npm install 安装依赖,即可启动查看
You can’t perform that action at this time.