Skip to content

DeeJay0921/multithread-crawler-demo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

48 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

multithread-crawler-demo

本项目为一个练手的爬虫项目,通过爬虫爬取https://sina.cn来获取数据存放到本地H2数据库

通过Elasticsearch对爬取到的新闻信息可以做检索。

使用

初始化数据库: mvn flyway:migrate

爬取数据: 执行运行Main.main()即可

假造数据扩充数据库: FakeDataGenerator.main()

从数据库中读取数据插入到ES: ElasticsearchDataGenerator.main()

运行搜索引擎: ElasticsearchEngine.main()

About

使用爬虫爬取数据并用ES分析数据的一个练手demo

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages