爬取电玩巴士部分文章作为后台数据。
具体是学习Mooc网bobby老师的课程,个人总结教程之后再写。(多么鲜艳的Flag)
- Python3
- virtualenv、virtualenvwrapper(不必要,但建议使用, 安装教程 )
- 搜索引擎支撑elasticsearch:
- jdk8+
- elasticsearch-rtf:大神开发的适用于中文的版本
- elasticsearch-head:可视化数据
- kibana:运行不必要,学习ES建议安装
- 编写框架django:
pip install django
- 项目地址
- 运行项目即可:
python manage.py runserver 8000
- 在localhost:8000打开页面
- like this……
分词太细致导致搜索结果反而不太匹配搜索词,比如:
- 解决方案:
- 设置搜索模式,指定搜索使用term不对搜索词进行处理,粗略搜索延续match。
- 爬虫存数据时选用ik_smart等划分相对粗略的分析器。
欢迎指正与讨论! |