Skip to content

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。

Notifications You must be signed in to change notification settings

bruceren8/Mini-Search-Engine

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 

Repository files navigation

Mini-Search-Engine

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。

关键技术

###1.网络爬虫爬网页 从配置文件中读取初始url 将初始url存入一个用于广度遍历的队列中 开始广度优先遍历队列 对每个出队的url提取需要的信息(怎么解析HTML) 对从网页中爬取到的每一个url判断是否重复,若不重复则入列。(怎么url去重) ###2.初始化系统 从配置文件中读系统信息,例如服务器ip、端口号、页面文件位置、停用词文件位置等。 ###3.建索引 在网页库中每找到一个查询词同时得到偏移量,存入索引文件中。 ###4.网页去重并存于内存中 用top10和特征码LCS两种方法实现,在内存中的结果集:<query, <docid,offset> > ###5.网页文本聚类 K-means算法 ###6.提供查询服务

About

迷你搜索引擎项目,后台程序在Linux环境下用C/C++开发,前台页面在windows环境下用PHP实现。

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published