Large-Scale Search Engine

It is an implementation of Google Research Paper "The Anatomy of a Large-Scale Hypertextual Web Search Engine" on Wikipedia dataset along with intense optimizations and data parallelism.

It can efficiently index 60GB of wikipedia data dump containing millions of articles in 3 hours on an average laptop. It uses all system resources and eliminates the bottlenecks.

Dataset

I have used wikipedia dump (60GB) xml format. It can found on this link: https://en.wikipedia.org/wiki/Wikipedia:Database_download#XML_schema

Name		Name	Last commit message	Last commit date
Latest commit History 37 Commits
DataStructures		DataStructures
Dependencies		Dependencies
Engine		Engine
File Structures		File Structures
Indexer		Indexer
.gitattributes		.gitattributes
.gitignore		.gitignore
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Large-Scale Search Engine

Dataset

About

Releases

Packages

Languages

ZdsAlpha/SearchEngine

Folders and files

Latest commit

History

Repository files navigation

Large-Scale Search Engine

Dataset

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages