GitHub - dawn360/wikiDB-MRIndexing: Using Map-Reduce to implement indexing on Wikipedia XML Dumps

Indexing Wiki Dumps This indexing algorithm is a variation of Dean & Ghemawat Index algorithm

Run on Hadoop or CDH Cluster Project contains a pre-complied Jar

To complie javac -classpath hadoop classpath *.java

Create MR Jar jar cvf .jar *.class

RUN MR JOB hadoop jar .jar GDIndex enwiki.xml <min_word_length(number>

View Results hadoop fs -cat /part-r-* | less

Name		Name	Last commit message	Last commit date
Latest commit History 1 Commit
GDIndex.jar		GDIndex.jar
GDIndex.java		GDIndex.java
GDIndexMapper.java		GDIndexMapper.java
GDIndexReducer.java		GDIndexReducer.java
README.md		README.md
XmlInputFormat.java		XmlInputFormat.java
XmlRecordReader.java		XmlRecordReader.java
enwiki.xml		enwiki.xml

Provide feedback