Wiki-Dump Reader

Extract corpora from wiki-dump.

Install

pip install wiki-dump-reader

Usage

The dump file *wiki-*-pages-articles.xml should be downloaded first. Then you can iterate and get cleaned text from the text:

from wiki_dump_reader import Cleaner, iterate

cleaner = Cleaner()
for title, text in iterate('*wiki-*-pages-articles.xml'):
    text = cleaner.clean_text(text)
    cleaned_text, links = cleaner.build_links(text)

Just ignore links if you don't need them:

cleaned_text, _ = cleaner.build_links(text)

See examples for an intuitive feeling.

Name		Name	Last commit message	Last commit date
Latest commit History 32 Commits
.github		.github
tests		tests
wiki_dump_reader		wiki_dump_reader
.gitignore		.gitignore
.travis.yml		.travis.yml
LICENSE		LICENSE
MANIFEST.in		MANIFEST.in
README.md		README.md
lint.sh		lint.sh
publish.sh		publish.sh
requirements-dev.txt		requirements-dev.txt
requirements.txt		requirements.txt
setup.py		setup.py
test.sh		test.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

.github

.github

tests

tests

wiki_dump_reader

wiki_dump_reader

.gitignore

.gitignore

.travis.yml

.travis.yml

LICENSE

LICENSE

MANIFEST.in

MANIFEST.in

README.md

README.md

lint.sh

lint.sh

publish.sh

publish.sh

requirements-dev.txt

requirements-dev.txt

requirements.txt

requirements.txt

setup.py

setup.py

test.sh

test.sh

Repository files navigation

Wiki-Dump Reader

Install

Usage

About

Releases

Packages

Languages

License

CyberZHG/wiki-dump-reader

Folders and files

Latest commit

History

Repository files navigation

Wiki-Dump Reader

Install

Usage

About

Topics

Resources

License

Stars

Watchers

Forks

Languages