wikitools

Tools to process wikipedia data for ML purposes.

pageviews

Processes montly wikipedia page statistics for a month and generates a pagecount file sorted in descending order. It is designed to obtain the top N (e.g. top 1M) most popular wikipedia pages.

sqlfilter

The raw wikipedia sqldumps are too slow to import in my dev system. This tool allows one to filter the sqldumps so that only entries for the top N pages are added to the database.

wiki_entity_vec

Tools to generate a sparse matrix and train an embedding vector model.

Name		Name	Last commit message	Last commit date
Latest commit History 14 Commits
pageviews		pageviews
sqlfilter		sqlfilter
wiki_entity_vec		wiki_entity_vec
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
requirements.txt		requirements.txt
setup.py		setup.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

pageviews

pageviews

sqlfilter

sqlfilter

wiki_entity_vec

wiki_entity_vec

.gitignore

.gitignore

LICENSE

LICENSE

README.md

README.md

requirements.txt

requirements.txt

setup.py

setup.py

Repository files navigation

wikitools

pageviews

sqlfilter

wiki_entity_vec

About

Releases

Packages

Languages

License

pedro-r-marques/wikitools

Folders and files

Latest commit

History

Repository files navigation

wikitools

pageviews

sqlfilter

wiki_entity_vec

About

Resources

License

Stars

Watchers

Forks

Languages