crawl-wiki

Webscrape text for making a word list and a language model suitable for Kaldi ASR.

To collect about 60 files named wikipedia/*/yyyymmdd.txt, run crawl_wikipedia_all_lang.

Todo

Filter more, to be appropriate for pseudo-swahili ASR:

Scrape more than just the top page?

Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
crawl_forvo.py		crawl_forvo.py
crawl_wikipedia.py		crawl_wikipedia.py
crawl_wikipedia_all_lang		crawl_wikipedia_all_lang
forvo-lang		forvo-lang
lang-code.py		lang-code.py
sbs-forvo-lang		sbs-forvo-lang
sbs-forvo-lang-code		sbs-forvo-lang-code
sbs-wikipedia-lang		sbs-wikipedia-lang
sbs-wikipedia-lang-code		sbs-wikipedia-lang-code
wiki-tidy.py		wiki-tidy.py
wikipedia-lang		wikipedia-lang
wikipedia-main-page		wikipedia-main-page