The newest version is available: https://github.com/kristiinavaik/ettenten-eeltootlus
Preprocessing module, to be used before parsing. Input: text with xml-markup, e.g. Estonian Reference Corpus texts (http://www.cl.ut.ee/korpused/segakorpus/)
Eeltöötlusmoodulid Eesti keele Koondkorpuse xml-märgendusega teadus- ja ajakirjandustekstide jaoks, teevad tekstid parserite jaoks sobivamale kujule ning (soovi korral) nummerdavad laused.
Autor: Kristiina Vaik