-
Notifications
You must be signed in to change notification settings - Fork 12
Demos
Here are the links to different demos showcasing some of the site's functionalities.
Tekstihindaja / Writing Evaluation Tool
Keeletööriistad / Language Analysis Tools
Link: https://evkk.tlu.ee/correction
Demorakendus prognoosib eestikeelse teksti vastavust riiklikult hinnatavatele keeleoskustasemetele: A2 - esmane keeleoskus, B1 - suhtluslävi, B2 - edasijõudnu, C1 - vaba suhtlus.
Hindamismudelid on koostatud eesti keele tasemeeksamite kirjutiste statistilise analüüsi põhjal ja rühmitasid ristvalideerimisel õigesti 91%-97% tekstidest. Kõige tulemuslikum on eri tüüpi keelelisi tunnuseid kombineeriv koondmudel.
Hetkel võtab rakendus hindamisel arvesse kolme teksti mõõdet:
- üldine keerukus (teksti, sõnade ja lausete pikkus);
- sõnavara (sõnavara mitmekesisus, ulatus, tihedus ja abstraktsus);
- morfoloogia ehk vormikasutus (sõnaliikide ja muutevormide osakaalud ning rohkus).
Edaspidi on plaanis arvestada ka süntaksi ehk lauseehitusega ning õigekirja- ja grammatikavigadega.
Kuna hindamismudelite aluseks on eksamikirjutised, ei ole need samavõrd usaldusväärsed näiteks kodus abivahendeid kasutades kirjutatud tekstide taseme määramisel. Kohandame rakendust eri kirjutamisolukordade jaoks.
NB! Rakendus ei salvesta hinnatavaid tekste. Siiski ei soovita me tekstiväljale sisestada tundlikke isikuandmeid.
This demo application predicts the proficiency level of Estonian learner writings. The evaluation is based on the nationally tested language proficiency levels: A2 - elementary, B1 - intermediate, B2 - upper intermediate, C1 - advanced.
The classification models rely on statistical analysis of the Estonian language proficiency examination writings. In cross validation, they achieved average accuracy of 91%-97%. The best-performing model is the unified model that combines different types of linguistic features.
Currently, three feature sets are used:
- surface features describing general complexity of the text (text, word and sentence length);
- lexical features (diversity, sophistication and density of vocabulary, noun abstractness);
- morphological features (part of speech and grammatical form frequencies and diversity).
Henceforth, we are also planning to take info account the syntactic (sentence structure) features as well as spelling and grammar errors in the evaluation.
As the models have been trained on examination writings, the level predictions of other texts, e.g., written homework that has been compiled using reference tools (dictionaries, grammars), are less reliable. We aim to adapt the application for diverse writing situations.
Note that the application does not store your data. However, it is advisable not to insert any sensitive personal data to the text field.
Authors: Kais Allkivi-Metsoja, Kaisa Norak, Jaagup Kippar
Link: https://github.com/mrkkollo/evkk-api
Online demo: https://evkk.tlu.ee/correction
Eesti keele statistilise õigekirjakorrektori prototüüp suudab võrreldes reeglipõhise Vabamorfi spelleriga täpsemini parandada eesti keele õppijate vigaselt kirjutatud sõnu. Nimelt erinevad keeleõppijatele omased täheortograafia vead (nt hääldusvigadest tulenev kirjapilt, täpitähtede vigane kasutus) emakeelekõnelejate tüüpilistest eksimustest.
Statistikapõhise õigekirjakorrektori aluseks on valitud Jamspelli algoritm, mis arvestab sõnade kontekstiga. Nii võimaldab see parandada ka vigast kirjapilti, mis on samakõlaline mõne eesti keeles olemas oleva sõnaga ilm oli *vaga ~ väga ilus). Õige parandus pakutakse enamasti põhivariandina, samas kui Vabamorfi speller ja Jamspelli kõrval katsetatud Peter Norvigi algoritm annavad sobiva paranduse sageli rööpvariandina, mis tuleks kasutajal valida käsitsi. Samuti teeb Jamspell vähem tarbetuid parandusi ning parandab aeg-ajalt ka vormi- ja sõnavalikut (nt tema *endi ~ enda kätes, *ennem ~ enne kui uskuda).
Korrektuurimudeli treeningmaterjal on võetud Eesti keele ühendkorpuse 2019. aasta versioonist. Seni oleme korrektorit testinud 9248-sõnalise tekstivalimiga, mis sisaldab A2-, B1-, B2- ja C1-taseme eksamikirjutisi (umbes 2000–3000 sõna taseme kohta). Täheortograafia vigu oli 302, kui jätta kõrvale suure algustähe kasutuse ja nimede õigekirja vead. Jamspelli mudel leidis üles 67% vigadest (Vabamorf 73%). Tehtud parandustest olid korrektsed 76%, rööpparandusi arvestades 78% (Vabamorfil vastavalt 50% ja 71%). Kokkuvõttes parandas Jamspell kõigist vigastest sõnadest esimesel katsel õigesti 51% (Vabamorf 37%).
Selleks, et keeleõppijate vigu veelgi tõhusamalt parandada, oleme Jamspellile lisanud teksti eeltöötlemise võimaluse. Näiteks saab määrata, et sõna musiika asendataks alati sõnaga muusika (Jamspell pakub paranduseks mustika). Koostame eeltöötluse jaoks Eesti vahekeele korpuse (EVKK) põhjal keeleõppijatele omaste õigekirjavigade ja nende paranduste loendit. Sealjuures arvestame nii vea sagedusega kui ka sellega, kas korrektor suudab vea iseseisvalt parandada või mitte.
Korrektorit saab kasutada veebis Tekstihindaja demorakenduse osana, Pythoni moodulina ja veebiserveri rakendusliidese (API) kaudu. Oleme korrektori liidestanud Stanza keeletöötluspaketti kuuluva lemmatiseerijaga ehk sõnade algvormistajaga, nii et lemmatiseerija sisendiks on korrigeeritud tekst – see võimaldab vigaste sõnade algvorme täpsemini määrata.
Our statistical spelling corrector prototype for Estonian can more accurately correct misspellings in Estonian learner texts than the rule-based open-source speller Vabamorf. Namely, learners often make spelling mistakes that are not typical to native speakers (e.g., errors caused by pronunciation, excessive or missing diacritics).
The application uses the Jamspell algorithm, which takes into account the context of words and is thus able to correct errors in words that are homonymous with actual Estonian words (e.g., vaga ʽpious, still’ ~ väga ʽvery’). Jamspell mostly offers an accurate correction as the main spelling suggestion, while Vabamorf and Peter Norvig’s statistical algorithm tested for comparison often propose the correct variant as one of the additional suggestions that the user would have to choose manually. Furthermore, Jamspell makes fewer unnecessary corrections, and sometimes corrects errors in the choice of word or inflectional form.
The correction model has been trained on a subset of Estonian National Corpus 2019. We have tested the spelling corrector on a 9,248-word text sample containing Estonian proficiency examination writings (approximately 2,000–3,000 words per levels A2, B1, B2, and C1). There were 302 spelling errors in the sample, leaving aside some misspelled names and capitalization errors. The Jamspell model detected 67% of the errors (Vabamorf detected 73%). Out of the proposed corrections, 76% were accurate on the first attempt. Considering parallel suggestions raised the correction accuracy only to 78% (Vabamorf’s main correction accuracy was 50% and overall accuracy 71%). All in all, 51% of errors were corrected on the first attempt (37% when using Vabamorf).
For more efficient correction of learner errors, we have added a text preprocessing option that allows replacing common misspellings with predefined corrections. We are compiling an error-correction list based on the Estonian Interlanguage Corpus (EIC), taking into consideration the frequency of spelling errors and whether they prove to be problematic for the spell checker.
The spelling corrector can be used as a part of the Writing Evaluation Tool demo application, as a Python module, and through an API. We have interfaced the speller with the lemmatizer of the Stanza NLP toolkit to enhance the detection of base forms (lemmas) of words that contain a spelling error.
Authors: Marko Kollo, Kais Allkivi-Metsoja
Link: https://evkk.tlu.ee/sonarakendus/home.html
Veebirakenduse abil saab koostada tekstis esinevate sõnade loendi, järjestada sõnu sageduse alusel ja tähestikuliselt, kuvada sõnade algvormid ja vaadata sõnade kasutuskontekste. Konteksti piiritledes saab kasutaja valida, kui mitut eelnevat ja järgnevat sõna või lauset ta näha soovib. Kasutada saab ka sõnaotsingut.
Rakendus pakub tuge uurijatele ja õpetajatele tekstide sõnavarast ülevaate saamisel. Samas aitab see eesti keele kui emakeele ja teise keele õppijatel saada aimu sellest, kui sageli ja kuidas sõnu erinevates tekstides kasutatakse.
Keeleõppijatest lähtudes on lisatud võimalus vaadata sõnade tähendust EKI Sõnaveebist ja tõlkida sõna inglise, vene, saksa, soome, läti või leedu keelde Tartu Ülikooli Neurotõlke abil.
Analüüsida saab nii EVKK kogusse kuuluvaid tekste kui ka enda valitud tekste, mille saab failina üles laadida või sisestada tekstiväljale.
This web application generates a list of words found in analyzed text documents and allows one to view them together with their context. The wordlist can be sorted by frequency or alphabetically. It can contain all word forms (types) or base forms (lemmas). For displaying the context, the number of preceding and following words or sentences can be chosen. There is also a word search option.
The application can give researchers and teachers an overview of the vocabulary in given text material. At the same time, it can help learners of Estonian as a first and second language to acquire Estonian vocabulary by seeing how frequently and in which contexts words appear in various texts.
Language learners can check the word meanings in an online dictionary Sõnaveeb (WordWeb by the Institute of the Estonian Language) and translate words into several languages (English, Russian, German, Finnish, Latvian, and Lithuanian) using the machine translation engine Neurotõlge developed in the University of Tartu.
It is possible to analyze the texts from the EIC corpus as well as any other texts either uploaded from files or inserted into the text field.
Authors: Harli Kodasma, Liis Paur, Ekke Alar Toomingas, Klaus Martin Vare