Version 1.0
Authors: Xindan Xu and Anton Karl Ingason
IceFlash 4K contains a multilingual dataset with the 4,000 most common Icelandic words according to the Tagged Icelandic Corpus, along with a printable pdf-version and a digital Anki-version of the flashcards. Currently, the flashcards are available in 4 language versions: English, Polish, Chinese and Ukrainian.
The dataset contains a variety of information about each vocabulary item, such as its frequency and rank in the corpus, part-of-speech tag, English/Polish/Ukranian/Chinese translation, a sample sentence to show the usage of the word in context, phonetic transcription, and selected conjugation forms in respect to its word category.
Below is a list of the resources used in the process:
Resource | License |
---|---|
MÍM | Special User License |
BÍN | CC BY-SA 4.0 license |
g2p-lstm | Apache License 2.0 |
ipa | MIT |
Amazon Polly | AWS Customer Agreement |
Genanki | MIT |
Knitr | GPL-2 |
Flacards | GNU General Public License |
Translation of the word list:
- English: Xindan Xu and Iðunn Kristínardóttir
- Polish: Veronika Teresa Kolka
- Ukranian: Alesia Kovalova
- Chinese: Xindan Xu
Útgáfa 1.0
Höfundar: Xindan Xu og Anton Karl Ingason
IceFlash 4K er fjölmála gagnagrunnur með 4.000 algengustu orðum íslenskrar tungu samkvæmt Markaðri íslenskri málheild, ásamt leifturminniskortum bæði á PDF-sniði sem hægt er að prenta út og Anki-sniði. Minniskortin eru til á fjórum tungumálum: ensku, pólsku, kínversku og úkraínsku.
Gagnagrunnurinn er samsettur af fjölbreyttum upplýsingum um orðin, t.d. tíðni og tíðnaröð í MÍM, marki (e. tag), enskri/pólskri/úkraínskri/kínverskri þýðingu, setningu sem sýnir notkun orðsins í samhengi, hljóðritun og hljóðskrá, og ákveðnum beygingarmyndum sem fara eftir orðflokkun.
Hér að neðan má sjá lista yfir helstu máltæknigögn og forrit sem notuð voru í verkefninu.
Gagnagrunnur | Leyfi |
---|---|
MÍM | Special User License |
BÍN | CC BY-SA 4.0 license |
g2p-lstm | Apache License 2.0 |
ipa | MIT |
Amazon Polly | AWS Customer Agreement |
Genanki | MIT |
Knitr | GPL-2 |
Flacards | GNU General Public License |
Þýðing á orðalista:
- enska: Xindan Xu and Iðunn Kristínardóttir
- pólska: Veronika Teresa Kolka
- úkraínska: Alesia Kovalova
- kínverska: Xindan Xu