Skip to content
Spell checker, morphological analyzer & thesaurus for Icelandic
Python Shell Makefile Awk JavaScript
Branch: master
Clone or download
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
langs/is Leiðrétti nokkru tilvik af þreföldum n-um þegar það áttu bara að vera… May 24, 2019
packages Remove debian package generation Nov 27, 2015
tools removed tmp folder for readability Aug 13, 2012
.gitignore Alias compress morphological data Nov 30, 2015
Makefile Alias compress morphological data Nov 30, 2015
README.md Remove debian package generation Nov 27, 2015
makealias.py Alias compress morphological data Nov 30, 2015
makedict.py Only use tabular to separate the morphological field. Nov 29, 2015
makedict.sh
makethes.awk makethes.awk: fix meaning seperation Oct 26, 2015
perf.txt Alias compress morphological data Nov 30, 2015
sortthes.py The core of hunspell-is has been rewritten. Aug 18, 2014

README.md

Ritvilluleit, málfræðigreining og samheitaorðabók

Hunspell-is er hugbúnaður sem les inn gagnabanka íslensku Wikiorðabókarinnar og útbýr:

  • orðabók fyrir villuleitarforritið Hunspell sem hægt er að nota m.a. með LibreOffice, Firefox, Thunderbird og Google Chrome. Hvert orð hefur skráðan orðflokk og beygingarlýsingu ef við á.
  • samheitaorðabók fyrir LibreOffice.

Hunspell-is er samvinnuverkefni og samskipti fara fram á póstlista (sjá einnig á vefnum).

Sækja orðabækur

Orðabækurnar fylgja með LibreOffice. Þær má einnig finna stakar í kóðasafni LibreOffice eða í pakkasafni Debian stýrikerfisins.

Málfræðigreining

Yfir 300 beygingarreglur nafnorða, sagnorða og lýsingarorða eru skráðar í íslensku Wikiorðabókinni og eru þær allar fluttar inn í hunspell-is ásamt þeim orðum sem nota reglurnar. Sem dæmi er hægt að greina orðið „á“ með skipuninni

echo á | hunspell -m -d dicts/is

sem skilar

á  st:á po:fs
á  st:eiga po:so
á  st:ær po:no is:2eó
á  st:ær po:no is:3eó
á  st:á po:no
á  st:á po:no is:3eó
á  st:á po:no is:2eó

og sjá að það tilheyrir þremur orðflokkum. Orðið er í þolfalli eða þágufalli þegar það þýðir kind en ef átt er við fljót koma þrjú eintöluföll til greina. Nefnimyndin (e. lemma) er einnig sýnd.

Forritið chmorph má nota til að umbreyta texta, t.d. setja sögn í þátíð:

echo "Strákurinn kallar á mömmu sína." > setning.txt
chmorph dicts/is.aff dicts/is.dic setning.txt "germynd-framsöguháttur-nútíð:hann" "germynd-framsöguháttur-þátíð:hann"

og útkoman verður

Strákurinn kallaði á mömmu sína.

„Hvað ef ég finn villu?“

Ef orðið er rangt skráð í íslensku Wikiorðabókinni skal lagfæra orðið þar. Orð getur einnig verið rangt skráð í orðalistanum sem notaður er til uppfyllingar. Ef svo er má hafa samband og láta fjarlægja orðið.

Þróun

Eftirfarandi skipanir sýna hvernig orðabækurnar eru útbúnar á Debian og Ubuntu stýrikerfum.

# install dependencies
sudo apt-get install bzip2 gawk bash ed coreutils make wget hunspell libmythes-dev git python3 python3-pip
sudo locale-gen is_IS.UTF-8
sudo LC_ALL=is_IS.utf8 pip3 install git+https://github.com/earwig/mwparserfromhell@87e0079512f3d85813541dc97a240713fc0b33c9

# fetch hunspell-is
git clone https://github.com/nifgraup/hunspell-is
cd hunspell-is

# generate the dictionary & thesaurus
make

# run correctness test on generated files
make check

# generate LibreOffice & Firefox extensions
make packages

Notkunarleyfi

Orðabækurnar, líkt og íslenska Wikiorðabókin, eru gefnar út skv. CC BY-SA 3.0 leyfinu. Hunspell-is hugbúnaðurinn er gefinn í almenning. Orðabækurnar notast við orðalista til uppfyllingar sem var unninn af Orðabók Háskóla Íslands ásamt Reiknistofnun Háskóla Íslands á ofanverðum tíunda áratug síðustu aldar. Sá orðalisti var gefinn út í almenningseigu (e. public domain).

You can’t perform that action at this time.