Skip to content

OpenTaal/opentaal-wordlist

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

76 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

GitHub last commit GitHub commit activity GitHub Repo stars GitHub watchers GitHub Sponsors Liberapay patrons

for English, please see below

Nederlandse woordenlijst

Dit is de Nederlandse woordenlijst van Stichting OpenTaal. Mits aan volledige bronvermelding wordt gedaan en de licenties worden gerespecteerd, is deze lijst vrij te gebruiken. De exacte voorwaarden zijn te vinden in het bestand LICENSE.txt. Lees deze goed door.

logo Stichting OpenTaal

Deze woordenlijst is samengesteld door ontelbare individuele bijdragen, specifieke delen uit bronnen zonder auteursrecht en intensieve eindredactie. De woordenlijst heeft van de Taalunie het Keurmerk Spelling gekregen. Dit betekent dat de woorden in deze woordenlijst voldoen aan de officiële spelling.

logo Keurmerk Spelling

Het Keurmerk Spelling voor deze woordenlijst is van medio 2017, 2018. Sinds eind 2018 wordt dit keurmerk niet meer uitgegeven en zal bij volgende versies van deze woordenlijst niet meer van toepassing zijn.

Inhoud

De woordenlijst bestaat, naast de documentatie en licentie, uit de volgende bestanden:

  • wordlist.txt
  • datetimeversion.txt

Deze zijn aangevuld met een aantal hulpbestanden:

  • elements/basiswoorden-gekeurd.txt
  • elements/basiswoorden-ongekeurd.txt
  • elements/flexies-ongekeurd.txt
  • elements/wordparts.tsv
  • elements/corrections.tsv
  • elements/romeinse-cijfers.txt
  • elements/wordlist-ascii.txt
  • elements/wordlist-non-ascii.txt

De complete woordenlijst is te vinden in het UTF-8 Unicode tekstbestand genaamd wordlist.txt. Elke regel bevat een apart woord en in totaal zijn dat er meer dan 400.000 woorden. Let op, een woord kan een spatie bevatten en dat komt meer dan 4.000 keer voor. Alle woorden zijn alfabetisch gesorteerd met sort. Dit bestand is samengesteld uit de volgende drie bestanden.

De datum, de tijd en het versienummer van al deze bestanden is te vinden in datetimeversion.txt.

De door de Taalunie gekeurde basiswoorden zoals tafel zijn te vinden in elements/basiswoorden-gekeurd.txt. Dit zijn er ongeveer 200.000 stuks. Ongekeurde basiswoorden, eigennamen zoals Jansen, toponiemen zoals Schin op Geul en samenstellingen met een eigennaam zoals Facebookgroep zijn in het bestand elements/basiswoorden-ongekeurd.txt te vinden. Dit zijn er ongeveer 41.000 stuks. In het bestand elements/flexies-ongekeurd.txt zijn er ongeveer 170.000 ongekeurde flexies zoals stoeltjes te vinden.

Let op dat deze verdeling in oude versies van deze woordenlijst niet heel strikt was. Daardoor kunnen in de gekeurde basiswoorden kunnen ook eigennamen en flexies zitten. Dit gaat in een volgende major release worden opgelost omdat er dan vanaf een nieuw databasesysteem wordt gewerkt. Bijkomend voordeel is dat er dan ook informatie over woordtypen beschikbaar komt. Tot die tijd is het even behelpen met deze verdeling.

Er is een apart bestand met delen van woorden die een spatie bevatten. Dit is een TSV-bestand met in de tweede kolom een or meer woorden waar dit deel vandaag komt. Indien dat meerdere woorden zijn, zijn die gescheiden door een puntkomma. Dit bestand heet elements/wordparts.tsv en bevat 1.000 delen van woorden die vaak gebruikt worden. Een voorbeeld is hoc van ad hoc;post hoc. Let op, in dit bestand staan ook woorden in die niet in de woordenlijst staan maar in verkorte vorm worden gebruikt. Voorbeelden zijn voor- uit voor- en nadelen en -zus in tweelingbroer of -zus.

Ook is er een bestand met 16.000 fout gespelde woorden. Dit is elements/corrections.tsv en is ook in TSV-formaat. In de tweede kolom staan nul of meerdere correcties, gescheiden met een puntkomma. De meest relevante correctie staat dan vooraan.

Verder staan in het bestand elements/romeinse-cijfers.txt 4.000 Romeinse cijfers. Een versie van de woordenlijst in ASCII is te vinden in elements/wordlist-ascii.txt. Dit is geen extended ASCII, dus bevat deze lijst geen woorden met é, ï, etc. Let op: deze lijst heeft geen woorden waar accenten van letters zijn verwijderd! Het woord café zit niet in deze lijst maar cafe dus ook niet. Neem contact op als het wenselijk is woorden van accenten te strippen en op te nemen.

Woorden met niet-ASCII-karakters zijn te vinden in elements/wordlist-non-ascii.txt. Neem contact op als ook een woordenlijst in exteded ASCII gewenst is.

Optioneel

Het is mogelijk om in een volgende versie meerdere bestanden op te nemen, bijvoorbeeld bestanden met woorden:

  • die t.o.v. een vorige versie niet meer in de lijst voorkomen
  • die een flexie zijn met bijbehorende basisvorm
  • die een basiswoord zijn met bijbehorende flexies
  • die alternatieven van andere woorden zijn
  • die verouderd of archaïsch zijn
  • die om verwarring te voorkomen niet geschikt zijn voor spellingcontrole

Zie voorlopig de directory experimenteel. Het is ook mogelijk om maatwerkbestanden in een versie op te nemen.

Karakters

In het huidige tijdperk van Unicode is deze woordenlijst voorzien van karakters die niet deel uitmaken van (extended) ASCII. Voorbeelden hiervan zijn cijfers in super- en subscript zoals een ₂ in CO₂-emissie en ³ in m³. Let op, veelvoorkomende karakters zoals é, ë en ï maken wel deel uit van extended ASCII en Unicode maar niet van de basis ASCII.

Een ander project van OpenTaal biedt histogrammen van de letterfrequenties van de woordenlijst. Wanneer deze is bijgewerkt zal er hier een link naar worden gemaakt.

Karakters die worden gebruikt zijn:

  • a t/m z en Ã¥ ç ñ
  • A t/m Z en Ã…
  • ä ë ï ö ü en â ê î ô û
  • á é í ó ú en à è
  • 0 t/m 9 en ² ³ â‚‚
  • ' . - / + & @ €

Installatie

Besturingssystemen bieden softwarepakketten die deze woordenlijst installeren en automatisch updaten. Voorbeelden hiervan zijn:

Na installatie is de inhoud van wordlist.txt beschikbaar als het bestand

/usr/share/dict/dutch

of via de symbolische link

/usr/share/dict/nederlands

Voor andere besturingssystemen, zie https://repology.org/project/dutch/versions

Spellingcontrole

Deze woordenlijst moet niet gebruikt woorden voor een (zelfgebouwde) spellingcontrole. Het controleren van spelling en aanbieden van suggesties is in het algemeen en vooral voor het Nederlands verre van eenvoudig. Gebruik hier speciale software voor zoals Hunspell of Nuspell. In veel software zoals Chrome, Firefox, Thunderbird, LibreOffice en Adobe-producten is dit al geïntegreerd.

OpenTaal maakt hiervoor de Nederlandse spellingcontrole, zie https://github.com/OpenTaal/opentaal-hunspell voor meer informatie.

Toetsenbord

Voor Android is er een toetsenbord dat gebruik maakt van deze woordenlijst. Zie dit artikel op onze website voor meer informatie.

Wordfeud

Of een woord wel of niet wordt geaccepteerd in Wordfeud of bepaalde andere woordspellen is niet de verantwoordelijkheid van Stichting OpenTaal. Hiervoor kan het beste contact opgenomen worden met TaalTik.

Draag bij

Help ons vrije en open Nederlandse schrijftools te ontwikkelen. Doneer belastingvrij aan onze ANBI via https://www.opentaal.org/vrienden-van-opentaal of contacteer ons als je woordenlijsten of databasevaardigheden te bieden hebt.

Doneren is ook mogelijk met Donate using Liberapay

Dutch word list

This is the Dutch word list by Stichting OpenTaal. As long as full attribution is provided and the licenses are respected, this list can be used freely. The exact conditions can be found in the file LICENSE.txt. Please, read these carefully.

logo Stichting OpenTaal

This word list has been compiled from countless individual contributions, specific parts from sources without copyright and intense final editing. This list has received from the Dutch Language Union (Taalunie) the Quality Mark Spelling (Keurmerk Spelling). This means that the words in this list conforms to the official spelling.

logo Keurmerk Spelling

The Quality Mark Spelling for this word list has been given in 2017/2018. This quality mark has stopped since the end of 2018 and will not apply to future releases of this word list.

Contents

Please, see the relevant section in Dutch

Optional

Please, see the relevant section in Dutch

Characters

Please, see the relevant section in Dutch

Installation

Operating systems offer software packages which install this word list and update it automatically. Examples of this are:

After installation, the contents of wordlist.txt will be available as the file

/usr/share/dict/dutch

or via the symbolic link

/usr/share/dict/nederlands

For other operating systems, see https://repology.org/project/dutch/versions

Spell checking

This word list should not be used for (self made) spell checking. Checking spelling and offering suggestions in general and especially for Dutch is far from easy. Use special software for this such as Hunspell or Nuspell. This is already integrated in software such as Chrome, Firefox, Thunderbird, LibreOffice and Adobe products.

OpenTaal supports Dutch for these spell checkers. That is partly based on this word list but also on many custom rules, conjugations and other special cases. Additionally, these optimized spell checkers are much faster than own implementations. In the second quarter of 2020, a new version of the Dutch support for these spell checkers will be published.

OpenTaal provides the Dutch spelling checker for this, see https://github.com/OpenTaal/opentaal-hunspell for more information.

Keyboard

A keyboard for Android which uses this word list has been developed. Please, see this article on our website for more information.

Wordfeud

Whether or not a word is accepted in the Dutch version of Wordfeud or certain other Dutch word games is not the responsibility of Stichting OpenTaal. For this, please contact TaalTik.

Contribute

Please, help us create free and open Dutch writing tools. Donate tax free to our foundation at https://www.opentaal.org/vrienden-van-opentaal or contact us is you have word lists to database skills to offer.

Donating is also possible with Donate using Liberapay