# Using spaCy for Luxembourgish

Since spaCy version 2.2.2 basic support for Luxembourgish (lb) has been implemented.

Based on a few Luxembourgish examples, this notebook will illustrates some basic funtions. So far, the following  should work:

 - tokenisation
 - lemmatisation
 - POS tagging (language model needed)
 - stopword detection


In [None]:
# install spaCy (>= 2.2.2)
# python -m pip install -U spacy

# install spacy-lookup-data (needed for lemmatisation; Luxembourgish lemmatisation data is included)
# python -m pip install -U spacy-lookups-data

In [6]:
import spacy
from spacy import lang
# you need spaCy version >= 2.2.2
from spacy.lang.lb import Luxembourgish

## Basic tokenisation

In [7]:
# Create the nlp object
nlp = Luxembourgish()

# Process a text
doc = nlp("fänke mer mam groupsspapp un, e grousspapp ass ëmmer e gudden ufank.")

# list tokens + token index
for token in doc:
    print('"' + token.text + '"', token.idx)

"fänke" 0
"mer" 6
"mam" 10
"groupsspapp" 14
"un" 26
"," 28
"e" 30
"grousspapp" 32
"ass" 43
"ëmmer" 47
"e" 53
"gudden" 55
"ufank" 62
"." 67


## POS tagging and further annotation

In order to use POS tagging, a language model is needed. spaCy is not yet providing a model for Luxembourgish (see [here](https://spacy.io/usage/training) on how to train custom models). In the meantime, I've trained an own model, which can be downloaded [here](http://engelmann.uni.lu/temp/lb_model.zip).

In [18]:
# unzip lb_model.zip and reference the 'model-best' folder in 'spacy.load'
# load the language model

nlp = spacy.load("{{PATH TO YOUR/}}lb_model/model-best/", parser=False, entity=False)

In [19]:
# some Luxembourgish example texts to play with for POS tagging

doc = nlp(u"Zanter 1977 gëtt den Terrain vun der \"Lentille Terres Rouges\" net méi exploitéiert. De Projet \"Rout Lëns\" soll dem Site neit Liewen anhauchen. Zu Esch soll tëscht der Rue d'Audun an der Rue Barbourg en neie Quartier entstoe mat Wunnengen, Büroen, Butteker, klenge Firmen, Restauranten, Caféen, enger zentraler Plaz an engem ënnerierdesche Parkhaus. Déi historesch Valeur vum Site soll dobäi net zerstéiert ginn. Op ronn 11 Hektar soll de Quartier \"Rout Lëns\" en neien Espace public mat ville Gréngfläche ginn, dee Commerce, Schaffen a Liewe matenee verbënnt. A well dat Ganzt am Respekt an der Valorisatioun vun der industrieller Patrimoine soll entstoen, solle verschidden al Gebaier och net ofgerappt, mä bestoe bleiwen an an de Projet integréiert ginn. Erhale bleiwen déi al Turbinnenhal, d'Gebléishal, d'Lager, dat fréiert Stellwierk, sou wéi déi al stenge Mauer laanscht d'Rue d'Audun. RTL NEWS: De Projet gouf virgestallt. Den neie Quartier soll och eng Verbindung sinn tëscht der Brillplaz an der Hiel. D'Suitte vum Projet op d'Ëmwelt sollen esou kleng wéi méiglech bleiwen, deemno gëtt d'Bebauung, wat méi no bei Gréngflächen, och manner dicht. Ressource wéi Energie a Waasser solle mat Hëllef vu modernen Technologië verwalt ginn. En Zäitraum fir de Projet gëtt et nach net. Eleng beim Ëmsetze vum komplette Projet gëtt mat engem Zäitraum vu 15 Joer gerechent. Gebaut gëtt an Etappen, woubäi deen Deel, dee méi no beim Zentrum läit, den Ufank mécht.")
#doc = nlp(u"Ech fannen et net normal wann Leit dei schon‘s esou laang hei liewen keen Letzebuergesch schwetzen, si kreien dei Letzebuergesch Nationaliteit, a schwetzen net eis Sprooch, a wou get et dat soss an Europa. Kann ech nemmen de Kapp reselen. Wann ech an engem aneren Land liewen, passen ech mech un. Lescht war ech an engem Supermarché an du soutz een aus dem Orient an der Keiss, ech war positiv iwwerrascht, hien huet gudd eis Sprooch geschwaat, hien wier erreicht 3 Joer hei am Land. Ech hun dei Persoun missten luewen (wat ech dann emmer maachen) hien geif an Oweskueren goen, all mein Respekt, et geet dach, wann een well. An Frontalien brengen et mol net ferdeg Moien an Äddi ze soen, dat nennen ech, keen Respekt, si verdingen jo schliesslech hiert Geld hei.")
#doc = nlp(u"Majo! Ech mengen emol,domat hat t'CSV nëtt esou richtég gerechent. T'Sach ass einfach : t'CSV kann nëmmen an t'Regierung,wann een vun denen drei déi bis elo an der Regierung waren mat der CSV zesummen gét. Sollten DP,LSAP an déi Grëng séch eens ginn,weider 5 Johr drun ze hänken,dann hun sie mat 31 Sëtzer t'Majoritéit an t'CSV dirf dann nach weider 5 Johr an t'Oppositioun. Ech sinn emol gespant wéi dat do aus gét. Ann schons sinn mier nees beim Wielerwellen. Ech gesinn dass LSAP massiv verluer hued ann ‘DP mamm Premierbonus keen iwerzeegend Resultaat haat .Ann dann ass nach doo och nach schlisslech d’Zuel vunn den Setz.")
#doc = nlp(u"Am Schlass hieft Fuuss de Schwänzchen / Sou riicht als wi e Poul, / Geet matzen duerch seng Feinden / Eeriicht zum Kinneksstoul. // E setzt sech duer op d'Knéien, / De Kinnek kuckt ewech. / De Fuuss fängt un ze léien, / An all Äbléck méi frech: / Här Kinnek, kënnt dir liesen / Op jéidem senger Stir, / A stéing hir Schold / Geschriwwenop allen hirer dir; / Kënnt dir an d'Häerzer kucken / Wi an eng Wisebaach: / Da kéim elo meng Onschold / Hei huerteg un den Dag.")
#doc = nlp(u"Waat wells de machen. Den ganzen commerce sekteur get vun den frontaliers iwerholl. An zwar net nemmen Arbechtskraft, vill Patron machen Geschäfter op. Wei bei mir, ugefaangen mat engem klengen Geschäft virun Joeren, daat war gudd gangen, dunn en zweet an en drett. Arbeschter waren frontaliers mee och Letzebuerger. (Wahrscheinlech kruut en Geld vum Staat) elo as daat fenneft geschäft opgemacht gin, an et schafft juste nach een Letzebuerger do, an zwar sin ech daat. Den Recht alles nemmen frontaliers, dei och eng aaner Religioun hun🤔🤬. An esou as daat iwerall esoulues. Ech fannen daat perséinlech guer net méi gut.")

In [20]:
# print results from POS tagging
# token   lemma    POS   stopword?   punct?   space?   shape

for token in doc:
    print("{0}\t{1}\t{2}\t{3}\t{4}\t{5}\t{6}\t{7}".format(
        token.text,
        token.lemma_,
        token.tag_,
        token.is_stop,
        token.is_punct,
        token.is_space,
        token.shape_,
        token.is_alpha
    ))

Zanter	Zanter	N	True	False	False	Xxxxx	True
1977	1977	NUM	False	False	False	dddd	False
gëtt	ginn	AUX	True	False	False	xxxx	True
den	den	D	True	False	False	xxx	True
Terrain	Terrain	N	False	False	False	Xxxxx	True
vun	vun	APPR	True	False	False	xxx	True
der	der	D	True	False	False	xxx	True
"	"	$	False	True	False	"	False
Lentille	Lentille	N	False	False	False	Xxxxx	True
Terres	Terres	N	False	False	False	Xxxxx	True
Rouges	Rouges	N	False	False	False	Xxxxx	True
"	"	$	False	True	False	"	False
net	net	PTK	True	False	False	xxx	True
méi	méi	AV	True	False	False	xxx	True
exploitéiert	exploitéieren	V	False	False	False	xxxx	True
.	.	$	False	True	False	.	False
De	De	D	True	False	False	Xx	True
Projet	Projet	N	False	False	False	Xxxxx	True
"	"	$	False	True	False	"	False
Rout	Rout	N	False	False	False	Xxxx	True
Lëns	Lëns	N	False	False	False	Xxxx	True
"	"	$	False	True	False	"	False
soll	sollen	MV	False	False	False	xxxx	True
dem	dem	D	True	False	False	xxx	True
Site	Site	N	False	False	False	Xxxx	True
neit	nei	AD

## Amazing :-)

# Todos

- tokenisation of the frequent cliticisation of definite article *d'* with the following noun: At the moment this combination is still treated as one word, e.g. *d'Kanner*. However, all *d'*s have to be tokenised as isolated words, i.e. *[d'] [Kanner]*
- write tokoenisation exception rules for multi-token words, e.g. *op d'mannst, fir d'éischt*
- enlarge the lists for abbreviations
- find a way to deal with the tremendous amount of spelling variation for Luxembourgish, which although a standardised spelling exists, is written in zillions of different ways. Common spelling variants could be integrated into the exception lists, e.g.
- improve the language model (more POS training data, syntactic annotations etc.)
- integrate NER
- integrate word vectors

@PeterGilles, Allerhellegen 2019