# Language Technology - 1st Tutorial on NLTK (Natural Language Toolkit) + spaCy 


----
## Important Resources

Language Technology Resources: https://eclass.aueb.gr/modules/document/index.php?course=INF210

Python Official Documentation: https://docs.python.org/3.5/

Python Tutorial: https://www.tutorialspoint.com/python/

Anaconda Platform: https://www.continuum.io/downloads

NLTK: http://www.nltk.org/

spaCy: https://spacy.io

----

## Tutorial 1 Schedule

**In order to familiarize ourselves with the Natural Language Processing, we will introduce the very basic tools of NLTK (Natural Language Toolkit) library and the pipeline of spaCy library. **

** This introduction will help us to do so, by presenting the following sections: **

* ** Corpora **
* ** Sentence Splitting **
* ** Word Tokenization **
* ** N-grams **
* ** POS tagging **
* ** Named Entity Recognition **
* ** Custom Tokenizer - Tagger **




# NLTK (Natural Language Toolkit)

----
# Corpora

Many python libraries provide large text corpora to work with. Many text corpora contain linguistic annotations, representing POS tags, named entities, syntactic structures, semantic roles, and so forth. Τhere are also raw text corpora. Mainly corpora have specific domains (e.g., news, books, movies, legal) and can produce completely different results with respect to domain.

(Download NLTK data http://www.nltk.org/data.html)

(OPTIONAL: Download and unzip “text8” corpus from http://mattmahoney.net/dc/text8.zip)

** Python Code Example **

In [None]:
#Download NLTK data
#import nltk
#nltk.download()

# Load Gutenberg books from corpus
from nltk.corpus import gutenberg

# Load Moby Dick in raw format
moby_dick = gutenberg.raw('melville-moby_dick.txt')

# Print a small text sample
print('Moby Dick sample')
print('====================')
print(moby_dick[117:445])

# Load text8 corpus from file
#text8_lines = []
#for line in open('text8', encoding="utf8"):
#    text8_lines.append('{0}'.format(line))
#text8 = ''.join(text8_lines)

# Print a small text sample
#print('Text8 Sample: {0}'.format(text8[:300]))


----
# Sentence splitting

There are several tasks that require sentence splitting / tokenization. 

** Python Code Example **

In [None]:
# Import NLTK sentence tokenization
from nltk.tokenize import sent_tokenize

# Build sentences' comprehensive list
sentences = [sent for sent in sent_tokenize(moby_dick[117:])]

# Print a small sample of sentences
for (i,sent) in enumerate(sentences[:3]):
    print('Sentence {0}: {1}'.format(i+1,sent))

----
# Word Tokenization

Word tokenization is also important. It is used to build word sequences / lists in order to proceed in linguistic experiments.

** Python Code Example **

In [None]:
# Import NLTK word tokenization
from nltk.tokenize import word_tokenize

# Build word sequences from sentences
word_sequences = [word_tokenize(sentence) for sentence in sentences]

# Print a small sample of word sequences
for (i,word_seq) in enumerate(word_sequences[:3]):
    print('Word sequence {0}: {1}'.format(i+1,word_seq))



There is not a single way to tokenize all kind of texts, coming from different domains and sources. For this reason we may need to use specialized tokenizer that fit curtain areas (domains) (e.g., tweets, medical text, legal text, etc.)

** Python Code Example **

In [None]:
tweet = "Hello, world! We're a Natural Language Understanding research group lead by @IAugenstein, at @DIKU_Institut @uni_copenhagenWe're interested in #ML research on learning with limited data, and #NLProc tasks such as fact checking, knowledge base population & question answering."

print('DEFAULT TOKENIZER')
print('=================')
print(word_tokenize(tweet))

from nltk.tokenize import TweetTokenizer
tweet_tokenizer = TweetTokenizer()

print('TWEET TOKENIZER')
print('=================')
print(tweet_tokenizer.tokenize(tweet))

----
# N-grams

n-gram: sequence of n consecutive words.

** Python Code Example **

In [None]:
# Import NLTK ngrams
from nltk import ngrams

# Define n
n = 3

# Call ngrams over word_tokenize
trigrams = ngrams(word_tokenize(moby_dick[117:445]), n)


for (i,gram) in enumerate(trigrams):
  print('Gram {0}: {1}'.format(i,gram))

----

# spaCy

----
# spaCy Pipeline All-in-One

spaCy in contrast with NLTK works a single pipeline including (tokenization, tagging, named-entity-recognition, depedency parsing, sentence splitting)

** Python Code Example **

In [None]:
# pip install spacy
# python -m spacy download en_core_web_sm

import spacy

# Load NLP pipeline processor
nlp = spacy.load('en')

# Build a document model that contains all useful information
doc = nlp(moby_dick[117:445].replace('\n', ' '))

print('{:15} {:15} {:15} {:15} {:15} {:15} {:15}'.format('TOKEN', 'NORM', 'LEMMA', 'POS', 'DEPENDENCY', 'SHAPE', 'ALPHA'))
print('=================================================================================================================')
for token in doc:
    print('{:15} {:15} {:15} {:15} {:15} {:15} {:15}'.
          format(token.text, token.norm_, token.lemma_, token.pos_, 
                 token.dep_, token.shape_, token.is_alpha))

----
# Sentence splitting

** Python Code Example **

In [None]:
# Build a document model that contains all useful information
doc = nlp(moby_dick[117:445])

# Print a small sample of sentences
for (i,sent) in enumerate(doc.sents):
    print('Sentence {0}: {1}'.format(i+1,sent))

----
# spaCy Dependency Parser + Displacy Vizualizer

** Python Code Example **

In [None]:
from spacy import displacy

for i, sent in enumerate(doc.sents):
    print('SENTENCE #{}'.format(i+1))
    sent = nlp(sent.text)
    displacy.render(sent, style='dep', jupyter=True)

In [None]:
sent = nlp('I have a black dog, who ate my splippers.')
displacy.render(sent, style='dep', jupyter=True)

----
# Named-Entity Recognition

** Python Code Example **

In [None]:
# Parse News article
doc = nlp('Donald Trump has vowed to declare a national emergency as a way of funding his long-promised border wall with Mexico, as Congress overwhelmingly approved a border security agreement that would prevent a second damaging government shutdown.')


print('{:15} {:15} {:15} {:15}'.format('ENTITY', 'START', 'END', 'LABEL'))
print('=======================================================================')

# Print Named Entities
for ent in doc.ents:
    print('{:15} {:15} {:15} {:15}'.format(ent.text, ent.start_char, ent.end_char, ent.label_))

In [None]:
from spacy import displacy

displacy.render(doc, style='ent', jupyter=True)

----

# Custom Pipeline - Tokenizer

As we already mentioned, one pipeline or tokenizer does not fit all use cases. Consider Greek legislation that may have many different codes of legal references, as also many abbreviations for ministries, offices, etc.

** Python Code Example **

In [None]:
fragment = "1 Κήρυξη ως αναδασωτέας έκτασης εμβαδού 1.275,22 τ.μ. στη θέση «Πλατάνι» δ.κ. Παππάδου, δημ. ενοτ. Γέρας, Δήμου Λέσβου.\nΟ ΓΕΝΙΚΟΣ ΓΡΑΜΜΑΤΕΑΣ ΑΠΟΚΕΝΤΡΩΜΕΝΗΣ ΔΙΟΙΚΗΣΗΣ ΑΙΓΑΙΟΥ\nΈχοντας υπόψη:\n1. Τις διατάξεις των άρθρων 24 παρ. 1 και 117 παρ. 3 του Συντάγματος.\n2. Τις διατάξεις του ν. 998/1979 «περί προστασίας των Δασών κ.λ.π.» και ειδικότερα τα άρθρα 41 παρ. 1 και 38 παρ. 1. \n3. Τις διατάξεις του άρθρου 6 του ν. 3200/1955 «Περί διοικητικής αποκεντρώσεως» (ΦΕΚ 97/τ.Α΄/23-04-1955), όπως τροποποιήθηκε και συμπληρώθηκε μεταγενέστερα με το ν.δ. 532/1970 (ΦΕΚ 103/τ.Α΄/05-05-1970). \n4. Τις διατάξεις των άρθρων 6 και 280 του ν. 3852/2010 «Νέα Αρχιτεκτονική της Αυτοδιοίκησης και της Αποκεντρωμένης Διοίκησης - Πρόγραμμα Καλλικράτης» (ΦΕΚ 87/τ. Α΄/07-06-2010) και το π.δ. 143/2010 «Οργανισμός της Αποκεντρωμένης Διοίκησης Αιγαίου» (ΦΕΚ 236/τ.Α΄/27-12-2010).\n5. Τις διατάξεις του ν. 3861/2010 (ΦΕΚ 112/τ.Α΄/13-7-2010) «Ενίσχυση της διαφάνειας με την υποχρεωτική ανάρτηση νόμων και πράξεων των κυβερνητικών, διοικητικών και αυτοδιοικητικών οργάνων στο διαδίκτυο «Πρόγραμμα Διαύγεια» και άλλες διατάξεις»."
print('FRAGMENT FROM GOVERNMENT GAZETTE ISSUE D/2 OF 20.01.2017')
print('=========================================================')
print(fragment)

In [None]:
# Load NLP pipeline processor
nlp = spacy.load('en')

# Build a document model that contains all useful information
doc = nlp(fragment.replace('\n', ' '))

print('{:20} {:20} {:20} {:20} {:20}'.format('TOKEN', 'NORM', 'SHAPE', 'TAG', 'ALPHA'))
print('============================================================================================')
for token in doc:
    print('{:20} {:20} {:20} {:20} {:20}'.
          format(token.text, token.norm_, token.shape_, token.tag_, token.is_alpha))

----
We need to set our own rules in order to fix the errors

** Python Code Example **

In [None]:
case_rules = []

rules = [

    # NEWLINE
    (u'\n', [(u'\n', u'\n', u'NEWLINE')]),

    # νόμος
    (u'ν.', [(u'ν.', u'ν.', u'ABBR')]),
    (u'Ν.', [(u'Ν.', u'Ν.', u'ABBR')]),
    (u'Νόμ.', [(u'Νόμ.', u'Νόμ.', u'ABBR')]),
    (u'νόμ.', [(u'νόμ.', u'νόμ.', u'ABBR')]),

    # νομικό
    (u'νομικ.', [(u'νομικ.', u'νομικ.', u'ABBR')]),
    (u'Νομικ.', [(u'Νομικ.', u'Νομικ.', u'ABBR')]),
    (u'ΝΟΜΙΚ.', [(u'ΝΟΜΙΚ.', u'ΝΟΜΙΚ.', u'ABBR')]),

    # πράξη
    (u'πραξ.', [(u'πραξ.', u'πραξ.', u'ABBR')]),
    (u'Πραξ.', [(u'Πραξ.', u'Πραξ.', u'ABBR')]),
    (u'ΠΡΑΞ.', [(u'ΠΡΑΞ.', u'ΠΡΑΞ.', u'ABBR')]),
    (u'Πράξ.', [(u'Πράξ.', u'Πράξ.', u'ABBR')]),
    (u'πρ.', [(u'πρ.', u'πρ.', u'ABBR')]),
    (u'Πρ.', [(u'Πρ.', u'Πρ.', u'ABBR')]),
    (u'ΠΡ.', [(u'ΠΡ.', u'ΠΡ.', u'ABBR')]),

    # νομοθετικό
    (u'νομοθετικ.', [(u'νομοθετικ.', u'νομοθετικ.', u'ABBR')]),
    (u'νομοθετ.', [(u'νομοθετ.', u'νομοθετ.', u'ABBR')]),
    (u'νομοθ.', [(u'νομοθ.', u'νομοθ.', u'ABBR')]),
    (u'νομ.', [(u'νομ.', u'νομ.', u'ABBR')]),
    (u'Νομοθετικ.', [(u'Νομοθετικ.', u'Νομοθετικ.', u'ABBR')]),
    (u'Νομοθετ.', [(u'Νομοθετ.', u'Νομοθετ.', u'ABBR')]),
    (u'Νομοθ.', [(u'Νομοθ.', u'Νομοθ.', u'ABBR')]),
    (u'Νομ.', [(u'Νομ.', u'Νομ.', u'ABBR')]),
    (u'ΝΟΜΟΘΕΤΙΚ.', [(u'ΝΟΜΟΘΕΤΙΚ.', u'ΝΟΜΟΘΕΤΙΚ.', u'ABBR')]),
    (u'ΝΟΜΟΘΕΤ.', [(u'ΝΟΜΟΘΕΤ.', u'ΝΟΜΟΘΕΤ.', u'ABBR')]),
    (u'ΝΟΜΟΘ.', [(u'ΝΟΜΟΘ.', u'ΝΟΜΟΘ.', u'ABBR')]),
    (u'ΝΟΜ.', [(u'ΝΟΜ.', u'ΝΟΜ.', u'ABBR')]),

    # περιεχόμενο
    (u'περιεχομ.', [(u'περιεχομ.', u'περιεχομ.', u'ABBR')]),
    (u'περιεχ.', [(u'περιεχ.', u'περιεχ.', u'ABBR')]),
    (u'περ.', [(u'περ.', u'περ.', u'ABBR')]),
    (u'Περιεχομ.', [(u'Περιεχομ.', u'Περιεχομ.', u'ABBR')]),
    (u'Περιεχ.', [(u'Περιεχ.', u'Περιεχ.', u'ABBR')]),
    (u'Περ.', [(u'Περ.', u'Περ.', u'ABBR')]),
    (u'ΠΕΡΙΕΧΟΜ.', [(u'ΠΕΡΙΕΧΟΜ.', u'ΠΕΡΙΕΧΟΜ.', u'ABBR')]),
    (u'ΠΕΡΙΕΧ.', [(u'ΠΕΡΙΕΧ.', u'ΠΕΡΙΕΧ.', u'ABBR')]),
    (u'ΠΕΡ.', [(u'ΠΕΡ.', u'ΠΕΡ.', u'ABBR')]),

    # προεδρικό
    (u'προεδρικ.', [(u'προεδρικ.', u'προεδρικ.', u'ABBR')]),
    (u'προεδρ.', [(u'προεδρ.', u'προεδρ.', u'ABBR')]),
    (u'προεδ.', [(u'προεδ.', u'προεδ.', u'ABBR')]),
    (u'Προεδρικ.', [(u'Προεδρικ.', u'Προεδρικ.', u'ABBR')]),
    (u'Προεδρ.', [(u'Προεδρ.', u'Προεδρ.', u'ABBR')]),
    (u'Προεδ.', [(u'Προεδ.', u'Προεδ.', u'ABBR')]),
    (u'ΠΡΟΕΔΡΙΚ.', [(u'ΠΡΟΕΔΡΙΚ.', u'ΠΡΟΕΔΡΙΚ.', u'ABBR')]),
    (u'ΠΡΟΕΔΡ.', [(u'ΠΡΟΕΔΡ.', u'ΠΡΟΕΔΡ.', u'ABBR')]),
    (u'ΠΡΟΕΔ.', [(u'ΠΡΟΕΔ.', u'ΠΡΟΕΔ.', u'ABBR')]),

    # διάταγμα
    (u'διαταγμ.', [(u'διαταγμ.', u'διαταγμ.', u'ABBR')]),
    (u'διαταγ.', [(u'διαταγ.', u'διαταγ.', u'ABBR')]),
    (u'διατ.', [(u'διατ.', u'διατ.', u'ABBR')]),
    (u'διατάγμ.', [(u'διατάγμ.', u'διατάγμ.', u'ABBR')]),
    (u'διατάγ.', [(u'διατάγ.', u'διατάγ.', u'ABBR')]),
    (u'διάταγμ.', [(u'διάταγμ.', u'διάταγμ.', u'ABBR')]),
    (u'διάταγ.', [(u'διάταγ.', u'διάταγ.', u'ABBR')]),
    (u'διάτ.', [(u'διάτ.', u'διάτ.', u'ABBR')]),
    (u'Διαταγμ.', [(u'Διαταγμ.', u'Διαταγμ.', u'ABBR')]),
    (u'Διαταγ.', [(u'Διαταγ.', u'Διαταγ.', u'ABBR')]),
    (u'Διατ.', [(u'Διατ.', u'Διατ.', u'ABBR')]),
    (u'Διατάγμ.', [(u'Διατάγμ.', u'Διατάγμ.', u'ABBR')]),
    (u'Διατάγ.', [(u'Διατάγ.', u'Διατάγ.', u'ABBR')]),
    (u'Διάταγμ.', [(u'Διάταγμ.', u'Διάταγμ.', u'ABBR')]),
    (u'Διάταγ.', [(u'Διάταγ.', u'Διάταγ.', u'ABBR')]),
    (u'Διάτ.', [(u'Διάτ.', u'Διάτ.', u'ABBR')]),
    (u'ΔΙΑΤΑΓΜ.', [(u'ΔΙΑΤΑΓΜ.', u'ΔΙΑΤΑΓΜ.', u'ABBR')]),
    (u'ΔΙΑΤΑΓ.', [(u'ΔΙΑΤΑΓ.', u'ΔΙΑΤΑΓ.', u'ABBR')]),
    (u'ΔΙΑΤ.', [(u'ΔΙΑΤ.', u'ΔΙΑΤ.', u'ABBR')]),

    # κοινή/κοινές/κοινών
    (u'κοιν.', [(u'κοιν.', u'κοιν.', u'ABBR')]),
    (u'Κοιν.', [(u'Κοιν.', u'Κοιν.', u'ABBR')]),
    (u'ΚΟΙΝ.', [(u'ΚΟΙΝ.', u'ΚΟΙΝ.', u'ABBR')]),

    # υπουργική
    (u'υπουργικ.', [(u'υπουργικ.', u'υπουργικ.', u'ABBR')]),
    (u'υπουργ.', [(u'υπουργ.', u'υπουργ.', u'ABBR')]),
    (u'υπουρ.', [(u'υπουρ.', u'υπουρ.', u'ABBR')]),
    (u'υπ.', [(u'υπ.', u'υπ.', u'ABBR')]),
    (u'Υπουργικ.', [(u'Υπουργικ.', u'Υπουργικ.', u'ABBR')]),
    (u'Υπουργ.', [(u'Υπουργ.', u'Υπουργ.', u'ABBR')]),
    (u'Υπουρ.', [(u'Υπουρ.', u'Υπουρ.', u'ABBR')]),
    (u'Υπ.', [(u'Υπ.', u'υπ.', u'ABBR')]),
    (u'ΥΠΟΥΡΓΙΚ.', [(u'ΥΠΟΥΡΓΙΚ.', u'ΥΠΟΥΡΓΙΚ.', u'ABBR')]),
    (u'ΥΠΟΥΡΓ.', [(u'ΥΠΟΥΡΓ.', u'ΥΠΟΥΡΓ.', u'ABBR')]),
    (u'ΥΠΟΥΡ.', [(u'ΥΠΟΥΡ.', u'ΥΠΟΥΡ.', u'ABBR')]),
    (u'ΥΠ.', [(u'ΥΠ.', u'ΥΠ.', u'ABBR')]),

    # απόφαση
    (u'αποφασ.', [(u'αποφασ.', u'αποφασ.', u'ABBR')]),
    (u'αποφ.', [(u'αποφ.', u'αποφ.', u'ABBR')]),
    (u'απ.', [(u'απ.', u'απ.', u'ABBR')]),
    (u'αποφάσ.', [(u'αποφάσ.', u'αποφάσ.', u'ABBR')]),
    (u'απόφασ.', [(u'απόφασ.', u'απόφασ.', u'ABBR')]),
    (u'απόφ.', [(u'απόφ.', u'απόφ.', u'ABBR')]),
    (u'Αποφασ.', [(u'Αποφασ.', u'Αποφασ.', u'ABBR')]),
    (u'Αποφ.', [(u'Αποφ.', u'Αποφ.', u'ABBR')]),
    (u'Απ.', [(u'Απ.', u'Απ.', u'ABBR')]),
    (u'Αποφάσ.', [(u'Αποφάσ.', u'Αποφάσ.', u'ABBR')]),
    (u'Απόφασ.', [(u'Απόφασ.', u'Απόφασ.', u'ABBR')]),
    (u'Απόφ.', [(u'Απόφ.', u'Απόφ.', u'ABBR')]),
    (u'ΑΠΟΦΑΣ.', [(u'ΑΠΟΦΑΣ.', u'ΑΠΟΦΑΣ.', u'ABBR')]),
    (u'ΑΠΟΦ.', [(u'ΑΠΟΦ.', u'ΑΠΟΦ.', u'ABBR')]),
    (u'ΑΠ.', [(u'ΑΠ.', u'ΑΠ.', u'ABBR')]),

    # βασικός/βασική/βασικό
    (u'βασικ.', [(u'βασικ.', u'βασικ.', u'ABBR')]),
    (u'βασ.', [(u'βασ.', u'βασ.', u'ABBR')]),
    (u'Βασικ.', [(u'Βασικ.', u'Βασικ.', u'ABBR')]),
    (u'Βασ.', [(u'Βασ.', u'Βασ.', u'ABBR')]),
    (u'ΒΑΣΙΚ.', [(u'ΒΑΣΙΚ.', u'ΒΑΣΙΚ.', u'ABBR')]),
    (u'ΒΑΣ.', [(u'ΒΑΣ.', u'ΒΑΣ.', u'ABBR')]),

    # εγκύκλιος
    (u'εγκυκλ.', [(u'εγκυκλ.', u'εγκυκλ.', u'ABBR')]),
    (u'εγκυκ.', [(u'εγκυκ.', u'εγκυκ.', u'ABBR')]),
    (u'εγκ.', [(u'εγκ.', u'εγκ.', u'ABBR')]),
    (u'εγκύκλ.', [(u'εγκύκλ.', u'εγκύκλ.', u'ABBR')]),
    (u'εγκύκ.', [(u'εγκύκ.', u'εγκύκ.', u'ABBR')]),
    (u'Εγκυκλ.', [(u'Εγκυκλ.', u'Εγκυκλ.', u'ABBR')]),
    (u'Εγκυκ.', [(u'Εγκυκ.', u'Εγκυκ.', u'ABBR')]),
    (u'Εγκ.', [(u'Εγκ.', u'Εγκ.', u'ABBR')]),
    (u'Εγκύκλ.', [(u'Εγκύκλ.', u'Εγκύκλ.', u'ABBR')]),
    (u'Εγκύκ.', [(u'Εγκύκ.', u'Εγκύκ.', u'ABBR')]),
    (u'ΕΓΚΥΚΛ.', [(u'ΕΓΚΥΚΛ.', u'ΕΓΚΥΚΛ.', u'ABBR')]),
    (u'ΕΓΚΥΚ.', [(u'ΕΓΚΥΚ.', u'ΕΓΚΥΚ.', u'ABBR')]),
    (u'ΕΓΚ.', [(u'ΕΓΚ.', u'ΕΓΚ.', u'ABBR')]),

    # ερμηνευτικός/ερμηνευτική/ερμηνευτικό
    (u'ερμηνευτικ.', [(u'ερμηνευτικ.', u'ερμηνευτικ.', u'ABBR')]),
    (u'ερμηνευτ.', [(u'ερμηνευτ.', u'ερμηνευτ.', u'ABBR')]),
    (u'ερμην.', [(u'ερμην.', u'ερμην.', u'ABBR')]),
    (u'ερμ.', [(u'ερμ.', u'ερμ.', u'ABBR')]),
    (u'ερ.', [(u'ερ.', u'ερ.', u'ABBR')]),
    (u'Ερμηνευτικ.', [(u'Ερμηνευτικ.', u'Ερμηνευτικ.', u'ABBR')]),
    (u'Ερμηνευτ.', [(u'Ερμηνευτ.', u'Ερμηνευτ.', u'ABBR')]),
    (u'Ερμην.', [(u'Ερμην.', u'Ερμην.', u'ABBR')]),
    (u'Ερμ.', [(u'Ερμ.', u'Ερμ.', u'ABBR')]),
    (u'Ερ.', [(u'Ερ.', u'Ερ.', u'ABBR')]),
    (u'ΕΡΜΗΝΕΥΤΙΚ.', [(u'ΕΡΜΗΝΕΥΤΙΚ.', u'ΕΡΜΗΝΕΥΤΙΚ.', u'ABBR')]),
    (u'ΕΡΜΗΝΕΥΤ.', [(u'ΕΡΜΗΝΕΥΤ.', u'ΕΡΜΗΝΕΥΤ.', u'ABBR')]),
    (u'ΕΡΜΗΝ.', [(u'ΕΡΜΗΝ.', u'ΕΡΜΗΝ.', u'ABBR')]),
    (u'ΕΡΜ.', [(u'ΕΡΜ.', u'ΕΡΜ.', u'ABBR')]),
    (u'ΕΡ.', [(u'ΕΡ.', u'ΕΡ.', u'ABBR')]),

    # οδηγία
    (u'οδηγ.', [(u'οδηγ.', u'οδηγ.', u'ABBR')]),
    (u'οδ.', [(u'οδ.', u'οδ.', u'ABBR')]),
    (u'Οδηγ.', [(u'Οδηγ.', u'Οδηγ.', u'ABBR')]),
    (u'Οδ.', [(u'Οδ.', u'Οδ.', u'ABBR')]),
    (u'ΟΔΗΓ.', [(u'ΟΔΗΓ.', u'ΟΔΗΓ.', u'ABBR')]),
    (u'ΟΔ.', [(u'ΟΔ.', u'ΟΔ.', u'ABBR')]),

    # κανονιστικός/κανονιστική/κανονιστικό
    (u'κανονιστικ.', [(u'κανονιστικ.', u'κανονιστικ.', u'ABBR')]),
    (u'κανονιστ.', [(u'κανονιστ.', u'κανονιστ.', u'ABBR')]),
    (u'κανονισ.', [(u'κανονισ.', u'κανονισ.', u'ABBR')]),
    (u'κανον.', [(u'κανον.', u'κανον.', u'ABBR')]),
    (u'καν.', [(u'καν.', u'καν.', u'ABBR')]),
    (u'Κανονιστικ.', [(u'Κανονιστικ.', u'Κανονιστικ.', u'ABBR')]),
    (u'Κανονιστ.', [(u'Κανονιστ.', u'Κανονιστ.', u'ABBR')]),
    (u'Κανονισ.', [(u'Κανονισ.', u'Κανονισ.', u'ABBR')]),
    (u'Κανον.', [(u'Κανον.', u'Κανον.', u'ABBR')]),
    (u'Καν.', [(u'Καν.', u'Καν.', u'ABBR')]),
    (u'ΚΑΝΟΝΙΣΤΙΚ.', [(u'ΚΑΝΟΝΙΣΤΙΚ.', u'ΚΑΝΟΝΙΣΤΙΚ.', u'ABBR')]),
    (u'ΚΑΝΟΝΙΣΤ.', [(u'ΚΑΝΟΝΙΣΤ.', u'ΚΑΝΟΝΙΣΤ.', u'ABBR')]),
    (u'ΚΑΝΟΝΙΣ.', [(u'ΚΑΝΟΝΙΣ.', u'ΚΑΝΟΝΙΣ.', u'ABBR')]),
    (u'ΚΑΝΟΝ.', [(u'ΚΑΝΟΝ.', u'ΚΑΝΟΝ.', u'ABBR')]),
    (u'ΚΑΝ.', [(u'ΚΑΝ.', u'ΚΑΝ.', u'ABBR')]),

    # αναγκαστικός/αναγκαστική/αναγκαστικό
    (u'αναγκαστικ.', [(u'αναγκαστικ.', u'αναγκαστικ.', u'ABBR')]),
    (u'αναγκαστ.', [(u'αναγκαστ.', u'αναγκαστ.', u'ABBR')]),
    (u'αναγκασ.', [(u'αναγκασ.', u'αναγκασ.', u'ABBR')]),
    (u'αναγκ.', [(u'αναγκ.', u'αναγκ.', u'ABBR')]),
    (u'αν.', [(u'αν.', u'αν.', u'ABBR')]),
    (u'Αναγκαστικ.', [(u'Αναγκαστικ.', u'Αναγκαστικ.', u'ABBR')]),
    (u'Αναγκαστ.', [(u'Αναγκαστ.', u'Αναγκαστ.', u'ABBR')]),
    (u'Αναγκασ.', [(u'Αναγκασ.', u'Αναγκασ.', u'ABBR')]),
    (u'Αναγκ.', [(u'Αναγκ.', u'Αναγκ.', u'ABBR')]),
    (u'Αν.', [(u'Αν.', u'Αν.', u'ABBR')]),
    (u'ΑΝΑΓΚΑΣΤΙΚ.', [(u'ΑΝΑΓΚΑΣΤΙΚ.', u'ΑΝΑΓΚΑΣΤΙΚ.', u'ABBR')]),
    (u'ΑΝΑΓΚΑΣΤ.', [(u'ΑΝΑΓΚΑΣΤ.', u'ΑΝΑΓΚΑΣΤ.', u'ABBR')]),
    (u'ΑΝΑΓΚΑΣ.', [(u'ΑΝΑΓΚΑΣ.', u'ΑΝΑΓΚΑΣ.', u'ABBR')]),
    (u'ΑΝΑΓΚ.', [(u'ΑΝΑΓΚ.', u'ΑΝΑΓΚ.', u'ABBR')]),
    (u'ΑΝ.', [(u'ΑΝ.', u'ΑΝ.', u'ABBR')]),

    # βασιλικό
    (u'βασιλικ.', [(u'βασιλικ.', u'βασιλικ.', u'ABBR')]),
    (u'βασιλ.', [(u'βασιλ.', u'βασιλ.', u'ABBR')]),
    (u'βασ.', [(u'βασ.', u'βασ.', u'ABBR')]),
    (u'Βασιλικ.', [(u'Βασιλικ.', u'Βασιλικ.', u'ABBR')]),
    (u'Βασιλ.', [(u'Βασιλ.', u'Βασιλ.', u'ABBR')]),
    (u'Βασ.', [(u'Βασ.', u'Βασ.', u'ABBR')]),
    (u'ΒΑΣΙΛΙΚ.', [(u'ΒΑΣΙΛΙΚ.', u'ΒΑΣΙΛΙΚ.', u'ABBR')]),
    (u'ΒΑΣΙΛ.', [(u'ΒΑΣΙΛ.', u'ΒΑΣΙΛ.', u'ABBR')]),
    (u'ΒΑΣ.', [(u'ΒΑΣ.', u'ΒΑΣ.', u'ABBR')]),

    # κωδικοποίηση
    (u'κωδικοπ.', [(u'κωδικοπ.', u'κωδικοπ.', u'ABBR')]),
    (u'κωδικ.', [(u'κωδικ.', u'κωδικ.', u'ABBR')]),
    (u'κωδ.', [(u'κωδ.', u'κωδ.', u'ABBR')]),
    (u'Κωδικοπ.', [(u'Κωδικοπ.', u'Κωδικοπ.', u'ABBR')]),
    (u'Κωδικ.', [(u'Κωδικ.', u'Κωδικ.', u'ABBR')]),
    (u'Κωδ.', [(u'Κωδ.', u'Κωδ.', u'ABBR')]),
    (u'ΚΩΔΙΚΟΠ.', [(u'ΚΩΔΙΚΟΠ.', u'ΚΩΔΙΚΟΠ.', u'ABBR')]),
    (u'ΚΩΔΙΚ.', [(u'ΚΩΔΙΚ.', u'ΚΩΔΙΚ.', u'ABBR')]),
    (u'ΚΩΔ.', [(u'ΚΩΔ.', u'ΚΩΔ.', u'ABBR')]),

    # πολεοδομικός/πολεδοομική/πολεοδομικό
    (u'πολεοδομικ.', [(u'πολεοδομικ.', u'πολεοδομικ.', u'ABBR')]),
    (u'πολεοδομ.', [(u'πολεοδομ.', u'πολεοδομ.', u'ABBR')]),
    (u'πολεοδ.', [(u'πολεοδ.', u'πολεοδ.', u'ABBR')]),
    (u'πολ.', [(u'πολ.', u'πολ.', u'ABBR')]),
    (u'Πολεοδομικ.', [(u'Πολεοδομικ.', u'Πολεοδομικ.', u'ABBR')]),
    (u'Πολεοδομ.', [(u'Πολεοδομ.', u'Πολεοδομ.', u'ABBR')]),
    (u'Πολεοδ.', [(u'Πολεοδ.', u'Πολεοδ.', u'ABBR')]),
    (u'Πολ.', [(u'Πολ.', u'Πολ.', u'ABBR')]),
    (u'ΠΟΛΕΟΔΟΜΙΚ.', [(u'ΠΟΛΕΟΔΟΜΙΚ.', u'ΠΟΛΕΟΔΟΜΙΚ.', u'ABBR')]),
    (u'ΠΟΛΕΟΔΟΜ.', [(u'ΠΟΛΕΟΔΟΜ.', u'ΠΟΛΕΟΔΟΜ.', u'ABBR')]),
    (u'ΠΟΛΕΟΔ.', [(u'ΠΟΛΕΟΔ.', u'ΠΟΛΕΟΔ.', u'ABBR')]),
    (u'ΠΟΛ.', [(u'ΠΟΛ.', u'ΠΟΛ.', u'ABBR')]),

    # νομοθεσία
    (u'νομοθεσ.', [(u'νομοθεσ.', u'νομοθεσ.', u'ABBR')]),
    (u'Νομοθεσ.', [(u'Νομοθεσ.', u'Νομοθεσ.', u'ABBR')]),
    (u'ΝΟΜΟΘΕΣ.', [(u'ΝΟΜΟΘΕΣ.', u'ΝΟΜΟΘΕΣ.', u'ABBR')]),

    # συμβούλιο/συμβουλίου
    (u'συμβουλ.', [(u'συμβουλ.', u'συμβουλ.', u'ABBR')]),
    (u'συμβ.', [(u'συμβ.', u'συμβ.', u'ABBR')]),
    (u'συμ.', [(u'συμ.', u'συμ.', u'ABBR')]),
    (u'συμβούλ.', [(u'συμβούλ.', u'συμβούλ.', u'ABBR')]),
    (u'σύμβουλ.', [(u'σύμβουλ.', u'σύμβουλ.', u'ABBR')]),
    (u'σύμβ.', [(u'σύμβ.', u'σύμβ.', u'ABBR')]),
    (u'σύμ.', [(u'σύμ.', u'σύμ.', u'ABBR')]),
    (u'Συμβουλ.', [(u'Συμβουλ.', u'Συμβουλ.', u'ABBR')]),
    (u'Συμβ.', [(u'Συμβ.', u'Συμβ.', u'ABBR')]),
    (u'Συμ.', [(u'Συμ.', u'Συμ.', u'ABBR')]),
    (u'Συμβούλ.', [(u'Συμβούλ.', u'Συμβούλ.', u'ABBR')]),
    (u'Σύμβουλ.', [(u'Σύμβουλ.', u'Σύμβουλ.', u'ABBR')]),
    (u'Σύμβ.', [(u'Σύμβ.', u'Σύμβ.', u'ABBR')]),
    (u'Σύμ.', [(u'Σύμ.', u'Σύμ.', u'ABBR')]),
    (u'ΣΥΜΒΟΥΛ.', [(u'ΣΥΜΒΟΥΛ.', u'ΣΥΜΒΟΥΛ.', u'ABBR')]),
    (u'ΣΥΜΒ.', [(u'ΣΥΜΒ.', u'ΣΥΜΒ.', u'ABBR')]),
    (u'ΣΥΜ.', [(u'ΣΥΜ.', u'ΣΥΜ.', u'ABBR')]),

    # οικονομικός/οικονομική/οικονομικό
    (u'οικονομικ.', [(u'οικονομικ.', u'οικονομικ.', u'ABBR')]),
    (u'οικονομ.', [(u'οικονομ.', u'οικονομ.', u'ABBR')]),
    (u'οικον.', [(u'οικον.', u'οικον.', u'ABBR')]),
    (u'οικ.', [(u'οικ.', u'οικ.', u'ABBR')]),
    (u'Οικονομικ.', [(u'Οικονομικ.', u'Οικονομικ.', u'ABBR')]),
    (u'Οικονομ.', [(u'Οικονομ.', u'Οικονομ.', u'ABBR')]),
    (u'Οικον.', [(u'Οικον.', u'Οικον.', u'ABBR')]),
    (u'Οικ.', [(u'Οικ.', u'Οικ.', u'ABBR')]),
    (u'ΟΙΚΟΝΟΜΙΚ.', [(u'ΟΙΚΟΝΟΜΙΚ.', u'ΟΙΚΟΝΟΜΙΚ.', u'ABBR')]),
    (u'ΟΙΚΟΝΟΜ.', [(u'ΟΙΚΟΝΟΜ.', u'ΟΙΚΟΝΟΜ.', u'ABBR')]),
    (u'ΟΙΚΟΝ.', [(u'ΟΙΚΟΝ.', u'ΟΙΚΟΝ.', u'ABBR')]),
    (u'ΟΙΚ.', [(u'ΟΙΚ.', u'ΟΙΚ.', u'ABBR')]),

    # αριθμός
    (u'αριθμ.', [(u'αριθμ.', u'αριθμ.', u'ABBR')]),
    (u'αριθ.', [(u'αριθ.', u'αριθ.', u'ABBR')]),
    (u'αρ.', [(u'αρ.', u'αρ.', u'ABBR')]),
    (u'Αριθμ.', [(u'Αριθμ.', u'Αριθμ.', u'ABBR')]),
    (u'Αριθ.', [(u'Αριθ.', u'Αριθ.', u'ABBR')]),
    (u'Αρ.', [(u'Αρ.', u'Αρ.', u'ABBR')]),
    (u'ΑΡΙΘΜ.', [(u'ΑΡΙΘΜ.', u'ΑΡΙΘΜ.', u'ABBR')]),
    (u'ΑΡΙΘ.', [(u'ΑΡΙΘ.', u'ΑΡΙΘ.', u'ABBR')]),
    (u'ΑΡ.', [(u'ΑΡ.', u'ΑΡ.', u'ABBR')]),

    # βορειοανατολικά
    (u'βορειοανατολικ.', [(u'βορειοανατολικ.', u'βορειοανατολικ.', u'ABBR')]),
    (u'βορειοανατολ.', [(u'βορειοανατολ.', u'βορειοανατολ.', u'ABBR')]),
    (u'βορειοανατ.', [(u'βορειοανατ.', u'βορειοανατ.', u'ABBR')]),
    (u'βορειοαν.', [(u'βορειοαν.', u'βορειοαν.', u'ABBR')]),
    (u'βορ.', [(u'βορ.', u'βορ.', u'ABBR')]),
    (u'βόρ.', [(u'βόρ.', u'βόρ.', u'ABBR')]),
    (u'Βορειοανατολικ.', [(u'Βορειοανατολικ.', u'Βορειοανατολικ.', u'ABBR')]),
    (u'Βορειοανατολ.', [(u'Βορειοανατολ.', u'Βορειοανατολ.', u'ABBR')]),
    (u'Βορειοανατ.', [(u'Βορειοανατ.', u'Βορειοανατ.', u'ABBR')]),
    (u'Βορειοαν.', [(u'Βορειοαν.', u'Βορειοαν.', u'ABBR')]),
    (u'Βορ.', [(u'Βορ.', u'Βορ.', u'ABBR')]),
    (u'Βόρ.', [(u'Βόρ.', u'Βόρ.', u'ABBR')]),
    (u'ΒΟΡΕΙΟΑΝΑΤΟΛΙΚ.', [(u'ΒΟΡΕΙΟΑΝΑΤΟΛΙΚ.', u'ΒΟΡΕΙΟΑΝΑΤΟΛΙΚ.', u'ABBR')]),
    (u'ΒΟΡΕΙΟΑΝΑΤΟΛ.', [(u'ΒΟΡΕΙΟΑΝΑΤΟΛ.', u'ΒΟΡΕΙΟΑΝΑΤΟΛ.', u'ABBR')]),
    (u'ΒΟΡΕΙΟΑΝΑΤ.', [(u'ΒΟΡΕΙΟΑΝΑΤ.', u'ΒΟΡΕΙΟΑΝΑΤ.', u'ABBR')]),
    (u'ΒΟΡΕΙΟΑΝ.', [(u'ΒΟΡΕΙΟΑΝ.', u'ΒΟΡΕΙΟΑΝ.', u'ABBR')]),
    (u'ΒΟΡ.', [(u'ΒΟΡ.', u'ΒΟΡ.', u'ABBR')]),

    # βορειοδυτικά
    (u'βορειοδυτικ.', [(u'βορειοδυτικ.', u'βορειοδυτικ.', u'ABBR')]),
    (u'βορειοδυτ.', [(u'βορειοδυτ.', u'βορειοδυτ.', u'ABBR')]),
    (u'βορειοδ.', [(u'βορειοδ.', u'βορειοδ.', u'ABBR')]),
    (u'Βορειοδυτικ.', [(u'Βορειοδυτικ.', u'Βορειοδυτικ.', u'ABBR')]),
    (u'Βορειοδυτ.', [(u'Βορειοδυτ.', u'Βορειοδυτ.', u'ABBR')]),
    (u'Βορειοδ.', [(u'Βορειοδ.', u'Βορειοδ.', u'ABBR')]),
    (u'ΒΟΡΕΙΟΔΥΤΙΚ.', [(u'ΒΟΡΕΙΟΔΥΤΙΚ.', u'ΒΟΡΕΙΟΔΥΤΙΚ.', u'ABBR')]),
    (u'ΒΟΡΕΙΟΔΥΤ.', [(u'ΒΟΡΕΙΟΔΥΤ.', u'ΒΟΡΕΙΟΔΥΤ.', u'ABBR')]),
    (u'ΒΟΡΕΙΟΔ.', [(u'ΒΟΡΕΙΟΔ.', u'ΒΟΡΕΙΟΔ.', u'ABBR')]),

    # ανατολικά
    (u'ανατολικ.', [(u'ανατολικ.', u'ανατολικ.', u'ABBR')]),
    (u'ανατολ.', [(u'ανατολ.', u'ανατολ.', u'ABBR')]),
    (u'ανατ.', [(u'ανατ.', u'ανατ.', u'ABBR')]),
    (u'αν.', [(u'αν.', u'αν.', u'ABBR')]),
    (u'Ανατολικ.', [(u'Ανατολικ.', u'Ανατολικ.', u'ABBR')]),
    (u'Ανατολ.', [(u'Ανατολ.', u'Ανατολ.', u'ABBR')]),
    (u'Ανατ.', [(u'Ανατ.', u'Ανατ.', u'ABBR')]),
    (u'Αν.', [(u'Αν.', u'Αν.', u'ABBR')]),
    (u'ΑΝΑΤΟΛΙΚ.', [(u'ΑΝΑΤΟΛΙΚ.', u'ΑΝΑΤΟΛΙΚ.', u'ABBR')]),
    (u'ΑΝΑΤΟΛ.', [(u'ΑΝΑΤΟΛ.', u'ΑΝΑΤΟΛ.', u'ABBR')]),
    (u'ΑΝΑΤ.', [(u'ΑΝΑΤ.', u'ΑΝΑΤ.', u'ABBR')]),
    (u'ΑΝ.', [(u'ΑΝ.', u'ΑΝ.', u'ABBR')]),

    # δυτικά
    (u'δυτικ.', [(u'δυτικ.', u'δυτικ.', u'ABBR')]),
    (u'δυτ.', [(u'δυτ.', u'δυτ.', u'ABBR')]),
    (u'Δυτικ.', [(u'Δυτικ.', u'Δυτικ.', u'ABBR')]),
    (u'Δυτ.', [(u'Δυτ.', u'Δυτ.', u'ABBR')]),
    (u'ΔΥΤΙΚ.', [(u'ΔΥΤΙΚ.', u'ΔΥΤΙΚ.', u'ABBR')]),
    (u'ΔΥΤ.', [(u'ΔΥΤ.', u'ΔΥΤ.', u'ABBR')]),

    # περιφερειακή
    (u'περιφεριακ.', [(u'περιφεριακ.', u'περιφεριακ.', u'ABBR')]),
    (u'περιφερ.', [(u'περιφερ.', u'περιφερ.', u'ABBR')]),
    (u'περιφ.', [(u'περιφ.', u'περιφ.', u'ABBR')]),
    (u'περ.', [(u'περ.', u'περ.', u'ABBR')]),
    (u'περιφέρ.', [(u'περιφέρ.', u'περιφέρ.', u'ABBR')]),
    (u'Περιφεριακ.', [(u'Περιφεριακ.', u'Περιφεριακ.', u'ABBR')]),
    (u'Περιφερ.', [(u'Περιφερ.', u'Περιφερ.', u'ABBR')]),
    (u'Περιφ.', [(u'Περιφ.', u'Περιφ.', u'ABBR')]),
    (u'Περ.', [(u'Περ.', u'Περ.', u'ABBR')]),
    (u'Περιφέρ.', [(u'Περιφέρ.', u'Περιφέρ.', u'ABBR')]),
    (u'ΠΕΡΙΦΕΡΕΙΑΚ.', [(u'ΠΕΡΙΦΕΡΕΙΑΚ.', u'ΠΕΡΙΦΕΡΕΙΑΚ.', u'ABBR')]),
    (u'ΠΕΡΙΦΕΡ.', [(u'ΠΕΡΙΦΕΡ.', u'ΠΕΡΙΦΕΡ.', u'ABBR')]),
    (u'ΠΕΡΙΦ.', [(u'ΠΕΡΙΦ.', u'ΠΕΡΙΦ.', u'ABBR')]),
    (u'ΠΕΡ.', [(u'ΠΕΡ.', u'ΠΕΡ.', u'ABBR')]),

    # ενότητα
    (u'ενοτητ.', [(u'ενοτητ.', u'ενοτητ.', u'ABBR')]),
    (u'ενοτ.', [(u'ενοτ.', u'ενοτ.', u'ABBR')]),
    (u'εν.', [(u'εν.', u'εν.', u'ABBR')]),
    (u'ενότητ.', [(u'ενότητ.', u'ενότητ.', u'ABBR')]),
    (u'ενότ.', [(u'ενότ.', u'ενότ.', u'ABBR')]),
    (u'Ενοτητ.', [(u'Ενοτητ.', u'Ενοτητ.', u'ABBR')]),
    (u'Ενοτ.', [(u'Ενοτ.', u'Ενοτ.', u'ABBR')]),
    (u'Εν.', [(u'Εν.', u'Εν.', u'ABBR')]),
    (u'Ενότητ.', [(u'Ενότητ.', u'Ενότητ.', u'ABBR')]),
    (u'Ενότ.', [(u'Ενότ.', u'Ενότ.', u'ABBR')]),
    (u'ΕΝΟΤΗΤ.', [(u'ΕΝΟΤΗΤ.', u'ΕΝΟΤΗΤ.', u'ABBR')]),
    (u'ΕΝΟΤ.', [(u'ΕΝΟΤ.', u'ΕΝΟΤ.', u'ABBR')]),
    (u'ΕΝ.', [(u'ΕΝ.', u'ΕΝ.', u'ABBR')]),

    # τοπική
    (u'τοπικ.', [(u'τοπικ.', u'τοπικ.', u'ABBR')]),
    (u'τοπ.', [(u'τοπ.', u'τοπ.', u'ABBR')]),
    (u'Τοπικ.', [(u'Τοπικ.', u'Τοπικ.', u'ABBR')]),
    (u'Τοπ.', [(u'Τοπ.', u'Τοπ.', u'ABBR')]),
    (u'ΤΟΠΙΚ.', [(u'ΤΟΠΙΚ.', u'ΤΟΠΙΚ.', u'ABBR')]),
    (u'ΤΟΠ.', [(u'ΤΟΠ.', u'ΤΟΠ.', u'ABBR')]),

    # κοινότητα
    (u'κοινοτητ.', [(u'κοινοτητ.', u'κοινοτητ.', u'ABBR')]),
    (u'κοινοτ.', [(u'κοινοτ.', u'κοινοτ.', u'ABBR')]),
    (u'κοιν.', [(u'κοιν.', u'κοιν.', u'ABBR')]),
    (u'κοινότητ.', [(u'κοινότητ.', u'κοινότητ.', u'ABBR')]),
    (u'κοινοτήτ.', [(u'κοινοτήτ.', u'κοινοτήτ.', u'ABBR')]),
    (u'κοινότ.', [(u'κοινότ.', u'κοινότ.', u'ABBR')]),
    (u'Κοινοτητ.', [(u'Κοινοτητ.', u'Κοινοτητ.', u'ABBR')]),
    (u'Κοινοτ.', [(u'Κοινοτ.', u'Κοινοτ.', u'ABBR')]),
    (u'Κοιν.', [(u'Κοιν.', u'Κοιν.', u'ABBR')]),
    (u'Κοινότητ.', [(u'Κοινότητ.', u'Κοινότητ.', u'ABBR')]),
    (u'Κοινοτήτ.', [(u'Κοινοτήτ.', u'Κοινοτήτ.', u'ABBR')]),
    (u'Κοινότ.', [(u'Κοινότ.', u'Κοινότ.', u'ABBR')]),
    (u'ΚΟΙΝΟΤΗΤ.', [(u'ΚΟΙΝΟΤΗΤ.', u'ΚΟΙΝΟΤΗΤ.', u'ABBR')]),
    (u'ΚΟΙΝΟΤ.', [(u'ΚΟΙΝΟΤ.', u'ΚΟΙΝΟΤ.', u'ABBR')]),
    (u'ΚΟΙΝ.', [(u'ΚΟΙΝ.', u'ΚΟΙΝ.', u'ABBR')]),

    # δημοτικός/δημοτική/δημοτικό
    (u'δημοτικ.', [(u'δημοτικ.', u'δημοτικ.', u'ABBR')]),
    (u'δημοτ.', [(u'δημοτ.', u'δημοτ.', u'ABBR')]),
    (u'δημ.', [(u'δημ.', u'δημ.', u'ABBR')]),
    (u'δήμ.', [(u'δήμ.', u'δήμ.', u'ABBR')]),
    (u'Δημοτικ.', [(u'Δημοτικ.', u'Δημοτικ.', u'ABBR')]),
    (u'Δημοτ.', [(u'Δημοτ.', u'Δημοτ.', u'ABBR')]),
    (u'Δημ.', [(u'Δημ.', u'Δημ.', u'ABBR')]),
    (u'Δήμ.', [(u'Δήμ.', u'Δήμ.', u'ABBR')]),
    (u'ΔΗΜΟΤΙΚ.', [(u'ΔΗΜΟΤΙΚ.', u'ΔΗΜΟΤΙΚ.', u'ABBR')]),
    (u'ΔΗΜΟΤ.', [(u'ΔΗΜΟΤ.', u'ΔΗΜΟΤ.', u'ABBR')]),
    (u'ΔΗΜ.', [(u'ΔΗΜ.', u'ΔΗΜ.', u'ABBR')]),

    # Δωδεκανήσου
    (u'δωδ/σου', [(u'δωδ/σου', u'δωδ/σου', u'ABBR')]),
    (u'Δωδ/σου', [(u'Δωδ/σου', u'Δωδ/σου', u'ABBR')]),
    (u'ΔΩΔ/ΣΟΥ', [(u'ΔΩΔ/ΣΟΥ', u'ΔΩΔ/ΣΟΥ', u'ABBR')]),
    (u'δωδ/νησου', [(u'δωδ/νησου', u'δωδ/νησου', u'ABBR')]),
    (u'δωδ/νήσου', [(u'δωδ/νήσου', u'δωδ/νήσου', u'ABBR')]),
    (u'Δωδ/νησου', [(u'Δωδ/νησου', u'Δωδ/νησου', u'ABBR')]),
    (u'Δωδ/νήσου', [(u'Δωδ/νήσου', u'Δωδ/νήσου', u'ABBR')]),
    (u'ΔΩΔ/ΝΗΣΟΥ', [(u'ΔΩΔ/ΝΗΣΟΥ', u'ΔΩΔ/ΝΗΣΟΥ', u'ABBR')]),

    # Θεσσαλονίκη
    (u'θεσ/κη', [(u'θεσ/κη', u'θεσ/κη', u'ABBR')]),
    (u'Θεσ/κη', [(u'Θεσ/κη', u'Θεσ/κη', u'ABBR')]),
    (u'ΘΕΣ/ΚΗ', [(u'ΘΕΣ/ΚΗ', u'ΘΕΣ/ΚΗ', u'ABBR')]),
    (u'θεσ/κης', [(u'θεσ/κης', u'θεσ/κης', u'ABBR')]),
    (u'Θεσ/κης', [(u'Θεσ/κης', u'Θεσ/κης', u'ABBR')]),
    (u'ΘΕΣ/ΚΗΣ', [(u'ΘΕΣ/ΚΗΣ', u'ΘΕΣ/ΚΗΣ', u'ABBR')]),
    (u'θεσ/νικης', [(u'θεσ/νικης', u'θεσ/νικης', u'ABBR')]),
    (u'θεσ/νίκης', [(u'θεσ/νίκης', u'θεσ/νίκης', u'ABBR')]),
    (u'Θεσ/νικης', [(u'Θεσ/νικης', u'Θεσ/νικης', u'ABBR')]),
    (u'Θεσ/νίκης', [(u'Θεσ/νίκης', u'Θεσ/νίκης', u'ABBR')]),
    (u'ΘΕΣ/ΝΙΚΗΣ', [(u'ΘΕΣ/ΝΙΚΗΣ', u'ΘΕΣ/ΝΙΚΗΣ', u'ABBR')]),

    # Κεφαλλονιά
    (u'κεφ/νια', [(u'κεφ/νια', u'κεφ/νια', u'ABBR')]),
    (u'κεφ/νιά', [(u'κεφ/νιά', u'κεφ/νιά', u'ABBR')]),
    (u'Κεφ/νια', [(u'Κεφ/νια', u'Κεφ/νια', u'ABBR')]),
    (u'Κεφ/νιά', [(u'Κεφ/νιά', u'Κεφ/νιά', u'ABBR')]),
    (u'ΚΕΦ/ΝΙΑ', [(u'ΚΕΦ/ΝΙΑ', u'ΚΕΦ/ΝΙΑ', u'ABBR')]),
    (u'κεφ/νιας', [(u'κεφ/νιας', u'κεφ/νιας', u'ABBR')]),
    (u'κεφ/νιάς', [(u'κεφ/νιάς', u'κεφ/νιάς', u'ABBR')]),
    (u'Κεφ/νιας', [(u'Κεφ/νιας', u'Κεφ/νιας', u'ABBR')]),
    (u'Κεφ/νιάς', [(u'Κεφ/νιάς', u'Κεφ/νιάς', u'ABBR')]),
    (u'ΚΕΦ/ΝΙΑΣ', [(u'ΚΕΦ/ΝΙΑΣ', u'ΚΕΦ/ΝΙΑΣ', u'ABBR')]),

    # περιφέρεια
    (u'περ/α', [(u'περ/α', u'περ/α', u'ABBR')]),
    (u'Περ/α', [(u'Περ/α', u'Περ/α', u'ABBR')]),
    (u'ΠΕΡ/Α', [(u'ΠΕΡ/Α', u'ΠΕΡ/Α', u'ABBR')]),
    (u'περ/ας', [(u'περ/ας', u'περ/ας', u'ABBR')]),
    (u'Περ/ας', [(u'Περ/ας', u'Περ/ας', u'ABBR')]),
    (u'ΠΕΡ/ΑΣ', [(u'ΠΕΡ/ΑΣ', u'ΠΕΡ/ΑΣ', u'ABBR')]),

    # Αιτωλοακαρνανία
    (u'αιτωλ/νια', [(u'αιτωλ/νια', u'αιτωλ/νια', u'ABBR')]),
    (u'αιτωλ/νία', [(u'αιτωλ/νία', u'αιτωλ/νία', u'ABBR')]),
    (u'Αιτωλ/νια', [(u'Αιτωλ/νια', u'Αιτωλ/νια', u'ABBR')]),
    (u'Αιτωλ/νία', [(u'Αιτωλ/νία', u'Αιτωλ/νία', u'ABBR')]),
    (u'ΑΙΤΩΛ/ΝΙΑ', [(u'ΑΙΤΩΛ/ΝΙΑ', u'ΑΙΤΩΛ/ΝΙΑ', u'ABBR')]),
    (u'αιτωλ/νιας', [(u'αιτωλ/νιας', u'αιτωλ/νιας', u'ABBR')]),
    (u'αιτωλ/νίας', [(u'αιτωλ/νίας', u'αιτωλ/νίας', u'ABBR')]),
    (u'Αιτωλ/νιας', [(u'Αιτωλ/νιας', u'Αιτωλ/νιας', u'ABBR')]),
    (u'Αιτωλ/νίας', [(u'Αιτωλ/νίας', u'Αιτωλ/νίας', u'ABBR')]),
    (u'ΑΙΤΩΛ/ΝΙΑΣ', [(u'ΑΙΤΩΛ/ΝΙΑΣ', u'ΑΙΤΩΛ/ΝΙΑΣ', u'ABBR')]),
    (u'αιτ/νια', [(u'αιτ/νια', u'αιτ/νια', u'ABBR')]),
    (u'αιτ/νία', [(u'αιτ/νία', u'αιτ/νία', u'ABBR')]),
    (u'Αιτ/νια', [(u'Αιτ/νια', u'Αιτ/νια', u'ABBR')]),
    (u'Αιτ/νία', [(u'Αιτ/νία', u'Αιτ/νία', u'ABBR')]),
    (u'ΑΙΤ/ΝΙΑ', [(u'ΑΙΤ/ΝΙΑ', u'ΑΙΤ/ΝΙΑ', u'ABBR')]),
    (u'αιτ/νιας', [(u'αιτ/νιας', u'αιτ/νιας', u'ABBR')]),
    (u'αιτ/νίας', [(u'αιτ/νίας', u'αιτ/νίας', u'ABBR')]),
    (u'Αιτ/νιας', [(u'Αιτ/νιας', u'Αιτ/νιας', u'ABBR')]),
    (u'Αιτ/νίας', [(u'Αιτ/νίας', u'Αιτ/νίας', u'ABBR')]),
    (u'ΑΙΤ/ΝΙΑΣ', [(u'ΑΙΤ/ΝΙΑΣ', u'ΑΙΤ/ΝΙΑΣ', u'ABBR')]),

    # Στερεά
    (u'στερ.', [(u'στερ.', u'στερ.', u'ABBR')]),
    (u'στ.', [(u'στ.', u'στ.', u'ABBR')]),
    (u'Στερ.', [(u'Στερ.', u'Στερ.', u'ABBR')]),
    (u'Στ.', [(u'Στ.', u'Στ.', u'ABBR')]),
    (u'ΣΤ.', [(u'ΣΤ.', u'ΣΤ.', u'ABBR')]),

    # Θράκη
    (u'θρ.', [(u'θρ.', u'θρ.', u'ABBR')]),
    (u'Θρ.', [(u'Θρ.', u'Θρ.', u'ABBR')]),
    (u'ΘΡ.', [(u'ΘΡ.', u'ΘΡ.', u'ABBR')]),

    # Μακεδονία
    (u'μακεδον.', [(u'μακεδον.', u'μακεδον.', u'ABBR')]),
    (u'μακεδ.', [(u'μακεδ.', u'μακεδ.', u'ABBR')]),
    (u'μακ.', [(u'μακ.', u'μακ.', u'ABBR')]),
    (u'Μακεδον.', [(u'Μακεδον.', u'Μακεδον.', u'ABBR')]),
    (u'Μακεδ.', [(u'Μακεδ.', u'Μακεδ.', u'ABBR')]),
    (u'Μακ.', [(u'Μακ.', u'Μακ.', u'ABBR')]),
    (u'ΜΑΚΕΔΟΝ.', [(u'ΜΑΚΕΔΟΝ.', u'ΜΑΚΕΔΟΝ.', u'ABBR')]),
    (u'ΜΑΚΕΔ.', [(u'ΜΑΚΕΔ.', u'ΜΑΚΕΔ.', u'ABBR')]),
    (u'ΜΑΚ.', [(u'ΜΑΚ.', u'ΜΑΚ.', u'ABBR')]),

    # διαμέρισμα/διαμερίσματος/διαμερίσματα/διαμερισμάτων
    (u'διαμερισματ.', [(u'διαμερισματ.', u'διαμερισματ.', u'ABBR')]),
    (u'διαμερισμ.', [(u'διαμερισμ.', u'διαμερισμ.', u'ABBR')]),
    (u'διαμερισ.', [(u'διαμερισ.', u'διαμερισ.', u'ABBR')]),
    (u'διαμερ.', [(u'διαμερ.', u'διαμερ.', u'ABBR')]),
    (u'διαμ.', [(u'διαμ.', u'διαμ.', u'ABBR')]),
    (u'διαμερισμάτ.', [(u'διαμερισμάτ.', u'διαμερισμάτ.', u'ABBR')]),
    (u'διαμερίσματ.', [(u'διαμερίσματ.', u'διαμερίσματ.', u'ABBR')]),
    (u'διαμερίσμ.', [(u'διαμερίσμ.', u'διαμερίσμ.', u'ABBR')]),
    (u'διαμέρισμ.', [(u'διαμέρισμ.', u'διαμέρισμ.', u'ABBR')]),
    (u'διαμερίσ.', [(u'διαμερίσ.', u'διαμερίσ.', u'ABBR')]),
    (u'διαμέρισ.', [(u'διαμέρισ.', u'διαμέρισ.', u'ABBR')]),
    (u'διαμέρ.', [(u'διαμέρ.', u'διαμέρ.', u'ABBR')]),
    (u'Διαμερισματ.', [(u'Διαμερισματ.', u'Διαμερισματ.', u'ABBR')]),
    (u'Διαμερισμ.', [(u'Διαμερισμ.', u'Διαμερισμ.', u'ABBR')]),
    (u'Διαμερισ.', [(u'Διαμερισ.', u'Διαμερισ.', u'ABBR')]),
    (u'Διαμερ.', [(u'Διαμερ.', u'Διαμερ.', u'ABBR')]),
    (u'Διαμ.', [(u'Διαμ.', u'Διαμ.', u'ABBR')]),
    (u'Διαμερισμάτ.', [(u'Διαμερισμάτ.', u'Διαμερισμάτ.', u'ABBR')]),
    (u'Διαμερίσματ.', [(u'Διαμερίσματ.', u'Διαμερίσματ.', u'ABBR')]),
    (u'Διαμερίσμ.', [(u'Διαμερίσμ.', u'Διαμερίσμ.', u'ABBR')]),
    (u'Διαμέρισμ.', [(u'Διαμέρισμ.', u'Διαμέρισμ.', u'ABBR')]),
    (u'Διαμερίσ.', [(u'Διαμερίσ.', u'Διαμερίσ.', u'ABBR')]),
    (u'Διαμέρισ.', [(u'Διαμέρισ.', u'Διαμέρισ.', u'ABBR')]),
    (u'Διαμέρ.', [(u'Διαμέρ.', u'Διαμέρ.', u'ABBR')]),
    (u'ΔΙΑΜΕΡΙΣΜΑΤ.', [(u'ΔΙΑΜΕΡΙΣΜΑΤ.', u'ΔΙΑΜΕΡΙΣΜΑΤ.', u'ABBR')]),
    (u'ΔΙΑΜΕΡΙΣΜ.', [(u'ΔΙΑΜΕΡΙΣΜ.', u'ΔΙΑΜΕΡΙΣΜ.', u'ABBR')]),
    (u'ΔΙΑΜΕΡΙΣ.', [(u'ΔΙΑΜΕΡΙΣ.', u'ΔΙΑΜΕΡΙΣ.', u'ABBR')]),
    (u'ΔΙΑΜΕΡ.', [(u'ΔΙΑΜΕΡ.', u'ΔΙΑΜΕΡ.', u'ABBR')]),
    (u'ΔΙΑΜ.', [(u'ΔΙΑΜ.', u'ΔΙΑΜ.', u'ABBR')]),

    # αποκεντρωμένη/αποκεντρωμένες/αποκτεντρωμένων
    (u'αποκεντρωμ.', [(u'αποκεντρωμ.', u'αποκεντρωμ.', u'ABBR')]),
    (u'αποκεντρ.', [(u'αποκεντρ.', u'αποκεντρ.', u'ABBR')]),
    (u'αποκεντ.', [(u'αποκεντ.', u'αποκεντ.', u'ABBR')]),
    (u'αποκεν.', [(u'αποκεν.', u'αποκεν.', u'ABBR')]),
    (u'αποκ.', [(u'αποκ.', u'αποκ.', u'ABBR')]),
    (u'απ.', [(u'απ.', u'απ.', u'ABBR')]),
    (u'Αποκεντρωμ.', [(u'Αποκεντρωμ.', u'Αποκεντρωμ.', u'ABBR')]),
    (u'Αποκεντρ.', [(u'Αποκεντρ.', u'Αποκεντρ.', u'ABBR')]),
    (u'Αποκεντ.', [(u'Αποκεντ.', u'Αποκεντ.', u'ABBR')]),
    (u'Αποκεν.', [(u'Αποκεν.', u'Αποκεν.', u'ABBR')]),
    (u'Αποκ.', [(u'Αποκ.', u'Αποκ.', u'ABBR')]),
    (u'Απ.', [(u'Απ.', u'Απ.', u'ABBR')]),
    (u'ΑΠΟΚΕΝΤΡΩΜ.', [(u'ΑΠΟΚΕΝΤΡΩΜ.', u'ΑΠΟΚΕΝΤΡΩΜ.', u'ABBR')]),
    (u'ΑΠΟΚΕΝΤΡ.', [(u'ΑΠΟΚΕΝΤΡ.', u'ΑΠΟΚΕΝΤΡ.', u'ABBR')]),
    (u'ΑΠΟΚΕΝΤ.', [(u'ΑΠΟΚΕΝΤ.', u'ΑΠΟΚΕΝΤ.', u'ABBR')]),
    (u'ΑΠΟΚΕΝ.', [(u'ΑΠΟΚΕΝ.', u'ΑΠΟΚΕΝ.', u'ABBR')]),
    (u'ΑΠΟΚ.', [(u'ΑΠΟΚ.', u'ΑΠΟΚ.', u'ABBR')]),
    (u'ΑΠ.', [(u'ΑΠ.', u'ΑΠ.', u'ABBR')]),

    # απόφαση
    (u'αποφ.', [(u'αποφ.', u'αποφ.', u'ABBR')]),
    (u'απ.', [(u'απ.', u'απ.', u'ABBR')]),
    (u'απόφ.', [(u'απόφ.', u'απόφ.', u'ABBR')]),
    (u'Αποφ.', [(u'Αποφ.', u'Αποφ.', u'ABBR')]),
    (u'Απόφ.', [(u'Απόφ.', u'Απόφ.', u'ABBR')]),
    (u'ΑΠΟΦ.', [(u'ΑΠΟΦ.', u'ΑΠΟΦ.', u'ABBR')]),

    # διοικητικός/διοικητική/διοικητικό
    (u'διοικ.', [(u'διοικ.', u'διοικ.', u'ABBR')]),
    (u'διοίκ.', [(u'διοίκ.', u'διοίκ.', u'ABBR')]),
    (u'Διοικ.', [(u'Διοικ.', u'Διοικ.', u'ABBR')]),
    (u'Διοίκ.', [(u'Διοίκ.', u'Διοίκ.', u'ABBR')]),
    (u'ΔΙΟΙΚ.', [(u'ΔΙΟΙΚ.', u'ΔΙΟΙΚ.', u'ABBR')]),

    # Π.Γ.Δ.Μ.
    (u'πγδμ', [(u'πγδμ', u'πγδμ', u'ABBR')]),
    (u'πγδμ.', [(u'πγδμ.', u'πγδμ.', u'ABBR')]),
    (u'πγδ.μ', [(u'πγδ.μ', u'πγδ.μ', u'ABBR')]),
    (u'πγδ.μ.', [(u'πγδ.μ.', u'πγδ.μ.', u'ABBR')]),
    (u'πγ.δμ', [(u'πγ.δμ', u'πγ.δμ', u'ABBR')]),
    (u'πγ.δμ.', [(u'πγ.δμ.', u'πγ.δμ.', u'ABBR')]),
    (u'πγ.δ.μ', [(u'πγ.δ.μ', u'πγ.δ.μ', u'ABBR')]),
    (u'πγ.δ.μ.', [(u'πγ.δ.μ.', u'πγ.δ.μ.', u'ABBR')]),
    (u'π.γδμ', [(u'π.γδμ', u'π.γδμ', u'ABBR')]),
    (u'π.γδμ.', [(u'π.γδμ.', u'π.γδμ.', u'ABBR')]),
    (u'π.γδ.μ', [(u'π.γδ.μ', u'π.γδ.μ', u'ABBR')]),
    (u'π.γδ.μ.', [(u'π.γδ.μ.', u'π.γδ.μ.', u'ABBR')]),
    (u'π.γ.δμ', [(u'π.γ.δμ', u'π.γ.δμ', u'ABBR')]),
    (u'π.γ.δμ.', [(u'π.γ.δμ.', u'π.γ.δμ.', u'ABBR')]),
    (u'π.γ.δ.μ', [(u'π.γ.δ.μ', u'π.γ.δ.μ', u'ABBR')]),
    (u'π.γ.δ.μ.', [(u'π.γ.δ.μ.', u'π.γ.δ.μ.', u'ABBR')]),
    (u'ΠΓΔΜ', [(u'ΠΓΔΜ', u'ΠΓΔΜ', u'ABBR')]),
    (u'ΠΓΔΜ.', [(u'ΠΓΔΜ.', u'ΠΓΔΜ.', u'ABBR')]),
    (u'ΠΓΔ.Μ', [(u'ΠΓΔ.Μ', u'ΠΓΔ.Μ', u'ABBR')]),
    (u'ΠΓΔ.Μ.', [(u'ΠΓΔ.Μ.', u'ΠΓΔ.Μ.', u'ABBR')]),
    (u'ΠΓ.ΔΜ', [(u'ΠΓ.ΔΜ', u'ΠΓ.ΔΜ', u'ABBR')]),
    (u'ΠΓ.ΔΜ.', [(u'ΠΓ.ΔΜ.', u'ΠΓ.ΔΜ.', u'ABBR')]),
    (u'ΠΓ.Δ.Μ', [(u'ΠΓ.Δ.Μ', u'ΠΓ.Δ.Μ', u'ABBR')]),
    (u'ΠΓ.Δ.Μ.', [(u'ΠΓ.Δ.Μ.', u'ΠΓ.Δ.Μ.', u'ABBR')]),
    (u'Π.ΓΔΜ', [(u'Π.ΓΔΜ', u'Π.ΓΔΜ', u'ABBR')]),
    (u'Π.ΓΔΜ.', [(u'Π.ΓΔΜ.', u'Π.ΓΔΜ.', u'ABBR')]),
    (u'Π.ΓΔ.Μ', [(u'Π.ΓΔ.Μ', u'Π.ΓΔ.Μ', u'ABBR')]),
    (u'Π.ΓΔ.Μ.', [(u'Π.ΓΔ.Μ.', u'Π.ΓΔ.Μ.', u'ABBR')]),
    (u'Π.Γ.ΔΜ', [(u'Π.Γ.ΔΜ', u'Π.Γ.ΔΜ', u'ABBR')]),
    (u'Π.Γ.ΔΜ.', [(u'Π.Γ.ΔΜ.', u'Π.Γ.ΔΜ.', u'ABBR')]),
    (u'Π.Γ.Δ.Μ', [(u'Π.Γ.Δ.Μ', u'Π.Γ.Δ.Μ', u'ABBR')]),
    (u'Π.Γ.Δ.Μ.', [(u'Π.Γ.Δ.Μ.', u'Π.Γ.Δ.Μ.', u'ABBR')]),

    # Α.Δ.Μ.Θ. (Αποκεντρωμένη Διοίκηση Μακεδονίας Θράκης)
    (u'αδμθ', [(u'αδμθ', u'αδμθ', u'ABBR')]),
    (u'αδμθ.', [(u'αδμθ.', u'αδμθ.', u'ABBR')]),
    (u'αδμ.θ', [(u'αδμ.θ', u'αδμ.θ', u'ABBR')]),
    (u'αδμ.θ.', [(u'αδμ.θ.', u'αδμ.θ.', u'ABBR')]),
    (u'αδ.μθ', [(u'αδ.μθ', u'αδ.μθ', u'ABBR')]),
    (u'αδ.μθ.', [(u'αδ.μθ.', u'αδ.μθ.', u'ABBR')]),
    (u'αδ.μ.θ', [(u'αδ.μ.θ', u'αδ.μ.θ', u'ABBR')]),
    (u'αδ.μ.θ.', [(u'αδ.μ.θ.', u'αδ.μ.θ.', u'ABBR')]),
    (u'α.δμθ', [(u'α.δμθ', u'α.δμθ', u'ABBR')]),
    (u'α.δμθ.', [(u'α.δμθ.', u'α.δμθ.', u'ABBR')]),
    (u'α.δμ.θ', [(u'α.δμ.θ', u'α.δμ.θ', u'ABBR')]),
    (u'α.δμ.θ.', [(u'α.δμ.θ.', u'α.δμ.θ.', u'ABBR')]),
    (u'α.δ.μθ', [(u'α.δ.μθ', u'α.δ.μθ', u'ABBR')]),
    (u'α.δ.μθ.', [(u'α.δ.μθ.', u'α.δ.μθ.', u'ABBR')]),
    (u'α.δ.μ.θ', [(u'α.δ.μ.θ', u'α.δ.μ.θ', u'ABBR')]),
    (u'α.δ.μ.θ.', [(u'α.δ.μ.θ.', u'α.δ.μ.θ.', u'ABBR')]),
    (u'ΑΔΜΘ', [(u'ΑΔΜΘ', u'ΑΔΜΘ', u'ABBR')]),
    (u'ΑΔΜΘ.', [(u'ΑΔΜΘ.', u'ΑΔΜΘ.', u'ABBR')]),
    (u'ΑΔΜ.Θ', [(u'ΑΔΜ.Θ', u'ΑΔΜ.Θ', u'ABBR')]),
    (u'ΑΔΜ.Θ.', [(u'ΑΔΜ.Θ.', u'ΑΔΜ.Θ.', u'ABBR')]),
    (u'ΑΔ.ΜΘ', [(u'ΑΔ.ΜΘ', u'ΑΔ.ΜΘ', u'ABBR')]),
    (u'ΑΔ.ΜΘ.', [(u'ΑΔ.ΜΘ.', u'ΑΔ.ΜΘ.', u'ABBR')]),
    (u'ΑΔ.Μ.Θ', [(u'ΑΔ.Μ.Θ', u'ΑΔ.Μ.Θ', u'ABBR')]),
    (u'ΑΔ.Μ.Θ.', [(u'ΑΔ.Μ.Θ.', u'ΑΔ.Μ.Θ.', u'ABBR')]),
    (u'Α.ΔΜΘ', [(u'Α.ΔΜΘ', u'Α.ΔΜΘ', u'ABBR')]),
    (u'Α.ΔΜΘ.', [(u'Α.ΔΜΘ.', u'Α.ΔΜΘ.', u'ABBR')]),
    (u'Α.ΔΜ.Θ', [(u'Α.ΔΜ.Θ', u'Α.ΔΜ.Θ', u'ABBR')]),
    (u'Α.ΔΜ.Θ.', [(u'Α.ΔΜ.Θ.', u'Α.ΔΜ.Θ.', u'ABBR')]),
    (u'Α.Δ.ΜΘ', [(u'Α.Δ.ΜΘ', u'Α.Δ.ΜΘ', u'ABBR')]),
    (u'Α.Δ.ΜΘ.', [(u'Α.Δ.ΜΘ.', u'Α.Δ.ΜΘ.', u'ABBR')]),
    (u'Α.Δ.Μ.Θ', [(u'Α.Δ.Μ.Θ', u'Α.Δ.Μ.Θ', u'ABBR')]),
    (u'Α.Δ.Μ.Θ.', [(u'Α.Δ.Μ.Θ.', u'Α.Δ.Μ.Θ.', u'ABBR')]),

    # Μακεδονία(ς) Θράκη(ς)
    (u'μθ', [(u'μθ', u'μθ', u'ABBR')]),
    (u'μθ.', [(u'μθ.', u'μθ.', u'ABBR')]),
    (u'μ.θ', [(u'μ.θ', u'μ.θ', u'ABBR')]),
    (u'μ.θ.', [(u'μ.θ.', u'μ.θ.', u'ABBR')]),
    (u'ΜΘ', [(u'ΜΘ', u'ΜΘ', u'ABBR')]),
    (u'ΜΘ.', [(u'ΜΘ.', u'ΜΘ.', u'ABBR')]),
    (u'Μ.Θ', [(u'Μ.Θ', u'Μ.Θ', u'ABBR')]),
    (u'Μ.Θ.', [(u'Μ.Θ.', u'Μ.Θ.', u'ABBR')]),

    # π.ε. (περιφερειακή ενότητα)
    (u'πε.', [(u'πε.', u'πε.', u'ABBR')]),
    (u'π.ε', [(u'π.ε', u'π.ε', u'ABBR')]),
    (u'π.ε.', [(u'π.ε.', u'π.ε.', u'ABBR')]),
    (u'ΠΕ.', [(u'ΠΕ.', u'ΠΕ.', u'ABBR')]),
    (u'Π.Ε', [(u'Π.Ε', u'Π.Ε', u'ABBR')]),
    (u'Π.Ε.', [(u'Π.Ε.', u'Π.Ε.', u'ABBR')]),

    # τ.κ. (τοπική κοινότητα)
    (u'τκ.', [(u'τκ.', u'τκ.', u'ABBR')]),
    (u'τ.κ', [(u'τ.κ', u'τ.κ', u'ABBR')]),
    (u'τ.κ.', [(u'τ.κ.', u'τ.κ.', u'ABBR')]),
    (u'ΤΚ.', [(u'ΤΚ.', u'ΤΚ.', u'ABBR')]),
    (u'Τ.Κ', [(u'Τ.Κ', u'Τ.Κ', u'ABBR')]),
    (u'Τ.Κ.', [(u'Τ.Κ.', u'Τ.Κ.', u'ABBR')]),

    # δ.ε. (δημοτική ενότητα)
    (u'δε.', [(u'δε.', u'δε.', u'ABBR')]),
    (u'δ.ε', [(u'δ.ε', u'δ.ε', u'ABBR')]),
    (u'δ.ε.', [(u'δ.ε.', u'δ.ε.', u'ABBR')]),
    (u'ΔΕ.', [(u'ΔΕ.', u'ΔΕ.', u'ABBR')]),
    (u'Δ.Ε', [(u'Δ.Ε', u'Δ.Ε', u'ABBR')]),
    (u'Δ.Ε.', [(u'Δ.Ε.', u'Δ.Ε.', u'ABBR')]),

    # δ.δ. (δημοτικό διαμέρισμα)
    (u'δδ', [(u'δδ', u'δδ', u'ABBR')]),
    (u'δδ.', [(u'δδ.', u'δδ.', u'ABBR')]),
    (u'δ.δ', [(u'δ.δ', u'δ.δ', u'ABBR')]),
    (u'δ.δ.', [(u'δ.δ.', u'δ.δ.', u'ABBR')]),
    (u'ΔΔ', [(u'ΔΔ', u'ΔΔ', u'ABBR')]),
    (u'ΔΔ.', [(u'ΔΔ.', u'ΔΔ.', u'ABBR')]),
    (u'Δ.Δ', [(u'Δ.Δ', u'Δ.Δ', u'ABBR')]),
    (u'Δ.Δ.', [(u'Δ.Δ.', u'Δ.Δ.', u'ABBR')]),

    # δ.κ. (δημοτική κοινότητα)
    (u'δκ', [(u'δκ', u'δκ', u'ABBR')]),
    (u'δκ.', [(u'δκ.', u'δκ.', u'ABBR')]),
    (u'δ.κ', [(u'δ.κ', u'δ.κ', u'ABBR')]),
    (u'δ.κ.', [(u'δ.κ.', u'δ.κ.', u'ABBR')]),
    (u'ΔΚ', [(u'ΔΚ', u'ΔΚ', u'ABBR')]),
    (u'ΔΚ.', [(u'ΔΚ.', u'ΔΚ.', u'ABBR')]),
    (u'Δ.Κ', [(u'Δ.Κ', u'Δ.Κ', u'ABBR')]),
    (u'Δ.Κ.', [(u'Δ.Κ.', u'Δ.Κ.', u'ABBR')]),

    # δ/δ (δημοτικό διαμέρισμα)
    (u'δ/δ', [(u'δ/δ', u'δ/δ', u'ABBR')]),
    (u'Δ/Δ', [(u'Δ/Δ', u'Δ/Δ', u'ABBR')]),

    # π.δ. (προεδρικό διάταγμα)
    (u'πδ', [(u'πδ', u'πδ', u'ABBR')]),
    (u'πδ.', [(u'πδ.', u'πδ.', u'ABBR')]),
    (u'π.δ', [(u'π.δ', u'π.δ', u'ABBR')]),
    (u'π.δ.', [(u'π.δ.', u'π.δ.', u'ABBR')]),
    (u'ΠΔ', [(u'ΠΔ', u'ΠΔ', u'ABBR')]),
    (u'ΠΔ.', [(u'ΠΔ.', u'ΠΔ.', u'ABBR')]),
    (u'Π.Δ', [(u'Π.Δ', u'Π.Δ', u'ABBR')]),
    (u'Π.Δ.', [(u'Π.Δ.', u'Π.Δ.', u'ABBR')]),

    # β.δ. (βασιικό διάταγμα)
    (u'βδ', [(u'βδ', u'βδ', u'ABBR')]),
    (u'βδ.', [(u'βδ.', u'βδ.', u'ABBR')]),
    (u'β.δ', [(u'β.δ', u'β.δ', u'ABBR')]),
    (u'β.δ.', [(u'β.δ.', u'β.δ.', u'ABBR')]),
    (u'ΒΔ', [(u'ΒΔ', u'ΒΔ', u'ABBR')]),
    (u'ΒΔ.', [(u'ΒΔ.', u'ΒΔ.', u'ABBR')]),
    (u'Β.Δ', [(u'Β.Δ', u'Β.Δ', u'ABBR')]),
    (u'Β.Δ.', [(u'Β.Δ.', u'Β.Δ.', u'ABBR')]),

    # α.ν. (αναγκαστικός νόμος)
    (u'αν.', [(u'αν.', u'αν.', u'ABBR')]),
    (u'α.ν', [(u'α.ν', u'α.ν', u'ABBR')]),
    (u'α.ν.', [(u'α.ν.', u'α.ν.', u'ABBR')]),
    (u'ΑΝ.', [(u'ΑΝ.', u'ΑΝ.', u'ABBR')]),
    (u'Α.Ν', [(u'Α.Ν', u'Α.Ν', u'ABBR')]),
    (u'Α.Ν.', [(u'Α.Ν.', u'Α.Ν.', u'ABBR')]),

    # υ.α. (υπουργική απόφαση)
    (u'υα', [(u'υα', u'υα', u'ABBR')]),
    (u'υα.', [(u'υα.', u'υα.', u'ABBR')]),
    (u'υ.α', [(u'υ.α', u'υ.α', u'ABBR')]),
    (u'υ.α.', [(u'υ.α.', u'υ.α.', u'ABBR')]),
    (u'ΥΑ', [(u'ΥΑ', u'ΥΑ', u'ABBR')]),
    (u'ΥΑ.', [(u'ΥΑ.', u'ΥΑ.', u'ABBR')]),
    (u'Υ.Α', [(u'Υ.Α', u'Υ.Α', u'ABBR')]),
    (u'Υ.Α.', [(u'Υ.Α.', u'Υ.Α.', u'ABBR')]),

    # κ.ν. (κωδικοποίηση νόμου)
    (u'κν', [(u'κν', u'κν', u'ABBR')]),
    (u'κν.', [(u'κν.', u'κν.', u'ABBR')]),
    (u'κ.ν', [(u'κ.ν', u'κ.ν', u'ABBR')]),
    (u'κ.ν.', [(u'κ.ν.', u'κ.ν.', u'ABBR')]),
    (u'ΚΝ', [(u'ΚΝ', u'ΚΝ', u'ABBR')]),
    (u'ΚΝ.', [(u'ΚΝ.', u'ΚΝ.', u'ABBR')]),
    (u'Κ.Ν', [(u'Κ.Ν', u'Κ.Ν', u'ABBR')]),
    (u'Κ.Ν.', [(u'Κ.Ν.', u'Κ.Ν.', u'ABBR')]),

    # κ.δ. (κανονιστική διάταξη)
    (u'κδ', [(u'κδ', u'κδ', u'ABBR')]),
    (u'κδ.', [(u'κδ.', u'κδ.', u'ABBR')]),
    (u'κ.δ', [(u'κ.δ', u'κ.δ', u'ABBR')]),
    (u'κ.δ.', [(u'κ.δ.', u'κ.δ.', u'ABBR')]),
    (u'ΚΔ', [(u'ΚΔ', u'ΚΔ', u'ABBR')]),
    (u'ΚΔ.', [(u'ΚΔ.', u'ΚΔ.', u'ABBR')]),
    (u'Κ.Δ', [(u'Κ.Δ', u'Κ.Δ', u'ABBR')]),
    (u'Κ.Δ.', [(u'Κ.Δ.', u'Κ.Δ.', u'ABBR')]),

    # κ.υ.α. (κοινή υπουργική απόφαση)
    (u'κυα', [(u'κυα', u'κυα', u'ABBR')]),
    (u'κυα.', [(u'κυα.', u'κυα.', u'ABBR')]),
    (u'κυ.α', [(u'κυ.α', u'κυ.α', u'ABBR')]),
    (u'κυ.α.', [(u'κυ.α.', u'κυ.α.', u'ABBR')]),
    (u'κ.υα', [(u'κ.υα', u'κ.υα', u'ABBR')]),
    (u'κ.υα.', [(u'κ.υα.', u'κ.υα.', u'ABBR')]),
    (u'κ.υ.α', [(u'κ.υ.α', u'κ.υ.α', u'ABBR')]),
    (u'κ.υ.α.', [(u'κ.υ.α.', u'κ.υ.α.', u'ABBR')]),
    (u'ΚΥΑ', [(u'ΚΥΑ', u'ΚΥΑ', u'ABBR')]),
    (u'ΚΥΑ.', [(u'ΚΥΑ.', u'ΚΥΑ.', u'ABBR')]),
    (u'ΚΥ.Α', [(u'ΚΥ.Α', u'ΚΥ.Α', u'ABBR')]),
    (u'ΚΥ.Α.', [(u'ΚΥ.Α.', u'ΚΥ.Α.', u'ABBR')]),
    (u'Κ.ΥΑ', [(u'Κ.ΥΑ', u'Κ.ΥΑ', u'ABBR')]),
    (u'Κ.ΥΑ.', [(u'Κ.ΥΑ.', u'Κ.ΥΑ.', u'ABBR')]),
    (u'Κ.Υ.Α', [(u'Κ.Υ.Α', u'Κ.Υ.Α', u'ABBR')]),
    (u'Κ.Υ.Α.', [(u'Κ.Υ.Α.', u'Κ.Υ.Α.', u'ABBR')]),

    # Π.Υ.Σ. (Πράξη Υπουργικού Συμβουλίου)
    (u'πυς', [(u'πυς', u'πυς', u'ABBR')]),
    (u'πυς.', [(u'πυς.', u'πυς.', u'ABBR')]),
    (u'πυ.ς', [(u'πυ.ς', u'πυ.ς', u'ABBR')]),
    (u'πυ.ς.', [(u'πυ.ς.', u'πυ.ς.', u'ABBR')]),
    (u'π.υς', [(u'π.υς', u'π.υς', u'ABBR')]),
    (u'π.υς.', [(u'π.υς.', u'π.υς.', u'ABBR')]),
    (u'π.υ.ς', [(u'π.υ.ς', u'π.υ.ς', u'ABBR')]),
    (u'π.υ.ς.', [(u'π.υ.ς.', u'π.υ.ς.', u'ABBR')]),
    (u'πυσ', [(u'πυσ', u'πυσ', u'ABBR')]),
    (u'πυσ.', [(u'πυσ.', u'πυσ.', u'ABBR')]),
    (u'πυ.σ', [(u'πυ.σ', u'πυ.σ', u'ABBR')]),
    (u'πυ.σ.', [(u'πυ.σ.', u'πυ.σ.', u'ABBR')]),
    (u'π.υσ', [(u'π.υσ', u'π.υσ', u'ABBR')]),
    (u'π.υσ.', [(u'π.υσ.', u'π.υσ.', u'ABBR')]),
    (u'π.υ.σ', [(u'π.υ.σ', u'π.υ.σ', u'ABBR')]),
    (u'π.υ.σ.', [(u'π.υ.σ.', u'π.υ.σ.', u'ABBR')]),
    (u'ΠΥΣ', [(u'ΠΥΣ', u'ΠΥΣ', u'ABBR')]),
    (u'ΠΥΣ.', [(u'ΠΥΣ.', u'ΠΥΣ.', u'ABBR')]),
    (u'ΠΥ.Σ', [(u'ΠΥ.Σ', u'ΠΥ.Σ', u'ABBR')]),
    (u'ΠΥ.Σ.', [(u'ΠΥ.Σ.', u'ΠΥ.Σ.', u'ABBR')]),
    (u'Π.ΥΣ', [(u'Π.ΥΣ', u'Π.ΥΣ', u'ABBR')]),
    (u'Π.ΥΣ.', [(u'Π.ΥΣ.', u'Π.ΥΣ.', u'ABBR')]),
    (u'Π.Υ.Σ', [(u'Π.Υ.Σ', u'Π.Υ.Σ', u'ABBR')]),
    (u'Π.Υ.Σ.', [(u'Π.Υ.Σ.', u'Π.Υ.Σ.', u'ABBR')]),

    # Π.Δ.Τ.Ε. (Πράξη Διοίκησης/Διοικητή Τράπεζας της Ελλάδος)
    (u'πδτε', [(u'πδτε', u'πδτε', u'ABBR')]),
    (u'πδτε.', [(u'πδτε.', u'πδτε.', u'ABBR')]),
    (u'πδτ.ε', [(u'πδτ.ε', u'πδτ.ε', u'ABBR')]),
    (u'πδτ.ε.', [(u'πδτ.ε.', u'πδτ.ε.', u'ABBR')]),
    (u'πδ.τε', [(u'πδ.τε', u'πδ.τε', u'ABBR')]),
    (u'πδ.τε.', [(u'πδ.τε.', u'πδ.τε.', u'ABBR')]),
    (u'πδ.τ.ε', [(u'πδ.τ.ε', u'πδ.τ.ε', u'ABBR')]),
    (u'πδ.τ.ε.', [(u'πδ.τ.ε.', u'πδ.τ.ε.', u'ABBR')]),
    (u'π.δτε', [(u'π.δτε', u'π.δτε', u'ABBR')]),
    (u'π.δτε.', [(u'π.δτε.', u'π.δτε.', u'ABBR')]),
    (u'π.δτ.ε', [(u'π.δτ.ε', u'π.δτ.ε', u'ABBR')]),
    (u'π.δτ.ε.', [(u'π.δτ.ε.', u'π.δτ.ε.', u'ABBR')]),
    (u'π.δ.τε', [(u'π.δ.τε', u'π.δ.τε', u'ABBR')]),
    (u'π.δ.τε.', [(u'π.δ.τε.', u'π.δ.τε.', u'ABBR')]),
    (u'π.δ.τ.ε', [(u'π.δ.τ.ε', u'π.δ.τ.ε', u'ABBR')]),
    (u'π.δ.τ.ε.', [(u'π.δ.τ.ε.', u'π.δ.τ.ε.', u'ABBR')]),
    (u'ΠΔΤΕ', [(u'ΠΔΤΕ', u'ΠΔΤΕ', u'ABBR')]),
    (u'ΠΔΤΕ.', [(u'ΠΔΤΕ.', u'ΠΔΤΕ.', u'ABBR')]),
    (u'ΠΔΤ.Ε', [(u'ΠΔΤ.Ε', u'ΠΔΤ.Ε', u'ABBR')]),
    (u'ΠΔΤ.Ε.', [(u'ΠΔΤ.Ε.', u'ΠΔΤ.Ε.', u'ABBR')]),
    (u'ΠΔ.ΤΕ', [(u'ΠΔ.ΤΕ', u'ΠΔ.ΤΕ', u'ABBR')]),
    (u'ΠΔ.ΤΕ.', [(u'ΠΔ.ΤΕ.', u'ΠΔ.ΤΕ.', u'ABBR')]),
    (u'ΠΔ.Τ.Ε', [(u'ΠΔ.Τ.Ε', u'ΠΔ.Τ.Ε', u'ABBR')]),
    (u'ΠΔ.Τ.Ε.', [(u'ΠΔ.Τ.Ε.', u'ΠΔ.Τ.Ε.', u'ABBR')]),
    (u'Π.ΔΤΕ', [(u'Π.ΔΤΕ', u'Π.ΔΤΕ', u'ABBR')]),
    (u'Π.ΔΤΕ.', [(u'Π.ΔΤΕ.', u'Π.ΔΤΕ.', u'ABBR')]),
    (u'Π.ΔΤ.Ε', [(u'Π.ΔΤ.Ε', u'Π.ΔΤ.Ε', u'ABBR')]),
    (u'Π.ΔΤ.Ε.', [(u'Π.ΔΤ.Ε.', u'Π.ΔΤ.Ε.', u'ABBR')]),
    (u'Π.Δ.ΤΕ', [(u'Π.Δ.ΤΕ', u'Π.Δ.ΤΕ', u'ABBR')]),
    (u'Π.Δ.ΤΕ.', [(u'Π.Δ.ΤΕ.', u'Π.Δ.ΤΕ.', u'ABBR')]),
    (u'Π.Δ.Τ.Ε', [(u'Π.Δ.Τ.Ε', u'Π.Δ.Τ.Ε', u'ABBR')]),
    (u'Π.Δ.Τ.Ε.', [(u'Π.Δ.Τ.Ε.', u'Π.Δ.Τ.Ε.', u'ABBR')]),

    # Π.Δ./Τ.Ε. (Πράξη Διοίκησης/Διοικητή/Τράπεζας της Ελλάδος)
    (u'πδ/τε', [(u'πδ/τε', u'πδ/τε', u'ABBR')]),
    (u'ΠΔ/ΤΕ', [(u'ΠΔ/ΤΕ', u'ΠΔ/ΤΕ', u'ABBR')]),

    (u'π.', [(u'π.', u'π.', u'ABBR')]),
    (u'Π.', [(u'Π.', u'Π.', u'ABBR')]),
    (u'δ.', [(u'δ.', u'δ.', u'ABBR')]),
    (u'Δ.', [(u'Δ.', u'Δ.', u'ABBR')]),
    (u'υ.', [(u'υ.', u'υ.', u'ABBR')]),
    (u'Υ.', [(u'Υ.', u'Υ.', u'ABBR')]),
    (u'β.', [(u'β.', u'β.', u'ABBR')]),
    (u'Β.', [(u'Β.', u'Β.', u'ABBR')]),
    (u'κ.', [(u'κ.', u'κ.', u'ABBR')]),
    (u'Κ.', [(u'Κ.', u'Κ.', u'ABBR')]),
    (u'σ.', [(u'σ.', u'σ.', u'ABBR')]),
    (u'Σ.', [(u'Σ.', u'Σ.', u'ABBR')]),
    (u'τ.', [(u'τ.', u'τ.', u'ABBR')]),
    (u'Τ.', [(u'Τ.', u'Τ.', u'ABBR')]),
    (u'μ.', [(u'μ.', u'μ.', u'ABBR')]),
    (u'Μ.', [(u'Μ.', u'Μ.', u'ABBR')]),

    # παράγραφος/παραγράφου
    (u'παραγραφ.', [(u'παραγραφ.', u'παραγραφ.', u'ABBR')]),
    (u'παραγρ.', [(u'παραγρ.', u'παραγρ.', u'ABBR')]),
    (u'παραγ.', [(u'παραγ.', u'παραγ.', u'ABBR')]),
    (u'παρ.', [(u'παρ.', u'παρ.', u'ABBR')]),
    (u'παραγράφ.', [(u'παραγράφ.', u'παραγράφ.', u'ABBR')]),
    (u'παράγραφ.', [(u'παράγραφ.', u'παράγραφ.', u'ABBR')]),
    (u'παράγρ.', [(u'παράγρ.', u'παράγρ.', u'ABBR')]),
    (u'παράγ.', [(u'παράγ.', u'παράγ.', u'ABBR')]),
    (u'Παραγραφ.', [(u'Παραγραφ.', u'Παραγραφ.', u'ABBR')]),
    (u'Παραγρ.', [(u'Παραγρ.', u'Παραγρ.', u'ABBR')]),
    (u'Παραγ.', [(u'Παραγ.', u'Παραγ.', u'ABBR')]),
    (u'Παρ.', [(u'Παρ.', u'Παρ.', u'ABBR')]),
    (u'Παραγράφ.', [(u'Παραγράφ.', u'Παραγράφ.', u'ABBR')]),
    (u'Παράγραφ.', [(u'Παράγραφ.', u'Παράγραφ.', u'ABBR')]),
    (u'Παράγρ.', [(u'Παράγρ.', u'Παράγρ.', u'ABBR')]),
    (u'Παράγ.', [(u'Παράγ.', u'Παράγ.', u'ABBR')]),
    (u'ΠΑΡΑΓΡΑΦ.', [(u'ΠΑΡΑΓΡΑΦ.', u'ΠΑΡΑΓΡΑΦ.', u'ABBR')]),
    (u'ΠΑΡΑΓΡ.', [(u'ΠΑΡΑΓΡ.', u'ΠΑΡΑΓΡ.', u'ABBR')]),
    (u'ΠΑΡΑΓ.', [(u'ΠΑΡΑΓ.', u'ΠΑΡΑΓ.', u'ABBR')]),
    (u'ΠΑΡ.', [(u'ΠΑΡ.', u'ΠΑΡ.', u'ABBR')]),

    # Υ.Π.Ε.Κ.Α. (Υπουργείο Περιβάλλοντος και Κλιματικής Αλλαγής)
    (u'υπεκα', [(u'υπεκα', u'υπεκα', u'ABBR')]),
    (u'υπεκα.', [(u'υπεκα.', u'υπεκα.', u'ABBR')]),
    (u'υπεκ.α', [(u'υπεκ.α', u'υπεκ.α', u'ABBR')]),
    (u'υπεκ.α.', [(u'υπεκ.α.', u'υπεκ.α.', u'ABBR')]),
    (u'υπε.κα', [(u'υπε.κα', u'υπε.κα', u'ABBR')]),
    (u'υπε.κα.', [(u'υπε.κα.', u'υπε.κα.', u'ABBR')]),
    (u'υπε.κ.α', [(u'υπε.κ.α', u'υπε.κ.α', u'ABBR')]),
    (u'υπε.κ.α.', [(u'υπε.κ.α.', u'υπε.κ.α.', u'ABBR')]),
    (u'υπ.εκα', [(u'υπ.εκα', u'υπ.εκα', u'ABBR')]),
    (u'υπ.εκα.', [(u'υπ.εκα.', u'υπ.εκα.', u'ABBR')]),
    (u'υπ.εκ.α', [(u'υπ.εκ.α', u'υπ.εκ.α', u'ABBR')]),
    (u'υπ.εκ.α.', [(u'υπ.εκ.α.', u'υπ.εκ.α.', u'ABBR')]),
    (u'υπ.ε.κα', [(u'υπ.ε.κα', u'υπ.ε.κα', u'ABBR')]),
    (u'υπ.ε.κα.', [(u'υπ.ε.κα.', u'υπ.ε.κα.', u'ABBR')]),
    (u'υπ.ε.κ.α', [(u'υπ.ε.κ.α', u'υπ.ε.κ.α', u'ABBR')]),
    (u'υπ.ε.κ.α.', [(u'υπ.ε.κ.α.', u'υπ.ε.κ.α.', u'ABBR')]),
    (u'υ.πεκα', [(u'υ.πεκα', u'υ.πεκα', u'ABBR')]),
    (u'υ.πεκα.', [(u'υ.πεκα.', u'υ.πεκα.', u'ABBR')]),
    (u'υ.πεκ.α', [(u'υ.πεκ.α', u'υ.πεκ.α', u'ABBR')]),
    (u'υ.πεκ.α.', [(u'υ.πεκ.α.', u'υ.πεκ.α.', u'ABBR')]),
    (u'υ.πε.κα', [(u'υ.πε.κα', u'υ.πε.κα', u'ABBR')]),
    (u'υ.πε.κα.', [(u'υ.πε.κα.', u'υ.πε.κα.', u'ABBR')]),
    (u'υ.πε.κ.α', [(u'υ.πε.κ.α', u'υ.πε.κ.α', u'ABBR')]),
    (u'υ.πε.κ.α.', [(u'υ.πε.κ.α.', u'υ.πε.κ.α.', u'ABBR')]),
    (u'υ.π.εκα', [(u'υ.π.εκα', u'υ.π.εκα', u'ABBR')]),
    (u'υ.π.εκα.', [(u'υ.π.εκα.', u'υ.π.εκα.', u'ABBR')]),
    (u'υ.π.εκ.α', [(u'υ.π.εκ.α', u'υ.π.εκ.α', u'ABBR')]),
    (u'υ.π.εκ.α.', [(u'υ.π.εκ.α.', u'υ.π.εκ.α.', u'ABBR')]),
    (u'υ.π.ε.κα', [(u'υ.π.ε.κα', u'υ.π.ε.κα', u'ABBR')]),
    (u'υ.π.ε.κα.', [(u'υ.π.ε.κα.', u'υ.π.ε.κα.', u'ABBR')]),
    (u'υ.π.ε.κ.α', [(u'υ.π.ε.κ.α', u'υ.π.ε.κ.α', u'ABBR')]),
    (u'υ.π.ε.κ.α.', [(u'υ.π.ε.κ.α.', u'υ.π.ε.κ.α.', u'ABBR')]),
    (u'ΥΠΕΚΑ', [(u'ΥΠΕΚΑ', u'ΥΠΕΚΑ', u'ABBR')]),
    (u'ΥΠΕΚΑ.', [(u'ΥΠΕΚΑ.', u'ΥΠΕΚΑ.', u'ABBR')]),
    (u'ΥΠΕΚ.Α', [(u'ΥΠΕΚ.Α', u'ΥΠΕΚ.Α', u'ABBR')]),
    (u'ΥΠΕΚ.Α.', [(u'ΥΠΕΚ.Α.', u'ΥΠΕΚ.Α.', u'ABBR')]),
    (u'ΥΠΕ.ΚΑ', [(u'ΥΠΕ.ΚΑ', u'ΥΠΕ.ΚΑ', u'ABBR')]),
    (u'ΥΠΕ.ΚΑ.', [(u'ΥΠΕ.ΚΑ.', u'ΥΠΕ.ΚΑ.', u'ABBR')]),
    (u'ΥΠΕ.Κ.Α', [(u'ΥΠΕ.Κ.Α', u'ΥΠΕ.Κ.Α', u'ABBR')]),
    (u'ΥΠΕ.Κ.Α.', [(u'ΥΠΕ.Κ.Α.', u'ΥΠΕ.Κ.Α.', u'ABBR')]),
    (u'ΥΠ.ΕΚΑ', [(u'ΥΠ.ΕΚΑ', u'ΥΠ.ΕΚΑ', u'ABBR')]),
    (u'ΥΠ.ΕΚΑ.', [(u'ΥΠ.ΕΚΑ.', u'ΥΠ.ΕΚΑ.', u'ABBR')]),
    (u'ΥΠ.ΕΚ.Α', [(u'ΥΠ.ΕΚ.Α', u'ΥΠ.ΕΚ.Α', u'ABBR')]),
    (u'ΥΠ.ΕΚ.Α.', [(u'ΥΠ.ΕΚ.Α.', u'ΥΠ.ΕΚ.Α.', u'ABBR')]),
    (u'ΥΠ.Ε.ΚΑ', [(u'ΥΠ.Ε.ΚΑ', u'ΥΠ.Ε.ΚΑ', u'ABBR')]),
    (u'ΥΠ.Ε.ΚΑ.', [(u'ΥΠ.Ε.ΚΑ.', u'ΥΠ.Ε.ΚΑ.', u'ABBR')]),
    (u'ΥΠ.Ε.Κ.Α', [(u'ΥΠ.Ε.Κ.Α', u'ΥΠ.Ε.Κ.Α', u'ABBR')]),
    (u'ΥΠ.Ε.Κ.Α.', [(u'ΥΠ.Ε.Κ.Α.', u'ΥΠ.Ε.Κ.Α.', u'ABBR')]),
    (u'Υ.ΠΕΚΑ', [(u'Υ.ΠΕΚΑ', u'Υ.ΠΕΚΑ', u'ABBR')]),
    (u'Υ.ΠΕΚΑ.', [(u'Υ.ΠΕΚΑ.', u'Υ.ΠΕΚΑ.', u'ABBR')]),
    (u'Υ.ΠΕΚ.Α', [(u'Υ.ΠΕΚ.Α', u'Υ.ΠΕΚ.Α', u'ABBR')]),
    (u'Υ.ΠΕΚ.Α.', [(u'Υ.ΠΕΚ.Α.', u'Υ.ΠΕΚ.Α.', u'ABBR')]),
    (u'Υ.ΠΕ.ΚΑ', [(u'Υ.ΠΕ.ΚΑ', u'Υ.ΠΕ.ΚΑ', u'ABBR')]),
    (u'Υ.ΠΕ.ΚΑ.', [(u'Υ.ΠΕ.ΚΑ.', u'Υ.ΠΕ.ΚΑ.', u'ABBR')]),
    (u'Υ.ΠΕ.Κ.Α', [(u'Υ.ΠΕ.Κ.Α', u'Υ.ΠΕ.Κ.Α', u'ABBR')]),
    (u'Υ.ΠΕ.Κ.Α.', [(u'Υ.ΠΕ.Κ.Α.', u'Υ.ΠΕ.Κ.Α.', u'ABBR')]),
    (u'Υ.Π.ΕΚΑ', [(u'Υ.Π.ΕΚΑ', u'Υ.Π.ΕΚΑ', u'ABBR')]),
    (u'Υ.Π.ΕΚΑ.', [(u'Υ.Π.ΕΚΑ.', u'Υ.Π.ΕΚΑ.', u'ABBR')]),
    (u'Υ.Π.ΕΚ.Α', [(u'Υ.Π.ΕΚ.Α', u'Υ.Π.ΕΚ.Α', u'ABBR')]),
    (u'Υ.Π.ΕΚ.Α.', [(u'Υ.Π.ΕΚ.Α.', u'Υ.Π.ΕΚ.Α.', u'ABBR')]),
    (u'Υ.Π.Ε.ΚΑ', [(u'Υ.Π.Ε.ΚΑ', u'Υ.Π.Ε.ΚΑ', u'ABBR')]),
    (u'Υ.Π.Ε.ΚΑ.', [(u'Υ.Π.Ε.ΚΑ.', u'Υ.Π.Ε.ΚΑ.', u'ABBR')]),
    (u'Υ.Π.Ε.Κ.Α', [(u'Υ.Π.Ε.Κ.Α', u'Υ.Π.Ε.Κ.Α', u'ABBR')]),
    (u'Υ.Π.Ε.Κ.Α.', [(u'Υ.Π.Ε.Κ.Α.', u'Υ.Π.Ε.Κ.Α.', u'ABBR')]),

    # (.)Π.Ε.Κ.Α. ((.)Περιβάλλοντος και Κλιματικής Αλλαγής - in case "Υ." is missing due to ocr error)
    (u'πεκα', [(u'πεκα', u'πεκα', u'ABBR')]),
    (u'πεκα.', [(u'πεκα.', u'πεκα.', u'ABBR')]),
    (u'πεκ.α', [(u'πεκ.α', u'πεκ.α', u'ABBR')]),
    (u'πεκ.α.', [(u'πεκ.α.', u'πεκ.α.', u'ABBR')]),
    (u'πε.κα', [(u'πε.κα', u'πε.κα', u'ABBR')]),
    (u'πε.κα.', [(u'πε.κα.', u'πε.κα.', u'ABBR')]),
    (u'πε.κ.α', [(u'πε.κ.α', u'πε.κ.α', u'ABBR')]),
    (u'πε.κ.α.', [(u'πε.κ.α.', u'πε.κ.α.', u'ABBR')]),
    (u'π.εκα', [(u'π.εκα', u'π.εκα', u'ABBR')]),
    (u'π.εκα.', [(u'π.εκα.', u'π.εκα.', u'ABBR')]),
    (u'π.εκ.α', [(u'π.εκ.α', u'π.εκ.α', u'ABBR')]),
    (u'π.εκ.α.', [(u'π.εκ.α.', u'π.εκ.α.', u'ABBR')]),
    (u'π.ε.κα', [(u'π.ε.κα', u'π.ε.κα', u'ABBR')]),
    (u'π.ε.κα.', [(u'π.ε.κα.', u'π.ε.κα.', u'ABBR')]),
    (u'π.ε.κ.α', [(u'π.ε.κ.α', u'π.ε.κ.α', u'ABBR')]),
    (u'π.ε.κ.α.', [(u'π.ε.κ.α.', u'π.ε.κ.α.', u'ABBR')]),
    (u'.πεκα', [(u'.πεκα', u'.πεκα', u'ABBR')]),
    (u'.πεκα.', [(u'.πεκα.', u'.πεκα.', u'ABBR')]),
    (u'.πεκ.α', [(u'.πεκ.α', u'.πεκ.α', u'ABBR')]),
    (u'.πεκ.α.', [(u'.πεκ.α.', u'.πεκ.α.', u'ABBR')]),
    (u'.πε.κα', [(u'.πε.κα', u'.πε.κα', u'ABBR')]),
    (u'.πε.κα.', [(u'.πε.κα.', u'.πε.κα.', u'ABBR')]),
    (u'.πε.κ.α', [(u'.πε.κ.α', u'.πε.κ.α', u'ABBR')]),
    (u'.πε.κ.α.', [(u'.πε.κ.α.', u'.πε.κ.α.', u'ABBR')]),
    (u'.π.εκα', [(u'.π.εκα', u'.π.εκα', u'ABBR')]),
    (u'.π.εκα.', [(u'.π.εκα.', u'.π.εκα.', u'ABBR')]),
    (u'.π.εκ.α', [(u'.π.εκ.α', u'.π.εκ.α', u'ABBR')]),
    (u'.π.εκ.α.', [(u'.π.εκ.α.', u'.π.εκ.α.', u'ABBR')]),
    (u'.π.ε.κα', [(u'.π.ε.κα', u'.π.ε.κα', u'ABBR')]),
    (u'.π.ε.κα.', [(u'.π.ε.κα.', u'.π.ε.κα.', u'ABBR')]),
    (u'.π.ε.κ.α', [(u'.π.ε.κ.α', u'.π.ε.κ.α', u'ABBR')]),
    (u'.π.ε.κ.α.', [(u'.π.ε.κ.α.', u'.π.ε.κ.α.', u'ABBR')]),
    (u'ΠΕΚΑ', [(u'ΠΕΚΑ', u'ΠΕΚΑ', u'ABBR')]),
    (u'ΠΕΚΑ.', [(u'ΠΕΚΑ.', u'ΠΕΚΑ.', u'ABBR')]),
    (u'ΠΕΚ.Α', [(u'ΠΕΚ.Α', u'ΠΕΚ.Α', u'ABBR')]),
    (u'ΠΕΚ.Α.', [(u'ΠΕΚ.Α.', u'ΠΕΚ.Α.', u'ABBR')]),
    (u'ΠΕ.ΚΑ', [(u'ΠΕ.ΚΑ', u'ΠΕ.ΚΑ', u'ABBR')]),
    (u'ΠΕ.ΚΑ.', [(u'ΠΕ.ΚΑ.', u'ΠΕ.ΚΑ.', u'ABBR')]),
    (u'ΠΕ.Κ.Α', [(u'ΠΕ.Κ.Α', u'ΠΕ.Κ.Α', u'ABBR')]),
    (u'ΠΕ.Κ.Α.', [(u'ΠΕ.Κ.Α.', u'ΠΕ.Κ.Α.', u'ABBR')]),
    (u'Π.ΕΚΑ', [(u'Π.ΕΚΑ', u'Π.ΕΚΑ', u'ABBR')]),
    (u'Π.ΕΚΑ.', [(u'Π.ΕΚΑ.', u'Π.ΕΚΑ.', u'ABBR')]),
    (u'Π.ΕΚ.Α', [(u'Π.ΕΚ.Α', u'Π.ΕΚ.Α', u'ABBR')]),
    (u'Π.ΕΚ.Α.', [(u'Π.ΕΚ.Α.', u'Π.ΕΚ.Α.', u'ABBR')]),
    (u'Π.Ε.ΚΑ', [(u'Π.Ε.ΚΑ', u'Π.Ε.ΚΑ', u'ABBR')]),
    (u'Π.Ε.ΚΑ.', [(u'Π.Ε.ΚΑ.', u'Π.Ε.ΚΑ.', u'ABBR')]),
    (u'Π.Ε.Κ.Α', [(u'Π.Ε.Κ.Α', u'Π.Ε.Κ.Α', u'ABBR')]),
    (u'Π.Ε.Κ.Α.', [(u'Π.Ε.Κ.Α.', u'Π.Ε.Κ.Α.', u'ABBR')]),
    (u'.ΠΕΚΑ', [(u'.ΠΕΚΑ', u'.ΠΕΚΑ', u'ABBR')]),
    (u'.ΠΕΚΑ.', [(u'.ΠΕΚΑ.', u'.ΠΕΚΑ.', u'ABBR')]),
    (u'.ΠΕΚ.Α', [(u'.ΠΕΚ.Α', u'.ΠΕΚ.Α', u'ABBR')]),
    (u'.ΠΕΚ.Α.', [(u'.ΠΕΚ.Α.', u'.ΠΕΚ.Α.', u'ABBR')]),
    (u'.ΠΕ.ΚΑ', [(u'.ΠΕ.ΚΑ', u'.ΠΕ.ΚΑ', u'ABBR')]),
    (u'.ΠΕ.ΚΑ.', [(u'.ΠΕ.ΚΑ.', u'.ΠΕ.ΚΑ.', u'ABBR')]),
    (u'.ΠΕ.Κ.Α', [(u'.ΠΕ.Κ.Α', u'.ΠΕ.Κ.Α', u'ABBR')]),
    (u'.ΠΕ.Κ.Α.', [(u'.ΠΕ.Κ.Α.', u'.ΠΕ.Κ.Α.', u'ABBR')]),
    (u'.Π.ΕΚΑ', [(u'.Π.ΕΚΑ', u'.Π.ΕΚΑ', u'ABBR')]),
    (u'.Π.ΕΚΑ.', [(u'.Π.ΕΚΑ.', u'.Π.ΕΚΑ.', u'ABBR')]),
    (u'.Π.ΕΚ.Α', [(u'.Π.ΕΚ.Α', u'.Π.ΕΚ.Α', u'ABBR')]),
    (u'.Π.ΕΚ.Α.', [(u'.Π.ΕΚ.Α.', u'.Π.ΕΚ.Α.', u'ABBR')]),
    (u'.Π.Ε.ΚΑ', [(u'.Π.Ε.ΚΑ', u'.Π.Ε.ΚΑ', u'ABBR')]),
    (u'.Π.Ε.ΚΑ.', [(u'.Π.Ε.ΚΑ.', u'.Π.Ε.ΚΑ.', u'ABBR')]),
    (u'.Π.Ε.Κ.Α', [(u'.Π.Ε.Κ.Α', u'.Π.Ε.Κ.Α', u'ABBR')]),
    (u'.Π.Ε.Κ.Α.', [(u'.Π.Ε.Κ.Α.', u'.Π.Ε.Κ.Α.', u'ABBR')]),

    # Αγρ. (Αγρονόμου)
    (u'Αγρ.', [(u'Αγρ.', u'Αγρ.', u'ABBR')]),

    # Δόμησης-Πολ.
    (u'Δόμησης-Πολ.', [(u'Δόμησης-Πολ.', u'Δόμησης-Πολ.', u'ABBR')]),

    # Πολ.
    (u'Πολ.', [(u'Πολ.', u'Πολ.', u'ABBR')]),


    # /τ.μ. (split into "/" and "τ.μ.")
    (u'/τ.μ.', [(u'/', u'/', u'PUNCT'), (u'τ.μ.', u'τ.μ.', u'ABBR')])
]

for rule in rules:
    if rule not in case_rules:
        case_rules.append(rule)

case_rules = sorted(case_rules, key=lambda x: (len(x[0]), x[0]), reverse=True)

regex_rules = [(r'(([^\s\(\),]+/)+[^\s\(\),]+)', u'CODE'), (r'((\d+([/\-]))+(\d+[/\-]*))', u'CODE'), (r'((\w+([.]))+(\w+[.]*))', u'ABBR')]

In [None]:
from spacy.symbols import ORTH, LEMMA, POS, TAG
import re

def post_process_doc(doc):

    # Fix tokenization using regex
    indexes = []
    for rgx in regex_rules:
        indexes.extend([m.span() for m in re.finditer(rgx[0], doc.text, flags=re.IGNORECASE)])

    for start, end in indexes:
        doc.merge(start_idx=start, end_idx=end)

    # Eliminate space tokens
    tokenized_text = []
    tokens = [token for token in doc
              if token.tag_ != 'SPACE'
              and token.text.strip(' ')]

    # fix tagging for merged tokens
    for i in tokens:
        if (i.idx, i.idx + len(i.text)) in indexes:
            for rgx in regex_rules:
                rgx_indexes = [m.span() for m in re.finditer(rgx[0], doc.text, flags=re.IGNORECASE)]
                if (i.idx, i.idx + len(i.text)) in rgx_indexes:
                    i.tag_ = rgx[1]
                    break
        tokenized_text.append(i)

    # Fix numerals tag assignment errors
    final_tokenized_text = []
    for token in tokenized_text:
        if re.fullmatch(r'\d+\.', token.text.strip(' ')):
            token.tag_ = 'NUM'
        final_tokenized_text.append(token)
    return final_tokenized_text

class GreekLegalTagger(object):

    def __init__(self):
        self.nlp = spacy.load('en')

        # Add tokenization special cases
        for rule in case_rules:
            special_cases = [(orth, lemma, pos) for orth, lemma, pos in rule[1]]

            special_case = []
            for case in special_cases:
                special_case.append({ORTH: case[0], LEMMA: case[1], POS: case[2], TAG: case[2]})
            self.nlp.tokenizer.add_special_case(rule[0], special_case)
        
        # Add post-processing
        self.nlp.add_pipe(post_process_doc, name='tokenize_doc', last=True)


In [None]:
greek_legal_spacy = GreekLegalTagger()

# Build a document model that contains all useful information
doc = greek_legal_spacy.nlp(fragment.replace('\n', ' '))

print('{:20} {:20} {:20} {:20} {:20}'.format('TOKEN', 'NORM', 'SHAPE', 'TAG', 'ALPHA'))
print('============================================================================================')
for token in doc:
    print('{:20} {:20} {:20} {:20} {:20}'.
          format(token.text, token.norm_, token.shape_, token.tag_, token.is_alpha))

----
# N-gram language model 

* Which are the available options? 
* How are we going to utilize the trigrams to build an actual language model? 
* How are we going to build a complete end-to-end pipeline to implement a language model (Exercises on n-gram language models, spelling correction, text normalization, Ex 1)?

** Python Code Example **

In [None]:
# SENTENCE SPLITTING
# PAD SENTENCE BY SENTENCE
# CREATE DICTIONARY/IES FOR UNIGRAMS/BIGRAGS/TRIGRAMS
# THINK ABOUT RARE WORDS, DO SOMETHING
# BUILD BUSINESS LOGIC OF LANGUAGE MODEL (MANIPULATE DICTIONARIES)