## This notebook shows some examples on using NLTK for various tasks related to morphology

In [1]:
import nltk
# nltk.download()
import nltk.data
nltk.data.path.append("/home/petasis/.nltk_data/")

## Download a sample corpus

We are going to retrieve a small corpus from the internet, like an RSS Feed.

In [2]:
import feedparser
llog = feedparser.parse("http://avgi.gr/newsstream/-/asset_publisher/CATEGORY/rss?p_p_cacheability=cacheLevelFull")
llog['feed']['title']

'Ροή Ειδήσεων'

In [3]:
# How many news items?
len(llog.entries)

20

In [4]:
# Select a news item:
item = llog.entries[2]
title = item.title
summary = item.summary
print(item)
print(title)
print(summary)

{'title': 'Ενθαρρυντικά σημάδια για την πορεία των εξαγωγών το 2018', 'title_detail': {'type': 'text/plain', 'language': None, 'base': 'http://avgi.gr/newsstream/-/asset_publisher/CATEGORY/rss?p_p_cacheability=cacheLevelFull', 'value': 'Ενθαρρυντικά σημάδια για την πορεία των εξαγωγών το 2018'}, 'links': [{'rel': 'alternate', 'href': 'http://avgi.gr/article/10951/8735986', 'type': 'text/html'}], 'link': 'http://avgi.gr/article/10951/8735986', 'authors': [{'name': ''}], 'author_detail': {'name': ''}, 'author': '', 'id': 'http://avgi.gr/article/10951/8735986', 'guidislink': False, 'updated': '2018-02-27T14:33:00Z', 'updated_parsed': time.struct_time(tm_year=2018, tm_mon=2, tm_mday=27, tm_hour=14, tm_min=33, tm_sec=0, tm_wday=1, tm_yday=58, tm_isdst=0), 'published': '2018-02-27T14:33:00Z', 'published_parsed': time.struct_time(tm_year=2018, tm_mon=2, tm_mday=27, tm_hour=14, tm_min=33, tm_sec=0, tm_wday=1, tm_yday=58, tm_isdst=0), 'summary': 'Οι εξαγωγές συμπεριλαμβανομένων των πετρελαιοειδ

## Tokenisation

In [5]:
text = title + ". " + summary + "."
print(text)

Ενθαρρυντικά σημάδια για την πορεία των εξαγωγών το 2018. Οι εξαγωγές συμπεριλαμβανομένων των πετρελαιοειδών στο σύνολο του 2017, δηλαδή στο διάστημα Ιανουαρίου - Δεκεμβρίου 2017, αυξήθηκαν κατά 13,2% και ανήλθαν στα 28,46 δισ. ευρώ από 25,15 δισ. ευρώ.


In [6]:
from nltk.tokenize import word_tokenize
tokens = nltk.word_tokenize(text, "english")
print(tokens)
tokens = nltk.word_tokenize(text, "greek")
print(tokens)

['Ενθαρρυντικά', 'σημάδια', 'για', 'την', 'πορεία', 'των', 'εξαγωγών', 'το', '2018', '.', 'Οι', 'εξαγωγές', 'συμπεριλαμβανομένων', 'των', 'πετρελαιοειδών', 'στο', 'σύνολο', 'του', '2017', ',', 'δηλαδή', 'στο', 'διάστημα', 'Ιανουαρίου', '-', 'Δεκεμβρίου', '2017', ',', 'αυξήθηκαν', 'κατά', '13,2', '%', 'και', 'ανήλθαν', 'στα', '28,46', 'δισ', '.', 'ευρώ', 'από', '25,15', 'δισ', '.', 'ευρώ', '.']
['Ενθαρρυντικά', 'σημάδια', 'για', 'την', 'πορεία', 'των', 'εξαγωγών', 'το', '2018', '.', 'Οι', 'εξαγωγές', 'συμπεριλαμβανομένων', 'των', 'πετρελαιοειδών', 'στο', 'σύνολο', 'του', '2017', ',', 'δηλαδή', 'στο', 'διάστημα', 'Ιανουαρίου', '-', 'Δεκεμβρίου', '2017', ',', 'αυξήθηκαν', 'κατά', '13,2', '%', 'και', 'ανήλθαν', 'στα', '28,46', 'δισ.', 'ευρώ', 'από', '25,15', 'δισ.', 'ευρώ', '.']


## Sentence spliting

In [7]:
from nltk.tokenize import sent_tokenize
sent_tokenize_list = sent_tokenize(text, "english")
print(sent_tokenize_list)
sent_tokenize_list = sent_tokenize(text, "greek")
print(sent_tokenize_list)

['Ενθαρρυντικά σημάδια για την πορεία των εξαγωγών το 2018.', 'Οι εξαγωγές συμπεριλαμβανομένων των πετρελαιοειδών στο σύνολο του 2017, δηλαδή στο διάστημα Ιανουαρίου - Δεκεμβρίου 2017, αυξήθηκαν κατά 13,2% και ανήλθαν στα 28,46 δισ.', 'ευρώ από 25,15 δισ.', 'ευρώ.']
['Ενθαρρυντικά σημάδια για την πορεία των εξαγωγών το 2018.', 'Οι εξαγωγές συμπεριλαμβανομένων των πετρελαιοειδών στο σύνολο του 2017, δηλαδή στο διάστημα Ιανουαρίου - Δεκεμβρίου 2017, αυξήθηκαν κατά 13,2% και ανήλθαν στα 28,46 δισ. ευρώ από 25,15 δισ. ευρώ.']


## POS tagging

In [8]:
tokens = nltk.word_tokenize(text, "greek")
print(tokens)

tags = nltk.pos_tag(text, "english")

['Ενθαρρυντικά', 'σημάδια', 'για', 'την', 'πορεία', 'των', 'εξαγωγών', 'το', '2018', '.', 'Οι', 'εξαγωγές', 'συμπεριλαμβανομένων', 'των', 'πετρελαιοειδών', 'στο', 'σύνολο', 'του', '2017', ',', 'δηλαδή', 'στο', 'διάστημα', 'Ιανουαρίου', '-', 'Δεκεμβρίου', '2017', ',', 'αυξήθηκαν', 'κατά', '13,2', '%', 'και', 'ανήλθαν', 'στα', '28,46', 'δισ.', 'ευρώ', 'από', '25,15', 'δισ.', 'ευρώ', '.']


In [9]:
print(tags)

[('Ε', 'UNK'), ('ν', 'UNK'), ('θ', 'UNK'), ('α', 'UNK'), ('ρ', 'UNK'), ('ρ', 'UNK'), ('υ', 'UNK'), ('ν', 'UNK'), ('τ', 'UNK'), ('ι', 'UNK'), ('κ', 'UNK'), ('ά', 'UNK'), (' ', 'UNK'), ('σ', 'UNK'), ('η', 'UNK'), ('μ', 'UNK'), ('ά', 'UNK'), ('δ', 'UNK'), ('ι', 'UNK'), ('α', 'UNK'), (' ', 'UNK'), ('γ', 'UNK'), ('ι', 'UNK'), ('α', 'UNK'), (' ', 'UNK'), ('τ', 'UNK'), ('η', 'UNK'), ('ν', 'UNK'), (' ', 'UNK'), ('π', 'UNK'), ('ο', 'UNK'), ('ρ', 'UNK'), ('ε', 'UNK'), ('ί', 'UNK'), ('α', 'UNK'), (' ', 'UNK'), ('τ', 'UNK'), ('ω', 'UNK'), ('ν', 'UNK'), (' ', 'UNK'), ('ε', 'UNK'), ('ξ', 'UNK'), ('α', 'UNK'), ('γ', 'UNK'), ('ω', 'UNK'), ('γ', 'UNK'), ('ώ', 'UNK'), ('ν', 'UNK'), (' ', 'UNK'), ('τ', 'UNK'), ('ο', 'UNK'), (' ', 'UNK'), ('2', 'UNK'), ('0', 'UNK'), ('1', 'UNK'), ('8', 'UNK'), ('.', 'UNK'), (' ', 'UNK'), ('Ο', 'UNK'), ('ι', 'UNK'), (' ', 'UNK'), ('ε', 'UNK'), ('ξ', 'UNK'), ('α', 'UNK'), ('γ', 'UNK'), ('ω', 'UNK'), ('γ', 'UNK'), ('έ', 'UNK'), ('ς', 'UNK'), (' ', 'UNK'), ('σ', 'UNK'), ('υ',

In [10]:
nltk.help.upenn_tagset("NN*")

NN: noun, common, singular or mass
    common-carrier cabbage knuckle-duster Casino afghan shed thermostat
    investment slide humour falloff slick wind hyena override subhumanity
    machinist ...
NNP: noun, proper, singular
    Motown Venneboerger Czestochwa Ranzer Conchita Trumplane Christos
    Oceanside Escobar Kreisler Sawyer Cougar Yvette Ervin ODI Darryl CTCA
    Shannon A.K.C. Meltex Liverpool ...
NNPS: noun, proper, plural
    Americans Americas Amharas Amityvilles Amusements Anarcho-Syndicalists
    Andalusians Andes Andruses Angels Animals Anthony Antilles Antiques
    Apache Apaches Apocrypha ...
NNS: noun, common, plural
    undergraduates scotches bric-a-brac products bodyguards facets coasts
    divestitures storehouses designs clubs fragrances averages
    subjectivists apprehensions muses factory-jobs ...


In [11]:
tags = nltk.pos_tag(tokens, lang="eng", tagset="brown")
print(tags)

[('Ενθαρρυντικά', 'UNK'), ('σημάδια', 'UNK'), ('για', 'UNK'), ('την', 'UNK'), ('πορεία', 'UNK'), ('των', 'UNK'), ('εξαγωγών', 'UNK'), ('το', 'UNK'), ('2018', 'UNK'), ('.', 'UNK'), ('Οι', 'UNK'), ('εξαγωγές', 'UNK'), ('συμπεριλαμβανομένων', 'UNK'), ('των', 'UNK'), ('πετρελαιοειδών', 'UNK'), ('στο', 'UNK'), ('σύνολο', 'UNK'), ('του', 'UNK'), ('2017', 'UNK'), (',', 'UNK'), ('δηλαδή', 'UNK'), ('στο', 'UNK'), ('διάστημα', 'UNK'), ('Ιανουαρίου', 'UNK'), ('-', 'UNK'), ('Δεκεμβρίου', 'UNK'), ('2017', 'UNK'), (',', 'UNK'), ('αυξήθηκαν', 'UNK'), ('κατά', 'UNK'), ('13,2', 'UNK'), ('%', 'UNK'), ('και', 'UNK'), ('ανήλθαν', 'UNK'), ('στα', 'UNK'), ('28,46', 'UNK'), ('δισ.', 'UNK'), ('ευρώ', 'UNK'), ('από', 'UNK'), ('25,15', 'UNK'), ('δισ.', 'UNK'), ('ευρώ', 'UNK'), ('.', 'UNK')]


In [12]:
nltk.help.upenn_tagset("UN*")

UH: interjection
    Goodbye Goody Gosh Wow Jeepers Jee-sus Hubba Hey Kee-reist Oops amen
    huh howdy uh dammit whammo shucks heck anyways whodunnit honey golly
    man baby diddle hush sonuvabitch ...


In [13]:
tags = nltk.pos_tag(tokens, lang="gre", tagset='universal')
print(tags)

[('Ενθαρρυντικά', 'ADJ'), ('σημάδια', 'NOUN'), ('για', 'NOUN'), ('την', 'NOUN'), ('πορεία', 'NOUN'), ('των', 'NOUN'), ('εξαγωγών', 'NOUN'), ('το', 'NOUN'), ('2018', 'NUM'), ('.', '.'), ('Οι', 'VERB'), ('εξαγωγές', 'ADJ'), ('συμπεριλαμβανομένων', 'NOUN'), ('των', 'NOUN'), ('πετρελαιοειδών', 'NOUN'), ('στο', 'NOUN'), ('σύνολο', 'NOUN'), ('του', 'NOUN'), ('2017', 'NUM'), (',', '.'), ('δηλαδή', 'NOUN'), ('στο', 'NOUN'), ('διάστημα', 'NOUN'), ('Ιανουαρίου', 'NOUN'), ('-', '.'), ('Δεκεμβρίου', 'NOUN'), ('2017', 'NUM'), (',', '.'), ('αυξήθηκαν', 'NOUN'), ('κατά', 'VERB'), ('13,2', 'NUM'), ('%', 'NOUN'), ('και', 'ADJ'), ('ανήλθαν', 'NOUN'), ('στα', 'NOUN'), ('28,46', 'NUM'), ('δισ.', 'NOUN'), ('ευρώ', 'NOUN'), ('από', 'VERB'), ('25,15', 'NUM'), ('δισ.', 'ADJ'), ('ευρώ', 'NOUN'), ('.', '.')]


In [14]:
tags = nltk.pos_tag(tokens, lang="gre", tagset='wsj')
print(tags)

[('Ενθαρρυντικά', 'UNK'), ('σημάδια', 'UNK'), ('για', 'UNK'), ('την', 'UNK'), ('πορεία', 'UNK'), ('των', 'UNK'), ('εξαγωγών', 'UNK'), ('το', 'UNK'), ('2018', 'UNK'), ('.', 'UNK'), ('Οι', 'UNK'), ('εξαγωγές', 'UNK'), ('συμπεριλαμβανομένων', 'UNK'), ('των', 'UNK'), ('πετρελαιοειδών', 'UNK'), ('στο', 'UNK'), ('σύνολο', 'UNK'), ('του', 'UNK'), ('2017', 'UNK'), (',', 'UNK'), ('δηλαδή', 'UNK'), ('στο', 'UNK'), ('διάστημα', 'UNK'), ('Ιανουαρίου', 'UNK'), ('-', 'UNK'), ('Δεκεμβρίου', 'UNK'), ('2017', 'UNK'), (',', 'UNK'), ('αυξήθηκαν', 'UNK'), ('κατά', 'UNK'), ('13,2', 'UNK'), ('%', 'UNK'), ('και', 'UNK'), ('ανήλθαν', 'UNK'), ('στα', 'UNK'), ('28,46', 'UNK'), ('δισ.', 'UNK'), ('ευρώ', 'UNK'), ('από', 'UNK'), ('25,15', 'UNK'), ('δισ.', 'UNK'), ('ευρώ', 'UNK'), ('.', 'UNK')]


In [15]:
tags = nltk.pos_tag_sents(text, lang="gre", tagset='universal')
print(tags)

[[('Ε', 'NOUN')], [('ν', 'NOUN')], [('θ', 'NOUN')], [('α', 'NOUN')], [('ρ', 'NOUN')], [('ρ', 'NOUN')], [('υ', 'NOUN')], [('ν', 'NOUN')], [('τ', 'NOUN')], [('ι', 'NOUN')], [('κ', 'NOUN')], [('ά', 'NOUN')], [(' ', 'NOUN')], [('σ', 'NOUN')], [('η', 'NOUN')], [('μ', 'NOUN')], [('ά', 'NOUN')], [('δ', 'NOUN')], [('ι', 'NOUN')], [('α', 'NOUN')], [(' ', 'NOUN')], [('γ', 'NOUN')], [('ι', 'NOUN')], [('α', 'NOUN')], [(' ', 'NOUN')], [('τ', 'NOUN')], [('η', 'NOUN')], [('ν', 'NOUN')], [(' ', 'NOUN')], [('π', 'NOUN')], [('ο', 'NOUN')], [('ρ', 'NOUN')], [('ε', 'NOUN')], [('ί', 'NOUN')], [('α', 'NOUN')], [(' ', 'NOUN')], [('τ', 'NOUN')], [('ω', 'NOUN')], [('ν', 'NOUN')], [(' ', 'NOUN')], [('ε', 'NOUN')], [('ξ', 'NOUN')], [('α', 'NOUN')], [('γ', 'NOUN')], [('ω', 'NOUN')], [('γ', 'NOUN')], [('ώ', 'NOUN')], [('ν', 'NOUN')], [(' ', 'NOUN')], [('τ', 'NOUN')], [('ο', 'NOUN')], [(' ', 'NOUN')], [('2', 'NUM')], [('0', 'NUM')], [('1', 'NUM')], [('8', 'NUM')], [('.', '.')], [(' ', 'NOUN')], [('Ο', 'NOUN')], [('

In [16]:
tags = nltk.pos_tag_sents(sent_tokenize_list, lang="gre", tagset='universal')
print(tags)

[[('Ε', 'ADJ'), ('ν', 'NOUN'), ('θ', 'NOUN'), ('α', 'NOUN'), ('ρ', 'NOUN'), ('ρ', 'NOUN'), ('υ', 'NOUN'), ('ν', 'NOUN'), ('τ', 'NOUN'), ('ι', 'NOUN'), ('κ', 'NOUN'), ('ά', 'NOUN'), (' ', 'NOUN'), ('σ', 'NOUN'), ('η', 'NOUN'), ('μ', 'NOUN'), ('ά', 'NOUN'), ('δ', 'NOUN'), ('ι', 'NOUN'), ('α', 'NOUN'), (' ', 'NOUN'), ('γ', 'NOUN'), ('ι', 'NOUN'), ('α', 'NOUN'), (' ', 'NOUN'), ('τ', 'NOUN'), ('η', 'NOUN'), ('ν', 'NOUN'), (' ', 'NOUN'), ('π', 'NOUN'), ('ο', 'NOUN'), ('ρ', 'NOUN'), ('ε', 'NOUN'), ('ί', 'NOUN'), ('α', 'NOUN'), (' ', 'NOUN'), ('τ', 'NOUN'), ('ω', 'NOUN'), ('ν', 'NOUN'), (' ', 'NOUN'), ('ε', 'NOUN'), ('ξ', 'NOUN'), ('α', 'NOUN'), ('γ', 'NOUN'), ('ω', 'NOUN'), ('γ', 'NOUN'), ('ώ', 'NOUN'), ('ν', 'NOUN'), (' ', 'NOUN'), ('τ', 'NOUN'), ('ο', 'NOUN'), (' ', 'VERB'), ('2', 'NUM'), ('0', 'NUM'), ('1', 'NUM'), ('8', 'NUM'), ('.', '.')], [('Ο', 'ADJ'), ('ι', 'NOUN'), (' ', 'NOUN'), ('ε', 'NOUN'), ('ξ', 'NOUN'), ('α', 'NOUN'), ('γ', 'NOUN'), ('ω', 'NOUN'), ('γ', 'NOUN'), ('έ', 'NOUN'), 

## Stemming

In [17]:
from nltk.stem.porter import PorterStemmer
porter_stemmer = PorterStemmer()
porter_stemmer.stem("maximum")

'maximum'

In [18]:
porter_stemmer.stem("foxes")

'fox'

In [19]:
porter_stemmer.stem("European")

'european'

In [20]:
porter_stemmer.stem("Europe")

'europ'

In [21]:
from nltk.stem.lancaster import LancasterStemmer
lancaster_stemmer = LancasterStemmer()
lancaster_stemmer.stem("maximum")

'maxim'

In [22]:
lancaster_stemmer.stem("foxes")

'fox'

In [23]:
lancaster_stemmer.stem("European")

'europ'

In [24]:
lancaster_stemmer.stem("Europe")

'europ'