In [1]:
import nltk

# NLTK
Its a platform with a lot of modules to work with natural language. It provides tokenization, stemming, tagging, parsing and semantic analysis.

Run the command bellow and download the following data:

**In Corpora**
- mac_morpho

- floresta

- stopwords

**In Models**
- punkt

- rslp

The files will be downloaded to user home folder inside *nltk_data*

In [35]:
nltk.download()

showing info https://raw.githubusercontent.com/nltk/nltk_data/gh-pages/index.xml


True

# Tokenization
## sentence & word segmentation

In [8]:
text = "Hoje está um ótimo dia para estudar NLP com python 3.*! Explore o NLTK, que tem rotinas para tratar a linguagem natural."
sentences =nltk.tokenize.sent_tokenize(text, language='portuguese')
for sentence in sentences:
    print(sentence)
    tokens = nltk.word_tokenize(sentence, language='portuguese')
    print(tokens)

Hoje está um ótimo dia para estudar NLP com python 3.*!
['Hoje', 'está', 'um', 'ótimo', 'dia', 'para', 'estudar', 'NLP', 'com', 'python', '3', '.', '*', '!']
Explore o NLTK, que tem rotinas para tratar a linguagem natural.
['Explore', 'o', 'NLTK', ',', 'que', 'tem', 'rotinas', 'para', 'tratar', 'a', 'linguagem', 'natural', '.']


# Stemming
## keeping word stem (*tronco*)

In [33]:
stemmer = nltk.stem.RSLPStemmer()
print(stemmer.stem("canto"))
print(stemmer.stem("cantar"))
print(stemmer.stem("camputador"))

sent = "O canto é retângulo!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(tokens)
stemmed_tokens = [stemmer.stem(token) for token in tokens]
print(stemmed_tokens)

cant
cant
camput
['O', 'canto', 'é', 'retângulo', '!']
['o', 'cant', 'é', 'retângul', '!']


# Stopwords
## keeping content words

In [39]:
stopwords = nltk.corpus.stopwords.words('portuguese')
sent = "O ônibus parou no centro do campo de futebol"
print(" ".join([token for token in sent.lower().split() if token not in stopwords]))

ônibus parou centro campo futebol


# Tagging
## morphosyntax

In [13]:
from nltk.corpus import mac_morpho
print(mac_morpho.words())
print(mac_morpho.sents())
print(mac_morpho.tagged_sents())

['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', ...]
[['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', 'milhão', 'em', 'a', 'venda', 'de', 'a', 'Pinhal', 'em', 'São', 'Paulo'], ['Programe', 'sua', 'viagem', 'a', 'a', 'Exposição', 'Nacional', 'do', 'Zebu', ',', 'que', 'começa', 'dia', '25'], ...]
[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]


## training a tagger
### unigram based

In [19]:
tagged_sentences = mac_morpho.tagged_sents()
unigram_tagger = nltk.UnigramTagger(tagged_sentences)
print(unigram_tagger.evaluate(tagged_sentences))

0.8696285344352381


In [23]:
sent = "O canto é retângulo!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(unigram_tagger.tag(tokens))
sent = "Eu canto pra você!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(unigram_tagger.tag(tokens))

[('O', 'ART'), ('canto', 'N'), ('é', 'V'), ('retângulo', None), ('!', '!')]
[('Eu', 'PROPESS'), ('canto', 'N'), ('pra', 'PREP'), ('você', 'PROPESS'), ('!', '!')]


### bigram based

In [40]:
bigram_tagger = nltk.BigramTagger(tagged_sentences, backoff=unigram_tagger)
print(bigram_tagger.evaluate(tagged_sentences))

0.8958614471474539


In [42]:
sent = "O canto é retângulo!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(bigram_tagger.tag(tokens))
sent = "Eu canto pra você!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(bigram_tagger.tag(tokens))

[('O', 'ART'), ('canto', 'N'), ('é', 'V'), ('retângulo', None), ('!', '!')]
[('Eu', 'PROPESS'), ('canto', 'N'), ('pra', 'PREP'), ('você', 'PROPESS'), ('!', '!')]


### trigram based

In [41]:
trigram_tagger = nltk.TrigramTagger(tagged_sentences, backoff=bigram_tagger)
print(trigram_tagger.evaluate(tagged_sentences))

0.904358193138164


In [48]:
sent = "O canto é retângulo!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(trigram_tagger.tag(tokens))
sent = "Eu canto pra você!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(trigram_tagger.tag(tokens))
sent = "Eu compro pra você!"
tokens = nltk.word_tokenize(sent, language='portuguese')
print(trigram_tagger.tag(tokens))

[('O', 'ART'), ('canto', 'N'), ('é', 'V'), ('retângulo', None), ('!', '!')]
[('Eu', 'PROPESS'), ('canto', 'N'), ('pra', 'PREP'), ('você', 'PROPESS'), ('!', '!')]
[('Eu', 'PROPESS'), ('compro', 'V'), ('pra', 'PREP'), ('você', 'PROPESS'), ('!', '!')]


# Parsing
## Syntax

In [14]:
from nltk.corpus import floresta
print(floresta.words())
print(floresta.sents())
print(floresta.tagged_sents())

['Um', 'revivalismo', 'refrescante', 'O', '7_e_Meio', ...]
[['Um', 'revivalismo', 'refrescante'], ['O', '7_e_Meio', 'é', 'um', 'ex-libris', 'de', 'a', 'noite', 'algarvia', '.'], ...]
[[('Um', '>N+art'), ('revivalismo', 'H+n'), ('refrescante', 'N<+adj')], [('O', '>N+art'), ('7_e_Meio', 'H+prop'), ('é', 'P+v-fin'), ('um', '>N+art'), ('ex-libris', 'H+n'), ('de', 'H+prp'), ('a', '>N+art'), ('noite', 'H+n'), ('algarvia', 'N<+adj'), ('.', '.')], ...]
