In [214]:
import nltk

In [215]:
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, SnowballStemmer, LancasterStemmer, WordNetLemmatizer
from nltk.tag import pos_tag, pos_tag_sents
import string

In [216]:
# Downloading the packages
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('tagsets')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Package tagsets is already up-to-date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package words is already up-to-date!


True

## ***1. Tokenizing***

In [217]:
sentence = 'A receita da empresa Adidas sofreu uma queda nos últimos dias. Houve uma diminuição nas vendas da Adidas'

In [218]:
tokens_sent = sent_tokenize(sentence, language='portuguese')
tokens_sent

['A receita da empresa Adidas sofreu uma queda nos últimos dias.',
 'Houve uma diminuição nas vendas da Adidas']

In [219]:
tokens = word_tokenize(sentence)
tokens

['A',
 'receita',
 'da',
 'empresa',
 'Adidas',
 'sofreu',
 'uma',
 'queda',
 'nos',
 'últimos',
 'dias',
 '.',
 'Houve',
 'uma',
 'diminuição',
 'nas',
 'vendas',
 'da',
 'Adidas']

## ***2. Stopwords***

In [220]:
# Showing the default stopwords
stop_words = set(stopwords.words('portuguese'))
print(len(stop_words))
stop_words

207


{'a',
 'ao',
 'aos',
 'aquela',
 'aquelas',
 'aquele',
 'aqueles',
 'aquilo',
 'as',
 'até',
 'com',
 'como',
 'da',
 'das',
 'de',
 'dela',
 'delas',
 'dele',
 'deles',
 'depois',
 'do',
 'dos',
 'e',
 'ela',
 'elas',
 'ele',
 'eles',
 'em',
 'entre',
 'era',
 'eram',
 'essa',
 'essas',
 'esse',
 'esses',
 'esta',
 'estamos',
 'estar',
 'estas',
 'estava',
 'estavam',
 'este',
 'esteja',
 'estejam',
 'estejamos',
 'estes',
 'esteve',
 'estive',
 'estivemos',
 'estiver',
 'estivera',
 'estiveram',
 'estiverem',
 'estivermos',
 'estivesse',
 'estivessem',
 'estivéramos',
 'estivéssemos',
 'estou',
 'está',
 'estávamos',
 'estão',
 'eu',
 'foi',
 'fomos',
 'for',
 'fora',
 'foram',
 'forem',
 'formos',
 'fosse',
 'fossem',
 'fui',
 'fôramos',
 'fôssemos',
 'haja',
 'hajam',
 'hajamos',
 'havemos',
 'haver',
 'hei',
 'houve',
 'houvemos',
 'houver',
 'houvera',
 'houveram',
 'houverei',
 'houverem',
 'houveremos',
 'houveria',
 'houveriam',
 'houvermos',
 'houverá',
 'houverão',
 'houverí

In [221]:
# Removing stopwords
tokens_nostops = [w for w in tokens if w not in stop_words]
print(len(tokens_nostops))
print(tokens_nostops)

13
['A', 'receita', 'empresa', 'Adidas', 'sofreu', 'queda', 'últimos', 'dias', '.', 'Houve', 'diminuição', 'vendas', 'Adidas']


In [222]:
# Removing stopwords and punctuation
tokens_nopunct = [w for w in tokens_nostops if w not in string.punctuation]
print(len(tokens_nopunct))
print(tokens_nopunct)

12
['A', 'receita', 'empresa', 'Adidas', 'sofreu', 'queda', 'últimos', 'dias', 'Houve', 'diminuição', 'vendas', 'Adidas']


## ***3. Metrics***

In [223]:
frequence = nltk.FreqDist(tokens_nopunct)
frequence

FreqDist({'Adidas': 2, 'A': 1, 'receita': 1, 'empresa': 1, 'sofreu': 1, 'queda': 1, 'últimos': 1, 'dias': 1, 'Houve': 1, 'diminuição': 1, ...})

In [224]:
most_frequent = frequence.most_common()
most_frequent

[('Adidas', 2),
 ('A', 1),
 ('receita', 1),
 ('empresa', 1),
 ('sofreu', 1),
 ('queda', 1),
 ('últimos', 1),
 ('dias', 1),
 ('Houve', 1),
 ('diminuição', 1),
 ('vendas', 1)]

## ***4. Stemming***

In [225]:
# Techniques
ps = PorterStemmer()
ls = LancasterStemmer()
ss = SnowballStemmer(language='portuguese')

In [226]:
stem_ps = [ps.stem(w) for w in tokens_nopunct]

print(tokens_nopunct)
print('Stem: ', stem_ps)

['A', 'receita', 'empresa', 'Adidas', 'sofreu', 'queda', 'últimos', 'dias', 'Houve', 'diminuição', 'vendas', 'Adidas']
Stem:  ['a', 'receita', 'empresa', 'adida', 'sofreu', 'queda', 'último', 'dia', 'houv', 'diminuição', 'venda', 'adida']


In [227]:
stem_ls = [ls.stem(w) for w in tokens_nopunct]

print(tokens_nopunct)
print('Stem: ', stem_ls)

['A', 'receita', 'empresa', 'Adidas', 'sofreu', 'queda', 'últimos', 'dias', 'Houve', 'diminuição', 'vendas', 'Adidas']
Stem:  ['a', 'receit', 'empres', 'adida', 'sofreu', 'qued', 'últimos', 'dia', 'houv', 'diminuição', 'venda', 'adida']


In [228]:
ss_stem = [ss.stem(w) for w in tokens_nopunct]

print(tokens_nopunct)
print(ss_stem)

['A', 'receita', 'empresa', 'Adidas', 'sofreu', 'queda', 'últimos', 'dias', 'Houve', 'diminuição', 'vendas', 'Adidas']
['a', 'receit', 'empres', 'adid', 'sofr', 'qued', 'últim', 'dias', 'houv', 'diminuiçã', 'vend', 'adid']


## ***5. Pos-tagging***

In [229]:
# Consulting the tags meaning
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [230]:
tags = nltk.pos_tag(tokens)
tags

[('A', 'DT'),
 ('receita', 'JJ'),
 ('da', 'NN'),
 ('empresa', 'NN'),
 ('Adidas', 'NNP'),
 ('sofreu', 'NN'),
 ('uma', 'JJ'),
 ('queda', 'NN'),
 ('nos', 'NNS'),
 ('últimos', 'VBP'),
 ('dias', 'NN'),
 ('.', '.'),
 ('Houve', 'NNP'),
 ('uma', 'JJ'),
 ('diminuição', 'NN'),
 ('nas', 'NNS'),
 ('vendas', 'VBP'),
 ('da', 'NN'),
 ('Adidas', 'NN')]

In [231]:
# Tagging sentences
tags_sents = pos_tag_sents([word_tokenize(sent) for sent in tokens_sent])
tags_sents

[[('A', 'DT'),
  ('receita', 'JJ'),
  ('da', 'NN'),
  ('empresa', 'NN'),
  ('Adidas', 'NNP'),
  ('sofreu', 'NN'),
  ('uma', 'JJ'),
  ('queda', 'NN'),
  ('nos', 'NNS'),
  ('últimos', 'VBP'),
  ('dias', 'NN'),
  ('.', '.')],
 [('Houve', 'NNP'),
  ('uma', 'JJ'),
  ('diminuição', 'NN'),
  ('nas', 'NNS'),
  ('vendas', 'VBP'),
  ('da', 'NN'),
  ('Adidas', 'NN')]]

## ***6. Lemmatizing***

In [232]:
lemmatizer = WordNetLemmatizer()

In [233]:
lemmas = [lemmatizer.lemmatize(w) for w in tokens]
print(tokens)
print('Lemmas: ', lemmas)

['A', 'receita', 'da', 'empresa', 'Adidas', 'sofreu', 'uma', 'queda', 'nos', 'últimos', 'dias', '.', 'Houve', 'uma', 'diminuição', 'nas', 'vendas', 'da', 'Adidas']
Lemmas:  ['A', 'receita', 'da', 'empresa', 'Adidas', 'sofreu', 'uma', 'queda', 'no', 'últimos', 'dia', '.', 'Houve', 'uma', 'diminuição', 'na', 'vendas', 'da', 'Adidas']


## ***7. Named Entities Recognition***

In [None]:
named_entities = nltk.ne_chunk(tags)
print(named_entities)