In [1]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer
from nltk.stem import SnowballStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag, pos_tag_sents
import string

In [2]:
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('tagsets')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

In [3]:
text = 'Nós somos feitos de poeira de estrelas. Nós somos uma \
maneira de o cosmos se autoconhecer. A imaginação nos leva a mundos \
que nunca sequer existiram. Mas sem ela não vamos a lugar algum.'
text

'Nós somos feitos de poeira de estrelas. Nós somos uma maneira de o cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer existiram. Mas sem ela não vamos a lugar algum.'

## Tokens

In [4]:
sentences = sent_tokenize(text, language='portuguese')
print(f'Type: {type(sentences)}')
print(f'Sentences: {sentences}')

Type: <class 'list'>
Sentences: ['Nós somos feitos de poeira de estrelas.', 'Nós somos uma maneira de o cosmos se autoconhecer.', 'A imaginação nos leva a mundos que nunca sequer existiram.', 'Mas sem ela não vamos a lugar algum.']


In [5]:
tokens = word_tokenize(text, language='portuguese')
print(f'Length: {len(tokens)}')
print(f'Tokens: {tokens}')

Length: 38
Tokens: ['Nós', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.', 'Nós', 'somos', 'uma', 'maneira', 'de', 'o', 'cosmos', 'se', 'autoconhecer', '.', 'A', 'imaginação', 'nos', 'leva', 'a', 'mundos', 'que', 'nunca', 'sequer', 'existiram', '.', 'Mas', 'sem', 'ela', 'não', 'vamos', 'a', 'lugar', 'algum', '.']


## Stop Words

In [6]:
stops = stopwords.words('portuguese')
print(f'Length: {len(stops)}')
print(f'Stop Words: {stops}')

Length: 207
Stop Words: ['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse'

In [7]:
non_stopwords = [w for w in tokens if w not in stops]

non_stopwords_string = ''
for word in non_stopwords:
    non_stopwords_string += ' ' + word

print(f'Length: {len(non_stopwords)}')
print(f'Non Stop Words: {non_stopwords_string}')
print(f'Original Text: {text}')

Length: 23
Non Stop Words:  Nós feitos poeira estrelas . Nós maneira cosmos autoconhecer . A imaginação leva mundos nunca sequer existiram . Mas vamos lugar algum .
Original Text: Nós somos feitos de poeira de estrelas. Nós somos uma maneira de o cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer existiram. Mas sem ela não vamos a lugar algum.


## Punctuation

In [8]:
string.punctuation

'!"#$%&\'()*+,-./:;<=>?@[\\]^_`{|}~'

In [9]:
no_punct = [w for w in non_stopwords if w not in string.punctuation]

no_punct_string = ''
for word in no_punct:
    no_punct_string += ' ' + word

print(f'Length: {len(no_punct)}')
print(f'Text Without Punctuation: {no_punct_string}')
print(f'Original Text: {text}')

Length: 19
Text Without Punctuation:  Nós feitos poeira estrelas Nós maneira cosmos autoconhecer A imaginação leva mundos nunca sequer existiram Mas vamos lugar algum
Original Text: Nós somos feitos de poeira de estrelas. Nós somos uma maneira de o cosmos se autoconhecer. A imaginação nos leva a mundos que nunca sequer existiram. Mas sem ela não vamos a lugar algum.


## Metrics

In [10]:
freq = nltk.FreqDist(no_punct)
freq

FreqDist({'Nós': 2, 'feitos': 1, 'poeira': 1, 'estrelas': 1, 'maneira': 1, 'cosmos': 1, 'autoconhecer': 1, 'A': 1, 'imaginação': 1, 'leva': 1, ...})

In [11]:
most_common = freq.most_common(5)
most_common

[('Nós', 2), ('feitos', 1), ('poeira', 1), ('estrelas', 1), ('maneira', 1)]

## Stemming

In [12]:
porter = PorterStemmer()
stem1 = [porter.stem(word) for word in no_punct]
print(f'Text Without Punctuation: {no_punct}')
print(f'Stemmed Words: {stem1}')

Text Without Punctuation: ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
Stemmed Words: ['nó', 'feito', 'poeira', 'estrela', 'nó', 'maneira', 'cosmo', 'autoconhec', 'a', 'imaginação', 'leva', 'mundo', 'nunca', 'sequer', 'existiram', 'ma', 'vamo', 'lugar', 'algum']


In [13]:
snow = SnowballStemmer('portuguese')
stem2 = [snow.stem(word) for word in no_punct]
print(f'Text Without Punctuation: {no_punct}')
print(f'Stemmed Words: {stem2}')

Text Without Punctuation: ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
Stemmed Words: ['nós', 'feit', 'poeir', 'estrel', 'nós', 'maneir', 'cosm', 'autoconhec', 'a', 'imagin', 'lev', 'mund', 'nunc', 'sequ', 'exist', 'mas', 'vam', 'lug', 'algum']


In [14]:
lancaster = LancasterStemmer()
stem3 = [lancaster.stem(word) for word in no_punct]
print(f'Text Without Punctuation: {no_punct}')
print(f'Stemmed Words: {stem3}')

Text Without Punctuation: ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
Stemmed Words: ['nós', 'feito', 'poeir', 'estrela', 'nós', 'maneir', 'cosmo', 'autoconhec', 'a', 'imaginação', 'lev', 'mundo', 'nunc', 'sequ', 'existiram', 'mas', 'vamo', 'lug', 'alg']


## Pos Tagging

In [15]:
nltk.help.upenn_tagset()

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [19]:
# Only English and Russian
# pos = nltk.pos_tag(no_punct, lang='port')
# pos

## Lemmatization

In [21]:
nltk.download('omw-1.4')

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


True

In [22]:
lemmatizer = WordNetLemmatizer()
res = [lemmatizer.lemmatize(word) for word in no_punct]
print(f'Text Without Punctuation: {no_punct}')
print(f'Lemmatized Words: {res}')

Text Without Punctuation: ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']
Lemmatized Words: ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'lev', 'mundos', 'nunca', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum']


## Named Entities

In [23]:
text_ne = 'Barack Obama foi um presidente dos EUA'
token_ne = word_tokenize(text_ne)
tags = pos_tag(token_ne)
ne = nltk.ne_chunk(tags)
print(ne)

(S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  um/JJ
  presidente/NN
  dos/NN
  (ORGANIZATION EUA/NNP))
