# Natural Language ToolKit (NLTK)

## Instalação e importação

In [1]:
# !pip install nltk (colab não precisa)

In [27]:
import nltk
# Importando stop words do corpus
from nltk.corpus import stopwords

# Importando stemmers para diversas linguas
from nltk.stem import PorterStemmer, SnowballStemmer, LancasterStemmer, WordNetLemmatizer

#criação de tokens
from nltk.tokenize import word_tokenize, sent_tokenize

# Tags
from nltk.tag import pos_tag, pos_tag_sents

# Lemmatization
nltk.download('omw-1.4')

#string
import string

[nltk_data] Downloading package omw-1.4 to /root/nltk_data...


In [3]:
nltk.download('stopwords')
nltk.download('punkt')
nltk.download('tagsets')
nltk.download('wordnet')
nltk.download('averaged_perceptron_tagger')
nltk.download('maxent_ne_chunker')
nltk.download('words')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.
[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.
[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets.zip.
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping taggers/averaged_perceptron_tagger.zip.
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker.zip.
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Unzipping corpora/words.zip.


True

## Produção de tokens

In [4]:
texto = 'A Americanas perdeu 40 bilhões. A Magazine Luiza S.A. está crescendo novamente'

In [5]:
# Separando em tokens de sentenças
sentencas = sent_tokenize(texto, language='portuguese')
print(sentencas)

['A Americanas perdeu 40 bilhões.', 'A Magazine Luiza S.A. está crescendo novamente']


In [6]:
# Separando em tokens de palavras
word_tokens = word_tokenize(texto, language='portuguese')
print(word_tokens)

['A', 'Americanas', 'perdeu', '40', 'bilhões', '.', 'A', 'Magazine', 'Luiza', 'S.A.', 'está', 'crescendo', 'novamente']


## Stopwords e pontuações

In [7]:
stops = stopwords.words('portuguese')

In [9]:
print(len(stops))

207


In [10]:
print(stops)

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houvessem', 'houvésse

In [13]:
# Texto sem stop words
frase_sem_sw = [palavra for palavra in word_tokens if palavra not in stops]
print(frase_sem_sw)

['A', 'Americanas', 'perdeu', '40', 'bilhões', '.', 'A', 'Magazine', 'Luiza', 'S.A.', 'crescendo', 'novamente']


In [15]:
# texto sem pontuação
texto_final = [palavra for palavra in frase_sem_sw if palavra not in string.punctuation]
print(texto_final)

['A', 'Americanas', 'perdeu', '40', 'bilhões', 'A', 'Magazine', 'Luiza', 'S.A.', 'crescendo', 'novamente']


## Stemming

In [19]:
stem = PorterStemmer()
stem1 = [stem.stem(palavra) for palavra in texto_final]

print(texto_final)
print(stem1)

['A', 'Americanas', 'perdeu', '40', 'bilhões', 'A', 'Magazine', 'Luiza', 'S.A.', 'crescendo', 'novamente']
['a', 'americana', 'perdeu', '40', 'bilhõ', 'a', 'magazin', 'luiza', 's.a.', 'crescendo', 'novament']


In [21]:
stem = SnowballStemmer('portuguese')
stem2 = [stem.stem(palavra) for palavra in texto_final]

print(texto_final)
print(stem2)

['A', 'Americanas', 'perdeu', '40', 'bilhões', 'A', 'Magazine', 'Luiza', 'S.A.', 'crescendo', 'novamente']
['a', 'american', 'perd', '40', 'bilhõ', 'a', 'magazin', 'luiz', 's.a.', 'cresc', 'nov']


In [22]:
stem = LancasterStemmer()
stem3 = [stem.stem(palavra) for palavra in texto_final]

print(texto_final)
print(stem3)

['A', 'Americanas', 'perdeu', '40', 'bilhões', 'A', 'Magazine', 'Luiza', 'S.A.', 'crescendo', 'novamente']
['a', 'americana', 'perdeu', '40', 'bilhõ', 'a', 'magazin', 'luiz', 's.a.', 'crescendo', 'nova']


## Pos-Tagging

In [38]:
tags = nltk.pos_tag(texto_final)
print(tags)

[('A', 'DT'), ('Americanas', 'NNP'), ('perdeu', 'NN'), ('40', 'CD'), ('bilhões', 'NN'), ('A', 'NNP'), ('Magazine', 'NNP'), ('Luiza', 'NNP'), ('S.A.', 'NNP'), ('crescendo', 'NN'), ('novamente', 'NN')]


## Lemmatization

In [28]:
lemmatizer = WordNetLemmatizer()
resultado = [lemmatizer.lemmatize(palavra) for palavra in texto_final]
print(texto_final)
print(resultado)

['A', 'Americanas', 'perdeu', '40', 'bilhões', 'A', 'Magazine', 'Luiza', 'S.A.', 'crescendo', 'novamente']
['A', 'Americanas', 'perdeu', '40', 'bilhões', 'A', 'Magazine', 'Luiza', 'S.A.', 'crescendo', 'novamente']


## Entidade Nomeadas

In [29]:
texto2 = 'Barack Obama e Golden State Warriors se encontraram essa semana nos EUA'

In [37]:
token = word_tokenize(texto2)
tags = pos_tag(token)
en = nltk.ne_chunk(tags)
print(en)

(S
  (PERSON Barack/NNP)
  (PERSON Obama/NNP)
  e/VBD
  (PERSON Golden/NNP State/NNP Warriors/NNP)
  se/VBD
  encontraram/JJ
  essa/NN
  semana/NN
  nos/NNS
  (ORGANIZATION EUA/NNP))
