# Natural Language Toolkit (NLTK)

# Aula 1: Introdução e Preparação

- Ampla biblioteca de NLP
  - Tokenization
  - Stemming
  - Tagging
  - Parsing
  - Etc

In [44]:
import nltk
from nltk.corpus import stopwords
from nltk.stem import PorterStemmer, WordNetLemmatizer, SnowballStemmer, LancasterStemmer
from nltk.tokenize import word_tokenize, sent_tokenize
from nltk.tag import pos_tag, pos_tag_sents


import string

nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')
nltk.download('averaged_perceptron_tagger')
nltk.download('wordnet')
nltk.download('tagsets')
nltk.download('maxent_ne_chunker')
nltk.download('words')

#nltk.download('averaged_perceptron_tagger_eng')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!
[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!
[nltk_data] Downloading package averaged_perceptron_tagger to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package averaged_perceptron_tagger is already up-to-
[nltk_data]       date!
[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
[nltk_data] Downloading package tagsets to /root/nltk_data...
[nltk_data]   Package tagsets is already up-to-date!
[nltk_data] Downloading package maxent_ne_chunker to
[nltk_data]     /root/nltk_data...
[nltk_data]   Package maxent_ne_chunker is already up-to-date!
[nltk_data] Downloading package words to /root/nltk_data...
[nltk_data]   Package 

True

In [7]:
texto = "Nós somos feitos de poeira de estrelas. Nós somos uma maneira de o cosmos se autoconhecer. A imaginação nos leva a mundos que nuncas sequer existiram. Mas sem ela não vamos a lugar algum. (Carl Sagan)"

print(texto)

Nós somos feitos de poeira de estrelas. Nós somos uma maneira de o cosmos se autoconhecer. A imaginação nos leva a mundos que nuncas sequer existiram. Mas sem ela não vamos a lugar algum. (Carl Sagan)


# Aula 2: Produção de Tokens

In [26]:
# nltk.download()

In [10]:
# tokenização de sentenças

# separa as frases na lista (com virgulas)

sentencas = sent_tokenize(texto, language='portuguese')

print(type(sentencas))
print(sentencas)
print(len(sentencas))


<class 'list'>
['Nós somos feitos de poeira de estrelas.', 'Nós somos uma maneira de o cosmos se autoconhecer.', 'A imaginação nos leva a mundos que nuncas sequer existiram.', 'Mas sem ela não vamos a lugar algum.', '(Carl Sagan)']
5


In [11]:
# tokenização de palavras

tokens = word_tokenize(texto, language='portuguese')

print(type(tokens))
print(tokens)
print(len(tokens))


<class 'list'>
['Nós', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.', 'Nós', 'somos', 'uma', 'maneira', 'de', 'o', 'cosmos', 'se', 'autoconhecer', '.', 'A', 'imaginação', 'nos', 'leva', 'a', 'mundos', 'que', 'nuncas', 'sequer', 'existiram', '.', 'Mas', 'sem', 'ela', 'não', 'vamos', 'a', 'lugar', 'algum', '.', '(', 'Carl', 'Sagan', ')']
42


# Aula 3: Gerenciando Stop Words e Pontuação

In [18]:
stop = stopwords.words('portuguese')

print(type(stop))
print(stop)
print(f"\nTem", len(stop), "stop words")

<class 'list'>
['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele', 'aqueles', 'aquilo', 'as', 'às', 'até', 'com', 'como', 'da', 'das', 'de', 'dela', 'delas', 'dele', 'deles', 'depois', 'do', 'dos', 'e', 'é', 'ela', 'elas', 'ele', 'eles', 'em', 'entre', 'era', 'eram', 'éramos', 'essa', 'essas', 'esse', 'esses', 'esta', 'está', 'estamos', 'estão', 'estar', 'estas', 'estava', 'estavam', 'estávamos', 'este', 'esteja', 'estejam', 'estejamos', 'estes', 'esteve', 'estive', 'estivemos', 'estiver', 'estivera', 'estiveram', 'estivéramos', 'estiverem', 'estivermos', 'estivesse', 'estivessem', 'estivéssemos', 'estou', 'eu', 'foi', 'fomos', 'for', 'fora', 'foram', 'fôramos', 'forem', 'formos', 'fosse', 'fossem', 'fôssemos', 'fui', 'há', 'haja', 'hajam', 'hajamos', 'hão', 'havemos', 'haver', 'hei', 'houve', 'houvemos', 'houver', 'houvera', 'houverá', 'houveram', 'houvéramos', 'houverão', 'houverei', 'houverem', 'houveremos', 'houveria', 'houveriam', 'houveríamos', 'houvermos', 'houvesse', 'houves

In [22]:
texto_sem_stopw = [p for p in tokens if p not in stop]

print(texto_sem_stopw)
print(f"\nTem", len(texto_sem_stopw), "palavras sem stop words no texto")

['Nós', 'feitos', 'poeira', 'estrelas', '.', 'Nós', 'maneira', 'cosmos', 'autoconhecer', '.', 'A', 'imaginação', 'leva', 'mundos', 'nuncas', 'sequer', 'existiram', '.', 'Mas', 'vamos', 'lugar', 'algum', '.', '(', 'Carl', 'Sagan', ')']

Tem 27 palavras sem stop words no texto


In [21]:
# retorna pontuação

print(string.punctuation)

!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~


In [25]:
# tirar pontuação

texto_sem_pontuacao = [p for p in texto_sem_stopw if p not in string.punctuation]

print(texto_sem_pontuacao)
print(f"\nTem", len(texto_sem_pontuacao), "palavras no texto sem pontuação e sem stop words")



['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nuncas', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum', 'Carl', 'Sagan']

Tem 21 palavras no texto sem pontuação e sem stop words


# Aula 4: Produzindo Métricas

- Frequencia de palavras
- Etc
- Ajuda a produzir gráficos, nuvens de palavras etc

In [28]:
frequencia = nltk.FreqDist(texto_sem_pontuacao)

frequencia

FreqDist({'Nós': 2, 'feitos': 1, 'poeira': 1, 'estrelas': 1, 'maneira': 1, 'cosmos': 1, 'autoconhecer': 1, 'A': 1, 'imaginação': 1, 'leva': 1, ...})

In [30]:
mais_comuns = frequencia.most_common(5)
mais_comuns

[('Nós', 2), ('feitos', 1), ('poeira', 1), ('estrelas', 1), ('maneira', 1)]

# Aula 5: Stemming na prática

- Cria uma mesma referencia para aquela palavra, tira do plural, genero, diminutivos etc
- Tipos
  - Porter: mais comum e mais antigo
  - Snowball: Melhorado com relação ao Porter. Melhor performance computacional
  - Lancaster: Mais agressivo. Resultado as vezes não intuitivo

In [31]:
# porter

stemmer = PorterStemmer()

stem1 = [stemmer.stem(word) for word in texto_sem_pontuacao]

print("Texto sem pontuação: ", texto_sem_pontuacao)
print("Stem1: ", stem1)

Texto sem pontuação:  ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nuncas', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum', 'Carl', 'Sagan']
Stem1:  ['nó', 'feito', 'poeira', 'estrela', 'nó', 'maneira', 'cosmo', 'autoconhec', 'a', 'imaginação', 'leva', 'mundo', 'nunca', 'sequer', 'existiram', 'ma', 'vamo', 'lugar', 'algum', 'carl', 'sagan']


In [32]:
# snowball
stem2 = [SnowballStemmer('portuguese').stem(word) for word in texto_sem_pontuacao]

print("Texto sem pontuação: ", texto_sem_pontuacao)
print("Stem2: ", stem2)

Texto sem pontuação:  ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nuncas', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum', 'Carl', 'Sagan']
Stem2:  ['nós', 'feit', 'poeir', 'estrel', 'nós', 'maneir', 'cosm', 'autoconhec', 'a', 'imagin', 'lev', 'mund', 'nunc', 'sequ', 'exist', 'mas', 'vam', 'lug', 'algum', 'carl', 'sagan']


In [33]:
# lancaster

stem3 = [LancasterStemmer().stem(word) for word in texto_sem_pontuacao]

print("Texto sem pontuação: ", texto_sem_pontuacao)
print("Stem3: ", stem3)

Texto sem pontuação:  ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nuncas', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum', 'Carl', 'Sagan']
Stem3:  ['nós', 'feito', 'poeir', 'estrela', 'nós', 'maneir', 'cosmo', 'autoconhec', 'a', 'imaginação', 'lev', 'mundo', 'nunca', 'sequ', 'existiram', 'mas', 'vamo', 'lug', 'alg', 'carl', 'sag']


# Aula 6: Criando Pós-Taggin

In [35]:
nltk.download('tagsets_json')

[nltk_data] Downloading package tagsets_json to /root/nltk_data...
[nltk_data]   Unzipping help/tagsets_json.zip.


True

In [36]:
# pode consultar o significado das siglas q ele vai usar quando fazer a taggin nos tokens

nltk.help.upenn_tagset()

# EX: NN: noun, common, singular or mass          (SUBSTANTIVO COMUM)

$: dollar
    $ -$ --$ A$ C$ HK$ M$ NZ$ S$ U.S.$ US$
'': closing quotation mark
    ' ''
(: opening parenthesis
    ( [ {
): closing parenthesis
    ) ] }
,: comma
    ,
--: dash
    --
.: sentence terminator
    . ! ?
:: colon or ellipsis
    : ; ...
CC: conjunction, coordinating
    & 'n and both but either et for less minus neither nor or plus so
    therefore times v. versus vs. whether yet
CD: numeral, cardinal
    mid-1890 nine-thirty forty-two one-tenth ten million 0.5 one forty-
    seven 1987 twenty '79 zero two 78-degrees eighty-four IX '60s .025
    fifteen 271,124 dozen quintillion DM2,000 ...
DT: determiner
    all an another any both del each either every half la many much nary
    neither no some such that the them these this those
EX: existential there
    there
FW: foreign word
    gemeinschaft hund ich jeux habeas Haementeria Herr K'ang-si vous
    lutihaw alai je jour objets salutaris fille quibusdam pas trop Monte
    terram fiche oui corporis ...
IN: preposition or

In [52]:
# DEU ERRO!!!!!
# NLTK pos_tag only supports English and Russian (i.e. lang='eng' or lang='rus')

# pos = nltk.pos_tag_sents(texto_sem_pontuacao)
# print(pos)

In [49]:
token2 = sent_tokenize(texto, language='portuguese')
print(token2)

ntokens = []
for tokensentenca in token2:
  ntokens.append(nltk.word_tokenize(tokensentenca))

print(ntokens)

['Nós somos feitos de poeira de estrelas.', 'Nós somos uma maneira de o cosmos se autoconhecer.', 'A imaginação nos leva a mundos que nuncas sequer existiram.', 'Mas sem ela não vamos a lugar algum.', '(Carl Sagan)']
[['Nós', 'somos', 'feitos', 'de', 'poeira', 'de', 'estrelas', '.'], ['Nós', 'somos', 'uma', 'maneira', 'de', 'o', 'cosmos', 'se', 'autoconhecer', '.'], ['A', 'imaginação', 'nos', 'leva', 'a', 'mundos', 'que', 'nuncas', 'sequer', 'existiram', '.'], ['Mas', 'sem', 'ela', 'não', 'vamos', 'a', 'lugar', 'algum', '.'], ['(', 'Carl', 'Sagan', ')']]


In [50]:
possentenca = pos_tag_sents(ntokens)
print(possentenca)

[[('Nós', 'NNP'), ('somos', 'VBD'), ('feitos', 'NNS'), ('de', 'FW'), ('poeira', 'FW'), ('de', 'FW'), ('estrelas', 'FW'), ('.', '.')], [('Nós', 'NNP'), ('somos', 'NN'), ('uma', 'JJ'), ('maneira', 'NN'), ('de', 'IN'), ('o', 'FW'), ('cosmos', 'NNS'), ('se', 'JJ'), ('autoconhecer', 'NN'), ('.', '.')], [('A', 'DT'), ('imaginação', 'JJ'), ('nos', 'JJ'), ('leva', 'NN'), ('a', 'DT'), ('mundos', 'NN'), ('que', 'NN'), ('nuncas', 'JJ'), ('sequer', 'NN'), ('existiram', 'NN'), ('.', '.')], [('Mas', 'NNP'), ('sem', 'NN'), ('ela', 'NN'), ('não', 'JJ'), ('vamos', 'NN'), ('a', 'DT'), ('lugar', 'NN'), ('algum', 'NN'), ('.', '.')], [('(', '('), ('Carl', 'NNP'), ('Sagan', 'NNP'), (')', ')')]]


# Aula 7: Lemmatization na Prática

In [54]:
lemmat = WordNetLemmatizer()

result = [lemmat.lemmatize(word) for word in texto_sem_pontuacao]

print("Texto sem pontuação: ", texto_sem_pontuacao)
print("Lemmatization: ", result)

Texto sem pontuação:  ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'leva', 'mundos', 'nuncas', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum', 'Carl', 'Sagan']
Lemmatization:  ['Nós', 'feitos', 'poeira', 'estrelas', 'Nós', 'maneira', 'cosmos', 'autoconhecer', 'A', 'imaginação', 'lev', 'mundos', 'nuncas', 'sequer', 'existiram', 'Mas', 'vamos', 'lugar', 'algum', 'Carl', 'Sagan']


# Aula 8: Busca de entidades nomeadas

In [55]:
text = "Barack Obama foi presidente dos EUA"

In [58]:
nltk.download('maxent_ne_chunker_tab')

[nltk_data] Downloading package maxent_ne_chunker_tab to
[nltk_data]     /root/nltk_data...
[nltk_data]   Unzipping chunkers/maxent_ne_chunker_tab.zip.


True

In [65]:
token3 = word_tokenize(text)
print("\nTOKENS: ", token3)

tags = pos_tag(token3)
print("TAGS: ", tags)

entidade_nomeada = nltk.ne_chunk(tags)
print("\nENTIDADES NOMEADAS: ", entidade_nomeada)



TOKENS:  ['Barack', 'Obama', 'foi', 'presidente', 'dos', 'EUA']
TAGS:  [('Barack', 'NNP'), ('Obama', 'NNP'), ('foi', 'NN'), ('presidente', 'NN'), ('dos', 'NN'), ('EUA', 'NNP')]

ENTIDADES NOMEADAS:  (S
  (PERSON Barack/NNP)
  (ORGANIZATION Obama/NNP)
  foi/NN
  presidente/NN
  dos/NN
  (ORGANIZATION EUA/NNP))
