### Introdução ao NLTK

Biblioteca de ferramentas úteis para a utilização dos princípios de PLN

- Funcionalidades para manipulação de strings
- Interfaces padrões para realizar tarefas como etiquetar textos, frequência de palavras, lematização e stemmização de palavras, entre vários outros

http://www.nltk.org/index.html

Córpus em português: **MacMorpho**
- Lista de tokens
- Lista de sentenças
- Lista de tokens anotados
- Lista de sentenças anotadas (por token)

In [None]:
#! pip install nltk
import nltk

In [None]:
nltk.download() # d -> all (download all packages)

Dentro do NLTK contém vários córpus
- Úteis para os etiquetadores, entidades nomeadas, estruturas sintáticas e várias outras funcionalidades.

- Mac Morpho

In [None]:
dir(nltk.corpus.mac_morpho)

['_LazyCorpusLoader__args',
 '_LazyCorpusLoader__kwargs',
 '_LazyCorpusLoader__load',
 '_LazyCorpusLoader__name',
 '_LazyCorpusLoader__reader_cls',
 '__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattr__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__name__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__unicode__',
 '__weakref__',
 '_unload',
 'subdir',
 'unicode_repr']

In [None]:
nltk.corpus.mac_morpho.words()

['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', ...]

In [None]:
len(nltk.corpus.mac_morpho.words())

1170095

In [None]:
nltk.corpus.mac_morpho.sents()[1]

['Programe',
 'sua',
 'viagem',
 'a',
 'a',
 'Exposição',
 'Nacional',
 'do',
 'Zebu',
 ',',
 'que',
 'começa',
 'dia',
 '25']

In [None]:
# Classe morfossintática
nltk.corpus.mac_morpho.tagged_words() 

[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ...]

### Funções NLTK

- Tokenização
- Frequência/Contagem de palavras
- Stopwords
- N-gramas
- Stemmer e Lemma
- Etiquetadores

### Tokenização

Tokenizar = separar as palavras do texto
- Análogo ao split

Nível linguístico lexical: uma palavra, número ou pontuação agora é um **token**.

Dados o texto que vai ser tokenizado, basta usar a função nltk.word_tokenize(texto)

O tokenizador do NLTK pode ter algumas variações, como por exemplo, retornar apenas os tokens sem as pontuações:
- **expressões regulares**
- https://www.w3schools.com/python/python_regex.asp
- https://pythex.org/

In [None]:
texto = "Esta frase é uma frase bem legal sem nenhum sentido yay!!! 123"
nltk.word_tokenize(texto)

['Esta',
 'frase',
 'é',
 'uma',
 'frase',
 'bem',
 'legal',
 'sem',
 'nenhum',
 'sentido',
 'yay',
 '!',
 '!',
 '!',
 '123']

In [None]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(texto)
tokens

['Esta',
 'frase',
 'é',
 'uma',
 'frase',
 'bem',
 'legal',
 'sem',
 'nenhum',
 'sentido',
 'yay',
 '123']

In [None]:
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+')
tokens = tokenizer.tokenize(texto)
tokens

['Esta',
 'frase',
 'uma',
 'frase',
 'bem',
 'legal',
 'sem',
 'nenhum',
 'sentido',
 'yay']

In [None]:
tokenizer = RegexpTokenizer(r'[0-9]\w+')
tokens = tokenizer.tokenize(texto)
tokens

['123']

### Frequência/Contagem

Com a lista de tokens, é possível fazer a contagem de ocorrência de tokens pelo NLTK

Uso da classe FreqDist()
- A função most_common() ordena a frequência dos tokens. Pode ser usado um argumento para informar a quantidade de tokens mais comuns.
- Importante deixar o texto.lower()

In [None]:
tokens = nltk.word_tokenize(texto)
frequencia = nltk.FreqDist(tokens)
frequencia.most_common(5)

[('!', 3), ('frase', 2), ('Esta', 1), ('é', 1), ('uma', 1)]

In [None]:
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+')
tokens = tokenizer.tokenize(texto)
frequencia = nltk.FreqDist(tokens)
frequencia.most_common(5)

[('frase', 2), ('Esta', 1), ('uma', 1), ('bem', 1), ('legal', 1)]

In [None]:
corpus = open('corpus_teste.txt', 'r').read()
print(corpus)

Giants batem os Patriots no Super Bowl XLII
Azarões acabam com a invencibilidade de New England e ficam com o título da temporada
04/02/2008 - 01h07m - Atualizado em 04/02/2008 - 09h49m

Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII. O resultado, uma das maiores zebras da história do Super Bowl, acabou com a temporada perfeita de Tom Brady e companhia, que esperavam fazer história ao levantar o troféu da NFL sem sofrer uma derrota no ano. 

A vitória dos Giants, porém, também ficará para a história. Pela primeira vez, irmãos quarterbacks triunfam no Super Bowl em temporadas consecutivas. No ano passado, Peyton Manning, irmão de Eli, chegou ao título máximo da NFL pelo Indianapolis Colts.

A partida

Os Giants começaram com a posse de bola, e mostraram logo que iriam alongar ao máximo suas posses de bola. Misturando 

In [None]:
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(corpus)
frequencia = nltk.FreqDist(tokens)
frequencia.most_common(10)

[('de', 34),
 ('o', 26),
 ('a', 23),
 ('e', 21),
 ('para', 16),
 ('jardas', 15),
 ('do', 12),
 ('na', 12),
 ('Giants', 11),
 ('um', 11)]

In [None]:
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(corpus)

nova_lista = []
for token in tokens:
  nova_lista.append(token.lower())

frequencia = nltk.FreqDist(nova_lista)
frequencia.most_common()

[('de', 34),
 ('o', 33),
 ('a', 28),
 ('e', 21),
 ('para', 16),
 ('jardas', 15),
 ('os', 13),
 ('com', 13),
 ('na', 13),
 ('do', 12),
 ('giants', 11),
 ('um', 11),
 ('patriots', 10),
 ('manning', 10),
 ('uma', 10),
 ('linha', 10),
 ('no', 8),
 ('em', 7),
 ('que', 7),
 ('dos', 7),
 ('bola', 7),
 ('da', 6),
 ('vez', 6),
 ('à', 6),
 ('zone', 6),
 ('mas', 6),
 ('new', 5),
 ('passe', 5),
 ('york', 5),
 ('brady', 5),
 ('avanço', 5),
 ('super', 4),
 ('bowl', 4),
 ('england', 4),
 ('eli', 4),
 ('segundos', 4),
 ('fim', 4),
 ('touchdown', 4),
 ('time', 4),
 ('nova', 4),
 ('não', 4),
 ('jogo', 4),
 ('achou', 4),
 ('end', 4),
 ('título', 3),
 ('39', 3),
 ('17', 3),
 ('história', 3),
 ('ao', 3),
 ('primeira', 3),
 ('chegou', 3),
 ('posse', 3),
 ('logo', 3),
 ('passes', 3),
 ('curtos', 3),
 ('red', 3),
 ('campanha', 3),
 ('ataque', 3),
 ('avançou', 3),
 ('período', 3),
 ('xlii', 2),
 ('temporada', 2),
 ('04', 2),
 ('02', 2),
 ('2008', 2),
 ('plaxico', 2),
 ('burress', 2),
 ('anotou', 2),
 ('por', 2

### Stopwords
São palavras que podem ser consideradas irrelevantes para um certo resultado buscado.
- Artigos, preposições, conjunções, ...

É possível fazer vários tipos de pré-processamento.
- Exemplo: Frequência dos tokens sem stopwords.

In [None]:
stopwords = nltk.corpus.stopwords.words('portuguese')

In [None]:
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(corpus)

nova_lista = []
#for token in tokens:
#  if token.lower() not in stopwords:
#    nova_lista.append(token.lower())

# list comprehension
nova_lista = [token.lower() for token in tokens if token.lower() not in stopwords]

frequencia = nltk.FreqDist(nova_lista)
frequencia.most_common(10)

[('jardas', 15),
 ('giants', 11),
 ('patriots', 10),
 ('manning', 10),
 ('linha', 10),
 ('bola', 7),
 ('vez', 6),
 ('zone', 6),
 ('new', 5),
 ('passe', 5)]

### N-Gramas
Com a lista de tokens, é possível ter os n-gramas necessários para qualquer análise.

- Bigramas: **from nltk import bigrams**
- Trigramas: **from nltk import trigrams**
- 4-gram ou mais: **from nltk import ngrams**

Reconhecimento de entidades nomeadas

In [None]:
from nltk import bigrams
from nltk import trigrams
from nltk import ngrams

In [None]:
tokens = nltk.word_tokenize(corpus)

tokens_bigrams = list(bigrams(tokens))

tokens_bigrams[:5]

[('Giants', 'batem'),
 ('batem', 'os'),
 ('os', 'Patriots'),
 ('Patriots', 'no'),
 ('no', 'Super')]

In [None]:
tokens = nltk.word_tokenize(corpus)

tokens_trigrams = list(trigrams(tokens))

tokens_trigrams[:5]

[('Giants', 'batem', 'os'),
 ('batem', 'os', 'Patriots'),
 ('os', 'Patriots', 'no'),
 ('Patriots', 'no', 'Super'),
 ('no', 'Super', 'Bowl')]

In [None]:
tokens_ngrams = list(ngrams(tokens, 4))

tokens_ngrams[:5]

[('Giants', 'batem', 'os', 'Patriots'),
 ('batem', 'os', 'Patriots', 'no'),
 ('os', 'Patriots', 'no', 'Super'),
 ('Patriots', 'no', 'Super', 'Bowl'),
 ('no', 'Super', 'Bowl', 'XLII')]

### Reconhecer entidades nomeadas

In [None]:
bigramas = list(bigrams(tokens))
trigramas = list(trigrams(tokens))

for bigrama in bigramas:
  if bigrama[0][0].isupper() and bigrama[1][0].isupper():
    print(bigrama)

('Super', 'Bowl')
('Bowl', 'XLII')
('XLII', 'Azarões')
('New', 'England')
('Eli', 'Manning')
('Plaxico', 'Burress')
('New', 'York')
('York', 'Giants')
('New', 'England')
('England', 'Patriots')
('Super', 'Bowl')
('Bowl', 'XLII')
('Super', 'Bowl')
('Tom', 'Brady')
('Super', 'Bowl')
('Peyton', 'Manning')
('Indianapolis', 'Colts')
('Os', 'Giants')
('Brandon', 'Jacobs')
('Nova', 'York')
('Lawrence', 'Tynes')
('Eli', 'Manning')
('Laurence', 'Maroney')
('Tom', 'Brady')
('Antonio', 'Pierce')
('Os', 'Giants')
('Amani', 'Toomer')
('Nova', 'York')
('Steve', 'Smith')
('Ellis', 'Hobbs')
('Nova', 'York')
('Nova', 'York')
('Os', 'Patriots')
('Bill', 'Bellichick')
('Jabar', 'Gaffney')
('Kevin', 'Boss')
('Steve', 'Smith')
('David', 'Tyree')
('Wes', 'Welker')
('Randy', 'Moss')
('Kevin', 'Faulk')
('New', 'England')
('Eli', 'Manning')
('Amani', 'Toomer')
('New', 'England')
('Plaxico', 'Burress')


In [None]:
for trigrama in trigramas:
  if trigrama[0][0].isupper() and trigrama[1][0].isupper() and trigrama[2][0].isupper():
    print(trigrama)

('Super', 'Bowl', 'XLII')
('Bowl', 'XLII', 'Azarões')
('New', 'York', 'Giants')
('New', 'England', 'Patriots')
('Super', 'Bowl', 'XLII')


### Stemmer
Stemming consiste em reduzir a palavra ao seu radical:
- amig: amigo, amiga, amigão
- gat: gato, gata, gatos
- prop: propõem, propuseram, propondo

O NLTK tem implementado várias variantes de stemmers:
- RSLP - Removedor de Sufixos da Língua Portuguesa
  - Porter
  - ISRI
  - Lancaster
  - Snowball

In [None]:
stemmer = nltk.RSLPStemmer()
print(stemmer.stem("Amigão"))
print(stemmer.stem("amigo"))
print(stemmer.stem("amigos"))
print(stemmer.stem("propuseram"))
print(stemmer.stem("propõem"))
print(stemmer.stem("propondo"))

amig
amig
amig
propus
propõ
prop


### Lemmatizer
Lematização consiste em reduzir a palavra a sua forma canônica, levando em conta sua classe gramatical.
- propor: propõem, propuseram, propondo
- estudar: estudando, estudioso, estudei

Infelizmente, o NLTK ainda não tem um lematizador para o Português bom o bastante.
Tentativa: WordNet Lemmatizer
- Funciona somente para o inglês
  - Mas no spaCy tem para o português

In [None]:
lemmatizer = nltk.stem.WordNetLemmatizer()

print(lemmatizer.lemmatize('studied', pos = 'v'))
print(lemmatizer.lemmatize('studying', pos = 'v'))
print(lemmatizer.lemmatize('sings', pos = 'v'))

study
study
sing


### Etiquetadores
O NLTK possui dois corpus que servem como base para o etiquetador em Português: o Floresta e o MacMorpho
- Para o inglês já existe um etiquetador padrão treinado: o nltk.pos_tag()

Os etiquetadores passam primeiramente por uma fase de treinamento com as sentenças presentes.
- Floresta: 9k sentenças etiquetadas
- MacMorpho: 51k sentenças etiquetadas

Como resultado, os etiquetadores retornam uma tupla('palavra', 'classe gramatical')
- Na qual a classe gramatical depende do treinamento que é realizado.

In [None]:
from nltk.corpus import mac_morpho
from nltk.tag import UnigramTagger

tokens = nltk.word_tokenize(corpus)

sentencas_treino = mac_morpho.tagged_sents()
etiquetador = UnigramTagger(sentencas_treino)

etiquetado = etiquetador.tag(tokens)

print(etiquetado)

[('Giants', 'NPROP'), ('batem', 'V'), ('os', 'ART'), ('Patriots', None), ('no', 'KC'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), ('XLII', None), ('Azarões', None), ('acabam', 'VAUX'), ('com', 'PREP'), ('a', 'ART'), ('invencibilidade', 'N'), ('de', 'PREP'), ('New', 'NPROP'), ('England', 'NPROP'), ('e', 'KC'), ('ficam', 'V'), ('com', 'PREP'), ('o', 'ART'), ('título', 'N'), ('da', 'NPROP'), ('temporada', 'N'), ('04/02/2008', None), ('-', '-'), ('01h07m', None), ('-', '-'), ('Atualizado', None), ('em', 'PREP|+'), ('04/02/2008', None), ('-', '-'), ('09h49m', None), ('Com', 'PREP'), ('um', 'ART'), ('passe', 'N'), ('de', 'PREP'), ('Eli', 'NPROP'), ('Manning', 'NPROP'), ('para', 'PREP'), ('Plaxico', None), ('Burress', None), ('a', 'ART'), ('39', 'NUM'), ('segundos', 'N'), ('do', 'NPROP'), ('fim', 'N'), (',', ','), ('o', 'ART'), ('New', 'NPROP'), ('York', 'NPROP'), ('Giants', 'NPROP'), ('anotou', 'V'), ('o', 'ART'), ('touchdown', 'N|EST'), ('decisivo', 'ADJ'), ('e', 'KC'), ('derrubou', 'V'), ('o',

Por ter de passar por uma fase de treinamento, tinham palavras que o etiquetador não conseguiu identificar e fazer a classificação.

Uma solução é pré-classificar todas as palavras do texto como substantivos (N) e depois treinar o etiquetador normalmente.
- Usa-se o pacote DefaultTagger

In [None]:
from nltk.corpus import mac_morpho
from nltk.tag import UnigramTagger
from nltk.tag import DefaultTagger

tokens = nltk.word_tokenize(corpus)

etiq_padrao = DefaultTagger('N')
sentencas_treino = mac_morpho.tagged_sents()
etiquetador = UnigramTagger(sentencas_treino, backoff = etiq_padrao)

etiquetado = etiquetador.tag(tokens)

print(etiquetado)

[('Giants', 'NPROP'), ('batem', 'V'), ('os', 'ART'), ('Patriots', 'N'), ('no', 'KC'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), ('XLII', 'N'), ('Azarões', 'N'), ('acabam', 'VAUX'), ('com', 'PREP'), ('a', 'ART'), ('invencibilidade', 'N'), ('de', 'PREP'), ('New', 'NPROP'), ('England', 'NPROP'), ('e', 'KC'), ('ficam', 'V'), ('com', 'PREP'), ('o', 'ART'), ('título', 'N'), ('da', 'NPROP'), ('temporada', 'N'), ('04/02/2008', 'N'), ('-', '-'), ('01h07m', 'N'), ('-', '-'), ('Atualizado', 'N'), ('em', 'PREP|+'), ('04/02/2008', 'N'), ('-', '-'), ('09h49m', 'N'), ('Com', 'PREP'), ('um', 'ART'), ('passe', 'N'), ('de', 'PREP'), ('Eli', 'NPROP'), ('Manning', 'NPROP'), ('para', 'PREP'), ('Plaxico', 'N'), ('Burress', 'N'), ('a', 'ART'), ('39', 'NUM'), ('segundos', 'N'), ('do', 'NPROP'), ('fim', 'N'), (',', ','), ('o', 'ART'), ('New', 'NPROP'), ('York', 'NPROP'), ('Giants', 'NPROP'), ('anotou', 'V'), ('o', 'ART'), ('touchdown', 'N|EST'), ('decisivo', 'ADJ'), ('e', 'KC'), ('derrubou', 'V'), ('o', 'ART'), (

É possível fazer várias manipulações com a lista de tuplas resultante:
- Análises descritivas
- Análise sintática
- **Chunking**
  - Reconhecimento de Entidades Nomeadas (problema antigo)
- Etc.

In [None]:
from nltk.chunk import RegexpParser

pattern = 'NP: {<NPROP><NPROP> | <N><N>}'
analise_gramatical = RegexpParser(pattern)

arvore = analise_gramatical.parse(etiquetado)
print(arvore)