<a href="https://colab.research.google.com/github/Guimol/NLP-Projects/blob/main/NLTK/Aula_5_NLTK_Python_para_PLN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Importando o NLTK

Importar um módulo ou biblioteca significa informar para o programa que você está criando/executando que precisa daquela biblioteca específica.

É possível fazer uma analogia, imagine que você precisa estudar para as provas de Matemática e Português. Você pega seus livros para estudar. Nessa analogia os livros são as "bibliotecas externas" nas quais você quer estudar o assunto.

In [None]:
import nltk

# Fazendo o download dos dados complementares do NLTK

Os desenvolvedores do NLTK decidiram manter o arquivo de instalação (pip install nltk) com o mínimo de arquivos possível para facilitar o download e instalação. Portanto, eles permitem fazer o download dos arquivos complementares de acordo com a demanda dos desenvolvedores. 

Para fazer isso, basta executar o código abaixo e seguir as instruções apresentadas.

In [None]:
nltk.download()

# O que encontramos no NLTK?

As células abaixo apresentam o exemplo de um dos córpus em Português que podemos acessar com o NLTK. 

MACMORPHO - http://nilc.icmc.usp.br/macmorpho/

In [None]:
# Mostrar as palavras existentes no MACMorpho
# Observe que elas estão dispostas em uma estrutura de Lista
# Observe também a estrutura para acessar o córpus e seus tokens, imagine 
#   que está acessando uma estrutura de árvore, com uma raiz e vários ramos filhos.

nltk.corpus.mac_morpho.words()

In [None]:
nltk.corpus.mac_morpho.sents()[1]

In [None]:
nltk.corpus.mac_morpho.tagged_words()

[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ...]

In [None]:
nltk.corpus.mac_morpho.tagged_sents()

# Primeira tarefa com o NLTK - a Tokenização

Observe que essa é a forma mais simples de tokenizar um texto usando o NLTK.

A função (trecho de código pré-desenvolvido que executa uma ação) *word_tokenize()* recebe um texto e retorna uma lista de tokens.

In [None]:
nltk.word_tokenize("Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII.")

LookupError: ignored

# Formas adicionais avançadas para tokenização de um texto

O conceito utilizado nas células seguintes é o de Expressões Regulares. 

Expressões regulares (chamadas REs, ou regexes ou padrões regex) são essencialmente uma mini linguagem de programação altamente especializada incluída dentro do Python. 

Usando esta pequena linguagem, você especifica as regras para o conjunto de strings possíveis que você quer combinar; esse conjunto pode conter sentenças em inglês, endereços de e-mail, ou comandos TeX ou qualquer coisa que você queira. Você poderá então perguntar coisas como “Essa string se enquadra dentro do padrão?” ou “Existe alguma parte da string que se enquadra nesse padrão?”. Você também pode usar as REs para modificar uma string ou dividi-la de diversas formas.

https://docs.python.org/pt-br/3.8/howto/regex.html

https://www.w3schools.com/python/python_regex.asp


In [None]:
# Informando ao programa que vamos utilizar a classe RegexpTokenizer
# observe que é outra forma de fazer a 'importação' de um módulo
from nltk.tokenize import RegexpTokenizer

# Nosso texto
texto = "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII."

# Criando o "objeto" que vai tokenizar nosso texto.
# Nesse caso usamos uma expressão regular que vai retornar todos os tokens
#  textuais (letras do alfabeto, números e underscore). 
#  Não queremos os símbolos.
tokenizer = RegexpTokenizer(r'\w+')

# Executando o método do objeto tokenizador
tokens = tokenizer.tokenize(texto)

# Nossos tokens :)
tokens

In [None]:
# Informando ao programa que vamos utilizar a classe RegexpTokenizer
# observe que é outra forma de fazer a 'importação' de um módulo
from nltk.tokenize import RegexpTokenizer

# Nosso texto
texto = "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII."

# Criando o "objeto" que vai tokenizar nosso texto.
# Nesse caso usamos uma expressão regular que vai retornar somente os tokens
#  com letras maiúsculas e minúsculas. Não queremos os símbolos e números.
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w+')

tokens = tokenizer.tokenize(texto)
tokens

# Frequência de tokens

Muitas vezes é interessante saber a frequencia em que os tokens aparecem em um texto. Com a classe *FreqDist* podemos calcular facilmente.

**Nesse primeiro exemplo, como será a frequencia usando todos os tokens?**

In [None]:
# Nosso texto
texto = "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII."

# Tokenizamos nosso texto usando a word_tokenize
tokens = nltk.word_tokenize(texto)

# Calculando nossa frequencia de palavras
frequencia = nltk.FreqDist(tokens)

# Recuperamos a lista de frequencia usando a função most_common()
frequencia.most_common()

**E se excluírmos as pontuações?**

In [None]:
from nltk.tokenize import RegexpTokenizer
texto = "Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII."

tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(texto)

frequencia = nltk.FreqDist(tokens)
frequencia.most_common()

# Acessando córpus externos

Como já foi apresentado, podemos acessar nossos arquivos que estão no Google Drive apenas "montando" nosso drive no ícone na barra à esquerda. 

Para acessar o conteúdo do arquivo, devemos usar a função *open()* que está embutida no python. Essa função retorna o arquivo no formato que o python entende. Para lermos o seu conteúdo devemos usar a função *read()*.

In [None]:
# Abrindo nosso córpus
# Nesse código concatenamos a função open com a função read
# Sem concatenar teríamos a seguinte construção
#   infile = open('/content/drive/MyDrive/recursos/corpus_teste.txt')
#   corpus = infile.read()

corpus = open('/content/drive/MyDrive/Codigos/BootcampPythonPLN/nltk/corpus_teste.txt').read()
print(corpus)

**Agora vamos tokenizar e calcular a frequência do nosso corpus inteiro :)**

In [None]:
from nltk.tokenize import RegexpTokenizer

# Não quero símbolos
tokenizer = RegexpTokenizer(r'\w+')
tokens = tokenizer.tokenize(corpus)

frequencia = nltk.FreqDist(tokens)
frequencia.most_common()

# Agrupando minúsculas e maiúsculas

Nas células anteriores percebemos que alguns tokens estão com o texto em maiúsculas e outros em minúsculas. O python considera que são tokens diferentes apenas por conter letras com "caixa" diferente. Portanto, precisamos agrupar todas as palavras que sabemos que são a mesma coisa. O modo mais simples é converter todas para minúsculas ou maiúsculas.

Vimos que podemos modificar uma string para minúsculas ou maiúsculas apenas usando as funções *.lower()* ou *.upper()*, respectivamente.

In [None]:
# Vamos usar o tokenizador do tipo Regex
from nltk.tokenize import RegexpTokenizer

# Vamos considerar apenas as letras
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w*')

# Tokenizamos o corpus
tokens = tokenizer.tokenize(corpus)

# Nesse trecho queremos criar uma nova lista com todos os tokens convertidos em
# minúsculas. Para fazer isso "caminhamos" na nossa lista de tokens e executamos
# em cada um a função .lower() e adicionamos esse token convertido na nova lista.
nova_lista = []

for token in tokens:
  nova_lista.append(token.lower())

# Com todos os tokens convertidos para minúsculas, calcularemos as suas frequencias :)
frequencia = nltk.FreqDist(nova_lista)
frequencia.most_common()

# Tokens que não nos interessam

Alguns tokens que são muito frequentes não ajudam na análise de um texto.
Veja como exemplo a lista de tokens anterior, no topo da lista estão artigos, preposições e etc. No nosso caso não são interessantes. 

O NLTK possui uma lista de tokens considerados desinteressantes e que podem ser removidos de uma lista de tokens sem problemas. Em PLN os chamamos de *stopwords*.

Para removê-los da nossa lista de tokens, precisamos comparar um a um com a lista de *stopwords*. Caso um token seja uma *stopword* o removeremos da lista de tokens.

In [None]:
# Acessamos a lista de stopwords do NLTK, para a língua portuguesa
stopwords = nltk.corpus.stopwords.words('portuguese')

In [None]:
# Mais uma vez usarmos o tokenizador de Regex
from nltk.tokenize import RegexpTokenizer

# Somente as palavras
tokenizer = RegexpTokenizer(r'[a-zA-Z]\w*')
tokens = tokenizer.tokenize(corpus)

# agora além de convertermos a lista de tokens em minúsculas, vamos comparar
# cada token com a lista de stopwords. Somente vamos adicionar à nova lista 
# os tokens que não forem stopwords
nova_lista = []

for token in tokens:
  if token.lower() not in stopwords:
    nova_lista.append(token.lower())

# E agora calculamos a frequencia novamente
frequencia = nltk.FreqDist(nova_lista)
frequencia.most_common()

#  List Comprehension

A técnica de *list comprehension* é uma forma diferente e avançada de criar uma lista. Não é obrigatório saber usá-la, mas é muito interessante conhecer sua construção.

O python entende que é uma *list comprehension* quando criamos um laço de repetição entre colchetes: [i for i in range(10)]. Essa construção criará a seguinte lista: [0,1,2,3,4,5,6,7,8,9]. Veja que é possível fazer isso sem essa construção.

Uma forma genérica de imaginar uma *list comprehension* é montar a seguinte estrutura: 

<*lista_final* = **[** *elemento_da_lista* **for** *elemento_da_lista* **in** *lista_de_elementos* **]**>

Lembrando que você poderá acrescentar alguma condição para o elemento ser acrescentado na lista:

<*lista_final* = **[** *elemento_da_lista* **for** *elemento_da_lista* **in** *lista_de_elementos* **if** *condição* **]**>

In [None]:
from nltk.tokenize import RegexpTokenizer

tokenizer = RegexpTokenizer(r'[a-zA-Z]\w*')
tokens = tokenizer.tokenize(corpus)

nova_lista = []

#for token in tokens:
#  if token.lower() not in stopwords:
#    nova_lista.append(token.lower())

nova_lista = [token.lower() for token in tokens if token.lower() not in stopwords]

frequencia = nltk.FreqDist(nova_lista)
frequencia.most_common()

# Utilizando ngrams

In [None]:
# Abrindo nosso córpus
# Nesse código concatenamos a função open com a função read
# Sem concatenar teríamos a seguinte construção
#   infile = open('/content/drive/MyDrive/recursos/corpus_teste.txt')
#   corpus = infile.read()

corpus = open('/content/drive/MyDrive/Codigos/BootcampPythonPLN/nltk/corpus_teste.txt').read()
print(corpus)

In [None]:
from nltk import bigrams
from nltk import trigrams
from nltk import ngrams

In [None]:
tokens = nltk.word_tokenize(corpus)

tokens_bigrams = list(bigrams(tokens))

tokens_bigrams

In [None]:
tokens_trigrams = list(trigrams(tokens))

tokens_trigrams

In [None]:
tokens_ngrams = list(ngrams(tokens, 4))

tokens_ngrams

# Reconhecer entidades nomeadas

In [None]:
from nltk import bigrams
from nltk import trigrams

bigramas = list(bigrams(tokens))
trigramas = list(trigrams(tokens))

for bigrama in bigramas:
  if bigrama[0][0].isupper() and bigrama[1][0].isupper():
    print(bigrama)

In [None]:
for trigrama in trigramas:
  if trigrama[0][0].isupper() and trigrama[1][0].isupper() and trigrama[2][0].isupper():
    print(trigrama)

# Stemming e Lematização

In [None]:
import nltk

stemmer = nltk.RSLPStemmer()

print(stemmer.stem("Amigão"))
print(stemmer.stem("amigo"))
print(stemmer.stem("amigos"))
print(stemmer.stem("propuseram"))
print(stemmer.stem("propõem"))
print(stemmer.stem("propondo"))

# Etiquetador

In [None]:
from nltk.corpus import mac_morpho
from nltk.tag import UnigramTagger

tokens = nltk.word_tokenize(corpus)

sentencas_treino = mac_morpho.tagged_sents()
etiquetador = UnigramTagger(sentencas_treino)

etiquetado = etiquetador.tag(tokens)

print(etiquetado)

In [None]:
from nltk.corpus import mac_morpho
from nltk.tag import UnigramTagger
from nltk.tag import DefaultTagger

tokens = nltk.word_tokenize(corpus)

# Dessa vez utilizaremos o DefaultTagger para definir uma etiqueta padrão
etiq_padrao = DefaultTagger('N')
sentencas_treino = mac_morpho.tagged_sents()
etiquetador = UnigramTagger(sentencas_treino, backoff=etiq_padrao)

etiquetado = etiquetador.tag(tokens)

etiquetado

In [None]:
from nltk.chunk import RegexpParser

pattern = 'NP: {<NPROP><NPROP> | <N><N>}'
analise_gramatical = RegexpParser(pattern)

arvore = analise_gramatical.parse(etiquetado)
print(arvore)