<a href="https://colab.research.google.com/github/gabrielluizone/NLProcessing/blob/main/03_NLProcessing_%7C_NLTK.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

<div class="markdown-google-sans">

## **02** | NLProcessing `NLTK`
> 01 Mar. 2024

</div>

In [1]:
!pip install --upgrade nltk
import nltk



<div class="markdown-google-sans">

### **Fazendo o download dos dados complementares do NLTK**

> Os desenvolvedores do NLTK decidiram manter o arquivo de instalação (pip install nltk) com o mínimo de arquivos possível para facilitar o download e instalação. Portanto, eles permitem fazer o download dos arquivos complementares de acordo com a demanda dos desenvolvedores.

Para fazer isso, basta executar o código abaixo e seguir as instruções apresentadas.



In [None]:
nltk.download() # Insira d, l, enter (6 vezes até aparecer opção 'all'), all, q

<div class="markdown-google-sans">

### **O que encontramos no NLTK?**

> As células abaixo apresentam o exemplo de um dos córpus em Português que podemos acessar com o NLTK. MACMORPHO http://nilc.icmc.usp.br/macmorpho/

Veja as palavras e sentenças dentro do `mac_morpho`

In [3]:
dir(nltk.corpus.mac_morpho)

['__class__',
 '__delattr__',
 '__dict__',
 '__dir__',
 '__doc__',
 '__eq__',
 '__format__',
 '__ge__',
 '__getattribute__',
 '__gt__',
 '__hash__',
 '__init__',
 '__init_subclass__',
 '__le__',
 '__lt__',
 '__module__',
 '__ne__',
 '__new__',
 '__reduce__',
 '__reduce_ex__',
 '__repr__',
 '__setattr__',
 '__sizeof__',
 '__str__',
 '__subclasshook__',
 '__weakref__',
 '_citation',
 '_encoding',
 '_fileids',
 '_get_root',
 '_license',
 '_para_block_reader',
 '_read_block',
 '_readme',
 '_root',
 '_sent_tokenizer',
 '_sep',
 '_tagset',
 '_unload',
 '_word_tokenizer',
 'abspath',
 'abspaths',
 'citation',
 'encoding',
 'ensure_loaded',
 'fileids',
 'license',
 'open',
 'paras',
 'raw',
 'readme',
 'root',
 'sents',
 'tagged_paras',
 'tagged_sents',
 'tagged_words',
 'words']

In [4]:
display(nltk.corpus.mac_morpho.words())
len(nltk.corpus.mac_morpho.words()) # Total

['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', ...]

1170095

In [5]:
display(nltk.corpus.mac_morpho.sents())
len(nltk.corpus.mac_morpho.sents())

[['Jersei', 'atinge', 'média', 'de', 'Cr$', '1,4', 'milhão', 'em', 'a', 'venda', 'de', 'a', 'Pinhal', 'em', 'São', 'Paulo'], ['Programe', 'sua', 'viagem', 'a', 'a', 'Exposição', 'Nacional', 'do', 'Zebu', ',', 'que', 'começa', 'dia', '25'], ...]

51397

In [6]:
nltk.corpus.mac_morpho.tagged_sents()

[[('Jersei', 'N'), ('atinge', 'V'), ('média', 'N'), ('de', 'PREP'), ('Cr$', 'CUR'), ('1,4', 'NUM'), ('milhão', 'N'), ('em', 'PREP|+'), ('a', 'ART'), ('venda', 'N'), ('de', 'PREP|+'), ('a', 'ART'), ('Pinhal', 'NPROP'), ('em', 'PREP'), ('São', 'NPROP'), ('Paulo', 'NPROP')], [('Programe', 'V'), ('sua', 'PROADJ'), ('viagem', 'N'), ('a', 'PREP|+'), ('a', 'ART'), ('Exposição', 'NPROP'), ('Nacional', 'NPROP'), ('do', 'NPROP'), ('Zebu', 'NPROP'), (',', ','), ('que', 'PRO-KS-REL'), ('começa', 'V'), ('dia', 'N'), ('25', 'N|AP')], ...]

In [7]:
'Hoje é sexta e tenho aula de PLN e cheguei atrasado'.split()

['Hoje',
 'é',
 'sexta',
 'e',
 'tenho',
 'aula',
 'de',
 'PLN',
 'e',
 'cheguei',
 'atrasado']

<div class="markdown-google-sans">

### **Primeira tarefa com o NLTK - a Tokenização**

> Observe que essa é a forma mais simples de tokenizar um texto usando o NLTK. A função (trecho de código pré-desenvolvido que executa uma ação) `word_tokenize()` recebe um texto e retorna uma lista de tokens.

- `\w+` Representação de tudo que é textual, underscore
- `[A-z]\w*` Só os caracteres, de A até z (ABC...abc). O * significa que considera os Nulos também


### **Formas adicionais avançadas para tokenização de um texto**

O conceito utilizado nas células seguintes é o de Expressões Regulares.

Expressões regulares (chamadas REs, ou regexes ou padrões regex) são essencialmente uma mini linguagem de programação altamente especializada incluída dentro do Python.

Usando esta pequena linguagem, você especifica as regras para o conjunto de strings possíveis que você quer combinar; esse conjunto pode conter sentenças em inglês, endereços de e-mail, ou comandos TeX ou qualquer coisa que você queira. Você poderá então perguntar coisas como “Essa string se enquadra dentro do padrão?” ou “Existe alguma parte da string que se enquadra nesse padrão?”. Você também pode usar as REs para modificar uma string ou dividi-la de diversas formas.

- https://docs.python.org/pt-br/3.8/howto/regex.html

- https://www.w3schools.com/python/python_regex.asp


In [8]:
text = 'Recentemente (2024), o Google suspendeu um recurso importante de seu conjunto de inteligência artificial, o Gemini. A decisão do Google de pausar a geração de imagens de pessoas ocorre no momento em que a gigante da tecnologia aborda questões sobre a precisão do modelo em representar a diversidade. Gemini, conhecido por suas capacidades avançadas de IA, encontrou críticas em relação à representação de indivíduos de diversas origens.'

In [9]:
from nltk.tokenize import RegexpTokenizer
tokenizer = RegexpTokenizer(r'\w+')

# Para desconsiderar tokens sem acentuações e numerais
tokenizer = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizer.tokenize(text)
tokens[:9] # Para não ocupar espaço da tela

['Recentemente',
 'o',
 'Google',
 'suspendeu',
 'um',
 'recurso',
 'importante',
 'de',
 'seu']

# Frequência de tokens

Muitas vezes é interessante saber a frequencia em que os tokens aparecem em um texto. Com a classe *FreqDist* podemos calcular facilmente.

**Nesse primeiro exemplo, como será a frequencia usando todos os tokens?**

In [10]:
text2 = 'RIO DE JANEIRO E SÃO PAULO, None (FOLHAPRESS) - O Brasil ainda tem o equivalente a 49 milhões de habitantes sem atendimento adequado de esgotamento sanitário e 4,8 milhões de pessoas sem água encanada, apesar do crescimento desses serviços nas últimas décadas. É o que apontam novos dados do Censo Demográfico 2022 divulgados nesta sexta-feira (23) pelo IBGE (Instituto Brasileiro de Geografia e Estatística). No caso do esgotamento sanitário, 62,5% da população vivia em domicílios conectados à rede de coleta em 2022. Outros 13,2% estavam em endereços que usavam fossa séptica ou fossa-filtro como solução individual. De acordo com o IBGE, as duas categorias são consideradas adequadas pelo Plansab (Plano Nacional de Saneamento Básico). Expand article logo  Continuar lendo Assim, a população atendida por rede de esgoto ou fossa séptica chegou a 75,7%, na soma, em 2022 o equivalente a 153,1 milhões de pessoas. O percentual subiu em relação aos recenseamentos anteriores era de 64,5% em 2010 e de 59,2% em 2000. Apesar da alta, o país ainda registrou, em 2022, o equivalente a 24,3% da população em domicílios com opções de esgotamento sanitário "mais precárias", incluindo fossa rudimentar ou buraco, vala, rio, lago, córrego ou mar, diz o IBGE.'

In [11]:
tokens = nltk.word_tokenize(text2)
freq = nltk.FreqDist(tokens)

freq.most_common()[:10]

[(',', 16),
 ('de', 11),
 ('em', 9),
 ('.', 8),
 ('o', 6),
 ('%', 6),
 ('a', 5),
 ('(', 4),
 (')', 4),
 ('2022', 4)]

> Excluindo pontuação

In [12]:
tokenizer = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizer.tokenize(text2)

freq = nltk.FreqDist(tokens)
freq.most_common()[:10]

[('de', 11),
 ('em', 9),
 ('o', 7),
 ('a', 5),
 ('fossa', 4),
 ('ou', 4),
 ('equivalente', 3),
 ('milhões', 3),
 ('esgotamento', 3),
 ('sanitário', 3)]

# Acessando córpus externos

Podemos acessar nossos arquivos que estão no Google Drive apenas "montando" nosso drive no ícone na barra à esquerda.

Para acessar o conteúdo do arquivo, devemos usar a função *open()* que está embutida no python. Essa função retorna o arquivo no formato que o python entende. Para lermos o seu conteúdo devemos usar a função *read()*.

---

### Corpus Teste (CT)
- `R` : Read
- `W` : Writye
- `X` : Execute

In [13]:
# ct = open('/content/corpus_teste.txt').read()

# Abrindo o arquivo da Web (preguiça de fazer o download)
import requests

link = 'https://raw.githubusercontent.com/gabrielluizone/NLProcessing/main/02%20%E2%80%A2%20NLTK/Aula%203%20-%20NLTK%20-%20dados%20corpus_teste/corpus_teste.txt'
ct = requests.get(link).text

ct

'Giants batem os Patriots no Super Bowl XLII\r\nAzarões acabam com a invencibilidade de New England e ficam com o título da temporada\r\n04/02/2008 - 01h07m - Atualizado em 04/02/2008 - 09h49m\r\n\r\nCom um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII. O resultado, uma das maiores zebras da história do Super Bowl, acabou com a temporada perfeita de Tom Brady e companhia, que esperavam fazer história ao levantar o troféu da NFL sem sofrer uma derrota no ano. \r\n\r\nA vitória dos Giants, porém, também ficará para a história. Pela primeira vez, irmãos quarterbacks triunfam no Super Bowl em temporadas consecutivas. No ano passado, Peyton Manning, irmão de Eli, chegou ao título máximo da NFL pelo Indianapolis Colts.\r\n\r\nA partida\r\n\r\nOs Giants começaram com a posse de bola, e mostraram logo que iriam alongar ao máximo s

In [14]:
from nltk.tokenize import RegexpTokenizer

# Tokenizar e calcular a frequência de nosso corpus inteiro
tokenizer = RegexpTokenizer(r'\w+') # '[A-z]\w*'

tokens = tokenizer.tokenize(ct)
tokens[:5]

['Giants', 'batem', 'os', 'Patriots', 'no']

In [15]:
nltk.FreqDist(tokens).most_common()[:7]

[('de', 34),
 ('o', 26),
 ('a', 23),
 ('e', 21),
 ('para', 16),
 ('jardas', 15),
 ('do', 12)]

In [16]:
tokenizer = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizer.tokenize(ct)

# Lista com tokens convertidos para maiusculo
nv_lista = []

for token in tokens: nv_lista.append(token)

freq2 = nltk.FreqDist(nv_lista)
freq2.most_common()[:7]

[('de', 34),
 ('o', 26),
 ('a', 23),
 ('e', 21),
 ('para', 16),
 ('jardas', 15),
 ('do', 12)]

> Tokens não interessantes (**StopWords**)

In [17]:
# Acessando a lista de StopWords do NLTK para PT-BR
stopwords = nltk.corpus.stopwords.words('portuguese')
stopwords[:7]

['a', 'à', 'ao', 'aos', 'aquela', 'aquelas', 'aquele']

# Agrupando minúsculas e maiúsculas

Nas células anteriores percebemos que alguns tokens estão com o texto em maiúsculas e outros em minúsculas. O python considera que são tokens diferentes apenas por conter letras com "caixa" diferente. Portanto, precisamos agrupar todas as palavras que sabemos que são a mesma coisa. O modo mais simples é converter todas para minúsculas ou maiúsculas.

Vimos que podemos modificar uma string para minúsculas ou maiúsculas apenas usando as funções *.lower()* ou *.upper()*, respectivamente.

In [18]:
tokenizer = RegexpTokenizer(r'[A-z]\w*')
tokens = tokenizer.tokenize(ct)

# Lista com tokens convertidos para maiusculo
nv_lista = []

# Deixar em minusculo
for token in tokens:
  if token.lower() not in stopwords:
    nv_lista.append(token.lower())

freq2 = nltk.FreqDist(nv_lista)
freq2.most_common()[:7]

[('jardas', 15),
 ('giants', 11),
 ('patriots', 10),
 ('manning', 10),
 ('linha', 10),
 ('bola', 7),
 ('vez', 6)]

In [19]:
# Com list Comprehension

# [Ação feita para cada Token dentro de Tokens, se cada um não estiver nas stopwords]
# Deixar em minusculo
[token.lower() for token in tokens if token.lower() not in stopwords]

['giants',
 'batem',
 'patriots',
 'super',
 'bowl',
 'xlii',
 'azarões',
 'acabam',
 'invencibilidade',
 'new',
 'england',
 'ficam',
 'título',
 'temporada',
 'h07m',
 'atualizado',
 'h49m',
 'passe',
 'eli',
 'manning',
 'plaxico',
 'burress',
 'segundos',
 'fim',
 'new',
 'york',
 'giants',
 'anotou',
 'touchdown',
 'decisivo',
 'derrubou',
 'favorito',
 'new',
 'england',
 'patriots',
 'neste',
 'domingo',
 'glendale',
 'super',
 'bowl',
 'xlii',
 'resultado',
 'maiores',
 'zebras',
 'história',
 'super',
 'bowl',
 'acabou',
 'temporada',
 'perfeita',
 'tom',
 'brady',
 'companhia',
 'esperavam',
 'fazer',
 'história',
 'levantar',
 'troféu',
 'nfl',
 'sofrer',
 'derrota',
 'ano',
 'vitória',
 'giants',
 'porém',
 'ficará',
 'história',
 'primeira',
 'vez',
 'irmãos',
 'quarterbacks',
 'triunfam',
 'super',
 'bowl',
 'temporadas',
 'consecutivas',
 'ano',
 'passado',
 'peyton',
 'manning',
 'irmão',
 'eli',
 'chegou',
 'título',
 'máximo',
 'nfl',
 'indianapolis',
 'colts',
 'part

# Tokens que não nos interessam

Alguns tokens que são muito frequentes não ajudam na análise de um texto.
Veja como exemplo a lista de tokens anterior, no topo da lista estão artigos, preposições e etc. No nosso caso não são interessantes.

O NLTK possui uma lista de tokens considerados desinteressantes e que podem ser removidos de uma lista de tokens sem problemas. Em PLN os chamamos de *stopwords*.

Para removê-los da nossa lista de tokens, precisamos comparar um a um com a lista de *stopwords*. Caso um token seja uma *stopword* o removeremos da lista de tokens.

In [20]:
# Acessamos a lista de stopwords do NLTK, para a língua portuguesa
stopwords = nltk.corpus.stopwords.words('portuguese')


<div class="markdown-google-sans">

# **N-Grams**

</div>

> O $n$-gramas é uma sequência contígua de $n$ itens em um texto. Como Centro Paula Souza (CPS), New York Giantes

In [21]:
# Sem concatenar teríamos a seguinte construção
#   infile = open('/content/drive/MyDrive/recursos/corpus_teste.txt')
#   corpus = infile.read()

# Abrindo o arquivo da Web (preguiça de fazer o download)
import requests

link = 'https://raw.githubusercontent.com/gabrielluizone/NLProcessing/main/02%20%E2%80%A2%20NLTK/Aula%203%20-%20NLTK%20-%20dados%20corpus_teste/corpus_teste.txt'
corpus = requests.get(link).text
print(corpus)

Giants batem os Patriots no Super Bowl XLII
Azarões acabam com a invencibilidade de New England e ficam com o título da temporada
04/02/2008 - 01h07m - Atualizado em 04/02/2008 - 09h49m

Com um passe de Eli Manning para Plaxico Burress a 39 segundos do fim, o New York Giants anotou o touchdown decisivo e derrubou o favorito New England Patriots por 17 a 14 neste domingo, em Glendale, no Super Bowl XLII. O resultado, uma das maiores zebras da história do Super Bowl, acabou com a temporada perfeita de Tom Brady e companhia, que esperavam fazer história ao levantar o troféu da NFL sem sofrer uma derrota no ano. 

A vitória dos Giants, porém, também ficará para a história. Pela primeira vez, irmãos quarterbacks triunfam no Super Bowl em temporadas consecutivas. No ano passado, Peyton Manning, irmão de Eli, chegou ao título máximo da NFL pelo Indianapolis Colts.

A partida

Os Giants começaram com a posse de bola, e mostraram logo que iriam alongar ao máximo suas posses de bola. M

In [22]:
from nltk import bigrams
from nltk import trigrams
from nltk import ngrams

In [24]:
tokens = nltk.word_tokenize(corpus)
bigramas = list(bigrams(tokens))
trigramas = list(trigrams(tokens))
ngramas = list(ngrams(tokens, 4))

<div class="markdown-google-sans">

# **Reconhecer Entidades Nomeadas**

</div>

In [25]:
for trigrama in trigramas:
  if trigrama[0][0].isupper() and trigrama[1][0].isupper() and trigrama[2][0].isupper():
    print(trigrama)

('Super', 'Bowl', 'XLII')
('Bowl', 'XLII', 'Azarões')
('New', 'York', 'Giants')
('New', 'England', 'Patriots')
('Super', 'Bowl', 'XLII')


In [26]:
[bigrama for bigrama in bigramas if bigrama[0][0].isupper() and bigrama[1][0].isupper()]

[('Super', 'Bowl'),
 ('Bowl', 'XLII'),
 ('XLII', 'Azarões'),
 ('New', 'England'),
 ('Eli', 'Manning'),
 ('Plaxico', 'Burress'),
 ('New', 'York'),
 ('York', 'Giants'),
 ('New', 'England'),
 ('England', 'Patriots'),
 ('Super', 'Bowl'),
 ('Bowl', 'XLII'),
 ('Super', 'Bowl'),
 ('Tom', 'Brady'),
 ('Super', 'Bowl'),
 ('Peyton', 'Manning'),
 ('Indianapolis', 'Colts'),
 ('Os', 'Giants'),
 ('Brandon', 'Jacobs'),
 ('Nova', 'York'),
 ('Lawrence', 'Tynes'),
 ('Eli', 'Manning'),
 ('Laurence', 'Maroney'),
 ('Tom', 'Brady'),
 ('Antonio', 'Pierce'),
 ('Os', 'Giants'),
 ('Amani', 'Toomer'),
 ('Nova', 'York'),
 ('Steve', 'Smith'),
 ('Ellis', 'Hobbs'),
 ('Nova', 'York'),
 ('Nova', 'York'),
 ('Os', 'Patriots'),
 ('Bill', 'Bellichick'),
 ('Jabar', 'Gaffney'),
 ('Kevin', 'Boss'),
 ('Steve', 'Smith'),
 ('David', 'Tyree'),
 ('Wes', 'Welker'),
 ('Randy', 'Moss'),
 ('Kevin', 'Faulk'),
 ('New', 'England'),
 ('Eli', 'Manning'),
 ('Amani', 'Toomer'),
 ('New', 'England'),
 ('Plaxico', 'Burress')]

<div class="markdown-google-sans">

# **Streamming e Lematização**

</div>

In [27]:
stemmer = nltk.RSLPStemmer()

In [28]:
p = ['Amigão', 'amigo', 'Casa', 'casamento',
     'Esquimó', 'Esquiar', 'Propuseram', 'Propus',
     'propondo', 'Descriptografar', 'Criptografando',
     'Criptografia', 'criptografiamente', 'Diversão',
     'Divertidamente', 'Diversos', 'Adivertensa']

for palavra in p: print(stemmer.stem(palavra))

amig
amig
cas
cas
esquimó
esqui
propus
propu
prop
descriptograf
criptograf
criptograf
criptograf
divers
divertid
divers
adivertens


<div class="markdown-google-sans">

# **Etiquetador**

</div>

In [29]:
from nltk.corpus import mac_morpho
from nltk.tag import UnigramTagger

tokens = nltk.word_tokenize(corpus)

sentencas_treino = mac_morpho.tagged_sents()
etiquetador = UnigramTagger(sentencas_treino)

etiquetado = etiquetador.tag(tokens)

print(etiquetado)

[('Giants', 'NPROP'), ('batem', 'V'), ('os', 'ART'), ('Patriots', None), ('no', 'KC'), ('Super', 'NPROP'), ('Bowl', 'NPROP'), ('XLII', None), ('Azarões', None), ('acabam', 'VAUX'), ('com', 'PREP'), ('a', 'ART'), ('invencibilidade', 'N'), ('de', 'PREP'), ('New', 'NPROP'), ('England', 'NPROP'), ('e', 'KC'), ('ficam', 'V'), ('com', 'PREP'), ('o', 'ART'), ('título', 'N'), ('da', 'NPROP'), ('temporada', 'N'), ('04/02/2008', None), ('-', '-'), ('01h07m', None), ('-', '-'), ('Atualizado', None), ('em', 'PREP|+'), ('04/02/2008', None), ('-', '-'), ('09h49m', None), ('Com', 'PREP'), ('um', 'ART'), ('passe', 'N'), ('de', 'PREP'), ('Eli', 'NPROP'), ('Manning', 'NPROP'), ('para', 'PREP'), ('Plaxico', None), ('Burress', None), ('a', 'ART'), ('39', 'NUM'), ('segundos', 'N'), ('do', 'NPROP'), ('fim', 'N'), (',', ','), ('o', 'ART'), ('New', 'NPROP'), ('York', 'NPROP'), ('Giants', 'NPROP'), ('anotou', 'V'), ('o', 'ART'), ('touchdown', 'N|EST'), ('decisivo', 'ADJ'), ('e', 'KC'), ('derrubou', 'V'), ('o',