# Tokenização com RegEx

Um problema que existe em processamento de linguagem natural é transformar uma string, que é algo que pode ser lido diretamente de textos, em uma lista de palavras individuais. Por exemplo, poderíamos querer transformar:

`"Minha string de entrada"`

em:

`["Minha", "string", "de", "entrada"]`

Para isso, temos que toma algumas decisões, como:

* As palavras são case-sensitive, isto é, diferenciamos caixa-alta de caixa-baixa?
* O que fazemos com as pontuações?

Nesta aula, vamos partir das expressões regulares e usar a biblioteca `re` para fazer tokenização.

In [1]:
import re
import string

In [2]:
entrada = "As onças pintadas são animais notáveis por seus hábitos de caça. Elas são caçadoras solitárias e usam sua habilidade de rastreamento para encontrar suas presas, geralmente animais como veados e javalis. O IBAMA, instituto responsável por proteger a fauna brasileira, monitora a população de onças e implementa medidas para protegê-las contra a caça ilegal. Além disso, o Ibama também trabalha para preservar o habitat dessas belas criaturas, garantindo que possam continuar a caçar de forma natural e sustentável. Ao preservarmos as onças pintadas e seus hábitos de caça, estamos protegendo a biodiversidade do nosso planeta."
print(entrada)

As onças pintadas são animais notáveis por seus hábitos de caça. Elas são caçadoras solitárias e usam sua habilidade de rastreamento para encontrar suas presas, geralmente animais como veados e javalis. O IBAMA, instituto responsável por proteger a fauna brasileira, monitora a população de onças e implementa medidas para protegê-las contra a caça ilegal. Além disso, o Ibama também trabalha para preservar o habitat dessas belas criaturas, garantindo que possam continuar a caçar de forma natural e sustentável. Ao preservarmos as onças pintadas e seus hábitos de caça, estamos protegendo a biodiversidade do nosso planeta.


## Exercício 1
**Objetivo: usar a biblioteca string para separar palavras**

Uma maneira de separar palavras em uma string é  usar a biblioteca `string`. Isso pode ser feito manualmente combinando:

* `s = s.replace(x, y)`: troca todas as ocorrências da string `x` por `y` dentro da string `s`
* `s = s.split()`: divide a string `s` em uma lista de strings usando os caracteres espaço e fim de linha.
* `s = s.upper()`: converte a string `s` para caixa alta.

Usando somente a biblioteca `string`, escreva um tokenizador para o texto da nossa entrada.

In [3]:
s = entrada.replace('.', '').replace(',', '').upper().split()
print(s)

['AS', 'ONÇAS', 'PINTADAS', 'SÃO', 'ANIMAIS', 'NOTÁVEIS', 'POR', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', 'ELAS', 'SÃO', 'CAÇADORAS', 'SOLITÁRIAS', 'E', 'USAM', 'SUA', 'HABILIDADE', 'DE', 'RASTREAMENTO', 'PARA', 'ENCONTRAR', 'SUAS', 'PRESAS', 'GERALMENTE', 'ANIMAIS', 'COMO', 'VEADOS', 'E', 'JAVALIS', 'O', 'IBAMA', 'INSTITUTO', 'RESPONSÁVEL', 'POR', 'PROTEGER', 'A', 'FAUNA', 'BRASILEIRA', 'MONITORA', 'A', 'POPULAÇÃO', 'DE', 'ONÇAS', 'E', 'IMPLEMENTA', 'MEDIDAS', 'PARA', 'PROTEGÊ-LAS', 'CONTRA', 'A', 'CAÇA', 'ILEGAL', 'ALÉM', 'DISSO', 'O', 'IBAMA', 'TAMBÉM', 'TRABALHA', 'PARA', 'PRESERVAR', 'O', 'HABITAT', 'DESSAS', 'BELAS', 'CRIATURAS', 'GARANTINDO', 'QUE', 'POSSAM', 'CONTINUAR', 'A', 'CAÇAR', 'DE', 'FORMA', 'NATURAL', 'E', 'SUSTENTÁVEL', 'AO', 'PRESERVARMOS', 'AS', 'ONÇAS', 'PINTADAS', 'E', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', 'ESTAMOS', 'PROTEGENDO', 'A', 'BIODIVERSIDADE', 'DO', 'NOSSO', 'PLANETA']


## Exercício 2
**Objetivo: usar expressões regulares para fazer um tokenizador**

A biblioteca `re` tem uma função chamada `findall` que retorna todas as ocorrências de uma determinada expressão regular dentro de uma string. Por exemplo:

In [4]:
s = re.findall("[Oo]la+", 'Ola, mundo! Olaaaaaa! Olaaaaaaaaaaa??? Alguém aí?')
print(s)

['Ola', 'Olaaaaaa', 'Olaaaaaaaaaaa']


Usando `re.findall`, escreva um tokenizador semelhante ao que você escreveu anteriormente usando a biblioteca `string`. Os resultados devem ser iguais.

In [39]:
# Faça o exercício aqui
output = re.findall(r"[A-Za-z0-9]\w*", entrada.upper())
print(output)

['AS', 'ONÇAS', 'PINTADAS', 'SÃO', 'ANIMAIS', 'NOTÁVEIS', 'POR', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', 'ELAS', 'SÃO', 'CAÇADORAS', 'SOLITÁRIAS', 'E', 'USAM', 'SUA', 'HABILIDADE', 'DE', 'RASTREAMENTO', 'PARA', 'ENCONTRAR', 'SUAS', 'PRESAS', 'GERALMENTE', 'ANIMAIS', 'COMO', 'VEADOS', 'E', 'JAVALIS', 'O', 'IBAMA', 'INSTITUTO', 'RESPONSÁVEL', 'POR', 'PROTEGER', 'A', 'FAUNA', 'BRASILEIRA', 'MONITORA', 'A', 'POPULAÇÃO', 'DE', 'ONÇAS', 'E', 'IMPLEMENTA', 'MEDIDAS', 'PARA', 'PROTEGÊ', 'LAS', 'CONTRA', 'A', 'CAÇA', 'ILEGAL', 'ALÉM', 'DISSO', 'O', 'IBAMA', 'TAMBÉM', 'TRABALHA', 'PARA', 'PRESERVAR', 'O', 'HABITAT', 'DESSAS', 'BELAS', 'CRIATURAS', 'GARANTINDO', 'QUE', 'POSSAM', 'CONTINUAR', 'A', 'CAÇAR', 'DE', 'FORMA', 'NATURAL', 'E', 'SUSTENTÁVEL', 'AO', 'PRESERVARMOS', 'AS', 'ONÇAS', 'PINTADAS', 'E', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', 'ESTAMOS', 'PROTEGENDO', 'A', 'BIODIVERSIDADE', 'DO', 'NOSSO', 'PLANETA']


## Exercício 3
**Objetivo: fazer um tokenizador assumindo que pontuações são tokens**

Um problema da tokenização, na forma que foi feita, é que as pontuações são excluídas. Uma outra estratégia é considerar que pontuações são tokens, isto é:

`"uma frase, uma vírgula"`

seria tokenizado como:

`["uma", "frase", ",", "uma", "vírgula"]`

Escreva uma nova expressão para usar `findall` e tokenizar nossa frase de entrada. Se precisar, continue usando a função `upper()` da biblioteca `string`.

In [99]:
# Resolva o exercício aqui
output = re.findall(r"[A-Za-z0-9]\w*|[^\w\s]", entrada.upper())
print(output)

['AS', 'ONÇAS', 'PINTADAS', 'SÃO', 'ANIMAIS', 'NOTÁVEIS', 'POR', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', '.', 'ELAS', 'SÃO', 'CAÇADORAS', 'SOLITÁRIAS', 'E', 'USAM', 'SUA', 'HABILIDADE', 'DE', 'RASTREAMENTO', 'PARA', 'ENCONTRAR', 'SUAS', 'PRESAS', ',', 'GERALMENTE', 'ANIMAIS', 'COMO', 'VEADOS', 'E', 'JAVALIS', '.', 'O', 'IBAMA', ',', 'INSTITUTO', 'RESPONSÁVEL', 'POR', 'PROTEGER', 'A', 'FAUNA', 'BRASILEIRA', ',', 'MONITORA', 'A', 'POPULAÇÃO', 'DE', 'ONÇAS', 'E', 'IMPLEMENTA', 'MEDIDAS', 'PARA', 'PROTEGÊ', '-', 'LAS', 'CONTRA', 'A', 'CAÇA', 'ILEGAL', '.', 'ALÉM', 'DISSO', ',', 'O', 'IBAMA', 'TAMBÉM', 'TRABALHA', 'PARA', 'PRESERVAR', 'O', 'HABITAT', 'DESSAS', 'BELAS', 'CRIATURAS', ',', 'GARANTINDO', 'QUE', 'POSSAM', 'CONTINUAR', 'A', 'CAÇAR', 'DE', 'FORMA', 'NATURAL', 'E', 'SUSTENTÁVEL', '.', 'AO', 'PRESERVARMOS', 'AS', 'ONÇAS', 'PINTADAS', 'E', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', ',', 'ESTAMOS', 'PROTEGENDO', 'A', 'BIODIVERSIDADE', 'DO', 'NOSSO', 'PLANETA', '.']


## Exercício 4
**Objetivo: encontrar estatísticas de textos**

O trecho de código abaixo faz o download do livro "Quincas Borba", de Machado de Assis, do [Portal Domínio Público](http://machado.mec.gov.br/obra-completa-lista), e então lê o PDF para uma string. Ele deve levar por volta de 1 minuto para executar, então execute a célula e siga para o restante do enunciado.

In [163]:
!pip3 install pdfminer.six
from pdfminer.high_level import extract_text
import urllib.request

urllib.request.urlretrieve("http://machado.mec.gov.br/obra-completa-lista/item/download/14_7bbc6c42393beeac1fd963c16d935f40", "quincas.pdf")
texto = extract_text("quincas.pdf")



À partir das estratégias de tokenização que executamos, encontre:

1. Quantas palavras há no texto?
1. Quantas palavras *únicas* há no texto (isto é, cada palavra só é contada uma vez)?
1. Quantas vezes cada palavra única aparece no texto?

Dica: lembre-se das estruturas `set()` e `dict()` em Python!

In [177]:
tokens = re.findall(r"[A-Za-z0-9]\w*", texto.upper())
#tokens = re.findall(r"[A-Za-z0-9]\w*|[^\w\s]", texto.upper())
tokens

['QUINCAS',
 'BORBA',
 'TEXTO',
 'FONTE',
 'OBRA',
 'COMPLETA',
 'MACHADO',
 'DE',
 'ASSIS',
 'RIO',
 'DE',
 'JANEIRO',
 'EDITORA',
 'NOVA',
 'AGUILAR',
 '1994',
 'PUBLICADO',
 'ORIGINALMENTE',
 'EM',
 'FOLHETINS',
 'DE',
 '1886',
 'A',
 '1891',
 'EM',
 'A',
 'ESTAÇÃO',
 'PUBLICADO',
 'EM',
 'VOLUME',
 'PELA',
 'GARNIER',
 'RIO',
 'DE',
 'JANEIRO',
 'NO',
 'MESMO',
 'ANO',
 'DE',
 '1891',
 'COM',
 'SUBSTANCIAIS',
 'DIFERENÇAS',
 'COM',
 'RELAÇÃO',
 'AOS',
 'FOLHETINS',
 'O',
 'QUE',
 'AQUI',
 'VAI',
 'JUSTAMENTE',
 'A',
 'EDIÇÃO',
 'EM',
 'LIVRO',
 'PRÓLOGO',
 'DA',
 '3ª',
 'EDIÇÃO',
 'A',
 'SEGUNDA',
 'EDIÇÃO',
 'DESTE',
 'LIVRO',
 'ACABOU',
 'MAIS',
 'DEPRESSA',
 'QUE',
 'A',
 'PRIMEIRA',
 'AQUI',
 'SAI',
 'ELE',
 'EM',
 'TERCEIRA',
 'SEM',
 'OUTRA',
 'ALTERAÇÃO',
 'ALÉM',
 'DA',
 'EMENDA',
 'DE',
 'ALGUNS',
 'ERROS',
 'TIPOGRÁFICOS',
 'TAIS',
 'E',
 'TÃO',
 'POUCOS',
 'QUE',
 'AINDA',
 'CONSERVADOS',
 'NÃO',
 'ENCOBRIRIAM',
 'O',
 'SENTIDO',
 'UM',
 'AMIGO',
 'E',
 'CONFRADE',
 'ILU

In [130]:
# 1. Quantas palavras há no texto?
print(f'Há {len(tokens)} palavras no texto')

#2. Quantas palavras únicas há no texto
set_tokens = set(tokens)
print(f'Há {len(set_tokens)} palavras únicas no texto')

Há 76876 palavras no texto
Há 10041 palavras únicas no texto


In [136]:
from tqdm import tqdm
#3. Quantas vezes cada palavra única aparece no texto?
dict_tokens = dict()
error_tokens = []
for token in tqdm(set_tokens):
    try:
        t = re.findall(token, texto.upper())
        dict_tokens[token] = len(t)
    except:
        error_tokens.append(token)

100%|███████████████████████████████████████████████████████████████████████████| 10041/10041 [00:45<00:00, 222.86it/s]


In [153]:
#dict_tokens

In [193]:
class Tokenizer:
    def __init__(self, texto):
        self.texto = texto
        self.tokens = re.findall(r"[A-Za-z0-9]\w*", self.texto.upper())
        self.unicas = set(self.tokens)
        self.freq_palavras = dict()
        self.frequencia()

    def frequencia(self):
        for token in tqdm(self.unicas):
            t = re.findall(token, self.texto.upper())
            self.freq_palavras[token] = len(t)

## Exercício 5
**Objetivo: usar estatísticas de texto para comparar duas obras**

O trecho abaixo faz o download e conversão do livro "O pequeno Príncipe":

In [142]:
urllib.request.urlretrieve("https://www.sesirs.org.br/sites/default/files/paragraph--files/o_pequeno_principe_-_antoine_de_saint-exupery.pdf", "principe.pdf")
texto2 = extract_text("principe.pdf")

Com base neste texto:

1. Conte as palavras únicas de O Pequeno Príncipe usando o mesmo procedimento que você fez para "Quincas Borba".
1. Encontre palavras que são muito frequentes em ambos os textos,
1. Encontre palavras que são muito frequentes em um dos textos, mas que são pouco presentes no outro texto.
1. A presença de algumas palavras pode ser usada para indicar o significado dos livros. Quais palavras seriam essas, em cada um dos livros?
1. Algumas palavras são muito comuns, mas não tem um significado relacionado ao livro, como "não" ou "muito". Que palavras poderiam entrar nessa categoria?

In [194]:
# tokenizer do quincas borba
tokenizer_qb = Tokenizer(texto)

100%|███████████████████████████████████████████████████████████████████████████| 10041/10041 [00:48<00:00, 209.10it/s]


In [195]:
# tokenizer do pequeno príncipe
tokenizer_pp = Tokenizer(texto2)

100%|█████████████████████████████████████████████████████████████████████████████| 2631/2631 [00:03<00:00, 769.70it/s]


In [196]:
# 1. Conte as palavras únicas de O Pequeno Príncipe usando o mesmo procedimento que você fez para "Quincas Borba".
len(tokenizer_pp.unicas)

2631

In [199]:
# 2. Encontre palavras que são muito frequentes em ambos os textos
freq_pp = tokenizer_pp.freq_palavras
num_unicas = len(tokenizer_pp.unicas)
for key, value in freq_pp.items():
    freq_pp[key] = value/num_unicas
    
freq_qb = tokenizer_qb.freq_palavras
num_unicas = len(tokenizer_qb.unicas)
for key, value in freq_qb.items():
    freq_qb[key] = value/num_unicas

In [204]:
# Classifica o dicionário em ordem decrescente com base em seus valores
sorted_pp = dict(sorted(freq_pp.items(), key=lambda x: x[1], reverse=True))
sorted_qb = dict(sorted(freq_qb.items(), key=lambda x: x[1], reverse=True))

# Retorna os 10 maiores valores do dicionário
top_10_pp = {k: sorted_pp[k] for k in list(sorted_pp)[:10]}
top_10_qb = {k: sorted_qb[k] for k in list(sorted_qb)[:10]}

print(top_10_pp)
print(top_10_qb)

{'E': 0.0011182923945282405, 'A': 0.0009293340620075148, 'O': 0.0008794941348518187, 'S': 0.0006824458431406031, 'I': 0.00052411378469816, 'D': 0.00036968224229398883, 'DE': 0.00014547480187184321, 'V': 0.00012322741409799627, 'SE': 0.00012062707007248171, 'AS': 0.00011773779893302107}
{'A': 4.625037346877801, 'E': 4.019818743153072, 'O': 3.6854894930783786, 'S': 2.641370381436112, 'I': 2.1025794243601235, 'D': 1.6677621750821632, 'U': 1.6541181157255254, 'N': 1.6241410218105767, 'M': 1.5596056169704213, 'C': 1.129668359725127}
