# Tokenização com RegEx

Um problema que existe em processamento de linguagem natural é transformar uma string, que é algo que pode ser lido diretamente de textos, em uma lista de palavras individuais. Por exemplo, poderíamos querer transformar:

`"Minha string de entrada"`

em:

`["Minha", "string", "de", "entrada"]`

Para isso, temos que toma algumas decisões, como:

* As palavras são case-sensitive, isto é, diferenciamos caixa-alta de caixa-baixa?
* O que fazemos com as pontuações?

Nesta aula, vamos partir das expressões regulares e usar a biblioteca `re` para fazer tokenização.

In [6]:
import re
import string

In [7]:
entrada = "As onças pintadas são animais notáveis por seus hábitos de caça. Elas são caçadoras solitárias e usam sua habilidade de rastreamento para encontrar suas presas, geralmente animais como veados e javalis. O IBAMA, instituto responsável por proteger a fauna brasileira, monitora a população de onças e implementa medidas para protegê-las contra a caça ilegal. Além disso, o Ibama também trabalha para preservar o habitat dessas belas criaturas, garantindo que possam continuar a caçar de forma natural e sustentável. Ao preservarmos as onças pintadas e seus hábitos de caça, estamos protegendo a biodiversidade do nosso planeta."
print(entrada)

As onças pintadas são animais notáveis por seus hábitos de caça. Elas são caçadoras solitárias e usam sua habilidade de rastreamento para encontrar suas presas, geralmente animais como veados e javalis. O IBAMA, instituto responsável por proteger a fauna brasileira, monitora a população de onças e implementa medidas para protegê-las contra a caça ilegal. Além disso, o Ibama também trabalha para preservar o habitat dessas belas criaturas, garantindo que possam continuar a caçar de forma natural e sustentável. Ao preservarmos as onças pintadas e seus hábitos de caça, estamos protegendo a biodiversidade do nosso planeta.


## Exercício 1
**Objetivo: usar a biblioteca string para separar palavras**

Uma maneira de separar palavras em uma string é  usar a biblioteca `string`. Isso pode ser feito manualmente combinando:

* `s = s.replace(x, y)`: troca todas as ocorrências da string `x` por `y` dentro da string `s`
* `s = s.split()`: divide a string `s` em uma lista de strings usando os caracteres espaço e fim de linha.
* `s = s.upper()`: converte a string `s` para caixa alta.

Usando somente a biblioteca `string`, escreva um tokenizador para o texto da nossa entrada.

In [8]:
s = entrada.replace('.', '').replace(',', '').upper().split()
print(s)

['AS', 'ONÇAS', 'PINTADAS', 'SÃO', 'ANIMAIS', 'NOTÁVEIS', 'POR', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', 'ELAS', 'SÃO', 'CAÇADORAS', 'SOLITÁRIAS', 'E', 'USAM', 'SUA', 'HABILIDADE', 'DE', 'RASTREAMENTO', 'PARA', 'ENCONTRAR', 'SUAS', 'PRESAS', 'GERALMENTE', 'ANIMAIS', 'COMO', 'VEADOS', 'E', 'JAVALIS', 'O', 'IBAMA', 'INSTITUTO', 'RESPONSÁVEL', 'POR', 'PROTEGER', 'A', 'FAUNA', 'BRASILEIRA', 'MONITORA', 'A', 'POPULAÇÃO', 'DE', 'ONÇAS', 'E', 'IMPLEMENTA', 'MEDIDAS', 'PARA', 'PROTEGÊ-LAS', 'CONTRA', 'A', 'CAÇA', 'ILEGAL', 'ALÉM', 'DISSO', 'O', 'IBAMA', 'TAMBÉM', 'TRABALHA', 'PARA', 'PRESERVAR', 'O', 'HABITAT', 'DESSAS', 'BELAS', 'CRIATURAS', 'GARANTINDO', 'QUE', 'POSSAM', 'CONTINUAR', 'A', 'CAÇAR', 'DE', 'FORMA', 'NATURAL', 'E', 'SUSTENTÁVEL', 'AO', 'PRESERVARMOS', 'AS', 'ONÇAS', 'PINTADAS', 'E', 'SEUS', 'HÁBITOS', 'DE', 'CAÇA', 'ESTAMOS', 'PROTEGENDO', 'A', 'BIODIVERSIDADE', 'DO', 'NOSSO', 'PLANETA']


## Exercício 2
**Objetivo: usar expressões regulares para fazer um tokenizador**

A biblioteca `re` tem uma função chamada `findall` que retorna todas as ocorrências de uma determinada expressão regular dentro de uma string. Por exemplo:

In [12]:
s = re.findall("[Oo]la+", 'Ola, mundo! Olaaaaaa! Olaaaaaaaaaaa??? Alguém aí?')
print(s)

['Ola', 'Olaaaaaa', 'Olaaaaaaaaaaa']


Usando `re.findall`, escreva um tokenizador semelhante ao que você escreveu anteriormente usando a biblioteca `string`. Os resultados devem ser iguais.

In [None]:
# Faça o exercício aqui

## Exercício 3
**Objetivo: fazer um tokenizador assumindo que pontuações são tokens**

Um problema da tokenização, na forma que foi feita, é que as pontuações são excluídas. Uma outra estratégia é considerar que pontuações são tokens, isto é:

`"uma frase, uma vírgula"`

seria tokenizado como:

`["uma", "frase", ",", "uma", "vírgula"]`

Escreva uma nova expressão para usar `findall` e tokenizar nossa frase de entrada. Se precisar, continue usando a função `upper()` da biblioteca `string`.

In [21]:
# Resolva o exercício aqui

## Exercício 4
**Objetivo: encontrar estatísticas de textos**

O trecho de código abaixo faz o download do livro "Quincas Borba", de Machado de Assis, do [Portal Domínio Público](http://machado.mec.gov.br/obra-completa-lista), e então lê o PDF para uma string. Ele deve levar por volta de 1 minuto para executar, então execute a célula e siga para o restante do enunciado.

In [23]:
from pdfminer.high_level import extract_text
import urllib.request

urllib.request.urlretrieve("http://machado.mec.gov.br/obra-completa-lista/item/download/14_7bbc6c42393beeac1fd963c16d935f40", "quincas.pdf")
texto = extract_text("quincas.pdf")

À partir das estratégias de tokenização que executamos, encontre:

1. Quantas palavras há no texto?
1. Quantas palavras *únicas* há no texto (isto é, cada palavra só é contada uma vez)?
1. Quantas vezes cada palavra única aparece no texto?

Dica: lembre-se das estruturas `set()` e `dict()` em Python!

## Exercício 5
**Objetivo: usar estatísticas de texto para comparar duas obras**

O trecho abaixo faz o download e conversão do livro "O pequeno Príncipe":

In [25]:
urllib.request.urlretrieve("https://www.sesirs.org.br/sites/default/files/paragraph--files/o_pequeno_principe_-_antoine_de_saint-exupery.pdf", "principe.pdf")
texto2 = extract_text("principe.pdf")

Com base neste texto:

1. Conte as palavras únicas de O Pequeno Príncipe usando o mesmo procedimento que você fez para "Quincas Borba".
1. Encontre palavras que são muito frequentes em ambos os textos,
1. Encontre palavras que são muito frequentes em um dos textos, mas que são pouco presentes no outro texto.
1. A presença de algumas palavras pode ser usada para indicar o significado dos livros. Quais palavras seriam essas, em cada um dos livros?
1. Algumas palavras são muito comuns, mas não tem um significado relacionado ao livro, como "não" ou "muito". Que palavras poderiam entrar nessa categoria?