# Atividade prática - Tokenizador
### Proposta por: Nathan S. Gavenski - UOL edtech e PUCRS Online
---

Nesta atividade iremos criar um Tokenizador simples usando apenas Python e nenhuma outra biblioteca. 
Todo o código extra para a validação da nossa implementação já está posto nas células.
Para esta atividade basta apenas implementar onde os comentários `#TODO` estão ecritos.

Vamos usar o seguinte dataset:



In [2]:
dataset = [
  "bom celular",
  "sol, choveu durante o dia",
  "bom dia, não gostei disso",
]

Agora vamos implementar o tokenizador.
A classe possui 5 funções diferentes:


1.   `fit` - Armazena todas as palavras únicas em um dataset de texto
2.   `encode` - codifica texto para tokens
3.   `decode` - decodifica tokens para texto
4.   `save` - armazena o dicionário em um arquivo JSON
5.   `load` - carrega o dicionário em memória

Preencha cada função com o código necessário para a classe funcionar como planejado.

OBS: A função `__init__` deve ser alterada


In [41]:
class Tokenizer:

  def __init__(self):
    self.dicionario = {}
    self.dicionario_inverso = {}
    self.unknown_token = 1

  def fit(self, dataset):
    for texto in dataset:
        texto = texto.replace(',', '')
        texto = texto.replace('.', '')
        palavras = texto.split(' ')
        for palavra in palavras:
            if palavra not in self.dicionario.keys():
                self.dicionario[palavra] = len(self.dicionario.keys())+2

    self.dicionario_inverso = {value: key for key, value in self.dicionario.items()}

  def encode(self, text):
    assert len(self.dicionario) > 0, "Tokenizer must be fitted first"
    tokens = text.split(' ')
    tokenized_text = []
    for token in tokens:
        if token not in dicionario.keys():
            tokenized_text.append(self.unknown_token)
        else:
            tokenized_text.append(self.dicionario[token])
    return tokenized_text

  def decode(self, tokens):
    assert len(self.dicionario) > 0, "Tokenizer must be fitted first"
    decoded_text = []
    for token in tokens:
        if token not in self.dicionario_inverso.keys():
            decoded_text.append("???")
        else:
            decoded_text.append(self.dicionario_inverso[token])
    return " ".join(decoded_text)

  def save(self):
    with open('dicionario.json', 'w') as file:
        json.dump(self.dicionario, file)
    with open('dicionario_inverso.json', 'w') as file:
        json.dump(self.dicionario_inverso, file)

  def load(self, dicionario, dicionario_inverso):
    with open(dicionario, 'r') as file:
        self.dicionario = json.load(file)
    with open(dicionario_inverso, 'r') as file:
        self.dicionario_inverso = json.load(file)

Vamos instânciar aqui o tokenizador e fazer ele aprender nosso dataset

In [43]:
import json
tokenizador = Tokenizer()
tokenizador.fit(dataset)
print(tokenizador.dicionario)
print(tokenizador.dicionario_inverso)
print(tokenizador.encode("durante sol choveu celular cachorro romeu julia"))
print(tokenizador.decode([0, 5, 7, 1, 2, 1, 1000, 673]))
tokenizador.save()

{'bom': 2, 'celular': 3, 'sol': 4, 'choveu': 5, 'durante': 6, 'o': 7, 'dia': 8, 'não': 9, 'gostei': 10, 'disso': 11}
{2: 'bom', 3: 'celular', 4: 'sol', 5: 'choveu', 6: 'durante', 7: 'o', 8: 'dia', 9: 'não', 10: 'gostei', 11: 'disso'}
[6, 4, 5, 3, 1, 1, 1]
??? choveu o ??? bom ??? ??? ???


In [None]:
tokenizer = Tokenizer()
tokenizer.fit(dataset)
tokenizer.dicionario

Nas próximas células vamos testar a nossa implementação.
A palavra `assert` serve para validarmos uma expressão lógica.
Na primeira célula, estamos validando se os dicionários são iguais, enquanto na segunda validamos se o resultado da codificação é igual ao que esperamos. 
Finalmente, na última célula, vamos validar se ao codificarmos e decodificarmos um texto, o resultado é igual a sentença original. 

In [None]:
dicionario = {
    "bom": 0,
    "celular": 1, 
    "sol,": 2,
    "choveu": 3,
    "durante": 4,
    "o": 5,
    "dia": 6,
    "dia,": 7,
    "não": 8,
    "gostei": 9,
    "disso": 10,
}

assert tokenizer.dicionario == dicionario

In [None]:
expected_output = [
  [0, 1],
  [2, 3, 4, 5, 6],
  [0, 7, 8, 9, 10],
]

for i in range(len(expected_output)):
  assert tokenizer.encode(dataset[i]) == expected_output[i]

In [None]:
assert tokenizer.decode(tokenizer.encode(dataset[0])) == dataset[0] 

# E se tentarmos codificar uma palavra que nunca vimos? 
# Ou se tivermos tamanhos diferentes?

Agora precisamos mudar o código que criamos para conseguir lidar com palavras desconhecidas e padding.
Depois de realizar as alterações use as próximas células para validar a sua implementação.

OBS: Padding = 0 e Token Desconhecido = 1