# Atividade prática - Tokenizador
###### Por Nathan S. Gavenski - UOL edtech e PUCRS Online
\\

Nesta atividade iremos criar um Tokenizador simples usando apenas Python e nenhuma outra biblioteca. 
Todo o código extra para a validação da nossa implementação já está posto nas células.
Para esta atividade basta apenas implementar onde os comentários `#TODO` estão ecritos.

Vamos usar o seguinte dataset:



In [None]:
dataset = [
  "bom celular",
  "sol, choveu durante o dia",
  "bom dia, não gostei disso",
]

Agora vamos implementar o tokenizador.
A classe possui 5 funções diferentes:


1.   `fit` - Armazena todas as palavras únicas em um dataset de texto
2.   `encode` - codifica texto para tokens
3.   `decode` - decodifica tokens para texto
4.   `save` - armazena o dicionário em um arquivo JSON
5.   `load` - carrega o dicionário em memória

Preencha cada função com o código necessário para a classe funcionar como planejado.

OBS: A função `__init__` deve ser alterada


In [None]:
class Tokenizer:

  def __init__(self):
    self.dicionario = {}
    self.dicionario_inverso = {}
    self.token_desconhecido = 1

  def fit(self, dataset):
    # Armazena todas as palavras únicas em um dataset de texto
    indice = 0
    for texto in dataset:
      palavras = texto.split(' ')
      for palavra in palavras:
        if palavra not in self.dicionario:
          self.dicionario[palavra] = indice
          indice += 1

    self.dicionario_inverso = { 
      valor: chave for chave, valor in self.dicionario.items() 
    }

  def encode(self, texto):
    # Converte texto para tokens (inteiros)
    tokens = texto.split(' ')
    texto_tokenizado = []
    for token in tokens:
      if token not in self.dicionario:
        texto_tokenizado.append(self.token_desconhecido)
      else:
        texto_tokenizado.append(self.dicionario[token])
    return texto_tokenizado

  def decode(self, tokens):
    # Converte tokens para texto
    texto = []
    for token in tokens:
      if token not in self.dicionario_inverso:
        texto.append(self.token_desconhecido)
      else:
        texto.append(self.dicionario_inverso[token])
    return ' '.join(texto)

  def save(self):
    # armazena o dicionario usando json
    with open('dicionario.json', 'w') as f:
      json.dump(self.dicionario, f)
    with open('dicionario_inverso.json', 'w') as f:
      json.dump(self.dicionario_inverso, f)

  def load(self):
    # carrega o dicionario usando json
    with open('dicionario.json', 'r') as f:
      self.dicionario = json.load(f)
    with open('dicionario_inverso.json', 'r') as f:
      self.dicionario_inverso = json.load(f)

Vamos instânciar aqui o tokenizador e fazer ele aprender nosso dataset

In [None]:
tokenizer = Tokenizer()
tokenizer.fit(dataset)
tokenizer.dicionario

{'bom': 0,
 'celular': 1,
 'choveu': 3,
 'dia': 6,
 'dia,': 7,
 'disso': 10,
 'durante': 4,
 'gostei': 9,
 'não': 8,
 'o': 5,
 'sol,': 2}

Nas próximas células vamos testar a nossa implementação.
A palavra `assert` serve para validarmos uma expressão lógica.
Na primeira célula, estamos validando se os dicionários são iguais, enquanto na segunda validamos se o resultado da codificação é igual ao que esperamos. 
Finalmente, na última célula, vamos validar se ao codificarmos e decodificarmos um texto, o resultado é igual a sentença original. 

In [None]:
dicionario = {
    "bom": 0,
    "celular": 1, 
    "sol,": 2,
    "choveu": 3,
    "durante": 4,
    "o": 5,
    "dia": 6,
    "dia,": 7,
    "não": 8,
    "gostei": 9,
    "disso": 10,
}

assert tokenizer.dicionario == dicionario

In [None]:
expected_output = [
  [0, 1],
  [2, 3, 4, 5, 6],
  [0, 7, 8, 9, 10],
]

for i in range(len(expected_output)):
  assert tokenizer.encode(dataset[i]) == expected_output[i]

In [None]:
assert tokenizer.decode(tokenizer.encode(dataset[0])) == dataset[0] 

# E se tentarmos codificar uma palavra que nunca vimos? 
# Ou se tivermos tamanhos diferentes?

Agora precisamos mudar o código que criamos para conseguir lidar com palavras desconhecidas e padding.
Depois de realizar as alterações use as próximas células para validar a sua implementação.

OBS: Padding = 0 e Token Desconhecido = 1

In [None]:
dicionario = {
    "bom": 2,
    "celular": 3, 
    "sol,": 4,
    "choveu": 5,
    "durante": 6,
    "o": 7,
    "dia": 8,
    "dia,": 9,
    "não": 10,
    "gostei": 11,
    "disso": 12,
}

assert tokenizer.dicionario == dicionario

In [None]:
expected_output = [
  [2, 3],
  [4, 5, 6, 7, 8],
  [2, 9, 10, 11, 12],
]

for i in range(len(expected_output)):
  assert tokenizer.encode(dataset[i]) == expected_output[i]

In [None]:
assert tokenizer.encode("gostei muito disso") == [11, 1, 12]
assert tokenizer.decode(tokenizer.encode(dataset[0])) == dataset[0]