In [40]:
# Pegando uma frase, quebrando em caracteres e ordenando em ordem alfabetica (sem duplicidade - uso do set)
frase = "hoje você está focado em aprender!"
caracteres = sorted(list(set(frase)))
print(caracteres)

[' ', '!', 'a', 'c', 'd', 'e', 'f', 'h', 'j', 'm', 'n', 'o', 'p', 'r', 's', 't', 'v', 'á', 'ê']


In [41]:
# Cria um dicionário =  'char' : index
letraParaIndex = { lt:i for i, lt in enumerate(caracteres)}
letraParaIndex

{' ': 0,
 '!': 1,
 'a': 2,
 'c': 3,
 'd': 4,
 'e': 5,
 'f': 6,
 'h': 7,
 'j': 8,
 'm': 9,
 'n': 10,
 'o': 11,
 'p': 12,
 'r': 13,
 's': 14,
 't': 15,
 'v': 16,
 'á': 17,
 'ê': 18}

In [42]:
# Recebe uma string onde para cada caractere, se recupera o respectivo índice no dicionário.
encode = lambda s: [letraParaIndex[c] for c in s]
decode = lambda i: ''.join([caracteres[i] for i in i])

# Exemplo
frase = "vamos aprender"
array_encoded = encode(frase)

print("(Encode)", frase, "-->", array_encoded)
print("(Decode)", array_encoded,"-->", decode(array_encoded))

(Encode) vamos aprender --> [16, 2, 9, 11, 14, 0, 2, 12, 13, 5, 10, 4, 5, 13]
(Decode) [16, 2, 9, 11, 14, 0, 2, 12, 13, 5, 10, 4, 5, 13] --> vamos aprender


> **Note**: para grandes textos essa técnica de encode dos tokens passa a ser inviável. 

In [45]:
# Vamos usar uma técnica de one-hot-encoding para encodar palavras ao em vez de caracteres

import pandas as pd
import numpy as np

texto = { 'texto' : [
  'você está começando a aprender Transformer',
  'talvez você esteja começando a gostar',
]}

texto = pd.DataFrame(texto)
texto

Unnamed: 0,texto
0,você está começando a aprender Transformer
1,talvez você esteja começando a gostar


Quando usamos one-hot encoding para palavras, cada palavra única em todo o texto se torna uma coluna na matriz de saída. Veja com o uso do `get_dummies()`:

In [54]:
# Exemplo de modelo do pandas: get_dummies

texto["texto"].str.get_dummies(" ")

# Transforma todo o texto concatenado em uma matriz de ocorrência de palavras - onde existe (1) e não existe (0)

Unnamed: 0,Transformer,a,aprender,começando,esteja,está,gostar,talvez,você
0,1,1,1,1,0,1,0,0,1
1,0,1,0,1,1,0,1,1,1


### Complexidade

Porém, se formos levar em consideração um conjunto de TODAS as palavras de um idioma, teremos um grande problema de complexidade, pois teremos uma matriz $palavras$ x $palavras$, esparsamente preenchida com `1`, e contendo em sua grande maioria valores `0` (pois não usamos todas as palavras da lingua portuguesa em uma frase).

- Exemplo no uso de grandes vocabularios:

<img src="https://projects.volkamerlab.org/teachopencadd/_images/talktorials_T021_one_hot_encoding_81_0.png">

Isso levaria a um aumento exponencial de complexidade e grande desperdício de recursos.

