# **Encoding by Letters**

In [1]:
text = "hoje eu estou focado em aprender com você! vou pegar meu gatorade"
characters = sorted(list(set(text)))
print(characters)
print(f"Tamanho do meu vocabulário: {len(characters)}")

[' ', '!', 'a', 'c', 'd', 'e', 'f', 'g', 'h', 'j', 'm', 'n', 'o', 'p', 'r', 's', 't', 'u', 'v', 'ê']
Tamanho do meu vocabulário: 20


In [2]:
encoder = {it:i for i,it in enumerate(characters)}
decoder = {i:it for i, it in enumerate(characters)}

encode = lambda s:[encoder[c] for c in s] #my encoder
decode = lambda s:{decoder[c] for c in s} #my decoder

print(encode("vamos aprender jogando dota!"))
print(decode(encode("vamos aprender jogando")))

[18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 9, 12, 7, 2, 11, 4, 12, 0, 4, 12, 16, 2, 1]
{' ', 'o', 'p', 'v', 'm', 'j', 'n', 'e', 'a', 'd', 'r', 'g', 's'}


# **Encoding by words instead of letters**

In [3]:
import pandas as pd
import numpy as np

text = {'text':[
    'você está começando a aprender transformers',
    'talvez você esteja começando a gostar',
]}
text = pd.DataFrame(text)
text



Unnamed: 0,text
0,você está começando a aprender transformers
1,talvez você esteja começando a gostar


In [4]:
text["text"].str.get_dummies(" ")

Unnamed: 0,a,aprender,começando,esteja,está,gostar,talvez,transformers,você
0,1,1,1,0,1,0,0,1,1
1,1,0,1,1,0,1,1,0,1


# **Efficient Tokenization**

In [5]:
!pip install tiktoken

Collecting tiktoken
  Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.7 kB)
Downloading tiktoken-0.9.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (1.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.2/1.2 MB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: tiktoken
Successfully installed tiktoken-0.9.0


In [9]:
import tiktoken
enc = tiktoken.get_encoding("gpt2")
enc.encode("vamos aprender a jogar dota")

[85, 321, 418, 2471, 13287, 257, 48342, 283, 288, 4265]

In [10]:
print(encode("vamos aprender a jogar dota"))

[18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 2, 0, 9, 12, 7, 2, 14, 0, 4, 12, 16, 2]


# **What's the next undertaking?Comprehend the next sequence based on the previous one**

In [16]:
text = encode("vamos aprender transformers")
print(len(text))

27


# **GPT's way of doing it**

In [17]:
for i in range(len(text) -1):
  x = text[:i]
  y = text[i + 1]
  if x != []:
    print(f"Quando os dados forem {x} o alvo é {y}")

Quando os dados forem [18] o alvo é 10
Quando os dados forem [18, 2] o alvo é 12
Quando os dados forem [18, 2, 10] o alvo é 15
Quando os dados forem [18, 2, 10, 12] o alvo é 0
Quando os dados forem [18, 2, 10, 12, 15] o alvo é 2
Quando os dados forem [18, 2, 10, 12, 15, 0] o alvo é 13
Quando os dados forem [18, 2, 10, 12, 15, 0, 2] o alvo é 14
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13] o alvo é 5
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14] o alvo é 11
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5] o alvo é 4
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11] o alvo é 5
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4] o alvo é 14
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5] o alvo é 0
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14] o alvo é 16
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0] o alvo é 14
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 

# **BERT's way**

In [18]:
from random import randint

for i in range(len(text)):
  x = text
  y = text.copy()
  idx_mask = randint(0, len(text) -1)
  y[idx_mask] = '<mask>'
  print(f"Quando os dados forem {x} o alvo é {y}")

Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 16, 14, 2, 11, 15, 6, 12, 14, 10, 5, 14, 15] o alvo é [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, '<mask>', 14, 2, 11, 15, 6, 12, 14, 10, 5, 14, 15]
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 16, 14, 2, 11, 15, 6, 12, 14, 10, 5, 14, 15] o alvo é [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 16, 14, 2, 11, 15, 6, '<mask>', 14, 10, 5, 14, 15]
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 16, 14, 2, 11, 15, 6, 12, 14, 10, 5, 14, 15] o alvo é [18, 2, 10, '<mask>', 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 16, 14, 2, 11, 15, 6, 12, 14, 10, 5, 14, 15]
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 16, 14, 2, 11, 15, 6, 12, 14, 10, 5, 14, 15] o alvo é [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 11, 4, 5, 14, 0, 16, 14, 2, 11, 15, 6, 12, 14, 10, 5, '<mask>', 15]
Quando os dados forem [18, 2, 10, 12, 15, 0, 2, 13, 14, 5, 1