# Dados
Os arquivos estão comprimidos em ".zip", portanto temos que extrair os arquivos do corpus para outra pasta que será chamada **"corpus_extracted"**.


In [4]:
import zipfile
import os


zip_file_path = 'corpus.zip'
extract_to_path = 'corpus_extracted'
os.makedirs(extract_to_path, exist_ok=True) # extraindo os arquivos utilizando a biblioteca nativa do python zipfile
with zipfile.ZipFile(zip_file_path, 'r') as zip_ref:
    zip_ref.extractall(extract_to_path)

print(f'Arquivos extraídos para {extract_to_path}')

print(f'Número de arquivos extraídos: {len(os.listdir("corpus_extracted"))}')


Arquivos extraídos para corpus_extracted
Número de arquivos extraídos: 10000


Após isso temos que importar os arquivos do corpus ".json" e colocá-lo em um só
arquivo de texto em formato ".txt".
O nome do arquivo ".txt" com o compilado de todos os textos do corpus irá se chamar **"sum_corpus.txt**".

In [5]:
import read_files
import os


if not os.path.exists('sum_corpus.txt'):
  for each in os.listdir("corpus_extracted"):
      data_json = read_files.read_json("corpus_extracted/" + each)
      with open("sum_corpus.txt", "a", encoding="utf-8") as file:
          file.write(data_json["text"])
  print(f"Arquivo de texto sum_corpus.txt criado")

# BPE (Byte Pair Encoding)
Agora o algoritmo BPE pode ser aplicado no arquivo **"sum_corpus.txt"** para fazer os *merges* e assim criar o vocabulário de *tokens*.

In [6]:
import bpe


with open("sum_corpus.txt", "r", encoding="utf-8") as file: # abre o arquivo sum_corpus.txt e lê o seu conteúdo
    string = file.read()
string = list(map(int, string.encode('utf-8'))) # faz o encode do conteúdo lido para utf-8
num_merges = 20 # número de merges que será feito no algoritmo bpe
merges = bpe.merge_loop(num_merges, string) # chama a função merge_loop que faz os merges
vocab = {idx: bytes([idx]) for idx in range(256)} # inicializa o vocabulário com os 256 tokens iniciais.
for (p0, p1), idx in merges.items():
    if vocab[p0] + vocab[p1] not in vocab.values():
        vocab[idx] = vocab[p0] + vocab[p1]  # aqui os merges são representados e inseridos no vocabulário
print(vocab)  # vocabulário resultante com os merges

merging (111, 32) into a new token 256
merging (97, 32) into a new token 257
merging (101, 32) into a new token 258
merging (115, 32) into a new token 259
merging (44, 32) into a new token 260
merging (100, 258) into a new token 261
merging (101, 110) into a new token 262
merging (109, 32) into a new token 263
merging (111, 114) into a new token 264
merging (101, 114) into a new token 265
merging (97, 110) into a new token 266
merging (97, 114) into a new token 267
merging (101, 115) into a new token 268
merging (99, 111) into a new token 269
merging (46, 32) into a new token 270
merging (100, 256) into a new token 271
merging (111, 259) into a new token 272
merging (105, 110) into a new token 273
merging (97, 108) into a new token 274
merging (97, 259) into a new token 275
{0: b'\x00', 1: b'\x01', 2: b'\x02', 3: b'\x03', 4: b'\x04', 5: b'\x05', 6: b'\x06', 7: b'\x07', 8: b'\x08', 9: b'\t', 10: b'\n', 11: b'\x0b', 12: b'\x0c', 13: b'\r', 14: b'\x0e', 15: b'\x0f', 16: b'\x10', 17: b'\x1