# **Baixa e divide os arquivos em treino (80%) e teste (20%)** 🎲

**Baixa e extrai o corpus localmente**

In [1]:
import os
import zipfile

if not os.path.exists("corpus"):
  # Baixa arquivo corpus.zip
  url = "https://raw.githubusercontent.com/AngryLeaderBB/NLP_class_2024/refs/heads/main/Atividade_1/corpus.zip"
  cmd = ! wget {url}

  # Extrai corpus.zip na pasta corpus
  with zipfile.ZipFile("corpus.zip", 'r') as zip_ref:
      zip_ref.extractall("corpus")

  # Exclui arquivo corpus.zip
  os.remove("corpus.zip")

print("Corpus disponível!")

Corpus disponível!


**Divide arquivos 80% treino e 20% teste**

In [3]:
import json
import os
import random

# Lê nome de arquivos
files = os.listdir("corpus")
# Permuta a lista de nomes
random.shuffle(files)

# Corta em aproximadamente 80% treino e 20% teste
cut_index = int(len(files) * 0.8)
train_file_names, test_file_names = files[:cut_index], files[cut_index:]
files.clear()

# Função de leitura de arquivos (retorna string)
def read_files(file_names):
  string_buffer = []
  for file in file_names:
    if file.endswith(".json"):
      file_path = f"corpus/{file}"
      with open(file_path) as f:
        json_file = json.load(f)

      string_buffer.append(json_file["title"])
      string_buffer.append("\n\n")
      string_buffer.append(json_file["text"])
      string_buffer.append("<|endoftext|>")

  return "".join(string_buffer)

# Lê arquivos pela lista de nomes
train = read_files(train_file_names)
test = read_files(test_file_names)



# Imprime resultados -----------------------------
print("-"*15 + " Treino " + "-"*15)
print(f"Primeiros 5 de {len(train_file_names)} arquivos:")
print("",train_file_names[:5])
print("\nTexto:\n\n", train[:40]+"...")
print(f"{'-'*37}\n")

print("-"*15 + " Teste " + "-"*15)
print(f"Primeiros 5 de {len(test_file_names)} arquivos:")
print("",test_file_names[:5])
print("\nTexto:\n\n", test[:40]+"...")
print("-"*37)

# Clear names
train_file_names.clear()
test_file_names.clear()


--------------- Treino ---------------
Primeiros 5 de 8000 arquivos:
 ['18868.json', '39549.json', '97806.json', '110699.json', '88178.json']

Texto:

 Fráguas (Rio Maior)

Fráguas é uma povoa...
-------------------------------------

--------------- Teste ---------------
Primeiros 5 de 2000 arquivos:
 ['26203.json', '27010.json', '45753.json', '88181.json', '112322.json']

Texto:

 República federal

Uma república federal...
-------------------------------------


# **Baixa as funções implementadas do algoritmo de bigrama ⬇️**

Baixa bigram.py

In [4]:
import os
# Arquivo .py que implementa o algoritmo bigrama
if not os.path.exists("bigram.py"):
  url = "https://raw.githubusercontent.com/AngryLeaderBB/NLP_class_2024/refs/heads/main/Atividade_2/bigram.py"
  cmd = ! wget {url}

Baixa o tiktoken

In [5]:
!pip install tiktoken



Treina e salva modelo bigrama

In [7]:
import tiktoken
import pickle
from bigram import Bigram

# Gera bigrama com limitação de tamanho da
# lista de entrada tokens (3*10^5 tokens)
gen = Bigram(300000)

# Treina bigrama com debug ativo
gen.train(train, True)

# Salva bigrama
with open("bigram.pkl", "wb") as f:
  pickle.dump(gen, f)

[-                                                 ] 2.000006666688889%, time = 0.1181802749633789
[--                                                ] 4.000013333377778%, time = 0.08608317375183105
[---                                               ] 6.000020000066667%, time = 0.09930109977722168
[----                                              ] 8.000026666755556%, time = 0.09424304962158203
[-----                                             ] 10.000033333444446%, time = 0.08730649948120117
[------                                            ] 12.000040000133334%, time = 0.0888514518737793
[-------                                           ] 14.000046666822223%, time = 0.0997781753540039
[--------                                          ] 16.00005333351111%, time = 0.0836477279663086
[---------                                         ] 18.0000600002%, time = 0.08521842956542969
[----------                                        ] 20.00006666688889%, time = 0.09696507453918457
[----

Carrega bigrama pré-treinado

In [6]:
import pickle

with open("bigram.pkl", "rb") as f:
  gen = pickle.load(f)

print(gen.probabilities.shape)

torch.Size([20261, 20261])


Gera texto aleatória

In [27]:
print(gen.generate_text(30))

 Física Teidecanede Santo Agostino do Brasil * Anysio (2022, foi enviada para a Academia Militar. 4 e em


Gera texto via seed

In [34]:
seed = 1234567
print(gen.generate_text(30, seed))

 provavelmente devido à prosseguir as cem anos, Rio de recursos minerais mais sutrasão, Condado Barrette, aquelas em 2003, variante


Calcula perplexidade

In [8]:
# Perplexidade do texto geradoo
print(gen.perplexity(gen.generate_text(1000)))
print()

# Perplexidade do teste até 10 tokens
for i in range(1, 11):
  print(gen.perplexity(test[:i]))

print()
# Perplexidade do teste compilado
print(gen.perplexity(test))


2.3215937280044887

21744.9921875
147.4618377685547
27.91170883178711
inf
inf
inf
inf
inf
3.033394001058136
inf

inf
