In [1]:
# Atualizo o pip caso haja uma nova versão do pip
!pip install --upgrade pip
# jsonlines e tqdm precisam ser instaladas, pois não fazem parte da biblioteca padrão do Python.
!pip install jsonlines tqdm

Collecting pip
  Downloading pip-24.3.1-py3-none-any.whl.metadata (3.7 kB)
Downloading pip-24.3.1-py3-none-any.whl (1.8 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m1.8/1.8 MB[0m [31m12.8 MB/s[0m eta [36m0:00:00[0m00:01[0m0:01[0m
[?25hInstalling collected packages: pip
  Attempting uninstall: pip
    Found existing installation: pip 24.0
    Uninstalling pip-24.0:
      Successfully uninstalled pip-24.0
Successfully installed pip-24.3.1


In [3]:
# Importando as bibliotecas necessárias
# json e jsonlines: Para manipulação de arquivos JSON e JSONL (JSON por linha).
import json
import jsonlines
# random: Para realizar a divisão aleatória dos dados.
import random
# Path: Facilita a manipulação de diretórios e arquivos.
from pathlib import Path
# tqdm: Adiciona uma barra de progresso durante o processamento.
from tqdm import tqdm

# Configurando a importação do tokenizador customizado
import os
import sys
sys.path.insert(0, os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01"))




In [6]:
# Definindo o caminho para o arquivo de entrada
input_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/corpus_completo.jsonl")

# Leitura e exibição das primeiras 10 linhas
with jsonlines.open(input_file, "r") as reader:
    # Converte reader em um iterador e lê as primeiras 10 linhas
    first_10_lines = [next(iter(reader)) for _ in range(10)]
    
# Exibindo as 10 primeiras linhas
for i, line in enumerate(first_10_lines, start=1):
    print(f"Linha {i}: {line}")

Linha 1: {'id': '81474', 'text': 'Pradamano é uma comuna italiana da região do Friuli-Venezia Giulia, província de Udine, com cerca de 2.972 habitantes. Estende-se por uma área de 16 km², tendo uma densidade populacional de 185 hab/km². Faz fronteira com Buttrio, Pavia di Udine, Premariacco, Remanzacco, Udine. ==Demografia== Categoria:Comunas de Údine (província)', 'title': 'Pradamano'}
Linha 2: {'id': '16592', 'text': 'Maria Valentina dos Anjos Costa - Doné Runhó ou Mãe Ruinhó - (Salvador, 1877 - 27 de dezembro de 1975) - Doné do Terreiro do Bogum, iniciada para o vodum Sobô. Passou para o grau de sacerdotisa aos 21 anos de idade, e assumiu a direção do terreiro após a morte da Doné Romana de Possú em 1925, porém, há alguns membros antigos do Terreiro do Bogum que discordam que Romaninha de Possu tenha dirigido o templo, onde a Doné Runhó permaneceu na direção por 50 anos. Foi sucedida por Mãe Gamo, Evangelista dos Anjos Costa de 64 anos (nasceu em 27 de dezembro de 1911) que era sua 

In [7]:
# Importa o tokenizador
from simple_bpe_tokenizer import SimpleBPETokenizer

# Caminho do arquivo de treinamento
train_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/train_data.jsonl")

# Função de treinamento do tokenizador com barra de progresso
def train_tokenizer_on_text(tokenizer, train_file, vocab_size=512):
    # Lê o arquivo de treino e concatena o texto
    all_text = []
    with jsonlines.open(train_file, "r") as reader:
        for item in reader:
            if "text" in item:
                all_text.append(item["text"])
                
    # Concatena todo o texto em uma única string para treinamento
    full_text = " ".join(all_text)
    
    # Adiciona a barra de progresso ao treinamento
    for _ in tqdm(range(1), desc="Treinando o vocabulário"):
        tokenizer.train(full_text, vocab_size=vocab_size)

# Inicialize o tokenizador e realize o treinamento
tokenizer = SimpleBPETokenizer()
train_tokenizer_on_text(tokenizer, train_file, vocab_size=512)

print("Treinamento do tokenizador concluído!")


Treinando o vocabulário:   6%|▋         | 31/492 [00:00<00:00, 32136.29it/s]


Texto codificado: [267, 32, 268, 32, 256, 120, 257]
Texto decodificado: exemplo de texto


Treinando o vocabulário: 0it [00:00, ?it/s]/1 [00:00<?, ?it/s]
Treinando o vocabulário: 100%|██████████| 1/1 [00:03<00:00,  3.34s/it]

Treinamento do tokenizador concluído!





In [8]:
# Código para contar os arquivos JSON usados no treinamento
# Essa célula fornece o número exato de arquivos utilizados, ajudando a verificar o balanceamento do conjunto de dados e o progresso do processo de treinamento.

# Caminho do arquivo de treinamento JSONL
train_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/train_data.jsonl")

# Contagem de linhas no arquivo de treinamento
train_count = 0
with jsonlines.open(train_file, "r") as reader:
    for _ in reader:
        train_count += 1

print(f"Total de arquivos JSON usados no treinamento: {train_count}")


Total de arquivos JSON usados no treinamento: 2081


Numeração com enumerate: 

Usei enumerate(vocab.items(), start=1) para numerar automaticamente cada linha, começando a contagem em 1.

Formato de Exibição:

Cada linha exibirá o número, o token e o seu significado (palavra ou símbolo correspondente) no formato: Numero Token: valor -> Significado: palavra.

Assim temos uma visão clara de todos os tokens treinados, listando-os de forma ordenada e numerada.

In [10]:
# Verificando se o tokenizador possui um atributo de vocabulário treinado
try:
    vocab = tokenizer.vocab  # Substitua 'tokenizer' pelo nome da instância do tokenizador treinado
except AttributeError:
    print("O tokenizador não possui um vocabulário treinado.")

# Exibindo tokens e seus significados numerados
print("Tokens treinados e seus significados:\n")
for i, (token, symbol) in enumerate(vocab.items(), start=1):
    print(f"{i}. Token: {token} -> Significado: {symbol}")


Tokens treinados e seus significados:

1. Token: [UNK] -> Significado: 0
2. Token: ↔ -> Significado: 8596
3. Token: จ -> Significado: 3592
4. Token: 원 -> Significado: 50896
5. Token: 川 -> Significado: 24029
6. Token: 악 -> Significado: 50501
7. Token: ต -> Significado: 3605
8. Token: י -> Significado: 1497
9. Token: 9 -> Significado: 57
10. Token: ῦ -> Significado: 8166
11. Token: a -> Significado: 97
12. Token: ь -> Significado: 1100
13. Token: ژ -> Significado: 1688
14. Token: ᠪ -> Significado: 6186
15. Token: й -> Significado: 1081
16. Token: Ľ -> Significado: 317
17. Token: 南 -> Significado: 21335
18. Token: т -> Significado: 1090
19. Token: א -> Significado: 1488
20. Token: ע -> Significado: 1506
21. Token: 通 -> Significado: 36890
22. Token: ᡧ -> Significado: 6247
23. Token: ล -> Significado: 3621
24. Token: ɛ -> Significado: 603
25. Token: 台 -> Significado: 21488
26. Token: 奥 -> Significado: 22885
27. Token: ý -> Significado: 253
28. Token: 村 -> Significado: 26449
29. Token: Ü -> 

In [12]:
# Caminho do arquivo de teste
test_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/test_data.jsonl")
tokenized_output = []  # Lista para armazenar o resultado da tokenização

# Tokenizando o conteúdo do arquivo de teste
with jsonlines.open(test_file, "r") as reader:
    for i, item in enumerate(reader, start=1):
        if "text" in item:  # Verifica se o item possui a chave "text"
            tokens = tokenizer.encode(item["text"])  # Realiza a tokenização
            tokenized_output.append({"index": i, "tokens": tokens})

# Exibindo os primeiros resultados
for i, result in enumerate(tokenized_output[:10], start=1):
    print(f"Item {result['index']} - Tokens: {result['tokens']}")

Item 1 - Tokens: [79, 32, 80, 97, 114, 97, 110, 225, 32, 233, 32, 117, 109, 97, 32, 100, 97, 115, 32, 50, 55, 32, 117, 110, 105, 100, 97, 100, 101, 115, 32, 102, 101, 100, 101, 114, 97, 116, 105, 118, 97, 115, 32, 100, 111, 32, 66, 114, 97, 115, 105, 108, 46, 32, 69, 115, 116, 225, 32, 108, 111, 99, 97, 108, 105, 122, 97, 100, 111, 32, 97, 111, 32, 110, 111, 114, 116, 101, 32, 100, 97, 32, 114, 101, 103, 105, 227, 111, 32, 83, 117, 108, 44, 32, 101, 32, 233, 32, 111, 32, 250, 110, 105, 99, 111, 32, 101, 115, 116, 97, 100, 111, 32, 100, 101, 115, 115, 97, 32, 114, 101, 103, 105, 227, 111, 32, 97, 32, 102, 97, 122, 101, 114, 32, 100, 105, 118, 105, 115, 97, 32, 99, 111, 109, 32, 111, 117, 116, 114, 97, 115, 32, 114, 101, 103, 105, 245, 101, 115, 46, 32, 80, 111, 115, 115, 117, 105, 32, 99, 111, 109, 111, 32, 108, 105, 109, 105, 116, 101, 115, 58, 32, 97, 111, 32, 110, 111, 114, 116, 101, 32, 101, 32, 97, 32, 110, 111, 114, 100, 101, 115, 116, 101, 44, 32, 99, 111, 109, 32, 83, 227, 111, 

In [13]:
# Caminho do arquivo de teste
test_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/test_data.jsonl")

# Contando a quantidade de arquivos JSON lidos nos testes
test_count = 0

with jsonlines.open(test_file, "r") as reader:
    for _ in reader:
        test_count += 1  # Incrementa a contagem para cada item lido

# Exibindo o total de arquivos JSON lidos
print(f"Total de JSONs lidos nos testes: {test_count}")


Total de JSONs lidos nos testes: 7919


In [14]:
# Caminho dos arquivos de treino e teste
train_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/train_data.jsonl")
test_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/test_data.jsonl")

# Contando a quantidade de arquivos JSON lidos nos testes
train_count = 0
with jsonlines.open(train_file, "r") as reader:
    for _ in reader:
        train_count += 1  # Incrementa a contagem para cada item lido

# Contando a quantidade de arquivos JSON lidos nos testes
test_count = 0
with jsonlines.open(test_file, "r") as reader:
    for _ in reader:
        test_count += 1  # Incrementa a contagem para cada item lido

# Somatório dos arquivos treinados e testados
total_count = train_count + test_count

# Exibindo os totais
print(f"Total de JSONs treinados: {train_count}")
print(f"Total de JSONs testados: {test_count}")
print(f"Somatório total de JSONs (treinados + testados): {total_count}")


Total de JSONs treinados: 2081
Total de JSONs testados: 7919
Somatório total de JSONs (treinados + testados): 10000


In [15]:
# Caminho do arquivo de teste
test_file = os.path.expanduser("~/projetos/unb-ppgi0119/atividade_01/test_data.jsonl")
tokenized_output = []  # Lista para armazenar o resultado da tokenização

# Tokenizando o conteúdo do arquivo de teste
with jsonlines.open(test_file, "r") as reader:
    for i, item in enumerate(reader, start=1):
        if "text" in item:  # Verifica se o item possui a chave "text"
            tokens = tokenizer.encode(item["text"])  # Realiza a tokenização
            tokenized_output.append({"index": i, "tokens": tokens})

# Exibindo os primeiros resultados
print("Primeiros resultados da tokenização:")
for i, result in enumerate(tokenized_output[:10], start=1):
    print(f"Item {result['index']} - Tokens: {result['tokens']}")


Primeiros resultados da tokenização:
Item 1 - Tokens: [79, 32, 80, 97, 114, 97, 110, 225, 32, 233, 32, 117, 109, 97, 32, 100, 97, 115, 32, 50, 55, 32, 117, 110, 105, 100, 97, 100, 101, 115, 32, 102, 101, 100, 101, 114, 97, 116, 105, 118, 97, 115, 32, 100, 111, 32, 66, 114, 97, 115, 105, 108, 46, 32, 69, 115, 116, 225, 32, 108, 111, 99, 97, 108, 105, 122, 97, 100, 111, 32, 97, 111, 32, 110, 111, 114, 116, 101, 32, 100, 97, 32, 114, 101, 103, 105, 227, 111, 32, 83, 117, 108, 44, 32, 101, 32, 233, 32, 111, 32, 250, 110, 105, 99, 111, 32, 101, 115, 116, 97, 100, 111, 32, 100, 101, 115, 115, 97, 32, 114, 101, 103, 105, 227, 111, 32, 97, 32, 102, 97, 122, 101, 114, 32, 100, 105, 118, 105, 115, 97, 32, 99, 111, 109, 32, 111, 117, 116, 114, 97, 115, 32, 114, 101, 103, 105, 245, 101, 115, 46, 32, 80, 111, 115, 115, 117, 105, 32, 99, 111, 109, 111, 32, 108, 105, 109, 105, 116, 101, 115, 58, 32, 97, 111, 32, 110, 111, 114, 116, 101, 32, 101, 32, 97, 32, 110, 111, 114, 100, 101, 115, 116, 101, 44,

In [16]:
# Revertendo os tokens para texto
decoded_output = []  # Lista para armazenar o resultado da decodificação

# Iterando sobre os resultados tokenizados
for result in tokenized_output:
    decoded_text = tokenizer.decode(result['tokens'])  # Realiza a decodificação
    decoded_output.append({"index": result["index"], "decoded_text": decoded_text})

# Exibindo os primeiros resultados da decodificação
print("Primeiros resultados da decodificação:")
for i, result in enumerate(decoded_output[:10], start=1):
    print(f"Item {result['index']} - Texto Decodificado: {result['decoded_text']}")


Primeiros resultados da decodificação:
Item 1 - Texto Decodificado: O Paraná é uma das 27 unidades federativas do Brasil. Está localizado ao norte da região Sul, e é o único estado dessa região a fazer divisa com outras regiões. Possui como limites: ao norte e a nordeste, com São Paulo. A leste, com o Oceano Atlântico. Ao sul, com Santa Catarina. A noroeste, com Mato Grosso do Sul. A oeste, com os departamentos paraguaios de Canindeyú e Alto Paraná. E a sudoeste, com a província argentina de Misiones. Compreende uma superfície de , um pouco menor que a Romênia, país com formato semelhante. Com uma população de 10,4 milhões de habitantes, é o quinto estado mais populoso do Brasil. Curitiba é sua capital. Conta com 399 municípios. Suas cidades mais importantes são: Londrina, Maringá, Ponta Grossa, Cascavel, São José dos Pinhais, Guarapuava, Paranaguá e Foz do Iguaçu. É o quarto estado mais rico do Brasil pelo PIB, atrás de São Paulo, Rio de Janeiro e Minas Gerais. Seu relevo é dos mais e