In [None]:
#Aplicação por partes e com testes

In [1]:
import os
import json
import sys

In [3]:
# Define o caminho para a pasta 'corpus'

In [5]:
pasta_corpus = r'C:\Users\tagsa\Downloads\corpus'

In [7]:
# Função para carregar e verificar os textos dos arquivos JSON

In [9]:
def carregar_textos_json(pasta):
    textos = []
    arquivos_validos = 0  # Contador de arquivos JSON válidos
    textos_encontrados = 0  # Contador de textos encontrados

    if not os.path.exists(pasta):
        print(f"Pasta não encontrada: {pasta}")
        return '', []

    # Lista todos os arquivos JSON na pasta
    arquivos = [arq for arq in os.listdir(pasta) if arq.endswith('.json')]
    print(f"Número de arquivos JSON encontrados: {len(arquivos)}")

    # Verifica e extrai textos de todos os arquivos
    for arquivo in arquivos:
        caminho = os.path.join(pasta, arquivo)
        with open(caminho, "r", encoding="utf-8") as f:
            try:
                dados = json.load(f)
                arquivos_validos += 1  # Incrementa contador de arquivos lidos com sucesso

                # Verifica se o JSON é uma lista ou dicionário e extrai textos
                if isinstance(dados, list):
                    for item in dados:
                        texto = item.get('text', '')  # Alteração aqui para a chave correta
                        if texto:
                            textos.append(texto)
                            textos_encontrados += 1  # Incrementa contador de textos encontrados
                elif isinstance(dados, dict):
                    texto = dados.get('text', '')  # Alteração aqui também
                    if texto:
                        textos.append(texto)
                        textos_encontrados += 1  # Incrementa contador de textos encontrados
            except json.JSONDecodeError:
                print(f"Erro ao ler o arquivo: {arquivo}")

    corpus = ' '.join(textos)
    return corpus, textos, arquivos_validos, textos_encontrados

In [11]:
# Carrega o corpus e os textos e exibe a quantidade de arquivos válidos e textos encontrados

In [13]:
corpus, textos, arquivos_validos, textos_encontrados = carregar_textos_json(pasta_corpus)

print(f"Número de arquivos JSON válidos lidos: {arquivos_validos}")
print(f"Corpus carregado com {len(corpus)} caracteres.")
print(f"Número de textos individuais: {textos_encontrados}")

Número de arquivos JSON encontrados: 10000
Número de arquivos JSON válidos lidos: 10000
Corpus carregado com 71033256 caracteres.
Número de textos individuais: 9996


In [15]:
# Adiciona o caminho do diretório onde está o bpe_tokenizer.py

In [17]:
sys.path.append(r'C:\Users\tagsa\Downloads')

In [19]:
# Importa a classe do algoritmo BPE

In [21]:
from bpe_tokenizer import BPE_Tokenizer

In [23]:
# Define o tamanho do vocabulário (276)

In [25]:
vocab_size = 276

In [27]:
# Instancia o tokenizador BPE

In [29]:
tokenizer = BPE_Tokenizer()

In [31]:
# Utiliza apenas os 1000 primeiros caracteres para teste

In [43]:
corpus_teste = corpus[:1000]

print("Codificando a amostra...")
encoded_teste = tokenizer.encode(corpus_teste)
print(f"Tokens codificados (amostra): {encoded_teste[:100]}...")  # Exibe os primeiros 100 tokens

Codificando a amostra...
Tokens codificados (amostra): [83, 195, 163, 256, 86, 105, 99, 262, 116, 258, 258, 86, 262, 116, 111, 115, 257, 195, 169, 32, 117, 109, 257, 102, 114, 101, 103, 117, 268, 105, 257, 112, 264, 116, 117, 103, 117, 268, 257, 271, 109, 117, 110, 105, 99, 195, 173, 112, 105, 256, 261, 69, 108, 118, 97, 115, 260, 269, 263, 49, 48, 49, 44, 54, 56, 32, 107, 109, 194, 178, 32, 261, 195, 161, 114, 101, 257, 258, 55, 51, 50, 32, 104, 97, 98, 105, 116, 266, 116, 101, 259, 40, 99, 262, 115, 256, 261, 50, 48, 50]...


In [39]:
# Decodifica a amostra codificada

In [47]:
print("\nDecodificando a amostra...")
decoded_teste = tokenizer.decode(encoded_teste)
print(f"Texto decodificado (amostra): {decoded_teste[:500]}...")  # Exibe os primeiros 500 caracteres do texto decodificado


Decodificando a amostra...
Texto decodificado (amostra): São Vicente e Ventosa é uma freguesia portuguesa do município de Elvas, com 101,68 km² de área e 732 habitantes (censo de 2021). A sua densidade populacional é . A freguesia que, popularmente, é conhecida por "Povo de São Vicente" é a segunda maior freguesia do país a nível de território. == História == Segundo a Monarquia Lusitana (Brandão), em Setembro de 1288 celebrou o Infante D. Afonso, irmão de D. Dinis, um contrato com a Ordem de Aviz, sobre certos bens que, ele infante, possuía em São Vi...


In [49]:
# Valida se a decodificação foi correta

In [51]:
if corpus_teste == decoded_teste:
    print("\nA decodificação foi realizada com sucesso! O texto decodificado é idêntico ao original.")
else:
    print("\nA decodificação falhou. O texto decodificado não é idêntico ao original.")


A decodificação foi realizada com sucesso! O texto decodificado é idêntico ao original.


In [53]:
# Codifica todo o corpus com o tokenizador treinado

In [55]:
print("Codificando o corpus...")
encoded_corpus = [tokenizer.encode(texto) for texto in textos]
print(f"Corpus codificado. Total de textos codificados: {len(encoded_corpus)}")

Codificando o corpus...
Corpus codificado. Total de textos codificados: 9996


In [57]:
# Codifica cada texto e exibe o nome do arquivo, comprimento do texto e dos tokens

In [59]:
for i, (texto, nome_arquivo) in enumerate(zip(textos, os.listdir(pasta_corpus))):
    tokens = tokenizer.encode(texto)
    encoded_corpus.append(tokens)
    
    print(f"\nArquivo: {nome_arquivo}")
    print(f"Comprimento do texto original: {len(texto)} caracteres")
    print(f"Comprimento dos tokens codificados: {len(tokens)} tokens")

print(f"\nCorpus codificado. Total de textos codificados: {len(encoded_corpus)}")


Arquivo: 10000.json
Comprimento do texto original: 14644 caracteres
Comprimento dos tokens codificados: 11543 tokens

Arquivo: 100008.json
Comprimento do texto original: 1755 caracteres
Comprimento dos tokens codificados: 1383 tokens

Arquivo: 100013.json
Comprimento do texto original: 204 caracteres
Comprimento dos tokens codificados: 173 tokens

Arquivo: 100022.json
Comprimento do texto original: 234 caracteres
Comprimento dos tokens codificados: 194 tokens

Arquivo: 100042.json
Comprimento do texto original: 23423 caracteres
Comprimento dos tokens codificados: 18602 tokens

Arquivo: 100093.json
Comprimento do texto original: 1248 caracteres
Comprimento dos tokens codificados: 1008 tokens

Arquivo: 1001.json
Comprimento do texto original: 5880 caracteres
Comprimento dos tokens codificados: 4785 tokens

Arquivo: 100105.json
Comprimento do texto original: 12987 caracteres
Comprimento dos tokens codificados: 10178 tokens

Arquivo: 100186.json
Comprimento do texto original: 6630 caracte

In [61]:
# Acessa o método get_stats utilizando o objeto instanciado do tokenizador

In [63]:
stats = tokenizer.get_stats(tokens)

In [65]:
# Encontra o par mais frequente

In [67]:
top_pair = max(stats, key=stats.get)
print(f"Par mais frequente: {top_pair}")

Par mais frequente: (195, 167)


In [69]:
# Usa o objeto instanciado para chamar o método merge

In [71]:
tokens2 = tokenizer.merge(tokens, top_pair, 256) 

In [73]:
# Imprime o resultado e o comprimento dos tokens após o merge

In [75]:
print(tokens2)
print(f"Comprimento após o merge: {len(tokens2)} tokens")

[69, 263, 69, 269, 110, 111, 109, 105, 97, 260, 195, 169, 32, 117, 263, 273, 115, 116, 114, 117, 109, 262, 116, 256, 100, 257, 269, 110, 116, 97, 98, 105, 108, 105, 100, 97, 261, 110, 97, 99, 105, 111, 110, 274, 32, 114, 101, 102, 265, 262, 116, 258, 195, 160, 32, 100, 268, 99, 114, 105, 256, 195, 163, 256, 100, 275, 114, 101, 108, 97, 256, 195, 181, 101, 259, 269, 109, 265, 99, 105, 97, 105, 259, 261, 117, 263, 112, 97, 195, 173, 259, 269, 263, 256, 114, 268, 116, 256, 271, 109, 117, 110, 100, 111, 270, 82, 101, 103, 105, 115, 116, 114, 257, 256, 116, 111, 116, 274, 32, 261, 100, 273, 104, 101, 105, 114, 256, 113, 117, 258, 262, 116, 114, 257, 258, 115, 97, 105, 32, 261, 117, 263, 112, 97, 195, 173, 115, 260, 110, 257, 102, 264, 109, 257, 261, 105, 109, 112, 264, 116, 97, 256, 195, 181, 101, 259, 258, 101, 120, 112, 264, 116, 97, 256, 195, 181, 101, 259, 261, 112, 114, 111, 100, 117, 116, 111, 115, 260, 115, 265, 118, 105, 256, 111, 115, 260, 99, 97, 112, 105, 116, 274, 32, 102, 273, 

In [77]:
# Define do tamanho do vocabulário e número de merges

In [None]:
vocab_size = 276
num_merges = vocab_size - 256
ids = list(tokens)  # Lista inicial de tokens

In [None]:
# Dicionário para armazenar os merges realizados

In [None]:
merges = {}

In [None]:
# Realiza os merges e exibe a frequência de cada novo token criado

In [None]:
for i in range(num_merges):
    # Obtém as estatísticas dos pares mais frequentes
    stats = tokenizer.get_stats(ids)
    pair = max(stats, key=stats.get)  # Par mais frequente
    freq = stats[pair]  # Frequência do par
    idx = 256 + i  # Índice do novo token

    # Exibe o par sendo mesclado, o novo token e sua frequência
    print(f"Mesclando {pair} em um novo token {idx} com frequência {freq}")

    # Realiza o merge e armazena no dicionário de merges
    ids = tokenizer.merge(ids, pair, idx)
    merges[pair] = (idx, freq)  # Armazena o índice e a frequência

In [85]:
# Imprime o comprimento dos tokens e dos IDs após o processo de tokenização e merges

In [87]:
print("Comprimento do token", len(tokens))
print("Comprimento do ds", len(ids))

Comprimento do token 6759
Comprimento do ds 5795


In [89]:
# Mostra a eficiência do processo de tokenização em termos de compressão

In [91]:
print(f"Taxa de compressão: {len(tokens) / len(ids):.2f}X")

Taxa de compressão: 1.17X


In [93]:
# A compressão foi de 1.17X, o que significa que o processo conseguiu reduzir o número de tokens em aproximadamente 17%