In [1]:
import duckdb

# Caminhos para os bancos de dados
db1_path = 'fineweb.duckdb'  # Substitua pelo caminho do seu primeiro banco de dados
db2_path = 'books.duckdb'  # Substitua pelo caminho do seu segundo banco de dados

# Alias para o segundo banco de dados
alias_db2 = 'db2_alias'

# Conectar ao banco de dados principal
conn = duckdb.connect(database=db1_path, read_only=False)

# Anexar o segundo banco de dados
conn.execute(f"ATTACH DATABASE '{db2_path}' AS {alias_db2}")

# Verificar esquemas (opcional, mas recomendado)
schema_main = conn.execute("DESCRIBE dataset").fetchdf()
schema_db2 = conn.execute(f"DESCRIBE {alias_db2}.dataset").fetchdf()

if not schema_main.equals(schema_db2):
	raise Exception("Os esquemas das tabelas 'dataset' nos dois bancos de dados não são compatíveis.")

# Executar a consulta modificada
df_training = conn.execute(f"""
WITH combined_dataset AS (
    SELECT * FROM dataset
    UNION ALL
    SELECT * FROM {alias_db2}.dataset
),
sampled_a AS (
    SELECT id, indice, content, name
    FROM (
        SELECT
            id,
            indice,
            content,
            name,
            ROW_NUMBER() OVER (PARTITION BY name ORDER BY RANDOM()) AS rn
        FROM combined_dataset
    ) sub
    WHERE rn <= 1
),
sampled_b AS (
    SELECT id, indice, content, name
    FROM (
        SELECT
            id,
            indice,
            content,
            name,
            ROW_NUMBER() OVER (PARTITION BY name ORDER BY RANDOM()) AS rn
        FROM combined_dataset
    ) sub
    WHERE rn <= 1
)
SELECT
    a.name AS name,
    a.content AS content1,
    b.content AS content2,
    -- Cálculo original do target_transformado
    SIGN(a.indice - b.indice) * LN(1 + ABS(a.indice - b.indice)) AS target_transformed,
    -- Aplicação da função sigmoide no target_transformado
    1 / (1 + EXP(- (SIGN(a.indice - b.indice) * LN(1 + ABS(a.indice - b.indice))))) AS target_transformed_sigmoid
FROM sampled_a a
JOIN sampled_b b
    ON a.name = b.name
ORDER BY RANDOM()
LIMIT 100;
""").df()

conn.close()

df_training

FloatProgress(value=0.0, layout=Layout(width='auto'), style=ProgressStyle(bar_color='black'))

Unnamed: 0,name,content1,content2,target_transformed,target_transformed_sigmoid
0,https://ddschild.com/services/infants-and-todd...,most. Babies are sometimes born with tongue- t...,great experience at the dentist! Experts recom...,7.478170,0.999435
1,http://www.westelm.com/shop/bedding/,modern bedding. Indulge in our organic bedding...,"includes duvets, quilts, sheet",-5.181784,0.005587
2,http://ridersinsider.mlblogs.com/2012/07/17/ou...,currently has a record of,"to pitch a lot of innings,"" Brigham said. ""I try",4.653960,0.990566
3,https://www.dmarge.com/2017/02/people-are-awes...,It's got that. Tricking on a beach with yoga,physics and death. Basketball dunks,3.970292,0.981481
4,http://www.dhammawheel.com/viewtopic.php?p=91540,would lead to a greater,stops me from completely letting,5.981414,0.997481
...,...,...,...,...,...
95,http://www.galwaycycling.org/cyclists-mark-roa...,the environment. Making it safer multiplies th...,that one of the main,5.799093,0.996979
96,http://www.claretianassociates.org/calendar.html,the new custom playground. RSVP,They will also use the,4.574711,0.989796
97,http://www.conquerclub.com/forum/viewtopic.php...,full sized preview of the following maps just ...,hand their CLA League performance is a poultry...,-9.349754,0.000087
98,http://www.computerweekly.com/news/2240050361/...,environment. Meeting the specialised document ...,from MatrixOne to develop a,7.085064,0.999163


In [None]:
import torch

# Defina o número de elementos originais em cada coluna
num_content1 = len(df_training['content1'])

# Combinar as duas colunas de conteúdo em uma lista
contents = list(df_training['content1']) + list(df_training['content2'])

# Tokenização combinada
encoding = embedding_generator.tokenizer(
    contents,
    return_tensors="pt",
    padding=True,  # Padding dinâmico
    truncation=True
)

# Separar os encodings de volta para cada conjunto
encoding1 = {key: encoding[key][:num_content1] for key in encoding.keys()}
encoding2 = {key: encoding[key][num_content1:] for key in encoding.keys()}

# Converter para o dispositivo
input_ids1 = encoding1['input_ids'].to(embedding_generator.device)
attention_mask1 = encoding1['attention_mask'].to(embedding_generator.device)
input_ids2 = encoding2['input_ids'].to(embedding_generator.device)
attention_mask2 = encoding2['attention_mask'].to(embedding_generator.device)

# Obter embeddings
embeddings1 = embedding_generator.weights[input_ids1]
embeddings2 = embedding_generator.weights[input_ids2]

# Concatenar as duas sequências no eixo 1
embeddings = torch.stack([embeddings1, embeddings2], dim=1)  # (batch_size, 2, seq_length, vector_size)

# Calcular comprimentos
lengths1 = attention_mask1.sum(dim=1)
lengths2 = attention_mask2.sum(dim=1)
lengths = torch.stack([lengths1, lengths2], dim=1)  # (batch_size, 2)

# Converter targets
targets = torch.tensor(df_training['target_transformed'], dtype=torch.float16)  # (batch_size,)

for i in range(100): 
	print(embeddings[i].shape)

In [None]:
import matplotlib.pyplot as plt

plt.hist(df_training['target_transformed'], bins=50, alpha=0.5, label='target_transformed')
plt.legend()
plt.show()

In [8]:
#  Converter DataLoader para iterador
data_iter = iter(train_dataloader)
# Pegar o primeiro lote
embeddings, lengths, targets = next(data_iter)
embeddings.shape

_fetch_data


torch.Size([4, 2, 396, 2048])

In [1]:
import torch
import gc

if not torch.cuda.is_available():
    print("CUDA is not available. Please ensure you have a compatible GPU and drivers installed.")
else:
    print(f"Using GPU: {torch.cuda.get_device_name(0)}")

Using GPU: NVIDIA GeForce RTX 3050 Laptop GPU


In [1]:
import torch
import numpy as np
from transformers import AutoTokenizer
import os

# Definir paralelismo corretamente
os.environ["TOKENIZERS_PARALLELISM"] = "true"

class TextToEmbedding:
    def __init__(self, weights_path, num_ids=128256, vector_size=2048, device='cpu'):
        """
        Inicializa a classe TextToEmbedding sem padding fixo.

        Args:
            weights_path (str): Caminho para o arquivo .npy que contém os pesos.
            num_ids (int, opcional): Número total de IDs. Padrão é 128256.
            vector_size (int, opcional): Tamanho de cada vetor de embedding. Padrão é 2048.
            device (str, opcional): Dispositivo para carregar os tensores ('cpu' ou 'cuda'). Padrão é 'cpu'.
        """
		
        self.device = device

        # Carrega o tokenizer sem padding fixo
        self.tokenizer = AutoTokenizer.from_pretrained("unsloth/Llama-3.2-1B", use_fast=True)
        
        # Carrega os pesos a partir do arquivo .npy
        try:
            weights_np = np.load(weights_path)
            self.weights = torch.from_numpy(weights_np).to(self.device)
        except FileNotFoundError:
            raise FileNotFoundError(f"O arquivo de pesos '{weights_path}' não foi encontrado.")
        except Exception as e:
            raise RuntimeError(f"Erro ao carregar os pesos: {e}")
        
        # Verifica a forma dos pesos
        if self.weights.shape != (num_ids, vector_size):
            raise ValueError(f"O formato do arquivo weights.npy é {self.weights.shape}, mas era esperado {(num_ids, vector_size)}.")

embedding_generator = TextToEmbedding("weights_half.npy", device='cpu')

In [2]:
import pandas as pd
import torch
from torch.utils.data import Dataset

class SequenceDataset_val(Dataset):
	def __init__(self, df):
		self.df = df.reset_index(drop=True)

		# Defina o número de elementos originais em cada coluna
		num_content1 = len(df['content1'])

		# Combinar as duas colunas de conteúdo em uma lista
		contents = list(df['content1']) + list(df['content2'])

		# Tokenização combinada
		encoding = embedding_generator.tokenizer(
			contents,
			return_tensors="pt",
			padding=True,  # Padding dinâmico
			truncation=True
		)

		# Separar os encodings de volta para cada conjunto
		encoding1 = {key: encoding[key][:num_content1] for key in encoding.keys()}
		encoding2 = {key: encoding[key][num_content1:] for key in encoding.keys()}
		
		# Converter para o dispositivo
		input_ids1 = encoding1['input_ids'].to(embedding_generator.device)
		attention_mask1 = encoding1['attention_mask'].to(embedding_generator.device)
		input_ids2 = encoding2['input_ids'].to(embedding_generator.device)
		attention_mask2 = encoding2['attention_mask'].to(embedding_generator.device)
		
		# Obter embeddings
		embeddings1 = embedding_generator.weights[input_ids1]
		embeddings2 = embedding_generator.weights[input_ids2]
		
		# Concatenar as duas sequências no eixo 1
		self.embeddings = torch.stack([embeddings1, embeddings2], dim=1)  # (batch_size, 2, seq_length, vector_size)
		
		# Calcular comprimentos
		lengths1 = attention_mask1.sum(dim=1)
		lengths2 = attention_mask2.sum(dim=1)
		self.lengths = torch.stack([lengths1, lengths2], dim=1)  # (batch_size, 2)

		# Converter targets
		self.targets = torch.tensor(df['target_transformed'], dtype=torch.float16)  # (batch_size,)

	def __len__(self):
		return len(self.df)
	
	def __getitem__(self,idx):
		return self.embeddings[idx], self.lengths[idx], self.targets[idx]

In [3]:
import torch
from torch.utils.data import IterableDataset, DataLoader
import duckdb
from tqdm import tqdm
import pandas as pd

# Paths to the databases
db1_path = 'fineweb.duckdb'
db2_path = 'books.duckdb'
batch_size = 80

class IterableSequenceDataset(IterableDataset):
	def __init__(self, db1_path, db2_path, batch_size=100):
		super(IterableSequenceDataset, self).__init__()
		self.db1_path = db1_path
		self.db2_path = db2_path
		self.batch_size = batch_size

	def _fetch_data(self, conn):
		query = f"""
			WITH combined_dataset AS (
				SELECT * FROM main.dataset
				UNION ALL
				SELECT * FROM db2.dataset
			),
			sampled_a AS (
				SELECT id, indice, content, name
				FROM (
					SELECT
						id,
						indice,
						content,
						name,
						ROW_NUMBER() OVER (PARTITION BY name ORDER BY RANDOM()) AS rn
					FROM combined_dataset
				) sub
				WHERE rn <= 1
			),
			sampled_b AS (
				SELECT id, indice, content, name
				FROM (
					SELECT
						id,
						indice,
						content,
						name,
						ROW_NUMBER() OVER (PARTITION BY name ORDER BY RANDOM()) AS rn
					FROM combined_dataset
				) sub
				WHERE rn <= 1
			)
			SELECT
				a.name AS name,
				a.content AS content1,
				b.content AS content2,
				SIGN(a.indice - b.indice) * LN(1 + ABS(a.indice - b.indice)) AS target_transformed
			FROM sampled_a a
			JOIN sampled_b b
				ON a.name = b.name
			ORDER BY RANDOM()
			LIMIT {self.batch_size};
		"""
		df = conn.execute(query).df()

		# Defina o número de elementos originais em cada coluna
		num_content1 = len(df['content1'])

		# Combinar as duas colunas de conteúdo em uma lista
		contents = list(df['content1']) + list(df['content2'])

		# Tokenização combinada
		encoding = embedding_generator.tokenizer(
			contents,
			return_tensors="pt",
			padding=True,  # Padding dinâmico
			truncation=True
		)

		# Separar os encodings de volta para cada conjunto
		encoding1 = {key: encoding[key][:num_content1] for key in encoding.keys()}
		encoding2 = {key: encoding[key][num_content1:] for key in encoding.keys()}

		# Converter para o dispositivo
		input_ids1 = encoding1['input_ids'].to(embedding_generator.device)
		attention_mask1 = encoding1['attention_mask'].to(embedding_generator.device)
		input_ids2 = encoding2['input_ids'].to(embedding_generator.device)
		attention_mask2 = encoding2['attention_mask'].to(embedding_generator.device)

		# Obter embeddings
		embeddings1 = embedding_generator.weights[input_ids1]
		embeddings2 = embedding_generator.weights[input_ids2]

		# Concatenar as duas sequências no eixo 1
		embeddings = torch.stack([embeddings1, embeddings2], dim=1)  # (batch_size, 2, seq_length, vector_size)

		# Calcular comprimentos
		lengths1 = attention_mask1.sum(dim=1)
		lengths2 = attention_mask2.sum(dim=1)
		lengths = torch.stack([lengths1, lengths2], dim=1)  # (batch_size, 2)

		# Converter targets
		targets = torch.tensor(df['target_transformed'], dtype=torch.float16)  # (batch_size,)

		return embeddings,lengths,targets

	def __iter__(self):
		"""
		Iterator que gera dados continuamente.

		Yields:
			tuple: (content1, content2, target) para cada amostra.
		"""
		# Estabelecer conexão com DuckDB
		conn = duckdb.connect(database=self.db1_path, read_only=True)
		conn.execute("SET enable_progress_bar=false")
		
		# Anexar o segundo banco de dados com um alias 'db2'
		conn.execute(f"ATTACH '{self.db2_path}' AS db2")

		try:
			while True:
				embeddings,lengths,targets = self._fetch_data(conn)
				for i in range(batch_size): 
					yield embeddings[i], lengths[i], targets[i]
		finally:
			# Garantir que a conexão seja fechada quando o iterador for finalizado
			conn.close()

In [4]:
import numpy as np

def signed_log_transform(y):
    return np.sign(y) * np.log1p(np.abs(y))

def inverse_signed_log_transform(y_transformed):
    return np.sign(y_transformed) * (np.expm1(np.abs(y_transformed)))

def dissimilaridade(S):
	epsilon = 0
	if S == 0:
		max_x = np.log(np.finfo(np.float32).max)
		epsilon = (1/(max_x-1))
        
	return (1 - (S+epsilon)) / (S+epsilon)

In [5]:
import pandas as pd

data = {
    'target_transformed': [1.0]*50,
    "content1": ["A tempestade durou várias horas durante a noite.", "Ele estudou intensamente para o exame.", "A fábrica reduziu a emissão de poluentes.", "Maria começou a praticar exercícios regularmente.", "O motor do carro parou de funcionar.", "Houve uma forte seca na região.", "Ela começou a dormir melhor.", "A escola adotou uma alimentação saudável.", "O projeto teve apoio governamental.", "A internet caiu durante a reunião.", "Ele começou a economizar dinheiro mensalmente.", "A estrada estava em péssimo estado de conservação.", "O sistema de ar condicionado foi desligado no escritório.", "A empresa investiu em marketing digital.", "Ana não revisou o relatório antes de enviar.", "As crianças brincaram no parque até tarde.", "O curso de capacitação foi oferecido aos funcionários.", "Ele comprou um celular novo com câmera de alta qualidade.", "A reforma no prédio foi concluída.", "A região teve um crescimento populacional rápido.", "Carla começou a meditar diariamente.", "O atleta intensificou seu treino antes da competição.", "O sinal de celular na região foi ampliado.", "As temperaturas caíram drasticamente durante o inverno.", "Ele não configurou o alarme antes de dormir.", "A empresa ofereceu benefícios extras para seus funcionários.", "Houve um vazamento de gás na cozinha do restaurante.", "A biblioteca da escola foi modernizada com novos livros e tecnologia.", "Marcos passou a fazer pausas regulares durante o expediente.", "A empresa desenvolveu um aplicativo intuitivo para clientes.", "Devido ao aumento das chuvas nas últimas semanas, o nível dos rios subiu rapidamente e ultrapassou a capacidade das barragens.", "Ela decidiu começar uma rotina de alimentação balanceada, exercícios físicos regulares e meditação diária para melhorar sua saúde física e mental.", "A empresa, que sofria com baixos índices de produtividade, implementou uma nova estratégia de gestão focada no desenvolvimento dos funcionários e na cultura organizacional.", "O governo lançou um programa nacional de reciclagem e incentivou a participação ativa dos cidadãos por meio de campanhas de conscientização em escolas, empresas e residências.", "Após uma longa estiagem que afetou grande parte do território agrícola do país, o governo implementou um pacote emergencial de apoio aos agricultores, incluindo subsídios e incentivos para a recuperação das lavouras.", "Ele deixou o celular carregando a noite inteira sem usar carregadores de segurança e em um local sem ventilação.", "A comunidade local se uniu para limpar e revitalizar a praça abandonada, que estava sem manutenção há anos e havia se tornado um ponto de descarte irregular de lixo.", "Durante a reforma do prédio, descobriu-se que a estrutura tinha falhas graves, e o prazo para conclusão foi ampliado em seis meses para garantir a segurança.", "Um furacão atingiu a região costeira do país, com ventos de mais de 200 km/h, causando destruição em várias cidades e deixando milhares de pessoas desabrigadas.", "Ela esqueceu de regar a planta de sua varanda durante o mês todo, e o clima estava seco.", "João quebrou o braço jogando futebol.", "Devido a uma combinação de fatores climáticos extremos, incluindo ventos fortes e chuvas intensas, a região sofreu graves danos estruturais e interrupção no fornecimento de energia elétrica por vários dias.", "Ela esqueceu de levar o guarda-chuva.", "A empresa adotou práticas sustentáveis em sua produção, reduzindo o uso de plástico e implementando programas de reciclagem.", "A criança se recusou a comer legumes durante toda a semana.", "Após anos de pesquisa e desenvolvimento, a equipe científica finalmente descobriu um método eficiente para produzir energia limpa a partir de fontes renováveis.", "O café da manhã foi esquecido.", "A iniciativa comunitária organizou mutirões de limpeza nas praias locais regularmente durante o verão.", "Ele atualizou seu currículo e participou de várias entrevistas de emprego nos últimos meses.", "O artista decidiu experimentar novas técnicas em suas pinturas, incorporando elementos digitais e materiais reciclados em suas obras."],
    "content2": ["Pela manhã, muitas ruas estavam alagadas.", "Conseguiu uma nota alta na prova.", "A qualidade do ar na cidade melhorou.", "Ela perdeu peso e aumentou sua energia.", "Ele teve que chamar o guincho para levar o carro à oficina.", "As plantações foram prejudicadas, e a colheita foi menor.", "Sua disposição durante o dia melhorou significativamente.", "Os alunos passaram a ter mais energia e melhor concentração.", "Conseguiu concluir as fases iniciais rapidamente.", "A comunicação com a equipe foi interrompida.", "Conseguiu juntar uma quantia para uma viagem.", "O trânsito ficou mais lento e perigoso para os motoristas.", "O ambiente ficou quente e desconfortável para os funcionários.", "As vendas aumentaram significativamente.", "O documento continha erros e precisou ser corrigido.", "Elas ficaram cansadas e dormiram rapidamente ao chegar em casa.", "Eles melhoraram suas habilidades e eficiência no trabalho.", "Passou a tirar fotos mais nítidas e de melhor resolução.", "O local ficou mais seguro e esteticamente agradável.", "A demanda por moradias e serviços aumentou consideravelmente.", "Ela sentiu uma melhora no seu foco e redução do estresse.", "Teve um melhor desempenho e conquistou o primeiro lugar.", "A conexão ficou mais estável e acessível para os moradores.", "A procura por agasalhos e cobertores aumentou nas lojas.", "Acabou se atrasando para o trabalho na manhã seguinte.", "A satisfação e motivação dos colaboradores aumentaram.", "O local foi evacuado por segurança, e o serviço foi interrompido temporariamente.", "Os alunos começaram a frequentá-la mais e a melhorar seu desempenho acadêmico.", "Ele se sentiu mais produtivo e menos cansado ao final do dia.", "O número de usuários aumentou rapidamente.", "Diversas áreas urbanas e rurais foram afetadas por inundações, forçando muitas famílias a deixarem suas casas temporariamente.", "Em poucos meses, notou uma grande melhora em sua disposição, concentração e níveis de energia, além de perder peso.", "Em menos de um ano, a moral da equipe melhorou, a rotatividade diminuiu, e a produtividade geral aumentou em cerca de 30%.", "Como resultado, houve uma redução significativa na quantidade de resíduos sólidos em aterros e uma maior economia de recursos naturais.", "Em um ano, a produção agrícola voltou a níveis estáveis, e o impacto econômico negativo foi mitigado, beneficiando a população.", "Pela manhã, o dispositivo estava superaquecido e apresentou danos permanentes na bateria, reduzindo sua capacidade de funcionamento.", "Com a revitalização, a praça voltou a ser um local de encontro para moradores, e a segurança da área também melhorou.", "Apesar do atraso, a reforma resultou em um edifício mais seguro, confortável e com um aumento significativo no valor do imóvel.", "A resposta emergencial foi mobilizada rapidamente, com abrigos temporários e ajuda humanitária distribuída para minimizar o impacto nas vítimas.", "A planta murchou completamente e, infelizmente, não conseguiu ser recuperada, tendo que ser substituída.", "Ele ficou impossibilitado de trabalhar por duas semanas.", "A comunidade teve que recorrer a abrigos temporários, e a economia local sofreu uma queda significativa devido à paralisação das atividades comerciais.", "Ficou molhada durante o trajeto para o trabalho.", "A reputação da empresa melhorou, atraindo consumidores conscientes e aumentando as vendas em 20%.", "Sua mãe ficou preocupada com a falta de nutrientes na alimentação dele e decidiu consultar um nutricionista.", "Isso resultou na redução significativa das emissões de carbono e no avanço tecnológico sustentável, beneficiando o meio ambiente globalmente.", "Ela sentiu fome e falta de energia durante a manhã de trabalho.", "As praias ficaram mais limpas e atraentes para turistas, além de promover a conscientização ambiental entre os moradores.", "Finalmente recebeu uma oferta de trabalho em uma empresa renomada, melhorando sua estabilidade financeira.", "Suas peças ganharam destaque em exposições internacionais, ampliando seu reconhecimento e alcance no mercado de arte."]
}

# Crie o DataFrame
df_validation = pd.DataFrame(data)

# Adicionar frases iguais
df_zero = pd.DataFrame({
    'target_transformed': [0.0] * len(data['target_transformed']),
    'content1': df_validation['content1'],
    'content2': df_validation['content1']
})

# Adicionar frases com a ordem contrária
df_reversed = pd.DataFrame({
    'target_transformed': [-1.0] * len(data['target_transformed']),
    'content1': df_validation['content2'],
    'content2': df_validation['content1']
})

# Concatenar os dois DataFrames
df_validation = pd.concat([df_zero, df_validation, df_reversed], ignore_index=True)

df_validation

Unnamed: 0,target_transformed,content1,content2
0,0.0,A tempestade durou várias horas durante a noite.,A tempestade durou várias horas durante a noite.
1,0.0,Ele estudou intensamente para o exame.,Ele estudou intensamente para o exame.
2,0.0,A fábrica reduziu a emissão de poluentes.,A fábrica reduziu a emissão de poluentes.
3,0.0,Maria começou a praticar exercícios regularmente.,Maria começou a praticar exercícios regularmente.
4,0.0,O motor do carro parou de funcionar.,O motor do carro parou de funcionar.
...,...,...,...
145,-1.0,Isso resultou na redução significativa das emi...,"Após anos de pesquisa e desenvolvimento, a equ..."
146,-1.0,Ela sentiu fome e falta de energia durante a m...,O café da manhã foi esquecido.
147,-1.0,As praias ficaram mais limpas e atraentes para...,A iniciativa comunitária organizou mutirões de...
148,-1.0,Finalmente recebeu uma oferta de trabalho em u...,Ele atualizou seu currículo e participou de vá...


In [6]:
import torch.nn as nn

def collate_fn(batch):
    embeddings, lengths, targets = zip(*batch)
    return torch.stack(embeddings).to(torch.float32), torch.stack(lengths), torch.stack(targets).to(torch.float32)

In [None]:
training_dataset = IterableSequenceDataset(db1_path, db2_path)
train_dataloader = DataLoader(
  training_dataset, 
  batch_size=batch_size, 
  num_workers=0,
  collate_fn=collate_fn,
  pin_memory=False,
  shuffle=False,
  #persistent_workers=True
)

validation_dataset = SequenceDataset_val(df_validation)
validation_dataloader = DataLoader(
    validation_dataset,
    batch_size=150,
    shuffle=False,
    num_workers=0,
    pin_memory=False,
    collate_fn=collate_fn
)

In [8]:
import torch
import torch.nn as nn
from torch.nn.utils.rnn import pack_padded_sequence

class SequenceToTwoModel(nn.Module):
    def __init__(self, input_size=2048, hidden_size=128, num_layers=3):
        super(SequenceToTwoModel, self).__init__()
        self.hidden_size = hidden_size
        self.num_layers = num_layers

        # LSTM compartilhado para ambas as sequências
        self.shared_lstm = nn.LSTM(
            input_size=input_size,
            hidden_size=hidden_size,
            num_layers=num_layers,
            batch_first=True,
            bidirectional=True,
            dropout=0.1
        )

        # Camadas totalmente conectadas após concatenar as saídas do LSTM compartilhado para ambas as sequências
        self.fc1 = nn.Linear(hidden_size * 4, 64)  # hidden_size * 2 para cada sequência
        self.leaky_relu = nn.LeakyReLU(inplace=True)
        self.fc2 = nn.Linear(64, 1)

    def forward(self, sequences, lengths):
        """
        Passagem para frente do modelo.

        Args:
            sequences (Tensor): Tensor de embeddings de forma (batch_size, 2, seq_len, input_size)
            lengths (Tensor): Tensor de comprimentos de forma (batch_size, 2)

        Returns:
            Tensor: Previsões do modelo de forma (batch_size,)
        """
        batch_size = sequences.size(0)
        seq_len = sequences.size(2)
        input_size = sequences.size(3)

        # Combinar as duas sequências ao longo da dimensão do batch
        combined_sequences = sequences.view(batch_size * 2, seq_len, input_size)
        combined_lengths = lengths.view(batch_size * 2)

        # Processar as sequências combinadas através do LSTM compartilhado
        lstm_out = self.process_sequence(combined_sequences, combined_lengths)  # (batch_size * 2, hidden_size * 2)

        # Reorganizar a saída para separar as sequências
        lstm_out = lstm_out.view(batch_size, 2, self.hidden_size * 2)

        # Concatenar as saídas das duas sequências
        combined = lstm_out.view(batch_size, -1)  # (batch_size, hidden_size * 4)

        # Passar pelas camadas totalmente conectadas
        out = self.fc1(combined)
        out = self.leaky_relu(out)
        out = self.fc2(out)

        return out.squeeze()
        
    def process_sequence(self, sequence, length):
        """
        Processa uma única sequência através do LSTM compartilhado e retorna o último estado oculto concatenado.

        Args:
            sequence (Tensor): Tensor de forma (batch_size, seq_len, input_size)
            length (Tensor): Tensor de forma (batch_size,)

        Returns:
            Tensor: Saída concatenada do último estado oculto de ambas as direções (batch_size, hidden_size * 2)
        """
        # Ordenar as sequências por comprimento decrescente
        lengths_sorted, sorted_idx = length.sort(0, descending=True)
        sequence_sorted = sequence[sorted_idx]

        # Empacotar as sequências
        packed_seq = pack_padded_sequence(sequence_sorted, lengths_sorted.cpu(), batch_first=True, enforce_sorted=True)

        # Passar pelo LSTM
        packed_output, (h_n, c_n) = self.shared_lstm(packed_seq)

        # h_n: (num_layers * num_directions, batch, hidden_size)
        num_directions = 2  # Bidirecional

        # Reorganizar h_n para (num_layers, num_directions, batch, hidden_size)
        h_n = h_n.view(self.num_layers, num_directions, sequence.size(0), self.hidden_size)

        # Selecionar o último layer
        last_layer_h_n = h_n[-1]  # (num_directions, batch, hidden_size)

        # Concatenar as direções
        gru_out = torch.cat((last_layer_h_n[0], last_layer_h_n[1]), dim=1)  # (batch, hidden_size * 2)

        # Restaurar a ordem original do batch
        _, original_idx = sorted_idx.sort(0, descending=False)
        gru_out = gru_out[original_idx]

        return gru_out

In [9]:
# Inicializa o modelo, critério de perda e otimizador
model = SequenceToTwoModel().to('cuda')
#criterion = nn.MSELoss()
criterion = nn.HuberLoss()

optimizer = torch.optim.Adam(
    model.parameters(), lr=1e-3, weight_decay=1e-6)

# Inicializar o scheduler ReduceLROnPlateau
scheduler = torch.optim.lr_scheduler.ReduceLROnPlateau(
    optimizer, mode='min', factor=0.5, patience=1, verbose=True
)

# Inicializar o contador de passos
step = 0
steps_per_epoch = 10  # Número de batches por época
validation_steps = None  # Se você deseja limitar os passos de validação, defina um número inteiro
num_epochs = 10
# Inicializar o contador de passos
step = 0
from torch.utils.tensorboard import SummaryWriter



In [None]:
# Inicializar o writer do TensorBoard
writer = SummaryWriter('runs/treinamento_regressao_rnn')

# Envolver o loop de épocas com tqdm para mostrar o progresso das épocas
epoch_progress = tqdm(range(num_epochs), desc='Treinamento', unit='época')

for epoch in epoch_progress:
	epoch_progress.set_description(f'Época {epoch+1}/{num_epochs}')

	print("Treinamento")
	model.train()
	train_loss = 0.0

	# Criar um iterador a partir do dataloader
	train_iterator = iter(train_dataloader)

	# Usar tqdm para o progresso dentro da época
	batch_progress = tqdm(range(steps_per_epoch), desc='Treinando', leave=False, unit='batch')

	for _ in batch_progress:
		try:
			embeddings, lengths, targets = next(train_iterator)
		except StopIteration:
			# Reiniciar o iterador se necessário
			train_iterator = iter(train_dataloader)
			embeddings, lengths, targets = next(train_iterator)

		print(embeddings.shape)
		embeddings = embeddings.to('cuda') # (batch_size, 2, seq_len, vector_size)
		lengths = lengths.to('cuda') # (batch_size, 2)
		targets = targets.to('cuda') # (batch_size,)
	
		optimizer.zero_grad()

		# Forward pass
		outputs = model(embeddings, lengths)
		loss = criterion(outputs, targets)

		# Backward pass e otimização
		loss.backward()
		optimizer.step()

		train_loss += loss.item() * targets.size(0)

		# Registrar a perda de treinamento a cada passo
		writer.add_scalar('Perda_Treinamento_Passo', loss.item(), step)
		step += 1

	avg_train_loss = train_loss / (steps_per_epoch * batch_size)

	# Validação
	model.eval()
	validation_loss = 0.0
	correct_sign = 0
	total = 0

	with torch.no_grad():
		for embeddings, lengths, targets in validation_dataloader:
			print(embeddings.shape)
			embeddings = embeddings.to('cuda') # (batch_size, 2, seq_len, vector_size)
			lengths = lengths.to('cuda') # (batch_size, 2)
			targets = targets.to('cuda') # (batch_size,)

			# Forward pass
			outputs = model(embeddings, lengths)
			loss = criterion(outputs, targets)
			validation_loss += loss.item() * targets.size(0)

			# Considerar apenas os alvos positivos ou negativos
			non_zero_mask = targets != 0
			if non_zero_mask.sum().item() == 0:
				continue  # Pular se não houver alvos diferentes de zero

			predicted_sign = torch.sign(outputs)[non_zero_mask]
			target_sign = torch.sign(targets)[non_zero_mask]

			# Calcular acertos onde os sinais correspondem
			correct_sign += (predicted_sign == target_sign).sum().item()
			total += non_zero_mask.sum().item()

	# Evitar divisão por zero
	if total > 0:
		sign_accuracy = correct_sign / total
	else:
		sign_accuracy = 0.0

	avg_validation_loss = validation_loss / len(validation_dataloader.dataset)

	# Registrar as métricas de validação por época
	writer.add_scalar('Perda_Validação_Epoca', avg_validation_loss, epoch+1)
	writer.add_scalar('Acurácia_Sinal_Validação', sign_accuracy, epoch+1)

	# Passar a perda de validação para o scheduler
	scheduler.step(avg_validation_loss)

	# Registrar a taxa de aprendizado atual (opcional)
	current_lr = optimizer.param_groups[0]['lr']
	writer.add_scalar('Taxa_Aprendizado', current_lr, epoch+1)

	# Atualizar a descrição da barra com as perdas atuais e acurácia do sinal
	epoch_progress.set_postfix({
		'Perda Treinamento': f'{avg_train_loss:.3f}',
		'Perda Validação': f'{avg_validation_loss:.3f}',
		'Acurácia Sinal': f'{sign_accuracy*100:.2f}%',
		'LR': f'{current_lr:.8f}'
	})

	# Liberar cache da GPU após cada época
	torch.cuda.empty_cache()

# Fechar o SummaryWriter ao final do treinamento
writer.close()

In [None]:
import pytorch_lightning as pl

class SequenceToTwoLightning(pl.LightningModule):
	def __init__(self, input_size=2048, hidden_size=128, num_layers=3, lr=1e-3):
		super(SequenceToTwoLightning, self).__init__()
		self.save_hyperparameters()

		# Instanciar o modelo modificado
		self.model = SequenceToTwoModel(
			input_size=input_size,
			hidden_size=hidden_size,
			num_layers=num_layers
		)

		# Função de perda
		self.criterion = nn.HuberLoss()

	def forward(self, sequences, lengths):
		return self.model(sequences, lengths)

	def training_step(self, batch, batch_idx):
		embeddings, lengths, targets = batch  # embeddings: (batch_size, 2, seq_len, vector_size)
		#print("training_step",embeddings.shape,lengths.shape,targets.shape)
		
		# Mover tensores para o dispositivo correto
		embeddings = embeddings.to(self.device)  # (batch_size, 2, seq_len, vector_size)
		lengths = lengths.to(self.device) # (batch_size, 2)
		targets = targets.to(self.device) # (batch_size,)

		# Passagem para frente
		outputs = self(embeddings, lengths) # (batch_size,)

		# Computar a perda
		loss = self.criterion(outputs, targets)

		# Logar a perda de treinamento
		self.log('train_loss', loss, on_step=True, on_epoch=True, prog_bar=True, logger=True)
		return loss

	def validation_step(self, batch, batch_idx):
		embeddings, lengths, targets = batch
		#print("validation_step",embeddings.shape,lengths.shape,targets.shape)

		# Mover tensores para o dispositivo correto
		embeddings = embeddings.to(self.device)
		lengths = lengths.to(self.device)
		targets = targets.to(self.device)

		# Passagem para frente
		outputs = self(embeddings, lengths)

		# Computar a perda
		loss = self.criterion(outputs, targets)

		# Logar a perda de validação
		self.log('val_loss', loss, on_step=False, on_epoch=True, prog_bar=True, logger=True)

	def configure_optimizers(self):
		optimizer = torch.optim.Adam(self.parameters(), lr=self.hparams.lr)
		return optimizer

In [None]:
from pytorch_lightning.callbacks import ModelCheckpoint

model = SequenceToTwoLightning()

# Definir callbacks, por exemplo, ModelCheckpoint
checkpoint_callback = ModelCheckpoint(
    monitor='val_loss',
    dirpath='checkpoints',
    filename='best-checkpoint',
    save_top_k=1,
    mode='min'
)

# Instanciar o Trainer
trainer = pl.Trainer(
    max_epochs=10,
    precision=16,                            # Usa precisão de 16 bits se desejado
    accelerator='auto',                      
    devices=1 if torch.cuda.is_available() else None,
    callbacks=[checkpoint_callback],
    accumulate_grad_batches=1,               # Ajuste se usar acumulação de gradientes
    log_every_n_steps=50,                    # Ajuste a frequência de log
    deterministic=True,                       # Para reprodutibilidade
    limit_train_batches=10,
    profiler="simple",
    logger=False
)

# Iniciar o treinamento
trainer.fit(
    model,
    train_dataloaders=train_dataloader, #IterableDataset
    val_dataloaders=validation_dataloader #Dataset
)

/home/jadson/anaconda3/envs/pytorch/lib/python3.12/site-packages/lightning_fabric/connector.py:571: `precision=16` is supported for historical reasons but its usage is discouraged. Please set your precision to 16-mixed instead!
Using 16bit Automatic Mixed Precision (AMP)
GPU available: True (cuda), used: True
TPU available: False, using: 0 TPU cores
HPU available: False, using: 0 HPUs
You are using a CUDA device ('NVIDIA GeForce RTX 3050 Laptop GPU') that has Tensor Cores. To properly utilize them, you should set `torch.set_float32_matmul_precision('medium' | 'high')` which will trade-off precision for performance. For more details, read https://pytorch.org/docs/stable/generated/torch.set_float32_matmul_precision.html#torch.set_float32_matmul_precision
/home/jadson/anaconda3/envs/pytorch/lib/python3.12/site-packages/pytorch_lightning/callbacks/model_checkpoint.py:654: Checkpoint directory /home/jadson/Documentos/Tempo-nas-Narrativas/checkpoints exists and is not empty.
LOCAL_RANK: 0 - 

Sanity Checking: |          | 0/? [00:00<?, ?it/s]

/home/jadson/anaconda3/envs/pytorch/lib/python3.12/site-packages/pytorch_lightning/trainer/connectors/data_connector.py:424: The 'val_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=19` in the `DataLoader` to improve performance.


training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])


/home/jadson/anaconda3/envs/pytorch/lib/python3.12/site-packages/pytorch_lightning/core/module.py:516: You called `self.log('val_loss', ..., logger=True)` but have no logger configured. You can enable one by doing `Trainer(logger=ALogger(...))`
/home/jadson/anaconda3/envs/pytorch/lib/python3.12/site-packages/pytorch_lightning/trainer/connectors/data_connector.py:424: The 'train_dataloader' does not have many workers which may be a bottleneck. Consider increasing the value of the `num_workers` argument` to `num_workers=19` in the `DataLoader` to improve performance.


Training: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([80, 2, 376, 2048]) torch.Size([80, 2]) torch.Size([80])


/home/jadson/anaconda3/envs/pytorch/lib/python3.12/site-packages/pytorch_lightning/core/module.py:516: You called `self.log('train_loss', ..., logger=True)` but have no logger configured. You can enable one by doing `Trainer(logger=ALogger(...))`


training_step torch.Size([80, 2, 180, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 197, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 250, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 211, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 363, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 410, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 246, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 399, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 339, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 174, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 408, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 312, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 455, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 289, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 259, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 198, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 207, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 372, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 210, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 390, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 383, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 450, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 106, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 421, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 208, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 203, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 407, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 213, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 390, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 215, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 402, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 246, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 233, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 437, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 324, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 454, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 202, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 343, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 402, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 380, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 235, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 340, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 194, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 355, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 216, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 432, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 421, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 381, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 390, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 396, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 424, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 375, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 202, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 398, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 416, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 226, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 375, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 217, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 197, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 411, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 350, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 380, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 225, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 396, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 326, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 413, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 204, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 389, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 226, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 403, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 368, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 200, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 458, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 201, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 316, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 377, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 178, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 371, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 227, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 495, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 391, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 171, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 196, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 388, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 207, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 383, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 390, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 403, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 426, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])
training_step torch.Size([80, 2, 198, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 194, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 233, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 224, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 216, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 145, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 216, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 403, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 374, 2048]) torch.Size([80, 2]) torch.Size([80])
training_step torch.Size([80, 2, 385, 2048]) torch.Size([80, 2]) torch.Size([80])


Validation: |          | 0/? [00:00<?, ?it/s]

`Trainer.fit` stopped: `max_epochs=10` reached.


training_step torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])


FIT Profiler Report

----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
|  Action                                                                                                                                                               	|  Mean duration (s)	|  Num calls      	|  Total time (s) 	|  Percentage %   	|
----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------
|  Total                                                                                                                                                                	|  -       

In [11]:
import os
import torch
import torch.nn as nn
from tqdm import tqdm

# Função para Salvar Checkpoints
def save_checkpoint(state, is_best, checkpoint_dir='checkpoints', filename='checkpoint.pth'):
    os.makedirs(checkpoint_dir, exist_ok=True)
    filepath = os.path.join(checkpoint_dir, filename)
    torch.save(state, filepath)
    if is_best:
        best_filepath = os.path.join(checkpoint_dir, 'best_checkpoint.pth')
        torch.save(state, best_filepath)

# Função de Treinamento
def train(model, device, train_loader, optimizer, criterion):
    model.train()
    running_loss = 0.0
    for batch_idx, (embeddings, lengths, targets) in enumerate(tqdm(train_loader, desc="Train")):
        embeddings = embeddings.to(device) # (batch_size, 2, seq_len, vector_size)
        lengths = lengths.to(device) # (batch_size, 2)
        targets = targets.to(device) # (batch_size,)

        optimizer.zero_grad()

        outputs = model(embeddings, lengths)          # (batch_size,)
        loss = criterion(outputs, targets)
        loss.backward()
        optimizer.step()

        running_loss += loss.item() * embeddings.size(0)

    epoch_loss = running_loss / len(train_loader.dataset)
    return epoch_loss

# Função de Validação
def validate(model, device, val_loader, criterion):
    model.eval()
    running_loss = 0.0
    with torch.no_grad():
        for batch_idx, (embeddings, lengths, targets) in enumerate(tqdm(val_loader, desc="Validation")):
            embeddings = embeddings.to(device)
            lengths = lengths.to(device)
            targets = targets.to(device)

            outputs = model(embeddings, lengths)
            loss = criterion(outputs, targets)

            running_loss += loss.item() * embeddings.size(0)

    epoch_loss = running_loss / len(val_loader.dataset)
    return epoch_loss


# Configurações
input_size = 2048
hidden_size = 128
num_layers = 3
lr = 1e-3
batch_size = 32
num_epochs = 10
checkpoint_dir = 'checkpoints'
best_val_loss = float('inf')

# Detectar dispositivo
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"Usando dispositivo: {device}")

# Instanciar o modelo, mover para o dispositivo
model = SequenceToTwoModel(input_size=input_size, hidden_size=hidden_size, num_layers=num_layers)
model.to(device)

# Definir a função de perda e o otimizador
criterion = nn.HuberLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=lr)

# Treinamento
for epoch in range(1, num_epochs + 1):
	print(f"\nEpoch {epoch}/{num_epochs}")

	train_loss = train(model, device, train_dataloader, optimizer, criterion)
	print(f"Perda de Treinamento: {train_loss:.4f}")

	val_loss = validate(model, device, validation_dataloader, criterion)
	print(f"Perda de Validação: {val_loss:.4f}")

	# Checkpointing
	is_best = val_loss < best_val_loss
	if is_best:
		best_val_loss = val_loss
		print(f"Nova melhor perda de validação: {best_val_loss:.4f}. Salvando modelo...")
		save_checkpoint({
			'epoch': epoch,
			'model_state_dict': model.state_dict(),
			'optimizer_state_dict': optimizer.state_dict(),
			'val_loss': val_loss,
		}, is_best, checkpoint_dir=checkpoint_dir)

	# (Opcional) Implementar lógica de early stopping, redução de lr, etc.
	# Exemplo de scheduler para reduzir a taxa de aprendizado se a validação não melhorar
	# scheduler.step(val_loss)

print("Treinamento concluído.")

Usando dispositivo: cuda

Epoch 1/10


Train: 0it [05:23, ?it/s]


KeyboardInterrupt: 

In [None]:
import os

# Diretório onde os modelos serão salvos
save_dir = './saved_fineweb2'
os.makedirs(save_dir, exist_ok=True)

# Salvando o estado do modelo
model_path = os.path.join(save_dir, 'regression_rnn_model.pth')
torch.save(model_order.state_dict(), model_path)
print(f"Modelo salvo em {model_path}")

# Opcional: Salvando o estado do otimizador
optimizer_path = os.path.join(save_dir, 'optimizer_state.pth')
torch.save(optimizer.state_dict(), optimizer_path)
print(f"Estado do otimizador salvo em {optimizer_path}")

# Opcional: Salvar a época atual para retomar o treinamento
epoch_path = os.path.join(save_dir, 'last_epoch.pth')
torch.save({'epoch': epoch, 'model_state_dict': model_order.state_dict(),
            'optimizer_state_dict': optimizer.state_dict(),
            'loss': avg_validation_loss}, epoch_path)
print(f"Checkpoint salvo em {epoch_path}")

In [None]:
import os
model_path = os.path.join('./saved_fineweb', 'regression_rnn_model.pth')

# Carregar o estado do modelo
model_order.load_state_dict(torch.load(model_path, map_location='cuda'))

# Colocar o modelo em modo de avaliação
#model_order.eval()

In [14]:
#  Converter DataLoader para iterador
data_iter = iter(validation_dataloader)
# Pegar o primeiro lote
embeddings, lengths, targets = next(data_iter)
print("validation_dataloader",embeddings.shape,lengths.shape,targets.shape)

validation_dataloader torch.Size([150, 2, 61, 2048]) torch.Size([150, 2]) torch.Size([150])


In [None]:
model.eval()

#embeddings = embeddings.to('cuda')
#lengths = lengths.to('cuda')
#targets = targets.to('cuda')
attention_mask2
# Realizar a previsão
with torch.no_grad():
	output = model(embeddings, lengths)
	
matches = (
	((targets == -1) & (output < -1.71)) |  # Regra para -1
	((targets == 0) & ((-1.71 < output) & (output < 1.71))) |  # Regra para 0
	((targets == 1) & (1.71 < output))     # Regra para 1
)

print(matches.float().mean())
	
# Imprimir os resultados da previsão
for i, pred in enumerate(output):
		print(f"Resultado da previsão para o par {i+1}: {pred.item()}")

tensor(0.3333)
Resultado da previsão para o par 1: -5.01230525970459
Resultado da previsão para o par 2: -4.987059593200684
Resultado da previsão para o par 3: -5.013754367828369
Resultado da previsão para o par 4: -5.006444931030273
Resultado da previsão para o par 5: -4.987059593200684
Resultado da previsão para o par 6: -4.987059593200684
Resultado da previsão para o par 7: -4.957428455352783
Resultado da previsão para o par 8: -5.010082244873047
Resultado da previsão para o par 9: -4.957428455352783
Resultado da previsão para o par 10: -4.999967575073242
Resultado da previsão para o par 11: -4.999967575073242
Resultado da previsão para o par 12: -5.010082244873047
Resultado da previsão para o par 13: -5.013754367828369
Resultado da previsão para o par 14: -4.878176689147949
Resultado da previsão para o par 15: -4.999967575073242
Resultado da previsão para o par 16: -5.006444931030273
Resultado da previsão para o par 17: -5.010082244873047
Resultado da previsão para o par 18: -5.012

In [67]:
from datasets import load_dataset
from scipy.stats import pearsonr, spearmanr
import torch

# Carregar o conjunto de dados de avaliação (STS Benchmark)
eval_dataset = load_dataset("sentence-transformers/stsb", split="validation")

# Listas para armazenar as pontuações reais e as previsões do modelo
true_scores = []
pred_scores = []

# Iterar sobre os exemplos no conjunto de dados
for example in eval_dataset:
    # Tokenização combinada
    encoding = embedding_generator.tokenizer(
        [example['sentence1'], example['sentence2']],
        return_tensors="pt",
        padding=True,  # Padding dinâmico
        truncation=True
    )

    # Converter para o dispositivo
    input_ids1 = encoding['input_ids'][0]
    attention_mask1 = encoding['attention_mask'][0]
    input_ids2 = encoding['input_ids'][1]
    attention_mask2 = encoding['attention_mask'][1]

    # Obter embeddings
    embeddings1 = embedding_generator.weights[input_ids1]
    embeddings2 = embedding_generator.weights[input_ids2]        
    
    # Concatenar as duas sequências no eixo 1
    embeddings = torch.stack([embeddings1, embeddings2]).float().unsqueeze(0)  # (batch_size, 2, seq_length, vector_size)
    
    # Calcular comprimentos
    lengths1 = attention_mask1.sum(dim=0)
    lengths2 = attention_mask2.sum(dim=0)
    lengths = torch.stack([lengths1, lengths2]).float().unsqueeze(0)  # (batch_size, 2)

    # Converter targets
    score = torch.tensor(example['score'], dtype=torch.float16).unsqueeze(0)  # (batch_size,)

    # Obter a previsão do modelo
    prediction = model(embeddings, lengths)
    pred_score = 1 / (1 + abs(prediction))

    # Armazenar as pontuações
    true_scores.append(score.item())
    pred_scores.append(pred_score.item())

# Calcular as métricas de correlação
pearson_corr, _ = pearsonr(true_scores, pred_scores)
spearman_corr, _ = spearmanr(true_scores, pred_scores)

print("Similaridade Inversa da Diferença Absoluta")
print(f"Correlação de Pearson: {pearson_corr:.4f}")
print(f"Correlação de Spearman: {spearman_corr:.4f}")

Similaridade Inversa da Diferença Absoluta
Correlação de Pearson: -0.0324
Correlação de Spearman: 0.0067


In [None]:
import torch
from datasets import load_dataset
from scipy.stats import pearsonr, spearmanr
from tqdm import tqdm  # Para acompanhar o progresso

# Carregar o conjunto de dados de avaliação (STS Benchmark)
eval_dataset = load_dataset("sentence-transformers/stsb", split="validation")

# Definir o intervalo de valores de k a serem testados
k_values = np.arange(0.001, 100.0, 0.01)
best_k = None
best_pearson = -1  # Inicialização com um valor baixo
best_spearman = -1

# Pré-computar todas as predições para evitar recalcular múltiplas vezes
true_scores = []
predictions = []

with torch.no_grad():
	for example in tqdm(eval_dataset, desc="Processando exemplos"):
		# Tokenização combinada
		encoding = embedding_generator.tokenizer(
			[example['sentence1'], example['sentence2']],
			return_tensors="pt",
			padding=True,  # Padding dinâmico
			truncation=True
		)

		# Converter para o dispositivo
		input_ids1 = encoding['input_ids'][0]
		attention_mask1 = encoding['attention_mask'][0]
		input_ids2 = encoding['input_ids'][1]
		attention_mask2 = encoding['attention_mask'][1]

		# Obter embeddings
		embeddings1 = embedding_generator.weights[input_ids1]
		embeddings2 = embedding_generator.weights[input_ids2]        
		
		# Concatenar as duas sequências no eixo 1
		embeddings = torch.stack([embeddings1, embeddings2]).float().unsqueeze(0)  # (batch_size, 2, seq_length, vector_size)
		
		# Calcular comprimentos
		lengths1 = attention_mask1.sum(dim=0)
		lengths2 = attention_mask2.sum(dim=0)
		lengths = torch.stack([lengths1, lengths2]).float().unsqueeze(0)  # (batch_size, 2)

		# Converter targets
		score = torch.tensor(example['score'], dtype=torch.float16).unsqueeze(0)  # (batch_size,)

		# Obter a previsão do modelo
		prediction = model(embeddings, lengths)
		predictions.append(prediction.item())

		# Armazenar as pontuações reais
		true_scores.append(score)

true_scores = np.array(true_scores)
predictions = np.array(predictions)

# Iterar sobre os valores de k para encontrar o melhor
for k in tqdm(k_values, desc="Buscando o melhor k"):
	pred_scores = np.exp(-k * np.abs(predictions))
	
	pearson_corr, _ = pearsonr(true_scores, pred_scores)
	spearman_corr, _ = spearmanr(true_scores, pred_scores)
	
	# Verificar se este k é o melhor até agora
	if pearson_corr > best_pearson:
		best_pearson = pearson_corr
		best_spearman = spearman_corr
		best_k = k

print("Similaridade Baseada em Exponencial")
print(f"Melhor valor de k: {best_k}")
print(f"Correlação de Pearson: {best_pearson:.4f}")
print(f"Correlação de Spearman: {best_spearman:.4f}")

Processando exemplos: 100%|██████████| 1500/1500 [00:08<00:00, 174.15it/s]
  pearson_corr, _ = pearsonr(true_scores, pred_scores)
Buscando o melhor k:   0%|          | 0/10000 [00:00<?, ?it/s]


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [None]:
import os
import torch
from sentence_transformers import SentenceTransformer, util
from datasets import load_dataset
from scipy.stats import pearsonr, spearmanr

# Verificar se CUDA está disponível
device = 'cuda' if torch.cuda.is_available() else 'cpu'

# Carregar o modelo SentenceTransformer
model = SentenceTransformer("all-mpnet-base-v2").to(device)

# Carregar o conjunto de dados de avaliação (STS Benchmark)
eval_dataset = load_dataset("sentence-transformers/stsb", split="validation")

# Listas para armazenar as pontuações reais e as previsões do modelo
true_scores = []
pred_scores = []

# Obter as sentenças e os escores do conjunto de dados
sentences1 = eval_dataset['sentence1']
sentences2 = eval_dataset['sentence2']
scores = eval_dataset['score']

# Processar uma frase por vez
for i in range(len(eval_dataset)):
    sentence1 = sentences1[i]
    sentence2 = sentences2[i]
    true_score = scores[i]

    # Gerar embeddings para ambas as sentenças individualmente
    embedding1 = model.encode(sentence1, convert_to_tensor=True, device=device, show_progress_bar=False)
    embedding2 = model.encode(sentence2, convert_to_tensor=True, device=device, show_progress_bar=False)

    # Calcular a similaridade cosseno
    cosine_score = util.cos_sim(embedding1, embedding2).item()

    # Escalar a similaridade cosseno de [-1, 1] para [0, 1]
    scaled_score = (cosine_score + 1) / 2

    # Armazenar as pontuações
    true_scores.append(true_score)
    pred_scores.append(scaled_score)

# Calcular as métricas de correlação
pearson_corr, _ = pearsonr(true_scores, pred_scores)
spearman_corr, _ = spearmanr(true_scores, pred_scores)

print(f"Correlação de Pearson: {pearson_corr:.4f}")
print(f"Correlação de Spearman: {spearman_corr:.4f}")

In [None]:
import os
model_path = os.path.join('./saved_HuberLoss', 'regression_rnn_model.pth')

# Carregar o estado do modelo
#model_order.load_state_dict(torch.load(model_path, map_location='cuda'))

# Colocar o modelo em modo de avaliação
model_order.eval()

# Realizar a previsão
with torch.no_grad():
    output = model_order(
        [text_to_embedding(
            "O aluno estudou para o exame durante a noite.").to('cuda')],
        [text_to_embedding("O resultado foi excelente devido à dedicação.").to('cuda')])

# Imprimir a saída da regressão
print("Resultado da previsão:", output.item())

In [None]:
del model_order  # Remove a referência ao modelo

# Libera a memória da GPU, se o modelo estiver usando CUDA
torch.cuda.empty_cache()

# Força a coleta de lixo
gc.collect()