<a href="https://colab.research.google.com/github/Dellos12/teste/blob/main/Untitled20.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
! pip install -q transformers datasets matplotlib scikit-learn

In [None]:

import torch
import torch.nn as nn
from transformers import AutoTokenizer, AutoModel
from datasets import load_dataset
from sklearn.manifold import TSNE
import matplotlib.pyplot as plt
import numpy as np

# Definindo o dispositivo (GPU se disponível)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Usando: {device}")

In [None]:
from transformers import AutoTokenizer, AutoModel

# 2. Carregar o Tokenizer e o Modelo Pré-treinado (BERTimbau)
model_name = "neuralmind/bert-base-portuguese-cased"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModel.from_pretrained(model_name).to(device)

# Criando dados de exemplo (Polos Positivos e Negativos) pra teste imediato
frases = [
    "Este produto é maravilhoso, superou as expectativas!", "Amei cada detalhe.",
    "Execelente atendimeto e qualidade impecável.", "Simplesmente incrível, recomendo muinto!",
    "Horrivel, o poduto veio quebrado e atrasou.", "Pior experiência de compra que já tive.",
    "Não funciona, dinheiro jogado fora.", "Atendimento péssimo e material de baixa qualidade."
]
# Labels: 1 para positivo, 0 negativo
labels = [1, 1, 1, 1, 0, 0, 0, 0]

In [None]:
# 3. Função para extrair os embeddings (vetores de 768 dimensôes)
def get_embeddings(text_list):
    model.eval()
    embeddings = []
    with torch.no_grad():
        for text in text_list:
            inputs = tokenizer(text, return_tensors="pt", padding=True, truncation=True, max_length=128).to(device)
            outputs = model(**inputs)
            cls_embedding = outputs.last_hidden_state[:, 0, :].cpu().numpy()
            embeddings.append(cls_embedding)
    return np.vstack(embeddings)

vetores = get_embeddings(frases)
print(f"Formato da matriz de embeddings: {vetores.shape}") # (8 frases, 768 dimensões)

In [None]:
# 4. Redução de dimensionalidade para observar a geometria
tsne = TSNE(n_components=2, perplexity=3, random_state=42, init='pca', learning_rate='auto')
vetores_2d = tsne.fit_transform(vetores)

# Plotagem
plt.figure(figsize=(10, 6))
for i, label in enumerate(labels):
    color = 'blue' if label == 1 else 'red'
    marker = 'o' if label == 1 else 'x'
    plt.scatter(vetores_2d[i, 0], vetores_2d[i, 1], c=color, marker=marker, s=100)
    plt.text(vetores_2d[i, 0] + 0.1, vetores_2d[i, 1] + 0.1, f"Frase {i}", fontsize=9)

plt.title("Visualização Geometrica: Polo Positivo (Azul) vs Negativo (Vermelho)")
plt.grid(True, linestyle= '--', alpha=0.6)
plt.show()


In [None]:
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

# 1. Preparação dos Tensores para o Trinamento
# Trandirmamos nossas frases e labels em tensores do pyTorch

inputs = tokenizer(frases, return_tensors="pt", padding=True, truncation=True, max_length=128).to(device)
labels_tensor = torch.tensor(labels).to(device)

# Adicionamos uma camada linear simples (Cabeça de Classificação) no topo do BERT
# Ela será responsável por encontra o hiperplano de separação
classifier = nn.Linear(768, 2).to(device)
optimizer = optim.Adam(list(model.parameters()) + list(classifier.parameters()), lr=2e-5)
criterion = nn.CrossEntropyLoss()

def plot_current_state(title):
    """Função para capturar e plotar o estado geométrico atual"""
    voteres_atuais = get_embeddings(frases)
    tsne - TSNE(n_components=2, perplexity=3, random_state=42 init='pca', learning_rate='auto')
    vis = tsne.fit_transform(vetores_2d)

    plt.figure(figsize=(8, 5))
    for i, label in enumerate(labels):
        color = 'blue' if label == 1 else 'red'
        plt.scatter(vis[i, 0], vis[i, 1], c=color, s=100, edgecolors='black')
    plt.title(title)
    plt.show()

    # --- ESTADO 1: ANTES DO TREINAMENTO ---
    print("Visualizando Geometria Inicial (Conhecimeto Prévio)...")
    plot_current_state("EStado Inicial: Espaço Sêmantico Genérico")

    # --- PASSO DE TREINAMENTO (Deformação do Hiperplano) ---
    print("\nIniciando ajuste fina das matrizes...")
    model.train()
    for epoch in range(10): # Rodamos 10 iterações para ver o movimento claro
        optimizer.zero_grad()

        # Forward: Passando os dados pela rede
    outputs = model(**inputs)
    cls_vectors = outputs.last_hidden_state[:, 0, :] # Vetores CLS (Lógica vetorial)
    logits = classifier(cls_vectors) # Projeção no Hiperplano de Decisão

    loss = criterion(logits, labels_tensor)

    # Backward: Calculando a força (gradiente) para mover os vetores
    loss.backward()
    optimizer.step()

    if (epoch + 1) % 5 == 0:
        print(f"Época {epoch+1} - Erro (Loss): {loss.item():.4f}")

    # --- ESTADO 2: DEPOIS DO TREINAMENTO ---

    print("\nVisualizando Geometria Final (Espaço Otimizado)...")
    plot_current_state("Estado Final: Hiperplano Ajustado Pólos Separados)")






