# Implementa√ß√£o de c√≥digo baseado no artigo de Hannah Levin, Samir Agarwala e Juan Triana: Understanding Complex Emotions in Sentences

### Atividade referente √† disciplina Processamento de Linguagem Natural, com a Professora N√°dia F√©lix

*Alunas: Karla Riccioppo e L√≠via Oliveira.*


---


> Explica√ß√µes detalhadas de cada c√©lula

> **1¬™ c√©lula**

Esta c√©lula √© crucial para configurar o ambiente do projeto. Ela realiza as seguintes a√ß√µes:
  1. Importa√ß√£o de Bibliotecas: Importa todas as bibliotecas Python que ser√£o usadas nas etapas seguintes do projeto. Isso inclui:
      * torch, torch.nn, accelerate: Para deep learning e computa√ß√£o com GPUs.
      * transformers, BertTokenizer, BertModel: Essenciais para trabalhar com modelos pr√©-treinados como o BERT, que √© a base do seu modelo de segmenta√ß√£o de emo√ß√µes.
      * json, re, requests, numpy, tqdm, accuracy_score, collections.Counter: Para manipula√ß√£o de dados, express√µes regulares, requisi√ß√µes HTTP, opera√ß√µes num√©ricas, barras de progresso, avalia√ß√£o de modelos e contagem de ocorr√™ncias, respectivamente.
  2. Inicializa√ß√£o do Dispositivo: Verifica se uma GPU (placa de v√≠deo) est√° dispon√≠vel no ambiente (torch.cuda.is_available()). Se estiver, o modelo ser√° executado na GPU para aproveitar o processamento paralelo e acelerar o treinamento. Caso contr√°rio, ele usar√° a CPU. Isso √© armazenado na vari√°vel device.
  3. Confirma√ß√£o do Dispositivo: Imprime o dispositivo que ser√° utilizado (üéØ Dispositivo: cpu no seu caso, pois a sa√≠da indica cpu) e, se for uma GPU, tamb√©m informa o nome dela. Esta sa√≠da ajuda a confirmar que o ambiente est√° configurado corretamente.



In [None]:
#1. importa√ß√µes e inicializa√ß√£o do modelo
!pip install transformers torch accelerate tqdm requests
import torch
import torch.nn as nn
import json
import re
import requests
import numpy as np
from transformers import BertTokenizer, BertModel
from torch.utils.data import Dataset, DataLoader
from tqdm import tqdm
from sklearn.metrics import accuracy_score
from collections import Counter

device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')
print(f"üéØ Dispositivo: {device}")
if torch.cuda.is_available():
    print(f"üöÄ GPU: {torch.cuda.get_device_name()}")

üéØ Dispositivo: cpu


> **2¬™ c√©lula**

Esta c√©lula √© respons√°vel por carregar e fazer uma an√°lise inicial do seu dataset de emo√ß√µes. Veja o que ela faz:
1. Carregamento do Dataset do GitHub: Ela primeiro imprime uma mensagem de "Carregando dataset do GitHub..." e ent√£o usa a biblioteca requests para baixar um arquivo JSON de uma URL espec√≠fica no GitHub. Este arquivo cont√©m as frases e suas segmenta√ß√µes emocionais.
2. Confirma√ß√£o do Carregamento: Ap√≥s o download, ela imprime uma mensagem confirmando que o dataset foi carregado com sucesso e quantos exemplos ele cont√©m (no seu caso, 307 exemplos).
3. Exibi√ß√£o de Exemplos: Para ajudar a visualizar a estrutura dos dados, a c√©lula mostra os tr√™s primeiros exemplos do dataset. Para cada exemplo, ela exibe a frase original e o segmented_text, que √© a mesma frase com as tags de emo√ß√£o (<EMOCAO-Inicio>, <EMOCAO-Fim>) inseridas.
4. An√°lise da Distribui√ß√£o das Emo√ß√µes: Este √© um passo importante para entender a composi√ß√£o do seu dataset. Ela faz o seguinte:
    * Usa uma express√£o regular (re.findall(r'<([A-Z_]+)-Inicio>', item['segmented_text'])) para encontrar todas as tags de in√≠cio de emo√ß√£o (como <FELIZ-Inicio>, <MEDO-Inicio>) em cada segmented_text.
    * A biblioteca collections.Counter √© usada para contar a frequ√™ncia de cada emo√ß√£o encontrada. Aten√ß√£o: Na √∫ltima intera√ß√£o, corrigi a express√£o regular para Inicio (sem acento) para corresponder ao formato real do dataset, o que resolveu o problema de sa√≠da incompleta que voc√™ mencionou.
    * Finalmente, calcula a porcentagem de cada emo√ß√£o em rela√ß√£o ao total de segmentos emocionais e imprime um resumo da distribui√ß√£o (ex.: FELIZ: 149 segmentos (23.8%), etc.).

Em resumo, esta c√©lula prepara os dados, mostrando o que voc√™ est√° trabalhando e dando uma vis√£o geral da frequ√™ncia de cada emo√ß√£o no seu conjunto de dados.

In [None]:
#2. carregando o dataset do reposit√≥rio do github
print("üì• Carregando dataset do GitHub...")
github_url = "https://raw.githubusercontent.com/liviafernanda/pln-inf-ufg/refs/heads/main/hannah_dataset_pt-br.json"

try:
    response = requests.get(github_url)
    data = response.json()
    print(f"‚úÖ Dataset carregado: {len(data)} exemplos")

    for item in data[:3]:  # Mostrar primeiros 3 exemplos
        print(f"\nüìù Exemplo " + str(data.index(item) + 1) + ":")
        print(f"   Frase: {item['sentence']}")
        print(f"   Segmentado: {item['segmented_text']}")

    # An√°lise da distribui√ß√£o
    print("\nüìä ANALISANDO DISTRIBUI√á√ÉO DAS EMO√á√ïES:")
    emotion_counts = Counter()
    for item in data:
        emotions = re.findall(r'<([A-Z_]+)-Inicio>', item['segmented_text'])
        emotion_counts.update(emotions)

    total_segments = sum(emotion_counts.values())
    for emotion, count in emotion_counts.most_common():
        percentage = (count / total_segments) * 100
        print(f"   {emotion}: {count} segmentos ({percentage:.1f}%)")

except Exception as e:
    print(f"‚ùå Erro: {e}")

üì• Carregando dataset do GitHub...
‚úÖ Dataset carregado: 307 exemplos

üìù Exemplo 1:
   Frase: Depois de semanas tentando resolver o problema, o c√≥digo finalmente rodou sem erros, e por um instante tudo pareceu fazer sentido, mas ent√£o percebi que o resultado n√£o correspondia ao esperado.
   Segmentado: <FELIZ-Inicio>Depois de semanas tentando resolver o problema, o c√≥digo finalmente rodou sem erros, e por um instante tudo pareceu fazer sentido<FELIZ-Fim><TRISTE-Inicio>, mas ent√£o percebi que o resultado n√£o correspondia ao esperado.<TRISTE-Fim>

üìù Exemplo 2:
   Frase: As crian√ßas corriam pelo parque, rindo alto e espalhando folhas pelo ch√£o, at√© que o trov√£o estrondou e todos correram para se abrigar.
   Segmentado: <FELIZ-Inicio>As crian√ßas corriam pelo parque, rindo alto e espalhando folhas pelo ch√£o<FELIZ-Fim><MEDO-Inicio>, at√© que o trov√£o estrondou e todos correram para se abrigar.<MEDO-Fim>

üìù Exemplo 3:
   Frase: Eu esperava encontrar a casa como a deix

> **3¬™ c√©lula**

Esta c√©lula define a classe EmotionDataset, que √© fundamental para preparar seus dados brutos de texto para o modelo BERT. Ela faz o seguinte:
1. Prop√≥sito da Classe (EmotionDataset): Esta classe herda de torch.utils.data.Dataset, o que significa que ela foi projetada para interagir com o DataLoader do PyTorch. O objetivo √© transformar cada frase do seu dataset em um formato num√©rico que o modelo BERT possa entender, ou seja, input_ids (tokens num√©ricos), attention_mask (para indicar o que √© texto real e o que √© preenchimento) e labels (as emo√ß√µes correspondentes a cada token).
2. Inicializa√ß√£o (__init__):
    * Recebe os dados brutos (data), o tokenizer do BERT e um max_length (tamanho m√°ximo das sequ√™ncias).
    * Define mapeamentos entre nomes de emo√ß√µes e IDs num√©ricos (emotion_to_id) e vice-versa (id_to_emotion). Isso √© crucial porque os modelos de Machine Learning trabalham com n√∫meros, n√£o com strings.
    * Imprime o mapeamento das emo√ß√µes para que voc√™ possa ver qual n√∫mero corresponde a cada emo√ß√£o.
    * Chama o m√©todo _process_data() para pr√©-processar todo o dataset assim que a classe √© instanciada.
3. Processamento dos Dados (_process_data):
    * Este m√©todo itera sobre cada item (frase) do seu dataset original.
    * Para cada frase, ele usa o tokenizer para convert√™-la em input_ids (IDs dos tokens), attention_mask (m√°scara de aten√ß√£o) e aplica padding (preenchimento) ou truncation (corte) para que todas as sequ√™ncias tenham o max_length definido.
    * Em seguida, ele chama _extract_token_labels() para obter as etiquetas de emo√ß√£o para cada token na frase.
    * Armazena os input_ids, attention_mask e labels de cada frase em uma lista processed.
4. Extra√ß√£o de Etiquetas de Tokens (_extract_token_labels):
    * Esta √© a parte mais complexa: o objetivo √© atribuir uma emo√ß√£o a CADA token da frase.
    * Come√ßa inicializando todas as etiquetas com 0 (que corresponde a NEUTRO).
    * Usa uma express√£o regular (r'<([A-Z_]+)-Inicio>(.*?)< -Fim>') para encontrar os segmentos de texto marcados com emo√ß√µes (ex: <FELIZ-Inicio>...<FELIZ-Fim>) no segmented_text.
    * Para cada segmento emocional encontrado:
        * Tokeniza o texto desse segmento.
        * Procura a sequ√™ncia desses tokens dentro da lista completa de tokens da frase (obtida do tokenizer).
        * Uma vez encontrada a correspond√™ncia, ele atribui o emotion_id (n√∫mero da emo√ß√£o) correspondente a todos os tokens desse segmento.
    * Tratamento de Tokens Especiais: Tokens como [CLS] (in√≠cio da sequ√™ncia), [SEP] (separador de sequ√™ncia) e [PAD] (preenchimento) n√£o devem contribuir para o c√°lculo da perda do modelo. Por isso, suas etiquetas s√£o definidas como -100, que √© um valor especial que o CrossEntropyLoss (fun√ß√£o de perda) ignora por padr√£o.
    5. M√©todos __len__ e __getitem__:
    * __ len__: Retorna o n√∫mero total de exemplos processados no dataset, permitindo que o DataLoader saiba quantos itens existem.
    * __ getitem__: Permite acessar um item espec√≠fico do dataset pelo seu √≠ndice, o que √© essencial para que o DataLoader possa carregar os dados em lotes (batches).
    
Em resumo, esta classe √© a ponte entre seus dados de texto brutos e o formato num√©rico estruturado que o modelo BERT-LSTM espera para treinamento, garantindo que cada token tenha uma etiqueta de emo√ß√£o correspondente.

In [None]:
#3. pre processamento do dataseet
class EmotionDataset(Dataset):
    def __init__(self, data, tokenizer, max_length=128):
        self.data = data
        self.tokenizer = tokenizer
        self.max_length = max_length

        self.emotion_to_id = {
            'NEUTRO': 0, 'FELIZ': 1, 'TRISTE': 2,
            'RAIVA': 3, 'MEDO': 4, 'SURPRESA': 5
        }
        self.id_to_emotion = {v: k for k, v in self.emotion_to_id.items()}

        print("üé≠ Mapeamento de emo√ß√µes:")
        for emotion, eid in self.emotion_to_id.items():
            print(f"   {emotion} -> {eid}")

        self.processed_data = self._process_data()

    def _process_data(self):
        processed = []
        print("üîÑ Processando dados...")

        for item in tqdm(self.data, desc="Processando"):
            sentence = item['sentence']
            segmented_text = item['segmented_text']

            encoding = self.tokenizer(
                sentence,
                max_length=self.max_length,
                padding='max_length',
                truncation=True,
                return_tensors='pt'
            )

            input_ids = encoding['input_ids'][0]
            tokens = self.tokenizer.convert_ids_to_tokens(input_ids)
            token_labels = self._extract_token_labels(tokens, segmented_text)

            processed.append({
                'input_ids': encoding['input_ids'][0],
                'attention_mask': encoding['attention_mask'][0],
                'labels': torch.tensor(token_labels, dtype=torch.long)
            })

        return processed

    def _extract_token_labels(self, tokens, segmented_text):
        labels = [0] * len(tokens)  # NEUTRO como padr√£o

        try:
            pattern = r'<([A-Z_]+)-Inicio>(.*?)<\1-Fim>'
            matches = re.findall(pattern, segmented_text)

            for emotion, text in matches:
                text = text.strip()
                segment_tokens = self.tokenizer.tokenize(text)

                # Buscar o segmento na senten√ßa
                for i in range(len(tokens) - len(segment_tokens) + 1):
                    if tokens[i:i+len(segment_tokens)] == segment_tokens:
                        emotion_id = self.emotion_to_id.get(emotion, 0)
                        for j in range(len(segment_tokens)):
                            if i + j < len(labels):
                                labels[i + j] = emotion_id
                        break

            # Marcar tokens especiais
            for i, token in enumerate(tokens):
                if token in [self.tokenizer.cls_token, self.tokenizer.sep_token, self.tokenizer.pad_token]:
                    labels[i] = -100

        except Exception as e:
            print(f"‚ö†Ô∏è Erro no processamento: {e}")

        return labels

    def __len__(self):
        return len(self.processed_data)

    def __getitem__(self, idx):
        return self.processed_data[idx]

> **4¬™ c√©lula**

Esta c√©lula define a arquitetura do seu modelo de Segmenta√ß√£o de Emo√ß√µes, chamado EmotionSegmentationModel. Ele √© uma combina√ß√£o de um modelo BERT pr√©-treinado com uma camada LSTM e um classificador. Vamos detalhar cada parte:
1. Inicializa√ß√£o (__init__):
      * super(EmotionSegmentationModel, self).__ init__(): Chama o construtor da classe pai nn.Module.
      * print("üß† Carregando BERT com fine-tuning..."): Indica o in√≠cio do carregamento do modelo BERT.
      * self.bert = BertModel.from_pretrained(bert_model_name): Carrega um modelo BERT pr√©-treinado. No seu caso, ele usa o neuralmind/bert-base-portuguese-cased, que √© um BERT base treinado para o portugu√™s.
2. Fine-tuning Parcial do BERT:
      * for name, param in self.bert.named_parameters():: Itera sobre todos os par√¢metros (pesos e vieses) do modelo BERT.
      * if any(layer in name for layer in ['layer.10', 'layer.11', 'pooler']):: Esta condi√ß√£o verifica se o par√¢metro pertence √†s duas √∫ltimas camadas do BERT (layer.10, layer.11) ou √† camada pooler. Estas s√£o as camadas mais pr√≥ximas da sa√≠da do BERT e, geralmente, as mais espec√≠ficas para a tarefa de fine-tuning.
      * param.requires_grad = True: Para essas camadas espec√≠ficas, requires_grad √© definido como True. Isso significa que os pesos dessas camadas ser√£o atualizados durante o treinamento (fine-tuning).
      * else: param.requires_grad = False: Para as demais camadas do BERT (as mais baixas), requires_grad √© definido como False. Isso 'congela' os pesos dessas camadas, impedindo que sejam alterados durante o treinamento. Essa t√©cnica ajuda a preservar o conhecimento geral do BERT e a acelerar o treinamento, focando as atualiza√ß√µes nas camadas mais relevantes para a sua tarefa espec√≠fica.
3. Camada LSTM Bidirecional (self.lstm):
      * nn.LSTM(...): Ap√≥s o BERT extrair caracter√≠sticas contextuais do texto, uma camada Long Short-Term Memory (LSTM) √© adicionada. LSTMs s√£o redes neurais recorrentes eficazes para processar sequ√™ncias.
      * input_size=self.bert.config.hidden_size: A entrada para a LSTM √© a sa√≠da de cada token do BERT (que tem hidden_size dimens√µes).
      * hidden_size=hidden_size: Define o tamanho da sa√≠da oculta de cada unidade LSTM.
      * num_layers=num_layers: Define quantas camadas LSTM s√£o empilhadas.
      * bidirectional=True: Muito importante! Significa que a LSTM processa a sequ√™ncia em duas dire√ß√µes (da esquerda para a direita e da direita para a esquerda). Isso permite que o modelo capture o contexto de um token a partir de palavras que v√™m antes e depois dele, o que √© crucial para entender nuances emocionais.
      * batch_first=True: Indica que a dimens√£o do batch (tamanho do lote de dados) √© a primeira.
      * dropout: Ajuda a prevenir overfitting, zerando aleatoriamente algumas conex√µes durante o treinamento.
4. Classificador Melhorado (self.classifier):
      * nn.Sequential(...): Um m√≥dulo sequencial que organiza as camadas do classificador.
      * nn.Dropout(dropout): Uma camada de dropout inicial para regulariza√ß√£o.
      * nn.Linear(hidden_size * 2, hidden_size): Uma camada linear (totalmente conectada). Como a LSTM √© bidirecional, sua sa√≠da tem hidden_size * 2 dimens√µes, que s√£o mapeadas para hidden_size.
      * nn.ReLU(): Uma fun√ß√£o de ativa√ß√£o Rectified Linear Unit, que introduz n√£o-linearidade no modelo.
      * nn.Dropout(dropout): Outra camada de dropout para mais regulariza√ß√£o.
      * nn.Linear(hidden_size, num_emotions): A camada de sa√≠da final. Mapeia a sa√≠da da camada anterior para o n√∫mero de classes de emo√ß√£o (num_emotions) que voc√™ tem. A sa√≠da desta camada s√£o os 'logits', que ser√£o usados para calcular as probabilidades de cada emo√ß√£o por token.
5. Passagem forward: Este m√©todo descreve como os dados fluem atrav√©s do modelo durante a infer√™ncia ou treinamento:
      * bert_outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask): Primeiro, os input_ids e attention_mask s√£o passados para o modelo BERT. Ele retorna v√°rias sa√≠das, e last_hidden_state √© a sequ√™ncia de representa√ß√µes contextuais para cada token.
      * lstm_output, _ = self.lstm(sequence_output): A sa√≠da do BERT (sequence_output) √© ent√£o alimentada √† camada LSTM bidirecional.
      * logits = self.classifier(lstm_output): A sa√≠da da LSTM √© passada para o classificador, que produz os logits para cada token, indicando a probabilidade de cada emo√ß√£o.

Em resumo, este modelo aproveita o poderoso entendimento contextual de um BERT pr√©-treinado em portugu√™s, refina esse entendimento com camadas LSTM bidirecionais para capturar depend√™ncias de longo alcance na sequ√™ncia, e ent√£o usa um classificador para prever a emo√ß√£o de cada token individualmente. A estrat√©gia de fine-tuning parcial otimiza o uso dos recursos e o tempo de treinamento.

In [None]:
#4. Estrutura do modelo
class EmotionSegmentationModel(nn.Module):
    def __init__(self, bert_model_name, num_emotions, hidden_size=256, num_layers=2, dropout=0.3):
        super(EmotionSegmentationModel, self).__init__()

        print("üß† Carregando BERT com fine-tuning...")
        self.bert = BertModel.from_pretrained(bert_model_name)

        # FINE-TUNING PARCIAL: descongelar √∫ltimas camadas
        for name, param in self.bert.named_parameters():
            if any(layer in name for layer in ['layer.10', 'layer.11', 'pooler']):
                param.requires_grad = True
            else:
                param.requires_grad = False

        self.lstm = nn.LSTM(
            input_size=self.bert.config.hidden_size,
            hidden_size=hidden_size,
            num_layers=num_layers,
            bidirectional=True,
            batch_first=True,
            dropout=dropout if num_layers > 1 else 0
        )

        # CLASSIFICADOR MELHORADO
        self.classifier = nn.Sequential(
            nn.Dropout(dropout),
            nn.Linear(hidden_size * 2, hidden_size),
            nn.ReLU(),
            nn.Dropout(dropout),
            nn.Linear(hidden_size, num_emotions)
        )

    def forward(self, input_ids, attention_mask):
        # COM fine-tuning nas √∫ltimas camadas
        bert_outputs = self.bert(input_ids=input_ids, attention_mask=attention_mask)
        sequence_output = bert_outputs.last_hidden_state

        lstm_output, _ = self.lstm(sequence_output)
        logits = self.classifier(lstm_output)

        return logits

> **5¬™ c√©lula**

Esta c√©lula cont√©m as fun√ß√µes centrais para o treinamento, avalia√ß√£o e uso do seu modelo de segmenta√ß√£o de emo√ß√µes. Vamos detalhar cada uma:
1. train_model_improved(model, train_loader, val_loader, num_epochs=10, learning_rate=0.0005, patience=3)
Esta √© a fun√ß√£o principal de treinamento do modelo. Ela otimiza o modelo para aprender a mapear texto para emo√ß√µes. Veja o que ela faz:
    * Otimizador (optimizer): Usa AdamW, um otimizador popular para modelos baseados em Transformers, para ajustar os pesos do modelo com base na perda.
    * Fun√ß√£o de Perda (criterion): Emprega CrossEntropyLoss, que √© adequada para problemas de classifica√ß√£o multi-classe. O ignore_index=-100 √© importante, pois indica que tokens com label -100 (os tokens especiais como [CLS], [SEP], [PAD] que voc√™ configurou na classe EmotionDataset) n√£o contribuem para o c√°lculo da perda.
    * Loop de Treinamento: Itera sobre o n√∫mero de num_epochs (√©pocas) definidos.
        * Mini-batches: Dentro de cada √©poca, o modelo processa os dados em mini-batches do train_loader.
        * Forward Pass: Os input_ids e attention_mask s√£o passados para o modelo (logits = model(input_ids, attention_mask)), que retorna as previs√µes (logits).
        * C√°lculo da Perda: A perda √© calculada comparando os logits com os labels reais.
        * Backward Pass e Otimiza√ß√£o: A perda √© retropropagada (loss.backward()) para calcular os gradientes, e o otimizador (optimizer.step()) atualiza os pesos do modelo.
        * Clipping de Gradiente: torch.nn.utils.clip_grad_norm_ √© usado para evitar 'gradientes explosivos', um problema comum em redes neurais profundas.
    * Valida√ß√£o e Early Stopping: Ap√≥s cada √©poca de treinamento, o modelo √© avaliado no conjunto de valida√ß√£o usando evaluate_model_colab. Se a acur√°cia de valida√ß√£o melhorar, o modelo atual √© salvo como o 'melhor modelo'. Se a acur√°cia n√£o melhorar por um n√∫mero de √©pocas (patience), o treinamento √© interrompido (early stopping) para evitar overfitting.
    * Cach√™ da GPU: torch.cuda.empty_cache() libera a mem√≥ria da GPU ap√≥s cada √©poca, ajudando a evitar problemas de mem√≥ria.
    * Carregar Melhor Modelo: Ao final do treinamento, o modelo com a melhor performance de valida√ß√£o √© carregado novamente, garantindo que voc√™ tenha a melhor vers√£o treinada.
2. evaluate_model_colab(model, data_loader)
Esta fun√ß√£o √© usada para avaliar o desempenho do modelo em um conjunto de dados (geralmente o de valida√ß√£o ou teste) e calcular a acur√°cia. Ela faz o seguinte:
    * Modo de Avalia√ß√£o: Define o modelo em model.eval() para desativar recursos como Dropout, que s√≥ s√£o usados durante o treinamento.
    * Infer√™ncia sem Gradientes: Usa torch.no_grad() para desativar o c√°lculo de gradientes, o que economiza mem√≥ria e acelera a infer√™ncia.
    * Previs√µes: Para cada batch no data_loader, o modelo faz previs√µes e calcula as classes mais prov√°veis (torch.argmax(logits, dim=-1)).
    * Filtragem de Labels Ignorados: As previs√µes e labels s√£o filtradas para remover os tokens com label -100 (tokens especiais).
    * C√°lculo da Acur√°cia: accuracy_score da scikit-learn √© usado para calcular a acur√°cia geral do modelo nas previs√µes v√°lidas.
    * Voltar ao Modo de Treinamento: Retorna o modelo para model.train() ao final da avalia√ß√£o.
3. predict_emotion_segments_improved(model, tokenizer, sentence, id_to_emotion, max_length=128, min_confidence=0.4)
Esta √© a fun√ß√£o que voc√™ usar√° para fazer previs√µes com o modelo treinado em uma nova frase. Ela n√£o apenas prev√™, mas tamb√©m p√≥s-processa os resultados de forma inteligente:
    * Modo de Avalia√ß√£o: Coloca o modelo em model.eval().
    * Tokeniza√ß√£o e Previs√£o: A frase de entrada √© tokenizada pelo tokenizer e passada para o modelo para obter os logits e as probabilities (probabilidades de cada emo√ß√£o para cada token).
    * Extra√ß√£o de Tokens e Confian√ßa: Converte os IDs dos tokens de volta para strings e extrai as previs√µes de emo√ß√£o e as probabilidades m√°ximas para cada token.
    * P√≥s-processamento Inteligente: Este √© o cora√ß√£o desta fun√ß√£o, projetado para criar segmentos de emo√ß√£o mais coesos e compreens√≠veis:
        * Agrupamento de Emo√ß√µes: Itera sobre os tokens e agrupa tokens consecutivos com a mesma emo√ß√£o para formar segmentos.
        * Confian√ßa M√≠nima (min_confidence): Se a confian√ßa de uma predi√ß√£o for abaixo de min_confidence, o modelo tenta manter a emo√ß√£o do token anterior, o que ajuda a suavizar transi√ß√µes e a ignorar 'ru√≠do' de baixa confian√ßa.
        * Filtragem de Segmentos Pequenos: Descarta segmentos de texto muito curtos que n√£o cont√™m pelo menos 3 caracteres √∫teis.
        * Mesclagem de Segmentos Pequenos Consecutivos: Se dois segmentos consecutivos t√™m a mesma emo√ß√£o e s√£o ambos muito curtos (menos de 2 palavras), eles s√£o mesclados em um √∫nico segmento. Isso ajuda a evitar segmenta√ß√µes excessivamente fragmentadas.
    * Retorno dos Segmentos: Retorna uma lista de dicion√°rios, onde cada dicion√°rio representa um segmento de emo√ß√£o detectado, contendo o text (texto do segmento), emotion (emo√ß√£o atribu√≠da) e confidence (confian√ßa m√©dia da emo√ß√£o para aquele segmento).
    
Em resumo, essas fun√ß√µes formam o pipeline completo para treinar um modelo de segmenta√ß√£o de emo√ß√µes, monitorar seu desempenho e, em seguida, us√°-lo para analisar novas frases, incluindo um p√≥s-processamento inteligente para gerar resultados mais coerentes.

In [None]:
#5. Fun√ß√µes de treino
def train_model_improved(model, train_loader, val_loader, num_epochs=10, learning_rate=0.0005, patience=3):
    optimizer = torch.optim.AdamW(model.parameters(), lr=learning_rate, weight_decay=0.01)
    criterion = nn.CrossEntropyLoss(ignore_index=-100)

    best_accuracy = 0
    patience_counter = 0
    train_losses = []
    val_accuracies = []

    model.train()

    print(f"üöÄ Iniciando treinamento com {num_epochs} √©pocas...")

    for epoch in range(num_epochs):
        total_loss = 0
        progress_bar = tqdm(train_loader, desc=f'√âpoca {epoch+1}/{num_epochs}')

        for batch in progress_bar:
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            optimizer.zero_grad()

            logits = model(input_ids, attention_mask)
            loss = criterion(logits.view(-1, logits.size(-1)), labels.view(-1))

            loss.backward()
            torch.nn.utils.clip_grad_norm_(model.parameters(), 1.0)
            optimizer.step()

            total_loss += loss.item()
            progress_bar.set_postfix({'perda': f'{loss.item():.4f}'})

        epoch_loss = total_loss / len(train_loader)
        train_losses.append(epoch_loss)

        # VALIDA√á√ÉO
        val_accuracy = evaluate_model_colab(model, val_loader)
        val_accuracies.append(val_accuracy)

        print(f'üìä √âpoca {epoch+1} - Perda: {epoch_loss:.4f}, Acur√°cia Val: {val_accuracy:.4f}')

        # EARLY STOPPING
        if val_accuracy > best_accuracy:
            best_accuracy = val_accuracy
            patience_counter = 0
            torch.save(model.state_dict(), 'melhor_modelo.pt')
            print(f'üíæ Melhor modelo salvo (acur√°cia: {val_accuracy:.4f})')
        else:
            patience_counter += 1
            if patience_counter >= patience:
                print(f'üõë Early stopping na √©poca {epoch+1}')
                break

        torch.cuda.empty_cache()

    # Carregar melhor modelo
    model.load_state_dict(torch.load('melhor_modelo.pt'))
    print(f'‚úÖ Melhor modelo carregado (acur√°cia: {best_accuracy:.4f})')

    return train_losses, val_accuracies

def evaluate_model_colab(model, data_loader):
    model.eval()
    all_predictions = []
    all_labels = []

    with torch.no_grad():
        for batch in tqdm(data_loader, desc="Validando"):
            input_ids = batch['input_ids'].to(device)
            attention_mask = batch['attention_mask'].to(device)
            labels = batch['labels'].to(device)

            logits = model(input_ids, attention_mask)
            predictions = torch.argmax(logits, dim=-1)

            mask = labels != -100
            valid_predictions = predictions[mask].cpu().numpy()
            valid_labels = labels[mask].cpu().numpy()

            all_predictions.extend(valid_predictions)
            all_labels.extend(valid_labels)

    accuracy = accuracy_score(all_labels, all_predictions) if all_labels else 0.0
    model.train()

    return accuracy

def predict_emotion_segments_improved(model, tokenizer, sentence, id_to_emotion, max_length=128, min_confidence=0.4):
    """Vers√£o melhorada com p√≥s-processamento inteligente"""
    model.eval()

    encoding = tokenizer(
        sentence,
        max_length=max_length,
        padding='max_length',
        truncation=True,
        return_tensors='pt'
    )

    input_ids = encoding['input_ids'].to(device)
    attention_mask = encoding['attention_mask'].to(device)

    with torch.no_grad():
        logits = model(input_ids, attention_mask)
        probabilities = torch.softmax(logits, dim=-1)
        max_probs, predictions = torch.max(probabilities, dim=-1)

    tokens = tokenizer.convert_ids_to_tokens(input_ids[0])
    predictions = predictions[0].cpu().numpy()
    max_probs = max_probs[0].cpu().numpy()

    # P√ìS-PROCESSAMENTO INTELIGENTE
    segments = []
    current_emotion = None
    current_tokens = []
    current_confidences = []

    for i, (token, emotion_id, confidence) in enumerate(zip(tokens, predictions, max_probs)):
        if token in [tokenizer.cls_token, tokenizer.sep_token, tokenizer.pad_token]:
            continue

        emotion = id_to_emotion[emotion_id]

        # SE CONFIAN√áA BAIXA, MANTER EMO√á√ÉO ANTERIOR
        if confidence < min_confidence and current_emotion:
            emotion = current_emotion

        if emotion != current_emotion:
            if current_tokens:
                segment_text = tokenizer.convert_tokens_to_string(current_tokens).strip()
                avg_confidence = np.mean(current_confidences) if current_confidences else 0.0

                # FILTRAR SEGMENTOS MUITO PEQUENOS (menos de 2 caracteres √∫teis)
                if len(segment_text) >= 3:
                    segments.append({
                        'text': segment_text,
                        'emotion': current_emotion,
                        'confidence': avg_confidence
                    })

            current_emotion = emotion
            current_tokens = [token]
            current_confidences = [confidence]
        else:
            current_tokens.append(token)
            current_confidences.append(confidence)

    # √öLTIMO SEGMENTO
    if current_tokens:
        segment_text = tokenizer.convert_tokens_to_string(current_tokens).strip()
        avg_confidence = np.mean(current_confidences) if current_confidences else 0.0
        if len(segment_text) >= 3:
            segments.append({
                'text': segment_text,
                'emotion': current_emotion,
                'confidence': avg_confidence
            })

    # MESCLAR SEGMENTOS PEQUENOS CONSECUTIVOS DA MESMA EMO√á√ÉO
    if len(segments) > 1:
        merged_segments = []
        i = 0
        while i < len(segments):
            current = segments[i]
            if i < len(segments) - 1:
                next_seg = segments[i + 1]
                # Se segmentos consecutivos da mesma emo√ß√£o e ambos pequenos, mesclar
                if (current['emotion'] == next_seg['emotion'] and
                    len(current['text'].split()) <= 2 and
                    len(next_seg['text'].split()) <= 2):
                    merged_text = current['text'] + ' ' + next_seg['text']
                    merged_confidence = (current['confidence'] + next_seg['confidence']) / 2
                    merged_segments.append({
                        'text': merged_text.strip(),
                        'emotion': current['emotion'],
                        'confidence': merged_confidence
                    })
                    i += 2  # Pular o pr√≥ximo
                else:
                    merged_segments.append(current)
                    i += 1
            else:
                merged_segments.append(current)
                i += 1
        segments = merged_segments

    return segments

> **6¬™ c√©lula**

Esta c√©lula √© o cora√ß√£o do seu processo de treinamento, onde tudo o que foi definido nas c√©lulas anteriores √© juntado para treinar o modelo de segmenta√ß√£o de emo√ß√µes. Vamos ver o que acontece passo a passo:
  1. In√≠cio do Treinamento: A c√©lula come√ßa com uma mensagem clara: "=== üöÄ INICIANDO TREINAMENTO OTIMIZADO ===" para indicar o come√ßo do processo.
  2. Configura√ß√£o do BERT (bert_model_name): Define o nome do modelo BERT que ser√° utilizado. No seu caso, √© o neuralmind/bert-base-portuguese-cased, que √© uma vers√£o do BERT treinada especificamente para o portugu√™s.
  3. Carregamento do Tokenizer: O BertTokenizer.from_pretrained(bert_model_name) carrega o tokenizador correspondente ao modelo BERT escolhido. O tokenizador √© essencial para converter seu texto em sequ√™ncias num√©ricas (tokens e IDs) que o BERT pode processar. Uma mensagem "‚úÖ Tokenizer carregado" confirma o sucesso.
  4. Cria√ß√£o do Dataset: Uma inst√¢ncia da classe EmotionDataset (que definimos na c√©lula 3) √© criada, passando os dados brutos (data carregado da c√©lula 2) e o tokenizer. Esta etapa pr√©-processa todo o seu dataset, convertendo as frases e suas anota√ß√µes de emo√ß√£o em input_ids, attention_mask e labels prontos para o treinamento. Uma mensagem "‚úÖ Dataset criado" indica que o processamento inicial foi conclu√≠do.
  5. Divis√£o Treino/Valida√ß√£o (train_test_split):
      * O dataset total √© dividido em dois subconjuntos: 80% para treinamento (train_dataset) e 20% para valida√ß√£o (val_dataset).
      * torch.utils.data.random_split garante que essa divis√£o seja feita de forma aleat√≥ria, o que √© importante para que ambos os conjuntos sejam representativos.
      * As vari√°veis train_loader e val_loader s√£o criadas usando DataLoader. Elas s√£o respons√°veis por carregar os dados em 'lotes' (batches) para o treinamento e valida√ß√£o, respectivamente, e podem embaralhar os dados (shuffle=True para treino) para melhorar o aprendizado do modelo.
      * Uma mensagem "üìä Divis√£o: ... treino, ... valida√ß√£o" mostra o tamanho de cada conjunto.
  6. Inicializa√ß√£o do Modelo (EmotionSegmentationModel):
      * Uma inst√¢ncia da classe EmotionSegmentationModel (definida na c√©lula 4) √© criada. S√£o passados par√¢metros como o nome do modelo BERT, o n√∫mero de emo√ß√µes (obtido do dataset.emotion_to_id), o tamanho da camada oculta da LSTM (hidden_size), o n√∫mero de camadas LSTM e o dropout.
      * .to(device) move o modelo para o dispositivo de computa√ß√£o (CPU ou GPU) que foi detectado na primeira c√©lula, garantindo que as opera√ß√µes sejam executadas no hardware correto.
      * A c√©lula imprime "üß† Modelo criado" e "üìê Par√¢metros trein√°veis:", mostrando quantos par√¢metros do modelo ser√£o ajustados durante o treinamento (lembre-se que algumas camadas do BERT foram congeladas).
  7. Treinamento Otimizado (train_model_improved):
      * A fun√ß√£o train_model_improved (definida na c√©lula 5) √© chamada para iniciar o processo de treinamento real. Ela recebe o modelo, os data loaders de treino e valida√ß√£o, o n√∫mero de √©pocas, a taxa de aprendizado e o par√¢metro de patience para o early stopping.
      * Esta fun√ß√£o gerencia todo o ciclo de treinamento: forward pass, c√°lculo de perda, backward pass, atualiza√ß√£o de pesos, avalia√ß√£o em valida√ß√£o e salvamento do melhor modelo.
  8. Conclus√£o: Ap√≥s o t√©rmino da fun√ß√£o train_model_improved (seja por atingir o n√∫mero m√°ximo de √©pocas ou por early stopping), a c√©lula imprime "üíæ Treinamento conclu√≠do!" indicando que o processo principal foi finalizado.

Em resumo, esta c√©lula coordena todas as etapas para construir, treinar e otimizar seu modelo de segmenta√ß√£o de emo√ß√µes, usando as configura√ß√µes e fun√ß√µes que voc√™ definiu nas c√©lulas anteriores.

In [None]:
#6. Treinamento principal
print("=== üöÄ INICIANDO TREINAMENTO OTIMIZADO ===")

# CONFIGURA√á√ïES MELHORADAS
bert_model_name = 'neuralmind/bert-base-portuguese-cased'
tokenizer = BertTokenizer.from_pretrained(bert_model_name)
print("‚úÖ Tokenizer carregado")

dataset = EmotionDataset(data, tokenizer)
print("‚úÖ Dataset criado")

# SPLIT TREINO/VALIDA√á√ÉO
train_size = int(0.8 * len(dataset))
val_size = len(dataset) - train_size
train_dataset, val_dataset = torch.utils.data.random_split(dataset, [train_size, val_size])

train_loader = DataLoader(train_dataset, batch_size=8, shuffle=True)
val_loader = DataLoader(val_dataset, batch_size=8, shuffle=False)

print(f"üìä Divis√£o: {train_size} treino, {val_size} valida√ß√£o")

# MODELO MELHORADO
model = EmotionSegmentationModel(
    bert_model_name=bert_model_name,
    num_emotions=len(dataset.emotion_to_id),
    hidden_size=256,
    num_layers=2,
    dropout=0.3
).to(device)

print(f"üß† Modelo criado")
print(f"üìê Par√¢metros trein√°veis: {sum(p.numel() for p in model.parameters() if p.requires_grad):,}")

# TREINAMENTO OTIMIZADO
train_losses, val_accuracies = train_model_improved(
    model,
    train_loader,
    val_loader,
    num_epochs=10,
    learning_rate=0.0005,
    patience=4
)

print("üíæ Treinamento conclu√≠do!")

=== üöÄ INICIANDO TREINAMENTO OTIMIZADO ===
‚úÖ Tokenizer carregado
üé≠ Mapeamento de emo√ß√µes:
   NEUTRO -> 0
   FELIZ -> 1
   TRISTE -> 2
   RAIVA -> 3
   MEDO -> 4
   SURPRESA -> 5
üîÑ Processando dados...


Processando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 307/307 [00:00<00:00, 446.93it/s]


‚úÖ Dataset criado
üìä Divis√£o: 245 treino, 62 valida√ß√£o
üß† Carregando BERT com fine-tuning...
üß† Modelo criado
üìê Par√¢metros trein√°veis: 18,577,414
üöÄ Iniciando treinamento com 10 √©pocas...


√âpoca 1/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:42<00:00,  5.25s/it, perda=1.1169]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.92s/it]


üìä √âpoca 1 - Perda: 1.6604, Acur√°cia Val: 0.4632
üíæ Melhor modelo salvo (acur√°cia: 0.4632)


√âpoca 2/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:32<00:00,  4.93s/it, perda=1.0208]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.91s/it]


üìä √âpoca 2 - Perda: 1.2439, Acur√°cia Val: 0.5838
üíæ Melhor modelo salvo (acur√°cia: 0.5838)


√âpoca 3/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:33<00:00,  4.96s/it, perda=0.4346]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:25<00:00,  3.20s/it]


üìä √âpoca 3 - Perda: 0.9729, Acur√°cia Val: 0.6586
üíæ Melhor modelo salvo (acur√°cia: 0.6586)


√âpoca 4/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:34<00:00,  4.99s/it, perda=0.9299]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.90s/it]


üìä √âpoca 4 - Perda: 0.8162, Acur√°cia Val: 0.6508


√âpoca 5/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:32<00:00,  4.93s/it, perda=0.7674]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.90s/it]


üìä √âpoca 5 - Perda: 0.7010, Acur√°cia Val: 0.6962
üíæ Melhor modelo salvo (acur√°cia: 0.6962)


√âpoca 6/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:33<00:00,  4.95s/it, perda=0.1023]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:22<00:00,  2.81s/it]


üìä √âpoca 6 - Perda: 0.4976, Acur√°cia Val: 0.6768


√âpoca 7/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:36<00:00,  5.05s/it, perda=0.4959]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.90s/it]


üìä √âpoca 7 - Perda: 0.5155, Acur√°cia Val: 0.7061
üíæ Melhor modelo salvo (acur√°cia: 0.7061)


√âpoca 8/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:32<00:00,  4.93s/it, perda=0.8913]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.92s/it]


üìä √âpoca 8 - Perda: 0.4793, Acur√°cia Val: 0.6685


√âpoca 9/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:33<00:00,  4.94s/it, perda=0.0763]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.89s/it]


üìä √âpoca 9 - Perda: 0.4257, Acur√°cia Val: 0.7117
üíæ Melhor modelo salvo (acur√°cia: 0.7117)


√âpoca 10/10: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 31/31 [02:32<00:00,  4.92s/it, perda=0.3569]
Validando: 100%|‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà‚ñà| 8/8 [00:23<00:00,  2.89s/it]


üìä √âpoca 10 - Perda: 0.3063, Acur√°cia Val: 0.7117
‚úÖ Melhor modelo carregado (acur√°cia: 0.7117)
üíæ Treinamento conclu√≠do!


> **7¬™ c√©lula**

Teste de demonstra√ß√£o autom√°tico: possui algumas senten√ßas de teste para ser executado manualmente.

In [None]:
#7. Teste de demonstra√ß√£o
def demonstrar_modelo_melhorado():
    print("\n" + "="*60)
    print("üé≠ ANALISADOR DE EMO√á√ïES - VERS√ÉO MELHORADA")
    print("="*60)
    print("‚úÖ Modelo otimizado carregado!")
    print("üí° Digite frases em portugu√™s para an√°lise")
    print("üö™ Digite 'sair' para encerrar")
    print("-"*60)

    while True:
        frase = input("\nüìù Digite uma frase: ").strip()

        if frase.lower() in ['sair', 'exit', 'quit']:
            print("üëã At√© logo!")
            break

        if not frase:
            continue

        print("‚è≥ Analisando com p√≥s-processamento inteligente...")
        segmentos = predict_emotion_segments_improved(
            model, tokenizer, frase, dataset.id_to_emotion,
            min_confidence=0.4
        )

        print(f"\n‚úÖ RESULTADO: '{frase}'")
        if not segmentos:
            print("   ü§î Nenhum segmento emocional detectado com confian√ßa suficiente")
        else:
            print("üé≠ Segmentos emocionais detectados:")
            for i, seg in enumerate(segmentos, 1):
                emoji = {
                    'FELIZ': 'üòä', 'TRISTE': 'üò¢', 'RAIVA': 'üò†',
                    'MEDO': 'üò®', 'SURPRESA': 'üò≤', 'NEUTRO': 'üòê'
                }.get(seg['emotion'], '‚ùì')
                conf_str = f"(conf: {seg['confidence']:.2f})" if 'confidence' in seg else ""
                print(f"   {i}. {emoji} [{seg['emotion']}] {conf_str} ‚Üí '{seg['text']}'")

        print("-" * 60)

# TESTAR COM EXEMPLOS PR√â-DEFINIDOS PRIMEIRO
print("\nüß™ TESTANDO COM EXEMPLOS:")
exemplos_teste = [
    "Estou muito feliz com a not√≠cia, mas depois fiquei triste ao pensar nas consequ√™ncias.",
    "O filme foi assustador no in√≠cio, mas terminou de forma surpreendente e feliz.",
    "Estou com raiva dessa situa√ß√£o, mas vou tentar manter a calma.",
    "Que susto! Tive um grande medo quando ouvi aquele barulho.",
    "Comecei uma caminhada na praia chorando pelo ocorrido, por√©m me alegrou ver as pessoas jogando bola e passeando com os cachorros.",
    "Uma mulher muito bonita me abordou na entrada solicitando meus documentos, e fiquei indignada por n√£o terem me avisado dessa exig√™ncia antes."
]

for frase in exemplos_teste:
    print(f"\nüìù Frase: {frase}")
    segmentos = predict_emotion_segments_improved(model, tokenizer, frase, dataset.id_to_emotion)
    for i, seg in enumerate(segmentos, 1):
        emoji = {'FELIZ': 'üòä', 'TRISTE': 'üò¢', 'RAIVA': 'üò†',
                'MEDO': 'üò®', 'SURPRESA': 'üò≤', 'NEUTRO': 'üòê'}.get(seg['emotion'], '‚ùì')
        print(f"   {i}. {emoji} [{seg['emotion']}] ‚Üí '{seg['text']}'")

# INICIAR MODO INTERATIVO
#demonstrar_modelo_melhorado()


üß™ TESTANDO COM EXEMPLOS:

üìù Frase: Estou muito feliz com a not√≠cia, mas depois fiquei triste ao pensar nas consequ√™ncias.
   1. üòä [FELIZ] ‚Üí 'Estou muito feliz com a not√≠cia'
   2. üò¢ [TRISTE] ‚Üí ', mas depois fiquei triste ao pensar nas consequ√™ncias .'

üìù Frase: O filme foi assustador no in√≠cio, mas terminou de forma surpreendente e feliz.
   1. üòä [FELIZ] ‚Üí 'O filme'
   2. üò≤ [SURPRESA] ‚Üí 'foi assustador'
   3. üòä [FELIZ] ‚Üí 'no in√≠cio , mas terminou de forma surpreendente e feliz .'

üìù Frase: Estou com raiva dessa situa√ß√£o, mas vou tentar manter a calma.
   1. üò† [RAIVA] ‚Üí 'Estou com raiva dessa situa√ß√£o'
   2. üòê [NEUTRO] ‚Üí ', mas vou tentar manter a calma .'

üìù Frase: Que susto! Tive um grande medo quando ouvi aquele barulho.
   1. üò® [MEDO] ‚Üí 'Que susto ! Tive um grande medo quando ouvi aquele barulho .'

üìù Frase: Comecei uma caminhada na praia chorando pelo ocorrido, por√©m me alegrou ver as pessoas jogando bola e passe

> **8¬™ c√©lula (final)**

Fun√ß√£o simples de teste interativo com o usu√°rio, para demonstra√ß√£o em tempo real. Solicita que o usu√°rio insira uma senten√ßa e faz a an√°lise de sentimento.

In [None]:
# C√âLULA FINAL - FUN√á√ÉO SIMPLES PARA TESTAR O MODELO

def analisar_sentimento():
    """
    Fun√ß√£o simples que recebe uma frase do usu√°rio e mostra a an√°lise de sentimentos
    """
    print("\n" + "="*50)
    print("üé≠ ANALISADOR DE SENTIMENTOS")
    print("="*50)

    # Carregar modelo treinado (assumindo que j√° foi treinado)
    try:
        # Se voc√™ j√° treinou o modelo nesta sess√£o, use estas vari√°veis:
        # model, tokenizer, dataset j√° devem estar definidos

        print("‚úÖ Modelo carregado! Digite suas frases para an√°lise.")
        print("üí° Digite 'sair' para encerrar")
        print("-"*50)

        while True:
            # Receber frase do usu√°rio
            frase = input("\nüìù Digite uma frase: ").strip()

            if frase.lower() in ['sair', 'exit', 'quit']:
                print("üëã At√© logo!")
                break

            if not frase:
                print("‚ö†Ô∏è Por favor, digite uma frase.")
                continue

            # Fazer a an√°lise
            print("‚è≥ Analisando...")
            segmentos = predict_emotion_segments_improved(
            model, tokenizer, frase, dataset.id_to_emotion,
            min_confidence=0.4)

            # Mostrar resultado
            print(f"\n‚úÖ RESULTADO PARA: '{frase}'")
            print("üé≠ Segmentos emocionais detectados:")

            for i, segmento in enumerate(segmentos, 1):
                emoji = {
                    'FELIZ': 'üòä',
                    'TRISTE': 'üò¢',
                    'COM_RAIVA': 'üò†',
                    'MEDO': 'üò®',
                    'SURPRESA': 'üò≤',
                    'NEUTRO': 'üòê'
                }.get(segmento['emotion'], '‚ùì')

                print(f"   {i}. {emoji} [{segmento['emotion']}] ‚Üí '{segmento['text']}'")

            print("-" * 50)

    except NameError:
        print("‚ùå Modelo n√£o encontrado. Execute o treinamento primeiro!")
    except Exception as e:
        print(f"‚ùå Erro: {e}")

analisar_sentimento()

# PARA USAR:
# 1. Primeiro execute todo o c√≥digo de treinamento
# 2. Depois execute esta c√©lula
# 3. Chame a fun√ß√£o: analisar_sentimento()


üé≠ ANALISADOR DE SENTIMENTOS
‚úÖ Modelo carregado! Digite suas frases para an√°lise.
üí° Digite 'sair' para encerrar
--------------------------------------------------

üìù Digite uma frase: As crian√ßas corriam pelo parque, rindo alto e espalhando folhas pelo ch√£o, at√© que o trov√£o estrondou e todos correram para se abrigar
‚è≥ Analisando...

‚úÖ RESULTADO PARA: 'As crian√ßas corriam pelo parque, rindo alto e espalhando folhas pelo ch√£o, at√© que o trov√£o estrondou e todos correram para se abrigar'
üé≠ Segmentos emocionais detectados:
   1. üòä [FELIZ] ‚Üí 'As crian√ßas corriam pelo parque , rindo alto e espalhando folhas pelo ch√£o'
   2. üò® [MEDO] ‚Üí ', at√© que o trov√£o estrondou e todos correram para se abrigar'
--------------------------------------------------

üìù Digite uma frase: sair
üëã At√© logo!
