<a href="https://colab.research.google.com/github/RafaelGallo/LLM/blob/main/LLM_An%C3%A1lise_sentimento.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## **Projeto LLM - Análise de Sentimento**

A análise de sentimento é uma área crucial no campo da inteligência artificial (IA), permitindo-nos compreender e extrair insights valiosos dos textos em diversas aplicações, desde análise de redes sociais até feedback do cliente. O Projeto LLM (Large Language Model) visa explorar essa área emocionante, utilizando técnicas de aprendizado de máquina para entender e classificar os sentimentos expressos em textos.

**A) Introdução**
Neste projeto, embarcamos em uma jornada para conhecer mais sobre os modelos generativos de IA, especificamente os modelos LLM. Os LLMs são modelos de linguagem que demonstram habilidades impressionantes na compreensão e geração de texto, impulsionados por técnicas avançadas de aprendizado de máquina.

**Descrição do Projeto**

1) Criação do Conjunto de Dados: Na primeira etapa, iniciamos com a criação de um conjunto de dados contendo textos aleatórios com diferentes sentimentos. Esses textos servirão como nossa base para treinar e testar os modelos.

2) Classificação de Sentimentos com Naive Bayes: Utilizamos um modelo de aprendizado de máquina Naive Bayes para classificar os sentimentos presentes nos textos. Esta etapa nos proporciona uma referência inicial para comparar o desempenho dos modelos LLM.

**Modelo LLM**

Criação do Modelo LLM: Utilizamos modelos LLM como GPT e BART para criar um modelo capaz de compreender e gerar texto. Treinamos o modelo usando o conjunto de dados preparado anteriormente.

**1) Avaliação com Matriz de Confusão:** Após treinar o modelo LLM, avaliamos seu desempenho comparando as previsões do modelo com as classificações de sentimentos reais dos textos. Utilizamos uma matriz de confusão para visualizar e analisar os resultados.

**2) Clusterização de Texto:** Na última etapa, exploramos a clusterização dos textos com base nos sentimentos expressos. Utilizamos o algoritmo K-means para agrupar os textos em clusters representativos dos diferentes sentimentos.

In [None]:
# Instalando pacotes
!pip install vaderSentiment
!pip install transformers

In [None]:
## Importando bibliotecas
import random
import csv
from time import time

## Biblioteca manipulação arquivos csv
import pandas as pd

# Biblioteca treinamento para modelo ML
from sklearn.model_selection import train_test_split

# Biblioteca para vetorização texto
from sklearn.feature_extraction.text import CountVectorizer

# Biblioteca modelo machine learning
from sklearn.naive_bayes import MultinomialNB

# Biblioteca para avaliação modelo
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [None]:
import random
import csv

# Frases de exemplo com diferentes sentimentos
frases_neutras = [
    "The sky is clear and the wind blows gently.",
    "The math class was about linear equations.",
    "Today's lunch was rice and beans.",
    "The city is quiet this Sunday.",
    "The sales report will be sent by email tomorrow."
]

frases_positivas = [
    "Her smile brightens my day, bringing joy to my heart.",
    "I received a compliment from my boss for the excellent work done.",
    "I am very happy with the result of the test I took today.",
    "Today is a beautiful day full of possibilities.",
    "I received a wonderful surprise from my best friend."
]

frases_negativas = [
    "The sudden loss left a void in my chest, a pain that seems unbearable.",
    "I missed my flight and now I'm stuck at the airport.",
    "The traffic is terrible, and I'm late for the important meeting.",
    "My computer broke down and I lost all my important files.",
    "I'm sick and can't get out of bed."
]

# Listas para armazenar as frases geradas
frases_geradas = []

# Gerar 900 frases neutras
for _ in range(50):
    frase = random.choice(frases_neutras)
    frases_geradas.append(frase)

# Gerar 900 frases positivas
for _ in range(50):
    frase = random.choice(frases_positivas)
    frases_geradas.append(frase)

# Gerar 900 frases negativas
for _ in range(50):
    frase = random.choice(frases_negativas)
    frases_geradas.append(frase)

# Embaralhar as frases
random.shuffle(frases_geradas)

# Salvar as frases em um arquivo CSV
with open("frases_geradas.csv", "w", newline="", encoding="utf-8") as f:
    writer = csv.writer(f)
    writer.writerow(["Frase"])
    writer.writerows(map(lambda x: [x], frases_geradas))


In [None]:
# Criar DataFrame com Pandas
df = pd.DataFrame(frases_geradas, columns=['Frase'])

# Visualizando 5 primeiros dados
df.head()

In [None]:
# Visualizando 5 últimos dados
df.tail()

In [None]:
# Visualizando linhas e colunas
df.shape

In [None]:
# Classificando os sentimentos das frases
from vaderSentiment.vaderSentiment import SentimentIntensityAnalyzer

# Criar uma instância do SentimentIntensityAnalyzer
analyzer = SentimentIntensityAnalyzer()

# Função para classificar as frases com base nas pontuações de sentimento
def classify_sentiment(text):
    scores = analyzer.polarity_scores(text)
    if scores['compound'] > 0.5:
        return "positivo"
    elif scores['compound'] < -0.5:
        return "negativo"
    else:
        return "neutro"

# Aplicar a função classify_sentiment a cada frase no conjunto de dados
df['Sentimento'] = df['Frase'].apply(classify_sentiment)

# Exibir as primeiras linhas do conjunto de dados com o sentimento classificado
df.head()

In [None]:
# Divisão treino e teste
x = df['Frase']
y = df['Sentimento']

In [None]:
# Dividindo os dados em treino e teste
X_train, X_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# Visualizando os dados
print(X_train.head())
print(y_train.head())

In [None]:
# Vetorizando o texto
vectorizer = CountVectorizer()
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

In [None]:
# Treinando o classificador Naive Bayes
classifier = MultinomialNB()
classifier.fit(X_train_vectorized, y_train)

In [None]:
# Fazendo previsões no conjunto de teste
predictions = classifier.predict(X_test_vectorized)

In [None]:
# Avaliando a precisão do modelo
accuracy = accuracy_score(y_test, predictions)
print("Acurácia do modelo:", accuracy)

In [None]:
report = classification_report(y_test, predictions)
print("Relatório de classificação:")
print(report)

In [None]:
confusion1 = confusion_matrix(y_test, predictions)
print("Matriz de confusão:")
print(confusion1)

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns

# Plotar a matriz de confusão
plt.figure(figsize=(8, 6))
sns.heatmap(confusion1, annot=True,
            fmt='d', cmap='Blues')
plt.xlabel('Rótulos Previstos')
plt.ylabel('Rótulos Verdadeiros')
plt.title('Matriz de Confusão - Modelo Machine learning - Naive Bayes')
plt.show()

# **Modelo LLM - Bert**

In [None]:
# Importando biblitecas
import torch
import torch.nn as nn
from torch.utils.data import DataLoader
from torchvision import datasets
from torchvision.transforms import ToTensor
import torch.optim as optim
from torch.nn.functional import softmax
from torch.utils.data import DataLoader, TensorDataset
from transformers import BertTokenizer, BertForSequenceClassification

In [None]:
import torch
import torch.nn as nn
from torch.utils.data import DataLoader
import torch.optim as optim

In [None]:
# Verifique se a GPU está disponível
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print("Dispositivo de treinamento:", device)

In [None]:
# dataset
df.head()

In [None]:
# Dividir os dados em textos e rótulos
textos = df['Frase'].tolist()
rotulos = df['Sentimento'].tolist()

In [None]:
# Mapeamento de rótulos de sentimentos para índices numéricos
# Suponha que tenhamos rótulos: 'positivo', 'negativo' e 'neutro'
mapa_rotulos = {'positivo': 0, 'negativo': 1, 'neutro': 2}
rotulos_numericos = [mapa_rotulos[r] for r in rotulos]

In [None]:
# Carregar o tokenizador e o modelo BERT
tokenizer = BertTokenizer.from_pretrained('bert-base-uncased')

In [None]:
# Modelo LLM
model = BertForSequenceClassification.from_pretrained('bert-base-uncased', num_labels=len(mapa_rotulos))

In [None]:
# Tokenizar as frases
tokens = tokenizer(textos, padding=True, truncation=True, return_tensors='pt')

In [None]:
# Criar DataLoader para iterar sobre os dados durante o treinamento
dataset = TensorDataset(tokens.input_ids, tokens.attention_mask, torch.tensor(rotulos_numericos))

# Se você estiver usando um DataLoader, você precisa especificar o argumento `pin_memory=True`
loader = DataLoader(dataset, batch_size=8, shuffle=True, pin_memory=True)

In [None]:
# Mova o modelo e os dados para o mesmo dispositivo
model = model.to(device)
criterion = nn.CrossEntropyLoss().to(device)

In [None]:
# Defina o otimizador
optimizer = optim.Adam(model.parameters(), lr=5e-5)

In [None]:
# Loop de treinamento
for epoch in range(3):
    total_loss = 0
    print(f'Época {epoch + 1}')
    for input_ids, attention_mask, labels in loader:
        # Mova os dados para o mesmo dispositivo que o modelo
        input_ids = input_ids.to(device)
        attention_mask = attention_mask.to(device)
        labels = labels.to(device)

        optimizer.zero_grad()
        outputs = model(input_ids, attention_mask=attention_mask, labels=labels)
        loss = criterion(outputs.logits, labels)
        total_loss += loss.item()
        loss.backward()
        optimizer.step()
        predictions = torch.argmax(outputs.logits, dim=1)
        print("Previsões:", predictions)
    print(f'Perda Total: {total_loss:.2f}')

In [None]:
# Mova o modelo para o mesmo dispositivo
model = model.to(device)

# Inicialize as listas para armazenar as previsões e os rótulos verdadeiros
predictions = []
true_labels = []

# Loop de treinamento
for epoch in range(3):
    total_loss = 0
    print(f'Época {epoch + 1}')
    for input_ids, attention_mask, labels in loader:
        # Mova os dados para o mesmo dispositivo que o modelo
        input_ids = input_ids.to(device)
        attention_mask = attention_mask.to(device)
        labels = labels.to(device)

        with torch.no_grad():
            outputs = model(input_ids, attention_mask=attention_mask)
            predictions.extend(torch.argmax(outputs.logits, dim=1).tolist())
            true_labels.extend(labels.tolist())

In [None]:
# Exibir previsões e rótulos
print("Previsões:", predictions)
print("Rótulos verdadeiros:", true_labels)

In [None]:
# Calcular a matriz de confusão
conf_matrix = confusion_matrix(true_labels, predictions)

# Plotar a matriz de confusão
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True,
            fmt='d', cmap='Blues',
            xticklabels=mapa_rotulos.keys(),
            yticklabels=mapa_rotulos.keys())

# Legenda gráfico
plt.xlabel('Rótulos Previstos')
plt.ylabel('Rótulos Verdadeiros')
plt.title('Matriz de Confusão - Modelo LLM Bert')
plt.show()

In [None]:
# Salvar o modelo treinado
model.save_pretrained('modelo_sentimentos_bert')

## **Modelo LLM 2 - EleutherAI/gpt-neo-125M**

In [None]:
df.head()

In [None]:
# Importando bibliotecas
from transformers import GPTNeoForCausalLM, GPT2Tokenizer

In [None]:
# Carregar o modelo e o tokenizador
model_name = "EleutherAI/gpt-neo-125M"

In [None]:
# Tokenizado
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

In [None]:
# Modelo
model = GPTNeoForCausalLM.from_pretrained(model_name)

In [None]:
# Transferir o modelo para a GPU, se disponível
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model.to(device)

In [None]:
# Função para gerar texto condicionado ao sentimento
def generate_conditioned_text(text, sentiment, max_length=50):

    input_text = f"{text} <SENTIMENT> {sentiment}"

    input_ids = tokenizer.encode(input_text,
                                 return_tensors="pt",
                                 max_length=max_length,
                                 truncation=True).to(device)

    output = model.generate(input_ids,
                            max_length=max_length,
                            pad_token_id=tokenizer.eos_token_id).to(device)

    return tokenizer.decode(output[0], skip_special_tokens=True)

# Definir o número de épocas
num_epocas = 3

# Sentimentos para condicionar o texto gerado
sentimentos = ["positivo", "negativo", "neutro"]

# Tempo de início
start_time = time()

# Gerar previsões de sentimentos para cada texto
previsoes = []

# Contador para acompanhar o número de iterações
iteracao = 0

# Loop para cada época
for epoch in range(num_epocas):
    print(f"Época {epoch + 1}/{num_epocas}")

    # Loop para cada texto
    for texto in df['Frase']:
        for sentimento in sentimentos:
            iteracao += 1
            print(f"Iteração {iteracao}")

            # Gerar texto condicionado ao sentimento
            texto_gerado = generate_conditioned_text(texto, sentimento)
            previsoes.append((texto, sentimento, texto_gerado))  # Armazenar o texto original, sentimento e o texto gerado
            print(f"Texto original: {texto}")
            print()
            print(f"Sentimento: {sentimento}")
            print()
            print(f"Texto gerado: {texto_gerado}")


In [None]:
# Criar DataFrame a partir das previsões
df_resultados = pd.DataFrame(previsoes,
                             columns=['Texto',
                                      'Sentimento',
                                      'Texto_Gerado'])

# Adicionar a coluna Sentimento
df_resultados.head()

In [None]:
# Salvar o DataFrame em um arquivo CSV
df_resultados.to_csv("resultados_llm.csv", index=False)

##**Clusterização os sentimentos com LLM**

In [None]:
# Dataset
data = pd.read_csv("resultados_llm.csv")
data.head()

In [None]:
# Dividir os dados em textos e rótulos
textos = data['Texto_Gerado'].tolist()
rotulos = data['Sentimento'].tolist()

In [None]:
# Vetorização dos textos usando TF-IDF

# Importando biblioteca
from sklearn.feature_extraction.text import TfidfVectorizer

# Defina o número máximo de features conforme necessário
vectorizer = TfidfVectorizer(max_features=5000)

# Treinamento modelo
X = vectorizer.fit_transform(data['Texto_Gerado'])

In [None]:
# Importando biblioteca
from sklearn.cluster import KMeans

# Calcular a inércia para diferentes valores de k
inertia = []
for k in range(1, 11):
    kmeans = KMeans(n_clusters=k, random_state=42)
    kmeans.fit(X)
    inertia.append(kmeans.inertia_)

# Plotar o gráfico Elbow
plt.plot(range(1, 11), inertia, marker='o')
plt.xlabel('Número de clusters')
plt.ylabel('Inércia')
plt.title('Método Elbow para encontrar o número ideal de clusters')
plt.show()

In [None]:
# Importando biblioteca
from sklearn.cluster import KMeans

# Defina o número ideal de clusters obtido a partir do método Elbow
k = 4

# Criar e ajustar o modelo K-means
kmeans = KMeans(n_clusters=k, random_state=42)

# Treinamento modelo
kmeans.fit(X)

In [None]:
# Obter os rótulos de cluster para cada amostra
labels = kmeans.labels_

In [None]:
# Adicionar os rótulos de cluster de volta ao dataframe original
data['Cluster'] = labels

# Visualizando
data.head()

In [None]:
## Modelo PCA

# Importando bibliotecas
from sklearn.decomposition import PCA

# Reduzir a dimensionalidade para visualização
pca = PCA(n_components=5)

# Treinamento
X_pca = pca.fit_transform(X.toarray())

# Visualizando
pca

In [None]:
# Plotar os clusters
plt.figure(figsize=(10, 6))

plt.scatter(X_pca[:, 0], X_pca[:, 1], cmap='viridis')

# Adicionar a legenda manualmente
for sentimento, cor in colors.items():
    plt.scatter([], [], color=cor, label=sentimento)

plt.title('Gráfico de Clusterização sentimentos LLM')
plt.xlabel('Componente Principal 1')
plt.ylabel('Componente Principal 2')
plt.legend(title='Sentimento')
plt.colorbar(label='Sentimento')
plt.show()

## **Conclusão**

Este projeto oferece uma introdução valiosa ao fascinante mundo dos modelos LLM e sua aplicação na análise de sentimento. Ao longo do projeto, ganhamos insights sobre como os modelos de linguagem podem ser usados para compreender e interpretar o contexto emocional dos textos. Este é apenas o primeiro passo em nossa jornada de exploração no campo da inteligência artificial e aprendizado de máquina.