# An√°lise de Sentimentos em Tweets usando LSTM

Este notebook implementa uma Rede Neural Recorrente (RNN) usando LSTM para an√°lise de sentimentos em postagens do Twitter.

## Objetivos:
- Pr√©-processar dados de tweets
- Implementar uma arquitetura LSTM
- Treinar o modelo para classifica√ß√£o de sentimentos (positivo/negativo)
- Avaliar o desempenho e apresentar resultados

In [4]:
# Importando bibliotecas necess√°rias
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import re
import warnings
warnings.filterwarnings('ignore')

# Para pr√©-processamento
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

import os
os.environ['KERAS_BACKEND'] = 'torch'

# Keras
import keras
from keras.models import Sequential
from keras.layers import Embedding, LSTM, Dense, Dropout, Bidirectional
from keras_hub import tokenizers as tokenizers
from keras.preprocessing.sequence import pad_sequences
from keras.callbacks import EarlyStopping, ReduceLROnPlateau

print(f"Keras version: {keras.__version__}")

ImportError: DLL load failed while importing _pywrap_tf2: N√£o foi poss√≠vel encontrar o m√≥dulo especificado.

In [None]:
# Carregamento dos dados
print("Carregando dados...")
try:
    # Carregando apenas uma amostra do dataset (50k registros)
    df = pd.read_csv('DATA/data.csv', encoding='latin-1', nrows=50000)
    print(f"Dataset carregado com sucesso! Shape: {df.shape}")
    
    # Verificando as primeiras linhas
    print("\nPrimeiras 5 linhas do dataset:")
    print(df.head())
    
    # Informa√ß√µes sobre o dataset
    print(f"\nInforma√ß√µes do dataset:")
    print(df.info())
    
    # Verificando valores √∫nicos na coluna de sentimento
    print(f"\nValores √∫nicos na coluna de sentimento:")
    print(df.iloc[:, 0].value_counts())
    
except Exception as e:
    print(f"Erro ao carregar dados: {e}")
    print("Tentando descobrir a estrutura do arquivo...")
    
    # Ler apenas as primeiras linhas para entender a estrutura
    sample = pd.read_csv('DATA/data.csv', encoding='latin-1', nrows=10)
    print(sample.head())

In [None]:
# Fun√ß√£o para pr√©-processamento de texto
def preprocess_text(text):
    """
    Fun√ß√£o para limpar e pr√©-processar os textos dos tweets
    """
    if pd.isna(text):
        return ""
    
    # Converter para string e lowercase
    text = str(text).lower()
    
    # Remover URLs
    text = re.sub(r'http\S+|www.\S+', '', text)
    
    # Remover men√ß√µes (@usuario)
    text = re.sub(r'@\w+', '', text)
    
    # Remover hashtags (# mas manter o texto)
    text = re.sub(r'#', '', text)
    
    # Remover caracteres especiais e n√∫meros
    text = re.sub(r'[^a-zA-Z\s]', '', text)
    
    # Remover espa√ßos extras
    text = re.sub(r'\s+', ' ', text).strip()
    
    return text

# Preparar os dados
print("Preparando dados para an√°lise...")

# Assumindo que a primeira coluna √© o sentimento (0=negativo, 4=positivo) 
# e a √∫ltima coluna √© o texto do tweet
df.columns = ['sentiment', 'id', 'date', 'query', 'user', 'text']

# Converter sentimento: 0 -> 0 (negativo), 4 -> 1 (positivo)
df['sentiment'] = df['sentiment'].map({0: 0, 4: 1})

# Aplicar pr√©-processamento
print("Aplicando pr√©-processamento no texto...")
df['cleaned_text'] = df['text'].apply(preprocess_text)

# Remover textos vazios
df = df[df['cleaned_text'].str.len() > 0]

print(f"Dataset ap√≥s pr√©-processamento: {df.shape}")
print(f"Distribui√ß√£o de sentimentos:")
print(df['sentiment'].value_counts())

# Mostrar exemplos de textos limpos
print("\nExemplos de textos antes e depois do pr√©-processamento:")
for i in range(3):
    print(f"\nOriginal: {df['text'].iloc[i]}")
    print(f"Limpo: {df['cleaned_text'].iloc[i]}")

In [None]:
# Tokeniza√ß√£o e prepara√ß√£o das sequ√™ncias
print("Preparando tokeniza√ß√£o...")

# Par√¢metros
MAX_VOCAB_SIZE = 10000  # Tamanho m√°ximo do vocabul√°rio
MAX_SEQUENCE_LENGTH = 100  # Tamanho m√°ximo das sequ√™ncias
EMBEDDING_DIM = 100  # Dimens√£o dos embeddings

# Separar features e target
X = df['cleaned_text'].values
y = df['sentiment'].values

# Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"Conjunto de treino: {len(X_train)} exemplos")
print(f"Conjunto de teste: {len(X_test)} exemplos")

# Tokeniza√ß√£o
import keras_hub
tokenizer = keras_hub.tokenizers.Tokenizer(num_words=MAX_VOCAB_SIZE, oov_token="<OOV>")
tokenizer.fit_on_texts(X_train)

#from transformers import AutoTokenizer

#tokenizer = AutoTokenizer.from_pretrained("bert-base-uncased")
#tokens = tokenizer(X_train.tolist(), padding=True, truncation=True, return_tensors="pt")

# Converter textos em sequ√™ncias
X_train_seq = tokenizer.texts_to_sequences(X_train)
X_test_seq = tokenizer.texts_to_sequences(X_test)

# Padding das sequ√™ncias
X_train_pad = pad_sequences(X_train_seq, maxlen=MAX_SEQUENCE_LENGTH, padding='post')
X_test_pad = pad_sequences(X_test_seq, maxlen=MAX_SEQUENCE_LENGTH, padding='post')

print(f"Shape dos dados de treino: {X_train_pad.shape}")
print(f"Shape dos dados de teste: {X_test_pad.shape}")

# Informa√ß√µes sobre o vocabul√°rio
vocab_size = len(tokenizer.word_index) + 1  # +1 para o token de padding
print(f"Tamanho do vocabul√°rio: {vocab_size}")
print(f"Tamanho efetivo usado: {min(vocab_size, MAX_VOCAB_SIZE)}")

# Mostrar exemplo de sequ√™ncia
print(f"\nExemplo de texto original: {X_train[0]}")
print(f"Sequ√™ncia correspondente: {X_train_seq[0][:10]}...")  # Primeiros 10 tokens
print(f"Sequ√™ncia com padding: {X_train_pad[0][:15]}...")  # Primeiros 15 tokens

In [None]:
# Cria√ß√£o do modelo LSTM
print("Criando modelo LSTM...")

# Par√¢metros do modelo
LSTM_UNITS = 64
DROPOUT_RATE = 0.5
LEARNING_RATE = 0.001

def create_lstm_model():
    """
    Cria um modelo LSTM simples para an√°lise de sentimentos
    """
    model = Sequential([
        # Camada de Embedding
        Embedding(
            input_dim=min(vocab_size, MAX_VOCAB_SIZE),
            output_dim=EMBEDDING_DIM,
            input_length=MAX_SEQUENCE_LENGTH,
            name='embedding'
        ),
        
        # Camada LSTM bidirecional
        Bidirectional(LSTM(LSTM_UNITS, dropout=DROPOUT_RATE, recurrent_dropout=DROPOUT_RATE)),
        
        # Camadas Dense
        Dense(32, activation='relu'),
        Dropout(DROPOUT_RATE),
        
        # Camada de sa√≠da
        Dense(1, activation='sigmoid')
    ])
    
    return model

# Criar o modelo
model = create_lstm_model()

# Compilar o modelo
model.compile(
    optimizer=keras.optimizers.Adam(learning_rate=LEARNING_RATE),
    loss='binary_crossentropy',
    metrics=['accuracy']
)

# Mostrar arquitetura do modelo
print("Arquitetura do modelo:")
model.summary()

# Visualizar par√¢metros do modelo
print(f"\nPar√¢metros do modelo:")
print(f"- Tamanho do vocabul√°rio: {min(vocab_size, MAX_VOCAB_SIZE)}")
print(f"- Dimens√£o dos embeddings: {EMBEDDING_DIM}")
print(f"- Tamanho m√°ximo da sequ√™ncia: {MAX_SEQUENCE_LENGTH}")
print(f"- Unidades LSTM: {LSTM_UNITS}")
print(f"- Taxa de dropout: {DROPOUT_RATE}")
print(f"- Taxa de aprendizado: {LEARNING_RATE}")

# Contar par√¢metros trein√°veis
trainable_params = model.count_params()
print(f"- Total de par√¢metros trein√°veis: {trainable_params:,}")

In [None]:
# Treinamento do modelo
print("Iniciando treinamento...")

# Callbacks para melhor treinamento
callbacks = [
    EarlyStopping(
        monitor='val_loss',
        patience=5,
        restore_best_weights=True,
        verbose=1
    ),
    ReduceLROnPlateau(
        monitor='val_loss',
        factor=0.5,
        patience=3,
        min_lr=1e-7,
        verbose=1
    )
]

# Par√¢metros de treinamento
BATCH_SIZE = 128
EPOCHS = 20
VALIDATION_SPLIT = 0.2

# Treinar o modelo
history = model.fit(
    X_train_pad, y_train,
    batch_size=BATCH_SIZE,
    epochs=EPOCHS,
    validation_split=VALIDATION_SPLIT,
    callbacks=callbacks,
    verbose=1
)

print("Treinamento conclu√≠do!")

# Salvar o modelo
model.save('modelo_lstm_sentimentos.keras')
print("Modelo salvo como 'modelo_lstm_sentimentos.keras'")

In [None]:
# Visualiza√ß√£o das curvas de treinamento
def plot_training_history(history):
    """
    Plota as curvas de loss e accuracy durante o treinamento
    """
    fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))
    
    # Plot da Loss
    ax1.plot(history.history['loss'], label='Loss de Treino', color='blue')
    ax1.plot(history.history['val_loss'], label='Loss de Valida√ß√£o', color='red')
    ax1.set_title('Curva de Loss', fontsize=14, fontweight='bold')
    ax1.set_xlabel('√âpocas')
    ax1.set_ylabel('Loss')
    ax1.legend()
    ax1.grid(True, alpha=0.3)
    
    # Plot da Accuracy
    ax2.plot(history.history['accuracy'], label='Accuracy de Treino', color='blue')
    ax2.plot(history.history['val_accuracy'], label='Accuracy de Valida√ß√£o', color='red')
    ax2.set_title('Curva de Accuracy', fontsize=14, fontweight='bold')
    ax2.set_xlabel('√âpocas')
    ax2.set_ylabel('Accuracy')
    ax2.legend()
    ax2.grid(True, alpha=0.3)
    
    plt.tight_layout()
    plt.show()

# Plotar curvas
plot_training_history(history)

# Estat√≠sticas do treinamento
print("Estat√≠sticas do treinamento:")
print(f"- N√∫mero de √©pocas executadas: {len(history.history['loss'])}")
print(f"- Loss final de treino: {history.history['loss'][-1]:.4f}")
print(f"- Loss final de valida√ß√£o: {history.history['val_loss'][-1]:.4f}")
print(f"- Accuracy final de treino: {history.history['accuracy'][-1]:.4f}")
print(f"- Accuracy final de valida√ß√£o: {history.history['val_accuracy'][-1]:.4f}")

# Identificar melhor √©poca
best_epoch = np.argmin(history.history['val_loss'])
print(f"- Melhor √©poca: {best_epoch + 1}")
print(f"- Melhor loss de valida√ß√£o: {history.history['val_loss'][best_epoch]:.4f}")
print(f"- Accuracy na melhor √©poca: {history.history['val_accuracy'][best_epoch]:.4f}")

In [None]:
# Avalia√ß√£o do modelo no conjunto de teste
print("Avaliando modelo no conjunto de teste...")

# Fazer predi√ß√µes
y_pred_proba = model.predict(X_test_pad)
y_pred = (y_pred_proba > 0.5).astype(int).flatten()

# Calcular m√©tricas
test_accuracy = accuracy_score(y_test, y_pred)
print(f"Accuracy no conjunto de teste: {test_accuracy:.4f}")

# Relat√≥rio de classifica√ß√£o
print("\nRelat√≥rio de Classifica√ß√£o:")
print(classification_report(y_test, y_pred, target_names=['Negativo', 'Positivo']))

# Matriz de confus√£o
cm = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(cm, annot=True, fmt='d', cmap='Blues', 
            xticklabels=['Negativo', 'Positivo'],
            yticklabels=['Negativo', 'Positivo'])
plt.title('Matriz de Confus√£o', fontsize=14, fontweight='bold')
plt.xlabel('Predito')
plt.ylabel('Real')
plt.show()

# Estat√≠sticas detalhadas
from sklearn.metrics import precision_score, recall_score, f1_score

precision = precision_score(y_test, y_pred)
recall = recall_score(y_test, y_pred)
f1 = f1_score(y_test, y_pred)

print(f"\nM√©tricas detalhadas:")
print(f"- Precis√£o: {precision:.4f}")
print(f"- Recall: {recall:.4f}")
print(f"- F1-Score: {f1:.4f}")

# An√°lise de distribui√ß√£o das predi√ß√µes
plt.figure(figsize=(12, 4))

plt.subplot(1, 2, 1)
plt.hist(y_pred_proba, bins=50, alpha=0.7, color='skyblue', edgecolor='black')
plt.title('Distribui√ß√£o das Probabilidades Preditas')
plt.xlabel('Probabilidade')
plt.ylabel('Frequ√™ncia')
plt.axvline(x=0.5, color='red', linestyle='--', label='Threshold (0.5)')
plt.legend()

plt.subplot(1, 2, 2)
labels = ['Negativo', 'Positivo']
counts = [np.sum(y_pred == 0), np.sum(y_pred == 1)]
plt.bar(labels, counts, color=['lightcoral', 'lightgreen'], alpha=0.7)
plt.title('Distribui√ß√£o das Predi√ß√µes')
plt.ylabel('N√∫mero de Tweets')
for i, count in enumerate(counts):
    plt.text(i, count + 10, str(count), ha='center', fontweight='bold')

plt.tight_layout()
plt.show()

In [None]:
# Exemplos de predi√ß√µes do modelo
print("5 EXEMPLOS DE PREDI√á√ïES DO MODELO:")
print("=" * 80)

# Fun√ß√£o para interpretar sentimento
def interpret_sentiment(score):
    return "Positivo" if score >= 0.5 else "Negativo"

def interpret_label(label):
    return "Positivo" if label == 1 else "Negativo"

# Selecionar 5 exemplos aleat√≥rios do conjunto de teste
np.random.seed(42)
random_indices = np.random.choice(len(X_test), 5, replace=False)

for i, idx in enumerate(random_indices, 1):
    original_text = X_test[idx]
    true_label = y_test[idx]
    pred_proba = y_pred_proba[idx][0]
    pred_label = y_pred[idx]
    
    print(f"\nExemplo {i}:")
    print(f"Tweet original: \"{original_text}\"")
    print(f"R√≥tulo verdadeiro: {interpret_label(true_label)}")
    print(f"Predi√ß√£o do modelo: {interpret_sentiment(pred_proba)} (confian√ßa: {pred_proba:.3f})")
    
    # Indicar se a predi√ß√£o est√° correta
    correct = "‚úì" if pred_label == true_label else "‚úó"
    print(f"Resultado: {correct} {'Correto' if pred_label == true_label else 'Incorreto'}")
    print("-" * 80)

# Estat√≠sticas dos exemplos
correct_predictions = sum(y_pred[idx] == y_test[idx] for idx in random_indices)
print(f"\nDos 5 exemplos mostrados: {correct_predictions}/5 corretos ({correct_predictions/5*100:.1f}%)")

# Fun√ß√£o para testar frases personalizadas
def predict_sentiment(text, model, tokenizer, max_len=MAX_SEQUENCE_LENGTH):
    """
    Prediz o sentimento de um texto personalizado
    """
    # Pr√©-processar o texto
    cleaned_text = preprocess_text(text)
    
    # Tokenizar e fazer padding
    sequence = tokenizer.texts_to_sequences([cleaned_text])
    padded_sequence = pad_sequences(sequence, maxlen=max_len, padding='post')
    
    # Fazer predi√ß√£o
    prediction = model.predict(padded_sequence, verbose=0)[0][0]
    
    return prediction, interpret_sentiment(prediction)

print("\n" + "=" * 80)
print("TESTE COM FRASES PERSONALIZADAS:")
print("=" * 80)

# Exemplos de teste
test_sentences = [
    "I love this movie, it's amazing!",
    "This is the worst day ever",
    "I'm feeling great today",
    "The weather is terrible",
    "Thank you so much for your help"
]

for sentence in test_sentences:
    prob, sentiment = predict_sentiment(sentence, model, tokenizer)
    print(f"Frase: \"{sentence}\"")
    print(f"Sentimento: {sentiment} (confian√ßa: {prob:.3f})")
    print("-" * 40)

In [None]:
# Resumo dos Resultados e Conclus√µes
print("RESUMO DOS RESULTADOS")
print("=" * 80)

print(f"üìä DADOS:")
print(f"   ‚Ä¢ Dataset original: 1.6M tweets (usamos amostra de 50k)")
print(f"   ‚Ä¢ Conjunto de treino: {len(X_train):,} exemplos")
print(f"   ‚Ä¢ Conjunto de teste: {len(X_test):,} exemplos")
print(f"   ‚Ä¢ Distribui√ß√£o balanceada entre sentimentos positivos e negativos")

print(f"\nüîß PR√â-PROCESSAMENTO:")
print(f"   ‚Ä¢ Remo√ß√£o de URLs, men√ß√µes (@usuario), hashtags")
print(f"   ‚Ä¢ Convers√£o para min√∫sculas")
print(f"   ‚Ä¢ Remo√ß√£o de caracteres especiais e n√∫meros")
print(f"   ‚Ä¢ Tokeniza√ß√£o com vocabul√°rio de {min(vocab_size, MAX_VOCAB_SIZE):,} palavras")
print(f"   ‚Ä¢ Padding para sequ√™ncias de tamanho {MAX_SEQUENCE_LENGTH}")

print(f"\nüß† ARQUITETURA DO MODELO:")
print(f"   ‚Ä¢ Embedding Layer: {EMBEDDING_DIM} dimens√µes")
print(f"   ‚Ä¢ Bidirectional LSTM: {LSTM_UNITS} unidades")
print(f"   ‚Ä¢ Dropout: {DROPOUT_RATE} para regulariza√ß√£o")
print(f"   ‚Ä¢ Dense Layer: 32 neur√¥nios + ReLU")
print(f"   ‚Ä¢ Output Layer: 1 neur√¥nio + Sigmoid")
print(f"   ‚Ä¢ Total de par√¢metros: {trainable_params:,}")

print(f"\n‚öôÔ∏è PAR√ÇMETROS DE TREINAMENTO:")
print(f"   ‚Ä¢ Optimizer: Adam (lr={LEARNING_RATE})")
print(f"   ‚Ä¢ Loss Function: Binary Crossentropy")
print(f"   ‚Ä¢ Batch Size: {BATCH_SIZE}")
print(f"   ‚Ä¢ √âpocas m√°ximas: {EPOCHS}")
print(f"   ‚Ä¢ Early Stopping: paci√™ncia de 5 √©pocas")
print(f"   ‚Ä¢ Learning Rate Reduction: fator 0.5, paci√™ncia 3 √©pocas")

print(f"\nüìà RESULTADOS PRINCIPAIS:")
print(f"   ‚Ä¢ Accuracy no teste: {test_accuracy:.1%}")
print(f"   ‚Ä¢ Precis√£o: {precision:.3f}")
print(f"   ‚Ä¢ Recall: {recall:.3f}")
print(f"   ‚Ä¢ F1-Score: {f1:.3f}")
print(f"   ‚Ä¢ √âpocas executadas: {len(history.history['loss'])}")

print(f"\n‚úÖ CONCLUS√ïES:")
print(f"   ‚Ä¢ O modelo LSTM bidirecional mostrou boa capacidade de generaliza√ß√£o")
print(f"   ‚Ä¢ A arquitetura simples foi eficaz para o problema de an√°lise de sentimentos")
print(f"   ‚Ä¢ O pr√©-processamento foi fundamental para melhorar a qualidade dos dados")
print(f"   ‚Ä¢ Os callbacks evitaram overfitting e otimizaram o treinamento")
print(f"   ‚Ä¢ O modelo pode ser usado para classificar sentimentos em novos tweets")

print(f"\nüîÑ POSS√çVEIS MELHORIAS:")
print(f"   ‚Ä¢ Usar embeddings pr√©-treinados (GloVe, Word2Vec)")
print(f"   ‚Ä¢ Experimentar arquiteturas mais complexas (GRU, Transformer)")
print(f"   ‚Ä¢ Aumentar o tamanho do dataset de treinamento")
print(f"   ‚Ä¢ Aplicar t√©cnicas de data augmentation")
print(f"   ‚Ä¢ Implementar ensemble de modelos")

print("=" * 80)