In [None]:
# Importa√ß√µes para deep learning
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
warnings.filterwarnings('ignore')

# TensorFlow/Keras
import tensorflow as tf
from tensorflow.keras.models import Sequential, Model
from tensorflow.keras.layers import (Dense, LSTM, GRU, SimpleRNN, Embedding, 
                                   Conv1D, MaxPooling1D, GlobalMaxPooling1D,
                                   Dropout, BatchNormalization, Attention,
                                   Input, Bidirectional, TimeDistributed)
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.utils import to_categorical
from tensorflow.keras.optimizers import Adam
from tensorflow.keras.callbacks import EarlyStopping, ReduceLROnPlateau

# Scikit-learn para compara√ß√£o
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics import classification_report, confusion_matrix

# Visualiza√ß√£o
import plotly.express as px
import plotly.graph_objects as go

# NLP
import nltk
from nltk.tokenize import word_tokenize

# Datasets
import sys
sys.path.append('..')
from datasets.textos_exemplo import *
from utils.nlp_utils import *

# Configurar TensorFlow
tf.random.set_seed(42)
print(f"üß† TensorFlow {tf.__version__} carregado!")
print(f"GPU dispon√≠vel: {tf.config.list_physical_devices('GPU')}")
print("üß† Deep Learning para NLP pronto!")


In [None]:
# Preparar dados para deep learning
reviews_positivos = [
    "Excelente produto, recomendo muito!",
    "Adorei a qualidade, superou minhas expectativas.",
    "Muito bom, chegou r√°pido e bem embalado.",
    "Produto incr√≠vel, vale cada centavo!",
    "Estou muito satisfeito com a compra.",
    "Qualidade excepcional, comprarei novamente.",
    "Fant√°stico! Melhor que imaginava.",
    "Produto maravilhoso, entrega r√°pida.",
    "Simplesmente perfeito, recomendo a todos.",
    "Excelente custo-benef√≠cio, muito bom produto.",
    "Adorei o produto, muito √∫til no dia a dia.",
    "Superou todas as expectativas, incr√≠vel!",
    "Produto de alta qualidade, vale a pena.",
    "Muito satisfeito, chegou antes do prazo.",
    "Excelente atendimento e produto top!"
]

reviews_negativos = [
    "Produto terr√≠vel, n√£o recomendo.",
    "Muito ruim, dinheiro jogado fora.",
    "Qualidade p√©ssima, chegou quebrado.",
    "Horr√≠vel, n√£o serve para nada.",
    "Decepcionante, esperava muito mais.",
    "Produto de baixa qualidade, muito caro.",
    "N√£o gostei, vou devolver.",
    "P√©ssimo atendimento e produto ruim.",
    "N√£o vale o pre√ßo, muito caro para pouca qualidade.",
    "Produto defeituoso, n√£o funcionou.",
    "Muito ruim, n√£o recomendo a ningu√©m.",
    "P√©ssima qualidade, chegou danificado.",
    "Produto horr√≠vel, perda de tempo.",
    "N√£o gostei nada, muito decepcionante.",
    "Qualidade inferior, n√£o vale o dinheiro."
]

# Criar dataset
texts = reviews_positivos + reviews_negativos
labels = [1] * len(reviews_positivos) + [0] * len(reviews_negativos)

print(f"üìä Dataset para Deep Learning:")
print(f"Total de textos: {len(texts)}")
print(f"Positivos: {sum(labels)}")
print(f"Negativos: {len(labels) - sum(labels)}")

# Configura√ß√µes
MAX_WORDS = 1000
MAX_LEN = 50
EMBEDDING_DIM = 100

# Tokeniza√ß√£o e prepara√ß√£o dos dados
tokenizer = Tokenizer(num_words=MAX_WORDS, oov_token="<OOV>")
tokenizer.fit_on_texts(texts)

# Converter textos para sequ√™ncias
sequences = tokenizer.texts_to_sequences(texts)

# Padding das sequ√™ncias
X = pad_sequences(sequences, maxlen=MAX_LEN, padding='post', truncating='post')
y = np.array(labels)

print(f"\nüî¢ Dados processados:")
print(f"Forma de X: {X.shape}")
print(f"Forma de y: {y.shape}")
print(f"Vocabul√°rio: {len(tokenizer.word_index)} palavras")

# Exemplo de sequ√™ncia processada
print(f"\nüìù Exemplo de processamento:")
print(f"Texto original: '{texts[0]}'")
print(f"Sequ√™ncia: {sequences[0]}")
print(f"Padded: {X[0]}")

# Divis√£o treino/teste
X_train, X_test, y_train, y_test = train_test_split(
    X, y, test_size=0.2, random_state=42, stratify=y
)

print(f"\nüîÄ Divis√£o dos dados:")
print(f"Treino: {X_train.shape}")
print(f"Teste: {X_test.shape}")

# Fun√ß√£o para criar modelo LSTM
def create_lstm_model(vocab_size, embedding_dim, max_length, lstm_units=64):
    """Cria modelo LSTM para classifica√ß√£o bin√°ria"""
    
    model = Sequential([
        # Camada de embedding
        Embedding(vocab_size, embedding_dim, input_length=max_length),
        
        # Dropout para regulariza√ß√£o
        Dropout(0.3),
        
        # Camada LSTM
        LSTM(lstm_units, dropout=0.3, recurrent_dropout=0.3),
        
        # Camada densa
        Dense(32, activation='relu'),
        Dropout(0.5),
        
        # Camada de sa√≠da
        Dense(1, activation='sigmoid')
    ])
    
    return model

# Criar modelo
model = create_lstm_model(
    vocab_size=MAX_WORDS,
    embedding_dim=EMBEDDING_DIM,
    max_length=MAX_LEN,
    lstm_units=64
)

# Compilar modelo
model.compile(
    optimizer=Adam(learning_rate=0.001),
    loss='binary_crossentropy',
    metrics=['accuracy']
)

# Mostrar arquitetura
print(f"\nüèó Arquitetura do modelo:")
model.summary()

# Callbacks
early_stopping = EarlyStopping(
    monitor='val_loss',
    patience=5,
    restore_best_weights=True
)

reduce_lr = ReduceLROnPlateau(
    monitor='val_loss',
    factor=0.2,
    patience=3,
    min_lr=0.0001
)

# Treinar modelo
print(f"\nüöÄ Treinando modelo LSTM...")
history = model.fit(
    X_train, y_train,
    batch_size=8,
    epochs=20,
    validation_data=(X_test, y_test),
    callbacks=[early_stopping, reduce_lr],
    verbose=1
)

# Avaliar modelo
print(f"\nüìä Avalia√ß√£o do modelo:")
test_loss, test_accuracy = model.evaluate(X_test, y_test, verbose=0)
print(f"Acur√°cia no teste: {test_accuracy:.4f}")
print(f"Loss no teste: {test_loss:.4f}")

# Predi√ß√µes
y_pred_proba = model.predict(X_test)
y_pred = (y_pred_proba > 0.5).astype(int).flatten()

# Relat√≥rio de classifica√ß√£o
print(f"\nüìã Relat√≥rio de classifica√ß√£o:")
print(classification_report(y_test, y_pred, target_names=['Negativo', 'Positivo']))

# Visualizar hist√≥rico de treinamento
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))

# Accuracy
ax1.plot(history.history['accuracy'], label='Treino')
ax1.plot(history.history['val_accuracy'], label='Valida√ß√£o')
ax1.set_title('Acur√°cia do Modelo')
ax1.set_xlabel('√âpoca')
ax1.set_ylabel('Acur√°cia')
ax1.legend()
ax1.grid(True, alpha=0.3)

# Loss
ax2.plot(history.history['loss'], label='Treino')
ax2.plot(history.history['val_loss'], label='Valida√ß√£o')
ax2.set_title('Loss do Modelo')
ax2.set_xlabel('√âpoca')
ax2.set_ylabel('Loss')
ax2.legend()
ax2.grid(True, alpha=0.3)

plt.tight_layout()
plt.show()

# Testar com novos textos
novos_textos = [
    "Este produto √© fant√°stico, recomendo!",
    "Muito ruim, n√£o gostei nada.",
    "Qualidade m√©dia, poderia ser melhor.",
    "Excelente compra, muito satisfeito!"
]

print(f"\nüß™ Testando com novos textos:")
for texto in novos_textos:
    # Processar texto
    seq = tokenizer.texts_to_sequences([texto])
    padded = pad_sequences(seq, maxlen=MAX_LEN, padding='post')
    
    # Predizer
    pred_proba = model.predict(padded, verbose=0)[0][0]
    pred_label = "Positivo" if pred_proba > 0.5 else "Negativo"
    
    print(f"'{texto}'")
    print(f"  ‚Üí {pred_label} (confian√ßa: {pred_proba:.3f})")
    print()
