**Carregamento e Prepara√ß√£o dos Dados**

In [None]:
import tensorflow as tf
from tensorflow.keras import layers, utils
import matplotlib.pyplot as plt
import os
import re
import shutil

In [15]:
# --- CONFIGURA√á√ÉO ---
dataset_dir = os.path.join('data', 'aclImdb')
train_dir = os.path.join(dataset_dir, 'train')
test_dir = os.path.join(dataset_dir, 'test')

BATCH_SIZE = 32
VALIDATION_SPLIT = 0.2
SEED = 42

# Remove a pasta 'unsup' para evitar problemas!
unsup_dir = os.path.join(train_dir, 'unsup')
if os.path.exists(unsup_dir):
    shutil.rmtree(unsup_dir)
    print(f"üßπ Pasta intrusa removida: {unsup_dir}")
else:
    print("‚ú® A pasta 'unsup' n√£o existe mais. Tudo limpo.")

# --- 1. CARREGAR TREINO ---
print("\nCarregando dados de TREINO...")
train_dataset = utils.text_dataset_from_directory(
    train_dir,
    batch_size=BATCH_SIZE,
    validation_split=VALIDATION_SPLIT,
    subset='training',
    seed=SEED
)

# --- 2. CARREGAR VALIDA√á√ÉO ---
print("Carregando dados de VALIDA√á√ÉO...")
validation_dataset = utils.text_dataset_from_directory(
    train_dir,
    batch_size=BATCH_SIZE,
    validation_split=VALIDATION_SPLIT,
    subset='validation',
    seed=SEED
)

# --- 3. CARREGAR TESTE ---
print("Carregando dados de TESTE...")
test_dataset = utils.text_dataset_from_directory(
    test_dir,
    batch_size=BATCH_SIZE
)

# --- VERIFICA√á√ÉO FINAL ---
print("\n‚úÖ Classes finais:", train_dataset.class_names)
# deve aparecer apenas: ['neg', 'pos']

‚ú® A pasta 'unsup' n√£o existe mais. Tudo limpo.

Carregando dados de TREINO...
Found 25000 files belonging to 2 classes.
Using 20000 files for training.
Carregando dados de VALIDA√á√ÉO...
Found 25000 files belonging to 2 classes.
Using 5000 files for validation.
Carregando dados de TESTE...
Found 25000 files belonging to 2 classes.

‚úÖ Classes finais: ['neg', 'pos']


In [16]:
# Salvando o nome das classes
class_names = train_dataset.class_names
print(f"Nomes das classes: {class_names}") # Deve imprimir ['neg', 'pos']

# Aplicando otimiza√£o
# A partir daqui, train_dataset muda de tipo e fica mais r√°pido
train_dataset = train_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)
validation_dataset = validation_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)
test_dataset = test_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)

print("Pipeline de dados otimizado com sucesso!")

Nomes das classes: ['neg', 'pos']
Pipeline de dados otimizado com sucesso!


**Pr√©-processamento do Texto**

O cora√ß√£o do pr√©-processamento ser√° a camada TextVectorization. Ela executa tr√™s tarefas essenciais:

1- Padroniza√ß√£o: Limpa o texto (remove pontua√ß√£o, converte para min√∫sculas, etc.).

2- Tokeniza√ß√£o: Divide o texto em palavras individuais (tokens).

3- Vetoriza√ß√£o: Converte cada token em um n√∫mero inteiro.

Esta camada ser√° treinada com nossos dados e depois integrada diretamente ao modelo, garantindo que o pr√©-processamento seja consistente durante o treino, avalia√ß√£o e infer√™ncia.

In [18]:
# 1. Definir par√¢metros para a vetoriza√ß√£o
VOCAB_SIZE = 10000  # Manter as 10.000 palavras mais frequentes
SEQUENCE_LENGTH = 250 # Padronizar todas as cr√≠ticas para terem 250 palavras

# 2. Criar a camada de vetoriza√ß√£o de texto
# A camada j√° lida com a convers√£o para min√∫sculas e remo√ß√£o de pontua√ß√£o por padr√£o
vectorize_layer = layers.TextVectorization(
    max_tokens=VOCAB_SIZE,
    output_mode='int',
    output_sequence_length=SEQUENCE_LENGTH
)

# 3. Treinar a camada de vetoriza√ß√£o nos dados de treino
# √â crucial usar apenas os dados de treino para construir o vocabul√°rio,
# evitando vazamento de dados (data leakage) do conjunto de teste.
# Mapeamos o dataset para extrair apenas o texto, descartando os r√≥tulos.
train_text = train_dataset.map(lambda text, label: text)
vectorize_layer.adapt(train_text)

# --- Verifica√ß√£o do Processo ---
def vectorize_text(text, label):
    text = tf.expand_dims(text, -1)
    return vectorize_layer(text), label

# Exemplo de como um lote de texto √© convertido em n√∫meros
text_batch, label_batch = next(iter(train_dataset))
first_review, first_label = text_batch[0], label_batch[0]
print("--- Exemplo de Vetoriza√ß√£o ---")
print("Cr√≠tica Original:", first_review.numpy().decode('utf-8'))
# Usar a vari√°vel 'class_names' (salva antes de aplicar cache/prefetch) em vez de acessar attribute no dataset
print("R√≥tulo:", class_names[int(first_label.numpy())])
print("\nCr√≠tica Vetorizada:", vectorize_layer(tf.constant([first_review.numpy()])).numpy()[0, :15])
print("Palavras correspondentes:", vectorize_layer.get_vocabulary()[12:20]) # Exemplo de vocabul√°rio

--- Exemplo de Vetoriza√ß√£o ---
Cr√≠tica Original: "Pandemonium" is a horror movie spoof that comes off more stupid than funny. Believe me when I tell you, I love comedies. Especially comedy spoofs. "Airplane", "The Naked Gun" trilogy, "Blazing Saddles", "High Anxiety", and "Spaceballs" are some of my favorite comedies that spoof a particular genre. "Pandemonium" is not up there with those films. Most of the scenes in this movie had me sitting there in stunned silence because the movie wasn't all that funny. There are a few laughs in the film, but when you watch a comedy, you expect to laugh a lot more than a few times and that's all this film has going for it. Geez, "Scream" had more laughs than this film and that was more of a horror film. How bizarre is that?<br /><br />*1/2 (out of four)
R√≥tulo: neg

Cr√≠tica Vetorizada: [   1    7    4  194   18 2941   12  256  127   51  384   71  167  257
   70]
Palavras correspondentes: [np.str_('that'), np.str_('br'), np.str_('was'), np.str_(

**Constru√ß√£o do Modelo RNN (com LSTM)**

Com o pr√©-processamento definido, podemos construir a arquitetura da nossa rede neural.

1- Camada de Embedding: Transforma os n√∫meros inteiros (tokens) em vetores densos de tamanho fixo (embedding_dim). Isso permite que o modelo aprenda o significado e as rela√ß√µes entre as palavras.

2- Camada Bidirecional (LSTM): O n√∫cleo da nossa RNN. A LSTM (Long Short-Term Memory) √© uma variante de RNN eficaz para capturar depend√™ncias de longo prazo no texto. Usar Bidirectional permite que a rede processe a sequ√™ncia de texto tanto da esquerda para a direita quanto da direita para a esquerda, capturando um contexto mais rico.

3- Camadas Densas: As camadas finais que atuam como um classificador sobre as features extra√≠das pela LSTM. A √∫ltima camada usa a ativa√ß√£o sigmoid, pois a sa√≠da √© bin√°ria (Positivo/Negativo).

In [19]:
# Dimens√£o do Embedding (representa√ß√£o vetorial de cada palavra)
EMBEDDING_DIM = 16

model = tf.keras.Sequential([
    # 1. A camada de entrada que espera strings de texto
    layers.Input(shape=(1,), dtype=tf.string),
    
    # 2. A camada de pr√©-processamento que definimos
    vectorize_layer,
    
    # 3. Camada de Embedding: Mapeia o vocabul√°rio para vetores densos
    layers.Embedding(VOCAB_SIZE, EMBEDDING_DIM),
    
    # 4. Camada LSTM Bidirecional para aprender com as sequ√™ncias
    # O uso de Bidirectional √© uma pr√°tica comum e eficaz em NLP
    layers.Bidirectional(layers.LSTM(32, return_sequences=True)),
    layers.Bidirectional(layers.LSTM(16)), # Adicionando uma segunda camada LSTM para mais profundidade
    
    # 5. Camadas de classifica√ß√£o final
    layers.Dense(32, activation='relu'),
    layers.Dropout(0.5), # Dropout para regulariza√ß√£o e combate ao overfitting
    layers.Dense(1, activation='sigmoid') # Sa√≠da bin√°ria (0 ou 1)
])