**Carregamento e Preparação dos Dados**

In [1]:
import tensorflow as tf
from tensorflow.keras import layers, utils
import matplotlib.pyplot as plt
import os
import re

In [None]:
# --- CONFIGURAÇÃO ---
dataset_dir = os.path.join('data', 'aclImdb')
train_dir = os.path.join(dataset_dir, 'train')
test_dir = os.path.join(dataset_dir, 'test')

# Parâmetros
BATCH_SIZE = 32 
VALIDATION_SPLIT = 0.2 
SEED = 42 

print(f"Procurando dados em: {os.path.abspath(train_dir)}")

# --- 1. CARREGAR DADOS DE TREINO E VALIDAÇÃO ---
print("Carregando conjunto de TREINO...")
train_dataset = utils.text_dataset_from_directory(
    train_dir,
    batch_size=BATCH_SIZE,
    validation_split=VALIDATION_SPLIT,
    subset='training',
    seed=SEED
)

print("Carregando conjunto de VALIDAÇÃO...")
validation_dataset = utils.text_dataset_from_directory(
    train_dir,
    batch_size=BATCH_SIZE,
    validation_split=VALIDATION_SPLIT,
    subset='validation',
    seed=SEED
)

# --- 2. CARREGAR DADOS DE TESTE ---
print("Carregando conjunto de TESTE...")
test_dataset = utils.text_dataset_from_directory(
    test_dir,
    batch_size=BATCH_SIZE
)

# --- VERIFICAÇÃO FINAL (antes de otimização) ---
print("\n✅ Sucesso! Classes encontradas:", train_dataset.class_names)
# Esperamos: ['neg', 'pos']

# --- 3. OTIMIZAÇÃO DE PERFORMANCE (CACHE) ---
# Isso faz com que o disco não seja lido repetidamente a cada época
print("Datasets otimizados para performance...")
train_dataset = train_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)
validation_dataset = validation_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)
test_dataset = test_dataset.cache().prefetch(buffer_size=tf.data.AUTOTUNE)

Procurando dados em: c:\Users\alex_\Desktop\PE33\Projetos PE33\Projeto 5 - Classificador de sentimentos\classificador-sentimentos\data\aclImdb\train
Carregando conjunto de TREINO...
Found 75000 files belonging to 3 classes.
Using 60000 files for training.
Carregando conjunto de VALIDAÇÃO...
Found 75000 files belonging to 3 classes.
Using 15000 files for validation.
Carregando conjunto de TESTE...
Found 25000 files belonging to 2 classes.

✅ Sucesso! Classes encontradas: ['neg', 'pos', 'unsup']
Otimizando datasets para performance...
