# Classifying movie review

### Visão Geral
A classificação binária é um dos problemas mais comuns em machine learning. Neste exemplo, o objetivo é classificar resenhas de filmes como **positivas** ou **negativas**, com base no conteúdo textual.

### O Conjunto de Dados IMDB
- Contém **50.000 resenhas polarizadas** (positivas ou negativas).
- Dividido em **25.000 para treino** e **25.000 para teste**.
- Cada conjunto possui **50% de resenhas positivas e 50% negativas**.
- Já vem pré-processado: as palavras das resenhas foram convertidas em **índices inteiros**, representando um vocabulário.

### Carregamento do Dataset
- Usa-se apenas as **10.000 palavras mais frequentes** no conjunto de treino.
- Isso reduz a dimensionalidade e remove palavras raras que não contribuem para a classificação.

### Dados de Entrada e Rótulos
- Os dados de treino e teste são **listas de sequências de inteiros**.
- Os rótulos (`labels`) são **0 para negativo** e **1 para positivo**.

### Preparação dos Dados
Redes neurais esperam **tensores com formatos padronizados**. Por isso, é necessário transformar as sequências de inteiros em vetores fixos. Duas abordagens são possíveis:

1. **Padding**: padronizar o comprimento das sequências com zeros e utilizar uma camada de embedding.
2. **Codificação Multi-Hot**: transformar cada sequência em um **vetor binário** com 0s e 1s, indicando a presença de palavras no vocabulário.

Nesse exemplo, a segunda abordagem é usada manualmente para melhor compreensão.

### Vetorização
- As sequências são convertidas em **vetores binários de 10.000 posições**.
- Cada vetor representa uma resenha, com `1` nos índices correspondentes às palavras presentes na resenha.

### Vetorização dos Rótulos
- Os rótulos também são convertidos para arrays NumPy do tipo `float32`, para compatibilidade com modelos de redes neurais.

In [5]:
from tensorflow.keras.datasets import imdb
import numpy as np

In [3]:
(train_data, train_labels), (test_data, test_labels) = imdb.load_data(num_words=10000)

Downloading data from https://storage.googleapis.com/tensorflow/tf-keras-datasets/imdb.npz
[1m17464789/17464789[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m2s[0m 0us/step


In [4]:
train_data[0], train_labels[0]

([1,
  14,
  22,
  16,
  43,
  530,
  973,
  1622,
  1385,
  65,
  458,
  4468,
  66,
  3941,
  4,
  173,
  36,
  256,
  5,
  25,
  100,
  43,
  838,
  112,
  50,
  670,
  2,
  9,
  35,
  480,
  284,
  5,
  150,
  4,
  172,
  112,
  167,
  2,
  336,
  385,
  39,
  4,
  172,
  4536,
  1111,
  17,
  546,
  38,
  13,
  447,
  4,
  192,
  50,
  16,
  6,
  147,
  2025,
  19,
  14,
  22,
  4,
  1920,
  4613,
  469,
  4,
  22,
  71,
  87,
  12,
  16,
  43,
  530,
  38,
  76,
  15,
  13,
  1247,
  4,
  22,
  17,
  515,
  17,
  12,
  16,
  626,
  18,
  2,
  5,
  62,
  386,
  12,
  8,
  316,
  8,
  106,
  5,
  4,
  2223,
  5244,
  16,
  480,
  66,
  3785,
  33,
  4,
  130,
  12,
  16,
  38,
  619,
  5,
  25,
  124,
  51,
  36,
  135,
  48,
  25,
  1415,
  33,
  6,
  22,
  12,
  215,
  28,
  77,
  52,
  5,
  14,
  407,
  16,
  82,
  2,
  8,
  4,
  107,
  117,
  5952,
  15,
  256,
  4,
  2,
  7,
  3766,
  5,
  723,
  36,
  71,
  43,
  530,
  476,
  26,
  400,
  317,
  46,
  7,
  4,
  2,
  1029,
  

In [None]:
# representação bag of words
def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        for j in sequence:
            results[i, j] = 1
        
    return results

x_train = vectorize_sequences(train_data)
x_test = vectorize_sequences(test_data)

In [7]:
x_train[0]

array([0., 1., 1., ..., 0., 0., 0.])

In [8]:
# transforma em array numpy do tipo float
y_train = np.asarray(train_labels).astype("float32")
y_test = np.asarray(test_labels).astype("float32")