## 💬 RNN - Aplicações Práticas - LPN

 **Processamento de Linguagem Natural (NLP)**

## Análise de Sentimento

- Modelo básico de Rede Neural Recorrente (RNN) para uma tarefa de classificação binária de textos, como análise de sentimentos.

### Importando as bibliotecas

In [2]:
from keras.models import Sequential
from keras.layers import Embedding, SimpleRNN, Dense
from keras.datasets import imdb
from keras.preprocessing import sequence

### Carregando os dados - usaremos o dataset IMDB (reviews de filmes)

In [3]:
(X_train, y_train), (X_test, y_test) = imdb.load_data(num_words=10000)

```python
imdb.load_data(num_words=10000)
```

- Carrega um dataset com 100.000 avaliações de filmes do IMDb.
- As palavras nos textos são codificadas como números, onde cada número representa uma palavra específica.
- O parâmetro `num_words=10000` mantém apenas as 10.000 palavras mais frequentes no dataset; as demais são ignoradas para simplificar o processamento.

In [4]:
# Limitando o tamanho das reviews para 500 palavras
maxlen = 500
X_train = sequence.pad_sequences(X_train, maxlen=maxlen)
X_test = sequence.pad_sequences(X_test, maxlen=maxlen)

- Este trecho de código define um comprimento máximo para as sequências de texto e ajusta todas elas a esse tamanho, usando o comando sequence.`pad_sequences`:
    - A variável `maxlen = 500` estabelece que cada avaliação (sequência de palavras codificadas) terá no máximo **500 palavras**;
    - Se uma avaliação for mais longa, ela será truncada, e se for mais curta, será preenchida com zeros até atingir 500 elementos 
    - Isso é feito tanto para os dados de treino (`X_train`) quanto para os de teste (`X_test`), garantindo que todas as sequências tenham o mesmo tamanho
    - Uma exigência para o funcionamento correto das redes neurais recorrentes durante o treinamento em lotes.

In [5]:
# Construção do modelo
model = Sequential()
model.add(Embedding(input_dim=10000, output_dim=64))  # Codifica as palavras em vetores
model.add(SimpleRNN(units=64))  # Camada RNN básica
model.add(Dense(units=1, activation='sigmoid'))  # Saída: probabilidade de sentimento positivo

Este trecho **cria um modelo de rede neural recorrente (RNN) simples usando o Keras**, para uma tarefa de classificação binária de textos, como análise de sentimentos:

- `Embedding(input_dim=10000, output_dim=64)`:
  - Converte as palavras (que são números) em vetores de dimensão 64, criando uma representação densa e significativa para cada palavra.
  
- `SimpleRNN(units=64)`:
  - Camada RNN básica com 64 neurônios, que processa sequências de palavras e mantém uma memória do que foi visto anteriormente.

- `Dense(units=1, activation='sigmoid')`:
  - Camada de saída que produz uma única saída entre 0 e 1, indicando a probabilidade de a entrada pertencer à classe positiva (por exemplo, sentimento positivo).

> Em resumo: este é um modelo básico que **transforma texto em vetores, processa a sequência com memória e retorna uma previsão binária**.

In [6]:
# Compilação do modelo
model.compile(loss='binary_crossentropy', optimizer='adam', metrics=['accuracy'])

Este trecho **configura como o modelo será treinado**, definindo:

- `loss='binary_crossentropy'`:  
  A função de perda usada para medir o erro do modelo em tarefas de **classificação binária** (como determinar se uma avaliação é positiva ou negativa).

- `optimizer='adam'`:  
  O algoritmo usado para atualizar os pesos da rede durante o treinamento — **Adam** é um otimizador eficiente e amplamente usado.

- `metrics=['accuracy']`:  
  Define que a **acurácia** (percentual de previsões corretas) será usada como métrica de avaliação durante o treino e teste.

**Em resumo**: 
- este comando diz ao modelo para se preparar para o treinamento usando **Adam** como otimizador, **binary crossentropy** como medida de erro e **acurácia** como forma de avaliar seu desempenho.

In [7]:
# Treinamento do modelo
model.fit(X_train, y_train, epochs=5, batch_size=32, validation_split=0.2)

Epoch 1/5
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m26s[0m 40ms/step - accuracy: 0.6071 - loss: 0.6320 - val_accuracy: 0.8094 - val_loss: 0.4633
Epoch 2/5
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m24s[0m 38ms/step - accuracy: 0.8168 - loss: 0.4158 - val_accuracy: 0.6870 - val_loss: 0.5851
Epoch 3/5
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m24s[0m 38ms/step - accuracy: 0.7753 - loss: 0.4881 - val_accuracy: 0.6780 - val_loss: 0.5772
Epoch 4/5
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m25s[0m 40ms/step - accuracy: 0.7995 - loss: 0.4163 - val_accuracy: 0.7182 - val_loss: 0.5453
Epoch 5/5
[1m625/625[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m25s[0m 40ms/step - accuracy: 0.7598 - loss: 0.4843 - val_accuracy: 0.6372 - val_loss: 0.6336


<keras.src.callbacks.history.History at 0x288ecb18b00>

Este trecho **treina o modelo usando os dados de treino** por um número definido de épocas, com os seguintes detalhes:

- `X_train, y_train`:  
  São os dados de entrada (sequências de texto) e os respectivos rótulos (0 ou 1 para sentimento negativo ou positivo).

- `epochs=5`:  
  O modelo será treinado por **5 ciclos completos** sobre todo o conjunto de treinamento.

- `batch_size=32`:  
  A cada passo do treinamento, o modelo usará **32 amostras** para calcular o erro e atualizar seus pesos.

- `validation_split=0.2`:  
  Usa **20% dos dados de treino** como conjunto de validação durante o treinamento, para monitorar o desempenho do modelo em dados não vistos durante o ajuste dos pesos.

> Em resumo: este comando **treina a rede neural por 5 épocas**, usando lotes de 32 amostras, e a cada época avalia o desempenho com 20% dos dados reservados para validação.

In [8]:
# Avaliação no conjunto de teste
loss, accuracy = model.evaluate(X_test, y_test)
print(f'Acurácia no conjunto de teste: {accuracy * 100:.2f}%')

[1m782/782[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m9s[0m 12ms/step - accuracy: 0.6395 - loss: 0.6384
Acurácia no conjunto de teste: 63.86%


Este trecho **avalia o desempenho do modelo treinado no conjunto de teste**, ou seja, em dados que ele **nunca viu durante o treinamento**:

- `model.evaluate(X_test, y_test)`:
  - Calcula a **perda (loss)** e a **acurácia (accuracy)** do modelo nos dados de teste.
  
- `loss, accuracy = ...`:
  - Armazena os valores de erro e acerto do modelo nas variáveis `loss` e `accuracy`.

- `print(f'Acurácia no conjunto de teste: {accuracy * 100:.2f}%')`:
  - Exibe a **acurácia em porcentagem**, com duas casas decimais, para facilitar a interpretação.

📌 **Resumo**: Este código testa o modelo com dados novos e mostra **quão bem ele generaliza**, ou seja, como ele se sairá em situações reais com dados desconhecidos.