In [None]:
'''
🔎 1. MLP - Multilayer Perceptron (Perceptron Multicamadas)

📌 Conceito
É a rede neural mais simples;
Composta por camadas densas (fully connected);
Cada neurônio da camada anterior se conecta com todos da próxima;
Não possui noção de sequência nem de posição das palavras.

📐 Arquitetura
Input Layer: recebe o vetor da entrada (pode ser um vetor TF-IDF, ou embeddings pré-treinados);
Hidden Layers: 1 ou mais camadas densas com função de ativação (ReLU, tanh);
Output Layer: saída com softmax (classificação) ou regressão.

💡 Limitação em NLP:
Trata cada palavra como independente;
Não captura contexto sequencial;
Serve bem para tarefas simples, como classificação de texto baseada em bag-of-words.
'''

# ---------- ---------- ----------

'''
🔎 2. CNN - Convolutional Neural Networks

📌 Conceito
Famosa no processamento de imagens, mas também poderosa em NLP;
Capaz de capturar padrões locais (n-gramas);
Usa filtros (kernels) que "escaneiam" pedaços do texto.

📐 Arquitetura aplicada a NLP
Input: sequência de embeddings (matriz de palavras x dimensão do embedding);
Convolução 1D: aplica filtros sobre sequências de palavras;
Pooling: reduz a dimensionalidade (max-pooling);
Dense Layer: classifica ou gera saída.

📊 Vantagens em NLP
✅ Captura padrões locais (frases curtas, expressões);
✅ Computacionalmente mais leve que RNN;
✅ Muito usada para tarefas de classificação de sentenças ou sentimentos.

⚠️ Limitação
Não entende dependências de longo alcance;
Não processa bem o contexto global.
'''

# ---------- ---------- ----------

'''
🔎 3. RNN - Recurrent Neural Networks

📌 Conceito
Projetada especificamente para lidar com sequências;
Possui uma "memória" que armazena o estado anterior;
Cada palavra depende da anterior (contexto).

📐 Arquitetura
Input: sequência de embeddings;
Cada step da RNN processa um token e atualiza o hidden state;
Hidden State carrega a memória da sequência;
Output: pode ser por token (tradução) ou global (classificação).

📊 Vantagens
✅ Captura dependências sequenciais;
✅ Perfeita para tarefas como tradução, modelagem de linguagem, tagging.

⚠️ Limitação
Vanish/Exploding Gradients: perde informação em sequências longas;
Treinamento lento;
Por isso surgiram LSTM e GRU.
'''

In [1]:
!pip install keras
!pip install tensorflow



In [2]:
# ✅ Exemplo de Pipeline: Classificação de Sentimento com CNN

# Exemplo simples com keras
from keras.models import Sequential
from keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense

model = Sequential()
model.add(Embedding(input_dim=5000, output_dim=128, input_length=100))  # Embedding das palavras
model.add(Conv1D(filters=64, kernel_size=5, activation='relu'))         # CNN captura padrões locais
model.add(GlobalMaxPooling1D())                                         # Reduz a sequência para um vetor fixo
model.add(Dense(1, activation='sigmoid'))                               # Classificação binária (positivo/negativo)

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])




In [9]:
!pip install preprocessing
!pip install keras-preprocessing

Collecting keras-preprocessing
  Downloading Keras_Preprocessing-1.1.2-py2.py3-none-any.whl.metadata (1.9 kB)
Downloading Keras_Preprocessing-1.1.2-py2.py3-none-any.whl (42 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m42.6/42.6 kB[0m [31m1.7 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: keras-preprocessing
Successfully installed keras-preprocessing-1.1.2


In [13]:
texts = [
    "Eu amei esse filme",       # 1 (positivo)
    "O filme foi horrível",     # 0 (negativo)
    "Gostei bastante",          # 1
    "Achei muito ruim",         # 0
    "Excelente, recomendo!",    # 1
]
labels = [1, 0, 1, 0, 1]


from tensorflow.keras.preprocessing.text import Tokenizer
from keras.utils import pad_sequences

# Tokenizador para criar o vocabulário
tokenizer = Tokenizer(num_words=5000)
tokenizer.fit_on_texts(texts)

# Converte o texto em sequência de inteiros
X = tokenizer.texts_to_sequences(texts)

# Padroniza o tamanho das frases (para input fixo na CNN)
X = pad_sequences(X, maxlen=10)  # Ex: cada frase terá no máximo 10 tokens


from keras.models import Sequential
from keras.layers import Embedding, Conv1D, GlobalMaxPooling1D, Dense

model = Sequential()
model.add(Embedding(input_dim=5000, output_dim=128, input_length=10))  # Embedding das palavras
model.add(Conv1D(filters=64, kernel_size=3, activation='relu'))       # Extrai padrões de 3 palavras
model.add(GlobalMaxPooling1D())                                       # Reduz para vetor fixo
model.add(Dense(1, activation='sigmoid'))                             # Classificação binária

model.compile(optimizer='adam', loss='binary_crossentropy', metrics=['accuracy'])

'''
ERROR: ModuleNotFoundError: No module named 'keras.preprocessing.text'

Esse erro acontece porque, nas versões mais recentes do TensorFlow (TF 2.10+), o Keras foi totalmente integrado e o keras.preprocessing.text.Tokenizer foi descontinuado. Agora você deve importar o Tokenizer direto do TensorFlow:

✅ Importação correta nas versões recentes

`from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import pad_sequences`
'''



In [14]:
import numpy as np
y = np.array(labels)

# Treinando o modelo
model.fit(X, y, epochs=10, verbose=1)


Epoch 1/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m3s[0m 3s/step - accuracy: 0.4000 - loss: 0.6977
Epoch 2/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 61ms/step - accuracy: 1.0000 - loss: 0.6743
Epoch 3/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 56ms/step - accuracy: 1.0000 - loss: 0.6549
Epoch 4/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 53ms/step - accuracy: 1.0000 - loss: 0.6381
Epoch 5/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 55ms/step - accuracy: 0.8000 - loss: 0.6236
Epoch 6/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 138ms/step - accuracy: 1.0000 - loss: 0.6098
Epoch 7/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 54ms/step - accuracy: 1.0000 - loss: 0.5963
Epoch 8/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 53ms/step - accuracy: 1.0000 - loss: 0.5828
Epoch 9/10
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1

<keras.src.callbacks.history.History at 0x7976a9decd50>

In [18]:
# Teste com frase nova
new_text = ["O filme é maravilhoso"]
new_seq = tokenizer.texts_to_sequences(new_text)
new_seq = pad_sequences(new_seq, maxlen=10)

# Predição de sentimento
pred = model.predict(new_seq)
print(pred)  # Resultado: valor próximo de 1 (positivo)

## testei com outras frases mas parece dar sempre o mesmo valor

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 40ms/step
[[0.5188355]]


In [19]:
# Teste com frase nova
new_text = ["O filme é péssimo"]
new_seq = tokenizer.texts_to_sequences(new_text)
new_seq = pad_sequences(new_seq, maxlen=10)

# Predição de sentimento
pred = model.predict(new_seq)
print(pred)  # Resultado: valor próximo de 1 (positivo)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 38ms/step
[[0.5188355]]


In [20]:
# Teste com frase nova
new_text = ["Não gosto de peixe cru"]
new_seq = tokenizer.texts_to_sequences(new_text)
new_seq = pad_sequences(new_seq, maxlen=10)

# Predição de sentimento
pred = model.predict(new_seq)
print(pred)  # Resultado: valor próximo de 1 (positivo)

## testei com outras frases mas parece dar sempre o mesmo valor

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 38ms/step
[[0.55619985]]


In [None]:
'''
🔥 Resultado
Você agora tem uma mini CNN funcional para Classificação de Sentimentos que: ✅ Lê uma frase
✅ Analisa os padrões das palavras
✅ Classifica como positivo ou negativo
'''