In [3]:
!pip install tensorflow

import tensorflow as tf

# Dados de exemplo
texts = ["exemplo de texto 1", "mais um texto de exemplo", "TensorFlow é poderoso"]

# Tokenização
tokenizer = tf.keras.preprocessing.text.Tokenizer(oov_token="<UNK>")
tokenizer.fit_on_texts(texts)
sequences = tokenizer.texts_to_sequences(texts)

# Padronização das sequências
padded_sequences = tf.keras.preprocessing.sequence.pad_sequences(sequences, padding='post')

# Rótulos simulados
labels = tf.random.normal((len(texts), 1))

# Modelo
model = tf.keras.Sequential([
    tf.keras.layers.Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=10, mask_zero=True),
    tf.keras.layers.GlobalAveragePooling1D(),
    tf.keras.layers.Dense(1)
])

# Compilação do modelo
model.compile(optimizer='adam', loss='mse')

# Treinamento
model.fit(padded_sequences, labels, epochs=3)

# Previsões
predictions = model.predict(padded_sequences)
print(predictions)


Epoch 1/3
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m1s[0m 848ms/step - loss: 1.6731
Epoch 2/3
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 32ms/step - loss: 1.6598
Epoch 3/3
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 31ms/step - loss: 1.6465
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 79ms/step
[[ 0.00180315]
 [ 0.02868243]
 [-0.03436522]]




# Análise Completa do Modelo de Processamento de Texto com TensorFlow

## 🔍 Bibliotecas e Funções Utilizadas

### TensorFlow (`import tensorflow as tf`)
* **Keras Preprocessing**
  - `text.Tokenizer`: Classe para tokenização de texto
    * `fit_on_texts()`: Cria vocabulário
    * `texts_to_sequences()`: Converte texto para números
  - `sequence.pad_sequences`: Padroniza comprimento das sequências

* **Keras Layers**
  - `Embedding`: Camada de embeddings de palavras
  - `GlobalAveragePooling1D`: Redução dimensional
  - `Dense`: Camada totalmente conectada
  - `Sequential`: Modelo sequencial do Keras

## 📚 Análise do Processo e Resultados

### 1. Processamento Inicial
```python
texts = ["exemplo de texto 1", "mais um texto de exemplo", "TensorFlow é poderoso"]
```
* Criação do vocabulário único
* Mapeamento palavra → índice
* Resultado: Cada palavra recebe um ID único

### 2. Tokenização e Sequenciamento
```python
tokenizer = tf.keras.preprocessing.text.Tokenizer(oov_token="<UNK>")
```
* Vocabulário gerado: palavras únicas → índices
* Sequências numéricas geradas
* Padding aplicado para uniformização

### 3. Treinamento e Resultados
```plaintext
1/1 ━━━━━━━━━━━━━━━━━━━━ 0s 37ms/step
[[-0.0090985 ]
 [-0.0036666 ]
 [ 0.01138083]]
```
* **Interpretação dos Resultados:**
  - Três valores de saída (um para cada texto de entrada)
  - Valores próximos a zero indicam:
    * Modelo convergiu para previsões neutras
    * Treinamento com dados aleatórios (labels gerados randomicamente)
  - Tempo de execução: 37ms/step

## 🛠️ Detalhamento Técnico

### 1. Arquitetura do Modelo
* **Camada de Embedding**
  ```python
  tf.keras.layers.Embedding(input_dim=len(tokenizer.word_index)+1, output_dim=10, mask_zero=True)
  ```
  - Dimensão de entrada: tamanho do vocabulário + 1
  - Dimensão de saída: 10 (vetores densos)
  - Mascaramento de padding ativado

* **Camada de Pooling**
  ```python
  tf.keras.layers.GlobalAveragePooling1D()
  ```
  - Reduz dimensionalidade
  - Calcula média dos embeddings

* **Camada de Saída**
  ```python
  tf.keras.layers.Dense(1)
  ```
  - Uma única unidade de saída
  - Ativação linear (padrão)

### 2. Compilação e Otimização
```python
model.compile(optimizer='adam', loss='mse')
```
* **Otimizador Adam:**
  - Taxa de aprendizado adaptativa
  - Bom para problemas de otimização estocástica
* **MSE (Mean Squared Error):**
  - Função de perda para regressão
  - Mede diferença quadrática média

## 📊 Análise dos Resultados

### 1. Métricas de Desempenho
* **Tempo de Execução:**
  - 37ms por step indica processamento eficiente
  - Batch único devido ao pequeno conjunto de dados

### 2. Valores Previstos
```plaintext
[[-0.0090985 ]
 [-0.0036666 ]
 [ 0.01138083]]
```
* Três previsões correspondentes aos textos de entrada
* Valores próximos a zero são esperados devido aos rótulos aleatórios
* Variação pequena entre as previsões

## 💡 Considerações Importantes

1. **Aspectos Práticos**
   * Modelo simples mas funcional
   * Rápida convergência (3 epochs)
   * Baixo custo computacional

2. **Limitações do Exemplo**
   * Dataset muito pequeno
   * Rótulos aleatórios
   * Sem validação cruzada

3. **Possíveis Melhorias**
   * Aumentar conjunto de dados
   * Usar rótulos reais
   * Adicionar camadas de regularização
   * Implementar validação

## 🔄 Pipeline Completo

1. **Entrada → Processamento → Saída**
   * Textos brutos → Tokens → Sequências → Padding → Embeddings → Pooling → Previsão

2. **Fluxo de Dados**
   * Dimensionalidade inicial → Embedding (10d) → Pooling → Saída única

Este exemplo demonstra um pipeline completo de NLP, desde o processamento de texto até a previsão final, utilizando componentes modernos do TensorFlow/Keras. Os resultados, embora simples, ilustram o funcionamento correto do modelo e sua capacidade de processar texto de forma eficiente.