<a href="https://colab.research.google.com/github/lcbjrrr/genai/blob/main/00_RAG_NLP_GCPpt.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Fundamentos

##  Natural Language Processing (NLP)

O Processamento de Linguagem Natural (NLP) é um campo multidisciplinar na interseção da ciência da computação, inteligência artificial (IA) e linguística. Seu objetivo principal é permitir que os computadores compreendam, interpretem e gerem linguagem humana de uma forma significativa e útil. Isso envolve o desenvolvimento de algoritmos e modelos para processar dados brutos de texto e fala, permitindo que as máquinas realizem tarefas como tradução, análise de sentimentos, sumarização de texto e assistentes de voz. O NLP é fundamental para a forma como as pessoas interagem com a tecnologia, tornando os sistemas mais intuitivos e capazes de lidar com a complexidade e as nuances da comunicação humana.

## Language Neural Networks and Deep Learning


A aprendizagem profunda, baseada em redes neurais e especificamente em Redes Neurais Recorrentes (RNNs), revolucionou o Processamento de Linguagem Natural (PLN) ao permitir que os computadores compreendam a natureza sequencial da linguagem humana. Variantes de RNN, como LSTM e GRUs, utilizam um estado oculto interno (memória) para manter o contexto ao longo de uma sequência de palavras, superando a limitação das redes neurais padrão. Essa capacidade permite que elas se destaquem em tarefas sequenciais, como tradução automática (usando modelos codificador-decodificador), modelagem de linguagem para geração de texto e análise de sentimentos. Embora a arquitetura Transformer mais recente tenha se tornado dominante, as RNNs estabeleceram a base crucial da aprendizagem profunda para lidar com a complexidade, o contexto e as dependências inerentes aos dados textuais.

![](https://pbs.twimg.com/media/G55BA6oXIAA4x_y?format=jpg&name=900x900)

### A Feedforward Neural Network (FNN)

Uma rede neural de alimentação direta, frequentemente chamada de Rede Neural Feedforward (FNN), é o tipo mais simples de rede neural artificial. Em uma FNN, a informação se move em apenas uma direção — para frente — da camada de entrada, passando por quaisquer camadas ocultas, e finalmente chegando à camada de saída. Não há loops ou ciclos, o que significa que os dados fluem linearmente sem retornar ao início, tornando-as adequadas para tarefas como classificação e regressão, onde a entrada é mapeada diretamente para uma saída.

![](https://pbs.twimg.com/media/G55BMjMWwAAFIVf?format=png&name=360x360)

### Recurrent Neural Networks (RNNs)

Uma Rede Neural Recorrente (RNN) é um tipo de rede neural projetada especificamente para processar dados sequenciais, como texto, fala ou séries temporais. Ao contrário das Redes Feedforward, as RNNs possuem um loop que permite a passagem de informações de uma etapa da rede para a seguinte, efetivamente conferindo-lhes uma memória interna ou estado oculto. Essa memória permite que a rede considere o contexto dos elementos anteriores em uma sequência ao processar o elemento atual. Isso torna as RNNs particularmente adequadas para tarefas como processamento de linguagem natural (PLN), onde o significado de uma palavra depende fortemente das palavras que a precedem, permitindo que elas executem tarefas dependentes de sequência, como modelagem de linguagem e tradução automática.

![](https://pbs.twimg.com/media/G55B_46WMAA12ts?format=png&name=360x360)

In [None]:
import numpy as np
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import SimpleRNN, Dense
text = "Deep learning, based on neural networks and specifically Recurrent Neural Networks (RNNs), revolutionized Natural Language Processing (NLP)"
chars = sorted(list(set(text)))
char_to_index = {char: i for i, char in enumerate(chars)}
index_to_char = {i: char for i, char in enumerate(chars)}
char_to_index

{' ': 0,
 '(': 1,
 ')': 2,
 ',': 3,
 'D': 4,
 'L': 5,
 'N': 6,
 'P': 7,
 'R': 8,
 'a': 9,
 'b': 10,
 'c': 11,
 'd': 12,
 'e': 13,
 'f': 14,
 'g': 15,
 'i': 16,
 'k': 17,
 'l': 18,
 'n': 19,
 'o': 20,
 'p': 21,
 'r': 22,
 's': 23,
 't': 24,
 'u': 25,
 'v': 26,
 'w': 27,
 'y': 28,
 'z': 29}

In [None]:
seq = text[0:0 + 3]
label = text[3]
print(seq,([char_to_index[char] for char in seq]))
print(label,char_to_index[label])

Dee [4, 13, 13]
p 21


In [None]:
seq_length = 3
sequences = []
labels = []
for i in range(len(text) - seq_length):
    seq = text[i:i + seq_length]
    label = text[i + seq_length]
    sequences.append([char_to_index[char] for char in seq])
    labels.append(char_to_index[label])

X = np.array(sequences)
y = np.array(labels)
print(y)
X

[21  0 18 13  9 22 19 16 19 15  3  0 10  9 23 13 12  0 20 19  0 19 13 25
 22  9 18  0 19 13 24 27 20 22 17 23  0  9 19 12  0 23 21 13 11 16 14 16
 11  9 18 18 28  0  8 13 11 25 22 22 13 19 24  0  6 13 25 22  9 18  0  6
 13 24 27 20 22 17 23  0  1  8  6  6 23  2  3  0 22 13 26 20 18 25 24 16
 20 19 16 29 13 12  0  6  9 24 25 22  9 18  0  5  9 19 15 25  9 15 13  0
  7 22 20 11 13 23 23 16 19 15  0  1  6  5  7  2]


array([[ 4, 13, 13],
       [13, 13, 21],
       [13, 21,  0],
       [21,  0, 18],
       [ 0, 18, 13],
       [18, 13,  9],
       [13,  9, 22],
       [ 9, 22, 19],
       [22, 19, 16],
       [19, 16, 19],
       [16, 19, 15],
       [19, 15,  3],
       [15,  3,  0],
       [ 3,  0, 10],
       [ 0, 10,  9],
       [10,  9, 23],
       [ 9, 23, 13],
       [23, 13, 12],
       [13, 12,  0],
       [12,  0, 20],
       [ 0, 20, 19],
       [20, 19,  0],
       [19,  0, 19],
       [ 0, 19, 13],
       [19, 13, 25],
       [13, 25, 22],
       [25, 22,  9],
       [22,  9, 18],
       [ 9, 18,  0],
       [18,  0, 19],
       [ 0, 19, 13],
       [19, 13, 24],
       [13, 24, 27],
       [24, 27, 20],
       [27, 20, 22],
       [20, 22, 17],
       [22, 17, 23],
       [17, 23,  0],
       [23,  0,  9],
       [ 0,  9, 19],
       [ 9, 19, 12],
       [19, 12,  0],
       [12,  0, 23],
       [ 0, 23, 21],
       [23, 21, 13],
       [21, 13, 11],
       [13, 11, 16],
       [11, 1

In [None]:
X_one_hot = tf.one_hot(X, len(chars))
y_one_hot = tf.one_hot(y, len(chars))
y_one_hot

<tf.Tensor: shape=(136, 30), dtype=float32, numpy=
array([[0., 0., 0., ..., 0., 0., 0.],
       [1., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       ...,
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 0., ..., 0., 0., 0.],
       [0., 0., 1., ..., 0., 0., 0.]], dtype=float32)>

In [None]:
model = Sequential()
model.add(SimpleRNN(50, input_shape=(seq_length, len(chars)), activation='relu'))
model.add(Dense(len(chars), activation='softmax'))
model.compile(optimizer='adam', loss='categorical_crossentropy', metrics=['accuracy'])
model.fit(X_one_hot, y_one_hot, epochs=100)

  super().__init__(**kwargs)


Epoch 1/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m4s[0m 17ms/step - accuracy: 0.0322 - loss: 3.3939
Epoch 2/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - accuracy: 0.0627 - loss: 3.3707
Epoch 3/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 18ms/step - accuracy: 0.0759 - loss: 3.3413
Epoch 4/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step - accuracy: 0.1398 - loss: 3.3054
Epoch 5/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 17ms/step - accuracy: 0.1632 - loss: 3.2834
Epoch 6/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 13ms/step - accuracy: 0.1688 - loss: 3.2704
Epoch 7/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 14ms/step - accuracy: 0.1570 - loss: 3.2450
Epoch 8/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 20ms/step - accuracy: 0.1886 - loss: 3.2034
Epoch 9/100
[1m5/5[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[3

<keras.src.callbacks.history.History at 0x7c3f986405c0>

In [None]:
start_seq = "Deep learn"
generated_text = start_seq
x = np.array([[char_to_index[char] for char in generated_text[-seq_length:]]])
print(x)
x_one_hot = tf.one_hot(x, len(chars))
prediction = model.predict(x_one_hot)
print(prediction)
next_index = np.argmax(prediction)
print('i=',next_index)
index_to_char[next_index]

[[ 9 22 19]]
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 224ms/step
[[4.1251425e-03 6.2324303e-05 2.2147446e-04 1.9480025e-03 1.2255202e-07
  1.0490847e-03 6.5407349e-04 3.5293182e-04 2.2353372e-03 2.7259419e-04
  1.2645606e-04 2.5162909e-03 1.0940621e-02 4.7563175e-03 6.1482824e-05
  7.4091151e-02 7.3047072e-01 7.2677008e-06 6.4172670e-03 1.2773836e-01
  2.9101330e-04 4.3879808e-03 1.4244112e-03 1.1509197e-02 8.1044408e-03
  2.8423651e-03 2.0474964e-03 1.0588899e-04 4.6334579e-04 7.7690370e-04]]
i= 16


'i'

In [None]:
for i in range(60):
    x = np.array([[char_to_index[char] for char in generated_text[-seq_length:]]])
    x_one_hot = tf.one_hot(x, len(chars))
    prediction = model.predict(x_one_hot)
    next_index = np.argmax(prediction)
    next_char = index_to_char[next_index]
    generated_text += next_char

print("Generated Text:")
print(generated_text)

[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 56ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 67ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 62ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 54ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 65ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 68ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 72ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 205ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 73ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 77ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 60ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 81ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 66ms/step
[1m1/1[0m [32m━━━━━━━━━━━━━━━━━━━━[0m[37m[0m [1m0s[0m 6

## T5 (Text-to-Text Transfer Transformer)

O modelo T5 (Text-to-Text Transfer Transformer), desenvolvido pelo Google AI, revolucionou o PNL (Processamento de Linguagem Natural) ao introduzir uma estrutura unificada onde cada tarefa linguística é tratada como um problema de texto para texto. Construído sobre a estrutura codificador-decodificador da arquitetura Transformer, o T5 consegue lidar com diversas tarefas — incluindo tradução, sumarização, resposta a perguntas e classificação — simplesmente fornecendo à entrada um prefixo específico da tarefa (por exemplo, "traduzir inglês para alemão: ...") e recebendo a saída como texto simples. Essa consistência simplifica o design do modelo e permite que um único modelo pré-treinado alcance resultados de última geração em diversos benchmarks após o ajuste fino.

![](https://pbs.twimg.com/media/G55IpcfW8AAYrY4?format=png&name=360x360)

Os Transformers são uma arquitetura de rede neural poderosa que utiliza um **mecanismo de atenção** para ponderar a importância de diferentes partes dos dados de entrada, permitindo-lhes processar sequências em paralelo e capturar eficientemente dependências de longo alcance, tornando-se a base para modelos de linguagem modernos de grande escala como o BERT e o GPT.

![](https://pbs.twimg.com/media/G55JZMnXAAAgub2?format=jpg&name=900x900)

In [None]:
# !pip install transformers torch sentencepiece

In [None]:
from transformers import T5Tokenizer, T5ForConditionalGeneration
import torch
model_name = "t5-small"
model = T5ForConditionalGeneration.from_pretrained(model_name)
tokenizer = T5Tokenizer.from_pretrained(model_name)

Modelo de linguagem T5 para tarefas de texto para texto. Importa os componentes necessários da biblioteca transformers, especifica o modelo pré-treinado t5-small e, em seguida, inicializa tanto o tokenizador (para converter texto em IDs numéricos) quanto o próprio modelo a partir dessa versão pré-treinada.



In [None]:
input_text = "translate English to German: Good morning"
inputs = tokenizer(input_text, return_tensors="pt") #PyTorch
inputs

{'input_ids': tensor([[13959,  1566,    12,  2968,    10,  1804,  1379,     1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1]])}

In [None]:
translation_ids = model.generate(inputs.input_ids, max_length=50, num_beams=5, early_stopping=True)
print(translation_ids)
translation_text = tokenizer.decode(translation_ids[0], skip_special_tokens=True)
print("Translation:", translation_text)

tensor([[    0,  7756,    35, 20147,     1]])
Translation: Guten Morgen


Um tokenizador e modelo T5 para realizar tradução automática. Ele tokeniza o texto de entrada ('traduzir inglês para alemão: Bom dia'), gera IDs de tradução usando o modelo T5 pré-treinado e, em seguida, decodifica esses IDs de volta para um texto legível por humanos, finalmente imprimindo a frase traduzida em alemão.



---



# Atividade: Tradução de Máquina






Atividade: Tradução de Máquina

Esta tarefa tem como objetivo que os alunos explorem e comparem a eficácia de diferentes ferramentas de tradução na conversão de textos que contêm terminologia específica de domínio de negócio. O aluno deve selecionar um texto-fonte curto (ate 5 paginas) rico em jargões técnicos de uma área de negócio, e em seguida, utilizar três ferramentas de tradução distintas, para traduzir esse texto para duas línguas de destino. A etapa crucial será a análise comparativa dos resultados, onde o foco deve estar na precisão terminológica dos termos de negócio, na coerência e na fluidez do texto traduzido. Finalmente, o aluno deverá elaborar um breve relatório que detalhe qual ferramenta demonstrou a melhor (e pior) performance na manutenção do significado e da precisão técnica do vocabulário especializado.

Desafío:  Como um desafio extra, reflita sobre as diferenças entre traduzir um texto corrido e traduzir o conteúdo de uma apresentação de slides (PowerPoint ou Google Slides).