## Bibliotecas de Gen AI e introdução as estruturas de redes

### Estruturas neurais que impulsionam a IA generativa
Antes do surgimento dos transformers, que funcionam como leitores extremamente rápidos capazes de compreender várias palavras de uma vez, outros métodos foram utilizados para possibilitar a geração de texto por computadores. Esses métodos foram essenciais como base para as capacidades impressionantes que temos atualmente.

### Geração de texto antes dos transformers

#### 1. Modelos de linguagem N-grama

Os modelos N-grama funcionam como detetives da linguagem. Eles preveem qual palavra virá a seguir em uma frase com base nas palavras que vieram antes. Por exemplo, se você disser "O céu é," esses modelos podem adivinhar que a próxima palavra seja "azul."

#### 2. Redes neurais recorrentes (RNN)
As redes neurais recorrentes (RNNs) são projetadas especialmente para lidar com dados sequenciais, tornando-as uma ferramenta poderosa para aplicações como modelagem de linguagem e previsão de séries temporais. A essência de seu design está em manter uma 'memória' ou 'estado oculto' ao longo da sequência, utilizando laços. Isso permite que as RNNs reconheçam e capturem as dependências temporais inerentes aos dados sequenciais.
- Estado oculto: Frequentemente referido como a 'memória' da rede, o estado oculto é um armazenamento dinâmico de informações sobre as entradas anteriores da sequência. A cada nova entrada, esse estado oculto é atualizado, considerando tanto a nova entrada quanto seu valor anterior.
- Dependência temporal: Os laços nas RNNs possibilitam a transferência de informações entre as etapas da sequência.
<img src="https://cf-courses-data.s3.us.cloud-object-storage.appdomain.cloud/IBMSkillsNetwork-GPXX0J87EN/%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9B%BE.png" width="60%" height="60%"> 

<div style="text-align:center"><a href="https://commons.wikimedia.org/wiki/File:%E9%80%92%E5%BD%92%E7%A5%9E%E7%BB%8F%E7%BD%91%E7%BB%9C%E5%9B%BE.png">Image Source</a></div>

Ilustração do funcionamento de uma RNN: Considere uma sequência simples, como a frase: "Eu amo RNNs". A RNN interpreta essa frase palavra por palavra. Começando com a palavra "Eu", a RNN a processa, gera uma saída e atualiza seu estado oculto. Ao passar para "amo", a RNN processa essa palavra junto com o estado oculto atualizado, que já contém informações sobre a palavra "Eu". O estado oculto é novamente atualizado após essa etapa. Esse padrão de processamento e atualização continua até a última palavra. Ao final da sequência, o estado oculto idealmente encapsula as informações de toda a frase.

#### 3. Memória de longo curto prazo (Long short-term memory - LSTM) e unidades recorrentes com portas (gated recurrent units - GRUs)
As redes LSTM (Memória de Longo Curto Prazo) e as GRUs (Unidades Recorrentes com Portas) são variações avançadas das redes neurais recorrentes (RNNs), projetadas para superar as limitações das RNNs tradicionais e aprimorar sua capacidade de modelar dados sequenciais de forma eficaz. Elas processam as sequências um elemento de cada vez e mantêm um estado interno para lembrar de elementos passados. Embora sejam eficazes para uma variedade de tarefas, enfrentam dificuldades com sequências longas e dependências de longo prazo.

#### 4. Modelos Seq2seq com atenção
Modelos de sequência para sequência (seq2seq), geralmente construídos com RNNs ou LSTMs, foram projetados para lidar com tarefas como tradução, onde uma sequência de entrada é transformada em uma sequência de saída.
O mecanismo de atenção foi introduzido para permitir que o modelo "focalize" partes relevantes da sequência de entrada ao gerar a saída, melhorando significativamente o desempenho em tarefas como tradução automática.
Embora esses métodos tenham trazido avanços significativos nas tarefas de geração de texto, a introdução dos transformers levou a uma mudança de paradigma. Os transformers, com seu mecanismo de autoatenção, provaram ser altamente eficientes em capturar informações contextuais em sequências longas, estabelecendo novos padrões em várias tarefas de NLP.

#### Transformers
Propostos em um artigo intitulado "Attention Is All You Need" por Vaswani et al. em 2017, a arquitetura transformer substituiu o processamento sequencial pelo processamento paralelo. O principal componente por trás de seu sucesso? O mecanismo de atenção, mais precisamente, a autoatenção.

Passos principais incluem:

- Tokenização (Tokenization): Primeiro, a frase é dividida em tokens (palavras ou subpalavras).
- Embeddings: Cada token é representado como um vetor, capturando seu significado.
- Autoatenção (Self-attention): O modelo calcula pontuações que determinam a importância de cada palavra em relação a uma palavra específica da sequência. Essas pontuações são usadas para ponderar os tokens de entrada e gerar uma nova representação da sequência. Por exemplo, na frase "Ele deu a ela um presente porque ela o ajudou", para entender quem "ela" se refere, o modelo precisa prestar atenção em outras palavras da frase. O transformer faz isso para cada palavra, considerando o contexto completo, o que é especialmente poderoso para entender significados.
- Redes neurais feed-forward: Após a atenção, cada posição é passada por uma rede feed-forward separadamente.
- Sequência de saída: O modelo gera uma sequência de saída, que pode ser usada em várias tarefas, como classificação, tradução ou geração de texto.
- Camadas (Layers): Transformers são modelos profundos com várias camadas de atenção e redes feed-forward, permitindo que aprendam padrões complexos.

A flexibilidade da arquitetura permitiu que transformers fossem usados além do NLP, aplicando-se também no processamento de imagens e vídeos. Em NLP, modelos baseados em transformers, como BERT, GPT e suas variantes, estabeleceram o estado da arte em várias tarefas, desde classificação de texto até tradução.

#### Construir um chatbot simples com transformers
Usando a biblioteca transformers da Hugging Face, uma ferramenta de código aberto para processamento de linguagem natural (NLP) que oferece muitos recursos úteis.

#### 1. Instalar as bibliotecas

In [2]:
#!pip install -qq tensorflow
#!pip install -qq transformers
#!pip install sentencepiece
#!pip install torch==2.0.3
#!pip install torchtext==0.15.2

#### 2. Importar as ferramentas e bibliotecas

In [14]:
import sentencepiece
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

import warnings
warnings.filterwarnings('ignore')

Iniciar as variáveis usando duas classes indispensáveis da biblioteca transformers:

- model é uma instância da classe AutoModelForSeq2SeqLM. Essa classe permite que você interaja com o modelo de linguagem escolhido.
- tokenizer é uma instância da classe AutoTokenizer. Essa classe otimiza sua entrada e a apresenta ao modelo de linguagem da maneira mais eficiente. Ela faz isso convertendo o texto em "tokens", a forma preferida do modelo para interpretar texto. Para este exemplo, você escolhe o modelo "facebook/blenderbot-400M-distill" porque ele é livremente disponível sob uma licença de código aberto e opera em um ritmo relativamente rápido. Para uma variedade de modelos e suas capacidades, você pode explorar o site da Hugging Face: [Hugging Face Models](https://huggingface.co/models).

In [8]:
# Selecionar modelo
model_name = "facebook/blenderbot-400M-distill"

# Carregar modelo e tokenizer
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
tokenizer = AutoTokenizer.from_pretrained(model_name)

pytorch_model.bin: 100%|████████████████████████████████████████████████████████████| 730M/730M [00:33<00:00, 22.0MB/s]
generation_config.json: 100%|█████████████████████████████████████████████████████████████████| 347/347 [00:00<?, ?B/s]
tokenizer_config.json: 100%|██████████████████████████████████████████████████████████████| 1.15k/1.15k [00:00<?, ?B/s]
vocab.json: 100%|████████████████████████████████████████████████████████████████████| 127k/127k [00:00<00:00, 575kB/s]
merges.txt: 100%|██████████████████████████████████████████████████████████████████| 62.9k/62.9k [00:00<00:00, 572kB/s]
added_tokens.json: 100%|████████████████████████████████████████████████████████████████████| 16.0/16.0 [00:00<?, ?B/s]
special_tokens_map.json: 100%|████████████████████████████████████████████████████████████████| 772/772 [00:00<?, ?B/s]


Após a inicialização, vamos configurar a função de chat para possibilitar a interação em tempo real com o chatbot.

In [11]:
# Chat function
def chat_with_bot():
    while True:
        # Get user input
        input_text = input("You:")

        # Exit conditions
        if input_text.lower() in ["quit", "exit", "bye"]:
            print("Chatbot: Goodbye!")
            break
        # Tokenizer input and generate response
        inputs = tokenizer.encode(input_text,
                                    return_tensors="pt")
        outputs = model.generate(inputs, max_new_tokens = 150)
        response = tokenizer.decode(outputs[0],
                                    skip_special_tokens=True
                                   ).strip()

        # Display bot's response
        print("Chatbot:", response)

In [12]:
# Start chatting...
chat_with_bot()

You: Hi Chat, how are you?


Chatbot: I'm doing well, thank you. How are you this fine evening? Do you have any plans?


You: bye


Chatbot: Goodbye!


#### 3. Experimentando outro modelo de linguagem e comparando a saída
Vamos utilizar um modelo de linguagem diferente, como o modelo "flan-t5-base" do Google, para criar um chatbot semelhante. É possível usar uma função de chat semelhante à definida no Passo 2 e comparar as respostas dos dois modelos.

In [15]:
model_name = "google/flan-t5-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

tokenizer_config.json: 100%|██████████████████████████████████████████████████████████████| 2.54k/2.54k [00:00<?, ?B/s]
spiece.model: 100%|█████████████████████████████████████████████████████████████████| 792k/792k [00:00<00:00, 9.91MB/s]
tokenizer.json: 100%|█████████████████████████████████████████████████████████████| 2.42M/2.42M [00:00<00:00, 3.58MB/s]
special_tokens_map.json: 100%|████████████████████████████████████████████████████████████| 2.20k/2.20k [00:00<?, ?B/s]
config.json: 100%|████████████████████████████████████████████████████████████████████████| 1.40k/1.40k [00:00<?, ?B/s]
model.safetensors: 100%|████████████████████████████████████████████████████████████| 990M/990M [00:50<00:00, 19.5MB/s]
generation_config.json: 100%|█████████████████████████████████████████████████████████████████| 147/147 [00:00<?, ?B/s]


In [18]:
# Start chatting
chat_with_bot()

You: Hi Chat, are you well?


Chatbot: I'm fine.


You: bye


Chatbot: Goodbye!


In [19]:
model_name = "google/flan-t5-small"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

tokenizer_config.json: 100%|██████████████████████████████████████████████████████████████| 2.54k/2.54k [00:00<?, ?B/s]
spiece.model: 100%|█████████████████████████████████████████████████████████████████| 792k/792k [00:00<00:00, 3.28MB/s]
tokenizer.json: 100%|█████████████████████████████████████████████████████████████| 2.42M/2.42M [00:00<00:00, 3.38MB/s]
special_tokens_map.json: 100%|████████████████████████████████████████████████████████████| 2.20k/2.20k [00:00<?, ?B/s]
config.json: 100%|████████████████████████████████████████████████████████████████████████| 1.40k/1.40k [00:00<?, ?B/s]
model.safetensors: 100%|████████████████████████████████████████████████████████████| 308M/308M [00:18<00:00, 16.3MB/s]
generation_config.json: 100%|█████████████████████████████████████████████████████████████████| 147/147 [00:00<?, ?B/s]


In [20]:
# Start chatting
chat_with_bot()

You: Hi, how are you chat?


Chatbot: i'm a sailor


You: What is a sailor?


Chatbot: a sailor


You: Ok


Chatbot: Ok, so you're not gonna be able to get a t-shirt.


You: bye


Chatbot: Goodbye!


In [21]:
model_name = "facebook/bart-base"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

config.json: 100%|████████████████████████████████████████████████████████████████████████| 1.72k/1.72k [00:00<?, ?B/s]
vocab.json: 100%|███████████████████████████████████████████████████████████████████| 899k/899k [00:00<00:00, 10.8MB/s]
merges.txt: 100%|███████████████████████████████████████████████████████████████████| 456k/456k [00:00<00:00, 1.96MB/s]
tokenizer.json: 100%|█████████████████████████████████████████████████████████████| 1.36M/1.36M [00:00<00:00, 5.81MB/s]
model.safetensors: 100%|████████████████████████████████████████████████████████████| 558M/558M [00:30<00:00, 18.3MB/s]


In [23]:
# Start chatting
chat_with_bot()

You: Hi, testing...


Chatbot: Hi, testing...


You: Why this is?


Chatbot: Why this is?


You: bye


Chatbot: Goodbye!


____
Esse material tem como referência o curso [Generative AI and LLMs: Architecture and Data Preparation](https://www.coursera.org/learn/generative-ai-llm-architecture-data-preparation?specialization=generative-ai-engineering-with-llms)