<a href="https://colab.research.google.com/github/johnnycleiton07/llm-studies/blob/main/Transformers_com_T5_na_pratica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Transformers na prática (sumarização de texto)

Transformers são uma arquitetura de redes neurais introduzida por Vaswani et al. em 2017 no artigo "Attention is All You Need". Eles revolucionaram o campo do processamento de linguagem natural (PLN) e, mais recentemente, estão sendo aplicados com sucesso em várias outras áreas, como visão computacional.

* A principal inovação dos transformers é o mecanismo de atenção, que permite que o modelo preste atenção em diferentes partes da entrada de maneira seletiva e paralela.

**Estrutura de um Transformer:**
1. **Codificador e Decodificador** - cada um tem suas próprias camadas internas, o codiificador recebe a entrada e o decodificador concede a saída.

2. **Camadas de Autoatenção** - faz com que o modelo dê ênfase as partes mais relevantes da entrada.

3. **Camadas Feedforward** - é semelhante a uma camada de rede neural clássica, seu diferencial é a capacidade de processar a informação de forma mais profunda.

**Modelos populares baseados em Transformers:**
* BERT
* GPT
* T5

Neste notebook vamos explorar o modelo T5 para sumarização de texto.

##Configurações iniciais

In [1]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

In [2]:
#baixando o modelo
model_name = 't5-small'
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/2.32k [00:00<?, ?B/s]

spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565
Special tokens have been added in the vocabulary, make sure the associated word embeddings are fine-tuned or trained.


config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/242M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

* O objetivo será fazer um resumo do texto abaixo

In [3]:
text = """summarize:
    A rede neural é uma estrutura computacional inspirada no cérebro humano.
    Ela é composta por camadas de neurônios artificiais que processam
    informações de forma hierárquica. As redes neurais são usadas em diversas
    aplicações, como reconhecimento de voz, visão computacional e tradução
    automática. Em termos simples, uma rede neural é um modelo de aprendizado
    de máquina projetado para reconhecer padrões complexos e tomar decisões
    com base nesses padrões."""

* Tokenização e vetorização do texto

In [4]:
inputs = tokenizer.encode(text, return_tensors='pt', max_length=512,
                          truncation=True)
print(inputs)

tensor([[21603,    10,    71,  1131,    15, 24228,     3,   154,   561,     9,
             3,    15,  6159,  7188,     3,   287,  2562,     9,    75,  6318,
            16,  7675, 14842,   150,     3,    75,   154,    60,  5702,   936,
            32,     5,  1289,     9,     3,   154, 17883,     9,  5569,  5511,
             9,  7664,    20,     3,    29,  1238, 10079,    29,    23,    32,
             7,   768,  3286,    23,     9,   159,   238,   433,   265,  3261,
             9,  8970,     2,    15,     7,    20,  8066,  1382,  2975,    52,
          1169,   658,     5,   282,  1131,    15,     7,  5854,  8316,     3,
             7,     2,    32,   178,     9,  7664,     3,    15,    51,  6558,
             9,     7, 10589,  8970,     2,    15,     7,     6,     3,   287,
            32, 18695,    88,    75,    23,   297,    32,    20,     3,  1621,
           172,     6,  4642,     2,    32,     3,   287,  2562,     9,    75,
          6318,     3,    15,     3,  1313,  1259,  

In [7]:
#código principal para gerar o resumo tokenizado
summary_ids = model.generate(
        inputs,
        max_length=100,
        min_length=25,
        length_penalty=2.0,
        num_beams=4,
        early_stopping=True
    )

print(summary_ids)

tensor([[    0,  1131,    15, 24228,     3,   154,   561,   825,    32,    20,
             3,     9,  2026,   727,  5584,    26,    32,    20,     3,    51,
          2975,  1169,    29,     9,  4391,     9,    26,    32,  3856, 18695,
            88,  2110,  8950,    52,     2,    15,     7,  1561,    32,     7,
             3,    15,    12,  1635, 18135,     2,    15,     7,     3,   287,
          1247,     3,   655,    15,     7,  8950,    52,     2,    15,     7,
             3,     5,     1]])


In [8]:
#processo de decodificação removendo os tokens especiais e transformando de volta em texto
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(f"Resumo: {summary}")

Resumo: rede neural é um modelo de aprendizado de máquina projetado para reconhecer padres complexos e tomar decises com base nesses padres.
