**Trabalho unidade III - Large language models (LLMs) - TF**  
 Tópicos especiais em engenharia de software.

Este arquivo tem o objetivo de realizar uma exploração prática do modelo de lingaguem T5.


1.   Um dos primeiros passo é utilizar o modelo T5 através da biblioteca transformers da [Hugging Face](https://huggingface.co/). Ponto inicial, começar instalando a biblioteca com:



In [None]:
pip install transformers



2.   Agora é possível carregar um modelo pré-treinado, para este exemplo inicial o [T5-base](https://huggingface.co/google-t5/t5-base) pode ser usado.

In [None]:
from transformers import T5Tokenizer, T5ForConditionalGeneration

# Carregando o tokenizer e o modelo
tokenizer = T5Tokenizer.from_pretrained('t5-base')
model = T5ForConditionalGeneration.from_pretrained('t5-base')


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


spiece.model:   0%|          | 0.00/792k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.39M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.21k [00:00<?, ?B/s]

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


model.safetensors:   0%|          | 0.00/892M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/147 [00:00<?, ?B/s]

3.   O T5 é um modelo chamado de "text-to-text", então é possível realizar tarefas de NLP como: tradução, resumo, resposta a perguntas e sumarização. O exemplo para tradução pode ser visto abaixo:

In [None]:
# Definindo um texto para tradução como entrda
input_text = "translate English to French: I want to have coffee with you."

# Tokenize o texto de entrada
input_ids = tokenizer.encode(input_text, return_tensors='pt')

# Gera o texto
outputs = model.generate(input_ids, max_length=40, num_beams=4, early_stopping=True)

# Decodifique a saída gerada
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("  saida obtida: ", generated_text)
print("saída esperada: Je veux avoir un café avec vous.")

  saida obtida: Je veux avoir un café avec vous.
saída esperada: Je veux avoir un café avec vous.


Mais um exemplo de tradução:

In [None]:
input_text = "translate English to French: How are you?"

input_ids = tokenizer.encode(input_text, return_tensors='pt')

outputs = model.generate(input_ids, max_length=40, num_beams=4, early_stopping=True)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("  saida obtida: ", generated_text)
print("saída esperada: Comment êtes-vous?")

  saida obtida:  Comment êtes-vous?
saída esperada: Comment êtes-vous?


Também há possibilidades de tradução para outras línguas, para traduzir do **inglês** para o **alemão**, pode-se usar o T5-small:

In [None]:
# Carregar o tokenizer e o modelo T5-small
tokenizer = T5Tokenizer.from_pretrained("t5-small")
model = T5ForConditionalGeneration.from_pretrained("t5-small")

input_text = "translate English to German: The house is wonderful."

input_ids = tokenizer.encode(input_text, return_tensors="pt")

outputs = model.generate(input_ids, max_length=40, num_beams=4, early_stopping=True)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)

print("  saída obtida  :", generated_text)
print("saída esperada  : Das Haus ist wunderbar.")

  saída obtida  : Das Haus ist wunderbar.
saída esperada  : Das Haus ist wunderbar.


4.  Como mencionado, o T5 também pode ser usado para resumo de textos, veja um exemplo deste tipo de uso a seguir:

In [None]:
#tradução do input_text -> A rápida raposa marrom salta sobre o cão preguiçoso.
input_text = "summarize: The quick brown fox jumps over the lazy dog."

input_ids = tokenizer.encode(input_text, return_tensors='pt')
outputs = model.generate(input_ids, max_length=20, num_beams=4, early_stopping=True)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("      saida obtida: " + generated_text)
print("saída esperada (1): quick brown fox jumps over lazy dog.")
print("saída esperada (2): The fox jumps over the dog.")

      saida obtida: quick brown fox jumps over lazy dog.
saída esperada (1): quick brown fox jumps over lazy dog.
saída esperada (2): The fox jumps over the dog.


Outro exemplo de resumo usando o T5:

In [None]:
#tradução do input_text -> O sol nasce no leste e se põe no oeste, marcando a passagem do tempo.
input_text = "summarize: The sun rises in the east and sets in the west, marking the passage of time."

input_ids = tokenizer.encode(input_text, return_tensors='pt')
outputs = model.generate(input_ids, max_length=13, num_beams=4, early_stopping=True)

generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("      saida obtida: ", generated_text)
print("saída esperada (1): The sun rises in the east and sets in the west.")
print("saída esperada (2): The sun rises marking the passage of time.")

      saida obtida:  the sun rises in the east and sets in the west
saída esperada (1): The sun rises in the east and sets in the west.
saída esperada (2): The sun rises marking the passage of time.


5.  Algo que é possivel ser feito usando a função *generate*, é ajustar manualmente parâmetros de geração como: *temperature* e *top-k sampling*.

Antes disso, uma breve descrição do que cada parâmetro siginifica:



*   **Temperatura (temperature)**: Controla o nível de aleatoriedade na previsão. Basicamente, valores menores tornam a saída mais previsível, enquanto valores maiores tornam a saída mais variada. O valor padrão é 1.0.
*   **Top-k Sampling (top_k)**: Restringe a escolha do próximo token aos K mais prováveis, promovendo maior diversidade ao evitar sempre o token mais provável. Um valor comum é top_k=50.
*   **Top-p Sampling (top_p)**: Também chamado de nucleus sampling, seleciona tokens cuja soma de probabilidades seja menor que p, oferecendo mais controle sobre a diversidade. Pode ser usado com top-k para ajustar a variabilidade.


Abaixo há um exmplo simples de tradução, porém, com os ajustes de parâmetros podemos observar mudanças nas saídas.



In [None]:
input_text = "translate English to French: How are you?"

# Tokenizar o texto de entrada
input_ids = tokenizer.encode(input_text, return_tensors='pt')

# Gerar texto com diferentes parâmetros
outputs = model.generate(input_ids,
                         max_length=40,
                         temperature=0.7,   # Controle da aleatoriedade (menor que 1 é menos aleatório)
                         top_k=50,          # Top-k sampling (considera os 50 tokens mais prováveis)
                         top_p=0.9,         # Nucleus sampling (tokens cujas probabilidades somam 90%)
                         do_sample=True,    # Ativação da amostragem
                         num_return_sequences=3  # Gerar 3 saídas q
                         )

# Decodificar e imprimir as saídas geradas
for i, output in enumerate(outputs):
    generated_text = tokenizer.decode(output, skip_special_tokens=True)
    print(f"Saída {i+1}: {generated_text}")

Saída 1: Comment êtes-vous?
Saída 2: Quel est votre état de santé?
Saída 3: Comment vous êtes-vous?


In [None]:
input_text = "translate English to French: How are you?"

input_ids = tokenizer.encode(input_text, return_tensors='pt')

outputs = model.generate(input_ids,
                         max_length=40,
                         temperature=1.0, #Alterei de 0.7 para 1.0
                         top_k=50,
                         top_p=0.9,
                         do_sample=True,
                         num_return_sequences=3
                         )

for i, output in enumerate(outputs):
    generated_text = tokenizer.decode(output, skip_special_tokens=True)
    print(f"Saída {i+1}: {generated_text}")

Saída 1: Quel est votre sort?
Saída 2: Comment êtes-vous?
Saída 3: Comment vous êtes-vous?


In [None]:
input_text = "translate English to French: How are you?"


input_ids = tokenizer.encode(input_text, return_tensors='pt')

outputs = model.generate(input_ids,
                         max_length=40,
                         temperature=0.1, #Alterei 1.0 para 0.1
                         top_k=50,
                         top_p=0.9,
                         do_sample=True,
                         num_return_sequences=3
                         )

for i, output in enumerate(outputs):
    generated_text = tokenizer.decode(output, skip_special_tokens=True)
    print(f"Saída {i+1}: {generated_text}")

Saída 1: Comment vous êtes-vous?
Saída 2: Comment vous êtes-vous?
Saída 3: Comment vous êtes-vous?


6.  Podemos também testar outros modelo pré-treinados, inclusive em outras lingas. Abaixo podemos ver um exemplo de um modelo em português que foi desenvolvido para perguntas e resposas (*QA*). Mais detalhes sobre o modelo está disponivel em

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

# Nome do modelo e inicialização do tokenizer e do modelo
model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# Texto de entrada (pergunta e contexto)
input_text = (
    "question: Quando foi descoberta a Covid-19? "
    "context: A pandemia de COVID-19, também conhecida como pandemia de coronavírus, "
    "é uma pandemia em curso de COVID-19, uma doença respiratória aguda causada pelo coronavírus da "
    "síndrome respiratória aguda grave 2 (SARS-CoV-2). A doença foi identificada pela primeira vez em "
    "Wuhan, na província de Hubei, República Popular da China, em 1 de dezembro de 2019, mas o primeiro "
    "caso foi reportado em 31 de dezembro do mesmo ano."
)

# Resposta esperada
label = '1 de dezembro de 2019'

# Tokenização do texto de entrada
inputs = tokenizer(input_text, return_tensors="pt")

# Geração de respostas
outputs = model.generate(
    inputs["input_ids"],
    max_length=32,
    num_beams=4,
    early_stopping=True,
    do_sample=True,  # Ativando amostragem para maior diversidade
)

# Decodificação da resposta gerada
pred = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

# Impressão dos resultados
print('saída esperada    :', label)
print('saída obtida      :', pred)



saída esperada    : 1 de dezembro de 2019
saída obtida      : 1 de dezembro de 2019


Outro exemplo utilizando outro texto:

In [None]:
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

model_name = "pierreguillou/t5-base-qa-squad-v1.1-portuguese"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)

# Texto de entrada
input_text = (
    "question: Quando o Brasil foi descoberto? "
    "context: A chegada dos portugueses ao Brasil foi parte do processo das grandes navegações. "
    "Pedro Álvares Cabral foi o líder de uma expedição composta por 13 embarcações e cerca de 1200 homens. "
    "O primeiro ponto do Brasil avistado pelos portugueses foi a região do Monte Pascoal, na Bahia, no dia "
    "22 de abril de 1500."
)
label = "22 de abril de 1500."

# Tokenização da entrada
inputs = tokenizer(input_text, return_tensors="pt")

outputs = model.generate(
    inputs["input_ids"],
    max_length=32,
    num_beams=5,
    early_stopping=True
)

pred = tokenizer.decode(outputs[0], skip_special_tokens=True, clean_up_tokenization_spaces=True)

print('saída esperada    :', label)
print('saída obtida      :', pred)



saída esperada    : 22 de abril de 1500.
saída obtida      : 22 de abril de 1500


7.  Por fim, podemos utilizar o T5 para geração de textos, abaixo está um exemplo simples de como o T5 lida esse tipo de função.

In [None]:
model_name = "t5-base"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

# Texto de entrada (prompt)
input_text = "My house is a beautiful home and"

# Tokenizar o texto de entrada
input_ids = tokenizer.encode(input_text, return_tensors='pt')

# Gerar texto
outputs = model.generate(input_ids, max_length=100)  # Geração básica

# Decodificar e imprimir a saída
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=True)
print("Saída gerada:", generated_text)


Saída gerada: and I love it. and I love it. My house is a beautiful home and I love it. My house is a beautiful home and I love it.


Não parece que o modelo lida bem com esse tipo de função, podemos agora ajustar parâmetros e ver como o comportamento.

In [None]:
model_name = "t5-base"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

input_text = "My house is a beautiful home end"

input_ids = tokenizer.encode(input_text, return_tensors='pt')

outputs_basic = model.generate(input_ids, max_length=30)
generated_text_basic = tokenizer.decode(outputs_basic[0], skip_special_tokens=True)
print("Saída gerada (básica):", generated_text_basic)

# Geração com parâmetros ajustados
outputs_adjusted = model.generate(
    input_ids,
    max_length=70,         # Tamanho máximo da saída
    num_beams=4,            # Usar beam search
    do_sample=True,         # Ativar amostragem
    temperature=1.0,        # Controle de aleatoriedade
    top_k=50,               # Considerar os 50 tokens mais prováveis
    top_p=0.9,              # Nucleus sampling
    num_return_sequences=3   # Gerar 3 saídas
)

# Decodificar e imprimir as saídas geradas
for i, output in enumerate(outputs_adjusted):
    generated_text_adjusted = tokenizer.decode(output, skip_special_tokens=True)
    print(f"Saída {i+1} (ajustada):", generated_text_adjusted)




Saída gerada (básica): is a beautiful home end end end home end end home end home end home end home end home end home end home end home end home
Saída 1 (ajustada): is a beautiful home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end
Saída 2 (ajustada): is a beautiful home end end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home
Saída 3 (ajustada): is a beautiful home end is a beautiful home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home end home e

Mais um exemplo reajustando os parametros:

In [None]:
model_name = "t5-base"
tokenizer = T5Tokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

input_text = "I live in a house near the industrial zone, the industrial zone is"

input_ids = tokenizer.encode(input_text, return_tensors='pt')

outputs_basic = model.generate(input_ids, max_length=40) # alterei de 30 para 40
generated_text_basic = tokenizer.decode(outputs_basic[0], skip_special_tokens=True)
print("Saída gerada (básica):", generated_text_basic)

# Geração com parâmetros ajustados
outputs_adjusted = model.generate(
    input_ids,
    max_length=90,          # Tamanho máximo da saída, alterei de 70 para 90
    num_beams=5,            # Usar beam search, alterei de 4 para 5
    do_sample=True,         # Ativar amostragem
    temperature=1.3,        # Controle de aleatoriedade, alterei de 1.0 para 1.3
    top_k=50,               # Considerar os 50 tokens mais prováveis
    top_p=0.9,              # Nucleus sampling
    num_return_sequences=3   # Gerar 3 saídas
)

# Decodificar e imprimir as saídas geradas
for i, output in enumerate(outputs_adjusted):
    generated_text_adjusted = tokenizer.decode(output, skip_special_tokens=True)
    print(f"Saída {i+1} (ajustada):", generated_text_adjusted)

Saída gerada (básica): a house near the industrial zone, the industrial zone is very close to the industrial zone. I live in a house near the industrial zone, the industrial zone is very close to the
Saída 1 (ajustada): a house near the industrial zone, I live in a house near the industrial zone. I live in a house in a house near the industrial zone, the industrial zone is in a residential area. I live in a house near the industrial zone, the industrial zone is in a residential zone, the industrial zone is in a residential zone, the industrial zone is in a residential zone, the industrial zone
Saída 2 (ajustada): a house near the industrial zone, I live in a house near the industrial zone. I live in a house in a house near the industrial zone, the industrial zone is in a residential area. I live in a house in a house near the industrial zone, the industrial zone is in a residential zone, the industrial zone is in a residential zone, the industrial zone is in a residential zone
Saída 3 