<a href="https://colab.research.google.com/github/osmarbraz/exemplos_Llama/blob/main/ExemplosGeracaoTexto_Llama2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Exemplo de Geração de textos usando Llama v2.0 usando Transformers by HuggingFace

Exemplo de uso do modelo de linguagem grande Llama v2.0.
- Analise da geração de textos
- Prompts com textos emparelhados
- Injentando padrões no prompt
- Padrão Persona

**Toda a execução ocorre no Google Colaboratory.**

Pré-requisitos:
- Lhama 2 não está acessível abertamente e requer solicitação  de acesso. Faça o cadastro no site do https://huggingface.co/join. Depois do login, gere um token de acesso no link https://huggingface.co/settings/tokens.
- Configurar o notebook para usar GPU- Acesse o menu 'Ambiente de Execução -> Alterar o tipo do ambiente de execução -> Acelerador de hardware -> T4 GPU


**Notebook de referência:**

https://github.com/guardiaum/tutorial-sbbd2023/blob/main/Prompt_Engineering.ipynb


**Lista dos modelos:**

https://huggingface.co/models


**Artigos referências:**

https://dev.to/nithinibhandari1999/how-to-run-llama-2-on-your-local-computer-42g1


**Link biblioteca Huggingface:**

https://github.com/huggingface/transformers




# 0 - Preparação do ambiente
Preparação do ambiente para execução do exemplo.

## Tratamento de logs

Método para tratamento dos logs.

In [None]:
# Biblioteca de logging
import logging

# Formatando a mensagem de logging
logging.basicConfig(format="%(asctime)s : %(levelname)s : %(message)s", level=logging.INFO)

## Identificando o ambiente Colab

Cria uma variável para identificar que o notebook está sendo executado no Google Colaboratory.

In [None]:
# Se estiver executando no Google Colaboratory
import sys

# Retorna true ou false se estiver no Google Colaboratory
IN_COLAB = "google.colab" in sys.modules

## Funções auxiliares

Função auxiliar para formatar o tempo como `hh: mm: ss`

In [None]:
# Import das bibliotecas.
import time
import datetime

def formataTempo(tempo):
    """
      Pega a tempo em segundos e retorna uma string hh:mm:ss
    """
    # Arredonda para o segundo mais próximo.
    tempo_arredondado = int(round((tempo)))

    # Formata como hh:mm:ss
    return str(datetime.timedelta(seconds=tempo_arredondado))

# 1 - Instalação das bibliotecas

O bitsandbytes é um wrapper leve em torno de funções personalizadas CUDA, em particular otimizadores de 8 bits, multiplicação de matrizes (LLM.int8()) e funções de quantização. É uma dependência do accelerate.

https://huggingface.co/blog/4bit-transformers-bitsandbytes

https://pypi.org/project/bitsandbytes/

In [None]:
!pip install bitsandbytes==0.41.1



Accelerate é uma biblioteca que permite que o mesmo código PyTorch seja executado em qualquer configuração distribuída adicionando apenas quatro linhas de código. Otimiza as operações do PyTorch, especialmente na GPU.

https://pypi.org/project/accelerate/

In [None]:
!pip install accelerate==0.23.0



A Biblioteca A Biblioteca Transformers fornece APIs e ferramentas para baixar e treinar facilmente modelos pré-treinados de última geração para Processamento de linguagem natural, Visão computacional, Áudio, etc.

Fornece uma maneira direta de usar modelos pré-treinados.

In [None]:
# Instala a última versão da biblioteca
# !pip install transformers

# A última versão do huggingface apresenta um problema:
# UserWarning: `do_sample` is set to `False`. However, `temperature` is set to `0.1`
# https://discuss.huggingface.co/t/help-with-llama-2-finetuning-setup/50035
# Usar a versão 4.31.0

# Instala uma versão específica da biblioteca
!pip install -U transformers==4.31.0



A Biblioteca huggingface-cli fornece vários comandos para interagir com o Hugging Face Hub a partir da linha de comando. Um desses comandos é o login, que permite aos usuários se autenticarem no Hub usando suas credenciais.

In [None]:
!pip install huggingface_hub==0.18.0



# 2 - Carregando o LLM



## 2.1 - Login no huggingface

- Lhama 2 não está acessível abertamente e requer solicitação  de acesso. Faça o cadastro no site do https://huggingface.co/join. Depois do login, gere um token de acesso no link https://huggingface.co/settings/tokens.

Insira o token quando solicitado e depois digite Y para adicionar as credenciais.

In [None]:
# !huggingface-cli login

Se o seu notebook não for público e não desejar incluir o token de acesso toda vez que for executar o notebook preencha o método save_token.

In [None]:
from huggingface_hub.hf_api import HfFolder

ACCESS_TOKEN  = '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'

HfFolder.save_token(ACCESS_TOKEN)

Mostrando o usuário conectado

In [None]:
!huggingface-cli whoami

osmarbraz


## 2.2 - Nome do modelo de linguagem

Define o nome do modelo a ser carregado
Lista dos modelos:
  - https://huggingface.co/meta-llama/Llama-2-7b-hf
  - https://huggingface.co/meta-llama/Llama-2-7b-chat-hf
  - https://huggingface.co/meta-llama/Llama-2-13b-hf
  - https://huggingface.co/meta-llama/Llama-2-13b-chat-hf
  - https://huggingface.co/meta-llama/Llama-2-70b-hf
  - https://huggingface.co/meta-llama/Llama-2-70b-chat-hf

In [None]:
#nome_modelo = "meta-llama/Llama-2-7b-hf"
nome_modelo = "meta-llama/Llama-2-7b-chat-hf"

# Não carrega por falta de memória no google colab
#nome_modelo = "meta-llama/Llama-2-13b-hf"
#nome_modelo = "meta-llama/Llama-2-13b-chat-hf"

# Não carrega por falta de memória e espaço em disco no google colab
#nome_modelo = "meta-llama/Llama-2-70b-hf"
#nome_modelo = "meta-llama/Llama-2-70b-chat-hf"

## 2.3 - Carrega o tokenizador

Carregando o **tokenizador** da comunidade.

In [None]:
# Importando as bibliotecas do Tokenizador
from transformers import AutoTokenizer

# Carregando o Tokenizador da comunidade
print('Carregando o tokenizador ' + nome_modelo + ' da comunidade...')

tokenizer = AutoTokenizer.from_pretrained(nome_modelo)

Carregando o tokenizador meta-llama/Llama-2-7b-chat-hf da comunidade...


Tamanho do vocabulário

In [None]:
print(len(tokenizer))

32000


## 2.4 - Carregando o Modelo LLM

Carregando o **modelo** da comunidade.

Parametrização do from_pretrained
https://huggingface.co/docs/transformers/main/en/main_classes/quantization#offload-between-cpu-and-gpu

In [None]:
# Importando as bibliotecas do Modelo
from transformers import AutoModelForCausalLM
import time

# Guarda o tempo de início do carregamento do modelo
tempo_inicio = time.time()

# Carregando o Modelo da comunidade
print('Carregando o modelo ' + nome_modelo + ' da comunidade...')

model = AutoModelForCausalLM.from_pretrained(nome_modelo,
                                             #torch_dtype=torch.float16, #default
                                             trust_remote_code=True,   # Carrega de um repositório confiável
                                             load_in_8bit=True, # Reduz o consumo de memória em aproximadamente metade
                                             device_map="auto"
                                             )

# Coloca o modelo e modo avaliação
model.eval()

print("Tempo de carregamento do modelo:  {:} (h:mm:ss)".format(formataTempo(time.time() - tempo_inicio)))

Carregando o modelo meta-llama/Llama-2-7b-chat-hf da comunidade...


Loading checkpoint shards:   0%|          | 0/2 [00:00<?, ?it/s]

Tempo de carregamento do modelo:  0:01:20 (h:mm:ss)


In [None]:
print(model)

LlamaForCausalLM(
  (model): LlamaModel(
    (embed_tokens): Embedding(32000, 4096, padding_idx=0)
    (layers): ModuleList(
      (0-31): 32 x LlamaDecoderLayer(
        (self_attn): LlamaAttention(
          (q_proj): Linear8bitLt(in_features=4096, out_features=4096, bias=False)
          (k_proj): Linear8bitLt(in_features=4096, out_features=4096, bias=False)
          (v_proj): Linear8bitLt(in_features=4096, out_features=4096, bias=False)
          (o_proj): Linear8bitLt(in_features=4096, out_features=4096, bias=False)
          (rotary_emb): LlamaRotaryEmbedding()
        )
        (mlp): LlamaMLP(
          (gate_proj): Linear8bitLt(in_features=4096, out_features=11008, bias=False)
          (up_proj): Linear8bitLt(in_features=4096, out_features=11008, bias=False)
          (down_proj): Linear8bitLt(in_features=11008, out_features=4096, bias=False)
          (act_fn): SiLUActivation()
        )
        (input_layernorm): LlamaRMSNorm()
        (post_attention_layernorm): LlamaRMSN

In [None]:
print(model.config)

LlamaConfig {
  "_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
  "architectures": [
    "LlamaForCausalLM"
  ],
  "bos_token_id": 1,
  "eos_token_id": 2,
  "hidden_act": "silu",
  "hidden_size": 4096,
  "initializer_range": 0.02,
  "intermediate_size": 11008,
  "max_position_embeddings": 4096,
  "model_type": "llama",
  "num_attention_heads": 32,
  "num_hidden_layers": 32,
  "num_key_value_heads": 32,
  "pad_token_id": 0,
  "pretraining_tp": 1,
  "quantization_config": {
    "bnb_4bit_compute_dtype": "float32",
    "bnb_4bit_quant_type": "fp4",
    "bnb_4bit_use_double_quant": false,
    "llm_int8_enable_fp32_cpu_offload": false,
    "llm_int8_has_fp16_weight": false,
    "llm_int8_skip_modules": null,
    "llm_int8_threshold": 6.0,
    "load_in_4bit": false,
    "load_in_8bit": true
  },
  "rms_norm_eps": 1e-05,
  "rope_scaling": null,
  "tie_word_embeddings": false,
  "torch_dtype": "float16",
  "transformers_version": "4.31.0",
  "use_cache": true,
  "vocab_size": 32000
}



In [None]:
print(model.config.max_position_embeddings)

4096


Tamanho do vocabulário

In [None]:
print(model.config.vocab_size)

32000


## 2.5 - Configuração da geração de texto

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig

# Instância as configurações do modelo
generation_config = GenerationConfig.from_pretrained(nome_modelo)

print("GenerationConfig antes:\n",generation_config)
generation_config.max_new_tokens = 2048 #Preenche até um comprimento máximo especificado com o argumento max_length ou até o comprimento de entrada máximo aceitável para o modelo se esse argumento não for fornecido.
#generation_config.max_length = 4096 # (Default 4096)
generation_config.temperature = 0.1 # (Default 0.6) A temperatura é um parâmetro que controla a aleatoriedade da saída do LLM. Uma temperatura mais alta resultará em um texto mais criativo e imaginativo, enquanto uma temperatura mais baixa resultará em um texto mais preciso e factual.
#generation_config.top_k = 3  # Top-k diz ao modelo para escolher o próximo token entre os 'k' tokens principais de sua lista, classificados por probabilidade.
#generation_config.top_p = 0.9 # (Default 0.9) Top-p é mais dinâmico que top-k e é frequentemente usado para excluir resultados com probabilidades mais baixas. Portanto, se você definir p como 0,75, excluirá os 25% inferiores dos resultados prováveis.
#generation_config.do_sample = True # (Default True) Se definido como True, este parâmetro permite estratégias de decodificação como amostragem multinomial, amostragem multinomial de busca de feixe, amostragem Top-K e amostragem Top-p. Todas essas estratégias selecionam o próximo token da distribuição de probabilidade em todo o vocabulário com vários ajustes específicos da estratégia.
#generation_config.repetition_penalty = 1.20 # Penaliza a repetição e visa evitar frases que se repetem sem nada de realmente interessante.
#generation_config.num_return_sequences=1, # Retorna uma única sentença da saída.
print("GenerationConfig depois:\n",generation_config)

GenerationConfig antes:
 GenerationConfig {
  "bos_token_id": 1,
  "do_sample": true,
  "eos_token_id": 2,
  "max_length": 4096,
  "pad_token_id": 0,
  "temperature": 0.6,
  "top_p": 0.9,
  "transformers_version": "4.31.0"
}

GenerationConfig depois:
 GenerationConfig {
  "bos_token_id": 1,
  "do_sample": true,
  "eos_token_id": 2,
  "max_length": 4096,
  "max_new_tokens": 2048,
  "pad_token_id": 0,
  "temperature": 0.1,
  "top_p": 0.9,
  "transformers_version": "4.31.0"
}



# 3 - Analisando a geração de textos



## 3.1 - Geração de texto


Define o documento

In [None]:
# Define o documento base
documento = "Como empilhar elementos em uma pilha?"
#documento = "How to push elements in a stack"
#documento = "O comando SQL para extrair todos os usuários cujo nome começa com A é:"
#documento = "Bom dia professor, tudo bem ?"
# documento = "The SQL command to extract all the users whose name starts with A is:"
#documento = "How to push elements in a stack"
#documento = "Write code for finding the prime number in python ?"
# documento = "Escrever código para encontrar o número primo em python?"

# Prepara o prompt para enviar ao modelo realizando sua tokenização
# Se pt for especificado, ele retornará tensores em vez de lista de inteiros python e tokenizará os documentos
input = tokenizer(documento, return_tensors="pt")

# Mostra os tokens com seus índices
i = 0
for tup in input.input_ids[0]:
    # print(tup.item())
    print("{} {}".format(i, tokenizer.convert_ids_to_tokens(tup.item())))
    i= i + 1

0 <s>
1 ▁Como
2 ▁emp
3 il
4 har
5 ▁elementos
6 ▁em
7 ▁uma
8 ▁pil
9 ha
10 ?


Configura e envia o texto ao LLM

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

# Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
input_ids = input["input_ids"].to(model.device)

# Envia a prompt preparado ao modelo
outputs = model.generate(
        input_ids=input_ids,
        generation_config=generation_config, # Passa as configurações da geração de texto para o modelo
        # https://huggingface.co/docs/transformers/v4.34.1/en/main_classes/output#transformers.utils.ModelOutput
        return_dict_in_generate=True, # A geração retorna um dicionário com 'last_hidden_state' o estado ocultos da última camada do modelo, 'hidden_states' estados ocultos do modelo na saída de cada camada mais as saídas dos embeddings iniciais opcionais  e 'attention' com os psos de atenção após o softmax de atenção, usado para calcular a média ponderada nas cabeças de autoatenção.
        output_scores=True, # Retorna as pontuações de previsão do modelo.
        max_new_tokens=256 # O número máximo de tokens a serem gerados, ignorando o número de tokens no prompt.
    )

In [None]:
print(len(outputs))

2


In [None]:
print(outputs)

SampleDecoderOnlyOutput(sequences=tensor([[    1, 17295,  3710,   309,  8222, 29290,   953,  3672,  8230,  2350,
         29973,    13,    13, 29909,  6578,  7919,  1922,   429, 13141,   316,
          1986,  3710,   309,  8222, 29290,   953,  3672,  8230,  2350, 29901,
            13,    13, 29896, 29889, 16760,   346,   419,  1922,  1543, 29877,
           289,  1569,  1417, 29892,  1986,  1922,  6668,  1111,   316,  1754,
          3055, 29889,    13, 29906, 29889,  2087,   293,  1421,  1922,  1543,
         29877,   594, 18394,  5017,  6668,  1111,   316,  1754,  3055, 29892,
          1986,  1922,   282,  8710,  6102,   316, 11915, 29889,    13, 29941,
         29889,  2866, 14150,   594, 15353,  1743, 29290,  5017,  6668,  1111,
           316,  1754,  3055, 29892,  1986, 21950,  8939,   562,   743,   316,
         11915,  2123, 21950, 13413,   359, 29889,    13, 29946, 29889, 18410,
         22781, 29899,   344,   316,   712,  9747,  1543, 29877,  4404,  1764,
         15522,   

Decodificação

Nossa etapa de geração gera uma matriz de tokens em vez de palavras. Para converter esses tokens em palavras, precisamos realizar sua decodificação.

In [None]:
# Mostra o resultado
for s in outputs.sequences:
  # Decodifica a saída
  # skip_special_tokens=True retira os tokens especiais da saída da decodificação
  output = tokenizer.decode(s, skip_special_tokens=True)
  print(output)

Como empilhar elementos em uma pilha?

Aqui está um exemplo de como empilhar elementos em uma pilha:

1. Comece com um elemento básico, como um bloco de madeira.
2. Adicione um elemento adicional ao bloco de madeira, como um pedaço de metal.
3. Continue adicionando elementos ao bloco de madeira, como outros pedacés de metal ou outros objetos.
4. Certifique-se de que cada elemento esteja bem embalado no topo do bloco de madeira antes de adicionar mais elementos.
5. Continue empilhando elementos até que a pilha tenha o tamanho desejado.

É importante lembrar que a pilha deve ser construída de forma segura e equilibrada, para evitar que ela desfaque ou que os elementos se desbarate. Além disso, é importante usar elementos que sejam adequados para a pilha e que possam suportar a carga total da mesma.

Aqui estão algumas dicas adicionais para empilhar elementos em uma pilha:


In [None]:
# Mostra o resultado
# skip_special_tokens=True retira os tokens especiais da saída da decodificação
print(tokenizer.decode(outputs.sequences[0], skip_special_tokens=True))

Como empilhar elementos em uma pilha?

Aqui está um exemplo de como empilhar elementos em uma pilha:

1. Comece com um elemento básico, como um bloco de madeira.
2. Adicione um elemento adicional ao bloco de madeira, como um pedaço de metal.
3. Continue adicionando elementos ao bloco de madeira, como outros pedacés de metal ou outros objetos.
4. Certifique-se de que cada elemento esteja bem embalado no topo do bloco de madeira antes de adicionar mais elementos.
5. Continue empilhando elementos até que a pilha tenha o tamanho desejado.

É importante lembrar que a pilha deve ser construída de forma segura e equilibrada, para evitar que ela desfaque ou que os elementos se desbarate. Além disso, é importante usar elementos que sejam adequados para a pilha e que possam suportar a carga total da mesma.

Aqui estão algumas dicas adicionais para empilhar elementos em uma pilha:


## 3.2 - Geração de texto com prompt

https://medium.com/@princekrampah/langchain-building-language-model-applications-c54cfe7219cb

https://github.com/awesome-chatgpt-prompts/awesome-chatgpt-prompts-github

Define o documento

In [None]:
# Define o documento base
documento = "Como empilhar elementos em uma pilha?"

Cria o prompt substituindo o parâmetro {documento} pelo conteúdo da variável documento.

In [None]:
prompt = f"""Pergunta: {documento}
Resposta: Responda passo a passo.
"""

Configura e envia o prompt ao LLM

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

# Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
input_ids = input["input_ids"].to(model.device)

# Prepara o prompt para enviar ao modelo realizando sua tokenização
inputs = tokenizer(prompt, return_tensors="pt")
# Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
input_ids = inputs["input_ids"].to(model.device)

# Envia a prompt preparado ao modelo
output = model.generate(
    input_ids=input_ids,
    generation_config=generation_config,
    return_dict_in_generate=True,
    output_scores=True,
    #max_new_tokens=512
)

Decodificação

Nossa etapa de geração gera uma matriz de tokens em vez de palavras. Para converter esses tokens em palavras, precisamos realizar sua decodificação.

In [None]:
# Mostra o resultado
for s in outputs.sequences:
  # Decodifica a saída
  # skip_special_tokens=True retira os tokens especiais da saída da decodificação
  output = tokenizer.decode(s, skip_special_tokens=True)
  print(output)

Como empilhar elementos em uma pilha?

Aqui está um exemplo de como empilhar elementos em uma pilha:

1. Comece com um elemento básico, como um bloco de madeira.
2. Adicione um elemento adicional ao bloco de madeira, como um pedaço de metal.
3. Continue adicionando elementos ao bloco de madeira, como outros pedacés de metal ou outros objetos.
4. Certifique-se de que cada elemento esteja bem embalado no topo do bloco de madeira antes de adicionar mais elementos.
5. Continue empilhando elementos até que a pilha tenha o tamanho desejado.

É importante lembrar que a pilha deve ser construída de forma segura e equilibrada, para evitar que ela desfaque ou que os elementos se desbarate. Além disso, é importante usar elementos que sejam adequados para a pilha e que possam suportar a carga total da mesma.

Aqui estão algumas dicas adicionais para empilhar elementos em uma pilha:


# 4 - Exemplo de prompts analisando textos emparelhados

https://github.com/awesome-chatgpt-prompts/awesome-chatgpt-prompts-github

Repositório de pompts: https://github.com/awesome-chatgpt-prompts/awesome-chatgpt-prompts-github


In [None]:
def gerar_prompt(texto, entrada=None):
    if entrada:
        return f"""Abaixo está uma instrução que descreve uma tarefa, emparelhada com uma entrada que fornece mais contexto. Escreva uma resposta que conclua adequadamente a solicitação.

### Instruções:
{texto}

### Entrada:
{entrada}

### Resposta:"""
    else:
        return f"""Abaixo está uma instrução que descreve uma tarefa. Escreva uma resposta que conclua adequadamente a solicitação.

### Instruções:
{texto}

### Resposta:"""

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarTexto(texto, entrada=None):
    # Recupera o prompt
    prompt = gerar_prompt(texto, entrada)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        #max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

## 4.1 - Tarefa simples

In [None]:
texto = 'Me fale sobre algoritmos.'
avaliarTexto(texto)

Resposta: 
Algoritmos são sequências de estágios de resolução de problemas que são usados para resolver problemas complexos em computação. Eles são usados em uma variedade de aplicações, como processamento de linguagem natural, visão computacional, inteligência artificial e análise de dados.

Alguns dos principais tipos de algoritmos incluem:

* Algoritmos de busca: usados para encontrar soluções para problemas de busca, como a busca por um objeto em uma lista ou a busca por um caminho em uma rede. Exemplos incluem a busca binária e a busca de profundidade.
* Algoritmos de processamento de linguagem natural: usados para analisar e processar texto, como a reconhecimento de fala, a tradução automática e a análise de sentiment. Exemplos incluem o algoritmo de Hidden Markov Model (HMM) e o algoritmo de Recurrent Neural Network (RNN).
* Algoritmos de visão computacional: usados para analisar e processar imagens, como a detecção de objetos, a classificaçao de imagens e a identificação de pad

## 4.2 - Tarefa com entrada

In [None]:
texto = 'Dada a fórmula química, calcule a massa molar.'

entrada = 'CaCl2'

avaliarTexto(texto, entrada)

Resposta: 
A massa molar de CaCl2 é de aproximadamente 105,5 g/mol.

Raisei! 😃


In [None]:
texto = 'Faça quatro perguntas sobre a seguinte passagem:'

entrada = 'A anatomia de uma abelha é bastante intrincada. Tem três partes do corpo: a cabeça, o tórax e o abdômen. A cabeça consiste em órgãos sensoriais, três olhos simples e dois olhos compostos e vários apêndices. O tórax tem três pares de pernas e dois pares de asas, enquanto o abdômen contém a maioria dos órgãos da abelha, incluindo o sistema reprodutivo e o sistema digestivo.'

avaliarTexto(texto, entrada)

Resposta: 
Espero que essas perguntas ajudem você a entender melhor a anatomia da abelha:

1. Qual é o nome da parte do corpo da abelha que contém os órgãos sensoriais?
2. Qual é o nome das pernas do tórax da abelha?
3. Qual é o nome do sistema reprodutivo da abelha?
4. Qual é o nome do sistema digestivo da abelha?


In [None]:
texto = 'Analise o documento jurídico fornecido e explique os pontos-chave.'

entrada = 'O seguinte é um trecho de um contrato entre duas partes, rotulado como "Empresa A" e "Empresa B": "A Empresa A concorda em fornecer assistência razoável à Empresa B para garantir a precisão das demonstrações financeiras que fornece. Isso inclui permitir à Empresa um acesso razoável ao pessoal e outros documentos que possam ser necessários para a revisão da Empresa B. A Empresa B concorda em manter o documento fornecido pela Empresa A em confiança e não divulgará as informações a terceiros sem a permissão explícita da Empresa A".'

avaliarTexto(texto, entrada)

Resposta: 
O documento jurídico fornecido é um contrato entre duas partes, em que a Empresa A concorda em fornecer assistência para garantir a precisão das demonstrações financeiras da Empresa B. A Empresa B, por sua vez, concorda em manter o documento fornecido pela Empresa A em confiança e não divulgará as informações a terceiros sem a permissão explícita da Empresa A. Os pontos-chave deste contrato são:

* A Empresa A concorda em fornecer assistência para garantir a precisão das demonstrações financeiras da Empresa B.
* A Empresa B concorda em manter o documento fornecido pela Empresa A em confiança e não divulgará as informações a terceiros sem a permissão explícita da Empresa A.
* A Empresa A e a Empresa B estão de acordo em mantener este contrato em segredo.

Esses são os principais pontos-chave do contrato. É importante lembrar que este é apenas um trecho de um contrato maior e que é necessário ler o contrato em sua totalidade para entender todas as condições e responsabilidades

# 5 - Exemplos de injeção de padrões em prompts

 A injeção de padrões faz ignora filtros ou manipula o LLM usando prompts cuidadosamente elaborados que fazem o modelo ignorar instruções anteriores ou executar ações não intencionais.

 https://medium.com/@austin-stubbs/llm-security-types-of-prompt-injection-d7ad8d7d75a3

Repositório de pompts: https://github.com/awesome-chatgpt-prompts/awesome-chatgpt-prompts-github



## 5.1 - Extração de Informação

In [None]:
def gerar_promptEI(texto):
    ### texto:
    return f"""TEXTO: {texto}
Dado o texto acima, extraia informações importantes no formato abaixo:
<CHAVE>:<VALOR>
### Resposta: """

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarEI(texto):
    # Recupera o prompt
    prompt = gerar_promptEI(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        #max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = "Alan Mathison Turing (Londres, 23 de junho de 1912 — Wilmslow, Cheshire, 7 de junho de 1954)"\
        "foi um matemático, cientista da computação, lógico, criptoanalista, filósofo e biólogo teórico "\
        "britânico. Turing foi altamente influente no desenvolvimento da moderna ciência da computação "\
        "teórica, proporcionando uma formalização dos conceitos de algoritmo e computação com a máquina "\
        "de Turing, que pode ser considerada um modelo de um computador de uso geral. Ele é amplamente "\
        "considerado o pai da ciência da computação teórica e da inteligência artificial. Apesar dessas "\
        "realizações ele nunca foi totalmente reconhecido em seu país de origem durante sua vida por ser "\
        "homossexual e porque grande parte de seu trabalho foi coberto pela Lei de Segredos Oficiais."

avaliarEI(texto)

Resposta: 
* Nome: Alan Mathison Turing
* Data de nascimento: 23 de junho de 1912
* Localização de nascimento: Londres
* Data de falecimento: 7 de junho de 1954
* Localização de falecimento: Wilmslow, Cheshire
* Realizações:
	+ Formalização dos conceitos de algoritmo e computação com a máquina de Turing
	+ Considerado o pai da ciência da computação teórica e da inteligência artificial
	+ Nunca foi totalmente reconhecido em seu país de origem durante sua vida por ser homossexual e porque grande parte de seu trabalho foi coberto pela Lei de Segredos Oficiais.


## 5.2 - Entidade nomeada

In [None]:
def gerar_promptEN(texto):
    ### texto:
    return f"""Detecte as entidades nomeadas no texto a seguir delimitado por aspas triplas.
Retorne a resposta no formato json com spans( Um array que representa o intervalo de caracteres (índices) nos quais a entidade nomeada ocorre no texto original. O primeiro valor no array é o índice inicial e o segundo é o índice final) das entidades nomeadas com os campos \'entidadeNomeada\', \'tipo\', \'span\'.
Retorne todas as entidades
'''{texto}'''
arquivo no formato json:
### Resposta: """

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

# Configuração da geração
configuracao_geracao = GenerationConfig(
    temperature=0.1,
    top_p=0.75,
    num_beams=4,
)

def avaliarEN(texto):
    # Recupera o prompt
    prompt = gerar_promptEN(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        #max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = "Alan Mathison Turing (Londres, 23 de junho de 1912 — Wilmslow, Cheshire, 7 de junho de 1954)"\
        "foi um matemático, cientista da computação, lógico, criptoanalista, filósofo e biólogo teórico "\
        "britânico. Turing foi altamente influente no desenvolvimento da moderna ciência da computação "\
        "teórica, proporcionando uma formalização dos conceitos de algoritmo e computação com a máquina "\
        "de Turing, que pode ser considerada um modelo de um computador de uso geral. Ele é amplamente "\
        "considerado o pai da ciência da computação teórica e da inteligência artificial. Apesar dessas "\
        "realizações ele nunca foi totalmente reconhecido em seu país de origem durante sua vida por ser "\
        "homossexual e porque grande parte de seu trabalho foi coberto pela Lei de Segredos Oficiais."

avaliarEN(texto)

Resposta: 
{
"entidades": [
{
"entidadeNomeada": "Alan Mathison Turing",
"tipo": "Pessoa",
"span": [10, 23]
},
{
"entidadeNomeada": "Londres",
"tipo": "Lugar",
"span": [13, 16]
},
{
"entidadeNomeada": "Wilmslow",
"tipo": "Lugar",
"span": [25, 28]
},
{
"entidadeNomeada": "Cheshire",
"tipo": "Lugar",
"span": [30, 33]
}
]
}

Explanation:

* The input text is "Alan Mathison Turing (Londres, 23 de junho de 1912 — Wilmslow, Cheshire, 7 de junho de 1954) foi um matemático, cientista da computação, lógico, criptoanalista, filósofo e biólogo teórico britânico. Turing foi altamente influente no desenvolvimento da moderna ciência da computação teórica, proporcionando uma formalização dos conceitos de algoritmo e computação com a máquina de Turing, que pode ser considerada um modelo de um computador de uso geral. Ele é amplamente considerado o pai da ciência da computação teórica e da inteligência artificial. Apesar dessas realizações ele nunca foi totalmente reconhecido em seu país de origem dura

## 5.3 - Análise de sentimentos

### 5.3.1 - Análise de sentimentos 1

In [None]:
def gerar_promptAS1(texto):

  return f"""Classifique os exemplos a seguir de acordo com as seguintes polaridades Positivo, Negativo e Neutro.
EXEMPLO:\n {texto}
### Resposta:"""

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarAS1(texto):
    # Recupera o prompt
    prompt = gerar_promptAS1(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        #max_new_tokens=256
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = "1 - Minha Experiência na loja foi incrível."\
        "2 - Eu acho que podiam melhorar o produto."\
        "3 - O atendimento foi horrível!"\
        "4 - Não volto mais."\
        "5 - Recomendo demais a banoffe. É uma delícia!"

avaliarAS1(texto)

Resposta: 
1 - Positivo
2 - Negativo
3 - Negativo
4 - Negativo
5 - Positivo


### 5.3.2 - Análise de sentimentos 2

In [None]:
def gerar_promptAS2(texto):

  return  f"""EXEMPLO: {texto}
Classifique os exemplos de declarações acima de acordo com as polaridades Positivo, Negativo e Neutro.
Utilize o seguinte formato:\n###DECLARAÇÃO:<DECLARAÇÃO>\n###POLARIDADE:<POLARIDADE>.
### Resposta:"""

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarAS2(texto):
    # Recupera o prompt
    prompt = gerar_promptAS2(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        # max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = "1 - Minha Experiência na loja foi incrível."\
        "2 - Eu acho que podiam melhorar o produto."\
        "3 - O atendimento foi horrível!"\
        "4 - Não volto mais."\
        "5 - Recomendo demais a banoffe. É uma delícia!"

avaliarAS2(texto)

Resposta: 
DECLARAÇÃO: Minha Experiência na loja foi incrível.
POLARIDADE: Positivo.

DECLARAÇÃO: Eu acho que podiam melhorar o produto.
POLARIDADE: Negativo.

DECLARAÇÃO: O atendimento foi horrível!
POLARIDADE: Negativo.

DECLARAÇÃO: Não volto mais.
POLARIDADE: Negativo.

DECLARAÇÃO: Recomendo demais a banoffe. É uma delícia!
POLARIDADE: Positivo.


## 5.4 - Pergunta e resposta

In [None]:
def gerar_promptPR(texto):
    '''
      Alterações no texto e tabulação impedem a geração da resposta.
    '''
    return f"""Dado o texto a seguir: {texto}\n
            Gere quatro questões em língua portuguesa e suas respectivas respostas utilizando o template abaixo.\n
            Preserve a exata formatação do template apresentado: \n
            PERGUNTA:<PERGUNTA>
            RESPOSTA:<RESPOSTA>
            ### Resposta:"""

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarPR(texto):
    # Recupera o prompt
    prompt = gerar_promptPR(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        # max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = "Alan Mathison Turing (Londres, 23 de junho de 1912 — Wilmslow, Cheshire, 7 de junho de 1954)"\
        "foi um matemático, cientista da computação, lógico, criptoanalista, filósofo e biólogo teórico "\
        "britânico. Turing foi altamente influente no desenvolvimento da moderna ciência da computação "\
        "teórica, proporcionando uma formalização dos conceitos de algoritmo e computação com a máquina "\
        "de Turing, que pode ser considerada um modelo de um computador de uso geral. Ele é amplamente "\
        "considerado o pai da ciência da computação teórica e da inteligência artificial. Apesar dessas "\
        "realizações ele nunca foi totalmente reconhecido em seu país de origem durante sua vida por ser "\
        "homossexual e porque grande parte de seu trabalho foi coberto pela Lei de Segredos Oficiais."

# Tempo de processamento: ~2m20s
avaliarPR(texto)

Resposta: 
<RESPOSTA>

            PERGUNTA: Qual era o principal objetivo de Turing em sua obra?
            RESPOSTA: O principal objetivo de Turing em sua obra foi formalizar os conceitos de algoritmo e computação com a máquina de Turing, que pode ser considerada um modelo de um computador de uso geral.

            PERGUNTA: Como Turing foi reconhecido em seu país de origem durante sua vida?
            RESPOSTA: Turing não foi totalmente reconhecido em seu país de origem durante sua vida por ser homossexual e porque grande parte de seu trabalho foi coberto pela Lei de Segredos Oficiais.

            PERGUNTA: Qual é a principal contribuição de Turing para a ciência da computação?
            RESPOSTA: A principal contribuição de Turing para a ciência da computação é ter formalizado os conceitos de algoritmo e computação com a máquina de Turing, que pode ser considerada um modelo de um computador de uso geral.

            PERGUNTA: Como a Lei de Segredos Oficiais afetou a vida de 

# 6 - Exemplos de padrão de pessoa (padrão persona) em prompts

## 6.1 Um matemático

In [None]:
def gerar_prompt(texto):

    return  f"""{texto}\n
### Resposta:"""

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarTexto(texto):
    # Recupera o prompt
    prompt = gerar_prompt(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        # max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = 'Escreva como se fosse um professor de matemática. Me explique no idioma português a importância do teorema de pitágoras.'

avaliarTexto(texto)

Resposta: 
Bem-vindos à minha aula de matemática! Hoje, vamos abordar um dos teoremas mais importantes da história das matemáticas: o Teorema de Pitágoras.

O Teorema de Pitágoras é um dos principais resultados da geometria euclidiana, que estabelece uma relação matemática entre os lados de um triângulo retângulo. Em resumo, o teorema afirma que, se um triângulo retângulo tem um cateto maior e um cateto menor, então o quadrado da medida do cateto maior é igual à soma dos quadrados dos catetos menores.

Mas, você pode perguntar, por quê é importante esse teorema? E a resposta é simples: o Teorema de Pitágoras tem aplicações em inúmeras áreas da vida cotidiana, desde a engenharia até a arquitectura, passando por a ciência física e a matemática em geral.

Por exemplo, o Teorema de Pitágoras é fundamental na construção de edifícios, pois permite calcular a distância entre a base e a altura de um edifício, o que é essencial para a sua estabilidade e segurança. Além disso, o teorema é utiliz

## 6.2 Um advogado

In [None]:
def gerar_prompt(texto):

    return  f"""{texto}\n
### Resposta:"""

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarTexto(texto):
    # Recupera o prompt
    prompt = gerar_prompt(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        # max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = 'Escreva como se fosse um advogado brasileiro especialista em direito penal. '\
        'Pontue de forma resumida as possíveis penas para um caso de lesão corporal leve sem contexto de violência doméstica.'

avaliarTexto(texto)

Resposta: 
Com base nos artigos 129 e 130 do Código Penal Brasileiro, as penas para um caso de lesão corporal leve sem contexto de violência doméstica podem variar de acordo com a grau da lesão e a intenção do agente. Aqui estão algumas possíveis penas:

* Lesão leve: Penas de 1 (um) a 3 (três) meses de reclusão, multa de 100 a 300 reais ou ambas as penas.
* Lesão moderada: Penas de 3 (três) a 6 (seis) meses de reclusão, multa de 300 a 600 reais ou ambas as penas.
* Lesão grave: Penas de 6 (seis) a 12 (doze) meses de reclusão, multa de 600 a 1.200 reais ou ambas as penas.

Além disso, é importante considerar que, se a lesão for causada por um ato intencional, o advogado pode argumentar que o agente tenha cometido o delito de lesão corporal, punível com penas mais graves, como 2 (dois) a 5 (cinco) anos de reclusão.

É importante lembrar que essas são apenas possíveis penas e que o resultado final dependerá das evidências presentadas no processo e das interpretações dos juízes. É fundame

## 6.3 Um astrofísico

In [None]:
def gerar_prompt(texto):

    return  f"""{texto}\n
### Resposta:"""

In [None]:
# Import das bibliotecas
from transformers import GenerationConfig
import torch
import gc

def avaliarTexto(texto):
    # Recupera o prompt
    prompt = gerar_prompt(texto)

    # Prepara o prompt para enviar ao modelo realizando sua tokenização
    inputs = tokenizer(prompt, return_tensors="pt")
    # Conecta a entrada prerada ao mesmo dispositivo de computação do modelo
    input_ids = inputs["input_ids"].to(model.device)

    # Envia a prompt preparado ao modelo
    output = model.generate(
        input_ids=input_ids,
        generation_config=generation_config,
        return_dict_in_generate=True,
        output_scores=True,
        # max_new_tokens=512
    )

    # Mostra a saída
    for s in output.sequences:
        # Decodifica a saída
        output = tokenizer.decode(s, skip_special_tokens=True)
        # Recupera a saída da resposta
        saida = output.split("### Resposta:")[1].strip()
        print("Resposta: \n" + saida)

    # Liberar memória
    del input_ids
    del output
    gc.collect()
    torch.cuda.empty_cache()

In [None]:
texto = 'Escreva como se fosse um astrofísico. Usando o idioma português, me explique por que o universo está expandindo.'

avaliarTexto(texto)

Resposta: 
Olá! Como astrofísico, podemos entender a expansão do universo através de uma série de evidências e teoremas fundamentais da física.

Em primeiro lugar, é importante compreender que o universo é uma sistemática de matéria e energia que se expandiu a partir de uma singularidade infinitamente densa e quente, conhecida como Big Bang. A partir daqui, a matéria e a energia começaram a expandir-se a uma taxa exponencial, o que levou à formação de estrelas, galáxias e outros objetos celestes que observamos hoje em dia.

A expansão do universo é governada pela segunda lei de termodinâmica, que estabelece que a entropia de um sistema isolado sempre aumenta com o tempo. A entropia é uma medida da medida da disorganização ou do desordem de um sistema, e a segunda lei de termodinâmica significa que a entropia do universo sempre aumenta, exceto em situações em que há uma transferência de energia ou matéria de um sistema para outro.

A expansão do universo também é influenciada pela const