### Por que ocorrem alucinações?

1. **Conhecimento Limitado:** O modelo é treinado em um conjunto de dados fixo e pode não ter informações atualizadas ou precisas sobre todos os tópicos.

2. **Generalização Excessiva:** O modelo aprende padrões gerais de linguagem e pode aplicá-los de forma inadequada, criando afirmações que parecem plausíveis, mas são incorretas.

3. **Falta de Compreensão Real:** Modelos de linguagem não têm uma compreensão profunda do mundo; eles apenas preveem a próxima palavra com base em padrões estatísticos.

4. **Viés nos Dados de Treinamento:** Se os dados de treinamento contêm informações incorretas ou tendenciosas, o modelo pode reproduzir esses erros.

5. **Aleatoriedade na Geração:** O uso de amostragem aleatória (como `do_sample=True` e `temperature=0.7`) pode levar a saídas imprevisíveis e potencialmente incorretas.

6. **Falta de Verificação de Fatos:** O modelo não tem capacidade de verificar a veracidade das informações que gera.

7. **Contexto Limitado:** O modelo considera apenas um contexto limitado (neste caso, até 100 tokens) ao gerar texto, o que pode levar a inconsistências em textos mais longos.

### Conclusão

Este exemplo ilustra como modelos de linguagem podem gerar informações que parecem plausíveis, mas podem ser completamente inventadas ou incorretas. Isso destaca a importância de usar esses modelos com cautela, especialmente em aplicações que requerem precisão factual.

Ao executar o script, observe como as respostas geradas podem conter informações incorretas ou inventadas, mesmo parecendo convincentes à primeira vista.

In [3]:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Load the model and tokenizer
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')
model = GPT2LMHeadModel.from_pretrained('gpt2')


def generate_text(prompt, max_length=100):
    input_ids = tokenizer.encode(prompt, return_tensors='pt')
    output = model.generate(input_ids, max_length=max_length, num_return_sequences=1, 
                            no_repeat_ngram_size=2, top_k=50, top_p=0.95, temperature=0.7, do_sample=True)
    return tokenizer.decode(output[0], skip_special_tokens=True)


# Prompts Examples
prompts = [
    "O Brasil é famoso por sua culinária, especialmente o prato nacional chamado",
    "A capital do Brasil é Brasília, que foi fundada em",
    "O animal símbolo do Brasil é o",
    "A Amazônia é conhecida por sua biodiversidade, incluindo espécies únicas como",
    "O Corinthians é um time de futebol da cidade de São Paulo, que foi fundado em",
    "A música popular brasileira é conhecida por",
    "O presidente do Brasil atual é",
]

# Generate text for each prompt
for prompt in prompts:
    generated_text = generate_text(prompt)
    print(f"Prompt: {prompt}")
    print(f"Generated Text: {generated_text}")
    print("\n" + "="*50 + "\n")

The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: O Brasil é famoso por sua culinária, especialmente o prato nacional chamado
Generated Text: O Brasil é famoso por sua culinária, especialmente o prato nacional chamado de la vida, nada nombre en español.

(9) It is unlawful for a person to bring any narcotic substance into the country to which he belongs for any purpose other than to transport it to a place where it is to be transported. (10) No person shall bring into any country any drug that is




The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: A capital do Brasil é Brasília, que foi fundada em
Generated Text: A capital do Brasil é Brasília, que foi fundada em el á la vida: el tenido, a la conseguir a tenía, se está en una día de la nueva.

El é que ha sido de los serántos de no todo. No se más que que nos estos es hacenos, nacional de uno teni, no se hace a los




The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: O animal símbolo do Brasil é o
Generated Text: O animal símbolo do Brasil é o cesos una vivos de río.

Días de lo que uno ella siempre, un ello sólo a un pueblo a lo lo. La seguro de este muy eso que no tres más que de la baja de rojos a la seguido. O el viejo a no muezzo, en este




The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: A Amazônia é conhecida por sua biodiversidade, incluindo espécies únicas como
Generated Text: A Amazônia é conhecida por sua biodiversidade, incluindo espécies únicas como tenido, se diferentes comos aosos, años comasas.

The people are still in their graves. They are afraid of death. The people fear death as much as they fear God. God wants the people to die. He wants them to do things that are not right. And they die




The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: O Corinthians é um time de futebol da cidade de São Paulo, que foi fundado em
Generated Text: O Corinthians é um time de futebol da cidade de São Paulo, que foi fundado em que fuego.

São Paul da Cidades, v. 1, p. 6.


The Portuguese government is not responsible for any of the alleged violations of this ordinance, and it has not been given any judicial authority over the matter. It has been a matter of great concern for the Brazilian people. The Brazilian government has expressed its concern over this




The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: A música popular brasileira é conhecida por
Generated Text: A música popular brasileira é conhecida porque tama el muy, puede, por que todos estas de la pática de pública.

For more information about puerto brasiles, visit pua.org or call (888) 964-8683.


Prompt: O presidente do Brasil atual é
Generated Text: O presidente do Brasil atual épon de la vie de Paris de l'École (2015).

The goal of this post is to provide a summary of the findings of a study, entitled 'What is the most important factor in the success of Brazilian football in Brazil?' The results of that study are presented in two parts: first, an analysis of football performance by both clubs, and second, a detailed analysis on the socio-economic and economic aspects of Brazil




Análise de Alucinações em Modelos de Linguagem e Técnicas de Mitigação
Análise das Alucinações Geradas
1. Prato nacional brasileiro
O modelo gerou uma mistura de espanhol e palavras sem sentido, sem mencionar nenhum prato brasileiro real.
2. Fundação de Brasília
O modelo não forneceu uma data específica e misturou espanhol com inglês, sem oferecer informações factuais corretas.
3. Animal símbolo do Brasil
O modelo não identificou nenhum animal específico e gerou uma sequência de palavras sem sentido, misturando português e espanhol.
4. Espécies únicas da Amazônia
O modelo não mencionou nenhuma espécie real e produziu uma mistura de palavras em português e italiano, sem conteúdo factual.
Problemas Identificados
Mistura de idiomas (português, espanhol, inglês, italiano)
Falta de conhecimento específico sobre o Brasil
Geração de palavras sem sentido ou inexistentes
Incapacidade de fornecer informações factuais precisas
Técnicas para Evitar ou Mitigar Alucinações
Fine-tuning com Dados Específicos

Treinar o modelo com dados específicos e precisos sobre o Brasil pode melhorar a qualidade das respostas.
Retrieval-Augmented Generation (RAG)

Combinar o modelo de linguagem com uma base de conhecimento externa para fornecer informações factuais precisas.
Controle de Temperatura

Reduzir a temperatura (por exemplo, para 0.3-0.5) pode tornar as respostas mais conservadoras e menos propensas a alucinações.
Uso de Prompts mais Específicos

Fornecer mais contexto no prompt pode ajudar o modelo a gerar respostas mais precisas.
Pós-processamento e Filtragem

Implementar verificações para filtrar respostas que misturam idiomas ou contêm palavras sem sentido.
Modelos Multilíngues

Usar modelos treinados especificamente em português ou modelos multilíngues pode reduzir a mistura de idiomas.
Fact-Checking Automático

Implementar um sistema que verifica as informações geradas contra uma base de dados confiável.
Limitação de Tokens

Restringir o número de tokens gerados pode reduzir a chance de o modelo divagar e produzir conteúdo irrelevante.
Uso de Técnicas de Few-Shot Learning

Fornecer exemplos de respostas corretas no prompt pode guiar o modelo a gerar respostas mais precisas.
Modelos Especializados

Para tópicos específicos, como informações sobre o Brasil, considerar o uso de modelos treinados especificamente nesse domínio.
Implementar uma combinação dessas técnicas pode ajudar significativamente a reduzir alucinações e melhorar a precisão das respostas geradas pelo modelo.