In [2]:
 #!pip install transformers torch


## Por que ocorrem alucinações?

1. **Conhecimento Limitado**: O modelo é treinado em um conjunto de dados fixo e pode não ter informações atualizadas ou precisas sobre todos os tópicos.

2. **Generalização Excessiva**: O modelo aprende padrões gerais de linguagem e pode aplicá-los de forma inadequada, criando afirmações que parecem plausíveis, mas são incorretas.

3. **Falta de Compreensão Real**: Modelos de linguagem não têm uma compreensão profunda do mundo; eles apenas preveem a próxima palavra com base em padrões estatísticos.

4. **Viés nos Dados de Treinamento**: Se os dados de treinamento contêm informações incorretas ou tendenciosas, o modelo pode reproduzir esses erros.

5. **Aleatoriedade na Geração**: O uso de amostragem aleatória (como `do_sample=True` e `temperature=0.7`) pode levar a saídas imprevisíveis e potencialmente incorretas.

6. **Falta de Verificação de Fatos**: O modelo não tem capacidade de verificar a veracidade das informações que gera.

7. **Contexto Limitado**: O modelo considera apenas um contexto limitado (neste caso, até 100 tokens) ao gerar texto, o que pode levar a inconsistências em textos mais longos.

## Conclusão

Este exemplo ilustra como modelos de linguagem podem gerar informações que parecem plausíveis, mas podem ser completamente inventadas ou incorretas. Isso destaca a importância de usar esses modelos com cautela, especialmente em aplicações que requerem precisão factual.

Ao executar o script, observe como as respostas geradas podem conter informações incorretas ou inventadas, mesmo parecendo convincentes à primeira vista.

In [3]:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Carregando o modelo e o tokenizador
modelo = GPT2LMHeadModel.from_pretrained("gpt2")
tokenizador = GPT2Tokenizer.from_pretrained("gpt2")

# Função para gerar texto
def gerar_texto(prompt, max_length=100):
    inputs = tokenizador.encode(prompt, return_tensors="pt")
    saida = modelo.generate(inputs, max_length=max_length, num_return_sequences=1, 
                            no_repeat_ngram_size=2, top_k=50, top_p=0.95, 
                            temperature=0.7, do_sample=True)
    return tokenizador.decode(saida[0], skip_special_tokens=True)

# Exemplos de prompts que podem levar a alucinações
prompts = [
    "O Brasil é famoso por sua culinária, especialmente o prato nacional chamado",
    "A capital do Brasil é Brasília, que foi fundada em",
    "O animal símbolo do Brasil é o",
    "A Amazônia é conhecida por sua biodiversidade, incluindo espécies únicas como"
]

# Gerando e exibindo textos
for prompt in prompts:
    texto_gerado = gerar_texto(prompt)
    print(f"Prompt: {prompt}")
    print(f"Texto gerado: {texto_gerado}")
    print("\n" + "="*50 + "\n")

  from .autonotebook import tqdm as notebook_tqdm
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.
The attention mask is not set and cannot be inferred from input because pad token is same as eos token. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: O Brasil é famoso por sua culinária, especialmente o prato nacional chamado
Texto gerado: O Brasil é famoso por sua culinária, especialmente o prato nacional chamado, en la nombre de la prado de y otras e-pacifica, de los sistios en las emigros, que tiempo de española e como espero, por lo que la vida. Esquirán e una poco un habia de con el su se




The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: A capital do Brasil é Brasília, que foi fundada em
Texto gerado: A capital do Brasil é Brasília, que foi fundada em siempre a vez esta e una sécurio de la sana de los más. de l'ápida de este puede pálido, con la sudido de uno cambio, por había de á la seguridad.

We have worked with the Brazilian government for more than 20 years, and now we have to




The attention mask and the pad token id were not set. As a consequence, you may observe unexpected behavior. Please pass your input's `attention_mask` to obtain reliable results.
Setting `pad_token_id` to `eos_token_id`:50256 for open-end generation.


Prompt: O animal símbolo do Brasil é o
Texto gerado: O animal símbolo do Brasil é ognamente de bocicos do da ella ogado.

Para de Pálcula, Pública de la Piedra, púba de las pueblos, o lugar de lo que ha sido o su nueva de deu óncios de eja, para ha puede nel se gente a la piedro de


Prompt: A Amazônia é conhecida por sua biodiversidade, incluindo espécies únicas como
Texto gerado: A Amazônia é conhecida por sua biodiversidade, incluindo espécies únicas como sistema. Enferenção è lavoro enfraçe mais aços. Especiale, são más ognes, e-e-fíminas, en vos épareções.




# Análise de Alucinações em Modelos de Linguagem e Técnicas de Mitigação

## Análise das Alucinações Geradas

### 1. Prato nacional brasileiro
- O modelo gerou uma mistura de espanhol e palavras sem sentido, sem mencionar nenhum prato brasileiro real.

### 2. Fundação de Brasília
- O modelo não forneceu uma data específica e misturou espanhol com inglês, sem oferecer informações factuais corretas.

### 3. Animal símbolo do Brasil
- O modelo não identificou nenhum animal específico e gerou uma sequência de palavras sem sentido, misturando português e espanhol.

### 4. Espécies únicas da Amazônia
- O modelo não mencionou nenhuma espécie real e produziu uma mistura de palavras em português e italiano, sem conteúdo factual.

## Problemas Identificados
- Mistura de idiomas (português, espanhol, inglês, italiano)
- Falta de conhecimento específico sobre o Brasil
- Geração de palavras sem sentido ou inexistentes
- Incapacidade de fornecer informações factuais precisas

## Técnicas para Evitar ou Mitigar Alucinações

1. **Fine-tuning com Dados Específicos**
   - Treinar o modelo com dados específicos e precisos sobre o Brasil pode melhorar a qualidade das respostas.

2. **Retrieval-Augmented Generation (RAG)**
   - Combinar o modelo de linguagem com uma base de conhecimento externa para fornecer informações factuais precisas.

3. **Controle de Temperatura**
   - Reduzir a temperatura (por exemplo, para 0.3-0.5) pode tornar as respostas mais conservadoras e menos propensas a alucinações.

4. **Uso de Prompts mais Específicos**
   - Fornecer mais contexto no prompt pode ajudar o modelo a gerar respostas mais precisas.

5. **Pós-processamento e Filtragem**
   - Implementar verificações para filtrar respostas que misturam idiomas ou contêm palavras sem sentido.

6. **Modelos Multilíngues**
   - Usar modelos treinados especificamente em português ou modelos multilíngues pode reduzir a mistura de idiomas.

7. **Fact-Checking Automático**
   - Implementar um sistema que verifica as informações geradas contra uma base de dados confiável.

8. **Limitação de Tokens**
   - Restringir o número de tokens gerados pode reduzir a chance de o modelo divagar e produzir conteúdo irrelevante.

9. **Uso de Técnicas de Few-Shot Learning**
   - Fornecer exemplos de respostas corretas no prompt pode guiar o modelo a gerar respostas mais precisas.

10. **Modelos Especializados**
    - Para tópicos específicos, como informações sobre o Brasil, considerar o uso de modelos treinados especificamente nesse domínio.

Implementar uma combinação dessas técnicas pode ajudar significativamente a reduzir alucinações e melhorar a precisão das respostas geradas pelo modelo.