# **Construindo um Chatbot com a API Gemini, Fundamentado em Documentos de texto**

**Além do Conhecimento Geral para uma IA Fundamentada**
A tarefa de criar um chatbot que responda a perguntas de usuários é uma aplicação comum de Grandes Modelos de Linguagem (LLMs). No entanto, um desafio significativo com LLMs de propósito geral, como o Gemini, é sua tendência a "alucinar".

Para aplicações empresariais, acadêmicas ou especializadas, onde a precisão e a rastreabilidade são primordiais, as respostas do chatbot devem ser estritamente limitadas a um conjunto de documentos.

A solução para este desafio é uma arquitetura conhecida como **Geração Aumentada por Recuperação (RAG)**. Em vez de simplesmente fazer uma pergunta ao LLM e esperar que ele "saiba" a resposta com base em seu vasto treinamento prévio, o RAG introduz um passo intermediário crucial.

![](https://static.wixstatic.com/media/cfe500_0546c1c5b8b3430f90c039aaa4ab71e2~mv2.jpg/v1/fill/w_740,h_438,al_c,q_80,usm_0.66_1.00_0.01,enc_avif,quality_auto/cfe500_0546c1c5b8b3430f90c039aaa4ab71e2~mv2.jpg)

1. **Prompt do Usuário**: Primeiro, o usuário insere um prompt com a pergunta (query) no sistema.

2. **Busca por Informação**: A query é usada para consultar fontes de conhecimento (como documentos PDF, TXT, etc.) previamente indexadas.

3. **Recuperação**: O sistema retorna ***trechos relevantes dos documentos*** que servirão como ***contexto aumentado***.

4. **Preparação do Prompt**: O contexto recuperado é combinado com a query original, formando um novo prompt fundamentado.

5. **Geração da Resposta**: O novo prompt é enviado ao LLM (como o Gemini), que gera uma resposta com base exclusivamente nas informações recuperadas.

A arquitetura RAG pode ser definida como um pipeline de três estágios principais: **Indexação, Recuperação e Geração**.


## 1. **Indexação**

A Indexação na pratica é um processo em 3 etapas:

1.1 **Ingestão**: Carregar e analisar os arquivos brutos PDF e TXT do seu corpus de conhecimento.


Instalação das dependencias:
* google-generativeai: O SDK oficial do Google para interagir com a API Gemini.

In [None]:
!pip install google-generativeai

Chave da API do Gemini

In [1]:
GOOGLE_API_KEY = "AIzaSyAlh3jMCqGjWCkIc73erVWLjhHUKsli_eU"

In [None]:
 # apemas no colab
from google.colab import userdata
GOOGLE_API_KEY = userdata.get('GOOGLE_API_KEY_1')

In [4]:
import google.generativeai as genai
genai.configure(api_key=GOOGLE_API_KEY)

  from .autonotebook import tqdm as notebook_tqdm


 Importando texto de PDF

 Baixe os arquivos do GitHub


Instalação das dependencias:
* pypdf: Biblioteca para extrair texto de arquivos PDF.

In [10]:
!pip install -U -q pypdf

[?25l   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m0.0/323.5 kB[0m [31m?[0m eta [36m-:--:--[0m[2K   [91m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m[90m╺[0m [32m317.4/323.5 kB[0m [31m9.3 MB/s[0m eta [36m0:00:01[0m[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m323.5/323.5 kB[0m [31m5.9 MB/s[0m eta [36m0:00:00[0m
[?25h

In [8]:
diretorio_arquivo = "D:/Minicurso_Atendente_Virtual_INOVAIFPI_2025/content"

In [9]:
import os
from pypdf import PdfReader

documents = []

for filename in os.listdir(diretorio_arquivo):
    if filename.endswith(".pdf"):
        pdf_path = os.path.join(diretorio_arquivo, filename)
        title = os.path.splitext(filename)[0] #retirar a extensão pdf do nome do arquivo
        reader = PdfReader(pdf_path)
        pages = reader.pages
        doc_text = ''.join((page.extract_text() or '') for page in pages)
        documents.append({"title": title, "text": doc_text})

1.2 **Divisão (Chunking)**: Dividir estrategicamente o texto dos documentos em pedaços menores e gerenciáveis, conhecidos como "chunks".

Esta etapa é fundamental por duas razões principais:

 - **Limites de Contexto do Modelo**: Os modelos de embedding e os LLMs têm um limite máximo de tokens que podem processar de uma só vez. Enviar um documento inteiro (100 páginas, por exemplo) excederia esse limite.

- **Precisão da Recuperação**: Se você incorporar um documento inteiro em um único vetor, o vetor representará o significado médio de todo o documento. Quando um usuário faz uma pergunta específica, é improvável que a média de todo o documento seja a correspondência mais próxima. Chunks menores e mais focados permitem uma recuperação muito mais precisa e relevante.

A escolha da estratégia de "chunking" é uma decisão de design importante. As estratégias comuns incluem:

- **Tamanho Fixo (Fixed-Size)**: A abordagem mais simples, dividindo o texto em chunks de N caracteres ou tokens. Sua principal desvantagem é que pode cortar frases ou parágrafos no meio, quebrando o contexto semântico.
- **Semântica (Semantic)**: Tenta dividir o texto em limites lógicos, como frases ou parágrafos.
- **Recursiva (Recursive)**: Uma abordagem mais sofisticada que tenta dividir o texto usando uma hierarquia de separadores. Por exemplo, primeiro tenta dividir por parágrafos (\n\n). Se os chunks resultantes ainda forem muito grandes, ele os divide por frases, e assim por diante.

Para a maioria dos documentos baseados em texto, a **Divisão Recursiva de Caracteres (Recursive Character Text Splitting)** oferece o melhor equilíbrio entre simplicidade e preservação do contexto semântico. Ela respeita a estrutura natural do documento, tentando manter os parágrafos e as frases intactos sempre que possível.

Dois parâmetros chave nesta estratégia são `chunk_size` e `chunk_overlap`. `chunk_size` define o tamanho máximo de cada chunk. `chunk_overlap` especifica quantos caracteres do final de um chunk devem ser repetidos no início do próximo.

![chunk overlap](https://cdn.analyticsvidhya.com/wp-content/uploads/2025/02/unnamed-1-67a0e0c9ca199-1.webp)

Instalação das dependencias:
* langchain-text-splitters: Uma ferramenta útil para implementar estratégias de divisão de texto.

In [27]:
!pip install -U -q langchain-text-splitters

In [10]:
from langchain_text_splitters import RecursiveCharacterTextSplitter
text_spliter = RecursiveCharacterTextSplitter(
    chunk_size = 400, # quantidade caracteres por pedaço
    chunk_overlap  = 60,
    length_function = len, #função que mede o comprimento do chunk
    separators=["\n\n", "\n", ". ", ",", " ", ""]
)

In [11]:
chunks = []
for doc in documents:
  for chunk in text_spliter.split_text(doc["text"]):
    chunks.append({"title": doc["title"], "text": chunk})

In [12]:
len(chunks)

221

In [13]:
chunks[0]

{'title': 'Currículos dos médicos',
 'text': 'CURRÍCULOS – CLÍNICA BEM-ESTAR \n \nDr. Ricardo Monteiro \nEspecialidade: Cardiologia \nCRM: 18234-PI \nE-mail profissional: ricardo.monteiro@clinicabemestar.com.br \nFormação Acadêmica: \n• Graduação em Medicina – Universidade Federal do Piauí (UFPI), 2008 \n• Residência Médica em Clínica Médica – Hospital Universitário da UFPI, \n2011'}

In [14]:
chunks[1]

{'title': 'Currículos dos médicos',
 'text': '2011 \n• Especialização em Cardiologia – Instituto do Coração (InCor/USP), 2014 \nExperiência Profissional: \n• Cardiologista assistente no Hospital São Marcos (2015–2020) \n• Coordenador do setor de cardiologia preventiva na Clínica Bem-Estar \n(desde 2021) \nÁreas de interesse: prevenção de doenças cardiovasculares, hipertensão arterial \ne reabilitação cardíaca. \nIdiomas: Português e Inglês técnico.'}

1.3 **Embedding e Indexação**: Converter cada "chunk" de texto em uma representação numérica (um vetor de embedding) e armazenar esses vetores para busca rápida.

 - *Embedding:*

In [15]:
models_embeddings = []
for model in genai.list_models():
  if "embedContent" in model.supported_generation_methods:
    models_embeddings.append(model.name)

In [16]:
models_embeddings

['models/embedding-001',
 'models/text-embedding-004',
 'models/gemini-embedding-exp-03-07',
 'models/gemini-embedding-exp',
 'models/gemini-embedding-001']

```
{
  "title": "nome do arquivo",
  "text": "texto...",
  "embedding": "0.56, 0.455..."
}
```

In [17]:
%%time
embeddedChunks = []
for chunk in chunks:
  try:
    result = genai.embed_content(
        model = models_embeddings[1],
        content = chunk["text"],
        task_type="RETRIEVAL_DOCUMENT"
    )
    chunk["embedding"] = result["embedding"]
    embeddedChunks.append(chunk)
  except Exception as e:
    print(e)

CPU times: total: 172 ms
Wall time: 1min 36s


In [23]:
print(embeddedChunks[0]['embedding'])

[0.015707677, -0.0060636885, -0.03130821, 0.03827866, 0.0351655, 0.0052398075, -0.008128903, 0.0014418159, 0.018109782, 0.1008451, -0.01283055, 0.08683725, 0.024728663, 0.01889299, -0.0020345708, -0.02195822, 0.020604488, -0.0077352566, -0.1018801, 0.022693759, 0.03788595, -0.024486007, 0.018751936, -0.0056941207, -0.0073814737, -0.020754224, 0.064993285, -0.049349606, -0.048890803, 0.004154435, 0.02525067, 0.020227294, -0.0066437647, -0.036102194, 0.02611773, 0.07603179, 0.013023253, -0.0056571206, 0.0018348971, -0.055431288, -0.035242327, 0.004870376, 0.0051701525, 0.0053727413, -0.030761804, -0.058892146, -0.01643943, 0.05696354, -0.06541251, 0.045866717, 0.0138657885, 0.06800581, -0.022755051, 0.052283846, -0.023550807, -0.027739897, -0.065049104, -0.04586999, 0.030112196, -0.014733079, -0.0050789206, -0.0035487649, 0.011329759, -0.072480604, 0.057893578, 0.0009906903, -0.0062918216, -0.0039049122, -0.073337995, 0.004451665, 0.011417545, 0.025442332, 0.01151085, 0.005427833, -0.018

- *Indexação:*

Os embeddings precisam ser armazenados em um local que permita uma busca por similaridade extremamente rápida. Bancos de dados relacionais tradicionais não são projetados para este tipo de operação. Em vez disso, usamos **armazenamentos de vetores (vector stores)**. Seguem duas opções:
1. **[ChromaDB](https://www.trychroma.com/)** é um banco de dados vetorial de código aberto, construído especificamente para aplicações de IA. Ele abstrai grande parte da complexidade. Com uma API simples, ele gerencia o armazenamento de embeddings, documentos e metadados em um único local.  

2. **[FAISS (Facebook AI Similarity Search)](https://ai.meta.com/tools/faiss/)** não é um banco de dados, mas sim uma biblioteca de código aberto altamente otimizada para busca de similaridade em conjuntos densos de vetores.

Para os propósitos deste guia, que visa construir um protótipo funcional, **ChromaDB** é a escolha recomendada devido à sua simplicidade e ciclo de desenvolvimento rápido.

Instalação das dependencias:
* ChromaDB: Um banco de dados vetorial de código aberto projetado para IA.

In [None]:
!pip install -U -q chromadb

Adiciona os dados à coleção (como um insert em uma tabela)

In [19]:
import chromadb

In [20]:
DB_PATH = "./chroma_db"
COLLECTION_NAME = "content_chatbot"

Criando/Organizando os dados no formato do chormadb

In [21]:
ids = [f'chunk_{i}' for i in range(len(embeddedChunks))]
embeddings = [chunk['embedding'] for chunk in embeddedChunks]
documents = [chunk['text'] for chunk in embeddedChunks]
metadatas = [{'title': chunk['title']} for chunk in embeddedChunks]

Inserindo os dados no chromadb

In [22]:
client = chromadb.PersistentClient(path=DB_PATH)
collection = client.get_or_create_collection(name=COLLECTION_NAME)

In [24]:
try:
  collection.upsert(
      ids=ids,
      embeddings=embeddings,
      documents=documents,
      metadatas=metadatas
  )
except Exception as e:
  print(e)

## 2. **Recuperação**

Quando um usuário envia uma consulta, o primeiro passo é encontrar os "chunks" de texto mais relevantes em nossa base de conhecimento. Este processo de busca semântica tem duas etapas:

1. **Incorporar a Consulta do Usuário**: A consulta do usuário (uma string de texto) deve ser convertida em um vetor de embedding usando o mesmo modelo que usamos para os documentos (text-embedding-004). Crucialmente, aqui usamos `task_type="RETRIEVAL_QUERY"` para otimizar o vetor para a tarefa de busca.

2. **Buscar por Similaridade**: O vetor da consulta é então usado para pesquisar no nosso armazenamento de vetores. A "similaridade" é tipicamente medida usando a **Similaridade de Cosseno (Cosine Similarity)**. Esta métrica calcula o cosseno do ângulo entre dois vetores. Um valor de `1` significa que os vetores apontam na mesma direção (semanticamente idênticos), `0` significa que são ortogonais (não relacionados), e `-1` significa que são opostos. Matematicamente, é calculado como o produto escalar dos vetores dividido pelo produto de suas magnitudes:
$$
S_C(A, B) = \frac{A \cdot B}{\|A\| \|B\|}
$$

In [25]:
models_embeddings[1]

'models/text-embedding-004'

In [47]:
from typing import List

def recupera_chunks_relevantes(query: str, n_resultados: int = 5) -> List[str]:
    query_embedding_result = genai.embed_content(
        model=models_embeddings[1],
        content=query,
        task_type="RETRIEVAL_QUERY"
    )
    query_embedding = query_embedding_result['embedding']
    result = collection.query(
        query_embeddings=[query_embedding],
        n_results=n_resultados
    )
    return result['documents']

In [48]:
retorno = recupera_chunks_relevantes("horario")
retorno

[['2. Horário de Funcionamento \n• Segunda a Sexta: 7h às 19h \n• Sábado: 7h às 12h \n• Domingos e feriados: fechado \nO atendimento na recepção inicia às 6h45. Consultas agendadas têm tolerância \nde 15 minutos. Após esse período, o horário poderá ser realocado. \n \n3. Especialidades e Corpo Clínico \nMédico Especialidade Dias de Atendimento Horário \nDr. Ricardo Monteiro Cardiologia Segunda, Quarta,',
  'Dr. Ricardo Monteiro Cardiologia Segunda, Quarta, \nSexta 8h – 12h \nDra. Helena Prado Pediatria Segunda a Quinta 13h – 17h \nDr. Gustavo Lemos Ortopedia Terça e Quinta 8h – \n11h30 \nDra. Laura Martins Ginecologia e \nObstetrícia Segunda e Quarta 14h – 18h \nDr. André \nVasconcelos Dermatologia Terça e Sexta 9h – 13h \nDra. Camila Ribeiro Endocrinologia Quarta e Sexta 8h – 12h',
  'CLÍNICA BEM-ESTAR – MANUAL DE FUNCIONAMENTO \n1. Apresentação \nA Clínica Bem-Estar é um centro de saúde multidisciplinar voltado ao \natendimento ambulatorial de pacientes particulares, conveniados a pl

## 3. **Geração**

Nesta etapa vamos usar os "chunks" recuperados como contexto para um modelo generativo.

Esta é a etapa mais crítica para cumprir a restrição principal do usuário: garantir que o chatbot responda apenas com base nas informações fornecidas. Devemos construir um prompt que instrua o modelo Gemini a abandonar seu conhecimento geral e a se ater estritamente ao contexto que fornecemos. Isso é alcançado através de uma **engenharia de prompt**.

**Resposta Final**

In [49]:
from google.generativeai.types import HarmCategory, HarmBlockThreshold

In [52]:
list_model = []
for i, model in enumerate(genai.list_models()):
    if 'generateContent' in model.supported_generation_methods:
        print(f'{i-1} - {model.name}')
        list_model.append(model.name)

0 - models/gemini-2.5-pro-preview-03-25
1 - models/gemini-2.5-flash-preview-05-20
2 - models/gemini-2.5-flash
3 - models/gemini-2.5-flash-lite-preview-06-17
4 - models/gemini-2.5-pro-preview-05-06
5 - models/gemini-2.5-pro-preview-06-05
6 - models/gemini-2.5-pro
7 - models/gemini-2.0-flash-exp
8 - models/gemini-2.0-flash
9 - models/gemini-2.0-flash-001
10 - models/gemini-2.0-flash-exp-image-generation
11 - models/gemini-2.0-flash-lite-001
12 - models/gemini-2.0-flash-lite
13 - models/gemini-2.0-flash-preview-image-generation
14 - models/gemini-2.0-flash-lite-preview-02-05
15 - models/gemini-2.0-flash-lite-preview
16 - models/gemini-2.0-pro-exp
17 - models/gemini-2.0-pro-exp-02-05
18 - models/gemini-exp-1206
19 - models/gemini-2.0-flash-thinking-exp-01-21
20 - models/gemini-2.0-flash-thinking-exp
21 - models/gemini-2.0-flash-thinking-exp-1219
22 - models/gemini-2.5-flash-preview-tts
23 - models/gemini-2.5-pro-preview-tts
24 - models/learnlm-2.0-flash-experimental
25 - models/gemma-3-1b-

In [57]:
generation_config = {
    "candidate_count": 1,
    "temperature": 1
}
# safety_settings = {
#     HarmCategory.HARM_CATEGORY_HARASSMENT: ...
#     ...
# }

In [58]:
model = genai.GenerativeModel(
    model_name=list_model[2],
    generation_config=generation_config
)

In [59]:
prompt = input()
resposta = model.generate_content(prompt)
print(resposta.text)

Sou um modelo de linguagem grande, treinado pelo Google.


**Chat continuo**

In [None]:
chat = model.start_chat(history=[])

prompt = ''
while prompt!="fim":
    prompt = input()
    resposta = chat.send_message(prompt)
    print(resposta.text)