In [1]:
!pip install langchain langchain_community beautifulsoup4 chromadb sentence-transformers
!pip install -U lxml

Collecting langchain
  Using cached langchain-0.3.27-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain_community
  Using cached langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting chromadb
  Using cached chromadb-1.0.16-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.4 kB)
Collecting sentence-transformers
  Using cached sentence_transformers-5.1.0-py3-none-any.whl.metadata (16 kB)
Collecting langchain-core<1.0.0,>=0.3.72 (from langchain)
  Using cached langchain_core-0.3.74-py3-none-any.whl.metadata (5.8 kB)
Collecting langchain-text-splitters<1.0.0,>=0.3.9 (from langchain)
  Using cached langchain_text_splitters-0.3.9-py3-none-any.whl.metadata (1.9 kB)
Collecting langsmith>=0.1.17 (from langchain)
  Using cached langsmith-0.4.14-py3-none-any.whl.metadata (14 kB)
Collecting tenacity!=8.4.0,<10.0.0,>=8.1.0 (from langchain-core<1.0.0,>=0.3.72->langchain)
  Using cached tenacity-9.1.2-py3-none-any.whl.metadata (1.2 kB)
Collecting dataclasses

In [2]:
from typing import Any, Dict, List, Optional, Sequence
from pathlib import Path
import re, html
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA
from IPython.display import Markdown, display, HTML
import warnings
warnings.filterwarnings("ignore", category=DeprecationWarning)
warnings.filterwarnings("ignore", category=UserWarning)

In [3]:
# --- injeta CSS uma única vez ---
_BLACK_CSS_INJECTED = False
# padrões (bloco e inline)
_RE_FENCE_TRIPLE_BACKTICKS = re.compile(r"```(.*?)```", flags=re.DOTALL)
_RE_FENCE_TRIPLE_QUOTES    = re.compile(r"'''(.*?)'''", flags=re.DOTALL)
_RE_INLINE_BACKTICK        = re.compile(r"`([^`]+)`")
# aspas simples com cuidado p/ não pegar apóstrofos em palavras
_RE_INLINE_SINGLE_QUOTE    = re.compile(r"(?<!\\w)'([^'\\n]+)'(?!\\w)")

Criando os embeddings

In [4]:
def build_hf_embeddings(
    model_name: str = "intfloat/multilingual-e5-small",
    device: str = "cpu",
    normalize_embeddings: bool = True,
    **kwargs: Any,
) -> HuggingFaceEmbeddings:
    """
    Cria um objeto HuggingFaceEmbeddings compatível com o índice salvo.

    Parâmetros
    ----------
    model_name : str, opcional
        Nome do modelo de embeddings (ex.: "intfloat/multilingual-e5-small").
    device : str, opcional
        Dispositivo: "cpu" ou "cuda".
    normalize_embeddings : bool, opcional
        Se True, normaliza os vetores (útil para similaridade de cosseno).
    **kwargs : Any
        Pass-through para HuggingFaceEmbeddings (ex.: model_kwargs, encode_kwargs).

    Retorno
    -------
    HuggingFaceEmbeddings
        Instância configurada de embeddings.
    """
    model_kwargs = kwargs.pop("model_kwargs", {"device": device})
    encode_kwargs = kwargs.pop("encode_kwargs", {"normalize_embeddings": normalize_embeddings})
    print(f" Carregando embeddings '{model_name}' em '{device}' (normalize={normalize_embeddings})")
    return HuggingFaceEmbeddings(
        model_name=model_name,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs,
        **kwargs,
    )

Função para carregar índice Chroma

In [5]:
def load_chroma_index(
    embeddings: HuggingFaceEmbeddings,
    persist_directory: str,
) -> Chroma:
    """
    Carrega um índice vetorial Chroma previamente persistido em disco e informa contagem.

    Parâmetros
    ----------
    embeddings : HuggingFaceEmbeddings
        Objeto de embeddings *compatível* com o usado na criação do índice.
    persist_directory : str
        Caminho do diretório onde o índice foi salvo.

    Retorno
    -------
    Chroma
        Instância do vetor store pronta para uso (busca/RAG).
    """
    p = Path(persist_directory)
    if not p.exists():
        raise FileNotFoundError(
            f"O diretório '{persist_directory}' não existe. Crie o índice primeiro (notebook de guardar)."
        )

    print(f" 3. Carregando índice Chroma de '{persist_directory}' ...")
    vs = Chroma(
        embedding_function=embeddings,
        persist_directory=persist_directory,
    )
    # Contagem de itens (API interna do cliente do Chroma)
    try:
        n_items = vs._collection.count()  # type: ignore[attr-defined]
        print(f"   Coleção: '{vs._collection.name}' | Itens: {n_items}")  # type: ignore[attr-defined]
    except Exception:
        print("   (Não foi possível obter a contagem via _collection; prosseguindo mesmo assim)")

    return vs

Função para criar o retriever

In [6]:
def build_retriever(
    vectorstore: Chroma,
    k: int = 4,
    score_threshold: Optional[float] = None,
) -> Any:
    """
    Constrói um retriever para busca por similaridade no índice carregado.

    Parâmetros
    ----------
    vectorstore : Chroma
        Banco vetorial Chroma carregado.
    k : int, opcional
        Número de chunks a recuperar por consulta.
    score_threshold : float, opcional
        Limiar mínimo de score (quando suportado).

    Retorno
    -------
    BaseRetriever
        Retriever compatível com LangChain, pronto para compor a cadeia de RAG.
    """
    if score_threshold is None:
        print(f" 4. Criando retriever (k={k}) ...")
        return vectorstore.as_retriever(search_kwargs={"k": k})

    print(f" 4. Criando retriever (k={k}, score_threshold={score_threshold}) ...")
    return vectorstore.as_retriever(
        search_type="similarity_score_threshold",
        search_kwargs={"k": k, "score_threshold": score_threshold},
    )

In [7]:
def default_brazilian_prompt() -> PromptTemplate:
    """
    Prompt em PT-BR para respostas didáticas com uso de contexto.

    Retorno
    -------
    PromptTemplate
        Template com variáveis: "context" e "question".
    """
    template = (
        "Você é um assistente ESTRITAMENTE limitado à documentação do Python abaixo.\n"
        "REGRAS OBRIGATÓRIAS:\n"
        "1) Responda SOMENTE usando informações presentes no CONTEXTO.\n"
        "2) Se a resposta NÃO estiver claramente no contexto, diga apenas:\n"
        "   \"Não encontrei isso na documentação que tenho aqui.\"\n"
        "3) Se a pergunta for fora do tema Python, responda:\n"
        "   \"Fora de escopo: só posso responder sobre Python com base nos trechos fornecidos.\"\n"
        "4) Não use conhecimento prévio. Não invente. Não pesquise fora.\n"
        "\n=== CONTEXTO ===\n{context}\n=== FIM DO CONTEXTO ===\n"
        "Pergunta (interprete sempre no contexto de Python): {question}\n"
    )
    return PromptTemplate(template=template, input_variables=["context", "question"])

Função para criar LLM do Ollama

In [8]:
def build_ollama_llm(
    model: str = "llama3.2:3b-instruct-q4_K_M",
    temperature: float = 0.0,
    **kwargs: Any,
) -> Ollama:
    """
    Prepara o LLM do Ollama para uso no RAG.

    Parâmetros
    ----------
    model : str, opcional
        Nome do modelo disponível no Ollama (`ollama list`).
    temperature : float, opcional
        Temperatura de amostragem.
    **kwargs : Any
        Parâmetros extras para `Ollama` (ex.: base_url, num_ctx).

    Retorno
    -------
    Ollama
        Instância do LLM configurada.
    """
    print(f" 5. Preparando LLM Ollama (model={model}, temperature={temperature}) ...")
    return Ollama(model=model, temperature=temperature, **kwargs)

Função para montar cadeia RAG

In [9]:
def build_retrieval_qa_chain(
    llm: Ollama,
    retriever: Any,
    prompt: PromptTemplate,
    chain_type: str = "stuff",
    return_sources: bool = True,
) -> RetrievalQA:
    """
    Monta a cadeia RAG (Retriever + Prompt + LLM) para responder perguntas com contexto.

    Parâmetros
    ----------
    llm : Ollama
        Modelo de linguagem preparado.
    retriever : BaseRetriever
        Mecanismo de recuperação a partir do Chroma.
    prompt : PromptTemplate
        Template com variáveis "context" e "question".
    chain_type : str, opcional
        Tipo da cadeia ("stuff", "map_reduce", "refine").
    return_sources : bool, opcional
        Se True, retorna documentos-fonte.

    Retorno
    -------
    RetrievalQA
        Cadeia pronta para executar perguntas.
    """
    print(" 6. Montando cadeia de RAG ...")
    return RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type=chain_type,
        chain_type_kwargs={"prompt": prompt},
        return_source_documents=return_sources,
    )

formatando a saida

In [10]:
def format_sources(source_documents: Optional[Sequence[Any]]) -> List[str]:
    """
    Converte Documents de fonte em strings amigáveis (caminho + score quando disponível).

    Parâmetros
    ----------
    source_documents : Sequence[Document] | None
        Documentos retornados pelo retriever/chain.

    Retorno
    -------
    List[str]
        Lista de descrições de fonte.
    """
    items: List[str] = []
    for doc in source_documents or []:
        meta = getattr(doc, "metadata", {}) or {}
        origem = meta.get("source") or meta.get("file_path") or str(meta)
        score = meta.get("score")
        if score is not None:
            origem = f"{origem} (score={score})"
        items.append(origem)
    return items

In [11]:
def ensure_black_code_css() -> None:
    """Injeta CSS para caixas de código com fundo preto e texto branco (inline e bloco)."""
    global _BLACK_CSS_INJECTED
    if _BLACK_CSS_INJECTED:
        return
    css = """
    <style>
      /* Inline "pílula" */
      .codechip {
        display: inline-block !important;
        background: #000 !important;
        color: #fff !important;
        padding: 0 6px !important;
        border-radius: 6px !important;
        line-height: 1.4 !important;
        vertical-align: baseline !important;
        font-family: ui-monospace, SFMono-Regular, Menlo, Consolas, "Liberation Mono", monospace !important;
      }
      .codechip code {
        background: transparent !important;
        color: inherit !important;
        padding: 0 !important;
      }

      /* Bloco */
      .codeblock {
        display: block !important;
        background: #000 !important;
        color: #fff !important;
        padding: 10px 12px !important;
        border-radius: 8px !important;
        white-space: pre-wrap !important;
        overflow: auto !important;
        font-family: ui-monospace, SFMono-Regular, Menlo, Consolas, "Liberation Mono", monospace !important;
        margin: .6em 0 !important;
      }
      .codeblock code {
        background: transparent !important;
        color: inherit !important;
        padding: 0 !important;
      }
    </style>
    """
    display(HTML(css))
    _BLACK_CSS_INJECTED = True

In [12]:
def _wrap_block(code: str) -> str:
    """Envolve como bloco (caixa preta maior)."""
    return f"<pre class='codeblock'><code>{html.escape(code.strip())}</code></pre>"

In [13]:
def _wrap_inline(code: str) -> str:
    """Envolve como pílula inline (apenas um pouco maior que o conteúdo)."""
    return f"<span class='codechip'><code>{html.escape(code.strip())}</code></span>"

In [14]:
def format_code_blocks_black(text: str) -> str:
    """
    Converte:
      - ```bloco```,  '''bloco'''  → bloco com fundo preto
      - `inline`, 'inline'          → pílula inline com fundo preto
    Garante contraste (texto branco) e evita CSS do tema sobrescrever.
    """
    placeholders: List[str] = []

    def sub_block(pattern: re.Pattern, s: str) -> str:
        def push(m: re.Match) -> str:
            placeholders.append(_wrap_block(m.group(1)))
            return f"@@CODE{len(placeholders)-1}@@"
        return pattern.sub(push, s)

    def sub_inline(pattern: re.Pattern, s: str) -> str:
        def push(m: re.Match) -> str:
            placeholders.append(_wrap_inline(m.group(1)))
            return f"@@CODE{len(placeholders)-1}@@"
        return pattern.sub(push, s)

    # 1) blocos primeiro
    tmp = sub_block(_RE_FENCE_TRIPLE_BACKTICKS, text)
    tmp = sub_block(_RE_FENCE_TRIPLE_QUOTES,    tmp)
    # 2) inlines depois
    tmp = sub_inline(_RE_INLINE_BACKTICK,       tmp)
    tmp = sub_inline(_RE_INLINE_SINGLE_QUOTE,   tmp)

    # 3) escapa tudo que sobrou (texto comum), para não virar HTML acidental
    safe = html.escape(tmp)

    # 4) recoloca os HTML reais
    for i, html_block in enumerate(placeholders):
        token = f"@@CODE{i}@@"
        safe = safe.replace(html.escape(token), html_block).replace(token, html_block)

    return safe

In [15]:
def ask(
    chain: RetrievalQA,
    question: str,
    show_sources: bool = True,
    retriever_for_guard: Optional[Any] = None,
    hide_sources_when_empty: bool = True,
) -> Dict[str, Any]:
    """
    Versão estrita: se não houver docs relevantes, não deixa o LLM responder.
    Só imprime 'Fontes' quando existir pelo menos 1 fonte (ou quando hide_sources_when_empty=False).
    """
    print(f" 7. Pergunta: {question}")

    # 0) Guarda de contexto: consulta o retriever antes
    if retriever_for_guard is not None:
        pre_docs = retriever_for_guard.get_relevant_documents(question)
        if not pre_docs:  # nada acima do score_threshold
            ensure_black_code_css()
            msg = (
                "Fora de escopo ou não encontrado no contexto.\n"
                "Não encontrei isso na documentação que tenho aqui."
            )
            answer_html = format_code_blocks_black(msg)
            display(HTML(answer_html))

            # Não imprime seção de fontes quando não há nenhuma
            if show_sources and not hide_sources_when_empty:
                print("\n---\n Fontes: (nenhuma)")

            return {
                "answer": answer_html,
                "sources": [],
                "raw": {"result": msg, "source_documents": []},
            }

    # 1) Executa a chain normalmente
    resp = chain(question)

    # 2) Renderização
    ensure_black_code_css()
    answer_html = format_code_blocks_black(resp.get("result", ""))
    print("\n Resposta:\n")
    display(HTML(answer_html))

    # 3) Fontes (imprime só se houver)
    srcs: List[str] = format_sources(resp.get("source_documents", []))

    if show_sources:
        if srcs:
            print("\n---\n Fontes:")
            for i, s in enumerate(srcs, 1):
                print(f"[{i}] {s}")
        elif not hide_sources_when_empty:
            print("\n---\n Fontes: (nenhuma)")

    return {"answer": answer_html, "sources": srcs, "raw": resp}


In [20]:
# === Parâmetros ===
PERSIST_DIR = "./chroma_db_python_iniciante"      # mesmo diretório usado no notebook de guardar
EMBEDDINGS_MODEL = "intfloat/multilingual-e5-small"
DEVICE = "cpu"                                     # ou "cuda"
NORMALIZE = True
K = 4                                              # número de chunks retornados
OLLAMA_MODEL = "llama3.2:3b-instruct-q4_K_M"
TEMPERATURE = 0.0

# === Pipeline ===
emb = build_hf_embeddings(
    model_name=EMBEDDINGS_MODEL,
    device=DEVICE,
    normalize_embeddings=NORMALIZE
)

vs = load_chroma_index(
    embeddings=emb,
    persist_directory=PERSIST_DIR
)

retriever = build_retriever(
    vectorstore=vs,
    k=K,
    score_threshold=0.25  # ou por exemplo 0.2, se quiser filtrar
)

prompt = default_brazilian_prompt()
llm = build_ollama_llm(model=OLLAMA_MODEL, temperature=TEMPERATURE)
chain = build_retrieval_qa_chain(llm, retriever, prompt)

# === Perguntar ===
QUESTION = "defina o que é uma classe e de exemplos"
result = ask(chain, QUESTION, show_sources=True, hide_sources_when_empty=True)

 Carregando embeddings 'intfloat/multilingual-e5-small' em 'cpu' (normalize=True)
 3. Carregando índice Chroma de './chroma_db_python_iniciante' ...
   Coleção: 'langchain' | Itens: 9293
 4. Criando retriever (k=4, score_threshold=0.25) ...
 5. Preparando LLM Ollama (model=llama3.2:3b-instruct-q4_K_M, temperature=0.0) ...
 6. Montando cadeia de RAG ...
 7. Pergunta: defina o que é uma classe e de exemplos

 Resposta:




---
 Fontes:
[1] data/python-3.13-docs-html/reference/datamodel.html
[2] data/python-3.13-docs-html/reference/compound_stmts.html
[3] data/python-3.13-docs-html/reference/executionmodel.html
[4] data/python-3.13-docs-html/glossary.html
