In [43]:
!pip install langchain langchain_community beautifulsoup4 chromadb sentence-transformers
!pip install -U lxml

huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




huggingface/tokenizers: The current process just got forked, after parallelism has already been used. Disabling parallelism to avoid deadlocks...
	- Avoid using `tokenizers` before the fork if possible
	- Explicitly set the environment variable TOKENIZERS_PARALLELISM=(true | false)




In [55]:
from typing import Any, Dict, List, Optional, Sequence
from pathlib import Path

from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain_community.vectorstores import Chroma
from langchain.prompts import PromptTemplate
from langchain_community.llms import Ollama
from langchain.chains import RetrievalQA

In [56]:
def build_hf_embeddings(
    model_name: str = "intfloat/multilingual-e5-small",
    device: str = "cpu",
    normalize_embeddings: bool = True,
    **kwargs: Any,
) -> HuggingFaceEmbeddings:
    """
    Cria um objeto HuggingFaceEmbeddings compatível com o índice salvo.

    Parâmetros
    ----------
    model_name : str, opcional
        Nome do modelo de embeddings (ex.: "intfloat/multilingual-e5-small").
    device : str, opcional
        Dispositivo: "cpu" ou "cuda".
    normalize_embeddings : bool, opcional
        Se True, normaliza os vetores (útil para similaridade de cosseno).
    **kwargs : Any
        Pass-through para HuggingFaceEmbeddings (ex.: model_kwargs, encode_kwargs).

    Retorno
    -------
    HuggingFaceEmbeddings
        Instância configurada de embeddings.
    """
    model_kwargs = kwargs.pop("model_kwargs", {"device": device})
    encode_kwargs = kwargs.pop("encode_kwargs", {"normalize_embeddings": normalize_embeddings})
    print(f" Carregando embeddings '{model_name}' em '{device}' (normalize={normalize_embeddings})")
    return HuggingFaceEmbeddings(
        model_name=model_name,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs,
        **kwargs,
    )


In [57]:
def load_chroma_index(
    embeddings: HuggingFaceEmbeddings,
    persist_directory: str,
) -> Chroma:
    """
    Carrega um índice vetorial Chroma previamente persistido em disco e informa contagem.

    Parâmetros
    ----------
    embeddings : HuggingFaceEmbeddings
        Objeto de embeddings *compatível* com o usado na criação do índice.
    persist_directory : str
        Caminho do diretório onde o índice foi salvo.

    Retorno
    -------
    Chroma
        Instância do vetor store pronta para uso (busca/RAG).
    """
    p = Path(persist_directory)
    if not p.exists():
        raise FileNotFoundError(
            f"O diretório '{persist_directory}' não existe. Crie o índice primeiro (notebook de guardar)."
        )

    print(f" 3. Carregando índice Chroma de '{persist_directory}' ...")
    vs = Chroma(
        embedding_function=embeddings,
        persist_directory=persist_directory,
    )
    # Contagem de itens (API interna do cliente do Chroma)
    try:
        n_items = vs._collection.count()  # type: ignore[attr-defined]
        print(f"   Coleção: '{vs._collection.name}' | Itens: {n_items}")  # type: ignore[attr-defined]
    except Exception:
        print("   (Não foi possível obter a contagem via _collection; prosseguindo mesmo assim)")

    return vs


In [58]:
def build_retriever(
    vectorstore: Chroma,
    k: int = 4,
    score_threshold: Optional[float] = None,
) -> Any:
    """
    Constrói um retriever para busca por similaridade no índice carregado.

    Parâmetros
    ----------
    vectorstore : Chroma
        Banco vetorial Chroma carregado.
    k : int, opcional
        Número de chunks a recuperar por consulta.
    score_threshold : float, opcional
        Limiar mínimo de score (quando suportado).

    Retorno
    -------
    BaseRetriever
        Retriever compatível com LangChain, pronto para compor a cadeia de RAG.
    """
    if score_threshold is None:
        print(f" 4. Criando retriever (k={k}) ...")
        return vectorstore.as_retriever(search_kwargs={"k": k})

    print(f" 4. Criando retriever (k={k}, score_threshold={score_threshold}) ...")
    return vectorstore.as_retriever(
        search_type="similarity_score_threshold",
        search_kwargs={"k": k, "score_threshold": score_threshold},
    )


In [59]:
def default_brazilian_prompt() -> PromptTemplate:
    """
    Prompt em PT-BR para respostas didáticas com uso de contexto.

    Retorno
    -------
    PromptTemplate
        Template com variáveis: "context" e "question".
    """
    template = (
        "Use o contexto a seguir para responder à pergunta no final.\n"
        "Se você não souber, diga que não sabe — não invente.\n"
        "Responda em Português do Brasil, com clareza e exemplos passo a passo quando fizer sentido.\n\n"
        "{context}\n\n"
        "Pergunta: {question}\n"
        "Resposta útil:"
    )
    return PromptTemplate(template=template, input_variables=["context", "question"])


In [60]:
def build_ollama_llm(
    model: str = "llama3.2:3b-instruct-q4_K_M",
    temperature: float = 0.0,
    **kwargs: Any,
) -> Ollama:
    """
    Prepara o LLM do Ollama para uso no RAG.

    Parâmetros
    ----------
    model : str, opcional
        Nome do modelo disponível no Ollama (`ollama list`).
    temperature : float, opcional
        Temperatura de amostragem.
    **kwargs : Any
        Parâmetros extras para `Ollama` (ex.: base_url, num_ctx).

    Retorno
    -------
    Ollama
        Instância do LLM configurada.
    """
    print(f" 5. Preparando LLM Ollama (model={model}, temperature={temperature}) ...")
    return Ollama(model=model, temperature=temperature, **kwargs)


In [61]:
def build_retrieval_qa_chain(
    llm: Ollama,
    retriever: Any,
    prompt: PromptTemplate,
    chain_type: str = "stuff",
    return_sources: bool = True,
) -> RetrievalQA:
    """
    Monta a cadeia RAG (Retriever + Prompt + LLM) para responder perguntas com contexto.

    Parâmetros
    ----------
    llm : Ollama
        Modelo de linguagem preparado.
    retriever : BaseRetriever
        Mecanismo de recuperação a partir do Chroma.
    prompt : PromptTemplate
        Template com variáveis "context" e "question".
    chain_type : str, opcional
        Tipo da cadeia ("stuff", "map_reduce", "refine").
    return_sources : bool, opcional
        Se True, retorna documentos-fonte.

    Retorno
    -------
    RetrievalQA
        Cadeia pronta para executar perguntas.
    """
    print(" 6. Montando cadeia de RAG ...")
    return RetrievalQA.from_chain_type(
        llm=llm,
        retriever=retriever,
        chain_type=chain_type,
        chain_type_kwargs={"prompt": prompt},
        return_source_documents=return_sources,
    )


In [62]:
def format_sources(source_documents: Optional[Sequence[Any]]) -> List[str]:
    """
    Converte Documents de fonte em strings amigáveis (caminho + score quando disponível).

    Parâmetros
    ----------
    source_documents : Sequence[Document] | None
        Documentos retornados pelo retriever/chain.

    Retorno
    -------
    List[str]
        Lista de descrições de fonte.
    """
    items: List[str] = []
    for doc in source_documents or []:
        meta = getattr(doc, "metadata", {}) or {}
        origem = meta.get("source") or meta.get("file_path") or str(meta)
        score = meta.get("score")
        if score is not None:
            origem = f"{origem} (score={score})"
        items.append(origem)
    return items


In [63]:
def ask(
    chain: RetrievalQA,
    question: str,
    show_sources: bool = True,
) -> Dict[str, Any]:
    """
    Executa uma pergunta na cadeia RAG e retorna resposta + fontes.

    Parâmetros
    ----------
    chain : RetrievalQA
        Cadeia construída por `build_retrieval_qa_chain`.
    question : str
        Pergunta do usuário.
    show_sources : bool, opcional
        Se True, imprime as fontes ao final.

    Retorno
    -------
    dict
        {
          "answer": str,
          "sources": List[str],
          "raw": Any   # objeto bruto retornado pelo chain
        }
    """
    print(f" 7. Pergunta: {question}")
    resp = chain(question)
    answer = resp.get("result", "")
    srcs = format_sources(resp.get("source_documents"))
    print("\n Resposta:\n", answer)
    if show_sources:
        print("\n---\n Fontes:")
        for i, s in enumerate(srcs, 1):
            print(f"[{i}] {s}")
    return {"answer": answer, "sources": srcs, "raw": resp}


In [64]:
# === Parâmetros ===
PERSIST_DIR = "./chroma_db_python_iniciante"      # mesmo diretório usado no notebook de guardar
EMBEDDINGS_MODEL = "intfloat/multilingual-e5-small"
DEVICE = "cpu"                                     # ou "cuda"
NORMALIZE = True
K = 4                                              # número de chunks retornados
OLLAMA_MODEL = "llama3.2:3b-instruct-q4_K_M"
TEMPERATURE = 0.0

# === Pipeline ===
emb = build_hf_embeddings(
    model_name=EMBEDDINGS_MODEL,
    device=DEVICE,
    normalize_embeddings=NORMALIZE
)

vs = load_chroma_index(
    embeddings=emb,
    persist_directory=PERSIST_DIR
)

retriever = build_retriever(
    vectorstore=vs,
    k=K,
    score_threshold=None  # ou por exemplo 0.2, se quiser filtrar
)

prompt = default_brazilian_prompt()
llm = build_ollama_llm(model=OLLAMA_MODEL, temperature=TEMPERATURE)
chain = build_retrieval_qa_chain(llm, retriever, prompt)

# === Perguntar ===
QUESTION = "Qual a recomendação de uso do venv na documentação do Python?"
result = ask(chain, QUESTION, show_sources=True)


 Carregando embeddings 'intfloat/multilingual-e5-small' em 'cpu' (normalize=True)
 3. Carregando índice Chroma de './chroma_db_python_iniciante' ...
   ➜ Coleção: 'langchain' | Itens: 9293
 4. Criando retriever (k=4) ...
 5. Preparando LLM Ollama (model=llama3.2:3b-instruct-q4_K_M, temperature=0.0) ...
 6. Montando cadeia de RAG ...
 7. Pergunta: Qual a recomendação de uso do venv na documentação do Python?

 Resposta:
 A recomendação de uso do `venv` é que ele deve ser usado para criar ambientes virtuais, como mencionado na versão 3.5 da documentação do Python. Isso significa que em vez de usar as ferramentas de empacotamento padrão, como o comando `python -m pip install`, você deve usar o comando `venv` para criar um ambiente virtual e instalar os módulos necessários.

Por exemplo, se você quiser instalar o módulo `AlgumPacote`, você deve usar o comando:

```bash
python -m venv meuambiente
source meuambiente/bin/activate
pip install AlgumPacote
```

Ou, se você estiver usando um sist

In [31]:
PERSIST_DIRECTORY = "chroma_db_python_iniciante"

In [32]:
# --- FASE 3: CONSTRUINDO A CADEIA DE RESPOSTAS (RAG) ---
prompt_template = """
Use o contexto a seguir para responder à pergunta no final.
Se você não sabe a resposta, apenas diga que não sabe, não tente inventar uma resposta.
Responda em Português do Brasil. Lembre-se: você é um assistente de Python para iniciantes, então responda claramente, com diversos exemplos passo a passo.

{context}

Pergunta: {question}
Resposta útil:"""

In [33]:
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)


In [34]:
# Mesma configuração de embeddings do notebook original
model_name = "intfloat/multilingual-e5-small"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)

In [35]:
# Carrega o vetorstore existente a partir do disco
# IMPORTANTE: não passamos 'from_documents', apenas 'persist_directory'
vectorstore = Chroma(
    embedding_function=embeddings,
    persist_directory=PERSIST_DIRECTORY,
)


In [36]:
print("✅ Vector store carregado de", PERSIST_DIRECTORY)
try:
    # algumas versões expõem ._collection.count()
    print("Total de documentos/chunks (aprox.):", vectorstore._collection.count())
except Exception:
    # fallback: não quebra se a API mudar
    pass


✅ Vector store carregado de chroma_db_python_iniciante
Total de documentos/chunks (aprox.): 9293


In [37]:
# 2) LLM (Ollama) e Cadeia de Consulta (RetrievalQA)
# Use o mesmo modelo que você utilizou antes
llm = Ollama(model="llama3", temperature=0)

In [38]:
retriever = vectorstore.as_retriever(search_kwargs={"k": 4})

In [39]:
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    retriever=retriever,
    chain_type="stuff",   # pode trocar para 'map_reduce' dependendo do seu caso
    chain_type_kwargs={"prompt": PROMPT},
    return_source_documents=True
)

In [40]:
print("✅ Cadeia de consulta pronta!")

✅ Cadeia de consulta pronta!


In [41]:
# 3) Função utilitária para perguntar
def perguntar(pergunta: str):
    """Executa a consulta no RAG já carregado e imprime resposta + fontes."""
    resp = qa_chain(pergunta)
    print("\n### Resposta:\n", resp['result'])
    print("\n---\n### Fontes:")
    for i, doc in enumerate(resp.get('source_documents', []), start=1):
        meta = doc.metadata if hasattr(doc, 'metadata') else {}
        origem = meta.get('source') or meta.get('file_path') or str(meta)
        score = meta.get('score')
        print(f"[{i}] {origem}" + (f" -> score: {score}" if score is not None else ""))
    return resp

In [42]:
_ = perguntar("qual a escrita de código mais aceita segundo a pep camel_case ou snake_case?")


### Resposta:
 A pergunta é sobre a escritura de código mais aceita no Python, segundo a PEP (Python Enhancement Proposal).

De acordo com as PEPs mencionadas anteriormente, não há uma PEP específica que defina a escritura de código mais aceita. No entanto, é comum usar a snake_case (ou underscore notation) para nomes de variáveis e funções em Python.

A PEP 8, que é a PEP oficial sobre estilo de código em Python, recomenda usar a snake_case para nomes de variáveis e funções. A PEP 8 também sugere usar camelCase para nomes de classes e objetos, mas isso não é uma regra rígida.

Portanto, a resposta mais aceita é usar a snake_case (ou underscore notation) para nomes de variáveis e funções em Python, como por exemplo: `my_variable_name` ou `calculate_total`.

Lembre-se de que o importante é ser consistente em sua escritura de código e seguir as recomendações da PEP 8.

---
### Fontes:
[1] data/python-3.13-docs-html/contents.html
[2] data/python-3.13-docs-html/contents.html
[3] data/pyth