In [6]:
!pip install langchain langchain_community beautifulsoup4 chromadb sentence-transformers
!pip install -U lxml

Collecting langchain
  Using cached langchain-0.3.27-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain_community
  Using cached langchain_community-0.3.27-py3-none-any.whl.metadata (2.9 kB)
Collecting chromadb
  Using cached chromadb-1.0.16-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.4 kB)
Collecting sentence-transformers
  Using cached sentence_transformers-5.1.0-py3-none-any.whl.metadata (16 kB)
Collecting langchain-core<1.0.0,>=0.3.72 (from langchain)
  Using cached langchain_core-0.3.74-py3-none-any.whl.metadata (5.8 kB)
Collecting langchain-text-splitters<1.0.0,>=0.3.9 (from langchain)
  Using cached langchain_text_splitters-0.3.9-py3-none-any.whl.metadata (1.9 kB)
Collecting langsmith>=0.1.17 (from langchain)
  Using cached langsmith-0.4.13-py3-none-any.whl.metadata (14 kB)
Collecting tenacity!=8.4.0,<10.0.0,>=8.1.0 (from langchain-core<1.0.0,>=0.3.72->langchain)
  Using cached tenacity-9.1.2-py3-none-any.whl.metadata (1.2 kB)
Collecting dataclasses

In [3]:
import os
import time
from langchain_community.document_loaders import DirectoryLoader, BSHTMLLoader
from langchain_community.vectorstores import Chroma
from langchain_community.llms import Ollama
from langchain_community.embeddings import HuggingFaceEmbeddings
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.chains import RetrievalQA
from langchain.prompts import PromptTemplate
from typing import Any, List, Sequence

In [14]:
def load_documents_from_directory(
    path: str = "./data/python-3.13-docs-html",
    glob: str = "**/*.html",
    use_bshtml_loader: bool = True,
    show_progress: bool = True,
    use_multithreading: bool = True,
    get_text_separator: str = " "
) -> List[Any]:
    """
    Carrega arquivos de um diretório e retorna uma lista de `Document` (LangChain),
    com as mesmas configurações usadas no notebook original.

    Parâmetros
    ----------
    path : str
        Caminho para a pasta contendo os arquivos (ex.: "./data/python-3.13-docs-html").
    glob : str
        Padrão de busca dos arquivos (padrão: "**/*.html").
    use_bshtml_loader : bool
        Se True, usa `BSHTMLLoader` para extrair texto de HTML.
    show_progress : bool
        Mostra barra de progresso durante carregamento.
    use_multithreading : bool
        Ativa carregamento com múltiplas threads (mais rápido).
    get_text_separator : str
        Separador usado pelo `BSHTMLLoader` ao extrair texto.

    Retorno
    -------
    List[Any]
        Lista de objetos `Document` do LangChain.

    Tipos
    -----
    - path: str
    - glob: str
    - use_bshtml_loader: bool
    - show_progress: bool
    - use_multithreading: bool
    - get_text_separator: str
    - retorno: list[Document]
    """
    if use_bshtml_loader:
        loader = DirectoryLoader(
            path=path,
            glob=glob,
            loader_cls=BSHTMLLoader,
            show_progress=show_progress,
            use_multithreading=use_multithreading,
            loader_kwargs={'get_text_separator': get_text_separator}
        )
    else:
        loader = DirectoryLoader(
            path=path,
            glob=glob,
            show_progress=show_progress,
            use_multithreading=use_multithreading
        )
    docs = loader.load()
    print(f"📂 {len(docs)} documentos carregados de '{path}'")
    return docs


In [15]:
def split_documents(
    documents: Sequence[Any],
    chunk_size: int = 1000,
    chunk_overlap: int = 200,
    add_start_index: bool = True
) -> List[Any]:
    """
    Divide documentos em pedaços (chunks) para indexação/busca.

    Parâmetros
    ----------
    documents : Sequence[Document]
        Lista de documentos `Document`.
    chunk_size : int, opcional (padrão: 1000)
        Tamanho de cada chunk em caracteres.
    chunk_overlap : int, opcional (padrão: 200)
        Sobreposição em caracteres entre chunks.
    add_start_index : bool, opcional (padrão: True)
        Se True, adiciona no metadado o índice inicial do chunk no texto original.

    Retorno
    -------
    List[Document]
        Lista de chunks resultantes.
    """
    # --- FASE 2: PROCESSAMENTO E INDEXAÇÃO ---
    print("2. Dividindo os textos em pedaços (chunks)...")
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        add_start_index=add_start_index
    )
    chunks = text_splitter.split_documents(list(documents))
    print(f"✂️ {len(chunks)} chunks criados (tamanho={chunk_size}, overlap={chunk_overlap}, add_start_index={add_start_index})")
    return chunks

In [16]:
def build_hf_embeddings(
    model_name: str = "intfloat/multilingual-e5-small",
    device: str = "cpu",
    normalize_embeddings: bool = True,
    **kwargs: Any,
) -> HuggingFaceEmbeddings:
    """
    Cria um objeto de embeddings do HuggingFace para vetorização.

    Parâmetros
    ----------
    model_name : str, opcional (padrão: "intfloat/multilingual-e5-small")
        Nome do modelo de embeddings (Hugging Face Hub).
    device : str, opcional (padrão: "cpu")
        Dispositivo de execução ("cpu", "cuda", etc.).
    normalize_embeddings : bool, opcional (padrão: True)
        Se True, normaliza os vetores (útil para similaridade de cosseno).
    **kwargs : Any
        Parâmetros extras repassados (ex.: model_kwargs, encode_kwargs).

    Retorno
    -------
    HuggingFaceEmbeddings
        Instância configurada do wrapper de embeddings.

    Tipos
    -----
    - model_name: str
    - device: str
    - normalize_embeddings: bool
    - retorno: HuggingFaceEmbeddings
    """
    model_kwargs = kwargs.pop("model_kwargs", {"device": device})
    encode_kwargs = kwargs.pop("encode_kwargs", {"normalize_embeddings": normalize_embeddings})
    return HuggingFaceEmbeddings(
        model_name=model_name,
        model_kwargs=model_kwargs,
        encode_kwargs=encode_kwargs,
        **kwargs,
    )


In [17]:
def build_and_persist_chroma_index(
    documents: Sequence[Any],
    embeddings: HuggingFaceEmbeddings,
    persist_directory: str,
) -> Chroma:
    """
    Cria **e persiste** um índice Chroma local a partir de `documents` usando `embeddings`.

    Parâmetros
    ----------
    documents : Sequence[Document]
        Documentos (idealmente já chunkados) a serem indexados.
    embeddings : HuggingFaceEmbeddings
        Objeto de embeddings HuggingFace para vetorização.
    persist_directory : str
        Diretório onde o índice Chroma será salvo (cria caso não exista).

    Retorno
    -------
    Chroma
        Instância do vetor store criada e já persistida.

    Efeitos Colaterais
    ------------------
    - Cria/atualiza arquivos do Chroma no `persist_directory` (ex.: sqlite + blobs).

    Tipos
    -----
    - documents: Sequence[Document]
    - embeddings: HuggingFaceEmbeddings
    - persist_directory: str
    - retorno: Chroma
    """
    vectorstore = Chroma.from_documents(
        documents=list(documents),
        embedding=embeddings,
        persist_directory=persist_directory,
    )
    return vectorstore

In [18]:
INPUT_DIR = "./data/python-3.13-docs-html/" 
GLOB = "**/*.html"
CHUNK_SIZE = 1000
CHUNK_OVERLAP = 200
start_index = True
EMBEDDING_MODEL = "intfloat/multilingual-e5-small"
DEVICE = "cpu"                            # ou "cuda"
NORMALIZE = True
PERSIST_DIR = "chroma_db_python_iniciante"

docs = load_documents_from_directory(INPUT_DIR, glob=GLOB, use_bshtml_loader=True)
chunks = split_documents(docs, chunk_size=CHUNK_SIZE, chunk_overlap=CHUNK_OVERLAP)
emb = build_hf_embeddings(EMBEDDING_MODEL, device=DEVICE, normalize_embeddings=NORMALIZE)
vs = build_and_persist_chroma_index(chunks, emb, persist_directory=PERSIST_DIR)

print("Banco vetorial criado e persistido em:", PERSIST_DIR)
print("Total de chunks indexados (aprox.):", len(chunks))

 99%|█████████▉| 163/164 [00:24<00:00,  6.59it/s]

📂 163 documentos carregados de './data/python-3.13-docs-html/'





TypeError: TextSplitter.__init__() got an unexpected keyword argument 'start_index'

In [9]:
# Certifique-se de que o caminho para a pasta descompactada está correto.
loader = DirectoryLoader(
    path='./data/python-3.13-docs-html', # O caminho para a pasta que você criou
    glob="**/*.html",          # Pega todos os arquivos .html em todas as subpastas
    loader_cls=BSHTMLLoader,    # Usa o BeautifulSoup para ler os arquivos HTML
    show_progress=True,         # Mostra uma barra de progresso (muito útil!)
    use_multithreading=True,    # Acelera o carregamento dos arquivos
    loader_kwargs={'get_text_separator': ' '} # Argumento para o BSHTMLLoader
)

In [10]:
docs = loader.load()
print(f"✅ Carregados {len(docs)} documentos.")

 99%|█████████▉| 163/164 [00:23<00:00,  6.87it/s]

✅ Carregados 163 documentos.





In [11]:
# --- FASE 2: PROCESSAMENTO E INDEXAÇÃO ---
print("2. Dividindo os textos em pedaços (chunks)...")
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=1000, 
    chunk_overlap=200,
    add_start_index=True # Adiciona o índice inicial para referência
)

2. Dividindo os textos em pedaços (chunks)...


In [12]:
splits = text_splitter.split_documents(docs)
print(f"✅ Textos divididos em {len(splits)} chunks.")

✅ Textos divididos em 9293 chunks.


In [13]:
print("3. Criando embeddings para todos os chunks...")
model_name = "intfloat/multilingual-e5-small"
model_kwargs = {'device': 'cpu'}
encode_kwargs = {'normalize_embeddings': True}
embeddings = HuggingFaceEmbeddings(
    model_name=model_name,
    model_kwargs=model_kwargs,
    encode_kwargs=encode_kwargs
)
#modelos usados para testar BAAI/bge-base-en-v1.5, llama3.2:3b-instruct-q4_K_M, qwen2.5:1.5b-instruct-q4_K_M, phi3:mini e intfloat/multilingual-e5-small

3. Criando embeddings para todos os chunks...


  embeddings = HuggingFaceEmbeddings(
  from .autonotebook import tqdm as notebook_tqdm


In [14]:
# MUDANÇA: Usar um diretório persistente para o ChromaDB
# Isso salva o banco de dados no disco para que você não precise recriá-lo toda vez!
persist_directory = 'chroma_db_python_iniciante'
vectorstore = Chroma.from_documents(
    documents=splits, 
    embedding=embeddings,
    persist_directory=persist_directory
)
print("✅ Banco de dados vetorial criado e salvo no disco!")

✅ Banco de dados vetorial criado e salvo no disco!


In [15]:
# --- FASE 3: CONSTRUINDO A CADEIA DE RESPOSTAS (RAG) ---
prompt_template = """
Use o contexto a seguir para responder à pergunta no final.
Se você não sabe a resposta, apenas diga que não sabe, não tente inventar uma resposta.
Responda em Português do Brasil. lembre-se você é um assistente de python para iniciantes então responda claramente, com diversos exemplos passo a passo.

{context}

Pergunta: {question}
Resposta útil:"""
PROMPT = PromptTemplate(
    template=prompt_template, input_variables=["context", "question"]
)


In [16]:
llm = Ollama(model="llama3", temperature=0)

  llm = Ollama(model="llama3", temperature=0)


In [17]:
chain_type_kwargs = {"prompt": PROMPT}
qa_chain = RetrievalQA.from_chain_type(
    llm=llm,
    chain_type="stuff",
    retriever=vectorstore.as_retriever(search_kwargs={"k": 5}), # Aumentamos para 5 chunks
    return_source_documents=True,
    chain_type_kwargs=chain_type_kwargs
)

print("\n✅ Assistente com a documentação completa pronto!")


✅ Assistente com a documentação completa pronto!


In [18]:
def perguntar_assistente(query):
    print(f"\n[?] Pergunta: {query}")
    print("... Buscando na documentação completa e gerando a resposta...")
    
    start_time = time.time()
    result = qa_chain.invoke({"query": query})
    end_time = time.time()
    
    print(f"\n[!] Resposta do Assistente (levou {end_time - start_time:.2f} segundos):")
    print(result["result"])
    print("\n--- Fontes Utilizadas ---")
    # Mostra os nomes dos arquivos HTML usados para a resposta
    sources = set([doc.metadata['source'] for doc in result['source_documents']])
    for source in sources:
        print(f"- {source}")

In [None]:
perguntar_assistente("para que serve as classes?")