In [59]:
import fitz
import re
import requests
import os
from langchain_text_splitters import RecursiveCharacterTextSplitter

PDF_URL = "https://www2.aneel.gov.br/cedoc/atren20211000.pdf"
LOCAL_PDF_PATH = r"../data/atren20211000.pdf"

# Document metadata
DOC_INFO_DEFAULTS = {
    "source_document_url": PDF_URL,
    "source_document_name": LOCAL_PDF_PATH,
    "document_type": "Resolu√ß√£o Normativa",
    "issuer": "ANEEL"
}

# Optimized patterns based on actual PDF structure
PATTERNS = {
    "titulo": re.compile(r"^\s*T[√çI]TULO\s+([IVXLCDM]+)\s*$", re.IGNORECASE),
    "capitulo": re.compile(r"^\s*CAP[√çI]TULO\s+([IVXLCDM]+)\s*$", re.IGNORECASE),
    "secao": re.compile(r"^\s*(?:SUB)?[Ss]e[√ßc][√£a]o\s+([IVXLCDM]+)\s*$", re.IGNORECASE),
    "artigo_start": re.compile(r"^\s*Art\.\s*(\d+(?:[A-Za-z])?¬∫?)\s+(.*)", re.IGNORECASE),
    "paragrafo_start": re.compile(r"^\s*¬ß\s*(\d+¬∫?|√∫nico)\s+(.+)", re.IGNORECASE),
    "inciso_start": re.compile(r"^\s*([IVXLCDM]+(?:-[A-Z])?)\s*-\s*(.+)"),
    "alinea_start": re.compile(r"^\s*([a-z])\)\s*(.+)")
}

def clean_text_line(text: str) -> str:
    """Clean text by replacing special characters and normalizing whitespace."""
    replacements = {
        '\xa0': ' ',  # Non-breaking space
        '\xad': '',   # Soft hyphen
        '\u2013': '-', # En dash
        '\u2014': '-'  # Em dash
    }
    for k, v in replacements.items():
        text = text.replace(k, v)
    return text.strip()

def download_pdf_if_not_exists(url: str, local_path: str) -> bool:
    """Download PDF if it doesn't exist locally."""
    if os.path.exists(local_path):
        print(f"Arquivo {local_path} j√° existe. Usando arquivo local.")
        return True
    
    print(f"Baixando PDF de {url} para {local_path}...")
    try:
        response = requests.get(url, stream=True, timeout=30)
        response.raise_for_status()
        with open(local_path, 'wb') as f:
            for chunk in response.iter_content(chunk_size=8192):
                f.write(chunk)
        print(f"PDF baixado com sucesso: {local_path}")
        return True
    except requests.RequestException as e:
        print(f"Erro ao baixar o PDF: {e}")
        return False

def build_full_hierarchical_path(metadata_dict: dict) -> str:
    """Build complete hierarchical path from metadata dictionary."""
    components = [
        metadata_dict.get("titulo_text"),
        metadata_dict.get("capitulo_text"),
        metadata_dict.get("secao_text"),
        metadata_dict.get("artigo_number"),
    ]
    return " > ".join(filter(None, components))

def parse_aneel_pdf(
        pdf_path: str,
        max_chunk_size: int = 1500,
        chunk_overlap: int = 200
) -> list[dict]:
    """
    Comprehensive parsing that captures ALL content and properly tracks hierarchy.
    """
    if not os.path.exists(pdf_path):
        raise FileNotFoundError(f"Arquivo PDF n√£o encontrado: {pdf_path}")
    
    all_chunks = []
    current_hierarchy = {
        "titulo_text": None,
        "capitulo_text": None,
        "secao_text": None,
        "artigo_number": None
    }
    
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=max_chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
        separators=["\n\n", "\n", ". ", "; ", " ", ""],
        strip_whitespace=True
    )

    try:
        doc = fitz.open(pdf_path)
        print(f"Processando PDF: {pdf_path} com {len(doc)} p√°ginas.")

        # First pass: track hierarchy as we go through the document
        full_text_with_hierarchy = []
        
        for page_num, page in enumerate(doc, 1):
            page_text = page.get_text()
            if not page_text.strip():
                continue
                
            lines = page_text.split('\n')
            for line in lines:
                line_clean = clean_text_line(line).strip()
                if not line_clean:
                    continue
                
                # Check for hierarchy updates
                titulo_match = PATTERNS["titulo"].match(line_clean)
                capitulo_match = PATTERNS["capitulo"].match(line_clean)
                secao_match = PATTERNS["secao"].match(line_clean)
                artigo_match = PATTERNS["artigo_start"].match(line_clean)
                
                if titulo_match:
                    current_hierarchy.update({
                        "titulo_text": f"T√çTULO {titulo_match.group(1)}",
                        "capitulo_text": None,
                        "secao_text": None,
                        "artigo_number": None
                    })
                elif capitulo_match:
                    current_hierarchy.update({
                        "capitulo_text": f"CAP√çTULO {capitulo_match.group(1)}",
                        "secao_text": None,
                        "artigo_number": None
                    })
                elif secao_match:
                    current_hierarchy.update({
                        "secao_text": f"Se√ß√£o {secao_match.group(1)}",
                        "artigo_number": None
                    })
                elif artigo_match:
                    current_hierarchy["artigo_number"] = f"Art. {artigo_match.group(1)}"
                
                # Store text with current hierarchy context
                full_text_with_hierarchy.append({
                    "text": line_clean,
                    "page": page_num,
                    "hierarchy": current_hierarchy.copy()  # Important: copy the dict
                })
        
        # Second pass: create chunks with proper hierarchy metadata
        all_text = "\n".join([item["text"] for item in full_text_with_hierarchy])
        text_chunks = text_splitter.split_text(all_text)
        
        for idx, chunk in enumerate(text_chunks):
            # Find the most relevant hierarchy for this chunk
            chunk_metadata = DOC_INFO_DEFAULTS.copy()
            
            # Look for hierarchy elements in the chunk text
            best_hierarchy = {"titulo_text": None, "capitulo_text": None, "secao_text": None, "artigo_number": None}
            
            # Search for hierarchy markers in the original text with hierarchy
            for item in full_text_with_hierarchy:
                if item["text"] in chunk:
                    # Update with the most specific hierarchy found
                    if item["hierarchy"]["artigo_number"]:
                        best_hierarchy = item["hierarchy"].copy()
                        break
                    elif item["hierarchy"]["secao_text"] and not best_hierarchy["secao_text"]:
                        best_hierarchy = item["hierarchy"].copy()
                    elif item["hierarchy"]["capitulo_text"] and not best_hierarchy["capitulo_text"]:
                        best_hierarchy = item["hierarchy"].copy()
                    elif item["hierarchy"]["titulo_text"] and not best_hierarchy["titulo_text"]:
                        best_hierarchy = item["hierarchy"].copy()
            
            # Update metadata with hierarchy
            chunk_metadata.update(best_hierarchy)
            
            chunk_metadata.update({
                "chunk_index": idx,
                "total_chunks": len(text_chunks),
                "full_hierarchical_path": build_full_hierarchical_path(chunk_metadata)
            })

            all_chunks.append({
                "page_content": chunk,
                "metadata": chunk_metadata
            })
            
    except Exception as e:
        print(f"Erro ao processar o PDF: {e}")
        raise
    finally:
        if 'doc' in locals():
            doc.close()
            
    print(f"Total de chunks processados: {len(all_chunks)}")
    return all_chunks

# Test the function
if download_pdf_if_not_exists(PDF_URL, LOCAL_PDF_PATH):
    print("\n=== Testing Comprehensive Parsing ===")
    chunks = parse_aneel_pdf(LOCAL_PDF_PATH)
    print(f"Total chunks extracted: {len(chunks)}")

Arquivo ../data/atren20211000.pdf j√° existe. Usando arquivo local.

=== Testing Comprehensive Parsing ===
Processando PDF: ../data/atren20211000.pdf com 314 p√°ginas.
Total de chunks processados: 549
Total chunks extracted: 549


In [None]:
import streamlit as st
import os
import chromadb

from text_processor_2 import parse_aneel_pdf, download_pdf_if_not_exists, PDF_URL, LOCAL_PDF_PATH
from vector_db import initialize_vector_db, query_vector_db, COLLECTION_NAME
from chatbot_logic import generate_response_with_gemini

# --- Configura√ß√£o ---
CHROMA_PERSIST_DIR = r"./chroma_db_data"
DB_READY_FLAG = "db_initialized.flag"  # Arquivo de flag para verificar se o banco de dados foi inicializado

# --- Fun√ß√£o auxiliar para Checar/Construir o banco de dados ---
def ensure_db_is_ready():
    """
    Verifica se o banco de dados vetorial est√° pronto. Se n√£o estiver, inicializa-o.
    """
    if not os.path.exists(DB_READY_FLAG):
        st.info("Base de dados vetorial n√£o encontrada. Inicializando...")
        st.info("Baixando e processando o PDF da Resolu√ß√£o Normativa 1000 da ANEEL...")
        with st.spinner("Isso pode levar alguns minutos... ‚è≥"):
            # Download PDF if needed
            if download_pdf_if_not_exists(PDF_URL, LOCAL_PDF_PATH):
                # Parse PDF and extract chunks with hierarchy
                chunks_with_metadata = parse_aneel_pdf(LOCAL_PDF_PATH)
                
                # Extract just the text content for vector DB
                text_chunks = [chunk["page_content"] for chunk in chunks_with_metadata]
                
                # Extract metadata for vector DB
                metadatas = [chunk["metadata"] for chunk in chunks_with_metadata]
                
                # Initialize vector database with chunks and metadata
                initialize_vector_db_with_metadata(text_chunks, metadatas, persist_directory=CHROMA_PERSIST_DIR)
                
                # Create flag file
                with open(DB_READY_FLAG, 'w') as f:
                    f.write("Database initialized with PDF content")
            else:
                st.error("Erro ao baixar o PDF. Verifique sua conex√£o com a internet.")
                return
                
        st.success("Base de dados vetorial inicializada com sucesso! ‚úÖ")
    else:
        # Load existing collection
        try:
            client = chromadb.PersistentClient(path=CHROMA_PERSIST_DIR)
            collection = client.get_collection(name=COLLECTION_NAME)
            import vector_db
            vector_db.client = client  # Update global client
            vector_db.collection = collection  # Update global collection
            st.sidebar.success(f"Base de dados vetorial '{COLLECTION_NAME}' carregada com sucesso! ‚úÖ")
        except Exception as e:
            st.sidebar.error(f"Erro ao carregar a base de dados vetorial: {e}. Tentando recriar...")
            if os.path.exists(DB_READY_FLAG):
                os.remove(DB_READY_FLAG)  # Remove flag to force reinitialization
            ensure_db_is_ready()

def initialize_vector_db_with_metadata(documents: list[str], metadatas: list[dict], persist_directory: str = r"./chroma_db_data"):
    """
    Initialize vector database with documents and their metadata.
    """
    client = chromadb.PersistentClient(path=persist_directory)

    try:
        collection = client.get_collection(name=COLLECTION_NAME)
        print(f"Cole√ß√£o '{COLLECTION_NAME}' j√° existe. Removendo para recriar...")
        client.delete_collection(name=COLLECTION_NAME)
    except:
        pass  # Collection doesn't exist, which is fine

    print(f"Criando nova cole√ß√£o '{COLLECTION_NAME}'...")
    collection = client.create_collection(name=COLLECTION_NAME)

    # Create document IDs
    doc_ids = [f"doc_{i}" for i in range(len(documents))]
    
    # Add documents with metadata
    collection.add(
        documents=documents,
        ids=doc_ids,
        metadatas=metadatas
    )
    
    # Update global variables
    import vector_db
    vector_db.client = client
    vector_db.collection = collection
    
    print(f"Banco de dados vetorial inicializado com {len(documents)} documentos com metadados.")
    return collection

# --- Streamlit App ---
st.set_page_config(page_title="ANEEL Chatbot", page_icon=":robot_face:", layout="wide")
st.title("üí¨ Chatbot Inteligente de Leis da ANEEL (REN1000/2021)")
st.markdown("""
Bem-vindo(a)! Pergunte sobre a Resolu√ß√£o Normativa ANEEL n¬∫ 1000/2021.
Este chatbot utiliza a Google Generative AI para responder √†s suas perguntas com base nos textos da lei.
""")

# --- Sidebar para Chave de API do Gemini e Status do Banco de Dados ---
st.sidebar.header("Configura√ß√µes")
api_key_input = st.sidebar.text_input(
    "Sua Chave de API Gemini (GOOGLE_API_KEY):",
    type="password",
    help="Obtenha sua chave em https://aistudio.google.com/app/apikey"
)

# Determina qual chave usar (entrada do usu√°rio tem prioridade)
api_key = api_key_input or os.getenv("GOOGLE_API_KEY")

if api_key:
    # Configura a chave no ambiente se foi fornecida via input
    if api_key_input:
        os.environ["GOOGLE_API_KEY"] = api_key_input
    
    # Configura o cliente Gemini
    try:
        import google.generativeai as genai
        genai.configure(api_key=api_key)
        
        if api_key_input:
            st.sidebar.success("Chave de API configurada com sucesso! ‚úÖ")
        else:
            st.sidebar.info("Chave de API j√° configurada no ambiente. ‚úÖ")
    except Exception as e:
        st.sidebar.error(f"Erro ao configurar a chave de API: {e}")
else:
    st.sidebar.warning("Por favor, insira sua chave de API Gemini para continuar.")
    st.stop()

# Verifica se o banco de dados vetorial est√° pronto antes de permitir consultas
ensure_db_is_ready()

# Inicializa o hist√≥rico de mensagens
if "messages" not in st.session_state:
    st.session_state.messages = []

# Mostra o hist√≥rico de mensagens quando o app √© recarregado
for message in st.session_state.messages:
    with st.chat_message(message["role"]):
        st.markdown(message["content"])

# Recebe a pergunta do usu√°rio
if prompt := st.chat_input("Qual a sua pergunta sobre a REN 1000/2021 da ANEEL?"):
    # Adiciona a pergunta ao hist√≥rico
    st.session_state.messages.append({"role": "user", "content": prompt})
    
    # Exibe a pergunta na interface
    with st.chat_message("user"):
        st.markdown(prompt)
    
    # Mostra a resposta da IA em um container de mensagem
    with st.chat_message("assistant"):
        message_placeholder = st.empty()
        message_placeholder.markdown("**Pensando...** üß†")

        # 1. Consulta o banco de dados vetorial
        retrieved_chunks = query_vector_db(prompt, n_results=3)
        
        if not retrieved_chunks:
            full_response = "Desculpe, n√£o consegui encontrar informa√ß√µes relevantes nos documentos consultados para responder √† sua pergunta."
        else:
            # 2. Gera a resposta usando o modelo Gemini
            full_response = generate_response_with_gemini(prompt, retrieved_chunks)

        # Atualiza a mensagem com a resposta final
        message_placeholder.markdown(full_response)
        
        # Show sources with hierarchical information
        with st.expander("Ver fontes e contexto"):
            # Get the last query results with metadata
            if hasattr(st.session_state, 'last_query_results'):
                results = st.session_state.last_query_results
                for i, (doc, metadata) in enumerate(zip(results.get('documents', [[]])[0], results.get('metadatas', [[]])[0])):
                    st.caption(f"**Fonte {i+1}:**")
                    if metadata.get('full_hierarchical_path'):
                        st.caption(f"üìç **Localiza√ß√£o:** {metadata['full_hierarchical_path']}")
                    st.caption(f"üìÑ **Conte√∫do:** {doc[:200]}...")
                    st.divider()
            else:
                for i, doc in enumerate(retrieved_chunks):
                    st.caption(f"**Fonte {i+1}:** {doc[:200]}...")
    
    # Adiciona a resposta ao hist√≥rico
    st.session_state.messages.append({"role": "assistant", "content": full_response})

In [18]:
# data_preprocess.py
from bs4 import BeautifulSoup
import re
import requests

ANEEL_RES_PATH = r"../data/ren20211000.html"
ANEEL_RES_PATH_2 = r"../data/ren20211000_2.html"
def fetch_html_content(url: str) -> str | None:
    """
    Faz uma requisi√ß√£o HTTP para obter o conte√∫do HTML de uma URL.
    :param url: URL do qual o conte√∫do HTML ser√° obtido.
    :return: Conte√∫do HTML como string.
    """
    try:
        response = requests.get(url)
        response.raise_for_status()  # Verifica se a requisi√ß√£o foi bem-sucedida
        
        # Get encoding from response headers or detect it
        if response.encoding is None or response.encoding == 'ISO-8859-1':
            # Try to detect encoding from content
            response.encoding = response.apparent_encoding
        
        # If still no proper encoding, default to utf-8
        if response.encoding is None:
            response.encoding = 'utf-8'
            
        return response.text
    except requests.RequestException as e:
        print(f"Erro ao obter conte√∫do HTML de {url}: {e}")
        return None

def clean_html(html_path: str) -> str:
    """
    L√™ um arquivo HTML, remove elementos com estilo `text-decoration: line-through` e extrai o texto limpo.
    : param html_path: Caminho para o arquivo HTML a ser processado.
    : return: Texto limpo extra√≠do do HTML.
    """
    with open(html_path, 'r', encoding='utf-8') as file:
        soup = BeautifulSoup(file, 'lxml')
    
    for strike in soup.find_all(style=re.compile('line-through')):
        strike.decompose()
    
    # Extract clean text
    return soup.get_text(separator='\n', strip=True)

if __name__ == "__main__":
    cleaned_text = clean_html(ANEEL_RES_PATH)
    print("\n--- Cleaned Text (first 500 characters) ---")
    print(cleaned_text[:500])

    with open(r"../data/cleaned_text.txt", "w", encoding='utf-8') as output_file:
        output_file.write(cleaned_text)
    print("\nCleaned text saved to '../data/cleaned_text.txt'.")    


--- Cleaned Text (first 500 characters) ---
AG√äNCIA NACIONAL DE ENERGIA EL√âTRICA ‚Äì ANEEL
RESOLU√á√ÉO NORMATIVA ANEEL N¬∫ 1.000, DE 7 DE DEZEMBRO DE 2021(*)
Estabelece as Regras de Presta√ß√£o do Servi√ßo P√∫blico de Distribui√ß√£o de Energia El√©trica; revoga as Resolu√ß√µes Normativas ANEEL n¬∫
414
, de 9 de setembro de 2010; n¬∫
470
, de 13 de dezembro de 2011; n¬∫
901
, de 8 de dezembro de 2020 e d√° outras provid√™ncias.
Decis√£o Judicial
Despacho 2.006/2024: Decis√£o Judicial - suspensos os efeitos referentes ao prazo de 60 (sessenta) ciclos estabeleci

Cleaned text saved to '../data/cleaned_text.txt'.


In [2]:
# text_processor.py

from langchain.text_splitter import RecursiveCharacterTextSplitter

def split_text(text: str, chunk_size: int=1000, chunk_overlap: int=200) -> list[str]:
    """
    Divide o texto em peda√ßos menores com base no tamanho e na sobreposi√ß√£o especificados.
    : param text: String de texto a ser dividido.
    : param chunk_size: Tamanho m√°ximo de cada peda√ßo de texto.
    : param chunk_overlap: N√∫mero de caracteres que se sobrep√µem entre peda√ßos consecutivos.
    : return: Lista de peda√ßos de texto divididos.
    """
    text_splitter = RecursiveCharacterTextSplitter(
        chunk_size=chunk_size,
        chunk_overlap=chunk_overlap,
        length_function=len,
        add_start_index=True
    )
    documents = text_splitter.create_documents([text])
    return [doc.page_content for doc in documents]

if __name__ == "__main__":
    with open(r"../data/cleaned_text.txt", "r", encoding='utf-8') as file:
        cleaned_text = file.read()

    chunks = split_text(cleaned_text, chunk_size=1000, chunk_overlap=200)
    print("\n--- Text Chunks (first 3 chunks) ---")
    for i, chunk in enumerate(chunks[:3]):
        print(f"Chunk {i+1}:\n{chunk}\n")


--- Text Chunks (first 3 chunks) ---
Chunk 1:
AG√äNCIA NACIONAL DE ENERGIA EL√âTRICA ‚Äì ANEEL
RESOLU√á√ÉO NORMATIVA ANEEL N¬∫ 1.000, DE 7 DE DEZEMBRO DE 2021(*)
Estabelece as Regras de Presta√ß√£o do Servi√ßo P√∫blico de Distribui√ß√£o de Energia El√©trica; revoga as Resolu√ß√µes Normativas ANEEL n¬∫
414
, de 9 de setembro de 2010; n¬∫
470
, de 13 de dezembro de 2011; n¬∫
901
, de 8 de dezembro de 2020 e d√° outras provid√™ncias.
Decis√£o Judicial
Despacho 2.006/2024: Decis√£o Judicial - suspensos os efeitos referentes ao prazo de 60 (sessenta) ciclos estabelecidos no inciso II do art. 323
.
Voto
Texto Compilado
O DIRETOR-GERAL DA AG√äNCIA NACIONAL DE ENERGIA EL√âTRICA ‚Äì ANEEL, no uso de suas atribui√ß√µes regimentais, de acordo com a delibera√ß√£o da Diretoria, tendo em vista o disposto na Lei n¬∫ 9.427, de 26 de dezembro de 1996, no Decreto n¬∫ 2.335, de 6 de outubro de 1997 e o que consta do Processo n¬∫ 48500.005218/2020-06, resolve:
T√çTULO I
PARTE GERAL
CAP√çTULO I
DAS DISPOS

In [3]:
# vector_db.py

import chromadb
from chromadb.utils import embedding_functions

client  = None
collection = None
COLLECTION_NAME = "aneel_collection"

def initialize_vector_db(documents: list[str], persist_directory: str=r"../chroma_db_data"):
    """
    Inicializa o banco de dados vetorial ChromaDB com os documentos fornecidos.
    O embedding de documentos √© feito usando o modelo 'all-MiniLM-L6-v2'.
    : param documents: Lista de documentos a serem armazenados no banco de dados.
    : param persist_directory: Diret√≥rio onde o banco de dados ser√° persistido.
    : return: Inst√¢ncia do cliente ChromaDB e cole√ß√£o criada.
    """
    global client, collection
    
    client = chromadb.PersistentClient(path=persist_directory)

    try:
        collection = client.get_collection(name=COLLECTION_NAME)
        print(f"Cole√ß√£o '{COLLECTION_NAME}' carregada com sucesso.")
    except:
        print(f"Cole√ß√£o '{COLLECTION_NAME}' n√£o encontrada. Criando nova cole√ß√£o.")
        collection = client.create_collection(name=COLLECTION_NAME)
        print(f"Cole√ß√£o '{COLLECTION_NAME}' criada com sucesso.")

        doc_ids = [f"doc_{i}" for i in range(len(documents))]
        collection.add(
            documents=documents,
            ids=doc_ids,
            metadatas=[{"source": f"doc_{i}"} for i in range(len(documents))],
        )
        print(f"Banco de dados vetorial inicializado com {len(documents)} documentos.")
    
    return collection

def query_vector_db(query_text: str, n_results: int=5) -> list[str]:
    """
    Consulta o banco de dados vetorial ChromaDB com uma string de consulta.
    : param query_text: Texto da consulta para buscar documentos relevantes.
    : param n_results: N√∫mero de resultados a serem retornados.
    : return: Lista de IDs dos documentos mais relevantes encontrados.
    """
    global collection
    if not collection:
        print("Erro: Cole√ß√£o n√£o inicializada. Por favor, chame initialize_vector_db primeiro.")
        try:
            global client
            client = chromadb.PersistentClient(path=r"../chroma_db_data")
            collection = client.get_collection(name=COLLECTION_NAME)
            print(f"Cole√ß√£o '{COLLECTION_NAME}' carregada com sucesso.")
        except Exception as e:
            print(f"Erro ao carregar a cole√ß√£o: {e}")
            return []
    
    if not query_text:
        return []
    
    results = collection.query(
        query_texts=[query_text],
        n_results=n_results
    )
    return results['documents'][0]  if results and results['documents'] else []

if __name__ == "__main__":
    with open(r"../data/cleaned_text.txt", "r", encoding='utf-8') as file:
        cleaned_text = file.read()
    
    chunks = split_text(cleaned_text)
    initialize_vector_db(chunks)
    print("\n--- Vector Database Initialized ---")

    if collection:
        query = "Quais s√£o as principais mudan√ßas na regulamenta√ß√£o de energia?"
        print(f"\nQuery: {query}")
        retrieved_docs = query_vector_db(query, n_results=2)
        if retrieved_docs:
            print("\nRetrieved Documents:")
            for doc in retrieved_docs:
                print(f"- {doc[:300]}...")
        else:
            print("Nenhum documento encontrado para a consulta.")
    else:
        print("Falha ao inicializar a cole√ß√£o. Verifique os logs para mais detalhes.")

Cole√ß√£o 'aneel_collection' carregada com sucesso.

--- Vector Database Initialized ---

Query: Quais s√£o as principais mudan√ßas na regulamenta√ß√£o de energia?

Retrieved Documents:
- Se√ß√£o III
Do Contrato de Compra de Energia Regulada ‚Äì CCER
Art. 162. O CCER deve conter as cl√°usulas gerais do art. 145 e, caso aplic√°veis, as do art. 132, al√©m de outras consideradas essenciais, observando as demais disposi√ß√µes deste Cap√≠tulo.
Art. 163. O montante de energia el√©trica contratado por...
- Art. 29. O consumidor e demais usu√°rios devem observar em suas instala√ß√µes as normas e padr√µes da distribuidora, as normas da Associa√ß√£o Brasileira de Normas T√©cnicas - ABNT e as normas dos √≥rg√£os oficiais competentes, naquilo que for aplic√°vel e n√£o contrariar √† regula√ß√£o da ANEEL.
Art. 30. O consu...


General text: 500-1000 characters

Technical docs: 300-800 characters

Code: 200-500 characters (split at logical boundaries)

In [4]:
retrieved_docs = query_vector_db("Qual √© o periodo de testes para unidade consumidara?", n_results=2)
if retrieved_docs:
    print("\nRetrieved Documents:")
    for doc in retrieved_docs:
        print(f"- {doc}...")


Retrieved Documents:
- Se√ß√£o XI
Do Per√≠odo de Testes e Ajustes
Art. 311. A distribuidora deve aplicar o per√≠odo de testes para unidade consumidora para permitir a adequa√ß√£o da demanda contratada de consumo e a escolha da modalidade tarif√°ria, nas seguintes situa√ß√µes: (
Reda√ß√£o dada pela REN ANEEL 1.059, de 07.02.2023
)
I - in√≠cio do fornecimento de energia el√©trica;
II - mudan√ßa para faturamento aplic√°vel √† unidade consumidora do grupo
A, cuja op√ß√£o anterior tenha sido por faturamento do grupo B;
III - enquadramento na modalidade tarif√°ria hor√°ria azul; e
IV - acr√©scimo de demanda, quando maior que 5% da contratada.
Par√°grafo √∫nico. Quando do enquadramento na modalidade tarif√°ria hor√°ria azul, o per√≠odo de testes abranger√° exclusivamente o montante contratado para o posto tarif√°rio ponta.
Art. 312. O per√≠odo de testes deve ter dura√ß√£o de 3 ciclos consecutivos e completos de faturamento.
Par√°grafo √∫nico.
A distribuidora pode prorrogar o per√≠odo de test

In [None]:
# chatbot_logic.py
import google.generativeai as genai
import os

from dotenv import load_dotenv
load_dotenv()

try:
    if not os.getenv("GOOGLE_API_KEY"):
        raise ValueError("A vari√°vel de ambiente GOOGLE_API_KEY n√£o est√° definida.")
    genai.configure(api_key=os.getenv("GOOGLE_API_KEY"))
except ValueError as e:
    print(f"Erro de configura√ß√£o: {e}. Garanta que a vari√°vel de ambiente GOOGLE_API_KEY esteja definida.")

def generate_response_with_gemini(query: str, context_chuncks: list[str]) -> str:
    """
    Gera uma resposta usando o modelo Gemini da Google Generative AI, incorporando o contexto dos documentos recuperados.
    : param query: Texto da consulta do usu√°rio.
    : param context_chuncks: Lista de peda√ßos de texto que fornecem contexto adicional para a resposta.
    : return: Resposta gerada pelo modelo Gemini.
    """
    if not os.getenv("GOOGLE_API_KEY"):
        raise ValueError("A vari√°vel de ambiente GOOGLE_API_KEY n√£o est√° definida.")
    
    # Prepara o contexto para a consulta
    context_str = "\n\n---\n\n".join(context_chuncks)
    prompt = f"""
    Voc√™ √© um assistente de IA especializado em leis e regulamentos brasileiros da ANEEL.
    Sua tarefa √© responder √† pergunta do usu√°rio com base estritamente nos trechos de lei fornecidos abaixo.
    N√£o utilize conhecimento externo. Se a resposta n√£o puder ser encontrada nos trechos fornecidos,
    declare explicitamente que a informa√ß√£o n√£o est√° dispon√≠vel nos documentos consultados.
    Seja conciso e direto ao ponto. Responda em portugu√™s brasileiro.
    
    **Contexto (Trechos da Lei):**
    {context_str}
    
    **Pergunta do Usu√°rio:**
    {query}

**Sua Resposta:**
"""
    try:
        model = genai.GenerativeModel(model_name="gemini-1.5-flash-8b")
        response = model.generate_content(prompt)
        return response.text
    except Exception as e:
        print(f"Erro ao gerar resposta com Gemini: {e}")
        return "Desculpe, ocorreu um erro ao processar sua consulta. Tente novamente mais tarde."

test_user_query = "O que deve constar na segunda via de fatura?"
retrieved_docs = query_vector_db(test_user_query, n_results=2)
if retrieved_docs:
    print("\nRetrieved Documents for Test Query:")
    for doc in retrieved_docs:
        print(f"- {doc[:300]}...")

    response = generate_response_with_gemini(test_user_query, retrieved_docs)
    print("\n--- Response from Gemini ---")
    print(response)


Retrieved Documents for Test Query:
- ¬ß 3¬∫ A distribuidora deve disponibilizar a fatura de energia el√©trica completa no espa√ßo reservado de atendimento pela internet, independentemente da op√ß√£o pelo resumo da fatura.
Art. 329. A distribuidora deve prestar ao consumidor e demais usu√°rios esclarecimentos sobre os tributos, subven√ß√µes e in...
- VII - formalidades e exig√™ncias que sejam incompat√≠veis com a boa-f√©, excessivamente onerosas ou cujo custo econ√¥mico ou social seja superior ao risco envolvido.
Par√°grafo √∫nico. No caso de n√∫cleo urbano informal consolidado, nos termos da Lei n¬∫ 13.465, de 11 de julho de 2017, a comprova√ß√£o de poss...

--- Response from Gemini ---
Todas as informa√ß√µes da primeira via, com destaque √† express√£o "segunda via".

