In [1]:
from google.colab import drive
drive.mount('/content/drive', force_remount=True)


Mounted at /content/drive


In [2]:
# 🔧 ETAPA 0.2 (CORRIGIDA): VERIFICAÇÃO DO DIRETÓRIO ANTES DA BUSCA
import os
import pandas as pd
from datetime import datetime
from IPython.display import display

BASE_DIR = "/content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL"

if not os.path.exists(BASE_DIR):
    raise FileNotFoundError(f"❌ Diretório base não encontrado: {BASE_DIR}. Verifique o caminho e monte o Google Drive.")

arquivos_encontrados = []

for root, dirs, files in os.walk(BASE_DIR):
    for file in files:
        caminho_completo = os.path.join(root, file)
        nome = file
        tipo = ""

        if nome.endswith(".md"):
            tipo = "artigo_md_ssot_a3" if "ssot_a3" in root else "md_outros"
            if nome == "referencia_tecnica_cfb.md":
                tipo = "biblia_md_ssot_a3"
        elif nome.endswith(".pdf"):
            tipo = "artigos_relevantes" if "base_relevantes" in root else "artigos_estrangeiros"
        elif nome.endswith(".csv"):
            tipo = "relatorio_relevancia" if "ranking" in nome else "csv_outros"
        else:
            continue

        arquivos_encontrados.append({
            "nome_arquivo": nome,
            "tipo": tipo,
            "caminho_completo": caminho_completo,
            "ultima_atualizacao": datetime.now().strftime("%Y-%m-%d %H:%M:%S")
        })

df_caminhos = pd.DataFrame(arquivos_encontrados)
df_caminhos.reset_index(drop=True, inplace=True)
df_caminhos["id"] = df_caminhos.index + 1

print(f"✅ Total de arquivos encontrados: {len(df_caminhos)}")
display(df_caminhos.head(20))


✅ Total de arquivos encontrados: 2305


Unnamed: 0,nome_arquivo,tipo,caminho_completo,ultima_atualizacao,id
0,MANUAL COMPLETO VIAGEM À CHINA EM 2016.pdf,artigos_estrangeiros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:23,1
1,0_superficies de resposta.pdf,artigos_estrangeiros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:23,2
2,0_teoria_combustao_e_desgaste (1).pdf,artigos_estrangeiros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:23,3
3,DIsponibilidade Mensal 2019 UTPS.csv,csv_outros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:24,4
4,DIsponibilidade Mensal 2025 UTPS.csv,csv_outros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:24,5
5,Dados WIlson início 2023 1(in).csv,csv_outros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:24,6
6,Dados Wilson início 2024 1(in).csv,csv_outros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:24,7
7,Dados Wilson metade final 2023 1(in).csv,csv_outros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:24,8
8,Dados Wilson metade final 2024 1(in).csv,csv_outros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:24,9
9,Tecnologias de Otimização de Caldeiras de Le...,artigos_estrangeiros,/content/drive/Shareddrives/TRABALHO/GEMEO_DIG...,2025-07-31 13:21:25,10


In [None]:
# ============================================================
# ETAPA FINAL: INDEXAÇÃO CHROMADB PERSISTENTE NO GOOGLE DRIVE
# ============================================================

import os
import chromadb
from tqdm import tqdm

# Caminho persistente oficial no Drive
persist_dir = "/content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/chroma_ssot_a3/"
os.makedirs(persist_dir, exist_ok=True)

print(f"✅ Persistindo índice e logs diretamente em: {persist_dir}")

# Inicializa cliente persistente
try:
    del client
except:
    pass
client = chromadb.PersistentClient(path=persist_dir)

# Remove coleções antigas se existirem
for name in ["ssot_ref", "ssot_apoio"]:
    try:
        client.delete_collection(name)
    except:
        pass

col_ref = client.create_collection("ssot_ref")
col_apoio = client.create_collection("ssot_apoio")

# Função para segmentar texto com agregação mínima de 300 caracteres
def segmentar_texto(texto, min_chars=300):
    acumulador, chunks = "", []
    for linha in texto.split("\n"):
        linha = linha.strip()
        if not linha:
            continue
        acumulador += " " + linha
        if len(acumulador) >= min_chars:
            chunks.append(acumulador.strip())
            acumulador = ""
    if acumulador:
        chunks.append(acumulador.strip())
    return chunks

# Função para envio em batches respeitando limite interno do Chroma
def enviar_em_batches(colecao, docs, metas, ids, batch_size=1000):
    for i in range(0, len(docs), batch_size):
        fim = i + batch_size
        colecao.add(
            documents=docs[i:fim],
            metadatas=metas[i:fim],
            ids=ids[i:fim]
        )

# Logs persistentes no Drive
log_ok_path = os.path.join(persist_dir, "indexados.log")
log_fail_path = os.path.join(persist_dir, "falhas.log")
log_ok = open(log_ok_path, "w", encoding="utf-8")
log_fail = open(log_fail_path, "w", encoding="utf-8")

# ✅ Filtra corretamente apenas arquivos .md
arquivos_md = df_caminhos[df_caminhos["caminho_completo"].str.endswith(".md")]["caminho_completo"].tolist()

# Indexação segura com progresso
for arquivo in tqdm(arquivos_md, desc="Indexando arquivos"):
    nome = os.path.basename(arquivo)
    try:
        with open(arquivo, "r", encoding="utf-8") as f:
            conteudo = f.read()

        chunks = segmentar_texto(conteudo)
        colecao = col_ref if nome == "0_referencia_tecnica_cfb.md" else col_apoio

        docs, metas, ids = [], [], []
        for i, chunk in enumerate(chunks):
            docs.append(chunk)
            metas.append({"arquivo": nome})
            ids.append(f"{nome}_{i}")

        enviar_em_batches(colecao, docs, metas, ids)
        log_ok.write(f"{nome}|{len(chunks)} chunks\n")
    except Exception as e:
        log_fail.write(f"{nome}|ERRO:{str(e)}\n")
        print(f"[ERRO] Falha ao indexar {nome}: {e}")

# Fecha logs
log_ok.close()
log_fail.close()

print(f"[FINALIZADO] Índices e logs salvos em: {persist_dir}")


✅ Persistindo índice e logs diretamente em: /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/chroma_ssot_a3/


Indexando arquivos: 100%|██████████| 118/118 [21:01<00:00, 10.69s/it]

[FINALIZADO] Índices e logs salvos em: /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/chroma_ssot_a3/





In [None]:
# ============================================================
# REINDEXAÇÃO CORRIGIDA – DETECTA AUTOMATICAMENTE O ARQUIVO DE REFERÊNCIA
# ============================================================

import os
import chromadb
from tqdm import tqdm

# Caminho persistente no Drive
persist_dir = "/content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/chroma_ssot_a3/"
os.makedirs(persist_dir, exist_ok=True)

print(f"✅ Reindexando corpus, persistindo em: {persist_dir}")

# Reinicializa cliente ChromaDB
try:
    del client
except:
    pass
client = chromadb.PersistentClient(path=persist_dir)

# Remove coleções antigas
for name in ["ssot_ref", "ssot_apoio"]:
    try:
        client.delete_collection(name)
    except:
        pass

col_ref = client.create_collection("ssot_ref")
col_apoio = client.create_collection("ssot_apoio")

# Segmentação mínima
def segmentar_texto(texto, min_chars=300):
    acumulador, chunks = "", []
    for linha in texto.split("\n"):
        linha = linha.strip()
        if not linha:
            continue
        acumulador += " " + linha
        if len(acumulador) >= min_chars:
            chunks.append(acumulador.strip())
            acumulador = ""
    if acumulador:
        chunks.append(acumulador.strip())
    return chunks

# Função de envio com batch
def enviar_em_batches(colecao, docs, metas, ids, batch_size=1000):
    for i in range(0, len(docs), batch_size):
        fim = i + batch_size
        colecao.add(
            documents=docs[i:fim],
            metadatas=metas[i:fim],
            ids=ids[i:fim]
        )

# Filtra arquivos .md
arquivos_md = df_caminhos[df_caminhos["caminho_completo"].str.endswith(".md")]["caminho_completo"].tolist()

# Indexação com detecção flexível do arquivo de referência
for arquivo in tqdm(arquivos_md, desc="Reindexando arquivos"):
    nome = os.path.basename(arquivo)
    try:
        with open(arquivo, "r", encoding="utf-8") as f:
            conteudo = f.read()

        chunks = segmentar_texto(conteudo)

        # ✅ Detecta arquivo de referência mesmo que o nome varie
        if "0_referencia_tecnica_cfb" in nome.lower():
            colecao = col_ref
        else:
            colecao = col_apoio

        docs, metas, ids = [], [], []
        for i, chunk in enumerate(chunks):
            docs.append(chunk)
            metas.append({"arquivo": nome})
            ids.append(f"{nome}_{i}")

        enviar_em_batches(colecao, docs, metas, ids)
    except Exception as e:
        print(f"[ERRO] Falha ao indexar {nome}: {e}")

print(f"[FINALIZADO] Reindexação corrigida concluída e persistida em: {persist_dir}")


✅ Reindexando corpus, persistindo em: /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/chroma_ssot_a3/


Reindexando arquivos: 100%|██████████| 118/118 [20:57<00:00, 10.66s/it]

[FINALIZADO] Reindexação corrigida concluída e persistida em: /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/chroma_ssot_a3/





In [None]:
# ============================================================
# FUNÇÃO: BUSCA HIERÁRQUICA NO CHROMADB COM TRADUÇÃO SEMÂNTICA
# ============================================================


!pip install chromadb tqdm --quiet



from google.colab import userdata  # (usar apenas se for integrar com Gemini API)
import chromadb
from chromadb.utils import embedding_functions
from typing import Dict, Any
import requests

# Caminho do índice persistente
persist_dir = "/content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/chroma_ssot_a3/"
client = chromadb.PersistentClient(path=persist_dir)

# Carrega coleções já existentes
col_ref = client.get_collection("ssot_ref")
col_apoio = client.get_collection("ssot_apoio")

# === Funções auxiliares ===

def traduzir_texto(texto: str, origem: str, destino: str) -> str:
    """
    Função placeholder para tradução.
    - Se Gemini/DeepL não estiver disponível, usa fallback simples (Google Translate API pode ser plugada).
    """
    try:
        # Aqui poderia integrar Gemini ou outro tradutor real.
        # Por enquanto, apenas retorna o texto original.
        return texto
    except Exception:
        return texto

def buscar_colecao(colecao, consulta: str, n_results: int = 3) -> Dict[str, Any]:
    """Executa busca em uma coleção ChromaDB."""
    try:
        resultados = colecao.query(
            query_texts=[consulta],
            n_results=n_results
        )
        return resultados
    except Exception as e:
        return {"error": str(e)}

# === Função principal ===

def buscar_hierarquico(pergunta_pt: str, n_results: int = 3) -> Dict[str, Any]:
    """
    Busca hierárquica:
    1. Consulta ssot_ref (PT).
    2. Se não houver relevância, traduz pergunta para EN, busca ssot_apoio e traduz resposta para PT.
    """
    # --- Etapa 1: busca na referência oficial ---
    ref_result = buscar_colecao(col_ref, pergunta_pt, n_results=n_results)
    if "documents" in ref_result and ref_result["documents"] and any(ref_result["documents"][0]):
        return {
            "origem": "referencia_tecnica",
            "pergunta": pergunta_pt,
            "respostas": [doc for doc in ref_result["documents"][0]],
            "metadata": ref_result["metadatas"][0]
        }

    # --- Etapa 2: busca nos documentos de apoio ---
    pergunta_en = traduzir_texto(pergunta_pt, "pt", "en")
    apoio_result = buscar_colecao(col_apoio, pergunta_en, n_results=n_results)

    if "documents" in apoio_result and apoio_result["documents"] and any(apoio_result["documents"][0]):
        respostas_en = [doc for doc in apoio_result["documents"][0]]
        respostas_pt = [traduzir_texto(r, "en", "pt") for r in respostas_en]
        return {
            "origem": "documentos_apoio",
            "pergunta_original": pergunta_pt,
            "pergunta_traduzida": pergunta_en,
            "respostas": respostas_pt,
            "metadata": apoio_result["metadatas"][0]
        }

    # --- Caso não haja resultados ---
    return {
        "origem": "nenhum_resultado",
        "pergunta": pergunta_pt,
        "respostas": []
    }


In [None]:
# Exemplo de consulta
resultado = buscar_hierarquico("Quais são os requisitos principais do CFB?")
print("Origem:", resultado["origem"])
for i, r in enumerate(resultado["respostas"], 1):
    print(f"{i}. {r[:500]}...")


Origem: referencia_tecnica
1. Suspensores Seção 1: Visão Geral 1. Projeto de Vedação O sistema de expansão é essencial para as caldeiras de leito fluidizado circulante (CFB). Algumas caldeiras CFB de pequeno e médio porte que entraram em operação nos primeiros anos no mercado doméstico enfrentaram problemas devido a falhas no projeto do sistema de expansão. A expansão desigual...
2. caldeiras CFB possuem características que permitem sua reutilização. Esses resíduos geram menos poluição secundária e podem oferecer benefícios econômicos consideráveis. arap sievítsubm oC ed axiaF odazirevluP oãvraC ed sariedlaC Coqu P e l t á d e A s e x t n t p i o t c e r o a t r c ó it le o o de...
3. proteção especial. O fundo da fornalha é equipado com uma placa de distribuição de ar resfriada a água e uma câmara de ar, e os bocais de ar são de tipo recirculante. Na parte superior da fornalha estão dispostas 20 CAPÍTULO 1: VISÃO GERAL DO DESENVOLVIMENTO DA TECNOLOGIA DE CALDEIRAS DE LEITO FLUIDIZADO 

In [None]:
# ============================================================
# TESTES DA FUNÇÃO buscar_hierarquico()
# ============================================================

# Lista de perguntas para validar os dois fluxos (referência e apoio)
perguntas_teste = [
    # Esperado: resultado da referência técnica oficial (PT)
    "Quais são os principais mecanismos de desgaste de uma CFB?",

    # Esperado: resultado dos documentos de apoio (EN → PT)
    "Quais problemas são comuns nas caldeiras CFB de pequeno porte?",

    # Pergunta ampla (teste de fallback)
    "Como as caldeiras CFB lidam com resíduos e poluição secundária?"
]

# Executa os testes
for pergunta in perguntas_teste:
    print("=" * 80)
    print(f"🔹 PERGUNTA: {pergunta}")
    resultado = buscar_hierarquico(pergunta)
    print(f"🔸 Origem da resposta: {resultado['origem']}")
    for i, r in enumerate(resultado["respostas"], 1):
        print(f"{i}. {r[:500]}...\n")


🔹 PERGUNTA: Quais são os principais mecanismos de desgaste de uma CFB?
🔸 Origem da resposta: referencia_tecnica
1. 1. Perigos do Desgaste O desgaste é um problema comum em caldeiras de leito fluidizado circulante (CFB) e, à medida que o tempo de operação aumenta, seus efeitos se tornam mais evidentes. Se não forem adotadas medidas preventivas adequadas ou se as medidas forem incorretas, a ocorrência de vazamentos nos tubos da caldeira...

2. (Figura 2-46). Esse tipo de desgaste é comum em praticamente todas as caldeiras CFB, e mais de 50% delas necessitam de reparos, como revestimentos por pulverização, em cada parada para manutenção. Devido à dificuldade de acesso para manutenção na parte superior da fornalha, algumas usinas optam por cobrir a...

3. ambas as técnicas podem ser combinadas. Nas caldeiras de leito fluidizado circulante (CFB), a área de maior atenção em relação à proteção contra desgaste é a interface entre os materiais refratários resistentes ao desgaste na zona densa e

In [None]:
# ============================================================
# ETAPA 1: Instalação do SDK Gemini e configuração da chave
# ============================================================

!pip install google-generativeai --quiet

import os

# Configura a chave de API Gemini no ambiente
os.environ["GEMINI_API_KEY"] = "AIzaSyD5j_CQsGOPbC35cgmROaBAgxiNNwKMkMc"

print("✅ SDK instalado e chave configurada no ambiente.")


✅ SDK instalado e chave configurada no ambiente.


In [None]:
# ============================================================
# FUNÇÃO ATUALIZADA: Tradução Semântica via Gemini (API v1)
# ============================================================

import google.generativeai as genai

# Configura a chave
genai.configure(api_key=os.environ["GEMINI_API_KEY"])

def traduzir_texto_gemini(texto: str, origem: str, destino: str) -> str:
    prompt = (
        f"Traduza o texto abaixo de {origem} para {destino}, "
        f"mantendo precisão técnica e clareza contextual:\n\n{texto}"
    )
    try:
        modelo = genai.GenerativeModel("gemini-1.5-flash")  # modelo atualizado
        resposta = modelo.generate_content(prompt)
        return resposta.text.strip()
    except Exception as e:
        print(f"[ERRO] Falha na tradução: {e}")
        return texto


In [None]:
# ============================================================
# ETAPA 3: Teste da Função de Tradução Semântica
# ============================================================

texto_pt = "As caldeiras CFB possuem alta eficiência na queima de combustíveis sólidos."
texto_en = "CFB boilers have high efficiency in burning solid fuels."

print("🔹 PT → EN")
print(traduzir_texto_gemini(texto_pt, "português", "inglês"))
print("\n🔹 EN → PT")
print(traduzir_texto_gemini(texto_en, "inglês", "português"))


🔹 PT → EN
Circulating fluidized bed (CFB) boilers exhibit high efficiency in the combustion of solid fuels.

🔹 EN → PT
Caldeiras CFB (Circulação de Leito Fluidizado) apresentam alta eficiência na queima de combustíveis sólidos.


In [None]:
# ============================================================
# FUNÇÃO REESCRITA: BUSCA HIERÁRQUICA + FILTRO DE RELEVÂNCIA + TRADUÇÃO GEMINI
# ============================================================

from typing import Dict, Any

def buscar_hierarquico(pergunta_pt: str, n_results: int = 3, max_dist: float = 0.6) -> Dict[str, Any]:
    """
    Busca hierárquica no índice ChromaDB.
    1. Consulta a coleção oficial ssot_ref (PT) e valida distância.
    2. Se não houver resultado relevante, traduz pergunta para EN e busca na coleção ssot_apoio.
    3. Se ainda assim não houver resultados válidos, retorna 'nenhum_resultado'.

    Parâmetros:
    - pergunta_pt: Pergunta original em português.
    - n_results: Quantidade de trechos a retornar (default 3).
    - max_dist: Distância máxima aceitável (quanto menor, melhor). Default = 0.6.
    """

    # ==============================
    # ETAPA 1: Busca na referência oficial
    # ==============================
    try:
        ref_result = col_ref.query(
            query_texts=[pergunta_pt],
            n_results=n_results,
            include=["documents", "metadatas", "distances"]
        )

        if ref_result["documents"]:
            best_dist = ref_result["distances"][0][0]
            if best_dist <= max_dist:
                return {
                    "origem": "referencia_tecnica",
                    "pergunta": pergunta_pt,
                    "distancia": round(best_dist, 3),
                    "respostas": ref_result["documents"][0],
                    "metadata": ref_result["metadatas"][0]
                }
    except Exception as e:
        print(f"[ERRO] Falha na busca na referência técnica: {e}")

    # ==============================
    # ETAPA 2: Busca nos documentos de apoio (com tradução)
    # ==============================
    try:
        pergunta_en = traduzir_texto_gemini(pergunta_pt, "português", "inglês")
        apoio_result = col_apoio.query(
            query_texts=[pergunta_en],
            n_results=n_results,
            include=["documents", "metadatas", "distances"]
        )

        if apoio_result["documents"]:
            best_dist = apoio_result["distances"][0][0]
            if best_dist <= max_dist:
                respostas_en = apoio_result["documents"][0]
                respostas_pt = [traduzir_texto_gemini(r, "inglês", "português") for r in respostas_en]
                return {
                    "origem": "documentos_apoio",
                    "pergunta_original": pergunta_pt,
                    "pergunta_traduzida": pergunta_en,
                    "distancia": round(best_dist, 3),
                    "respostas": respostas_pt,
                    "metadata": apoio_result["metadatas"][0]
                }
    except Exception as e:
        print(f"[ERRO] Falha na busca em documentos de apoio: {e}")

    # ==============================
    # ETAPA 3: Nenhum resultado relevante
    # ==============================
    return {
        "origem": "nenhum_resultado",
        "pergunta": pergunta_pt,
        "distancia": None,
        "respostas": []
    }


In [None]:
# ============================================================
# TESTES DE VALIDAÇÃO – buscar_hierarquico() com tradução Gemini
# ============================================================

perguntas_teste = [
    # 1. Deve vir da referência técnica
    "Quais são os principais mecanismos de desgaste de uma CFB?",

    # 2. Deve vir dos documentos de apoio (pergunta que não está no arquivo de referência oficial)
    "Quais avanços recentes existem em caldeiras CFB para redução de emissões?",

    # 3. Pergunta que não deve retornar nada
    "Qual é a cor favorita do engenheiro chefe das usinas?"
]

for pergunta in perguntas_teste:
    print("=" * 100)
    print(f"🔹 PERGUNTA: {pergunta}")
    resultado = buscar_hierarquico(pergunta)
    print(f"🔸 Origem da resposta: {resultado['origem']}")

    if resultado["respostas"]:
        for i, r in enumerate(resultado["respostas"], 1):
            print(f"{i}. {r[:400]}...\n")
    else:
        print("❗ Nenhum resultado encontrado.")


🔹 PERGUNTA: Quais são os principais mecanismos de desgaste de uma CFB?
🔸 Origem da resposta: referencia_tecnica
1. 1. Perigos do Desgaste O desgaste é um problema comum em caldeiras de leito fluidizado circulante (CFB) e, à medida que o tempo de operação aumenta, seus efeitos se tornam mais evidentes. Se não forem adotadas medidas preventivas adequadas ou se as medidas forem incorretas, a ocorrência de vazamentos nos tubos da caldeira...

2. (Figura 2-46). Esse tipo de desgaste é comum em praticamente todas as caldeiras CFB, e mais de 50% delas necessitam de reparos, como revestimentos por pulverização, em cada parada para manutenção. Devido à dificuldade de acesso para manutenção na parte superior da fornalha, algumas usinas optam por cobrir a...

3. ambas as técnicas podem ser combinadas. Nas caldeiras de leito fluidizado circulante (CFB), a área de maior atenção em relação à proteção contra desgaste é a interface entre os materiais refratários resistentes ao desgaste na zona densa e

In [None]:
# ============================================================
# FUNÇÃO FINAL: BUSCA HIERÁRQUICA COM OPÇÃO DE REESCRITA FLUIDA (GEMINI)
# ============================================================

from typing import Dict, Any

def buscar_hierarquico(pergunta_pt: str, n_results: int = 3, max_dist: float = 0.6, use_gemini: bool = False) -> Dict[str, Any]:
    """
    Realiza busca hierárquica com tradução e reescrita opcional via Gemini.

    Fluxo:
    1. Busca em ssot_ref (referência técnica).
    2. Se não houver resultado relevante, traduz pergunta para EN e busca em ssot_apoio.
    3. Traduz respostas para PT.
    4. Se use_gemini=True, reescreve a resposta final para melhorar fluidez sem adicionar informações.

    Retorno:
    - origem: referencia_tecnica | documentos_apoio | nenhum_resultado
    - respostas: lista de chunks recuperados
    - resposta_fluida: texto reescrito pelo Gemini (se use_gemini=True)
    - metadata, distancia: dados de suporte
    """

    # ==============================
    # ETAPA 1: Busca na referência técnica
    # ==============================
    try:
        ref_result = col_ref.query(
            query_texts=[pergunta_pt],
            n_results=n_results,
            include=["documents", "metadatas", "distances"]
        )

        if ref_result.get("documents") and ref_result["documents"][0]:
            best_dist = ref_result["distances"][0][0]
            if best_dist <= max_dist:
                respostas = ref_result["documents"][0]
                resposta_fluida = None

                if use_gemini:
                    resposta_fluida = traduzir_texto_gemini(
                        "Reescreva o texto abaixo, melhorando a fluidez e clareza sem adicionar novas informações:\n\n" +
                        "\n".join(respostas),
                        "português", "português"
                    )

                return {
                    "origem": "referencia_tecnica",
                    "pergunta": pergunta_pt,
                    "distancia": round(best_dist, 3),
                    "respostas": respostas,
                    "resposta_fluida": resposta_fluida,
                    "metadata": ref_result["metadatas"][0]
                }

    except Exception as e:
        print(f"[ERRO] Falha na busca na referência técnica: {e}")

    # ==============================
    # ETAPA 2: Busca nos documentos de apoio
    # ==============================
    try:
        pergunta_en = traduzir_texto_gemini(pergunta_pt, "português", "inglês")
        apoio_result = col_apoio.query(
            query_texts=[pergunta_en],
            n_results=n_results,
            include=["documents", "metadatas", "distances"]
        )

        if apoio_result.get("documents") and apoio_result["documents"][0]:
            best_dist = apoio_result["distances"][0][0]
            if best_dist <= max_dist:
                respostas_en = apoio_result["documents"][0]
                respostas_pt = [traduzir_texto_gemini(r, "inglês", "português") for r in respostas_en]
                resposta_fluida = None

                if use_gemini:
                    resposta_fluida = traduzir_texto_gemini(
                        "Reescreva o texto abaixo, melhorando a fluidez e clareza sem adicionar novas informações:\n\n" +
                        "\n".join(respostas_pt),
                        "português", "português"
                    )

                return {
                    "origem": "documentos_apoio",
                    "pergunta_original": pergunta_pt,
                    "pergunta_traduzida": pergunta_en,
                    "distancia": round(best_dist, 3),
                    "respostas": respostas_pt,
                    "resposta_fluida": resposta_fluida,
                    "metadata": apoio_result["metadatas"][0]
                }

    except Exception as e:
        print(f"[ERRO] Falha na busca em documentos de apoio: {e}")

    # ==============================
    # ETAPA 3: Nenhum resultado relevante
    # ==============================
    return {
        "origem": "nenhum_resultado",
        "pergunta": pergunta_pt,
        "distancia": None,
        "respostas": [],
        "resposta_fluida": None
    }


In [None]:
# ============================================================
# TESTE: Busca Hierárquica com e sem Reescrita Gemini
# ============================================================

pergunta_teste = "Quais os mecanismos que geram desgastes nas CFBs?"

# --- Teste 1: Resposta Bruta (RAG) ---
resultado_bruto = buscar_hierarquico(pergunta_teste, use_gemini=False, max_dist=0.8)
print("="*100)
print(f"🔹 PERGUNTA: {pergunta_teste}")
print(f"🔸 ORIGEM: {resultado_bruto['origem']} | DISTÂNCIA: {resultado_bruto['distancia']}")
print("\n--- RESPOSTA BRUTA (RAG) ---")
for i, r in enumerate(resultado_bruto["respostas"], 1):
    print(f"{i}. {r[:400]}...\n")

# --- Teste 2: Resposta Reescrita (RAG + Gemini) ---
resultado_fluido = buscar_hierarquico(pergunta_teste, use_gemini=True, max_dist=0.8)
print("="*100)
print(f"🔹 PERGUNTA: {pergunta_teste}")
print(f"🔸 ORIGEM: {resultado_fluido['origem']} | DISTÂNCIA: {resultado_fluido['distancia']}")
print("\n--- RESPOSTA REESCRITA (Gemini) ---")
print(resultado_fluido["resposta_fluida"] if resultado_fluido["resposta_fluida"] else "❗ Nenhuma resposta reescrita gerada.")


🔹 PERGUNTA: Quais os mecanismos que geram desgastes nas CFBs?
🔸 ORIGEM: referencia_tecnica | DISTÂNCIA: 0.617

--- RESPOSTA BRUTA (RAG) ---
1. ambas as técnicas podem ser combinadas. Nas caldeiras de leito fluidizado circulante (CFB), a área de maior atenção em relação à proteção contra desgaste é a interface entre os materiais refratários resistentes ao desgaste na zona densa e os tubos de parede d'água lisos. Nesta área, são comumente utilizadas técnicas...

2. com grupos de partículas, e essas partículas intermediárias servem como meio abrasivo entre as superfícies de contato, causando desgaste. Esse é o tipo mais comum de desgaste nas caldeiras CFB, conforme mostrado na Figura 2-23. 50 CAPÍTULO 2: TECNOLOGIA DE PROTEÇÃO CONTRA DESGASTE INTERNO E APLICAÇÕES...

3. 1. Perigos do Desgaste O desgaste é um problema comum em caldeiras de leito fluidizado circulante (CFB) e, à medida que o tempo de operação aumenta, seus efeitos se tornam mais evidentes. Se não forem adotadas medidas prev

In [3]:
!pip install -r "/content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend/requirements.txt"


Collecting chromadb (from -r /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend/requirements.txt (line 3))
  Downloading chromadb-1.0.15-cp39-abi3-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (7.0 kB)
Collecting pybase64>=1.4.1 (from chromadb->-r /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend/requirements.txt (line 3))
  Downloading pybase64-1.4.2-cp311-cp311-manylinux1_x86_64.manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_5_x86_64.whl.metadata (8.7 kB)
Collecting posthog<6.0.0,>=2.4.0 (from chromadb->-r /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend/requirements.txt (line 3))
  Downloading posthog-5.4.0-py3-none-any.whl.metadata (5.7 kB)
Collecting onnxruntime>=1.14.1 (from chromadb->-r /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend/requirements.txt (line 3))
  Downloading onnxruntime-1.22.1-cp311-cp311-manylinux_2_27_x86_64.manylinux_2_28_x86_64.whl.metadata (4.6 kB)
Collecting opentelemetry-api>=1.2.0 (from c

In [4]:
!uvicorn a3_backend.main:app --host 0.0.0.0 --port 8000 --reload


[32mINFO[0m:     Will watch for changes in these directories: ['/content']
[32mINFO[0m:     Uvicorn running on [1mhttp://0.0.0.0:8000[0m (Press CTRL+C to quit)
[32mINFO[0m:     Started reloader process [[36m[1m3671[0m] using [36m[1mWatchFiles[0m
Process SpawnProcess-1:
Traceback (most recent call last):
  File "/usr/lib/python3.11/multiprocessing/process.py", line 314, in _bootstrap
    self.run()
  File "/usr/lib/python3.11/multiprocessing/process.py", line 108, in run
    self._target(*self._args, **self._kwargs)
  File "/usr/local/lib/python3.11/dist-packages/uvicorn/_subprocess.py", line 80, in subprocess_started
    target(sockets=sockets)
  File "/usr/local/lib/python3.11/dist-packages/uvicorn/server.py", line 67, in run
    return asyncio.run(self.serve(sockets=sockets))
           ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^
  File "/usr/lib/python3.11/asyncio/runners.py", line 190, in run
    return runner.run(main)
           ^^^^^^^^^^^^^^^^
  File "/usr/lib/python

In [5]:
!uvicorn main:app --host 0.0.0.0 --port 8000 --reload --app-dir "/content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend"


[32mINFO[0m:     Will watch for changes in these directories: ['/content']
[32mINFO[0m:     Uvicorn running on [1mhttp://0.0.0.0:8000[0m (Press CTRL+C to quit)
[32mINFO[0m:     Started reloader process [[36m[1m4450[0m] using [36m[1mWatchFiles[0m
[32mINFO[0m:     Started server process [[36m4452[0m]
[32mINFO[0m:     Waiting for application startup.
[32mINFO[0m:     Application startup complete.
[32mINFO[0m:     Shutting down
[32mINFO[0m:     Waiting for application shutdown.
[32mINFO[0m:     Application shutdown complete.
[32mINFO[0m:     Finished server process [[36m4452[0m]
^C


In [6]:
import subprocess

# Caminho oficial
app_dir = "/content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend"

# Comando para iniciar o Uvicorn
cmd = [
    "uvicorn",
    "main:app",
    "--host", "0.0.0.0",
    "--port", "8000",
    "--app-dir", app_dir
]

# Inicia o servidor em segundo plano
process = subprocess.Popen(cmd, stdout=subprocess.PIPE, stderr=subprocess.STDOUT)

print("Servidor FastAPI iniciado em segundo plano na porta 8000.")
print("Você pode prosseguir com outras células no Colab.")


Servidor FastAPI iniciado em segundo plano na porta 8000.
Você pode prosseguir com outras células no Colab.


In [7]:
import requests

# URL do endpoint
url = "http://127.0.0.1:8000/query"

# Payload de teste
payload = {
    "pergunta": "Quais os mecanismos que geram desgastes nas CFBs?",
    "n_results": 3
}

# Requisição POST
try:
    response = requests.post(url, json=payload, timeout=10)
    print("Status Code:", response.status_code)
    print("Resposta JSON:")
    print(response.json())
except Exception as e:
    print("Erro ao conectar ao servidor:", e)


Erro ao conectar ao servidor: HTTPConnectionPool(host='127.0.0.1', port=8000): Read timed out. (read timeout=10)


In [8]:
import psutil

# Verifica processos relacionados ao uvicorn
for p in psutil.process_iter(['pid', 'name', 'cmdline']):
    if 'uvicorn' in ' '.join(p.info['cmdline']):
        print(f"PID: {p.info['pid']} | CMD: {' '.join(p.info['cmdline'])}")


PID: 6208 | CMD: /usr/bin/python3 /usr/local/bin/uvicorn main:app --host 0.0.0.0 --port 8000 --app-dir /content/drive/Shareddrives/TRABALHO/GEMEO_DIGITAL/a3_backend


In [9]:
!pip install pyngrok --quiet
from pyngrok import ngrok

# Cria túnel para porta 8000
public_url = ngrok.connect(8000)
print("Servidor acessível em:", public_url)




ERROR:pyngrok.process.ngrok:t=2025-07-31T13:36:36+0000 lvl=eror msg="failed to reconnect session" obj=tunnels.session err="authentication failed: Usage of ngrok requires a verified account and authtoken.\n\nSign up for an account: https://dashboard.ngrok.com/signup\nInstall your authtoken: https://dashboard.ngrok.com/get-started/your-authtoken\r\n\r\nERR_NGROK_4018\r\n"
ERROR:pyngrok.process.ngrok:t=2025-07-31T13:36:36+0000 lvl=eror msg="session closing" obj=tunnels.session err="authentication failed: Usage of ngrok requires a verified account and authtoken.\n\nSign up for an account: https://dashboard.ngrok.com/signup\nInstall your authtoken: https://dashboard.ngrok.com/get-started/your-authtoken\r\n\r\nERR_NGROK_4018\r\n"


PyngrokNgrokError: The ngrok process errored on start: authentication failed: Usage of ngrok requires a verified account and authtoken.\n\nSign up for an account: https://dashboard.ngrok.com/signup\nInstall your authtoken: https://dashboard.ngrok.com/get-started/your-authtoken\r\n\r\nERR_NGROK_4018\r\n.