In [None]:
"""
#
Este notebook ajuda a diagnosticar e resolver problemas de permiss√£o do ChromaDB
quando ocorre o erro: "attempt to write a readonly database execute o codigo abaixo"
"""

In [None]:
# Execute esta c√©lula depois de resolver os problemas de permiss√£o

import chromadb
from chromadb.config import Settings
from langchain.document_loaders import DataFrameLoader
from langchain.vectorstores import Chroma
from langchain.embeddings import OpenAIEmbeddings
import pandas as pd
import os
from dotenv import load_dotenv

# Carregar vari√°veis de ambiente
load_dotenv()
openai_api_key = os.getenv("OPENAI_API_KEY")

# Diret√≥rio do vectorstore
vectorstore_dir = os.path.abspath("../vectorstore")
print(f"üìÇ Usando diret√≥rio: {vectorstore_dir}")

# Carregar dados
df = pd.read_csv("../notebooks/data/processed/dados_bcb.csv")
print(f"üìä Dados carregados: {len(df)} registros")

# Carregar documentos
loader = DataFrameLoader(df, page_content_column="text")
documents = loader.load()
print(f"üìÑ Documentos criados: {len(documents)}")

# Configurar embeddings
embedding = OpenAIEmbeddings(openai_api_key=openai_api_key)
print("üîÑ Embedding configurado")

try:
    # Configura√ß√£o alternativa do ChromaDB (usando DuckDB em vez de SQLite)
    client = chromadb.Client(Settings(
        chroma_db_impl="duckdb+parquet",  # Usar DuckDB em vez de SQLite
        persist_directory=vectorstore_dir,
        anonymized_telemetry=False
    ))
    
    # Remover cole√ß√£o se j√° existir
    try:
        client.delete_collection("documents_dados_bcb")
        print("üóëÔ∏è Cole√ß√£o anterior removida")
    except:
        print("üÜï Criando nova cole√ß√£o")
    
    # Criar vectorstore
    vectorstore = Chroma.from_documents(
        documents=documents,
        embedding=embedding,
        persist_directory=vectorstore_dir,
        client=client,
        collection_name="documents_dados_bcb"
    )
    
    # Persistir vetores
    vectorstore.persist()
    print(f"‚úÖ Base vetorial criada com sucesso em {vectorstore_dir}")
    print(f"‚úÖ Nome da cole√ß√£o: documents_dados_bcb")
    print(f"‚úÖ Total de documentos vetorizados: {len(documents)}")
    
except Exception as e:
    print(f"‚ùå Erro ao criar base vetorial: {e}")
    print("‚ö†Ô∏è Veja as op√ß√µes de corre√ß√£o nas c√©lulas anteriores")

In [2]:
from langchain.document_loaders.csv_loader import CSVLoader
from langchain.text_splitter import RecursiveCharacterTextSplitter
from langchain.embeddings import OpenAIEmbeddings
from langchain.vectorstores import Chroma
from dotenv import load_dotenv
import os
import json

# Carrega vari√°veis de ambiente
load_dotenv()

# 1. Carrega as vari√°veis do projeto
with open("../configs/settings.json", "r") as f:
    settings = json.load(f)

# 2. Obter chave da API OpenAI (corrigido)
# Primeira tentativa: do arquivo .env
openai_api_key = os.getenv("OPENAI_API_KEY")

# Segunda tentativa: do settings.json se n√£o encontrou no .env
if not openai_api_key:
    openai_api_key = settings.get("openai_api_key")

# Verifica se conseguiu obter a chave
if not openai_api_key:
    raise ValueError("A chave da API OpenAI n√£o foi encontrada nem no .env nem no settings.json")

print("‚úÖ Chave da API OpenAI carregada com sucesso")

# 3. Define o caminho do CSV
csv_path = os.path.join(settings["processed_data_path"], f"{settings['parquet_file_prefix']}.csv")

print(f"csv_path = {csv_path}")
print(f"Arquivo existe? {os.path.exists(csv_path)}")

# 4. Verifica se o arquivo existe antes de tentar carregar
if not os.path.exists(csv_path):
    raise FileNotFoundError(f"Arquivo CSV n√£o encontrado: {csv_path}")

# 5. Carrega os dados do CSV como documentos
loader = CSVLoader(
    file_path=csv_path,
    source_column="contexto"  # coluna que cont√©m o texto completo
)

documents = loader.load()
print(f"‚úÖ {len(documents)} documentos carregados do CSV")

# 6. Split de texto (se necess√°rio)
splitter = RecursiveCharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50
)
docs_split = splitter.split_documents(documents)
print(f"‚úÖ Documentos divididos em {len(docs_split)} chunks")

# 7. Inicializa o embedding com OpenAI (corrigido)
try:
    embedding = OpenAIEmbeddings(openai_api_key=openai_api_key)
    print("‚úÖ Embedding OpenAI inicializado com sucesso")
except Exception as e:
    print(f"‚ùå Erro ao inicializar embedding: {e}")
    raise

# 8. Cria o diret√≥rio do vectorstore com permiss√µes corretas
vectorstore_dir = os.path.abspath("../vectorstore")
print(f"üìÅ Diret√≥rio do vectorstore: {vectorstore_dir}")

# Remove diret√≥rio existente se houver (para evitar conflitos)
if os.path.exists(vectorstore_dir):
    import shutil
    print("üóëÔ∏è Removendo vectorstore existente...")
    shutil.rmtree(vectorstore_dir)

# Cria novo diret√≥rio com permiss√µes completas
os.makedirs(vectorstore_dir, mode=0o755, exist_ok=True)
print("‚úÖ Diret√≥rio do vectorstore criado")

# 9. Cria o vetor store com Chroma (armazenado localmente)
try:
    # Usar collection_name √∫nico para evitar conflitos
    collection_name = f"documents_{settings.get('parquet_file_prefix', 'default')}"
    
    db = Chroma.from_documents(
        documents=docs_split,
        embedding=embedding,
        persist_directory=vectorstore_dir,
        collection_name=collection_name
    )
    print(f"‚úÖ Base vetorial criada com sucesso (collection: {collection_name})")
except Exception as e:
    print(f"‚ùå Erro ao criar base vetorial: {e}")
    
    # Tentativa alternativa: usar diret√≥rio tempor√°rio
    print("üîÑ Tentando criar em diret√≥rio tempor√°rio...")
    import tempfile
    temp_dir = tempfile.mkdtemp(prefix="vectorstore_")
    print(f"üìÇ Usando diret√≥rio tempor√°rio: {temp_dir}")
    
    try:
        db = Chroma.from_documents(
            documents=docs_split,
            embedding=embedding,
            persist_directory=temp_dir,
            collection_name=collection_name
        )
        vectorstore_dir = temp_dir  # Atualiza para o diret√≥rio que funcionou
        print("‚úÖ Base vetorial criada em diret√≥rio tempor√°rio")
    except Exception as e2:
        print(f"‚ùå Erro mesmo com diret√≥rio tempor√°rio: {e2}")
        raise

# 10. Salva o vetor store
try:
    db.persist()
    print(f"‚úîÔ∏è Base vetorial salva com sucesso em: {vectorstore_dir}")
    print(f"üìä Total de documentos vetorizados: {len(docs_split)}")
    print(f"üîç Nome da cole√ß√£o: {collection_name}")
except Exception as e:
    print(f"‚ùå Erro ao salvar base vetorial: {e}")
    print("‚ÑπÔ∏è A base vetorial pode ainda estar dispon√≠vel na mem√≥ria para uso imediato")
    
    # Testa se consegue fazer uma busca mesmo sem persistir
    try:
        test_results = db.similarity_search("teste", k=1)
        print("‚úÖ Base vetorial funcional (mesmo sem persist√™ncia)")
    except Exception as e2:
        print(f"‚ùå Base vetorial n√£o est√° funcional: {e2}")
        raise

‚úÖ Chave da API OpenAI carregada com sucesso
csv_path = data/processed/dados_bcb.csv
Arquivo existe? True
‚úÖ 544 documentos carregados do CSV
‚úÖ Documentos divididos em 544 chunks


  embedding = OpenAIEmbeddings(openai_api_key=openai_api_key)


‚úÖ Embedding OpenAI inicializado com sucesso
üìÅ Diret√≥rio do vectorstore: /home/edu/Documentos/Engenharia-dados-IA/Pipe-Rag/vectorstore
üóëÔ∏è Removendo vectorstore existente...
‚úÖ Diret√≥rio do vectorstore criado
‚úÖ Base vetorial criada com sucesso (collection: documents_dados_bcb)
‚úîÔ∏è Base vetorial salva com sucesso em: /home/edu/Documentos/Engenharia-dados-IA/Pipe-Rag/vectorstore
üìä Total de documentos vetorizados: 544
üîç Nome da cole√ß√£o: documents_dados_bcb
‚úÖ Base vetorial criada com sucesso (collection: documents_dados_bcb)
‚úîÔ∏è Base vetorial salva com sucesso em: /home/edu/Documentos/Engenharia-dados-IA/Pipe-Rag/vectorstore
üìä Total de documentos vetorizados: 544
üîç Nome da cole√ß√£o: documents_dados_bcb


  db.persist()
