# Pipeline de Treinamento do Cerebra
Este notebook executa todas as etapas do projeto Cerebra em sequência.


## Clonar o repositório do projeto

Execute esta célula para clonar o repositório oficial do projeto Cerebra no ambiente do Colab.

In [None]:
!git clone https://github.com/cadusouza2001/cerebra.git
%cd cerebra

## Instalação de dependências
Execute esta célula para instalar as bibliotecas necessárias.

In [None]:
!pip install aiohttp beautifulsoup4 txtai torch google-generativeai

## (Opcional) Montar o Google Drive
Se desejar salvar outputs diretamente no Drive, execute a célula abaixo.

In [None]:
from google.colab import drive
drive.mount('/content/drive')

## Configuração de variáveis de ambiente
As chaves da API devem ser definidas nos *Secrets* do Colab.


In [None]:
from google.colab import userdata
import os
from google.colab.userdata import SecretNotFoundError

possible_keys = ['GOOGLE_API_KEY'] + [f'GOOGLE_API_KEY_{i}' for i in range(1, 10)]
api_keys = []
for k in possible_keys:
    try:
        value = userdata.get(k)
        if value:
            api_keys.append(value)
    except SecretNotFoundError:
        continue

if not api_keys:
    raise RuntimeError('Nenhuma chave de API encontrada. Defina pelo menos GOOGLE_API_KEY nos secrets do Colab.')

os.environ['GEMINI_API_KEYS'] = ','.join(api_keys)

# Outros caminhos configuráveis
os.environ['DATASET_FILE'] = 'qa_dataset/spark_qa_generative_dataset.jsonl'
os.environ['OUTPUT_MODEL_DIR'] = 'spark_expert_model'

## 1. Raspagem da documentação

In [None]:
!python src/scrape_fast_resumable.py

## 2. Criação do índice semântico

In [None]:
!python src/index_spark_docs.py

## 3. Geração do dataset

In [None]:
!python src/generate_qa_dataset.py

## 4. Treinamento do modelo

In [None]:
!python src/train.py

## 5. Avaliação do modelo

In [None]:
!python src/evaluate_model.py

## 6. Geração de gráficos

In [None]:
!python src/plot_graphs.py

## 7. Perguntas interativas

In [None]:
!python src/run_qa_system.py