# üß† Prepara√ß√£o de Dataset para Fine-Tuning

Este notebook realiza o seguinte processo:
- Verifica e instala a depend√™ncia `gdown`.
- Baixa o arquivo `trn.json` do Google Drive (caso n√£o esteja presente).
- Processa o arquivo JSON e gera um arquivo `.jsonl` compat√≠vel com modelos de linguagem.
- Gera um relat√≥rio detalhado sobre as linhas processadas e ignoradas.

### üì¶ Instala√ß√£o da biblioteca `gdown`
Esta c√©lula verifica se a biblioteca `gdown` est√° instalada. Caso n√£o esteja, ela ser√° instalada automaticamente. Essa biblioteca √© usada para baixar arquivos diretamente do Google Drive.

In [None]:
# üì¶ Instala√ß√£o da depend√™ncia gdown (caso necess√°rio)
import subprocess
import sys

try:
    import gdown
except ImportError:
    subprocess.check_call([sys.executable, "-m", "pip", "install", "gdown"])
    import gdown

### üìÅ Verifica√ß√£o e Download do Arquivo
Aqui verificamos se o arquivo `trn.json` j√° existe no diret√≥rio. Se n√£o existir, ele ser√° baixado do Google Drive utilizando o `gdown`.

In [None]:
# üìÅ Verifica√ß√£o e download do arquivo JSON de entrada
import os

file_id = "1kq9bSDUfj0sxGO6C9bb95EYWtey6Smf_"
output = "trn.json"

if not os.path.exists(output):
    print("‚¨áÔ∏è Arquivo n√£o encontrado. Iniciando download...")
    gdown.download(f"https://drive.google.com/uc?id={file_id}", output, quiet=False)
else:
    print("‚úÖ Arquivo j√° existe. Pulando download.")

### üõ†Ô∏è Fun√ß√£o de Prepara√ß√£o do Dataset
Esta fun√ß√£o percorre linha a linha do arquivo JSON de entrada, transformando em JSONL formatado para fine-tuning. Ela tamb√©m conta e relata registros inv√°lidos, como JSON malformado, t√≠tulo ou descri√ß√£o vazios.

In [None]:
# üõ†Ô∏è Fun√ß√£o para preparar o dataset em formato jsonl
import json

def preparar_dataset_jsonl(caminho_entrada, caminho_saida):
    contador = 0
    ignorados_total = 0
    erros_json = 0
    titulos_vazios = 0
    descricoes_vazias = 0

    with open(caminho_entrada, 'r', encoding='utf-8') as f_in, \
         open(caminho_saida, 'w', encoding='utf-8') as f_out:

        for linha in f_in:
            try:
                item = json.loads(linha)
                titulo = item.get("title", "").strip()
                descricao = item.get("content", "").strip()

                if not titulo:
                    titulos_vazios += 1
                    ignorados_total += 1
                    continue

                if not descricao:
                    descricoes_vazias += 1
                    ignorados_total += 1
                    continue

                prompt = f"O que √© {titulo}?"
                completion = descricao
                f_out.write(json.dumps({
                    "prompt": prompt,
                    "completion": completion
                }, ensure_ascii=False) + '\n')
                contador += 1

            except json.JSONDecodeError:
                erros_json += 1
                ignorados_total += 1

    print("‚úÖ Dataset gerado com sucesso!")
    print(f"üìÑ Linhas v√°lidas: {contador}")
    print(f"üö´ Linhas ignoradas: {ignorados_total}")
    print(f"   ‚îî‚îÄ üß® Erros de JSON: {erros_json}")
    print(f"   ‚îî‚îÄ ‚ùå T√≠tulos vazios: {titulos_vazios}")
    print(f"   ‚îî‚îÄ ‚ùå Descri√ß√µes vazias: {descricoes_vazias}")
    print(f"üíæ Arquivo salvo em: {caminho_saida}")

### üöÄ Execu√ß√£o da Fun√ß√£o de Processamento
Executa a fun√ß√£o definida anteriormente para gerar o arquivo `dataset_preparado.jsonl`, com estat√≠sticas de sucesso e erro.

In [None]:
# üöÄ Execu√ß√£o da fun√ß√£o de prepara√ß√£o de dataset
CAMINHO_JSON = "trn.json"
SAIDA_JSONL = "dataset_preparado.jsonl"

preparar_dataset_jsonl(CAMINHO_JSON, SAIDA_JSONL)