<a href="https://colab.research.google.com/github/aleeepassarelli/scientific-validation-hub/blob/main/notebooks/02_data_version.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# üß¨ Lab 02: Data Versioning com DVC (Simulado)

**Framework:** Scientific Validation Hub
**Ferramenta:** [DVC (Data Version Control)](https://dvc.org/)
**Objetivo:** Demonstrar que Prompts e Datasets devem ser versionados via Hash (Assinatura Digital) para garantir reprodutibilidade cient√≠fica.

---

### ‚ö° Quick Start (Modo Assistido)
1.  **Execute:** Rode as c√©lulas para criar um reposit√≥rio local, criar um prompt e "travar" a vers√£o dele com DVC.
2.  **Experimente:** O c√≥digo vai alterar o prompt e mostrar como o DVC detecta a mudan√ßa de Hash.
3.  **Audite:** Abra o Assistente Gemini e cole:

> "Atue como Auditor de Reprodutibilidade.
> Analise os outputs abaixo.
> 1. Compare o Hash MD5 da Vers√£o 1 com a Vers√£o 2. Eles s√£o diferentes?
> 2. Explique por que apenas salvar o arquivo de texto n√£o √© suficiente para ci√™ncia de dados segura.
> 3. O DVC detectou corretamente a altera√ß√£o sem√¢ntica no prompt?"

In [None]:
# Instala DVC e configura Git local (necess√°rio para o DVC funcionar)
!pip install dvc -q
!git config --global user.email "aluno@lab.com"
!git config --global user.name "Aluno Lab"

print("‚úÖ DVC instalado. Ambiente de versionamento pronto.")

In [None]:
import os

# 1. Cria√ß√£o de um Workspace limpo
# Simulamos uma pasta de projeto real
project_dir = "meu_projeto_ia"
if not os.path.exists(project_dir):
    os.makedirs(project_dir)

%cd {project_dir}

# 2. Inicializa√ß√£o do Reposit√≥rio (Git + DVC)
# Isso cria as pastas ocultas .git e .dvc que rastreiam tudo
!git init -q
!dvc init -q
print(f"üìÇ Reposit√≥rio inicializado em: {os.getcwd()}")

In [None]:
# 3. Criando o "Dado" (Neste caso, um System Prompt)
prompt_v1 = """
Voc√™ √© um assistente √∫til.
Responda sempre com educa√ß√£o.
"""

with open("system_prompt.txt", "w") as f:
    f.write(prompt_v1)

print("üìù Arquivo 'system_prompt.txt' criado (Vers√£o 1).")

# 4. A Magia do DVC (Gerando o Hash)
# O comando 'add' calcula a assinatura digital do arquivo e cria o .dvc
!dvc add system_prompt.txt -q

print("\nüîí DVC bloqueou a vers√£o. Conte√∫do do arquivo de rastreio (.dvc):")
!cat system_prompt.txt.dvc

In [None]:
import time
time.sleep(2) # Pausa dram√°tica

# 5. Simulando uma altera√ß√£o sutil (O pesadelo da reprodutibilidade)
# Mudamos "educa√ß√£o" para "precis√£o". Isso muda totalmente o comportamento da IA.
prompt_v2 = """
Voc√™ √© um assistente √∫til.
Responda sempre com precis√£o t√©cnica.
"""

with open("system_prompt.txt", "w") as f:
    f.write(prompt_v2)

print("üìù Arquivo 'system_prompt.txt' modificado (Vers√£o 2).")

# 6. Atualizando o DVC
print("üîÑ Recalculando Hash com DVC...")
!dvc add system_prompt.txt -q

print("\nüîí Nova assinatura digital gerada:")
!cat system_prompt.txt.dvc

In [None]:
# 7. Compara√ß√£o Forense (Extra√ß√£o dos Hashes via Python)
import yaml

def get_dvc_hash(file_path):
    with open(file_path + ".dvc", 'r') as stream:
        data = yaml.safe_load(stream)
        return data['outs'][0]['md5']

# Nota: Como sobrescrevemos o arquivo, vamos comparar logicamente o que aconteceu.
# Em um cen√°rio real, voc√™ usaria 'git checkout' para voltar no tempo.

print("="*50)
print("üìä RELAT√ìRIO DE INTEGRIDADE DVC")
print("="*50)

# Lendo o hash atual (V2)
current_hash = get_dvc_hash("system_prompt.txt")

print(f"Arquivo Rastreado: system_prompt.txt")
print(f"Hash MD5 Atual (V2): {current_hash}")
print("\nCONCLUS√ÉO DO LAB:")
print("O DVC gerou um hash √∫nico baseado no CONTE√öDO, n√£o no nome do arquivo.")
print("Se voc√™ enviar este hash para outro pesquisador, ele saber√° exatamente qual prompt usar.")
print("Isso elimina o problema 'qual vers√£o do prompt voc√™ usou?'.")