# Configurar o ambiente
Certifique-se de que o DVC está instalado e o Git inicializado no projeto:

In [None]:
! pip install dvc
! git init
! dvc init
! git add .dvc .gitignore
! git commit -m "Inicializa o projeto com DVC"


# Gerenciar notebooks como dependências
Você pode usar o DVC para rastrear as dependências e saídas de um notebook diretamente:

    Adicionar o notebook como dependência: Crie um arquivo dvc.yaml para definir as etapas de execução do notebook.

    Exemplo do arquivo dvc.yaml: (veja o arquivo dvc.yaml)


- cmd: Comando para executar o notebook (no caso, usando nbconvert para executar e gerar o notebook atualizado).
- deps: Arquivos que o notebook utiliza como entrada.
- outs: Arquivos de saída produzidos pelo notebook.

# Adicione e rastreie o arquivo dvc.yaml:

In [None]:
! git add dvc.yaml
! git commit -m "Adiciona etapa de treinamento no DVC"


# Adicionar dependências e saídas

Adicione os arquivos de dados ou resultados produzidos pelo notebook ao controle do DVC:

In [None]:
! dvc add data/dataset.csv
! dvc add outputs/model.pkl
! git add data/dataset.csv.dvc outputs/model.pkl.dvc
! git commit -m "Rastreia dataset e modelo treinado com DVC"


# Executar as etapas definidas

Execute o pipeline configurado no dvc.yaml:

In [None]:
! dvc repro

Este comando:

    - Executa o notebook train_model.ipynb automaticamente.
    - Rastreia as alterações nos arquivos de entrada e saída.
    - Atualiza os resultados no controle do DVC.

# Compartilhar dados e resultados

Sincronize os dados gerenciados pelo DVC com um remote:

In [None]:
! dvc remote add -d storage gdrive://<seu-repositorio>
! dvc push


# Benefícios do uso do DVC com notebooks

    Rastreamento automático: O DVC rastreia o estado do notebook e seus dados associados.
    Reprodutibilidade: Qualquer pessoa pode executar o pipeline, garantindo a consistência dos resultados.
    Integração com dados em remotes: Permite armazenar grandes conjuntos de dados e modelos fora do repositório Git.

# Boas práticas

    Versão dos notebooks: Use uma ferramenta como nbdime para comparar notebooks antes de commits no Git:
    - Evite dados grandes no notebook: Mantenha os arquivos grandes como dependências gerenciadas pelo DVC.

In [None]:
! pip install nbdime
! nbdime config-git --enable


In [None]:
import pandas as pd
from sklearn.linear_model import LinearRegression
import joblib

# Carregar os dados
data = pd.read_csv('data.csv')
X = data[['x']].values
y = data['y'].values

# Treinar modelo
model = LinearRegression()
model.fit(X, y)

# Salvar o modelo
joblib.dump(model, 'model.pkl')
print("Modelo salvo em model.pkl")
