Skip to content

andre-almd/dvc-test

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

22 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

dvc-test

Projeto para testar uso do DVC com repositório remoto no bucket S3 da AWS.

O objetivo desse projeto não foi construir um modelo robusto de ML realizando análises complexas. Foi exclusivamente para testar o uso de DVC e suas aplicações práticas de construção de pipelines para projetos de ML.

Neste projeto foi construído um pipeline simples de Machine Learning, com 4 estágios, para a classificação do dataset Íris: data_load, data_preprocess, train, test. Cada estágio é responsável por uma etapa diferente e possui suas dependências e saídas de dados monitoradas pelo DVC.

  • data_load: Estágio para ler os dados do dataste Iris, separar inputs de outputs e salvá-los em arquivos csv.

  • data_preprocess: Estágio que separa os dados em treino e teste e aplica o pré processamento de Standardization nos dados. Ao final o estágio salva os dados e o scaler para serem usados na sequência.

  • train: Estágio para treinr o modelo de SVM com os dados de treino, utilizando os parâmetros definidos em params.yaml. Ao final do treinamento o modelo é salvo para uso na etapa de teste.

  • teste: Estágio para testar o modelo criado e salvar as métricas calculadas.

Os estágios são implementados no arquivo dvc.yaml constituindo um pipeline quando se conectam entre si. Nele definimos as dependências, as saídas, os parâmetros e as métricas de cada estágio que serão rastreadas pelo DVC.

About

Testando uso do dvc

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages