Skip to content

dados-mg/datastore

 
 

Repository files navigation

Conjunto de dados - Dataset

Este dataset template é um conjunto de automatizações desenvolvidas pela Diretoria Central de Transparência Ativa - DCTA/CGE para criação, documentação, validação e publicação (criação e atualização em instâncias do CKAN) de conjunto de dados ou datasets.

Para esclarecimento sobre o fluxo completo de abertura de dados, favor consultar o Manual do Portal de Dados Abertos de Minas Gerais.

Funcionalidades:

  • Documentação de acordo com especificação de qualidade de metadados sem fricção (fricitonless).
  • Controle de versões da documentação e dos dados via Git e GitHub.
  • Conversão automatizada de base de dados em Excel para formato tabular aberto (csv), caso necessário.
  • Validação automatizada dos metadados e dos dados do conjunto, com demonstração de erros de validação, caso haja.
  • Publicação automatizada (criação e atualização em instâncias do CKAN) do conjunto criado, documentado e validado.

Como participar

A configuração deste dataset template está sendo feita de forma aberta e colaborativa no GitHub. Existem duas alternativas para enviar sua contribuição:

  • Issues: Para iniciar uma discussão sobre melhorias de funcionalidades.
  • Pull requests: Para sugerir uma alteração concreta na ferramenta.

Todas as contribuições são bem vindas. Alguns exemplos são:

  • Indicação de expressões imprecisas presentes na documentação;
  • Sugestões para inclusão de descrições em campos específicos;
  • Sugestões para clareza na organização das ideias;
  • Correção de erros de ortografia e gramática.

Fluxo de execução

graph TD;
    1(Início)-->2;
    2[Forcar dataset template]-->3;
    3[Cadastrar secrets]-->4;
    4[Configurar github pages]-->5;
    5[Incluir arquivo .xls na pasta upload]-->6;
    6[Script publica novo conjunto no CKAN]-->7;
    7(Fim)
Loading

Setup do projeto

  • Todas as etapas de preparação da base de dados a ser publicada deverão estar finalizadas1 para realização dos passos descritos a seguir.

  • Realize o fork do projeto (utilizaremos um fork para conseguir atualizar as automatizações com maior facilidade no futuro):

fork_projeto

  • Selecione a organização a qual o novo conjunto de dados será criado e preencha o nome do novo repositório (o nome deverá ser o mesmo do conjunto que será criado na instância do CKAN).

    OBS.: Certifique-se que o nome desejado para o novo conjunto não está sendo usando, pela lista dos conjuntos atualmente publicados em ambiente de produção e homologação ou pelas respectivas páginas dos conjuntos publicados: produção e homologação

fork_org_name

  • Cadastre Secrets para publicação em instância CKAN:

fork_settings

fork_secrets

fork_new_secrets

  • Deverão ser criadas três secrets:

    OBS.: Certifique-se também de que seu usuário está cadastrado para a organização que deseja cadastrar o novo conjunto de dados, seja em produção em homologação

    • CKAN_HOST: Instância CKAN desejada, exemplo: https://homologa.cge.mg.gov.br

    • CKAN_KEY_USUARIOGITHUB: se meu usuário GitHub é gabrielbdornas este secret será CKAN_KEY_GABRIELBDORNAS. Para o andrelamor, o secret CKAN_KEY_ANDRELAMOR

      • Necessário criar um novo API Token na instância CKAN desejada (copiar e colar o valor API TOKEN created da 4ª tela printada a seguir):

ckan_chave

ckan_chave_token

ckan_chave_nome

ckan_chave_criada

  • Cadastrar GitHub pages para mostrar relatório de validação:

fork_settings

fork_pages

fork_pages

image

  • Configurar GitHub pages para link aparecer na página inicial do repositório:

pages

pages

  • Configurar permissão para Actions ler e escrever no repositório:

    OBS.: Caso a permissão para Actions ler e escrever no repositório não esteja habilitada, esta configuração deverá ser feita também no nível da organização.

fork_settings

image

  • Para rodar o processo automatizado basta incluir base de dados a ser aberta na pasta upload, dentro da pasta dataset do novo repositório forkado e configurado:

image

image

Atualizações

Nos repositórios forkados do new-dataset-template, observar se há commits do repositório template para serem sincronizados: image Basta clicar em Sync forke, depois, no botão update branch: image Aparecerá a mensagem na tarja superior em azul-claro: image

Observe que o repositório clonado na máquina precisará do pull, para ser atualizado após esse sync, como qualquer alteração que ocorre no github.

Clicando em Fork, é possível listar todos os repositórios que foram gerados a partir do new-dataset-template, e conferir um por um: image

Footnotes

  1. Ciclo de Abertura, Documentação, Validação e Publicação.

Releases

No releases published

Packages

 
 
 

Contributors

Languages

  • Python 100.0%