New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Gerar CSV do processo de data quality e infometria para a base WHO IRIS #92

Closed
renatomurasaki opened this Issue Jul 10, 2018 · 7 comments

Comments

Projects
None yet
3 participants
@renatomurasaki
Member

renatomurasaki commented Jul 10, 2018

Realizaremos processo de data profiling para a equipe da WHO que iniciará trabalho de data quality do Repositorio.

@botturam

This comment has been minimized.

Collaborator

botturam commented Jul 11, 2018

Renato,

está disponível em ftp.bireme.br (XXX - XXXX), com o nome de WHOLIS_tabulacoes.zip, gerado 2f, dia 09 de julho.

@botturam

This comment has been minimized.

Collaborator

botturam commented Jul 11, 2018

está no diretório /home/ftp/OFI/gim

@renatomurasaki

This comment has been minimized.

Member

renatomurasaki commented Jul 22, 2018

arquivos CSV OK

@renatomurasaki

This comment has been minimized.

Member

renatomurasaki commented Jul 22, 2018

@botturam por favor, confirmar se os seguintes campos DC estão nos arquivos CSV:

dc.contributor.author
dc.contributor
dc.title.release
dc.date.issue
dc.language.iso
dc.identifier.govdoc
dc.identifier.isbn
dc.identifier.issn
dc.relation.ispartofseries
dc.relation.ispartofjournal
who.relation.languageVersion

qdo estiver, informar o campo e arquivo CSV. Se nao estiver, incluir campo e arquivo CSV que corresponda.

@falbrito

This comment has been minimized.

Collaborator

falbrito commented Aug 1, 2018

Tabulações para campos extras criado e disponibilizado no ftp.bireme.br EM /home/ftp/OFI/gim
ARQUIVO: wholis_extras_tabulacoes.zip

CAMPOS -> Arquivo de tabulação
dc.contributor.author -> wholis_dc_contributor_author.txt
dc.contributor e dc.date.issue -> wholis_dc_contributor_dc_date_issue.txt
dc.title.release -> wholis_dc_title_release.txt
dc.language.iso -> wholis_dc_language_iso.txt
dc.identifier.govdoc -> wholis_dc_identifier_govdoc.txt
dc.identifier.isbn -> wholis_dc_identifier_isbn.txt
dc.identifier.issn -> wholis_dc_identifier_issn.txt
dc.relation.ispartofseries -> wholis_dc_relation_ispartofseries.txt
dc.relation.ispartofjournal -> wholis_dc_relation_ispartofjournal.txt

Observação: o campo who.relation.languageVersion não foi localizado no arquivo XML de coleta.

Shell script:
serverofi5:/bases/lilG4/tpl.lil/tabula_wholis_campos_extras.sh

@renatomurasaki

This comment has been minimized.

Member

renatomurasaki commented Aug 1, 2018

@falbrito favor atualizar os scripts para que cada CSV tenha pelo menos uma linha para cada registro da base, ou seja, quando um registro não tem o campo correspondente ao CSV, criar uma linha apenas com o dado de ID |, pois dessa forma conseguimos mapear os valores nulos.

@falbrito

This comment has been minimized.

Collaborator

falbrito commented Aug 2, 2018

Foram incorporados os IDs também quando nulos.
Novo arquivo wholis_extras_tabulacoes.zip disponibilizado no servidor FTP.

Está no diretório /home/ftp/OFI/gim

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment