Processamento de pacotes KBART das coleções SciELO
Realizar correções e manter o branch https://github.com/scieloorg/processing/tree/codex/python3-14-migration como se fosse o principal, pois é com este branch que o ambiente é atualizado (qualquer dúvida falar com @rondinelisaad )
1. Extração do arquivo KBART
Para cada pacote .zip, o script extrai o arquivo journals_kbart.csv.
2. Renomeação dos arquivos
#129
Cada arquivo extraído é renomeado no padrão:
SciELO_<coleção>_AllTitles_<data>.csv
Se o arquivo estiver vazio, recebe o sufixo _vazio.csv.
3. Padronização do cabeçalho KBART
#91
Os cabeçalhos traduzidos, como:
Título do Periódico (publication_title)
São substituídos pelos nomes padrão em inglês:
publication_title
print_identifier
online_identifier
title_url
coverage_depth
...
4. Preenchimento de coverage_depth
#92
Todos os registros recebem:
coverage_depth = fulltext
5. Conversão de URLs para HTTPS
#72
O script substitui http:// por https:// no campo title_url para as coleções elegíveis.
6. Coleções mantidas em HTTP
As seguintes coleções não têm suas URLs convertidas para HTTPS:
tabs_bol
tabs_col
tabs_per
tabs_cub
tabs_sss
tabs_ury
7. Correção específica da Venezuela
#67
Para SciELO_ven, o script substitui:
por:
8. Correção específica da Espanha
#64
Para SciELO_esp, o script atualiza o PID nas URLs:
por:
9. Correção específica da West Indies
#93
Para tabs_wid, o script substitui o domínio:
por:
E adiciona o parâmetro &nrm=iso quando ele ainda não existe.
Processamento de pacotes KBART das coleções SciELO
Realizar correções e manter o branch https://github.com/scieloorg/processing/tree/codex/python3-14-migration como se fosse o principal, pois é com este branch que o ambiente é atualizado (qualquer dúvida falar com @rondinelisaad )
1. Extração do arquivo KBART
Para cada pacote
.zip, o script extrai o arquivojournals_kbart.csv.2. Renomeação dos arquivos
Cada arquivo extraído é renomeado no padrão:
Se o arquivo estiver vazio, recebe o sufixo
_vazio.csv.3. Padronização do cabeçalho KBART
Os cabeçalhos traduzidos, como:
São substituídos pelos nomes padrão em inglês:
4. Preenchimento de
coverage_depthTodos os registros recebem:
5. Conversão de URLs para HTTPS
O script substitui
http://porhttps://no campotitle_urlpara as coleções elegíveis.6. Coleções mantidas em HTTP
As seguintes coleções não têm suas URLs convertidas para HTTPS:
tabs_boltabs_coltabs_pertabs_cubtabs_ssstabs_ury7. Correção específica da Venezuela
Para
SciELO_ven, o script substitui:por:
8. Correção específica da Espanha
Para
SciELO_esp, o script atualiza o PID nas URLs:por:
9. Correção específica da West Indies
Para
tabs_wid, o script substitui o domínio:por:
E adiciona o parâmetro
&nrm=isoquando ele ainda não existe.