dictionaries' encoding #14

saramortara · 2020-06-30T18:50:48Z

AndreaSanchezTapia · 2020-07-01T00:41:58Z

collection_codes ficou com encoding bom (unicode-utf-8) mas tem linhas e quebras de linha estranhas. Das 6065 linhas, 752 começam com texto e 323 com caracteres especiais. O resto começa por números mas nem todas as linhas são linhas de coleções. Isto já acontecia no arquivo antigo. Isso quer dizer que há quebras de linha indesejáveis no meio da base.

07-jul: o arquivo utf-8 win parece ok.

LimaRAF · 2020-07-01T07:26:44Z

@saramortara @AndreaSanchezTapia

Acabei de fazer o push pro dev com as novas versões dos dicionários: original (ANSI) e utf8-win (UTF-8-BOM). Resolvi tb os arquivos que tinham quebras que vinhas de outras planilhas. Agora talvez dê para resolver. Vocês me dando o ok de qual arquivo é o que deve ficar no raw, me avisem que eu movo os "errados" para outra pasta como backup. Em seguida, passerei a versionar os dicionários direto da pasta data/raw.

Para tudo ficar mais emocionante, eu troquei os nomes dos arquivos (tchanan!). Parece besta mas é para (1) evitar nomes duplicados de arquivos no meu subversion do servidor da LAGE, (2) deixar os nomes dos dicionarios mais intuitivos e (3) padronizar a notação entre eles de nomenclatura. Achei que pegaria mal um pacote com que promete padronizar nomenclatura, ter nomencalturas diferentes!

Ou seja, precisamos mudar a forma que chamamos esses arquivos no 00_SysData e nas funcoes. Mas eu faço isso em breve.

AndreaSanchezTapia · 2020-07-01T17:05:51Z

families_synonyms está melhor utf-8 win. ainda tem quatro campos de ordens fósseis "near Hamamelidales" sem pontuação padronizada. posso checar isso aqui. (pode buscar o campo near Hamamelidales ou as aspas para ver quais registros)

LimaRAF · 2020-07-01T17:08:04Z

@AndreaSanchezTapia eu vejo aqui. O que vc quer dizer por pontuação padronizada??

Edit: resolvido. Subo pro git as versões editadas dos mesmos arquivos para testarmos se não teve erro? sim, pode ser.

AndreaSanchezTapia · 2020-07-01T17:21:08Z

fieldNames ok
gazetteer ok
replaceNames ok - mais adiante precisamos checar o funcionamento destes strings lembro ter visto algum comentário sobre departamento deL

AndreaSanchezTapia · 2020-07-01T17:25:35Z

taxonomists not OK action required. Nenhum dos dois arquivos está lidando bem com caracteres especiais, mesmo que utf-8 esteja sendo reconhecido como o encoding correto. (utf-8-win está melhor eu partiria dele).
Primeira alternativa: ler desde o pad o arquivo original e transformar lá em UTF-8. Segunda, pegar o melhor UTF-8 que tiver e editar diretamente (tomara que não seja isso).

LimaRAF · 2020-07-01T17:28:06Z

@AndreaSanchezTapia Em quais colunas não está ok? Pq eu já tiha resolvido problemas na mão para as colunas que usamos (full.name, tdwg.name, etc) e não para as do começo. No meu arquivo local tem problemas tb (não é a leitura). Mas é muito trabalho olhar/corrigir na mão

AndreaSanchezTapia · 2020-07-01T19:22:57Z

Resolvido aparentemente na seleção de colunas e na criação de sysdata. Fecho esperando não ter que abrir de novo 😬

LimaRAF · 2020-07-02T09:32:44Z

@saramortara @AndreaSanchezTapia

Só para fins registro. Adaptei/reorganizei os arquivos e o codigo para gerar os dicionarios funcionou super bem! Eu já rodei tudo e vou fazer o push com as versões mais recentes do sysData.

MAs como ontem tivemos problemas de conflitos no pull/pushs com eu e Andrea editando os mesmo arquivos e como o subversion não permite que eu versione pastas do pacote, eu migrei todos os arquivos da pasta data-raw/raw para o meu local. Isso que dizer que só eu altero os dicionarios e atualizo a pasta data-raw/dicitionaries. Solução centralizadora, mas acho mais seguro pois os dicionários são o core de muitas funções.

Vou fazer o push pro dev. Me avisem caso tenham duvidas ou problemas

AndreaSanchezTapia · 2020-07-03T13:24:09Z

O sonho seria que você trabalhasse diretamente só nos arquivos utf-8, sem ir e vir entre encodings, não que você salve UTF8 mantendo o sistema antigo. Que o locale do computador e das opções de RStudio ficasse já em UTF 8 mas não tenho como garantir à distância que qualquer mudança no seu computador não vai requerer fuçar mais outras coisas.
Mas com dictionaries como novo raw funciona. Vou separar mais tarde 00 para não mexer mais no código que checa raw raw.

saramortara created this issue from a note in to do list plantR (In progress) Jun 30, 2020

AndreaSanchezTapia closed this as completed Jul 1, 2020

to do list plantR automation moved this from In progress to Done Jul 1, 2020

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dictionaries' encoding #14

dictionaries' encoding #14

saramortara commented Jun 30, 2020 •

edited by AndreaSanchezTapia

AndreaSanchezTapia commented Jul 1, 2020 •

edited

LimaRAF commented Jul 1, 2020

AndreaSanchezTapia commented Jul 1, 2020 •

edited

LimaRAF commented Jul 1, 2020 •

edited by AndreaSanchezTapia

AndreaSanchezTapia commented Jul 1, 2020

AndreaSanchezTapia commented Jul 1, 2020

LimaRAF commented Jul 1, 2020

AndreaSanchezTapia commented Jul 1, 2020

LimaRAF commented Jul 2, 2020

AndreaSanchezTapia commented Jul 3, 2020

dictionaries' encoding #14

dictionaries' encoding #14

Comments

saramortara commented Jun 30, 2020 • edited by AndreaSanchezTapia

AndreaSanchezTapia commented Jul 1, 2020 • edited

LimaRAF commented Jul 1, 2020

AndreaSanchezTapia commented Jul 1, 2020 • edited

LimaRAF commented Jul 1, 2020 • edited by AndreaSanchezTapia

AndreaSanchezTapia commented Jul 1, 2020

AndreaSanchezTapia commented Jul 1, 2020

LimaRAF commented Jul 1, 2020

AndreaSanchezTapia commented Jul 1, 2020

LimaRAF commented Jul 2, 2020

AndreaSanchezTapia commented Jul 3, 2020

saramortara commented Jun 30, 2020 •

edited by AndreaSanchezTapia

AndreaSanchezTapia commented Jul 1, 2020 •

edited

AndreaSanchezTapia commented Jul 1, 2020 •

edited

LimaRAF commented Jul 1, 2020 •

edited by AndreaSanchezTapia