Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

dictionaries' encoding #14

Closed
6 tasks done
saramortara opened this issue Jun 30, 2020 · 10 comments
Closed
6 tasks done

dictionaries' encoding #14

saramortara opened this issue Jun 30, 2020 · 10 comments

Comments

@saramortara
Copy link
Collaborator

saramortara commented Jun 30, 2020

@saramortara saramortara created this issue from a note in to do list plantR (In progress) Jun 30, 2020
@AndreaSanchezTapia
Copy link
Collaborator

AndreaSanchezTapia commented Jul 1, 2020

collection_codes ficou com encoding bom (unicode-utf-8) mas tem linhas e quebras de linha estranhas. Das 6065 linhas, 752 começam com texto e 323 com caracteres especiais. O resto começa por números mas nem todas as linhas são linhas de coleções. Isto já acontecia no arquivo antigo. Isso quer dizer que há quebras de linha indesejáveis no meio da base.

07-jul: o arquivo utf-8 win parece ok.

@LimaRAF
Copy link
Owner

LimaRAF commented Jul 1, 2020

@saramortara @AndreaSanchezTapia

Acabei de fazer o push pro dev com as novas versões dos dicionários: original (ANSI) e utf8-win (UTF-8-BOM). Resolvi tb os arquivos que tinham quebras que vinhas de outras planilhas. Agora talvez dê para resolver. Vocês me dando o ok de qual arquivo é o que deve ficar no raw, me avisem que eu movo os "errados" para outra pasta como backup. Em seguida, passerei a versionar os dicionários direto da pasta data/raw.

Para tudo ficar mais emocionante, eu troquei os nomes dos arquivos (tchanan!). Parece besta mas é para (1) evitar nomes duplicados de arquivos no meu subversion do servidor da LAGE, (2) deixar os nomes dos dicionarios mais intuitivos e (3) padronizar a notação entre eles de nomenclatura. Achei que pegaria mal um pacote com que promete padronizar nomenclatura, ter nomencalturas diferentes!

Ou seja, precisamos mudar a forma que chamamos esses arquivos no 00_SysData e nas funcoes. Mas eu faço isso em breve.

@AndreaSanchezTapia
Copy link
Collaborator

AndreaSanchezTapia commented Jul 1, 2020

families_synonyms está melhor utf-8 win. ainda tem quatro campos de ordens fósseis "near Hamamelidales" sem pontuação padronizada. posso checar isso aqui. (pode buscar o campo near Hamamelidales ou as aspas para ver quais registros)

@LimaRAF
Copy link
Owner

LimaRAF commented Jul 1, 2020

@AndreaSanchezTapia eu vejo aqui. O que vc quer dizer por pontuação padronizada??

Edit: resolvido. Subo pro git as versões editadas dos mesmos arquivos para testarmos se não teve erro? sim, pode ser.

@AndreaSanchezTapia
Copy link
Collaborator

fieldNames ok
gazetteer ok
replaceNames ok - mais adiante precisamos checar o funcionamento destes strings lembro ter visto algum comentário sobre departamento deL

@AndreaSanchezTapia
Copy link
Collaborator

taxonomists not OK action required. Nenhum dos dois arquivos está lidando bem com caracteres especiais, mesmo que utf-8 esteja sendo reconhecido como o encoding correto. (utf-8-win está melhor eu partiria dele).
Primeira alternativa: ler desde o pad o arquivo original e transformar lá em UTF-8. Segunda, pegar o melhor UTF-8 que tiver e editar diretamente (tomara que não seja isso).

@LimaRAF
Copy link
Owner

LimaRAF commented Jul 1, 2020

@AndreaSanchezTapia Em quais colunas não está ok? Pq eu já tiha resolvido problemas na mão para as colunas que usamos (full.name, tdwg.name, etc) e não para as do começo. No meu arquivo local tem problemas tb (não é a leitura). Mas é muito trabalho olhar/corrigir na mão

@AndreaSanchezTapia
Copy link
Collaborator

Resolvido aparentemente na seleção de colunas e na criação de sysdata. Fecho esperando não ter que abrir de novo 😬

to do list plantR automation moved this from In progress to Done Jul 1, 2020
@LimaRAF
Copy link
Owner

LimaRAF commented Jul 2, 2020

@saramortara @AndreaSanchezTapia

Só para fins registro. Adaptei/reorganizei os arquivos e o codigo para gerar os dicionarios funcionou super bem! Eu já rodei tudo e vou fazer o push com as versões mais recentes do sysData.

MAs como ontem tivemos problemas de conflitos no pull/pushs com eu e Andrea editando os mesmo arquivos e como o subversion não permite que eu versione pastas do pacote, eu migrei todos os arquivos da pasta data-raw/raw para o meu local. Isso que dizer que só eu altero os dicionarios e atualizo a pasta data-raw/dicitionaries. Solução centralizadora, mas acho mais seguro pois os dicionários são o core de muitas funções.

Vou fazer o push pro dev. Me avisem caso tenham duvidas ou problemas

@AndreaSanchezTapia
Copy link
Collaborator

O sonho seria que você trabalhasse diretamente só nos arquivos utf-8, sem ir e vir entre encodings, não que você salve UTF8 mantendo o sistema antigo. Que o locale do computador e das opções de RStudio ficasse já em UTF 8 mas não tenho como garantir à distância que qualquer mudança no seu computador não vai requerer fuçar mais outras coisas.
Mas com dictionaries como novo raw funciona. Vou separar mais tarde 00 para não mexer mais no código que checa raw raw.

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
None yet
Projects
Development

No branches or pull requests

3 participants