-
Notifications
You must be signed in to change notification settings - Fork 4
New issue
Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.
By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.
Already on GitHub? Sign in to your account
dictionaries' encoding #14
Comments
collection_codes ficou com encoding bom (unicode-utf-8) mas tem linhas e quebras de linha estranhas. Das 6065 linhas, 752 começam com texto e 323 com caracteres especiais. O resto começa por números mas nem todas as linhas são linhas de coleções. Isto já acontecia no arquivo antigo. Isso quer dizer que há quebras de linha indesejáveis no meio da base. 07-jul: o arquivo utf-8 win parece ok. |
@saramortara @AndreaSanchezTapia Acabei de fazer o push pro dev com as novas versões dos dicionários: original (ANSI) e utf8-win (UTF-8-BOM). Resolvi tb os arquivos que tinham quebras que vinhas de outras planilhas. Agora talvez dê para resolver. Vocês me dando o ok de qual arquivo é o que deve ficar no raw, me avisem que eu movo os "errados" para outra pasta como backup. Em seguida, passerei a versionar os dicionários direto da pasta data/raw. Para tudo ficar mais emocionante, eu troquei os nomes dos arquivos (tchanan!). Parece besta mas é para (1) evitar nomes duplicados de arquivos no meu subversion do servidor da LAGE, (2) deixar os nomes dos dicionarios mais intuitivos e (3) padronizar a notação entre eles de nomenclatura. Achei que pegaria mal um pacote com que promete padronizar nomenclatura, ter nomencalturas diferentes! Ou seja, precisamos mudar a forma que chamamos esses arquivos no 00_SysData e nas funcoes. Mas eu faço isso em breve. |
families_synonyms está melhor utf-8 win. ainda tem quatro campos de ordens fósseis "near Hamamelidales" sem pontuação padronizada. posso checar isso aqui. (pode buscar o campo near Hamamelidales ou as aspas para ver quais registros) |
@AndreaSanchezTapia eu vejo aqui. O que vc quer dizer por pontuação padronizada?? Edit: resolvido. Subo pro git as versões editadas dos mesmos arquivos para testarmos se não teve erro? sim, pode ser. |
fieldNames ok |
taxonomists not OK action required. Nenhum dos dois arquivos está lidando bem com caracteres especiais, mesmo que utf-8 esteja sendo reconhecido como o encoding correto. (utf-8-win está melhor eu partiria dele). |
@AndreaSanchezTapia Em quais colunas não está ok? Pq eu já tiha resolvido problemas na mão para as colunas que usamos (full.name, tdwg.name, etc) e não para as do começo. No meu arquivo local tem problemas tb (não é a leitura). Mas é muito trabalho olhar/corrigir na mão |
Resolvido aparentemente na seleção de colunas e na criação de sysdata. Fecho esperando não ter que abrir de novo 😬 |
@saramortara @AndreaSanchezTapia Só para fins registro. Adaptei/reorganizei os arquivos e o codigo para gerar os dicionarios funcionou super bem! Eu já rodei tudo e vou fazer o push com as versões mais recentes do sysData. MAs como ontem tivemos problemas de conflitos no pull/pushs com eu e Andrea editando os mesmo arquivos e como o subversion não permite que eu versione pastas do pacote, eu migrei todos os arquivos da pasta data-raw/raw para o meu local. Isso que dizer que só eu altero os dicionarios e atualizo a pasta data-raw/dicitionaries. Solução centralizadora, mas acho mais seguro pois os dicionários são o core de muitas funções. Vou fazer o push pro dev. Me avisem caso tenham duvidas ou problemas |
O sonho seria que você trabalhasse diretamente só nos arquivos utf-8, sem ir e vir entre encodings, não que você salve UTF8 mantendo o sistema antigo. Que o locale do computador e das opções de RStudio ficasse já em UTF 8 mas não tenho como garantir à distância que qualquer mudança no seu computador não vai requerer fuçar mais outras coisas. |
@AndreaSanchezTapia, @LimaRAF
The text was updated successfully, but these errors were encountered: