Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

HXL_CPLP-FOD_medicinae-legalis: Discussão geral de HXL na área de Medicina Legal (EN: Medical jurisprudence) #44

Open
fititnt opened this issue Dec 17, 2020 · 3 comments
Labels
fod-cplp Conjunto de dados que consideramos essencial em toda CPLP taxonomia https://en.wikipedia.org/wiki/Taxonomy_(general) vocab

Comments

@fititnt
Copy link
Member

fititnt commented Dec 17, 2020


"A Medicina Legal é uma especialidade concomitantemente médica e jurídica que utiliza conhecimentos técnico-científicos da medicina para o esclarecimento de fatos de interesse da justiça.
O especialista médico praticante é denominado médico legista.
Para a consecução dos seus misteres, a Medicina Legal relaciona-se com vários dos ramos do Direito, tais como o Civil, Penal e ainda Constitucional, do Trabalho, Desportivo, etc.
-- Fonte: Wikipedia PT

Contexto sobre uso de HXL em geral

Fato 1: O HXL (The Humanitarian Exchange Language, vide https://hxlstandard.org) é fantástico. O ecossistema de ferramentas e o foco em facilitar o trabalho para quem, de fato, trabalha como gestor de informação em ambiente que tem frequentes mudanças de requisito (ao ponto de até mesmo ser inviável criar programas e APIs bem pensadas) é perfeito para vários usos. Se você chegou nesse tópico e não nunca ouviu o que é HXL, por mais que aqui no HXL-CPLP você ou especialistas avançados de software vejam discussões também sobre taxonomia e implementação baixo nível, ainda assim tenha em mente que o uso do dia a dia do HXL é focado para funcionar mesmo em meio a crises eventos como desastres naturais, conflitos humanos súbitos que saturam capacidade de organização típica e afins.

Fato 2: (pelo que eu, até este momento de dezembro de 2020 tenho notado) É mais fácil encontrar, além de documentação padrão muito detalhada, exemplos de uso de Hashtags + atributos em que as próprias fontes de dados podem ficar públicas. A documentação também é especialmente detalhada em questões relacionadas a como documentar transferências de dinheiro (ex: país/organização doa dinheiro para outra organização) e também ajudar a anonimizar campos. Um porém é que, por mais que HXL permita trocar dados, ainda é necessário decidir quais termos usar para nomear esses dados (Conceitos: Taxonomia, Vocabulário) e isso pode depender de conhecer tanto o básico sobre como HXL funciona, como da área em que isso seria usado

Fato 3: (pelo que eu, até este momento de dezembro de 2020 tenho notado) não apenas por questões técnicas (exemplo: idiomas diferentes, pessoa que escreve errado nomes de outra organização) mas por questões políticas (exemplo: 2 organizações de de países diferentes tem que colaborar em um terceiro país; mas ele usam termos diferentes para coisas que, para fins humanitários, são a mesma coisa) as ferramentas que implementam HXL são muito úteis para quem tem que lidar com diferenças de opiniões sem exigir que a fonte de dados original seja alterada. Considerando apenas nomes e/ou limites territoriais, é mais fácil dizer quais coisas que possuem códigos ISO 3166 não tem disputas territoriais Vide List of territorial disputes e Interactive Map of Disputed Territories_; veja que até o Brasil tem disputas.

Fato 4: note que pela soma do Fato 1, Fato 2 e Fato 3, se alguém precisaria usar HXL para algo imediato (e a pessoa já tem acesso aos dados) ela flexibilidade para criar qual tag e atributo bem entender, pois os demais podem alterar facilmente. Ou seja, se você está no meio de uma urgência, tem que ajudar outros porque pessoas estão literalmente morrendo, não tem problema você usar hashtags + atributos HXLs errados temporários!

Sobre HXL na área de Medicina Legal

Feita explicação básica de contexto sobre HXL, a ideia desse tópico aqui é deixar referenciado pelo menos algumas ações que nós do HXL-CPLP estamos fazendo de modo que não só os resultados finais, mas o próprio processo de outros fazendo iniciativas semelhantes possam aprender. Talvez você esteja lendo isso vários anos depois de escrito (ou então está no meio de uma urgência e nem mesmo teria tempo para pedir ajuda e aguardar resposta por email). Note que sempre que possível tentamos usar licença equivalente a domínio público, logo em especial se estiver ajudando em questões humanitárias (inclusive para fins comerciais, como usando equipe de empresa privada para apoiar governo ou organizações não governamentais) você nem mesmo precisa se preocupar em citar que se baseou em trabalhos do HXL-CPLP (e em geral da Etica.AI)

Questões práticas

  • TO DO: adicionar questões práticas (fititnt, 2020-12-17 06:25 BRT)
@fititnt fititnt added vocab fod-cplp Conjunto de dados que consideramos essencial em toda CPLP taxonomia https://en.wikipedia.org/wiki/Taxonomy_(general) labels Dec 17, 2020
fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 17, 2020
…human organ (Q25449120))

BUG: ainda não é o ideal; esta retornando poucos resultados

HXL-CPLP/forum#44
@fititnt
Copy link
Member Author

fititnt commented Dec 17, 2020

Este aqui é um exemplo prático de conjunto de dados que podemos usar como exemplo de escolher as hashtags + atributos em HXL. De fato esse arquivo em especial foi um dos que distribuímos no grupo privado da organização @covid-taskforce-cplp (que foi uma iniciativa chave que incentivou a criação do HXL-CPLP).

Um dos pontos sobre como HXL é tipicamente usado (pelo menos para datasets públicos no HDX): não temos exemplos, mesmo que não sejam em Português, de como criar Hashtags para esse tipo de dataset que aumentem ao máximo a interindividualidade.

O tópico, que estamos testando uso de Latim como referência para termos técnicos principalmente na área jurídica (e agora na área médica) até tem termos para muita coisa. Mas em um conjunto de dados longo como este, que tem muitos exames laboratoriais, seria complicado começar a ter temos em latim até para exames laboratoriais modernos muito específicos. Por isso um dos testes que estamos fazendo envolve usar latim pelo menos para verbos e para itens extremamente específicos começar a fazer uso de fontes de dados como Wikidata.

Outro problema do uso de Latim (só para citar o caso do Covid, mas poderia ser outra doença ou então algum termo chave para desastre natural) "a qualquer momento" algo poderia surgir . Nesse caso as pessoas não deveriam depender de usar alguma forma de dizer do que se trata só por não saber Latim. Por esse tipo de motivo que também estamos documentando como estamos fazendo para chegar às conclusões!.

brasil-dataset-covid-pacientes-hospital-albert-einstein-anonimizado_2020-03-28.xlsx

Conjunto de dados anonimizados de pacientes que testaram positivo e negativo ao #Covid19 do Hospital Israelita Albert Einstein (Hospital do Brasil)

DESCRIÇÃO

"Conjunto de dados
Este conjunto de dados contém dados anonimizados de pacientes atendidos no Hospital Israelita Albert Einstein, em São Paulo, Brasil, e que tiveram amostras coletadas para realizar o SARS-CoV-2 RT-PCR e testes laboratoriais adicionais durante uma visita ao hospital.
Todos os dados foram anonimizados seguindo as melhores práticas e recomendações internacionais. Todos os dados clínicos foram padronizados para ter uma média de zero e um desvio padrão unitário.

Amostra do arquivo

Patient ID,Patient age quantile,SARS-Cov-2 exam result,"Patient addmited to regular ward (1=yes, 0=no)","Patient addmited to semi-intensive unit (1=yes, 0=no)","Patient addmited to intensive care unit (1=yes, 0=no)",Hematocrit,Hemoglobin,Platelets,Mean platelet volume ,Red blood Cells,Lymphocytes,Mean corpuscular hemoglobin concentration (MCHC),Leukocytes,Basophils,Mean corpuscular hemoglobin (MCH),Eosinophils,Mean corpuscular volume (MCV),Monocytes,Red blood cell distribution width (RDW),Serum Glucose,Respiratory Syncytial Virus,Influenza A,Influenza B,Parainfluenza 1,CoronavirusNL63,Rhinovirus/Enterovirus,Mycoplasma pneumoniae,Coronavirus HKU1,Parainfluenza 3,Chlamydophila pneumoniae,Adenovirus,Parainfluenza 4,Coronavirus229E,CoronavirusOC43,Inf A H1N1 2009,Bordetella pertussis,Metapneumovirus,Parainfluenza 2,Neutrophils,Urea,Proteina C reativa mg/dL,Creatinine,Potassium,Sodium,"Influenza B, rapid test","Influenza A, rapid test",Alanine transaminase,Aspartate transaminase,Gamma-glutamyltransferase ,Total Bilirubin,Direct Bilirubin,Indirect Bilirubin,Alkaline phosphatase,Ionized calcium ,Strepto A,Magnesium,pCO2 (venous blood gas analysis),Hb saturation (venous blood gas analysis),Base excess (venous blood gas analysis),pO2 (venous blood gas analysis),Fio2 (venous blood gas analysis),Total CO2 (venous blood gas analysis),pH (venous blood gas analysis),HCO3 (venous blood gas analysis),Rods #,Segmented,Promyelocytes,Metamyelocytes,Myelocytes,Myeloblasts,Urine - Esterase,Urine - Aspect,Urine - pH,Urine - Hemoglobin,Urine - Bile pigments,Urine - Ketone Bodies,Urine - Nitrite,Urine - Density,Urine - Urobilinogen,Urine - Protein,Urine - Sugar,Urine - Leukocytes,Urine - Crystals,Urine - Red blood cells,Urine - Hyaline cylinders,Urine - Granular cylinders,Urine - Yeasts,Urine - Color,Partial thromboplastin time (PTT) ,Relationship (Patient/Normal),International normalized ratio (INR),Lactic Dehydrogenase,"Prothrombin time (PT), Activity",Vitamin B12,Creatine phosphokinase (CPK) ,Ferritin,Arterial Lactic Acid,Lipase dosage,D-Dimer,Albumin,Hb saturation (arterial blood gases),pCO2 (arterial blood gas analysis),Base excess (arterial blood gas analysis),pH (arterial blood gas analysis),Total CO2 (arterial blood gas analysis),HCO3 (arterial blood gas analysis),pO2 (arterial blood gas analysis),Arteiral Fio2,Phosphor,ctO2 (arterial blood gas analysis)
44477f75e8169d2,13,negative,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
126e9dd13932f68,17,negative,0,0,0,0.2365154475,-0.0223402679,-0.5174130201,0.01067657024,0.1020041853,0.3183657527,-0.9507903457,-0.09461034834,-0.2237665057,-0.2922693193,1.482158184,0.1661923975,0.3575466573,-0.6250726581,-0.1406480819,not_detected,not_detected,not_detected,not_detected,not_detected,detected,,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,-0.6190860271,1.198059082,-0.1478949487,2.089928389,-0.3057871461,0.8625116348,negative,negative,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
a46b4402a0e5696,8,negative,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
f7d619a94f97c45,5,negative,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
d9e41465789c2b5,15,negative,0,0,0,,,,,,,,,,,,,,,,not_detected,not_detected,not_detected,not_detected,not_detected,detected,,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
75f16746216c4d1,9,negative,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
2a2245e360808d7,13,negative,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
509197ec73f1400,16,negative,0,0,0,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,
8bb9d64f0215244,1,negative,0,1,0,-1.571682215,-0.7742120028,1.429667473,-1.67222178,-0.8500350118,-0.005738043226,3.331070662,0.3645504713,-0.2237665057,0.1781749874,1.018625021,-1.336024284,0.06865151227,-0.9788991213,-0.4132083654,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,-0.1273953617,-0.06730879098,-0.286985755,-1.838623166,0.9300202727,0.5031317472,,,-0.5868212581,-0.1621999592,,,,,,0.7243525982,,1.075153351,0.6155943274,-0.5547365546,-0.2837478817,-0.5629015565,,0.1040881053,-0.8555131555,0.03634486347,,,,,,,,,,,,,,,,,,,,,,,,,,-0.08948074281,0.2965464294,0.9077231288,,,-0.2678561211,,,,,,,,,,,,,,0.7303929329,
5f1ed301375586c,17,negative,0,0,0,,,,,,,,,,,,,,,,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,not_detected,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,,

fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 17, 2020
@fititnt
Copy link
Member Author

fititnt commented Dec 17, 2020

Um pouco de contexto aqui (até porque outros podem revisar/atualizar trabalho prévio, ainda mais se estiverem no meio de urgência) como também entender motivações atuais das queries no wikidata.com

Como preparar/ajudar para futuras pessoas usarem HXL

1. Idealizar algum tipo de vocabulário novo e fazer testes práticos

Primeira coisa imaginar que tipo de vocabulário usar. Pode se algo apenas para você ou pequeno grupo de pessoas, mas se ficar bom outros podem usar.

A questão de Idealizar/testar precisa existir antes de começar a organizar em HXL. Na verdade não só HXL, mas qualquer projeto que envolva facilitar trabalho de quem usaria para conciliar dados de fontes diferentes

2. Ajudar não apenas com documentação (faça usando isso), mas ferramentas e dados prontos para uso (pode usar isto aqui como referência inicial...)

Notem que o objetivo final do ecossistema de quem usa HXL é otimizar para quando realmente necessário ser rápido e, mesmo que não seja 100% perfeito ou do modo "mais eficiente do ponto de vista de hardware" tem que ser amigável para quem for usar. Mesmo que a pessoa seja especialista em dados, provavelmente vai estar sob pressão.

2.1 Poucos conjuntos de dados bem cuidados vs vários conjuntos de dados que podem ficar desatualizados?

Com exceção de ISOs, que talvez tenham alterações significativas apenas depois de vários anos, e talvez dados geográficos que fontes oficiais de países podem atualizar com prazo anual muito provavelmente qualquer conjunto de dados que citamos no HXL-CPLP eventualmente irá ficar desatualizados. Isso talvez só não ocorra quando o que fazemos é meramente pegar dados de fontes oficial e (mesmo que façamos uma cópia manual no nosso Google Drive, para caso até site oficial caia, o que é super comum em tempo de crise) e publicar uma URL no HXL proxy: neste caso os dados sempre vão estar atualizados.

Então fica pergunta. "Poucos conjuntos de dados bem cuidados vs vários conjuntos de dados que podem ficar desatualizados?" No momento, pelo menos na minha opinião pessoal, a segunda opção. Nesse momento não tem como saber o que vai se tornar missão crítica ou não, e, na pior das hipóteses, seja nos mesmos do HXL-CPLP ou pessoas usando datasets desatualizados é mais fácil rever como foi obtido um dataset e re-executar mesmo processo do que ter que fazer no meio de uma crise.

Só para avisar que além ser fácil copiarem os datasets / planilhas que estão no nosso Google Drive, podem também conversar com a gente para darmos acesso de escrita nas próprias planilhas usadas pelos demais.

2.2 Sobre as queries no Wikidata: o que será que já deveria estar pronto no caso de medicina legal?

Semelhante ao que foi feito no HXL-CPLP-FOD_countries-territories, e muito disso é uma cópia na cara dura das planilhas que são usadas na OCHA + relacionamento com dados da Wikidata, no caso de usos para medicina, tem que ser pensado como pessoas poderiam querer relacionar data.

O issue do HXL-CPLP-Vocab_Latinum #42 talvez não fique estável para ser usado, mas as relações com Wikidata tem mais chance. Isso quer dizer questões como ver quais códigos Q poderiam ser usados para quem fosse usar HXL numa planilha como a anterior, são talvez mais importantes de serem documentadas do que meramente deixar a resposta como exemplo!

Um dos pontos que eu no momento (e provavelmente você caso não seja da área de medicina e tenha um super conhecimento global) provavelmente vai se deparar com tendo que prever o futuro é que a Wikidata, além de fornecer os códigos Q e o nome em diversos idiomas, também permite já extrair outras relações, como associação desses códigos Q com outros identificações únicos. Infelizmente esse tipo de relacionamento não é tão completo, porém é melhor do que nada. Por enquanto está query aqui retorna não só poucos órgãos, mas não está reformando tantos identificadores que já existem:

Link para esta query

# Retorna todos os países/territórios que tenham propriedade instance of: human organ (Q25449120)
#
# Idiomas escolhidos:
#  1) Idiomas oficiais da ONU, por ordem alfabética do código de idioma iso639-2
#  2) Idiomas mais falados na CPLP (vide https://cplp.etica.ai/) mais Esperanto e Latim, por ordem alfabética código de idioma iso639-3
SELECT
    ?item
    ?item_name_v_wikidata_i_ar
    ?item_name_v_wikidata_i_en
    ?item_name_v_wikidata_i_es
    ?item_name_v_wikidata_i_fr
    ?item_name_v_wikidata_i_ru
    ?item_name_v_wikidata_i_zh
    ?item_name_v_wikidata_i_epo
    ?item_name_v_wikidata_i_lat
    ?item_name_v_wikidata_i_por
    ?item_name_v_wikidata_i_tet
    ?item_name_v_wikidata_i_yue
WHERE
{
    # ?item wdt:P297 ?country_code_v_iso2 .
    ?item wdt:P279 wd:Q25449120 .
    # Item, by label
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_ar filter (lang(?item_name_v_wikidata_i_ar) = "ar") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_en filter (lang(?item_name_v_wikidata_i_en) = "en") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_es filter (lang(?item_name_v_wikidata_i_es) = "es") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_fr filter (lang(?item_name_v_wikidata_i_fr) = "fr") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_ru filter (lang(?item_name_v_wikidata_i_ru) = "ru") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_zh filter (lang(?item_name_v_wikidata_i_zh) = "zh") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_epo filter (lang(?item_name_v_wikidata_i_epo) = "eo") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_lat filter (lang(?item_name_v_wikidata_i_lat) = "la") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_por filter (lang(?item_name_v_wikidata_i_por) = "pt") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_tet filter (lang(?item_name_v_wikidata_i_tet) = "tet") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_yue filter (lang(?item_name_v_wikidata_i_yue) = "yue") } .
}

Ou seja existem pontos de melhoria.

sobre diferença de foco no meio de urgências vs no resto do tempo

Notem que essa preocupação em pesquisar como as pessoas usariam os dados, quais relações fazer etc até mesmo eu estou fazendo porque não tem crise em andamento. E definitivamente tem coisa que dá para pensar com calma agora em dezembro de 2020 do que foi o caos lá no começo da pandemia (e quem faz parte do @covid-taskforce-cplp deve ter acompanhado de perto)

fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 17, 2020
…8 vocabularios controlados

item_code_v_au_aev: Australian Educational Vocabulary ID, vocabulary.curriculum.edu.au
item_code_v_babelnet: abelNet, babelnet.org
item_code_v_cz_nkp: National Library of the Czech Republic, nkp.cz
item_code_v_de_brendaenzymes: Brenda Tissue Ontology, www.brenda-enzymes.org
item_code_v_de_gnd: German National Library ID, dnb.de
item_code_v_jp_ndl: National Diet Library of Japan, ndl.go.jp
item_code_v_it_bncf: National Central Library of Florence, bncf.firenze.sbn.it
item_code_v_us_mesh: Medical Subject Headings (MeSH), nlm.nih.gov/mesh/

HXL-CPLP/forum#44
fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 18, 2020
…3 vocabularios controlados

item_code_v_freebase: Freebase ID (still accessible via Google)
item_code_v_fr_universalis: Encyclopædia Universalis ID, universalis.fr
item_code_v_uk_britannica: # Encyclopædia Br# Encyclopædia Britannica Online, britannica.comitannica Online, britannica.com

HXL-CPLP/forum#44
fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 18, 2020
…6 vocabulários controlados

item_code_v_cz_psh: Czech Technical Library ID, psh.techlib.cz
item_code_v_fr_pactols: PACTOLS thesaurus ID, pactols.frantiq.fr
item_code_v_no_snl: Store norske leksikon ID, snl.no
item_code_v_ru_greo: Great Russian Encyclopedia Online, bigenc.ru
item_code_v_us_jstor: Medical JSTOR, jstor.org
item_code_v_us_mag: Microsoft Academic Graph (MAG)

HXL-CPLP/forum#44
fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 18, 2020
…3 vocabulários controlados

item_code_v_fipat_ta2: Terminologia Anatomica second edition (2019) identifier, ta2viewer.openanatomy.org
item_code_v_fipat_ta98_id: Terminologia Anatomica 98 ID, unifr.ch/ifaa/
item_code_v_fipat_ta98_latin: Terminologia Anatomica 98 Latin preferred term, unifr.ch/ifaa/

HXL-CPLP/forum#44
fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 18, 2020
…6 vocabulários controlados

item_code_v_fi_yso: General Finnish Ontology YSO, yso.fi
item_code_v_it_treccani: Enciclopedia Italiana Treccani, treccani.it
item_code_v_kbpedia: KBpedia knowledge graph, kbpedia.org
item_code_v_ontobee_xao: Xenopus Anatomy Ontology, ontobee.org/ontology/XAO
item_code_v_uberon: Uberon, uberon.org
item_code_v_us_umls_cui: NLM Unified Medical Language System (UMLS) controlled biomedical vocabulary unique identifier, nlm.nih.gov/research/umls

HXL-CPLP/forum#44
@fititnt
Copy link
Member Author

fititnt commented Dec 18, 2020

Ok. Primeiro conjunto de dados dessa coleção nasceu! SPARQL é complicado. Creio que se a gente começar a ter as planilhas prontas já em HXL, até que saberia SPARQL iria preferir usar HXL.

Tem em torno de 34 itens únicos, mas já tenho ideia de como obter mais. Imagino que em vez de usarmos itens com propriedade animal organ (Q24060765) da Wikidata a gente use itens tageados com a TA2 ID (P7173) ou semelhante (essa parece ter algo como mais de 7 mil referencias).

Da escolha de idiomas

Os 6 idiomas oficiais da ONu

Por uma questão de compatibilidade optei por já deixar a query com os seis idiomas da ONU. Esses estão em ISO 2 (2 letras). Todos os demais dão ISO 3.

Latim e esperando

Optei por procurar deixar tanto Latim como Esperanto. O motivo é que ambas as línguas poderiam ser usadas como línguas auxiliares internacionais.

Vale lembrar que o +v_fipat_ta98_latin (ainda que esteja sendo substituído pelo +v_fipat_ta2) é perfeito para ser usado em vez do campo label da wikipedia!!! (Esse tipo de lógica pode ser muito útil para outros campos, por isso eu pessoalmente não considero inútil ter adicionado algumas outras enciclopédias focadas em certos idiomas: talvez elas possam ser úteis caso usuários finais queriam usar vocabulários mais controlados em vez do label da Wikipedia (ou pelo menos comparar para ver qualidade).

Do especial zelo com quais vocabulários usarmos para fazer os relacionamentos

Do nome do vocabulário

Usamos como base um que é sugerido como "item modelo" para heart (Q1072). Então foram algumas horas tanto olhando item por item dessas potenciais relações, como procurando imaginar quais HXL atributos de vocabulário usar. Mas em geral qualquer entidade que não fosse explicitamente internacional foi prefixada com +v_CC_ onde CC é um código ISO 2 de países/territórios. As entidades que eram explicitamente internacionais prefixei com nome da própria entidade (nenhuma delas tem menos do que 3 caracteres, logo não haveria conflito com códigos de países/territórios)

Da escolha de entidades

Nesse momento inicial apenas não coloquei as que ou eram wiki para crianças, wikis de jogos, uma wiki de domínio .cat, e uma ontologias alemã cujo site estava offline.

Da Query

O trabalho extra de fazer essa query é por provavelmente servir de base para outras queries relacionadas na área de saúde.

Provavelmente quando formos ver questões relacionadas a armamento e questões jurídicas as ontologias sejam diferentes.

Em anexo tem a planilha salva como CSV.

Link para esta query

# Retorna lista de itens que são parte de animal organ (Q24060765)
# Item de referencia: heart (Q1072) https://www.wikidata.org/wiki/Q1072
#
# Idiomas escolhidos:
#  1) Idiomas oficiais da ONU, por ordem alfabética do código de idioma iso639-2
#  2) Idiomas mais falados na CPLP (vide https://cplp.etica.ai/) mais Esperanto e Latim, por ordem alfabética código de idioma iso639-3
#
# TODO: a query ainda esta retornando poucos valores. O ideal seria o 
#       mais próximo de tudo que poderia ser citado relacionado a corpo humano
#       mesmo que tenhamos que quebrar em mais de um dataset (fititnt, 2020-12-17 08:38 BRT)
# TODO: a query deveria retornar apenas o valor de texto (ex: Q1072), mas esta retornando URL (fititnt, 2020-12-17 08:38 BRT)
# NOTE: based on Q1072, some IDs are not added on this example (at least not yet): P5019, P1296, P1256, P6573, P6900, P1245, P3417, Q1072, P7827
SELECT
    ?item
    # ?id
    # ?item_code_v_wikidata
    ?item_code_v_au_aev
    ?item_code_v_babelnet
    ?item_code_v_cz_nkp
    ?item_code_v_cz_psh
    ?item_code_v_de_brendaenzymes
    ?item_code_v_de_gnd
    ?item_code_v_fipat_ta2
    ?item_code_v_fipat_ta98_id
    ?item_code_v_fipat_ta98_latin
    ?item_code_v_fi_yso
    ?item_code_v_freebase
    ?item_code_v_fr_pactols
    ?item_code_v_fr_universalis
    ?item_code_v_it_bncf
    ?item_code_v_it_treccani
    ?item_code_v_jp_ndl
    ?item_code_v_kbpedia
    ?item_code_v_no_snl
    ?item_code_v_ontobee_xao
    ?item_code_v_ru_greo
    ?item_code_v_uberon
    ?item_code_v_uk_britannica
    ?item_code_v_us_jstor
    ?item_code_v_us_mag
    ?item_code_v_us_mesh
    ?item_code_v_us_umls_cui
    ?item_name_v_wikidata_i_ar
    ?item_name_v_wikidata_i_en
    ?item_name_v_wikidata_i_es
    ?item_name_v_wikidata_i_fr
    ?item_name_v_wikidata_i_ru
    ?item_name_v_wikidata_i_zh
    ?item_name_v_wikidata_i_epo
    ?item_name_v_wikidata_i_lat
    ?item_name_v_wikidata_i_por
    ?item_name_v_wikidata_i_tet
    ?item_name_v_wikidata_i_yue
WHERE
{
    # ?item wdt:P279 wd:Q25449120 . # human organ (Q25449120), 5 resultados em 2020 (pouco)
    ?item wdt:P279 wd:Q24060765 . # animal organ (Q24060765), 34 resuldados em 2020 (aidna pouco)
    
    # Australian Educational Vocabulary ID, vocabulary.curriculum.edu.au
    OPTIONAL { ?item wdt:P7033 ?item_code_v_au_aev } .

    # BabelNet, babelnet.org
    OPTIONAL { ?item wdt:P2581 ?item_code_v_babelnet } .

    # National Library of the Czech Republic, nkp.cz
    OPTIONAL { ?item wdt:P691 ?item_code_v_cz_nkp } .

    # Czech Technical Library ID, psh.techlib.cz
    OPTIONAL { ?item wdt:P1051 ?item_code_v_cz_psh } .

    # Brenda Tissue Ontology, www.brenda-enzymes.org
    OPTIONAL { ?item wdt:P5501 ?item_code_v_de_brendaenzymes } .

    # German National Library ID, dnb.de
    OPTIONAL { ?item wdt:P227 ?item_code_v_de_gnd } .

    # Terminologia Anatomica second edition (2019) identifier, ta2viewer.openanatomy.org
    OPTIONAL { ?item wdt:P7173 ?item_code_v_fipat_ta2 } .

    # Terminologia Anatomica 98 ID, unifr.ch/ifaa/
    OPTIONAL { ?item wdt:P1323 ?item_code_v_fipat_ta98_id } .

    # Terminologia Anatomica 98 Latin preferred term, unifr.ch/ifaa/
    OPTIONAL { ?item wdt:P3982 ?item_code_v_fipat_ta98_latin } .

    # General Finnish Ontology YSO, yso.fi
    OPTIONAL { ?item wdt:P2347 ?item_code_v_fi_yso } .

    # Freebase ID (still accessible via Google)
    OPTIONAL { ?item wdt:P646 ?item_code_v_freebase } .

    # Encyclopædia Universalis ID, universalis.fr
    OPTIONAL { ?item wdt:P3219 ?item_code_v_fr_universalis } .

    # PACTOLS thesaurus ID, pactols.frantiq.fr
    OPTIONAL { ?item wdt:P4212 ?item_code_v_fr_pactols } .

    # National Central Library of Florence, bncf.firenze.sbn.it
    OPTIONAL { ?item wdt:P508 ?item_code_v_it_bncf } .

    # Enciclopedia Italiana Treccani, treccani.it
    OPTIONAL { ?item wdt:P3365 ?item_code_v_it_treccani } .

    # National Diet Library of Japan, ndl.go.jp
    OPTIONAL { ?item wdt:P349 ?item_code_v_jp_ndl } .

    # KBpedia knowledge graph, kbpedia.org
    OPTIONAL { ?item wdt:P8408 ?item_code_v_kbpedia } .

    # Store norske leksikon ID, snl.no
    OPTIONAL { ?item wdt:P4342 ?item_code_v_no_snl } .

    # Xenopus Anatomy Ontology, ontobee.org/ontology/XAO
    OPTIONAL { ?item wdt:P4495 ?item_code_v_ontobee_xao } .

    # Great Russian Encyclopedia Online, bigenc.ru
    OPTIONAL { ?item wdt:P2924 ?item_code_v_ru_greo } .

    # Uberon, uberon.org
    OPTIONAL { ?item wdt:P1554 ?item_code_v_uberon } .

    # Encyclopædia Britannica Online, britannica.com
    OPTIONAL { ?item wdt:P1417 ?item_code_v_uk_britannica } .

    # Medical JSTOR, jstor.org
    OPTIONAL { ?item wdt:P3827 ?item_code_v_us_jstor } .

    # Microsoft Academic Graph (MAG)
    OPTIONAL { ?item wdt:P6366 ?item_code_v_us_mag } .

    # Medical Subject Headings (MeSH), nlm.nih.gov/mesh/
    OPTIONAL { ?item wdt:P486 ?item_code_v_us_mesh } .

    # NLM Unified Medical Language System (UMLS) controlled biomedical vocabulary unique identifier, nlm.nih.gov/research/umls
    OPTIONAL { ?item wdt:P2892 ?item_code_v_us_umls_cui } .

    # Item, by label
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_ar filter (lang(?item_name_v_wikidata_i_ar) = "ar") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_en filter (lang(?item_name_v_wikidata_i_en) = "en") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_es filter (lang(?item_name_v_wikidata_i_es) = "es") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_fr filter (lang(?item_name_v_wikidata_i_fr) = "fr") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_ru filter (lang(?item_name_v_wikidata_i_ru) = "ru") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_zh filter (lang(?item_name_v_wikidata_i_zh) = "zh") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_epo filter (lang(?item_name_v_wikidata_i_epo) = "eo") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_lat filter (lang(?item_name_v_wikidata_i_lat) = "la") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_por filter (lang(?item_name_v_wikidata_i_por) = "pt") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_tet filter (lang(?item_name_v_wikidata_i_tet) = "tet") } .
    OPTIONAL { ?item rdfs:label ?item_name_v_wikidata_i_yue filter (lang(?item_name_v_wikidata_i_yue) = "yue") } .
}

HXL_CPLP-FOD_medicinae-legalis - HXL_CPLP-FOD_medicinae-legalis_humana-corpus.zip

fititnt added a commit to EticaAI/EticaAI-linguistic-datasets-pt that referenced this issue Dec 18, 2020
@fititnt fititnt changed the title Discussão geral de HXL na área de Medicina Legal (EN: Medical jurisprudence) HXL_CPLP-FOD_medicinae-legalis: Discussão geral de HXL na área de Medicina Legal (EN: Medical jurisprudence) Sep 5, 2021
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
fod-cplp Conjunto de dados que consideramos essencial em toda CPLP taxonomia https://en.wikipedia.org/wiki/Taxonomy_(general) vocab
Projects
None yet
Development

No branches or pull requests

1 participant