# Geração

## Pré-processamento


Primeiramente, criamos o objeto dicionário com os seguintes parâmetros:

- xmlMesh: parâmetro obrigatório em que será posto o caminho para o xml que deseja ser utilizado;
- wordEmbedding: parâmetro obrigatório em que será posto o caminho para o Word Embedding que deseja ser utilizado;
- Idioma: selecionar o idioma desejado, como "por" para português e "en" para inglês;
- porcent_diagnosis: parâmetro opcional em que será posto o mínimo de similaridade que os termos – de qualifier diagnosis – devem ter com o original,  por padrão é iniciado com 9.0;
- porcent_anatomy: parâmetro opcional em que será posto o mínimo de similaridade que os termos – de qualifier anatomy – devem ter com o original,  por padrão é iniciado com 9.0;
- porcent_pharmacology: parâmetro opcional em que será posto o mínimo de similaridade que os termos – de qualifier pharmacology – devem ter com o original,  por padrão é iniciado com 9.3;
- porcent_other: parâmetro opcional em que será posto o mínimo de similaridade que os termos – de qualifier other – devem ter com o original – por padrão é iniciado com 9.0;
- \_topn: quantidade de termos o Word Embedding irá utilizar como termos similares;
- printTime: parâmetro opcional em que se escolhe se deseja saber o tempo de execução das funções com verdadeiro ou falso, por padrão é iniciado com falso. 

In [1]:
from Dicionarios import Dicionarios

Dicionario = Dicionarios(
        xmlMesh='pordesc2018.xml.gz', 
        wordEmbedding='health_w2v_unigram_50.bin',
        idioma = "por",
        porcent_methods = 0.89,
        porcent_diagnosis = 0.93,
        porcent_pharmacology=0.96,
        porcent_anatomy = 0.95,
        porcent_other=0.94, 
        _topn = 10,
        printTime = False,
        maisSimilar = True,
        similaridadeDefinicao = False
    
)

  return f(*args, **kwds)


# Execução


Inicia-se com a função _run()_, caso tenha iniciado _printTime_ com True, então deverá utilizar quatro variáveis para que obtenha, respectivamente, o tempo de obtenção do qualifier, adicionar o termo no indice reverso, selecionar os termos no dicionario e adicionar os termos no dicionário.

Após isso, com a função _salvaIndiceReverso()_ podemos salvar o indice reverso em um arquivo, o qual o caminho deste deve ser passado por parâmetro. A função _salvaDictMesh()_ salva o dicionário Mesh em um arquivo que também deve ser passado por parâmetro o seu caminho.

## Criar o dicionário

In [2]:
#qualifier, add_indice, time_seleciona_TermosMesh, time_add_Mesh = Dicionario.run()
Dicionario.run()
Dicionario.salvaIndiceReverso('indiceReversoPT.dict.gz')
Dicionario.salvaDictMesh('dictMesh_.dict.gz')

#print(qualifier, add_indice, time_seleciona_TermosMesh, time_add_Mesh)

## Criar tabela com os thresholds

In [2]:
import pandas as pd

dictPorcentagens = Dicionario.testaThresh()
Dicionario.salvaIndiceReverso('indiceReversoPT.dict.gz')
Dicionario.salvaDictMesh('dictMesh_.dict.gz')

df = pd.DataFrame(dictPorcentagens).T

df.to_csv('porcentagens_thresholds_MAIS_SIMILAR.csv.gz', compression='gzip')
#df.to_csv('porcentagens_thresholds_ULTIMO.csv.gz', compression='gzip')
#df.to_csv('porcentagens_thresholds_DESC.csv.gz', compression='gzip')


## Salvar/Carregar o dicionário e o indice reverso

Com a função carrega_Dicionario() é possível utilizar um dicionário já armazenado previamente.

A função carrega_IndiceReverso() é semelhante, mas nesta temos o armazenamento do Indice Reverso.

In [4]:
Dicionario.salvaIndiceReverso('indiceReversoPT.dict.gz')
Dicionario.salvaDictMesh('dictMesh_.dict.gz')

In [5]:
Dicionario.carrega_Dicionario('dictMesh_.dict.gz')
Dicionario.carrega_IndiceReverso('indiceReversoPT.dict.gz')

True

É possível visualizar as informações do Índice Rerverso com o comando abaixo:

- Para acessar o Índice Reverso do termo somente é necessário pô-lo.
- " \_i" ao fim dos termos que foram adicionados e que não estavam por padrão no dicionário.

In [6]:
Dicionario.indiceReverso

{'calcimicina': {'ID': 'D000001', 'similaridade': 1},
 'calcimicina _i': {'ID': 'D000001', 'similaridade': 1},
 'temefós': {'ID': 'D000002', 'similaridade': 1},
 'temefos _i': {'ID': 'D000002', 'similaridade': 1},
 'matadouros': {'ID': 'D000003', 'similaridade': 1},
 'abatedouros': {'ID': 'D000003', 'similaridade': 1},
 'matadouro': {'ID': 'D000003', 'similaridade': 1},
 'matadouros _i': {'ID': 'D000003', 'similaridade': 1},
 'abreviaturas como assunto': {'ID': 'D000004', 'similaridade': 1},
 'acrônimos como assunto': {'ID': 'D000004', 'similaridade': 1},
 'abreviatura dos medicamentos': {'ID': 'D000004', 'similaridade': 1},
 'abreviaturas como assunto _i': {'ID': 'D000004', 'similaridade': 1},
 'abdome': {'ID': 'D000005', 'similaridade': 1},
 'abdômen': {'ID': 'D000005', 'similaridade': 1},
 'abdome _i': {'ID': 'D000005', 'similaridade': 1},
 'abdomen _i': {'ID': 'D000005', 'similaridade': 0.9887869358062744},
 'abome _i': {'ID': 'D000005', 'similaridade': 0.9457325339317322},
 'abd _

In [7]:
import gzip, pickle


with gzip.open('dictMesh_.dict.gz', 'rb') as fp:
    dictMesh = pickle.load(fp)
    fp.close()
    
print(dictMesh['D000005'])

{'ID': 'D000005', 'name': 'abdome[abdomen]', 'scope': 'região do corpo que se localiza entre o tórax e a pelve.', 'terms': ['abdômen', 'abdome', " <input type='hidden' name='ID' value='D000005'/> "], 'qualifier': 'anatomy & histology'}


É possível visualizar as informações do Dicionário com o comando abaixo:

- Para acessar o termo desejado é necessário por seu ID.

In [8]:
Dicionario.indiceReverso['perna _i']

Dicionario.dictMesh['D005850']

{'ID': 'D005850',
 'name': 'odontologia geriátrica[geriatric dentistry]',
 'qualifier': 'methods',
 'scope': 'ramo de odontologia voltado para os problemas odontológicos das pessoas mais idosas.',
 'terms': ['odontologia geriátrica',
  'odontogeriatria',
  " <input type='hidden' name='ID' value='D005850'/> "]}

In [9]:
originais = 0
expandidos = 0
for termo in Dicionario.indiceReverso:
    if("_i" in termo):
        expandidos +=1
    else:
        originais += 1

print(expandidos, originais)

40066 80973


In [10]:
len(Dicionario.dictMesh)

28939