obtain nome cientifico for diseases (along with a type and a description) from a SUS database (classificação internacional de doenças traduzida para o português):

http://www.datasus.gov.br/cid10/V2008/cid10.htm

estrategia para preenchimento de tabelas:

1. baixar CID do URL acima

2. classificação A00 até Q99 --> doenças
    1. subcategorias.descricao --> nome_cientifico_doenca
    2. categorias.descricao --> descricao_doenca
    3. grupos.descricao --> tipo_doenca

3. classificação R00 até R99 --> sintomas
    1. subcategorias.descricao --> nome_cientifico_sintoma
    2. categorias.descricao --> descricao_sintoma
    3. grupos.descricao --> tipo_sintoma



In [1]:
from collections import Counter

In [2]:
!pwd

/home/giuliano/mc536/geracao_de_tuplas


In [3]:
!ls CID

CID-10-CAPITULOS.CSV   CID-10-GRUPOS.CSV	 CID-O-CATEGORIAS.CSV
CID-10-CATEGORIAS.CSV  CID-10-SUBCATEGORIAS.CSV  CID-O-GRUPOS.CSV


In [4]:
def gobble(filename):
    """reads a file into a string"""
    with open(filename) as f:
        return f.read()

In [5]:
def read_csv(csv, separator=',', header=True):
    """reads string of comma-separated values into a list of dictionaries (one per line).
    csv : string
    separator : string
    header : boolean specifying whether the first line is a header with column names
    """
    lines = csv.split('\n')
    values = []
    names = lines[0].split(separator) # non empty header names
    if header != True:
        # names are 0, 1, ...
        names = [i for i in range(len(names))]
    for l in (lines[1:] if header == True else lines):
        if l: # for each non empty line
            line_values = l.split(separator)
            values.append(dict({n: lv for n, lv in zip(names, line_values)}))
    return values

In [6]:
cid_capitulos = gobble('./CID/CID-10-CAPITULOS.CSV')
cid_categorias = gobble('./CID/CID-10-CATEGORIAS.CSV')
cid_grupos = gobble('./CID/CID-10-GRUPOS.CSV')
cid_subcategorias = gobble('./CID/CID-10-SUBCATEGORIAS.CSV')

In [7]:
capitulos = read_csv(cid_capitulos, separator=';')
categorias = read_csv(cid_categorias, separator=';')
subcategorias = read_csv(cid_subcategorias, separator=';')
grupos = read_csv(cid_grupos, separator=';')

In [8]:
cid_capitulos.split('\n')

['NUMCAP;CATINIC;CATFIM;DESCRICAO;DESCRABREV;',
 '1;A00;B99;Capítulo I - Algumas doenças infecciosas e parasitárias;I.   Algumas doenças infecciosas e parasitárias;',
 '2;C00;D48;Capítulo II - Neoplasias [tumores];II.  Neoplasias (tumores);',
 '3;D50;D89;Capítulo III  - Doenças do sangue e dos órgãos hematopoéticos e alguns transtornos imunitários;III. Doenças sangue órgãos hemat e transt imunitár;',
 '4;E00;E90;Capítulo IV - Doenças endócrinas, nutricionais e metabólicas;IV.  Doenças endócrinas nutricionais e metabólicas;',
 '5;F00;F99;Capítulo V - Transtornos mentais e comportamentais;V.   Transtornos mentais e comportamentais;',
 '6;G00;G99;Capítulo VI - Doenças do sistema nervoso;VI.  Doenças do sistema nervoso;',
 '7;H00;H59;Capítulo VII - Doenças do olho e anexos;VII. Doenças do olho e anexos;',
 '8;H60;H95;Capítulo VIII - Doenças do ouvido e da apófise mastóide;VIII.Doenças do ouvido e da apófise mastóide;',
 '9;I00;I99;Capítulo IX - Doenças do aparelho circulatório;IX.  Doenças

In [9]:
doencas = []
for row in subcategorias:
    if row['SUBCAT'] >= 'R': # got all diseases
        break
    d = {}
    # categorias begin with A00
    d['nome_cientifico'] = row['DESCRICAO']
    for i, categorias_row in enumerate(categorias):
        if categorias_row['CAT'] > row['SUBCAT']: # found one past the correct category
            break
    d['descricao'] = categorias[i-1]['DESCRICAO']
    for i, grupos_row in enumerate(grupos):
        if grupos_row['CATINIC'] > row['SUBCAT']: # found one past the correct category
            break
    d['tipo'] = grupos[i-1]['DESCRICAO']
    doencas.append(d)

In [10]:
doencas[-1]

{'descricao': 'Outras anomalias dos cromossomos, não classificadas em outra parte',
 'nome_cientifico': 'Anomalia cromossômica não especificada',
 'tipo': 'Anomalias cromossômicas não classificadas em outra parte'}

In [11]:
sintomas = []
for row in subcategorias:
    if row['SUBCAT'] >= 'R' and row['SUBCAT'] < 'S':
        s = {}
        s['nome_cientifico'] = row['DESCRICAO']
        for i, categorias_row in enumerate(categorias):
            if categorias_row['CAT'] > row['SUBCAT']: # found one past the correct category
                break
        s['descricao'] = categorias[i-1]['DESCRICAO']
        for i, grupos_row in enumerate(grupos):
            if grupos_row['CATINIC'] > row['SUBCAT']: # found one past the correct category
                break
        s['tipo'] = grupos[i-1]['DESCRICAO']
        sintomas.append(s)
        

In [12]:
sintomas[-1]

{'descricao': 'Outras causas mal definidas e as não especificadas de mortalidade',
 'nome_cientifico': 'Outras causas mal definidas e as não especificadas de mortalidade',
 'tipo': 'Causas mal definidas e desconhecidas de mortalidade'}

tem uma lista de medicamentos aqui

https://consultaremedios.com.br/medicamentos

In [13]:
meds = gobble('./valor_nome_cientifico_medicamentos_comlaboratorioemlinhaspares').split('\n')

In [14]:
time_periods = ['days', 'weeks', 'months', 'years']

In [15]:
from random import randint, randrange, choice, choices, sample, shuffle

In [16]:
tratamentos = []
for i in range(0,len(meds),2): # every other line is a medicine
    m = {}
    m['nome'] = meds[i]
    m['duracao'] = str(randint(2,100)) + ' ' + choice(time_periods)
    m['custo'] = str(randint(1, 1e9)) + '.' + str(randint(0,9)) + str(randint(0,9))
    tratamentos.append(m)

In [17]:
# we only have medication - no therapy for now
medicamentos = []
for tr in tratamentos:
    m = {}
    m['nome'] = tr['nome']
    m['registro_governo'] = str(randint(1, 1e9))
    m['formula'] = 'C' + str(randint(1,500)) + 'H' + str(randint(1,500)) + 'O' + str(randint(1,500))
    m['dose'] = str(randint(1,5000)) + ' mg'
    medicamentos.append(m)

In [18]:
tratamentos[-1], medicamentos[-1]

({'custo': '107111607.90', 'duracao': '95 years', 'nome': 'Zyxem'},
 {'dose': '537 mg',
  'formula': 'C329H21O192',
  'nome': 'Zyxem',
  'registro_governo': '361272569'})

Generate people

In [19]:
import re

In [20]:
arq_nomes = gobble('./in_nomes.txt').split('\n')

In [21]:
# 100 nomes e 70 sobrenomes no arquivo
nomes, sobrenomes = arq_nomes[1:101], arq_nomes[102:]

In [22]:
cpfs = sample(range(1,int(1e9)), k=7600) # without replacement

In [23]:
def gen_digits(howmany):
    return ''.join(map(str, choices(range(0,10), k=howmany)))
def extract_date(dt):
    """returns (year, month, day) from a date of format 'yyyy-mm-dd'. assumes correct format"""
    match = re.fullmatch(r'(\d{4})-(\d{2})-(\d{2})', dt)
    return(int(match[1]), int(match[2]), int(match[3]))
def make_date(y, m, d):
    return '%04i-%02i-%02i' % (y,m,d)
def gen_date(beginning, end):
    """generates a date between yyyy-mm-dd of beginning and yyyy-mm-dd of end. does no validation! caveat emptor"""
    y1, m1, d1 = extract_date(beginning)
    y2, m2, d2 = extract_date(end)
    ynew, mnew, dnew = randint(y1, y2), randint(m1, m2), randint(d1, d2)
    return make_date(ynew, mnew, dnew)

In [24]:
pessoas = []
for i in range(7600):
    p = {}
    p['cpf'] = cpfs[i]
    p['nome'] = choice(nomes) + ' ' + choice(sobrenomes)
    p['endereco'] = 'Rua ' + choice(nomes) + ' ' + choice(sobrenomes) + ', ' + str(randint(1, 10000))
    p['telefone'] = '(' + gen_digits(2) + ') ' + gen_digits(4) + '-' + gen_digits(4)
    p['data_nascimento'] = gen_date('1900-01-01', '2000-12-25')
    pessoas.append(p)
    

In [25]:
pessoas[-1]

{'cpf': 22681934,
 'data_nascimento': '1993-06-17',
 'endereco': 'Rua Cauã da Bandeira, 6033',
 'nome': 'Benjamin Moreira',
 'telefone': '(10) 9933-6294'}

In [26]:
paciente_cpfs = [person['cpf'] for person in sample(pessoas, 7000)]

In [27]:
planos_de_saude = ['null', 'amil', 'unimed', 'euthanatos', 'dolce et decorum', 
                   'cruz azul', 'la petite mort', 'impostus et mortis']

In [28]:
tipos_sanguineos = ['null', 
                    'AB+', 'AB-',
                    'A+', 'A-',
                    'B+', 'B-']

In [29]:
pacientes = []
for cpf in paciente_cpfs:
    p = {}
    p['cpf'] = cpf
    p['tipo_sanguineo'] = choice(tipos_sanguineos)
    p['plano_saude'] = choice(planos_de_saude)
    pacientes.append(p)

In [30]:
departamentos = read_csv(gobble('./valores_departamento_nome_funcao'), separator=';')

In [31]:
departamentos

[{'funcao': 'Manutenção e compra de equipamentos hospitalares',
  'nome': 'MANUTENCAO'},
 {'funcao': 'Auxiliar em funções básicas do hospital, como aplicação de anestesias e injeção de soros',
  'nome': 'ENFERMARIA'},
 {'funcao': 'Tratar e diagnosticar pacientes com câncer', 'nome': 'ONCOLOGIA'},
 {'funcao': 'Cirurgias, operações e auxílio de gestantes',
  'nome': 'OBSTETRIA'},
 {'funcao': 'Tratamento exclusiva de crianças', 'nome': 'PEDIATRIA'},
 {'funcao': 'Tratamento e diagnóstico de doenças no sistema nervoso',
  'nome': 'NEUROLOGIA'},
 {'funcao': 'Tratamento e diagnóstico de doenças nos ossos',
  'nome': 'ORTOPEDIA'},
 {'funcao': 'Consultas psiquiátricas e receitas de medicamentos para pacientes',
  'nome': 'PSIQUIATRIA'}]

In [32]:
funcionarios_cpfs = [person['cpf'] for person in sample(pessoas, 600)]

In [33]:
funcionario_formacoes = ['ensino fundamental incompleto',
                         'ensino fundamental',
                         'ensino médio incompleto',
                         'ensino médio',
                         'ensino superior incompleto',
                         'ensino superior',
                         'pós graduação']

In [34]:
funcionarios = []
for cpf in funcionarios_cpfs:
    f = {}
    f['cpf'] = cpf
    f['departamento_nome'] = choice(departamentos)['nome']
    f['salario'] = str(randint(1000, 1e9)) + '.' + gen_digits(2)
    f['data_contratacao'] = gen_date(beginning='2001-01-01',
                                     end='2010-12-25')
    f['formacao'] = choice(funcionario_formacoes)
    funcionarios.append(f)

In [35]:
funcionarios[-1]

{'cpf': 900032008,
 'data_contratacao': '2007-11-17',
 'departamento_nome': 'OBSTETRIA',
 'formacao': 'ensino médio incompleto',
 'salario': '910254939.46'}

In [36]:
tecnicos = [{'cpf': func['cpf']} for func in sample(funcionarios, 148)]

In [37]:
medico_especialidades = ['Cirurgia Geral',
                         'Micro-Cirurgia',
                         'Diagnóstico',
                         'Oncologia',
                         'Cardiologia',
                         'Endocrinologia']

In [38]:
medico_cpfs = [func['cpf'] for func in sample(funcionarios, 140)]

In [39]:
medicos = []
for cpf in medico_cpfs:
    m = {}
    m['cpf'] = cpf
    m['crm'] = str(randint(1, 1e8))
    m['especialidade'] = choice(medico_especialidades)
    medicos.append(m)

In [40]:
enfermeiro_especialidades = ['Geral',
                             'Administração de medicamentos',
                             'Anestesia']

In [41]:
enfermeiro_cpfs = [func['cpf'] for func in sample(funcionarios, 156)]

In [42]:
enfermeiros = []
for cpf in enfermeiro_cpfs:
    e = {}
    e['cpf'] = cpf
    e['especialidade'] = choice(enfermeiro_especialidades)
    enfermeiros.append(e)

In [43]:
gerente_cpfs = [func['cpf'] for func in sample(funcionarios, 13)]

In [44]:
gerentes = []
for cpf in gerente_cpfs:
    g = {}
    g['cpf'] = cpf
    g['nome_departamento_gerenciado'] = 'null' # maybe we shouldn't use these: redundancy!
    gerentes.append(g)

In [45]:
dep_gerentes = [ger['cpf'] for ger in sample(gerentes, 9)]

In [46]:
for i, d in enumerate(departamentos):
    d['CPF_gerente'] = dep_gerentes[i]

In [47]:
departamentos

[{'CPF_gerente': 382448497,
  'funcao': 'Manutenção e compra de equipamentos hospitalares',
  'nome': 'MANUTENCAO'},
 {'CPF_gerente': 238406487,
  'funcao': 'Auxiliar em funções básicas do hospital, como aplicação de anestesias e injeção de soros',
  'nome': 'ENFERMARIA'},
 {'CPF_gerente': 221443036,
  'funcao': 'Tratar e diagnosticar pacientes com câncer',
  'nome': 'ONCOLOGIA'},
 {'CPF_gerente': 688091904,
  'funcao': 'Cirurgias, operações e auxílio de gestantes',
  'nome': 'OBSTETRIA'},
 {'CPF_gerente': 814130867,
  'funcao': 'Tratamento exclusiva de crianças',
  'nome': 'PEDIATRIA'},
 {'CPF_gerente': 859522466,
  'funcao': 'Tratamento e diagnóstico de doenças no sistema nervoso',
  'nome': 'NEUROLOGIA'},
 {'CPF_gerente': 963680548,
  'funcao': 'Tratamento e diagnóstico de doenças nos ossos',
  'nome': 'ORTOPEDIA'},
 {'CPF_gerente': 130700337,
  'funcao': 'Consultas psiquiátricas e receitas de medicamentos para pacientes',
  'nome': 'PSIQUIATRIA'}]

In [48]:
tratamentos

[{'custo': '165783510.83', 'duracao': '29 months', 'nome': '20 bi'},
 {'custo': '892986020.74', 'duracao': '24 years', 'nome': '4G Folic'},
 {'custo': '337558364.55', 'duracao': '32 days', 'nome': '8Y'},
 {'custo': '561731638.89',
  'duracao': '60 days',
  'nome': 'Acetonido de Triancinolona + Sulfato de Neomicina + Gramicidina + Nistatina'},
 {'custo': '752887480.16', 'duracao': '72 months', 'nome': 'A Curitybina'},
 {'custo': '279734197.29',
  'duracao': '42 months',
  'nome': 'A Saúde da Mulher'},
 {'custo': '194377790.07', 'duracao': '48 days', 'nome': 'AAS'},
 {'custo': '969613831.89', 'duracao': '87 days', 'nome': 'AAS Infantil'},
 {'custo': '658761136.13', 'duracao': '94 years', 'nome': 'AAS Protect'},
 {'custo': '600215197.06', 'duracao': '70 months', 'nome': 'ABC'},
 {'custo': '110149432.40', 'duracao': '17 days', 'nome': 'AFTJet'},
 {'custo': '34684677.52', 'duracao': '14 weeks', 'nome': 'AS-Med'},
 {'custo': '161726738.04', 'duracao': '61 days', 'nome': 'Abcalcium B12'},
 {'

In [49]:
contra_indicacoes = read_csv(gobble('./relacao_contra_indicacao'))

In [50]:
contra_indicacoes

[{'nome': 'Pressão Alta'},
 {'nome': 'Gravidez'},
 {'nome': 'Diabetes'},
 {'nome': 'Alergia a glútem'},
 {'nome': 'AIDS'},
 {'nome': 'Idade avançada'},
 {'nome': 'Câncer'},
 {'nome': 'Pressão baixa'},
 {'nome': 'Alergia a amendoim'},
 {'nome': 'Alergia a água'}]

In [51]:
from itertools import product

In [52]:
efeitos_colaterais = sample(
        [{'nome_tratamento': t['nome'], 'nome_contra_indicacao': ci['nome']}
         for t, ci in product(tratamentos, contra_indicacoes)],
    10)

In [53]:
efeitos_colaterais

[{'nome_contra_indicacao': 'Alergia a água', 'nome_tratamento': 'Fortevit'},
 {'nome_contra_indicacao': 'Pressão Alta', 'nome_tratamento': 'Spirulina'},
 {'nome_contra_indicacao': 'Pressão Alta',
  'nome_tratamento': 'Vitergan Master'},
 {'nome_contra_indicacao': 'Gravidez', 'nome_tratamento': 'Ringer'},
 {'nome_contra_indicacao': 'Idade avançada',
  'nome_tratamento': 'Sulfametoxazol + Trimetoprima'},
 {'nome_contra_indicacao': 'Câncer', 'nome_tratamento': 'Ekson'},
 {'nome_contra_indicacao': 'Alergia a glútem',
  'nome_tratamento': 'Cloridrato de Ambroxol'},
 {'nome_contra_indicacao': 'AIDS', 'nome_tratamento': 'Dejavú'},
 {'nome_contra_indicacao': 'Gravidez',
  'nome_tratamento': 'Gama Anti-Hepatite B Grifols'},
 {'nome_contra_indicacao': 'Diabetes',
  'nome_tratamento': 'Esomeprazol Sódico'}]

In [56]:
tratamento_trata_doenca = sample(
    [{'nome_tratamento': t['nome'], 'nome_cientifico_doenca': d['nome_cientifico']} for t, d in product(tratamentos[:100], doencas[:100])]
,1375)

In [57]:
tratamento_trata_doenca

[{'nome_cientifico_doenca': 'Tuberculose não especificada das vias respiratórias, com confirmação bacteriológica e histológica',
  'nome_tratamento': 'Acetato de Ciproterona + Etinilestradiol'},
 {'nome_cientifico_doenca': 'Tuberculose miliar não especificada',
  'nome_tratamento': 'Acetato de Dexametasona'},
 {'nome_cientifico_doenca': 'Infecção por Escherichia coli enteropatogênica',
  'nome_tratamento': 'Acetato de Noretisterona + Estradiol'},
 {'nome_cientifico_doenca': 'Tuberculose de pele e do tecido celular subcutâneo',
  'nome_tratamento': 'Abcler'},
 {'nome_cientifico_doenca': 'Meningite tuberculosa',
  'nome_tratamento': 'Acetilcisteína'},
 {'nome_cientifico_doenca': 'Tuberculose da laringe, da traquéia e dos brônquios, com confirmação bacteriológica e histológica',
  'nome_tratamento': 'Acebrofilina'},
 {'nome_cientifico_doenca': 'Tuberculose da laringe, da traquéia e dos brônquios, sem menção de confirmação bacteriológica ou histológica',
  'nome_tratamento': 'Aceina'},
 {'

In [59]:
doenca_exibe_sintoma = sample(
    [{'doenca_nome_cientifico': d['nome_cientifico'], 'sintoma_nome_cientifico': s['nome_cientifico']} for d, s in product(doencas[:100], sintomas[:100])]
,566)

In [60]:
doenca_exibe_sintoma

[{'doenca_nome_cientifico': 'Intoxicação alimentar bacteriana não especificada',
  'sintoma_nome_cientifico': 'Outras anormalidades e as não especificadas do batimento cardíaco'},
 {'doenca_nome_cientifico': 'Tuberculose de outros órgãos especificados',
  'sintoma_nome_cientifico': 'Outros sintomas e sinais especificados relativos ao aparelho digestivo e ao abdome'},
 {'doenca_nome_cientifico': 'Infecções localizadas por salmonela',
  'sintoma_nome_cientifico': 'Tenesmo vesical'},
 {'doenca_nome_cientifico': 'Outras infecções intestinais por Escherichia coli',
  'sintoma_nome_cientifico': 'Equimoses espontâneas'},
 {'doenca_nome_cientifico': 'Tuberculose não especificada das vias respiratórias, com confirmação bacteriológica e histológica',
  'sintoma_nome_cientifico': 'Tenesmo vesical'},
 {'doenca_nome_cientifico': 'Infecção por Escherichia coli enterotoxigênica',
  'sintoma_nome_cientifico': 'Náusea e vômitos'},
 {'doenca_nome_cientifico': 'Infecção por Escherichia coli enterotoxigên

In [61]:
exames = read_csv(gobble('./relacao_exame'))

In [62]:
exames

[{'tipo': 'ELETROCARDIOGRAMA'},
 {'tipo': 'HEMODIALISE'},
 {'tipo': 'HEMOGRAMA'},
 {'tipo': 'RADIOGRAFIA'},
 {'tipo': 'RESSONANCIA'},
 {'tipo': 'TOMOGRAFIA'}]

In [71]:
tipos_equipamento = [v['tipo'] for v in read_csv(gobble('./valores_tipo_equipamento'))]

In [72]:
tipos_equipamento

['Ressonância Magnética',
 'Eletrocardiograma',
 'Tomografia',
 'Monitor Cardíaco',
 'Tomografia']

In [75]:
equipamentos = []
for i in range(100):
    e = {}
    e['numero_patrimonio'] = str(randint(1, 1e9))
    e['tipo'] = choice(tipos_equipamento)
    equipamentos.append(e)

In [76]:
equipamentos

[{'numero_patrimonio': '364355109', 'tipo': 'Eletrocardiograma'},
 {'numero_patrimonio': '365127840', 'tipo': 'Eletrocardiograma'},
 {'numero_patrimonio': '456534688', 'tipo': 'Ressonância Magnética'},
 {'numero_patrimonio': '584353029', 'tipo': 'Tomografia'},
 {'numero_patrimonio': '939097531', 'tipo': 'Eletrocardiograma'},
 {'numero_patrimonio': '396470204', 'tipo': 'Ressonância Magnética'},
 {'numero_patrimonio': '679677191', 'tipo': 'Ressonância Magnética'},
 {'numero_patrimonio': '894857818', 'tipo': 'Eletrocardiograma'},
 {'numero_patrimonio': '300822928', 'tipo': 'Ressonância Magnética'},
 {'numero_patrimonio': '203243535', 'tipo': 'Tomografia'},
 {'numero_patrimonio': '487006051', 'tipo': 'Tomografia'},
 {'numero_patrimonio': '75979399', 'tipo': 'Tomografia'},
 {'numero_patrimonio': '569746329', 'tipo': 'Tomografia'},
 {'numero_patrimonio': '86844956', 'tipo': 'Eletrocardiograma'},
 {'numero_patrimonio': '76023309', 'tipo': 'Tomografia'},
 {'numero_patrimonio': '323104110', 'ti

In [None]:
tecnico_sabe_fazer_exame = 