# TPC1: Análise de dados: doença cardíaca

Descarregue o ficheiro de dados: `myheart.csv`
Crie um programa em Python, conjunto de funções, que responda às seguintes questões:
* Crie uma função que lê a informação do ficheiro para um modelo, previamente pensado em memória;
* Pense num modelo para guardar uma distribuição;
* Crie uma função que calcula a distribuição da doença por sexo;
* Crie uma função que calcula a distribuição da doença por escalões etários. Considere os seguintes escalões: [30-34], [35-39], [40-44], ...
* Crie uma função que calcula a distribuição da doença por níveis de colesterol. Considere um nível igual a um intervalo de 10 unidades, comece no limite inferior e crie os níveis necessários até abranger o limite superior;
* Crie uma função que imprime na forma de uma tabela uma distribuição;
* Especifique um programa que ao executar apresenta as tabelas correspondentes às distribuições pedidas;
* Extra: explore o módulo matplotlib e crie gráficos para as suas distribuições.

In [7]:
def split():
    with open('myheart.csv', 'r') as f:
        header = f.readline().strip().split(',')
        results = []
        for line in f:
                words = line.strip().split(',')
                doente = {}
                for campo in range(len(header)):
                    doente[header[campo]] = words[campo]
                results.append(doente)
        return results
        #print (results)


def tem_doenca(results):
    doenca = []
    for doente in results:
        if doente['temDoença']=='1' :
            doenca.append(doente)
    return doenca
    #print (doenca)


def dist_sexo(individuos):
    f = 0
    m = 0
    for doente in individuos:
        if doente['sexo']=='F':
            f+=1
        else:
           m+=1
    pf = round((f/len(individuos)) * 100,3)
    pm = round((m/len(individuos)) * 100,3)
    
    doentes = tem_doenca(individuos)
    a = 0
    b = 0
    for doente in doentes:
        if doente['sexo']=='F':
            a+=1
        else:
           b+=1
    pfsd = round(((f-a)/len(individuos))*100,3)
    pmsd = round(((m-b)/len(individuos))*100,3)
    pfcd = round((a/len(individuos))*100,3)
    pmcd = round((b/len(individuos))*100,3) 
    distribuicao_sexo = {'Doentes' : {'Feminino': pfcd, 'Masculino': pmcd, 'Total' : (pfcd+pmcd)}, 'Não Doentes' : {'Feminino': pfsd, 'Masculino': pmsd, 'Total' : (pfsd+pmsd)}, 'Total' : {'Feminino': pf, 'Masculino': pm, 'Total': 100}}
    return distribuicao_sexo


def dist_faixa(individuos):
    ranges = list(range(0,105,5))
    escaloes = []
    for i,j in zip(ranges,ranges[1:]):
        escaloes.append((list(range(i,j))))

    for doente in individuos:
        for i in range(0,len(escaloes)):
            if int(doente["idade"]) in escaloes[i]:
                doente['escalao'] = f'{i*5}-{((i+1)*5)-1}'
                break
    faixas= {'doentes': {}, 'nao doentes': {}}
    for doente in individuos:
        try:
            if doente['temDoença'] == '1':
                if faixas['doentes'][doente['escalao']]:
                    faixas['doentes'][doente['escalao']] += round((1*100)/len(individuos),3)
            elif faixas['nao doentes'][doente['escalao']]:
                faixas['nao doentes'][doente['escalao']] += round((1*100)/len(individuos),3)
        except KeyError:
            if doente['temDoença'] == '1':
                faixas['doentes'][doente['escalao']] = round((1*100)/len(individuos),3)
            else:
                faixas['nao doentes'][doente['escalao']] = round((1*100)/len(individuos),3)
    
    sorted_doentes = sorted(faixas['doentes'].keys())
    sorted_nao_doentes = sorted(faixas['nao doentes'].keys())
    sorted_dict = {key:faixas['doentes'][key] for key in sorted_doentes}
    sorted_ndict = {key:faixas['nao doentes'][key] for key in sorted_nao_doentes}
    faixas['doentes'] = sorted_dict
    faixas['nao doentes'] = sorted_ndict
   # print("\nDistribuição da doença por faixa etária:")
    #for key,value in faixas.items():
     #   print(f"{key}:")
      #  for k,v in value.items():
       #     print(f"\t{k}: {v*100/len(individuos):.03f}%")
    return faixas

def colesterol(individuos):
    ranges = list(range(0,1000,10))
    niveis = []
    for i,j in zip(ranges,ranges[1:]):
        niveis.append((list(range(i,j))))

    for doente in individuos:
        for i in range(0,len(niveis)):
            if int(doente["colesterol"]) in niveis[i]:
                doente['nivel'] = f'{i*10}-{((i+1)*10)-1}'
                break
    
    intervalo= {'doentes': {}, 'nao doentes': {}}
    for doente in individuos:
        key = doente['nivel']
        if key not in intervalo['doentes'].keys():
            intervalo['doentes'][key] = 0
        if key not in intervalo['nao doentes'].keys():
            intervalo['nao doentes'][key] = 0
        
        if doente['temDoença'] == '1':
                intervalo['doentes'][key] += round((1*100)/len(individuos),3)
        else:
            intervalo['nao doentes'][key] += round((1*100)/len(individuos),3)
        
    intervalo['doentes'] = dict(sorted(intervalo['doentes'].items()))
    intervalo['nao doentes'] =  dict(sorted(intervalo['nao doentes'].items()))
    return intervalo
            
        
  
            
def table(estatisticas):
    print("\nTabela de distribuição da doença:")
    header:str = ""
    keys = [""]
    keys += estatisticas.keys()
    for key in keys:
        header += (f"{key:<15}")
    print(header)
    lines = estatisticas[keys[1]].keys()
    body:str = ""
    
    for line in lines:
        body += (f"{line:<15}")
        for coluna in keys[1:]:
            body += (f"{str(estatisticas[coluna][line])+'%':<15}")
        body += "\n"
    
    print(body)
    
     

def main():
    results = split()
    dist_sexo(results)
    dist_faixa(results)
    colesterol(results)
    table(dist_sexo(results))
    table(dist_faixa(results))
    table(colesterol(results))
if __name__ == "__main__":
    main()


Tabela de distribuição da doença:
               Doentes        Não Doentes    Total          
Feminino       4.768%         15.375%        20.143%        
Masculino      51.013%        28.844%        79.857%        
Total          55.781%        44.219%        100%           


Tabela de distribuição da doença:
               doentes        nao doentes    
30-34          0.714%         1.309%         
35-39          2.2609999999999992%4.045999999999996%
40-44          3.2129999999999974%7.25899999999999%
45-49          6.068999999999992%6.663999999999991%
50-54          9.876999999999985%10.114999999999984%
55-59          13.565999999999978%6.90199999999999%
60-64          12.01899999999998%4.045999999999996%
65-69          5.354999999999993%2.379999999999999%
70-74          2.0229999999999997%0.714%         
75-79          0.595%         0.238%         


Tabela de distribuição da doença:
               doentes        nao doentes    
0-9            18.08799999999997%2.37999999999999