# Aula 23 - Projeto Multidisciplinar I

## Apresentação e discussão

O Projeto Multidisciplinar I consiste na simulação de dados envolvendo pesos e alturas de indivíduos, calculando o IMC (índice de Massa Corporal) e relacionando com dados simulados sobre existência de problemas cardíacos. A simulação deverá contar com dados pseudoaleatórios gerados por simulação computacional e deverá haver correspondência entre problemas cardiácos com a medida do IMC. Ou seja, iremos supor que exista uma correspondência óbvia entre as medidas (modelada matematicamente por equção e coeificentes arbitrariamente definidos). Para cada sexo (sendo eles definidos de forma aleatória).

Você, portanto, simulará via randomização (aleatoriedade) as alturas dentro de uma faixa bem definida. Em seguida, aplicará uma equação que determine, com algum grau de aleatoriedade, os pesos dos indivíduos. Logo depois, calculará o IMC e definirá para cada indivíduo a existência (sim ou não) de problemas cardiácos, ambos com algum grau mnimo de correspondência com o IMC.

Ao final, faça as análises necessárias com medidas de dispersão e de tendência central. Crie as funções para tal. E interprete os IMCs obtido conforme WHO (Organização Mundial da Saúde).

Os dados devem estar reunidos em uma tabela. Todas as técnicas aplicadas aqui são vistas na Aula 22.

### Importando bibliotecas 

In [14]:
import numpy as np #Importando biblioteca numpy
from random import * #Importando biblioteca para randommização
import pandas as pd #Importando Pandas
from sympy import * #Importando biblioteca para escrever equações
from statistics import *

### Gerando alturas

In [5]:
#Parâmetros iniciais
amostras = 3000 #Tamanho da amostra
media= 1.73
desvio = 0.30


#Gerando alturas aleatórias 
alturas = np.random.normal(media,desvio,amostras)
alturas = alturas.tolist()

### Gerando Pesos

In [9]:
#Equação para gerar pesos
x1 = symbols('alturas_i')
x2 = symbols('n_i')
equation = symbols('pesos')

#Abs para evitar números aleatórios negativos
equation = x1*50 + abs(x2)
equation

50*alturas_i + Abs(n_i)

In [6]:

pesos = []
for i in range (len(alturas)):
    #Gerando números aleatórios em distribuição uniforme de -5 a 5
    #Números negativos serão transformados em positivos devido ao abs
    distribuicao = abs(round(float(uniform(-5,5)),2))
    #armazenando equação
    eq= round(alturas[i]*50 + distribuicao,2)
    pesos.append(eq) #adicionando valores na lista
    
len(pesos)

3000

### Calculando IMC

In [7]:
#Formúla do IMC
#Peso/altura**2
#Arredondando resultados para duas casas decimais
imc = [round(pesos[i]/alturas[i]**2,2) for i in range (amostras)]
len(imc)

3000

### Gerando sexos

In [8]:
#variáveis com as duas possibilidades de sexo
masc,fem = 'M','F'

#random.choice retorna elemento aleatório da lista
sexos = [masc if round(np.random.rand()) == 0 else fem for i in range(amostras)]

#verificando tamanho
print(len(sexos))

3000


### Gerando correspondência com problemas cardíacos

In [None]:
#Fonte: https://progep.ufpb.br/progep/contents/em-destaque/dia-mundial-de-combate-e-prevencao-da-obesidade
#IMC >40. Obesidade Grau III
#IMC > 35. Obesidade Grau II
#IMC > 30. Obesidade Grau I
#IMC >25 E IMC<30. Sobrepeso, possiveis problemas cardiacos

In [9]:
#LEGENDA: S= SIM,POSSUI PROBLEMAS CARDIACOS, P = PROVALVEMENTE POSSUI
# R = REMOTAMANTE POSSUI, N = NÃO POSSUI


cardiacos = []
for i in range (len(imc)):
    if imc[i] >= 40:
        cardiacos.append("S")
    elif imc[i] >= 30 and imc[i]< 40:
        cardiacos.append("P")
    elif imc[i] <30 and imc[i] >=25:
        cardiacos.append("R")
    elif imc[i] < 25:
        cardiacos.append("N")
        
print(len(cardiacos))#verificando tamanho

3000


### Gerando tabelas e funções

In [10]:
#Unindo as listas
dados = alturas,pesos,imc,sexos,cardiacos

#Armazenando dados no dataframe
df = pd.DataFrame(dados, index=['Altura','Peso','IMC','Sexo','Problema_cardiaco']).T
df

Unnamed: 0,Altura,Peso,IMC,Sexo,Problema_cardiaco
0,1.667236,85.31,30.69,M,P
1,2.041185,103.8,24.91,F,N
2,2.128508,106.61,23.53,F,N
3,1.319983,69.15,39.69,M,P
4,1.943283,99.73,26.41,M,R
...,...,...,...,...,...
2995,1.487424,75.25,34.01,F,P
2996,1.454509,76.49,36.16,F,P
2997,1.808132,94.63,28.94,M,R
2998,2.009336,101.22,25.07,M,R


In [40]:
#Convertendo para arquivo csv
df.to_csv('df.csv')

In [33]:
#Funções de medidas de tendência central

def media(coluna):
    #Retorna média com valor arredondado em duas casas
    return round(np.average(coluna),2)
    
def variancia(coluna):
    #Retorna variância
    return round(np.var(coluna),2)

def desvio_padrao(coluna):
    #Retorna o desvio padrão
    return round(np.std(coluna),2)

def mediana(coluna):
    
    #Retorna mediana com valor arredondado
    return round(median(coluna),2)
    

def frequencia(coluna,dado):
    contador = 0
    for valores in coluna:
        if valores == dado:
            contador+=1
    percentual = round((contador/3000*100),2)
    return f'Existem {contador} {dado}, logo o percentual é {percentual}'
    

In [16]:
#Média e mediana

print(f'A média das alturas é {media(df.Altura)}')
print(f'A média dos pesos é {media(df.Peso)}')
print(f'A média dos IMC é {media(df.IMC)}')
print('\n')
print(f'A mediana das alturas é {mediana(df.Altura)}')
print(f'A mediana dos pesos é {mediana(df.Peso)}')
print(f'A mediana dos IMC é {mediana(df.IMC)}')

A média das alturas é 1.73
A média dos pesos é 88.96
A média dos IMC é 30.78


A mediana das alturas é 1.73
A mediana dos pesos é 89.17
A mediana dos IMC é 29.68


In [17]:
#Variância e desvio padrão

print(f'A variância das alturas é {variancia(df.Altura)}')
print(f'A variância dos pesos é {variancia(df.Peso)}')
print(f'A variância dos IMC é {variancia(df.IMC)}')
print('\n')
print(f'O desvio padrão das alturas é {desvio_padrao(df.Altura)}')
print(f'O desvio padrão dos pesos é {desvio_padrao(df.Peso)}')
print(f'O desvio padrão dos IMC é {desvio_padrao(df.IMC)}')

A variância das alturas é 0.09
A variância dos pesos é 225.99
A variância dos IMC é 36.8


O desvio padrão das alturas é 0.3
O desvio padrão dos pesos é 15.03
O desvio padrão dos IMC é 6.07


In [18]:
#Frequências dos sexos e problemas cardíacos

print(frequencia(df.Sexo,'M'))
print(frequencia(df.Sexo,'F'))
print('\n')
#LEGENDA: S= SIM,POSSUI PROBLEMAS CARDIACOS, P = PROVALVEMENTE POSSUI
# R = REMOTAMANTE POSSUI, N = NÃO POSSUI
print(frequencia(df.Problema_cardiaco,'S'))
print(frequencia(df.Problema_cardiaco,'P'))
print(frequencia(df.Problema_cardiaco,'R'))
print(frequencia(df.Problema_cardiaco,'N'))

Existem 1499 M, logo o percentual é 49.97
Existem 1501 F, logo o percentual é 50.03


Existem 233 S, logo o percentual é 7.77
Existem 1198 P, logo o percentual é 39.93
Existem 1134 R, logo o percentual é 37.8
Existem 435 N, logo o percentual é 14.5


In [44]:
#Frequencia de homens e mulheres com e provávies problemas cardíacos
sexos_cardiacos=zip(df.Sexo,df.Problema_cardiaco)
lista_cardiacos = list(sexos_cardiacos)

#Possibilidades
nao_m = ('M', 'N') #MASCULINO SEM PROBLEMA
sim_m = ('M', 'S') #MASCULINO COM PROBLEMA
nao_f = ('F', 'N') #FEMININO SEM PROBLEMA
sim_f = ('F','S') # FEMININO COM PROBLEMA

cont_ms=0 #MASCILINO SIM
cont_fs=0# FEMININO SIM
cont_fn=0#FEMININO NAO
cont_mn=0#MASCULINO NAO
for i in lista_cardiacos:
    if sim_m == i:
        cont_ms+=1
    if sim_f == i:
        cont_fs+=1
    if nao_f ==i:
        cont_fn+=1
    if nao_m ==i:
        cont_mn+=1
        

print(f'Percentual de homens com problemas cardíacos {round((cont_ms/3000*100),2)}')
print(f'Percentual de mulheres com problemas cardiácos {round((cont_fs/3000*100),2)}')
print('\n')
print(f'Percentual de homens sem problemas cardíacos {round((cont_mn/3000*100),2)}')
print(f'Percentual de mulheres sem problemas cardiácos {round((cont_fn/3000*100),2)}')

Percentual de homens com problemas cardíacos 3.7
Percentual de mulheres com problemas cardiácos 4.07


Percentual de homens sem problemas cardíacos 7.27
Percentual de mulheres sem problemas cardiácos 7.23


### Conclusão

Em uma amostra com uma população de 3000 e média de altura de 1.73 mas com média de pesos de 88% somente 7% da população apresentou o IMC acima de 40, indicando fortes relações com problemas cardíacos.

No entanto 39% da população apresentou riscos prováveis, enquanto outros 37% apresentaram chances remotas pois são classificados com Sobrepeso de acordo com o IMC. Já 14% foram classificados sem riscos de problemas cardíacos

Outro dado curioso que é possível observar são as mulheres com percentual de 4% com problemas cardiacos enquanto homens representam 3%, margens bem similiares para o experimento realizado.