# EXPECTATIVA DE VIDA(OMS)
*Uma breve análise estatística sobre fatores que influenciam a expectativa de vida*

## Nome dos integrantes
**Bergson Gabriel da Silva Oliveira Melo, Lucas de Medeiros Linhares Gomes, Davi Cavalcanti de Mello.**

# INTRODUÇÃO

## Sobre o dataset 
O repositório de dados do Global Health Observatory (GHO) sob a Organização Mundial da Saúde (OMS) acompanha o estado da saúde, bem como muitos outros fatores relacionados para 193 países. Os conjuntos de dados são disponibilizados ao público para fins de contribuições através de análise de dados. Coletado do mesmo site de repositório de dados da OMS e seus dados econômicos correspondentes foram coletados do site das Nações Unidas. Entre todas as categorias de fatores relacionados à saúde, foram escolhidos apenas os fatores críticos que são mais representativos. Observou-se que nos últimos 15 anos houve um grande desenvolvimento no setor de saúde, resultando na melhoria das taxas de mortalidade humana, especialmente nas nações em desenvolvimento, em comparação com os últimos 30 anos. Portanto, neste dataset é considerado dados do ano 2000-2015. Os arquivos de dados individuais foram mesclados em um único conjunto de dados. O arquivo mesclado final (conjunto de dados final) consiste em 22 colunas e 2.938 linhas, o que significa 20 variáveis de previsão. Todas as variáveis de previsão foram então divididas em várias categorias amplas: fatores relacionados à imunização, fatores de mortalidade, fatores econômicos e fatores sociais.
## Objetivos da análise
Dado o diverso escopo de possibilidades de possíveis correlações entre as variáveis de previsão, decidimos nos concentrar em 5 perguntas chaves no qual julgamos interessantes para determinar os fatores que mais contribuem para integridade da saúde de um país.

- *Qual a relação existente entre o consumo de álcool e a expectativa de vida?*
- *Qual a relação existente entre o nível de IDH e o consumo de álcool?*
- *Países com maior escolaridade possuem maior expectativa de vida?*
- *Existe relação entre mortalidade infantil e um baixo índice de massa corporal?*
- *Existe uma relação entre o PIB per Capita e os gastos governamentais com saúde?*







In [70]:
#Importando variáveis de diferentes notebooks do projeto para apresentar os tópicos de forma concisa
import seaborn as sns
from sklearn.cluster import KMeans
%store -r centralidade_das_variaveis
%store -r dispersao_das_variaveis
%store -r df_dados_numericos
%store -r df_dados_numericos
%store -r dispersao_alcohol_Life_exp
%store -r a1alcool_exp

# EXPLORAÇÃO INICIAL DOS DADOS
comentário
## 1.Centralidade das variáveis
comentário

In [71]:
print(centralidade_das_variaveis)

{'Life expectancy ': {'Média': 69.22493169398912, 'Mediana': 72.1, 'Moda': 73.0}, 'infant deaths': {'Média': 30.303948264125257, 'Mediana': 3.0, 'Moda': 0}, 'Alcohol': {'Média': 4.6028607871720375, 'Mediana': 3.755, 'Moda': 0.01}, 'percentage expenditure': {'Média': 738.2512954533823, 'Mediana': 64.912906045, 'Moda': 0.0}, 'Hepatitis B': {'Média': 80.94046121593291, 'Mediana': 92.0, 'Moda': 99.0}, ' BMI ': {'Média': 38.32124655647373, 'Mediana': 43.5, 'Moda': 58.5}, 'under-five deaths ': {'Média': 42.0357385976855, 'Mediana': 4.0, 'Moda': 0}, 'Polio': {'Média': 82.55018842069202, 'Mediana': 93.0, 'Moda': 99.0}, 'Total expenditure': {'Média': 5.9381895280235915, 'Mediana': 5.755, 'Moda': 4.6}, 'Diphtheria ': {'Média': 82.32408359027065, 'Mediana': 93.0, 'Moda': 99.0}, ' HIV/AIDS': {'Média': 1.7421034717494939, 'Mediana': 0.1, 'Moda': 0.1}, ' thinness  1-19 years': {'Média': 4.8397038567493205, 'Mediana': 3.3, 'Moda': 1.0}, ' thinness 5-9 years': {'Média': 4.870316804407711, 'Mediana': 3

## 2.Dispersão das variáveis
comentário

In [72]:
print(dispersao_das_variaveis)

{'Life expectancy ': {'Variância': 90.67307376582568, 'Desvio Padrão': 9.522241005447492}, 'infant deaths': {'Variância': 13901.926335670341, 'Desvio Padrão': 117.90643042544517}, 'Alcohol': {'Variância': 16.416063645342746, 'Desvio Padrão': 4.051674178082777}, 'percentage expenditure': {'Variância': 3950460.4161855783, 'Desvio Padrão': 1987.5765183221447}, 'GDP': {'Variância': 203555950.81344026, 'Desvio Padrão': 14267.303557906107}, 'Hepatitis B': {'Variância': 628.2421574392729, 'Desvio Padrão': 25.06475927351533}, ' BMI ': {'Variância': 401.6249308152427, 'Desvio Padrão': 20.040582097714694}, 'under-five deaths ': {'Variância': 25734.011997089085, 'Desvio Padrão': 160.4182408490041}, 'Polio': {'Variância': 548.6853022940603, 'Desvio Padrão': 23.424032579683207}, 'Total expenditure': {'Variância': 6.239299708916882, 'Desvio Padrão': 2.497859025028611}, 'Diphtheria ': {'Variância': 562.2992178566609, 'Desvio Padrão': 23.712849214226893}, ' HIV/AIDS': {'Variância': 25.77511974150574, 

## 3.Listamentos dos fatores cruciais 



In [73]:
df_dados_numericos

Unnamed: 0,Life expectancy,infant deaths,Alcohol,percentage expenditure,GDP,Hepatitis B,BMI,under-five deaths,Polio,Total expenditure,Diphtheria,HIV/AIDS,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
0,65.0,62,0.01,71.279624,584.259210,65.0,19.1,83,6.0,8.16,65.0,0.1,17.2,17.3,0.479,10.1
1,59.9,64,0.01,73.523582,612.696514,62.0,18.6,86,58.0,8.18,62.0,0.1,17.5,17.5,0.476,10.0
2,59.9,66,0.01,73.219243,631.744976,64.0,18.1,89,62.0,8.13,64.0,0.1,17.7,17.7,0.470,9.9
3,59.5,69,0.01,78.184215,669.959000,67.0,17.6,93,67.0,8.52,67.0,0.1,17.9,18.0,0.463,9.8
4,59.2,71,0.01,7.097109,63.537231,68.0,17.2,97,68.0,7.87,68.0,0.1,18.2,18.2,0.454,9.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2933,44.3,27,4.36,0.000000,454.366654,68.0,27.1,42,67.0,7.13,65.0,33.6,9.4,9.4,0.407,9.2
2934,44.5,26,4.06,0.000000,453.351155,7.0,26.7,41,7.0,6.52,68.0,36.7,9.8,9.9,0.418,9.5
2935,44.8,25,4.43,0.000000,57.348340,73.0,26.3,40,73.0,6.53,71.0,39.8,1.2,1.3,0.427,10.0
2936,45.3,25,1.72,0.000000,548.587312,76.0,25.9,39,76.0,6.16,75.0,42.1,1.6,1.7,0.427,9.8


## 4.Blox plot de cada uma das variáveis apresentadas
**Para deixar o relatório o mais conciso possível deixamos apenas um exemplo**

In [74]:
df_dados_numericos.boxplot(column = ["Life expectancy "])

<AxesSubplot:xlabel='Alcohol', ylabel='Life expectancy '>

# RESPONDENDO AS PERGUNTAS 
**Nessa seção visualizaremos os dados pertinentes de cada pergunta de forma intuitiva como também o resultados que obtivemos utilizando agrupamento com o método K-means**

# 1. Qual a relação existente entre o consumo de álcool e a expectativa de vida?

## -*Vizualizando dados essenciais*
Problemas em exibir os gráficos


In [75]:
dispersao_alcohol_Life_exp

<AxesSubplot:xlabel='Alcohol', ylabel='Life expectancy '>

## -*Agrupamento entre álcool e expectativa de vida*
Poblemas em exibir os K-means

In [76]:
a1alcool_exp

## -*Conclusões*
comentário

# 2.Qual a relação existente entre o nível de IDH e o consumo de álcool?

## -*Vizualizando dados essenciais*


## -*Agrupamento entre nível de IDH e o consumo de álcool*


## -*Conclusões

# 3.Países com maior escolaridade possuem maior expectativa de vida?

## -*Vizualizando dados essenciais*

## -*Agrupamento entre escolaridade e expectativa de vida*

## -*Conclusões*

# 4.Existe relação entre mortalidade infantil e um baixo índice de massa corporal?

## -*Vizualizando dados essenciais*

## -*Agrupamento entre mortalidade infantil e índice de massa corpora*

## -*Conclusões*

# 5.Existe uma relação entre o PIB per Capita e os gastos governamentais com saúde?

## -*Vizualizando dados essenciais*

## -*Agrupamento entre PIB per Capita e  gastos governamentais com saúde*

## -*Conclusões*

# CONCLUSÕES FINAIS
comentário

## -*limitações, trabalhos futuros e melhorias que podem ser feitas.*
cometário