# **Expectativa de Vida (OMS)**

O conjunto de dados relacionado à expectativa de vida e aos fatores de saúde de 193 países foi coletado do mesmo site do repositório de dados da OMS, e os dados econômicos correspondentes foram coletados do site das Nações Unidas.



Dentre todas as categorias de fatores relacionados à saúde, foram selecionados apenas os fatores críticos mais representativos. Observou-se que, nos últimos 15 anos, houve um grande desenvolvimento no setor de saúde, resultando na redução das taxas de mortalidade humana, especialmente nos países em desenvolvimento, em comparação com os últimos 30 anos. Portanto, neste projeto, consideramos dados do período de 2000 a 2015 para 193 países para análises posteriores.

# **Explicação das Colunas**


* Country - País                        
* Year - Idade                               
* Status - Status de país desenvolvido ou em desenvolvimento                            
* Life expectancy - Expectativa de vida por idade               
* Adult Mortality - Taxa de mortalidade adulta para ambos os sexos (probabilidade de morte entre 15 e 60 anos por 1000 habitantes)         
* infant deaths - Número de mortes infantis por 1000 habitantes
* Alcohol - Álcool, consumo per capita (15+) registado (em litros de álcool puro)
* percentage expenditure - Percentual de Gastos, despesas com saúde como porcentagem do Produto Interno Bruto per capita (%)
* Hepatitis B - Cobertura vacinal contra hepatite B (HepB) em crianças de 1 ano de idade (%)
* Measles - Sarampo, número de casos notificados por 1000 habitantes.
* BMI - IMC, Índice de Massa Corporal médio de toda a população
* under-five deaths - Número de mortes de crianças menores de cinco anos por 1000 habitantes
* Polio - Cobertura vacinal contra a poliomielite (Pol3) em crianças de 1 ano de idade (%)   
* Total expenditure - Despesas do governo geral com saúde como porcentagem das despesas totais do governo (%)
* Diphtheria - Cobertura da vacinação contra difteria, tétano e coqueluche (DTP3) em crianças de 1 ano de idade (%)
* HIV/AIDS - Mortes por 1.000 nascidos vivos por HIV/AIDS (0-4 anos)  
* GDP - PIB, Produto Interno Bruto per capita (em USD)  
* Population - População do País
* thinness  1-19 years - Magreza 10 - 19 anos, prevalência de magreza entre crianças e adolescentes de 10 a 19 anos (%)  
* thinness 5-9 years - Prevalência de magreza em crianças de 5 a 9 anos (%)     
* Income composition of resources - Índice de Desenvolvimento Humano em termos de composição da renda dos recursos (índice variando de 0 a 1)  
* Schooling - Escolarização, número de anos de escolaridade (anos)   




## *Importações*

In [2]:
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt

In [5]:
df =pd.read_csv("./expectancy.csv")

In [6]:
df

Unnamed: 0.1,Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
0,0,Afghanistan,2O15,Developing,65.0,263.0,62,0.01,71.279624,65.0,...,6.0,8.16,65.0,0.1,584.259210,3.373649e+07,17.2,17.3,0.479,10.1
1,1,Afghanistan,2O14,Developing,59.9,271.0,64,0.01,73.523582,62.0,...,58.0,8.18,62.0,0.1,612.696514,3.275820e+05,17.5,17.5,0.476,10.0
2,2,Afghanistan,2O13,Developing,59.9,268.0,66,0.01,73.219243,64.0,...,62.0,8.13,64.0,0.1,631.744976,3.173169e+07,17.7,17.7,0.470,9.9
3,3,Afghanistan,2O12,Developing,59.5,272.0,69,0.01,78.184215,67.0,...,67.0,8.52,67.0,0.1,669.959000,3.696958e+06,17.9,18.0,0.463,9.8
4,4,Afghanistan,2O11,Developing,59.2,275.0,71,0.01,7.097109,68.0,...,68.0,7.87,68.0,0.1,63.537231,2.978599e+06,18.2,18.2,0.454,9.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2943,840,Equatorial Guinea,2OO9,Developing,55.7,34.0,3,7.97,115.069242,,...,57.0,5.32,43.0,7.3,1653.293700,9.911100e+04,9.2,9.2,0.590,9.1
2944,1037,Greece,2OO4,Developing,79.2,81.0,0,9.56,287.612452,92.0,...,95.0,8.30,95.0,0.1,21955.149000,1.955141e+06,0.8,0.8,0.830,15.3
2945,2399,South Africa,2OO9,Developing,56.5,449.0,46,7.60,782.598714,74.0,...,75.0,8.39,76.0,19.0,5888.628400,5.255813e+06,8.1,9.8,0.622,12.8
2946,678,Cyprus,2O1O,Developed,79.5,59.0,0,11.32,283.330026,96.0,...,99.0,7.23,99.0,0.1,3818.463960,1.112670e+05,0.9,1.0,0.853,14.6


In [7]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2948 entries, 0 to 2947
Data columns (total 23 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Unnamed: 0                       2948 non-null   int64  
 1   Country                          2948 non-null   object 
 2   Year                             2948 non-null   object 
 3   Status                           2948 non-null   object 
 4   Life expectancy                  2938 non-null   float64
 5   Adult Mortality                  2938 non-null   float64
 6   infant deaths                    2948 non-null   int64  
 7   Alcohol                          2754 non-null   float64
 8   percentage expenditure           2948 non-null   float64
 9   Hepatitis B                      2392 non-null   float64
 10  Measles                          2948 non-null   int64  
 11  BMI                              2914 non-null   float64
 12  under-five deaths   

In [8]:
df.head(10)

Unnamed: 0.1,Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
0,0,Afghanistan,2O15,Developing,65.0,263.0,62,0.01,71.279624,65.0,...,6.0,8.16,65.0,0.1,584.25921,33736494.0,17.2,17.3,0.479,10.1
1,1,Afghanistan,2O14,Developing,59.9,271.0,64,0.01,73.523582,62.0,...,58.0,8.18,62.0,0.1,612.696514,327582.0,17.5,17.5,0.476,10.0
2,2,Afghanistan,2O13,Developing,59.9,268.0,66,0.01,73.219243,64.0,...,62.0,8.13,64.0,0.1,631.744976,31731688.0,17.7,17.7,0.47,9.9
3,3,Afghanistan,2O12,Developing,59.5,272.0,69,0.01,78.184215,67.0,...,67.0,8.52,67.0,0.1,669.959,3696958.0,17.9,18.0,0.463,9.8
4,4,Afghanistan,2O11,Developing,59.2,275.0,71,0.01,7.097109,68.0,...,68.0,7.87,68.0,0.1,63.537231,2978599.0,18.2,18.2,0.454,9.5
5,5,Afghanistan,2O1O,Developing,58.8,279.0,74,0.01,79.679367,66.0,...,66.0,9.2,66.0,0.1,553.32894,2883167.0,18.4,18.4,0.448,9.2
6,6,Afghanistan,2OO9,Developing,58.6,281.0,77,0.01,56.762217,63.0,...,63.0,9.42,63.0,0.1,445.893298,284331.0,18.6,18.7,0.434,8.9
7,7,Afghanistan,2OO8,Developing,58.1,287.0,80,0.03,25.873925,64.0,...,64.0,8.33,64.0,0.1,373.361116,2729431.0,18.8,18.9,0.433,8.7
8,8,Afghanistan,2OO7,Developing,57.5,295.0,82,0.02,10.910156,63.0,...,63.0,6.73,63.0,0.1,369.835796,26616792.0,19.0,19.1,0.415,8.4
9,9,Afghanistan,2OO6,Developing,57.3,295.0,84,0.03,17.171518,64.0,...,58.0,7.43,58.0,0.1,272.56377,2589345.0,19.2,19.3,0.405,8.1


In [None]:
#ultimas linhas
df.tail(20)

Unnamed: 0.1,Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
2928,2928,Zimbabwe,2OO9,Developing,50.0,587.0,30,4.64,1.040021,73.0,...,69.0,6.26,73.0,18.1,65.824121,1381599.0,7.5,7.4,0.419,9.9
2929,2929,Zimbabwe,2OO8,Developing,48.2,632.0,30,3.56,20.843429,75.0,...,75.0,4.96,75.0,20.5,325.678573,13558470.0,7.8,7.8,0.421,9.7
2930,2930,Zimbabwe,2OO7,Developing,46.6,67.0,29,3.88,29.814566,72.0,...,73.0,4.47,73.0,23.7,396.998217,1332999.0,8.2,8.2,0.414,9.6
2931,2931,Zimbabwe,2OO6,Developing,45.4,7.0,28,4.57,34.262169,68.0,...,71.0,5.12,7.0,26.8,414.796232,13124270.0,8.6,8.6,0.408,9.5
2932,2932,Zimbabwe,2OO5,Developing,44.6,717.0,28,4.14,8.717409,65.0,...,69.0,6.44,68.0,30.3,444.76575,129432.0,9.0,9.0,0.406,9.3
2933,2933,Zimbabwe,2OO4,Developing,44.3,723.0,27,4.36,0.0,68.0,...,67.0,7.13,65.0,33.6,454.366654,12777510.0,9.4,9.4,0.407,9.2
2934,2934,Zimbabwe,2OO3,Developing,44.5,715.0,26,4.06,0.0,7.0,...,7.0,6.52,68.0,36.7,453.351155,12633900.0,9.8,9.9,0.418,9.5
2935,2935,Zimbabwe,2OO2,Developing,44.8,73.0,25,4.43,0.0,73.0,...,73.0,6.53,71.0,39.8,57.34834,125525.0,1.2,1.3,0.427,10.0
2936,2936,Zimbabwe,2OO1,Developing,45.3,686.0,25,1.72,0.0,76.0,...,76.0,6.16,75.0,42.1,548.587312,12366160.0,1.6,1.7,0.427,9.8
2937,2937,Zimbabwe,2OOO,Developing,46.0,665.0,24,1.68,0.0,79.0,...,78.0,7.1,78.0,43.5,547.358878,12222250.0,11.0,11.2,0.434,9.8


In [None]:
#dados estatisticos das colunas numericas - sem tratatmento
df.describe()

Unnamed: 0.1,Unnamed: 0,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,BMI,under-five deaths,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
count,2948.0,2938.0,2938.0,2948.0,2754.0,2948.0,2392.0,2948.0,2914.0,2948.0,2929.0,2722.0,2929.0,2948.0,2500.0,2295.0,2914.0,2914.0,2781.0,2785.0
mean,1470.252035,69.226344,164.723281,30.286635,4.606961,737.190647,80.932692,2422.627883,38.341661,42.013908,82.54114,5.938244,82.311028,1.751493,7484.530433,12783540.0,4.844818,4.876047,0.627772,11.993896
std,849.733306,9.525726,124.407794,117.749239,4.05381,1984.794497,25.084151,11453.807243,20.041486,160.204764,23.441848,2.495948,23.735894,5.089702,14251.634585,60966900.0,4.423995,4.513231,0.210705,3.356053
min,0.0,36.3,1.0,0.0,0.01,0.0,1.0,0.0,1.0,0.0,3.0,0.37,2.0,0.1,1.68135,34.0,0.1,0.1,0.0,0.0
25%,734.75,63.1,74.0,0.0,0.88,4.768003,77.0,0.0,19.3,0.0,78.0,4.26,78.0,0.1,464.218481,194754.5,1.6,1.5,0.493,10.1
50%,1469.5,72.1,144.0,3.0,3.76,65.723144,92.0,17.0,43.5,4.0,93.0,5.755,93.0,0.1,1770.25397,1388115.0,3.3,3.3,0.677,12.3
75%,2206.25,75.7,227.75,22.0,7.7175,441.97784,97.0,362.0,56.2,28.0,97.0,7.49,97.0,0.8,5935.136533,7417429.0,7.2,7.2,0.78,14.3
max,2942.0,89.0,723.0,1800.0,17.87,19479.91161,99.0,212183.0,87.3,2500.0,99.0,17.6,99.0,50.6,119172.7418,1293859000.0,27.7,28.6,0.948,20.7


In [11]:
df.isnull().sum()

Unnamed: 0                           0
Country                              0
Year                                 0
Status                               0
Life expectancy                     10
Adult Mortality                     10
infant deaths                        0
Alcohol                            194
percentage expenditure               0
Hepatitis B                        556
Measles                              0
BMI                                 34
under-five deaths                    0
Polio                               19
Total expenditure                  226
Diphtheria                          19
HIV/AIDS                             0
GDP                                448
Population                         653
thinness  1-19 years                34
thinness 5-9 years                  34
Income composition of resources    167
Schooling                          163
dtype: int64

In [None]:
df.shape[0] #linhas


2948

In [13]:
df.shape[1] #colunas

23

# **1. Análise Exploratória Geral**

Responda às seguintes perguntas:


1.   Quantas linhas e colunas temos no nosso dataset?
2.   Temos dados nulos? Se sim, qual a porcentagem deles? É uma porcentagem significativa?
3. Sobre os dados nulos com maior porcentagem, qual o tipo deles? Tente pensar em hipóteses do porquê eles estão nulos.
4. Existem duplicatas?
5. Todas as colunas estão com o seu tipo correto?
6. Como verificar as principais estatísticas das colunas numéricas? Escolha uma coluna com valores nulos para verificar como a média, moda, mediana.




In [35]:
#1-
if df is not None:
 
    linhas, colunas = df.shape
    print(f"O dataset possui {linhas} linhas.")
    print(f"O dataset possui {colunas} colunas.")

O dataset possui 2948 linhas.
O dataset possui 23 colunas.


In [54]:
#2-

print("\n Questao:  2. Temos dados nulos? Se sim, qual a porcentagem deles?")
nulos_total = df.isnull().sum()

if nulos_total.sum() == 0:
    print("Não há dados nulos no dataset.")
else:
    print("Sim, temos dados nulos.")


# Calcula o percentual de nulos
percentual_nulos = (nulos_total / len(df)) * 100

# Filtra e ordena para mostrar apenas colunas com nulos
percentual_ordenado = percentual_nulos[percentual_nulos > 0].sort_values(ascending=False)

print("\nPercentual de dados nulos por coluna (apenas colunas com nulos):")
print(percentual_ordenado.map("{:.2f}%".format))

print("\n-- Análise da Significância --")
print("Uma porcentagem é considerada 'significativa' dependendo do contexto.")
print(" - Porcentagens baixas (ex: < 5%) muitas vezes podem ser tratadas (removendo linhas ou preenchendo) sem grande impacto.")
print(" - Porcentagens altas (ex: > 30-40%) são muito significativas. Usar essa coluna pode ser arriscado.")


 Questao:  2. Temos dados nulos? Se sim, qual a porcentagem deles?
Sim, temos dados nulos.

Percentual de dados nulos por coluna (apenas colunas com nulos):
Population                         22.15%
Hepatitis B                        18.86%
GDP                                15.20%
Total expenditure                   7.67%
Alcohol                             6.58%
Income composition of resources     5.66%
Schooling                           5.53%
thinness 5-9 years                  1.15%
thinness  1-19 years                1.15%
BMI                                 1.15%
Polio                               0.64%
Diphtheria                          0.64%
Life expectancy                     0.34%
Adult Mortality                     0.34%
dtype: object

-- Análise da Significância --
Uma porcentagem é considerada 'significativa' dependendo do contexto.
 - Porcentagens baixas (ex: < 5%) muitas vezes podem ser tratadas (removendo linhas ou preenchendo) sem grande impacto.
 - Porcentagens al

In [None]:
#4 - Existem duplicatas

#duplicatas_linhas = df.duplicated()
#print(duplicatas_linhas)

# Para ver as linhas duplicadas (mantendo todas as ocorrências exceto a primeira)
#df[duplicatas_linhas]

print("\n Questao: 4. Existem duplicatas? ###")
duplicatas = df.duplicated().sum()

if duplicatas == 0:
    print("Não existem linhas duplicadas no dataset.")
else:
    print(f"Alerta: Existem {duplicatas} linhas duplicadas no dataset.")
  
     


 Questao: 4. Existem duplicatas? ###
      Unnamed: 0            Country  Year      Status  Life expectancy  \
2943         840  Equatorial Guinea  2OO9  Developing             55.7   
2944        1037             Greece  2OO4  Developing             79.2   
2945        2399       South Africa  2OO9  Developing             56.5   
2946         678             Cyprus  2O1O   Developed             79.5   
2947         196         Bangladesh  2O11  Developing             73.0   

      Adult Mortality  infant deaths  Alcohol  percentage expenditure  \
2943             34.0              3     7.97              115.069242   
2944             81.0              0     9.56              287.612452   
2945            449.0             46     7.60              782.598714   
2946             59.0              0    11.32              283.330026   
2947             14.0            118     0.01               62.349885   

      Hepatitis B  Measles   BMI  under-five deaths  Polio  Total expenditure 

In [53]:
#4 - Existem duplicatas

duplicatas_linhas = df.duplicated()
#print(duplicatas_linhas)

# Para ver as linhas duplicadas (mantendo todas as ocorrências exceto a primeira)
df[duplicatas_linhas]

Unnamed: 0.1,Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,BMI,under-five deaths,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
2943,840,Equatorial Guinea,2OO9,Developing,55.7,34.0,3,7.97,115.069242,,78,21.7,4,57.0,5.32,43.0,7.3,1653.2937,99111.0,9.2,9.2,0.59,9.1
2944,1037,Greece,2OO4,Developing,79.2,81.0,0,9.56,287.612452,92.0,1,59.9,1,95.0,8.3,95.0,0.1,21955.149,1955141.0,0.8,0.8,0.83,15.3
2945,2399,South Africa,2OO9,Developing,56.5,449.0,46,7.6,782.598714,74.0,5857,46.4,70,75.0,8.39,76.0,19.0,5888.6284,5255813.0,8.1,9.8,0.622,12.8
2946,678,Cyprus,2O1O,Developed,79.5,59.0,0,11.32,283.330026,96.0,18,57.8,0,99.0,7.23,99.0,0.1,3818.46396,111267.0,0.9,1.0,0.853,14.6
2947,196,Bangladesh,2O11,Developing,73.0,14.0,118,0.01,62.349885,96.0,5625,15.8,150,96.0,3.16,96.0,0.1,835.789341,153911900.0,18.7,19.2,0.545,9.4


In [None]:
#5-Todas as colunas estão com o seu tipo correto?



In [58]:
#6-Como verificar as principais estatísticas das colunas numéricas? Escolha uma coluna com valores nulos para verificar como a média, moda, mediana.

pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

df['Population']

print(f"Media :{df['Population'].median()}")
print(f"Mediana : {df['Population'].mean()}")
print(f"Moda : {df['Population'].mode()}")



Media :1388115.0
Mediana : 12783540.54533769
Moda : 0    444.0
Name: Population, dtype: float64


In [14]:
if df is not None:
 
    linhas, colunas = df.shape
    print(f"O dataset possui {linhas} linhas.")
    print(f"O dataset possui {colunas} colunas.")

O dataset possui 2948 linhas.
O dataset possui 23 colunas.


# **2. Análise Univariada**

7. Como as variáveis numéricas estão distribuídas? Alguma apresenta distribuição normal, ou todas são assimétricas?
8. Qual país aparece com maior frequência? E o menos frequente?
9. Existem mais países em desenvolvimento ou desenvolvidos?
10. Os outliers existentes são reais ou valores extremos que não condizem com a realidade?
11. Qual o ano que apresenta mais informações?
12. Como está a escolaridade média?


In [None]:
#7 - 


#colunas_numericas = df.select_dtypes(include=['number'])

# 2. Calcula o coeficiente de assimetria para cada coluna
#assimetria = colunas_numericas.skew()

#print("Coeficiente de Assimetria (Skewness):")
#print(assimetria)


0       <NA>
1       <NA>
2       <NA>
3       <NA>
4       <NA>
5       <NA>
6       <NA>
7       <NA>
8       <NA>
9       <NA>
10      <NA>
11      <NA>
12      <NA>
13      <NA>
14      <NA>
15      <NA>
16      <NA>
17      <NA>
18      <NA>
19      <NA>
20      <NA>
21      <NA>
22      <NA>
23      <NA>
24      <NA>
25      <NA>
26      <NA>
27      <NA>
28      <NA>
29      <NA>
30      <NA>
31      <NA>
32      <NA>
33      <NA>
34      <NA>
35      <NA>
36      <NA>
37      <NA>
38      <NA>
39      <NA>
40      <NA>
41      <NA>
42      <NA>
43      <NA>
44      <NA>
45      <NA>
46      <NA>
47      <NA>
48      <NA>
49      <NA>
50      <NA>
51      <NA>
52      <NA>
53      <NA>
54      <NA>
55      <NA>
56      <NA>
57      <NA>
58      <NA>
59      <NA>
60      <NA>
61      <NA>
62      <NA>
63      <NA>
64      <NA>
65      <NA>
66      <NA>
67      <NA>
68      <NA>
69      <NA>
70      <NA>
71      <NA>
72      <NA>
73      <NA>
74      <NA>
75      <NA>
76      <NA>

TypeError: data type 'integer' not understood

# **3. Análise Bivariada**

13. Países mais ricos vivem mais?
14. O nível de escolaridade influencia a expectativa de vida?
15. Países desenvolvidos consomem mais álcool?
16. A mortalidade infantil ainda é um problema em países em desenvolvimento?
17. Como a expectativa de vida evoluiu ao longo do tempo?
18. Países com maior investimento em saúde têm maior expectativa de vida?

# **4. Processamento dos Dados**

Nesta etapa, é necessário que você:
* Faça a limpeza das colunas erradas;
* Faça o tratamento dos valores nulos da forma que achar válido;
* Trate as duplicatas;
* Transforme as colunas categóricas em numéricas;
* Faça o escalonamento de variáveis numéricas;

# **5. Feature Engineer**

É aqui que sua imaginação precisa fluir. Crie de duas a três novas variáveis relacionando as variáveis já existentes e explique como elas poderiam agregar na capacidade do modelo de prever expectativa de vida.