#Contexto
Embora tenha havido muitos estudos realizados no passado sobre fatores que afetam a expectativa de vida, considerando variáveis ​​demográficas, composição de renda e taxas de mortalidade. Verificou-se que o efeito da imunização e o índice de desenvolvimento humano não eram levados em consideração no passado. Além disso, algumas das pesquisas anteriores foram feitas considerando a regressão linear múltipla com base no conjunto de dados de um ano para todos os países. Portanto, isso dá motivação para resolver ambos os fatores mencionados anteriormente, formulando um modelo de regressão baseado no modelo de efeitos mistos e regressão linear múltipla, considerando dados de um período de 2000 a 2015 para todos os países. Imunizações importantes como Hepatite B, Poliomielite e Difteria também serão consideradas. Em poucas palavras, este estudo se concentrará em fatores de imunização, fatores de mortalidade, fatores econômicos, fatores sociais e outros fatores relacionados à saúde também. Como as observações deste conjunto de dados são baseadas em diferentes países, será mais fácil para um país determinar o fator preditivo que está contribuindo para o menor valor da expectativa de vida. Isso ajudará a sugerir a um país qual área deve ser dada importância para melhorar de forma eficiente a expectativa de vida de sua população.


#Dados
O projeto depende da precisão dos dados. O repositório de dados do Global Health Observatory (GHO) sob a Organização Mundial da Saúde (OMS) acompanha o estado de saúde, bem como muitos outros fatores relacionados para todos os países. Os conjuntos de dados são disponibilizados ao público para fins de análise de dados de saúde. O conjunto de dados relacionados à expectativa de vida e fatores de saúde para 193 países foi coletado do mesmo site de repositório de dados da OMS e seus dados econômicos correspondentes foram coletados do site das Nações Unidas. Entre todas as categorias de fatores relacionados à saúde, foram escolhidos apenas os fatores críticos que são mais representativos. Observou-se que nos últimos 15 anos houve um grande desenvolvimento no setor de saúde, resultando na melhoria das taxas de mortalidade humana, especialmente nas nações em desenvolvimento, em comparação com os últimos 30 anos. Portanto, neste projeto consideramos dados do ano 2000-2015 para 193 países para análise posterior. Os arquivos de dados individuais foram mesclados em um único conjunto de dados. Na inspeção visual inicial dos dados, alguns valores ausentes foram mostrados. Como os conjuntos de dados eram da OMS, não encontramos erros evidentes. Os dados ausentes foram tratados no software R usando o comando Missmap. O resultado indicou que a maioria dos dados faltantes era para população, Hepatite B e PIB. Os dados que faltavam eram de países menos conhecidos como Vanuatu, Tonga, Togo, Cabo Verde, etc. Foi difícil encontrar todos os dados para esses países e, portanto, foi decidido excluir esses países do conjunto de dados do modelo final. O arquivo mesclado final (conjunto de dados final) consiste em 22 colunas e 2.938 linhas, o que significa 20 variáveis ​​de previsão. Todas as variáveis ​​de previsão foram então divididas em várias categorias amplas: fatores relacionados à imunização, fatores de mortalidade, fatores econômicos e fatores sociais.


In [2]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import cross_val_score
from sklearn.metrics import mean_squared_error

<img src='https://miro.medium.com/v2/resize:fit:1400/1*GZ85Pfb2-PRKaLYFjGHUvA.png' width='1000'>

In [3]:
dados = pd.read_csv('/content/Life Expectancy Data.csv')
dados


Unnamed: 0,Country,Year,Status,Life expectancy,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
0,Afghanistan,2015,Developing,65.0,263.0,62,0.01,71.279624,65.0,1154,...,6.0,8.16,65.0,0.1,584.259210,33736494.0,17.2,17.3,0.479,10.1
1,Afghanistan,2014,Developing,59.9,271.0,64,0.01,73.523582,62.0,492,...,58.0,8.18,62.0,0.1,612.696514,327582.0,17.5,17.5,0.476,10.0
2,Afghanistan,2013,Developing,59.9,268.0,66,0.01,73.219243,64.0,430,...,62.0,8.13,64.0,0.1,631.744976,31731688.0,17.7,17.7,0.470,9.9
3,Afghanistan,2012,Developing,59.5,272.0,69,0.01,78.184215,67.0,2787,...,67.0,8.52,67.0,0.1,669.959000,3696958.0,17.9,18.0,0.463,9.8
4,Afghanistan,2011,Developing,59.2,275.0,71,0.01,7.097109,68.0,3013,...,68.0,7.87,68.0,0.1,63.537231,2978599.0,18.2,18.2,0.454,9.5
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2933,Zimbabwe,2004,Developing,44.3,723.0,27,4.36,0.000000,68.0,31,...,67.0,7.13,65.0,33.6,454.366654,12777511.0,9.4,9.4,0.407,9.2
2934,Zimbabwe,2003,Developing,44.5,715.0,26,4.06,0.000000,7.0,998,...,7.0,6.52,68.0,36.7,453.351155,12633897.0,9.8,9.9,0.418,9.5
2935,Zimbabwe,2002,Developing,44.8,73.0,25,4.43,0.000000,73.0,304,...,73.0,6.53,71.0,39.8,57.348340,125525.0,1.2,1.3,0.427,10.0
2936,Zimbabwe,2001,Developing,45.3,686.0,25,1.72,0.000000,76.0,529,...,76.0,6.16,75.0,42.1,548.587312,12366165.0,1.6,1.7,0.427,9.8


# Entendendo os dados:

Hepatitis B, Measles (Sarampo), Polio (poliomelite), Diphtheria (tétano): refere a cobertura de vacinação entre crianças de 1 ano

HIV/AIDS: Incidentes de HIV/1.000 hab. de 15 a 49 anos

thiness: magreza (desnutrição?)

alcohol: Consumo de álcool que é registrado em litros de álcool puro per capita, pessoas 15+ de idade

Schooling: anos de escolaridade média

BMI: IMC

GDP: PIB em milhões de $

## Variável Resposta (Target) Y = *Life Expectancy*

In [None]:
dados.columns

Index(['Country', 'Year', 'Status', 'Life expectancy ', 'Adult Mortality',
       'infant deaths', 'Alcohol', 'percentage expenditure', 'Hepatitis B',
       'Measles ', ' BMI ', 'under-five deaths ', 'Polio', 'Total expenditure',
       'Diphtheria ', ' HIV/AIDS', 'GDP', 'Population',
       ' thinness  1-19 years', ' thinness 5-9 years',
       'Income composition of resources', 'Schooling'],
      dtype='object')

In [None]:
#remove espaços no começo e fim do nome
dados = dados.rename(columns=lambda x: x.strip())
dados.columns

Index(['Country', 'Year', 'Status', 'Life expectancy', 'Adult Mortality',
       'infant deaths', 'Alcohol', 'percentage expenditure', 'Hepatitis B',
       'Measles', 'BMI', 'under-five deaths', 'Polio', 'Total expenditure',
       'Diphtheria', 'HIV/AIDS', 'GDP', 'Population', 'thinness  1-19 years',
       'thinness 5-9 years', 'Income composition of resources', 'Schooling'],
      dtype='object')

In [None]:
# para esse projeto não iremos nos preocupar quando o y for NaN
dados = dados.drop(index=dados[dados['Life expectancy'].isna()].index)

## Separação Treino e Teste

In [None]:
# convenção ser 20% teste
df_train, df_test = train_test_split(dados, test_size=0.20, random_state=42)

## Conjunto de teste

In [None]:
X_test = df_test.loc[:,dados.columns != 'Life expectancy']
y_test = df_test['Life expectancy']

## Importante: 

### Daqui pra frente não se usa o X_test e y_test para analisar os dados nem tomar decisões

### y_test idealmente não se usa até o teste final de resultado do modelo (para testar mais de uma vez usamos Cross-Validation com a base de treino)

# Tratamento de dados

In [None]:
df_train = df_train.dropna()

In [None]:
X_train = df_train.loc[:,dados.columns != 'Life expectancy']
y_train = df_train['Life expectancy']

In [None]:
X_train

Unnamed: 0,Country,Year,Status,Adult Mortality,infant deaths,Alcohol,percentage expenditure,Hepatitis B,Measles,BMI,...,Polio,Total expenditure,Diphtheria,HIV/AIDS,GDP,Population,thinness 1-19 years,thinness 5-9 years,Income composition of resources,Schooling
2268,Serbia,2012,Developing,126.0,1,9.38,742.510971,97.0,0,58.3,...,93.0,9.89,91.0,0.1,5659.382400,719977.0,2.1,2.1,0.767,14.0
1680,Mauritius,2002,Developing,179.0,0,4.14,369.631710,88.0,0,26.4,...,88.0,4.24,88.0,0.1,3957.512960,124621.0,7.9,7.9,0.683,12.5
2680,Tunisia,2000,Developing,112.0,4,1.21,264.784220,94.0,47,48.1,...,97.0,5.40,97.0,0.1,2213.914880,9699197.0,6.6,6.5,0.646,12.8
2734,Ukraine,2011,Developing,24.0,5,8.48,415.162771,21.0,1333,59.0,...,54.0,6.98,5.0,0.2,3569.757270,45761.0,2.4,2.5,0.734,14.9
2555,Tajikistan,2013,Developing,163.0,10,0.01,1.041916,96.0,1,39.0,...,97.0,6.75,96.0,0.2,14.214412,817789.0,3.6,3.7,0.617,11.2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1240,Iraq,2009,Developing,148.0,32,0.20,185.636698,75.0,30328,55.2,...,78.0,4.65,78.0,0.1,3735.144836,29894652.0,5.4,5.1,0.643,10.3
466,Cambodia,2013,Developing,183.0,11,0.01,8.758215,83.0,0,18.2,...,66.0,5.93,83.0,0.2,128.419568,1522692.0,11.0,11.1,0.546,10.8
1640,Malta,2009,Developed,63.0,0,7.38,335.518057,86.0,1,67.1,...,73.0,8.33,73.0,0.1,2675.582590,412477.0,0.8,0.7,0.815,14.4
1296,Italy,2001,Developed,75.0,2,9.69,3.122230,95.0,0,55.7,...,96.0,8.11,93.0,0.1,24.819000,569741.0,0.5,0.5,0.828,14.9


# Escolha de features

### escolhido duas colunas quaisquer 

In [None]:
colunas = ['Year','Schooling']
X_train_selected = X_train[colunas]
X_test_selected = X_test[colunas].fillna(0)

## Escolha de Modelo

### escolhido um modelo qualquer sem nenhum tuning de parametro

In [None]:
reg = LinearRegression()

## Métrica de Avaliação

## No projeto do Titanic, que era de classificação, foi escolhido a métrica de acurácia, dada por:
### $$\text{acurácia} = \frac{\text{número de acertos}}{\text{total}}$$

## Neste projeto por ser de regressão as métricas são diferentes, e a escolhida foi o Erro Quadrático Médio (EQM ou MSE em inglês), dado por: 
### $$EQM = \frac{1}{n} \sum_{i=1}^{n} (y_i - \hat{y_i})^2$$
#### $$y_i: \text{target da base de teste}, \quad \hat{y_i}: \text{target da predição do modelo}$$

## No projeto do titanic, quanto maior a acurácia (mais próximo de 100%), melhor era a predição. 
## Neste projeto, por usar uma métrica de erro, quanto menor (mais próximo de 0) melhor a predição.

In [None]:
scores = cross_val_score(reg, X_train_selected, y_train, cv=10, scoring='neg_mean_squared_error')
scores_medio = -scores.mean()
scores_medio

38.110651365350385

# Apenas no final de tudo aplica a predição no y_test:

In [None]:
reg.fit(X_train_selected, y_train)

In [None]:
y_predict = reg.predict(X_test_selected)
y_predict

array([70.72172515, 62.85854743, 76.64781905, 75.95739592, 58.40925526,
       64.08601702, 72.00661597, 76.49444237, 73.86693542, 74.86426397,
       71.77647492, 76.41767801, 62.53260298, 65.52443657, 68.99559129,
       72.29433029, 74.94102833, 75.47792274, 78.02881737, 68.05598806,
       64.2585848 , 75.97658701, 41.28286246, 66.69418084, 69.5135987 ,
       65.12172775, 66.73256302, 74.99844956, 65.4476722 , 79.7356081 ,
       69.03397347, 68.4203147 , 58.33249089, 69.70520552, 74.86426397,
       48.99266349, 72.25594811, 62.09151198, 41.28286246, 68.68883793,
       58.00654644, 74.82588178, 73.13828215, 41.18690701, 52.25302031,
       68.15179147, 75.49726587, 62.01474762, 72.94652328, 61.24756012,
       70.43416288, 70.08887529, 58.1983053 , 54.09414867, 69.95453765,
       73.0231356 , 69.01478238, 71.2587716 , 70.99024838, 51.23650067,
       66.61756852, 63.52993152, 52.27205936, 64.91062575, 65.62023998,
       78.98761169, 61.86121889, 59.46400503, 71.35472706, 73.09

In [None]:
mean_squared_error(y_predict, y_test)

69.66430815105556

### Erro Quadrático Médio obtido: 69,66 anos

## Este notebook tem um modelo muito simples. 
## A idéia deste projeto é cada conjunto de equipes partir deste notebook e aprofundar **apenas** em uma das etapas:
### - Tratamento de dados
### - Criação de novas features
### - seleção das features
### - comparação entre modelos
### - tuning do modelo 

## Para entender o efeito de cada etapa nessa base específica (utilizando a métrica escolhida).
## Posteriormente será juntada todas as etapas para ver o efeito conjunto.