# Modelagem Estatística em indicadores socioeconomicos

**Objetivo:** estudar quais são os indicadores socioeconômicos que impactam a expectativa de vida das pessoas.

Os dados foram extraídos do link abaixo:

https://www.who.int/data/gho/data/themes/mortality-and-global-health-estimates/ghe-life-expectancy-and-healthy-life-expectancy


In [21]:
# Imports
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
import statsmodels.api as sm
from statsmodels.formula.api import ols
from sklearn.preprocessing import StandardScaler 
import warnings
warnings.filterwarnings("ignore")

In [44]:
dados = pd.read_csv("/home/priscila/Downloads/1-Mat/dados/dataset_mat_p6.csv")
dados.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2938 entries, 0 to 2937
Data columns (total 22 columns):
 #   Column                           Non-Null Count  Dtype  
---  ------                           --------------  -----  
 0   Country                          2938 non-null   object 
 1   Year                             2938 non-null   int64  
 2   Status                           2938 non-null   object 
 3   Life expectancy                  2928 non-null   float64
 4   Adult Mortality                  2928 non-null   float64
 5   infant deaths                    2938 non-null   int64  
 6   Alcohol                          2744 non-null   float64
 7   percentage expenditure           2938 non-null   float64
 8   Hepatitis B                      2385 non-null   float64
 9   Measles                          2938 non-null   int64  
 10   BMI                             2904 non-null   float64
 11  under-five deaths                2938 non-null   int64  
 12  Polio               

In [33]:
dados.shape

(2938, 22)

In [45]:
dados.columns

Index(['Country', 'Year', 'Status', 'Life expectancy ', 'Adult Mortality',
       'infant deaths', 'Alcohol', 'percentage expenditure', 'Hepatitis B',
       'Measles ', ' BMI ', 'under-five deaths ', 'Polio', 'Total expenditure',
       'Diphtheria ', ' HIV/AIDS', 'GDP', ' Population',
       ' thinness  1-19 years', ' thinness 5-9 years',
       'Income composition of resources', 'Schooling'],
      dtype='object')

In [46]:
## Ajuste inicial dos dados
# Renomeando colunas
dados = dados.rename(columns={'Country': 'pais', 
                              'Year': 'ano',
                              'Status': 'status',
                              'Life expectancy ': 'expectativa_vida',
                              'Adult Mortality': 'mortalidade_adulta',
                              'infant deaths': 'mortalidade_infantil',
                              'Alcohol': 'alcool',
                              'percentage expenditure': 'percentual_gasto',
                              'Hepatitis B': 'hepatite_b',
                              'Measles ': 'sarampo',
                              ' BMI ': 'imc',
                              'under-five deaths ': 'mortalidade_menores_5_anos',
                              'Polio': 'polio',
                              'Total expenditure': 'gasto_total',
                              'Diphtheria ': 'difteria',
                              ' HIV/AIDS': 'hiv_aids',
                              'GDP': 'pib',
                              ' Population': 'populacao',
                              ' thinness  1-19 years': 'magreza_19',
                              ' thinness 5-9 years': 'magreza_9',
                              'Income composition of resources': 'composicao_renda',
                              'Schooling': 'escolaridade'})

In [47]:
dados.columns

Index(['pais', 'ano', 'status', 'expectativa_vida', 'mortalidade_adulta',
       'mortalidade_infantil', 'alcool', 'percentual_gasto', 'hepatite_b',
       'sarampo', 'imc', 'mortalidade_menores_5_anos', 'polio', 'gasto_total',
       'difteria', 'hiv_aids', 'pib', 'populacao', 'magreza_19', 'magreza_9',
       'composicao_renda', 'escolaridade'],
      dtype='object')

In [52]:
dados_dict = {
    "pais": "País de origem dos dados.",
    "expectativa_vida": "Expectativa de vida ao nascer, em anos.",
    "ano": "Ano em que os dados foram coletados.",
    "status": "Status de desenvolvimento do país ('Developing' para países em desenvolvimento, 'Developed' para países desenvolvidos).",
    "mortalidade_adulta": "Taxa de mortalidade de adultos entre 15 e 60 anos por 1000 habitantes.",
    "mortalidade_infantil": "Número de mortes de crianças com menos de 5 anos por 1000 nascidos vivos.",
    "alcool": "Consumo de álcool per capita (litros de álcool puro por ano).",
    "hepatite_b": "Cobertura de vacinação contra hepatite B em crianças de 1 ano (%).",
    "sarampo": "Número de casos de sarampo relatados por 1000 habitantes.",
    "imc": "Índice médio de massa corporal da população adulta.",
    "polio": "Cobertura de vacinação contra poliomielite em crianças de 1 ano (%).",
    "difteria": "Cobertura de vacinação contra difteria, tétano e coqueluche (DTP3) em crianças de 1 ano (%).",
    "hiv_aids": "Prevalência de HIV na população adulta (%).",
    "pib": "Produto Interno Bruto per capita (em dólares americanos).",
    "gasto_total": "Gasto total em saúde como porcentagem do PIB.",
    "magreza_19": "Prevalência de magreza em crianças e adolescentes de 10 a 19 anos (%).",
    "magreza_9": "Prevalência de magreza em crianças de 5 a 9 anos (%).",
    "escolaridade": "Número médio de anos de escolaridade.",
    "populacao": "População total do país."
}
len(dados_dict)

19

In [53]:
dados.sample(5)

Unnamed: 0,pais,ano,status,expectativa_vida,mortalidade_adulta,mortalidade_infantil,alcool,percentual_gasto,hepatite_b,sarampo,...,polio,gasto_total,difteria,hiv_aids,pib,populacao,magreza_19,magreza_9,composicao_renda,escolaridade
2560,Tajikistan,2008,Developing,66.4,178.0,10,0.32,4.153363,86.0,0,...,87.0,5.58,86.0,0.3,76.914128,739728.0,3.8,3.8,0.592,10.8
1589,Malaysia,2012,Developing,74.5,129.0,3,0.53,101.609245,97.0,1868,...,97.0,4.1,97.0,0.1,1779.49641,2917456.0,7.9,7.7,0.776,12.9
2337,Slovakia,2007,Developed,74.4,14.0,0,10.58,0.0,99.0,0,...,99.0,7.76,99.0,0.1,,,1.3,1.4,0.802,14.5
270,Belize,2001,Developing,68.2,21.0,0,4.9,251.658693,96.0,0,...,96.0,4.5,96.0,0.4,3419.275719,254984.0,3.7,3.7,0.677,11.8
2913,Zambia,2008,Developing,55.7,45.0,31,2.12,153.678375,87.0,140,...,9.0,4.87,87.0,11.9,1369.68249,1382517.0,6.8,6.7,0.504,11.4


## Análise Exploratória

In [54]:
dados.describe()

Unnamed: 0,ano,expectativa_vida,mortalidade_adulta,mortalidade_infantil,alcool,percentual_gasto,hepatite_b,sarampo,imc,mortalidade_menores_5_anos,polio,gasto_total,difteria,hiv_aids,pib,populacao,magreza_19,magreza_9,composicao_renda,escolaridade
count,2938.0,2928.0,2928.0,2938.0,2744.0,2938.0,2385.0,2938.0,2904.0,2938.0,2919.0,2712.0,2919.0,2938.0,2490.0,2286.0,2904.0,2904.0,2771.0,2775.0
mean,2007.51872,69.224932,164.796448,30.303948,4.602861,738.251295,80.940461,2419.59224,38.321247,42.035739,82.550188,5.93819,82.324084,1.742103,7483.158469,12753380.0,4.839704,4.870317,0.627551,11.992793
std,4.613841,9.523867,124.292079,117.926501,4.052413,1987.914858,25.070016,11467.272489,20.044034,160.445548,23.428046,2.49832,23.716912,5.077785,14270.169342,61012100.0,4.420195,4.508882,0.210904,3.35892
min,2000.0,36.3,1.0,0.0,0.01,0.0,1.0,0.0,1.0,0.0,3.0,0.37,2.0,0.1,1.68135,34.0,0.1,0.1,0.0,0.0
25%,2004.0,63.1,74.0,0.0,0.8775,4.685343,77.0,0.0,19.3,0.0,78.0,4.26,78.0,0.1,463.935626,195793.2,1.6,1.5,0.493,10.1
50%,2008.0,72.1,144.0,3.0,3.755,64.912906,92.0,17.0,43.5,4.0,93.0,5.755,93.0,0.1,1766.947595,1386542.0,3.3,3.3,0.677,12.3
75%,2012.0,75.7,228.0,22.0,7.7025,441.534144,97.0,360.25,56.2,28.0,97.0,7.4925,97.0,0.8,5910.806335,7420359.0,7.2,7.2,0.779,14.3
max,2015.0,89.0,723.0,1800.0,17.87,19479.91161,99.0,212183.0,87.3,2500.0,99.0,17.6,99.0,50.6,119172.7418,1293859000.0,27.7,28.6,0.948,20.7


### Análise da variável alvo

In [None]:
dados['expectativa_vida'].hist(bins=20)
plt.title('Distribuição da Expectativa de Vida')
plt.xlabel('Expectativa de Vida (anos)')
plt.ylabel('Frequência')
plt.show()