### Cálculo da expectativa de vida, um estudo usando regressão linear múltipla

In [57]:
# Importando as bibliotecas necessárias
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split


In [58]:
# Importando dados para o estudo
data = pd.read_csv('expec_vida.csv')

# Separação das variáveis independentes (Renda per Cápita (US$), PIB (US$ bilhões), População (milhões)) e dependentes (Expectativa de Vida (anos))
x = data[['Renda per Cápita (US$)', 'PIB (US$ bilhões)', 'População (milhões)']].values
y = data['Expectativa de Vida (anos)'].values

# Salvando os países para futuramente colocar na previsão
countries = data['País'].values

data.head()

Unnamed: 0,País,Renda per Cápita (US$),PIB (US$ bilhões),População (milhões),Expectativa de Vida (anos)
0,Estados Unidos,65.118,21433,331.0,79.11
1,China,10.262,14342,1402.0,76.91
2,Japão,40.847,5082,126.3,84.67
3,Alemanha,46.259,3861,83.2,81.33
4,Índia,2.338,2869,1366.0,69.66


In [59]:
# Divisao dos dados em treino e teste
x_train, x_test, y_train, y_test, countries_train, countries_test = train_test_split(x, y, countries, test_size=5, random_state=2)

In [60]:
# Verificando o tamanho dos conjuntos
print(f"Conjunto de treino: {len(x_train)}")
print(f"Conjunto de teste: {len(x_test)}")

Conjunto de treino: 44
Conjunto de teste: 5


In [61]:
# Adicionar uma coluna com o valor "1" para o termo de intercepto
x_train_intercepto = np.c_[np.ones(x_train.shape[0]), x_train]
x_test_intercepto = np.c_[np.ones(x_test.shape[0]), x_test]

In [62]:
# Calculo  dos coeficientes beta usando a fórmula dos mínimos quadrados
beta = np.linalg.inv(x_train_intercepto.T @ x_train_intercepto) @ x_train_intercepto.T @ y_train

# Fazendo as previsões no conjunto de teste
y_pred = x_test_intercepto @ beta

In [63]:
# Calculo do erro quadrático médio
mse = np.mean((y_test - y_pred) ** 2)

In [64]:
# Exibindo resultados
print("beta:", beta)
print("mse:", mse)

beta: [ 7.35007313e+01  1.65230481e-01  3.64466839e-05 -2.62340295e-03]
mse: 6.581703789849567


In [67]:
# Valores reais vs previstos
previsao = pd.DataFrame({'País': countries_test, 'Real': y_test, 'Previsto': y_pred})

previsao

Unnamed: 0,País,Real,Previsto
0,Bélgica,81.69,81.170232
1,Coreia do Sul,82.59,78.686403
2,Hungria,76.75,76.43081
3,Holanda,82.17,82.135
4,Chile,80.1,75.941012
