Para predecir los valores del índice de expectativa de vida en 10 años, puedes utilizar un algoritmo de regresión lineal. Scikit-learn ofrece el módulo LinearRegression que puede ser utilizado para este propósito [2]. A continuación, se presenta un ejemplo de cómo puedes codificarlo para tu proyecto de Happiness:

https://www.datasource.ai/es/data-science-articles/una-guia-para-principiantes-sobre-la-regresion-lineal-en-python-con-scikit-learn

https://cienciadedatos.net/documentos/py27-forecasting-series-temporales-python-scikitlearn.html




Importa las bibliotecas necesarias:

In [49]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression


In [50]:
# Definir la ruta donde se encuentra la carpeta y los CSVs que iremos trabajar
ruta_datos_preprocesados = '../data/ficheros_procesados/datos_preprocesados_limpios.csv'

# Creación del DataFrame
data = pd.read_csv(ruta_datos_preprocesados, delimiter=",", engine="python")
data.head()

Unnamed: 0,Year,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity
0,2015,Denmark,Western Europe,7.527,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139
1,2015,Norway,Western Europe,7.522,1.459,1.33095,0.88521,0.66973,0.36503,0.34699
2,2015,Finland,Western Europe,7.406,1.29025,1.31826,0.88911,0.64169,0.41372,0.23351
3,2015,Sweden,Western Europe,7.364,1.33171,1.28907,0.91087,0.6598,0.43844,0.36262
4,2016,Denmark,Western Europe,7.526,1.44178,1.16374,0.79504,0.57941,0.44453,0.36171


In [51]:
data.drop(['Year', 'Country', 'Region'], axis=1, inplace=True)
data.head()

data.columns

Index(['Happiness Score', 'Economy (GDP per Capita)', 'Social support',
       'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)',
       'Generosity'],
      dtype='object')

Prepara tus datos de entrada y salida. Supongamos que tienes una matriz X con los datos históricos de diferentes variables relevantes, como la economía, salud y calidad de vida, y un vector y con los valores del índice de expectativa de vida correspondientes:

In [52]:
# Separar los datos para Escalar (Incluir en el CSV)

# Datos históricos de diferentes variables
X = data[['Economy (GDP per Capita)', 'Social support', 'Health (Life Expectancy)', \
        'Freedom', 'Trust (Government Corruption)', 'Generosity']]  

y = data['Health (Life Expectancy)']  # Valores del índice de expectativa de vida


Divide tus datos en conjuntos de entrenamiento y prueba. Esto te permitirá evaluar el rendimiento del modelo en datos no vistos:

In [53]:
X_train = X[:-10]  # Datos de entrenamiento (todos menos los últimos 10 años)
y_train = y[:-10]  # Valores del índice de expectativa de vida para entrenamiento

X_test = X[-10:]   # Datos de prueba (últimos 10 años)


Crea una instancia del modelo de regresión lineal:

In [54]:
model = LinearRegression()


Ajusta el modelo a los datos de entrenamiento:

In [55]:
model.fit(X_train, y_train)


Realiza la predicción para los datos de prueba:

In [56]:
y_pred = model.predict(X_test)


Obtén los valores predichos del índice de expectativa de vida para los próximos 10 años:

In [57]:
print(y_pred)


[0.828605 0.828605 0.828605 0.828605 0.828605 0.828605 0.763    0.772
 0.782    0.763   ]


Recuerda que este es solo un ejemplo básico de cómo utilizar la regresión lineal en scikit-learn para predecir valores futuros. Es importante tener en cuenta que la precisión de las predicciones dependerá de la calidad de los datos y de otros factores. Además, existen otros algoritmos de aprendizaje automático, como los modelos de series temporales, que podrían ser más adecuados para predecir valores futuros en datos secuenciales y temporales [1]. Debes considerar el contexto específico de tu proyecto y explorar diferentes enfoques para encontrar la mejor solución.

Recuerda también que, a medida que avanzan los años, los datos pueden cambiar y otros factores pueden influir en la expectativa de vida. Por lo tanto, es importante actualizar y refinar regularmente tus modelos para obtener predicciones más precisas.