En este ejemplo, se cargan los datos de los archivos CSV de Kaggle sobre la felicidad correspondientes a los años 2019 y 2029. Se utiliza la regresión lineal como algoritmo de aprendizaje supervisado para predecir el ranking de la expectativa de vida en 10 años. 

Se seleccionan las columnas relevantes (como el PIB, el apoyo social y la esperanza de vida saludable) como características (X) y el puntaje de felicidad (LifeLadder) como la variable objetivo (y). Luego, se divide el conjunto de datos en conjuntos de entrenamiento y prueba.

Después de entrenar el modelo de regresión lineal, se utiliza para hacer predicciones sobre los datos del año 2029. Las predicciones se ordenan en función del puntaje de felicidad previsto (LifeLadder) y se muestran los resultados.

Ten en cuenta que este es solo un ejemplo básico y se pueden realizar mejoras adicionales, como la selección de características, la optimización de hiperparámetros y la evaluación del rendimiento del modelo. Además, asegúrate de proporcionar la ruta correcta a los archivos CSV de Kaggle en tu entorno.

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split

In [None]:

# Definir la ruta donde se encuentra la carpeta y los CSVs que iremos trabajar
ruta_datos_preprocesados = '../data/ficheros_procesados/datos_preprocesados_limpios.csv'

# Creación del DataFrame
happiness_2019 = pd.read_csv(ruta_datos_preprocesados, delimiter=",", engine="python")


In [None]:

# Preparar los datos de entrenamiento y prueba
X = happiness_2019[['GDP', 'SocialSupport', 'HealthyLifeExpectancy']]
y = happiness_2019['LifeLadder']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Crear y entrenar el modelo de regresión lineal
model = LinearRegression()
model.fit(X_train, y_train)

# Predecir el ranking de la expectativa de vida en 10 años
X_future = happiness_2029[['GDP', 'SocialSupport', 'HealthyLifeExpectancy']]
y_future = model.predict(X_future)

# Mostrar los resultados de la predicción
predictions = pd.DataFrame({'Country': happiness_2029['Country'], 'LifeLadder (2029)': y_future})
predictions = predictions.sort_values('LifeLadder (2029)', ascending=False)
print(predictions)
