# Predicción del Happiness Score usando Regresión Lineal.

El [**World Happiness Report**](https://worldhappiness.report/) es una publicación anual que clasifica a los países en función de su nivel de felicidad. Este nivel de felicidad o **Happiness Score** está influenciado por varios factores socioeconómicos y de bienestar, tales como el PIB per cápita, el apoyo social, la esperanza de vida saludable, la libertad para tomar decisiones de vida, la generosidad, la percepción de corrupción y la percepción del estado de ánimo.

En la práctica utilizaremos técnicas de regresión lineal para predecir el *Happiness Score* a partir de los factores mencionados, usando el conjunto de datos. 

### Objetivos de la práctica:


* Análisis Exploratorio de Datos (EDA): Entender la estructura del conjunto de datos, visualizar las relaciones entre variables y determinar las correlaciones.
* Implementar Regresión Lineal: Entrenar un modelo de regresión lineal para predecir el *Happiness Score* usando los factores disponibles en el conjunto de datos.
    *  Regularización: Explorar si la regularización (Ridge y Lasso) es útil en este caso.
    *  Escalado de Variables: Determinar si es necesario escalar las variables antes de ajustar los modelos.
* Evaluación del Modelo: Comparar las métricas de rendimiento del modelo (RMSE, R²) en distintos escenarios (con y sin regularización, con y sin escalado).


### Archivo de datos.

El fichero `happiness.csv` contiene en formato *csv* el conjunto de datos que utilizaremos en la práctica. Asegúrate de que contiene las siguientes columnas:

* `Country`: Nombre del país.
* `year`: Para cada país los años en los que hay registros.
* `Life Ladder`: o Happiness Score: Índice de felicidad (variable objetivo a predecir).
* `Log GDP per capita`:  PIB per cápita en escala logarítmica.
* `Social Support`: Apoyo social percibido. Es la media nacional a la pregunta Si o no (1/0) "Si tuvieses problemas ¿Tienes familia o amigos con los que contar si los necesitas?"
* `Healthy Life Expectancy`: Esperanza de vida saludable
* `Freedom to Make Life Choices`: Libertad para tomar decisiones sobre la vi De nuevo media nacional a la pregunta Si o no (1/0) "¿Estás satisfecho con la libertad que tienes para elegir lo que quieres en tu vida?"
* `Generosity`: Generosidad de la población. Promedio nacional de las respuestas a la pregunta "¿Ha donado dinero a una organización benéfica en el último mes? Se calcula eliminando el efecto del PIB per cápita, ajustando las donaciones a lo que se esperaría dado el nivel de riqueza del país (PIB per cápita). El residual representa cuánto más (o menos) dona una nación, en comparación con lo que predeciría el PIB per cápita.
* `Perception of Corruption`: Percepción de la corrupción La medida es el promedio nacional de las respuestas a dos preguntas de la encuesta: "¿Está la corrupción generalizada en el gobierno o no?" y "¿Está la corrupción generalizada en las empresas o no?". La percepción general es simplemente el promedio de las dos respuestas, que son 0 o 1.
  
* `Positive affect`: Es el promedio de tres medidas de afecto positivo en la encuesta: risa, disfrute y realización de actividades interesantes. Se calcula a partir de las respuestas a preguntas como "¿Reíste o sonreíste mucho ayer?", "¿Experimentaste disfrute durante gran parte del día?", y "¿Aprendiste o hiciste algo interesante ayer?". De nuevo media entre 0 y 1.
  
* `Negative affect`: Es el promedio de tres medidas de afecto negativo: preocupación, tristeza y enfado, obtenidas a partir de preguntas como "¿Te sentiste preocupado durante gran parte del día?", "¿Te sentiste triste durante gran parte del día?", y "¿Te sentiste enfadado durante gran parte del día?". De nuevo media entre 0 y 1.



## Predicción del *Happiness Score* 2023.

Vamos a empezar tomando solamente los datos correspondientes al año 2023. Lo primero que haremos será limitar el análisis a aquellos países para los que hay información en ese año.

Con esos datos haremos lo siguiente:

[Paso 1: Análisis Exploratorio de Datos (EDA)](#Paso1)

[Paso 2: Regresión Lineal](#Paso2)

[Paso 3: Escalado de las Variables](#Paso3)

[Paso 4: Regularización (Ridge y Lasso)](#Paso4)

[Paso 5: Comparación Final](#Paso5)

<a id="Paso1"></a>
## Paso 1: Análisis Exploratorio de Datos (EDA)

* Carga el conjunto de datos y describe las características principales del mismo.
* Visualiza las distribuciones de las variables numéricas usando histogramas.
* Calcula la matriz de correlación y visualízala con un mapa de calor. Identifica las variables que están más correlacionadas con el Happiness Score.
* Realiza gráficos de dispersión (scatterplot) para estudiar las relaciones entre el *Happiness Score* y cada uno de los factores.

In [3]:
import pandas as pd
happy_2023 = pd.read_csv('..\Archivos\happiness.csv', sep=';', decimal=',', encoding='ISO-8859-1')

<a id="Paso2"></a>
## Paso 2: Regresión Lineal

* Define el **Happiness Score** como la variable dependiente y las demás columnas como variables independientes.
* Ajusta un modelo de Regresión Lineal con el conjunto de datos sin realizar ninguna modificación (sin escalado ni regularización).
* Usa *train_test_split* para dividir los datos en conjuntos de entrenamiento y test.
* Calcula y muestra las métricas de rendimiento, como el RMSE (*Root Mean Squared Error*) y el R² en el conjunto de test.

<a id="Paso3"></a>
## Paso 3: Escalado de las Variables

* Realiza el escalado de las variables independientes usando StandardScaler.
* Ajusta un nuevo modelo de regresión lineal con los datos escalados.
* Evalúa el impacto del escalado en el rendimiento del modelo, comparando con los resultados del modelo sin escalar.

<a id="Paso4"></a>
## Paso 4: Regularización (Ridge y Lasso)

* Implementa la Regresión Ridge y Lasso usando las variables escaladas.
* Experimenta con diferentes valores del parámetro de regularización alpha.
* Evalúa los coeficientes del modelo y observa cómo la regularización afecta a las variables menos relevantes (coeficientes cercanos a cero en el caso de Lasso).
* Compara las métricas de rendimiento en el conjunto de prueba con las de la regresión lineal simple.

<a id="Paso5"></a>
## Paso 5: Comparación Final

* Genera una tabla comparativa con las métricas de rendimiento para los siguientes modelos:
   * Regresión lineal sin escalado.
   * Regresión lineal con escalado.
   * Ridge (con escalado).
   * Lasso (con escalado).

* Discute los resultados, centrándote en:
  * ¿Es necesaria la regularización en este caso?
  * ¿Cuál es el impacto de escalar las variables antes de aplicar regularización?
  * ¿Cuál modelo ofrece mejores resultados?