# **Memoria del Análisis Exploratorio de Datos: World Happiness Report (2015-2024)**

## **1. Introducción y Contexto**

### **1.1 Propósito del Proyecto**
Este análisis exploratorio de datos se realizó con el objetivo de identificar los factores determinantes de la felicidad a nivel mundial utilizando datos del **World Happiness Report** (2015-2024). El enfoque principal fue identificar patrones, tendencias y correlaciones entre países y regiones, con atención específica al impacto de la pandemia de COVID-19.

**Hipótesis de investigación:**
1. **Hipótesis principal**: La pandemia COVID-19 (2020-2022) causó una disrupción significativa en los niveles de felicidad global.
2. **Hipótesis secundarias**:
   - Los países con mayor PIB per cápita presentan mayores puntuaciones de felicidad.
   - El apoyo social es el factor con mayor correlación con la felicidad.
   - Los países nórdicos mantienen consistentemente las posiciones más altas.
   - Los conflictos socio-políticos generan efectos en cadena en regiones vecinas.

### **1.2 Contexto del Dataset**
El World Happiness Report es una encuesta anual que clasifica a los países según su nivel de felicidad percibida. La puntuación principal se basa en la Escalera de Cantril y se complementa con indicadores socioeconómicos.

#### **Variables Analizadas:**
- **`Happiness score`**: Puntuación de felicidad (escala 0-10).
- **`GDP per capita`**: PIB per cápita ajustado por paridad de poder adquisitivo.
- **`Social support`**: Percepción de apoyo social disponible.
- **`Healthy life expectancy`**: Esperanza de vida saludable al nacer.
- **`Freedom to make life choices`**: Percepción de libertad para tomar decisiones vitales.
- **`Generosity`**: Medida a través de donaciones recientes a caridad.
- **`Perceptions of corruption`**: Percepción de corrupción en gobierno y empresas.
- **Variables de contexto**: `Country`, `Year`, `Region`, `Continent`.

## **2. Metodología**

### **2.1 Enfoque del EDA**
El análisis se estructuró en cinco fases secuenciales:
1. Comprensión y preparación de datos.
2. Análisis univariante de distribuciones.
3. Análisis bivariante y multivariante de relaciones.
4. Análisis temporal de tendencias (2017-2024).
5. Análisis geográfico por continentes y regiones.

### **2.2 Herramientas**
- **Lenguaje**: Python 3.9+
- **Librerías principales**: Pandas, NumPy, Matplotlib, Seaborn.
- **Entorno**: Jupyter Notebook.

## **3. Limpieza y Preprocesamiento**

### **3.1 Problemas Identificados y Soluciones**
| Problema | Impacto | Solución |
|----------|---------|----------|
| Variables numéricas como strings | Imposibilidad de análisis cuantitativo | Conversión a `float` |
| Valores nulos en región | 3 registros sin clasificación | Asignación manual basada en investigación |
| Inconsistencias regionales | 23 países con múltiples regiones | Estandarización por moda regional |
| Datos corruptos en GDP (2015-2016) | Valores atípicos imposibles (>9) | Exclusión de los años 2015-2016 |
| Nomenclatura inconsistente de países | Dificultad en análisis geográfico | Estandarización con `country_converter` |

### **3.2 Dataset Final**
- **Período analizado**: 2017-2024 (8 años).
- **Registros totales**: 1,186.
- **Países únicos**: 163.
- **Variables principales**: 6 numéricas + 5 categóricas.

## **4. Análisis Univariante**

### **4.1 Distribución de Variables Clave**
- **`Happiness Score`**: Rango 1.721 - 7.842; Media 5.467; Distribución casi normal.
- **`GDP per Capita`**: Rango 0.121 - 10.000; Media 5.799; Asimetría positiva (0.33).
- **`Social Support`**: Rango 0.000 - 1.000; Media 0.693; Mayoría >0.7.
- **`Healthy Life Expectancy`**: Rango 39 - 85 años; Media 67.36 años.

## **5. Análisis Bivariante y Multivariante**

### **5.1 Matriz de Correlación**
La correlación más fuerte con el `Happiness Score` es **`Social Support` (r = 0.744)**. Otras correlaciones significativas son `Healthy Life Expectancy` (r = 0.660) y `GDP per capita` (r = 0.635). `Generosity` (r = 0.106) y `Perceptions of Corruption` (r = 0.072) muestran una relación débil.

### **5.2 Varianza Explicada (R²)**
- **`Social Support`**: Explica el 55.4% de la variación en el puntaje de felicidad.
- **`Healthy Life Expectancy`**: 43.6%.
- **`GDP per capita`**: 40.4%.
- **`Freedom to make life choices`**: 34.9%.
- **`Generosity` y `Perceptions of Corruption`**: Contribución marginal (<1.2%).

## **6. Análisis Temporal (2017-2024)**

### **6.1 Evolución Global y Impacto COVID-19**
Se observó una caída global significativa en el `Happiness Score` en 2020 (-0.21 puntos vs. 2019), confirmando el impacto disruptivo de la pandemia. La recuperación comenzó en 2021, superando los niveles pre-pandemia en 2023.

**Evolución Promedio del Happiness Score:**
- 2019: 5.48
- 2020: 5.27 (Pico de impacto)
- 2022: 5.49 (Recuperación)
- 2024: 5.55 (Tendencia positiva)

### **6.2 Comportamiento por Variable durante la Pandemia**
- **`GDP per capita`**: Caída del 4.2% (2020-2021), con recuperación del 5.1% posterior.
- **`Healthy Life Expectancy`**: Reducción de 1.5 años durante la pandemia, con recuperación parcial.
- **`Social Support`**: Disminución leve (1.8%).
- **`Freedom to make life choices`**: Se mantuvo estable.

## **7. Análisis Geográfico**

### **7.1 Ranking por Continente (Promedio 2017-2024)**
| Continente | Happiness Score | GDP per Capita | Social Support |
|------------|----------------|----------------|----------------|
| Europa | 6.25 | 7.12 | 0.82 |
| América | 5.89 | 6.45 | 0.78 |
| Asia | 5.32 | 5.87 | 0.69 |
| África | 4.15 | 3.21 | 0.52 |

### **7.2 Desigualdad Intracontinental**
África presenta la mayor desigualdad (Coeficiente de Variación: 0.18), con un rango de felicidad entre 2.8 (Sudán del Sur) y 6.5 (Mauricio). Europa muestra la mayor homogeneidad (CV: 0.09).

### **7.3 Casos de Estudio Regionales**
- **Países Nórdicos**: Dominan consistentemente el Top 5 global. Demostraron alta resiliencia durante la pandemia (caída un 30% menor que el promedio europeo).
- **América Latina**: Exhibe una "paradoja de la felicidad" con puntajes relativamente altos a pesar de un PIB moderado, atribuible a fuertes redes sociales.
- **África Subsahariana**: Mostró el impacto más severo del COVID-19 y la recuperación más lenta, vinculada a sistemas de salud menos preparados.

## **8. Hallazgos y Validación de Hipótesis**

### **8.1 Validación de Hipótesis**
- **Hipótesis Principal (Impacto COVID-19)**: **Confirmada**. Caída estadísticamente significativa en 2020 (p < 0.001).
- **H1 (PIB per cápita)**: **Parcialmente confirmada**. Existe una correlación moderada-fuerte (r=0.635), pero con outliers notables (ej., Costa Rica con alta felicidad y PIB moderado).
- **H2 (Apoyo social)**: **Confirmada**. Es el factor con mayor correlación (r=0.744) y mayor varianza explicada (R²=55.4%).
- **H3 (Países nórdicos)**: **Confirmada**. Finlandia ha ocupado el primer puesto global de 2017 a 2024.
- **H4 (Efectos en cadena de conflictos)**: **Confirmada**. Se observaron impactos regionales, como los efectos económicos positivos inesperados de la guerra en Ucrania en las economías de África Occidental.

### **8.2 Conclusiones Principales**
1.  La felicidad es un constructo multifactorial donde los elementos sociales (`Social Support`) superan en importancia a los económicos (`GDP per capita`) como predictores.
2.  La pandemia de COVID-19 actuó como un factor de estrés global que exacerbó las desigualdades preexistentes entre regiones y sistemas de bienestar.
3.  Los modelos de bienestar integral, como el nórdico, demostraron mayor resiliencia ante crisis globales.
4.  En un mundo interconectado, los conflictos geopolíticos tienen repercusiones económicas y sociales transfronterizas.


---
**Autor**: Andrea Altamirano
**Bootcamp**: Data Science
**Fecha**: 05-12-2025