# UNIVERSIDAD DE LA HABANA, MATCOM
## Proyecto Final: Análisis Estadístico del World Happiness Report
### Curso 2025-2026

---

**Objetivo General:** Realizar un análisis estadístico comprehensive del World Happiness Report para identificar patrones, diferencias significativas entre regiones, y factores que influyen en la felicidad.

**Preguntas de Investigación:**
1. ¿Existe una diferencia significativa en la felicidad entre países Nórdicos y Latinoamérica?
2. ¿Qué factores socioeconómicos tienen mayor peso en cada región?
3. ¿Se agrupan los países naturalmente según sus indicadores de bienestar?

## Importación de Librerías y Configuración del Notebook

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.preprocessing import StandardScaler
from sklearn.cluster import KMeans
from sklearn.decomposition import PCA
import scipy.stats as stats
import statsmodels.api as sm


## 1. Definición del Problema y Carga de Datos

Se cargan los datos del World Happiness Report para análisis posterior. El dataset contiene indicadores de bienestar para múltiples países alrededor del mundo.

In [None]:
# Read raw unprocessed data
df = pd.read_csv('../data/happiness-data.csv')

## 2. Preparación de Datos

In [None]:
df_clean = df.dropna().copy()

# 3. Define the lists for your specific analysis
nordic_countries = ['Finland', 'Denmark', 'Iceland', 'Norway', 'Sweden']
latam_countries = [
    'Argentina', 'Bolivia', 'Brazil', 'Chile', 'Colombia', 'Costa Rica', 
    'Dominican Republic', 'Ecuador', 'El Salvador', 'Guatemala', 
    'Honduras', 'Mexico', 'Nicaragua', 'Panama', 'Paraguay', 'Peru', 
    'Uruguay', 'Venezuela'
]

# 4. Create the 'Region_Tag' column
def categorize_region(country):
    if country in nordic_countries:
        return 'Nordic'
    elif country in latam_countries:
        return 'Latam'
    else:
        return 'Other'

df_clean['Region_Tag'] = df_clean['Country name'].apply(categorize_region)

## 3. Análisis Exploratorio de Datos (EDA)

Generamos estadísticas descriptivas y visualizaciones clave para entender la distribución y relaciones de los indicadores de felicidad entre países y regiones.

## 4. Aplicación de Técnicas Estadísticas

### 4.1 Pruebas de Hipótesis
**Integrante A**

Objetivo: Comparar medias de felicidad entre grupos, especialmente entre países Nórdicos y Latinoamérica.

### 4.2 Análisis de Regresión
**Integrante B**

Objetivo: Modelar la influencia del PIB, Soporte Social y otros factores socioeconómicos en la felicidad.

### 4.3 Clustering y PCA
**Integrante C**

Objetivo: Identificar grupos naturales en los datos y reducir dimensionalidad mediante análisis de componentes principales.

## 5. Conclusiones

### Síntesis de Hallazgos

En esta sección se deben documentar los principales hallazgos del análisis:

1. **Comparación Regional**: 
   - Resumen de las diferencias significativas encontradas entre países Nórdicos y Latinoamérica
   - Interpretación de las pruebas estadísticas realizadas

2. **Factores Socioeconómicos**:
   - Principales variables que influyen en la felicidad según el análisis de regresión
   - Importancia relativa de cada factor por región

3. **Agrupamientos Naturales**:
   - Grupos de países identificados mediante clustering
   - Patrones comunes dentro de cada grupo
   - Distancias entre componentes principales identificadas

### Respuesta a las Preguntas de Investigación

1. **¿Existe una diferencia significativa en la felicidad entre países Nórdicos y LatAm?**
   - *Respuesta*: [Completar con análisis de p-values y medias]

2. **¿Qué factores socioeconómicos tienen mayor peso en cada región?**
   - *Respuesta*: [Completar con coeficientes de regresión más significativos]

3. **¿Se agrupan los países naturalmente según sus indicadores?**
   - *Respuesta*: [Completar con resultados de clustering y características de grupos]

### Recomendaciones y Futuros Análisis

- Posibles mejoras en el modelado
- Variables adicionales a considerar
- Análisis longitudinal si hay datos disponibles
- Validación de resultados con datos más recientes