# 1. Selección de un Conjunto de Datos

## Introducción

Para entender las razones que subyacen al funcionamiento de la felicidad en diferentes países, hemos decidido trabajar con la base de datos **World Happiness Report**. Este conjunto de datos, disponible en [Kaggle](https://www.kaggle.com/datasets), proporciona información detallada sobre los niveles de felicidad de los países en todo el mundo, basándose en varios indicadores sociales, económicos y políticos.

## ¿Por qué la base de datos World Happiness Report?

El **World Happiness Report** clasifica los países según su nivel de felicidad, utilizando una serie de variables que reflejan diferentes aspectos del bienestar. Los datos que hemos utilizado provienen de las ediciones más recientes del informe y contienen los siguientes campos:

- **Country**: Nombre del país.
- **Region**: Región geográfica del país.
- **Happiness Rank**: Posición del país en el ranking global de felicidad.
- **Happiness Score**: Índice que refleja el nivel de felicidad en el país.
- **Lower Confidence Interval**: Intervalo inferior de confianza para la puntuación de felicidad.
- **Upper Confidence Interval**: Intervalo superior de confianza para la puntuación de felicidad.
- **Economy (GDP per Capita)**: Producto Interno Bruto (PIB) per cápita.
- **Family**: Medida del apoyo social basado en la familia.
- **Health (Life Expectancy)**: Esperanza de vida saludable.
- **Freedom**: Libertad para tomar decisiones en la vida.
- **Trust (Government Corruption)**: Confianza en el gobierno y la corrupción.
- **Generosity**: Nivel de generosidad en la sociedad.
- **Dystopia Residual**: Valor residual relacionado con una hipotética sociedad distópica.

## Objetivo

El objetivo principal de este análisis es comprender mejor cómo influyen los distintos factores en los niveles de felicidad de los países. Al explorar la relación entre estos indicadores y los niveles de felicidad, buscamos identificar patrones y posibles factores clave que contribuyen al bienestar en difentes regiones del mundo.

egiones del mundo.



# User
Con matplotlib genera al menos tres tipos de visualizaciones que sean relevantes para el analisis

# 2. Creación de la Base de Datos con SQLite

## Introducción

Para almacenar y gestionar los datos del **World Happiness Report** de los años 2015 y 2016, decidimos crear una base de datos SQLite. Este proceso incluye la creación de las tablas correspondientes y la importación de los archivos CSV con los datos. A continuación, se describe el código y los pasos realizados.

## Código para Crear la Base de Datos e Importar los Archivos CSV

1. **Abrir el cmd y lanzar el shell de SQLite:**
   
   Primero, abrimos la terminal (cmd) y ejecutamos el siguiente comando para lanzar el shell de SQLite y crear la base de datos `happiness_data.db`:

   ```bash
   sqlite3 happ
    ```

Esto:
- Crea la base de datos `happiness_data.db` si no existe.
- Si la base de datos ya existe, la abre para trabajar con ella.

### 2. Crear las tablas para los datos de 2015 y 2016

Crea las tablas `happiness_2015` y `happiness_2016` para almacenar los datos de cada año:

```sql
CREATE TABLE happiness_2015 (
    Country TEXT PRIMARY KEY,
    Region TEXT,
    Happiness_Rank INTEGER,
    Happiness_Score REAL,
    Standard_Error REAL,
    Economy_GDP_per_Capita REAL,
    Family REAL,
    Health_Life_Expectancy REAL,
    Freedom REAL,
    Trust_Government_Corruption REAL,
    Generosity REAL,
    Dystopia_Residual REAL
);

CREATE TABLE happiness_2016 (
    Country TEXT PRIMARY KEY,
    Region TEXT,
    Happiness_Rank INTEGER,
    Happiness_Score REAL,
    Standard_Error REAL,
    Economy_GDP_per_Capita REAL,
    Family REAL,
    Health_Life_Expectancy REAL,
    Freedom REAL,
    Trust_Government_Corruption REAL,
    Generosity REAL,
    Dystopia_Residual REAL
);

### 3. Cambiar el modo de importación a CSV

Configura el modo de SQLite para leer archivos CSV:

```sql
.mode```

### 4. Importar los archivos CSV a las tablas creadas

```sql
.import happiness_2015.csv happiness_2015
.import happiness_2016.csv happhapiiness_201

``` csv
ness_data.db


## Analisis de datos con pandas

### Importe de datos desde SQLite

In [None]:
import sqlite3
import pandas as pd
import matplotlib.pyplot as plt

# Conectar a la base de datos SQLite
conn = sqlite3.connect('happiness_data.db')

# Leer las tablas de los años 2015 y 2016 en DataFrames de pandas
df_2015 = pd.read_sql_query("SELECT * FROM happiness_2015", conn)
df_2015 = df_2015.drop(0)  # Elimina la primera fila ya que es el encabezado
df_2016 = pd.read_sql_query("SELECT * FROM happiness_2016", conn)
df_2016 = df_2016.drop(0)  # Elimina la primera fila ya que es el encabezado

# Cerrar la conexión
conn.close()


In [None]:
df_2015

In [None]:
df_2016

## Análisis Exploratorio de Datos - World Happiness Report
### 1. Descripción estadística básica

In [None]:
print("Descripción estadística de datos 2015:")
print(df_2015.describe())


In [None]:
# Medidas de tendencia central y dispersión para variables numéricas en 2015
numeric_cols = ['Happiness_Score', 'Economy_GDP_per_Capita', 'Family', 
                'Health_Life_Expectancy', 'Freedom', 
                'Trust_Government_Corruption', 'Generosity', 'Dystopia_Residual']

# Función para calcular estadísticos
def calcular_estadisticos(dataframe, columnas):
    resultados = {}
    for col in columnas:
        estadisticos = {
            'Media': dataframe[col].mean(),
            'Mediana': dataframe[col].median(),
            'Moda': dataframe[col].mode().values[0],  # Primer valor si hay múltiples modas
            'Desviación Estándar': dataframe[col].std()
        }
        resultados[col] = estadisticos
    return resultados

# Calcular estadísticos para 2015
estadisticos_2015 = calcular_estadisticos(df_2015, numeric_cols)

# Imprimir resultados
print("Estadísticos descriptivos para 2015:")
for variable, stats in estadisticos_2015.items():
    print(f"\n{variable}:")
    for stat_nombre, stat_valor in stats.items():
        print(f"{stat_nombre}: {stat_valor:.4f}")

In [None]:

print("\nDescripción estadística de datos 2016:")
print(df_2016.describe())

In [None]:

# Lo mismo para 2016
estadisticos_2016 = calcular_estadisticos(df_2016, numeric_cols)

print("\n\nEstadísticos descriptivos para 2016:")
for variable, stats in estadisticos_2016.items():
    print(f"\n{variable}:")
    for stat_nombre, stat_valor in stats.items():
        print(f"{stat_nombre}: {stat_valor:.4f}")


### 2. Identificación de valores faltantes

In [None]:

print("\nValores nulos en 2015:")
print(df_2015.isnull().sum())

In [None]:
print("\nValores nulos en 2016:")
print(df_2016.isnull().sum())


### Detección de valores atípicos

In [None]:

def detect_outliers(df, column):
    Q1 = df[column].quantile(0.25)
    Q3 = df[column].quantile(0.75)
    IQR = Q3 - Q1
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    outliers = df[(df[column] < lower_bound) | (df[column] > upper_bound)]
    return outliers, lower_bound, upper_bound

# Variables numéricas para análisis de outliers
numeric_cols = ['Happiness_Score', 'Economy_GDP_per_Capita', 'Family', 
                'Health_Life_Expectancy', 'Freedom', 
                'Trust_Government_Corruption', 'Generosity', 'Dystopia_Residual']

# Análisis de outliers para cada variable en 2015
print("\nAnálisis de Outliers en 2015:")
for col in numeric_cols:
    outliers, lower, upper = detect_outliers(df_2015, col)
    print(f"\nOutliers en {col}:")
    print(f"Límite inferior: {lower}")
    print(f"Límite superior: {upper}")
    print(f"Número de outliers: {len(outliers)}")
    print("Países outliers:")
    print(outliers[['Country', col]])

### 3. Transformaciones o filtrados necesarios para el analisis

In [None]:

# Filtrar países de LATAM 2015
# Convertir 'Happiness_Score' a tipo numérico (forzando errores a NaN)
df_2015['Happiness_Score'] = pd.to_numeric(df_2015['Happiness_Score'], errors='coerce')

# Filtrar países de LATAM
latam_2015 = df_2015[df_2015['Region'] == 'Latin America and Caribbean']

# Obtener los 10 países con mayor puntuación de felicidad
top_happiness_2015 = df_2015.nlargest(10, 'Happiness_Score')

# 2. Comparación de factores entre LATAM y top de felicidad
# Columnas para comparar
factor_columns = [
    'Happiness_Score', 
    'Economy_GDP_per_Capita', 
    'Family', 
    'Health_Life_Expectancy', 
    'Freedom',
    'Trust_Government_Corruption', 
    'Generosity', 
    'Dystopia_Residual'
]

# Calcular promedios de LATAM y top de felicidad
latam_avg = latam_2015[factor_columns].mean()
top_avg = top_happiness_2015[factor_columns].mean()

# Crear DataFrame comparativo
comparison_df = pd.DataFrame({
    'LATAM_Average': latam_avg,
    'Top_Happiness_Average': top_avg
})
comparison_df['Difference'] = comparison_df['Top_Happiness_Average'] - comparison_df['LATAM_Average']
comparison_df['Percentage_Difference'] = (comparison_df['Difference'] / comparison_df['LATAM_Average']) * 100

print("Comparación de factores entre LATAM y top mas felices:")
print(comparison_df)

In [None]:
top_happiness_2015.head(5)

In [None]:
latam_2015.head(5)

In [None]:
# Filtrar países de LATAM 2016
# Convertir 'Happiness_Score' a tipo numérico (forzando errores a NaN)
df_2016['Happiness_Score'] = pd.to_numeric(df_2016['Happiness_Score'], errors='coerce')

# Filtrar países de LATAM
latam_2016 = df_2016[df_2016['Region'] == 'Latin America and Caribbean']

# Obtener los 10 países con mayor puntuación de felicidad
top_happiness_2016 = df_2016.nlargest(10, 'Happiness_Score')

# 2. Comparación de factores entre LATAM y top de felicidad
# Columnas para comparar
factor_columns = [
    'Happiness_Score', 
    'Economy_GDP_per_Capita', 
    'Family', 
    'Health_Life_Expectancy', 
    'Freedom', 
    'Trust_Government_Corruption', 
    'Generosity', 
    'Dystopia_Residual'
]

# Calcular promedios de LATAM y top de felicidad
latam_avg = latam_2016[factor_columns].mean()
top_avg = top_happiness_2016[factor_columns].mean()

# Crear DataFrame comparativo
comparison_df = pd.DataFrame({
    'LATAM_Average': latam_avg,
    'Top_Happiness_Average': top_avg
})
comparison_df['Difference'] = comparison_df['Top_Happiness_Average'] - comparison_df['LATAM_Average']
comparison_df['Percentage_Difference'] = (comparison_df['Difference'] / comparison_df['LATAM_Average']) * 100

print("Comparación de factores entre LATAM y top mas felices:")
print(comparison_df)

In [None]:
latam_2016.head(5)

In [None]:
top_happiness_2016.head(5)

##  Visualización de datos con matplotlib:

### Mapa mostrando los paises más felices 2015

In [None]:
import folium  # Para crear mapas interactivos
from IPython.display import display  # Para mostrar el mapa en Notebook

# Coordenadas reales para los países
latam_coordinates = {
    'Costa Rica': [9.7489, -83.7534],
    'Mexico': [23.6345, -102.5528],
    'Brazil': [-14.2350, -51.9253],
    'Venezuela': [6.4238, -66.5897],
    'Panama': [8.5380, -80.7821]
}

global_coordinates = {
    'Switzerland': [46.8182, 8.2275],
    'Iceland': [64.9631, -19.0208],
    'Denmark': [56.2639, 9.5018],
    'Norway': [60.4720, 8.4689],
    'Canada': [56.1304, -106.3468]
}

# Crear un mapa base centrado en LATAM
mapa = folium.Map(location=[10, -70], zoom_start=3)

# Agregar marcadores para los países de LATAM con números
for idx, (country, coord) in enumerate(latam_coordinates.items(), start=1):
    folium.Marker(
        location=coord,
        popup=f"<b>{country}</b>: #{idx} en LATAM",
        icon=folium.Icon(color='blue', icon=f'{idx}')
    ).add_to(mapa)

# Agregar marcadores para los países globales con números
for idx, (country, coord) in enumerate(global_coordinates.items(), start=1):
    folium.Marker(
        location=coord,
        popup=f"<b>{country}</b>: #{idx} Global",
        icon=folium.Icon(color='red', icon=f'{idx}')
    ).add_to(mapa)

# Mostrar el mapa interactivo
display(mapa)


### Mapa mostrando los paises más felices 2016

In [None]:
import folium  # Para crear mapas interactivos
from IPython.display import display  # Para mostrar el mapa en Notebook

# Coordenadas reales para los países LATAM y globales en 2016
latam_coordinates_2016 = {
    'Costa Rica': [9.7489, -83.7534],
    'Puerto Rico': [18.2208, -66.5901],
    'Brazil': [-14.2350, -51.9253],
    'Mexico': [23.6345, -102.5528],
    'Chile': [-35.6751, -71.5430]
}

global_coordinates_2016 = {
    'Denmark': [56.2639, 9.5018],
    'Switzerland': [46.8182, 8.2275],
    'Iceland': [64.9631, -19.0208],
    'Norway': [60.4720, 8.4689],
    'Finland': [61.9241, 25.7482]
}

# Crear un mapa base centrado en LATAM
mapa = folium.Map(location=[10, -70], zoom_start=3)

# Agregar marcadores para los países de LATAM 2016 con números
for idx, (country, coord) in enumerate(latam_coordinates_2016.items(), start=1):
    folium.Marker(
        location=coord,
        popup=f"<b>{country}</b>: #{idx} en LATAM 2016",
        icon=folium.Icon(color='blue', icon='info-sign')
    ).add_to(mapa)

# Agregar marcadores para los países globales 2016 con números
for idx, (country, coord) in enumerate(global_coordinates_2016.items(), start=1):
    folium.Marker(
        location=coord,
        popup=f"<b>{country}</b>: #{idx} Global 2016",
        icon=folium.Icon(color='red', icon='star')
    ).add_to(mapa)

# Mostrar el mapa interactivo
display(mapa)


### Gráfico 1: Comparación de promedios entre LATAM y Top Global

In [None]:

plt.figure(figsize=(10, 6))
comparison_df[['LATAM_Average', 'Top_Happiness_Average']].plot.bar(figsize=(12, 6), width=0.8, edgecolor='black')
plt.title('Comparación de Factores Promedio: LATAM vs Top Global (2015 y 2016)', fontsize=16)
plt.ylabel('Promedio', fontsize=12)
plt.xticks(rotation=45)
plt.legend(['LATAM', 'Global'], loc='upper left')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

### Gráfico 2: Diferencia absoluta entre LATAM y Global

In [None]:

plt.figure(figsize=(10, 6))
comparison_df['Difference'].plot(kind='bar', color='orange', edgecolor='black')
plt.title('Diferencia Absoluta en Factores: Top Global - LATAM', fontsize=16)
plt.ylabel('Diferencia Absoluta', fontsize=12)
plt.xticks(rotation=45)
plt.axhline(0, color='black', linewidth=0.8, linestyle='--')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

### Gráfico 3: Diferencia porcentual entre LATAM y Global

In [None]:
plt.figure(figsize=(10, 6))
comparison_df['Percentage_Difference'].plot(kind='bar', color='green', edgecolor='black')
plt.title('Diferencia Porcentual en Factores: Top Global vs LATAM', fontsize=16)
plt.ylabel('Diferencia Porcentual (%)', fontsize=12)
plt.xticks(rotation=45)
plt.axhline(0, color='black', linewidth=0.8, linestyle='--')
plt.grid(axis='y', linestyle='--', alpha=0.7)
plt.tight_layout()
plt.show()

In [None]:
conn = sqlite3.connect('happiness_data.db')  # Ajusta la ruta si es necesario
    
# Cambiar la consulta para la región correcta
latam_data = pd.read_sql_query(f"SELECT * FROM happiness_2015 WHERE Region = 'Latin America and Caribbean'", conn)
top_happiness_data = pd.read_sql_query(f"SELECT * FROM happiness_2015 ORDER BY Happiness_Score DESC LIMIT 6", conn)  # Limitamos a los 5 primeros países globales
top_happiness_data = top_happiness_data.drop(0)
    
conn.close()

### Gráfico 4: Comparación de Happiness Score

In [None]:
import seaborn as sns

# Concatenar los datos de LATAM y Top Global
latam_top_countries = latam_data.nlargest(5, 'Happiness_Score')[['Country', 'Happiness_Score']]
global_top_countries = top_happiness_data[['Country', 'Happiness_Score']].head(5)

# Unir los DataFrames de LATAM y Top Global
comparison_data = pd.concat([latam_top_countries, global_top_countries], axis=0)

# Graficar
plt.figure(figsize=(10, 6))
sns.barplot(data=comparison_data, x='Country', y='Happiness_Score', palette="Blues_d")
plt.title('Comparación de Happiness Score entre LATAM y el Top Global')
plt.ylabel('Happiness Score')
plt.xticks(rotation=45)
plt.show()  # Mostrar el gráfico en el notebook


### Gráfico 5: Comparación de Happiness Score

In [None]:
# Calcular la media de los factores para LATAM y Top Global
latam_avg = latam_data[['Economy_GDP_per_Capita', 'Family', 'Health_Life_Expectancy', 
                        'Freedom', 'Trust_Government_Corruption', 'Generosity']].mean()
top_avg = top_happiness_data[['Economy_GDP_per_Capita', 'Family', 'Health_Life_Expectancy', 
                              'Freedom', 'Trust_Government_Corruption', 'Generosity']].mean()

# Crear el DataFrame de comparación
comparison_df = pd.DataFrame({
    'LATAM': latam_avg,
    'Top Global': top_avg
})

# Asegurarse de que los datos sean numéricos
comparison_df = comparison_df.apply(pd.to_numeric, errors='coerce')

# Verificar si hay valores nulos y manejarlos
if comparison_df.isnull().values.any():
    print("Algunos valores son nulos y serán ignorados en el gráfico.")
    comparison_df = comparison_df.fillna(0)  # Llenar los valores nulos con 0 o con el valor que consideres adecuado

# Graficar el heatmap
plt.figure(figsize=(10, 6))
sns.heatmap(comparison_df.T, annot=True, cmap='coolwarm', center=0)
plt.title('Comparación de Factores de Felicidad entre LATAM y Top Global')
plt.show()  # Mostrar el gráfico en el notebook
