<a href="https://colab.research.google.com/github/jtroconiz/AI/blob/main/Modulo1_Python.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>


# **Caso Práctico, Ejercicio 1:  Exploración y Análisis de Datos**
##  Módulo 1: Las Herramientas del Científico de Datos
### Maestría en Inteligencia Artificial (AI) - IMF
### Autor: Jesús Troconiz
### Portafolio: jtd.com.ar






# **Tabla de Contenido**:

1. [Descripción del Trabajo](#descripcion-del-trabajo)
2. [Descripción del Proyecto](#descripcion-del-proyecto)
3. [Librerías utilizadas](#librerias-utilizadas)
4. [Extracción, Limpieza y Transformación de los Datos (ETL)](#ETL)

   4.1 [Carga de los datos](#carga)
   4.2 [Identificación de las Columnas](#identificacion-de-las-columnas)
   4.3 [Unión de los DataFrames](#union-de-los-dataframes)
   4.4 [Manejo de Valores Nulos](#manejo-de-valores-nulos)
   4.5 [Resumen estadístico](#resumen-estadistico)

5. [Análisis Exploratorio](#analisis-exploratorio)

   5.1 [Relación Familia y Salud (Gráfica)](#relacion-familia-salud)
   5.2 [Relación Felicidad y Confianza (Gráfica)](#relacion-felicidad-confianza)
   5.3 [Matriz de Correlación](#matriz-correlacion)
   5.4 [Agrupar por País (Máximo Felicidad)](#agrupar-por-pais)
   5.5 [Relación Felicidad y Generosidad (Gráfica)](#relacion-felicidad-generosidad)
   5.6 [Distribución del Grado de Distopía por Región](#distribucion-distopia-region)




# <a id="descripcion-del-trabajo"></a>1. Descripción del Trabajo



Este proyecto se enmarca dentro del Módulo 1 del curso y se trata de un ejercicio práctico que tiene como objetivo aplicar los conocimientos adquiridos en el primer módulo del curso. El proyecto se basa en la exploración y análisis de datos del "Informe Mundial de la Felicidad" correspondiente a los años 2015 y 2016.

## Se pide:

Los objetivos principales de este proyecto son los siguientes:

1. Cargar los dos CSV como datasets.
2. Identificar las columnas de ambos datasets: ¿hay diferencias entre ambos?
3. Unir ambos dataframes, sin importar que los dos compartan las mismas diferencias.
4. Revisar el número de nulos que hay por cada columna, así como su porcentaje.
5. Cambiar los valores nulos de las columnas "Lower Confidence Interval" y "Upper Confidence Interval" por un número aleatorio entre el valor mínimo y máximo de la misma columna (un único número, no es necesario uno diferente para cada fila con valor nulo).
6. Cambiar los valores nulos de la columna "Standard Error" por su media al cuadrado.
7. Obtener un resumen estadístico del dataframe sin valores nulos.
8. Mostrar de forma gráfica la relación entre la familia y la salud.
9. Mostrar de forma gráfica la relación entre la puntuación de felicidad y la confianza (corrupción del gobierno).
10. Mostrar la matriz de correlación del dataframe.
11. Tras unir los dataframes, los países aparecerán más de una vez. Mostrar agrupado el dataframe por país con el valor máximo de felicidad, sin importar el año.
12. ¿Tiene relación la felicidad con la generosidad? Mostrarlo gráficamente a través de la puntuación de libertad.
13. Mostrar la distribución del grado de distopía en función de la región.
14. OBLIGATORIO: realizar la entrega desde un notebook en formato .ipynb.
15. OPCIONAL: de forma opcional, puede hacerse entrega del notebook como HTML.



# <a id="descripcion-del-proyecto"></a>2. Descripción del Proyecto



## Objetivo

El objetivo de este análisis de datos es utilizar la información contenida en el conjunto de datos del "Informe Mundial de la Felicidad" de los años 2015 y 2016 para comprender y explorar los patrones y las tendencias relacionadas con la felicidad a nivel global. Se busca identificar posibles correlaciones entre los factores clave que influyen en la felicidad de las personas y evaluar si existen diferencias significativas entre los años 2015 y 2016 en términos de puntuaciones de felicidad y factores asociados.

## Contexto

El conjunto de datos del "Informe Mundial de la Felicidad" contiene información detallada sobre la evaluación de la vida y diversos factores que contribuyen a la felicidad en múltiples países. Estos datos se obtuvieron a través de la encuesta mundial Gallup y se basan en las respuestas de los encuestados a la pregunta principal de evaluación de la vida, que utiliza una escala del 0 al 10 para calificar la satisfacción con la vida. Además de las puntuaciones de felicidad, el conjunto de datos incluye información sobre los siguientes factores clave:

1. Producción económica: Indica el nivel de desarrollo económico de un país.
2. Apoyo social: Representa la percepción de apoyo social y redes de apoyo en la vida de las personas.
3. Esperanza de vida: Refleja la esperanza de vida promedio en un país.
4. Libertad: Evalúa la percepción de libertad y la capacidad de tomar decisiones propias.
5. Ausencia de corrupción: Mide la percepción de corrupción en el gobierno y en la sociedad.
6. Generosidad: Refleja la generosidad de la población en términos de donaciones y ayuda a otros.

Estos factores se utilizan para estimar el grado en que contribuyen a la felicidad de los individuos en cada país. Además, se compara el desempeño de cada país con una "distopía" hipotética que representa el escenario menos feliz en términos de estos factores.

## Análisis de Datos

En el análisis de datos del "Informe Mundial de la Felicidad" correspondiente a los años 2015 y 2016, se llevará a cabo una serie de pasos clave utilizando herramientas como pandas, numpy, matplotlib, seaborn y plotly. Estos pasos incluyen la carga y preparación de los datos, la exploración de tendencias y patrones, la identificación de correlaciones entre variables y la visualización de resultados a través de gráficos. El objetivo es comprender mejor la relación entre la felicidad y los factores socioeconómicos y culturales, así como evaluar posibles diferencias entre los dos años estudiados. Este análisis proporcionará una visión más profunda de la felicidad a nivel global y su influencia en la toma de decisiones políticas y de bienestar.









# <a id="librerias-utilizadas"></a>3. Librerías Utilizadas

In [40]:
import pandas as pd
import seaborn as sns
import numpy as np

!pip install plotly
import plotly.express as px
import plotly.graph_objs as go




# <a id="etl"></a>4. Extracción, Limpieza y Transformación de los Datos (ETL)

## <a id="carga"></a> 4.1 Carga de los datos

In [5]:
df_2015 = pd.read_csv("2015.csv")
df_2016 = pd.read_csv("2016.csv")


## <a id="identificacion-de-las-columnas"></a> 4.2 Identificación de las Columnas

In [6]:
pd.set_option('display.max_columns', 500)
df_2015.head()


Unnamed: 0,Country,Region,Happiness Rank,Happiness Score,Standard Error,Economy (GDP per Capita),Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Dystopia Residual
0,Switzerland,Western Europe,1,7.587,0.03411,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2.51738
1,Iceland,Western Europe,2,7.561,0.04884,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2.70201
2,Denmark,Western Europe,3,7.527,0.03328,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139,2.49204
3,Norway,Western Europe,4,7.522,0.0388,1.459,1.33095,0.88521,0.66973,0.36503,0.34699,2.46531
4,Canada,North America,5,7.427,0.03553,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811,2.45176


In [7]:
df_2016.head()

Unnamed: 0,Country,Region,Happiness Rank,Happiness Score,Lower Confidence Interval,Upper Confidence Interval,Economy (GDP per Capita),Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Dystopia Residual
0,Denmark,Western Europe,1,7.526,7.46,7.592,1.44178,1.16374,0.79504,0.57941,0.44453,0.36171,2.73939
1,Switzerland,Western Europe,2,7.509,7.428,7.59,1.52733,1.14524,0.86303,0.58557,0.41203,0.28083,2.69463
2,Iceland,Western Europe,3,7.501,7.333,7.669,1.42666,1.18326,0.86733,0.56624,0.14975,0.47678,2.83137
3,Norway,Western Europe,4,7.498,7.421,7.575,1.57744,1.1269,0.79579,0.59609,0.35776,0.37895,2.66465
4,Finland,Western Europe,5,7.413,7.351,7.475,1.40598,1.13464,0.81091,0.57104,0.41004,0.25492,2.82596


In [8]:
df_2015.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 158 entries, 0 to 157
Data columns (total 12 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        158 non-null    object 
 1   Region                         158 non-null    object 
 2   Happiness Rank                 158 non-null    int64  
 3   Happiness Score                158 non-null    float64
 4   Standard Error                 158 non-null    float64
 5   Economy (GDP per Capita)       158 non-null    float64
 6   Family                         158 non-null    float64
 7   Health (Life Expectancy)       158 non-null    float64
 8   Freedom                        158 non-null    float64
 9   Trust (Government Corruption)  158 non-null    float64
 10  Generosity                     158 non-null    float64
 11  Dystopia Residual              158 non-null    float64
dtypes: float64(9), int64(1), object(2)
memory usage: 1

In [9]:
df_2016.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 157 entries, 0 to 156
Data columns (total 13 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        157 non-null    object 
 1   Region                         157 non-null    object 
 2   Happiness Rank                 157 non-null    int64  
 3   Happiness Score                157 non-null    float64
 4   Lower Confidence Interval      157 non-null    float64
 5   Upper Confidence Interval      157 non-null    float64
 6   Economy (GDP per Capita)       157 non-null    float64
 7   Family                         157 non-null    float64
 8   Health (Life Expectancy)       157 non-null    float64
 9   Freedom                        157 non-null    float64
 10  Trust (Government Corruption)  157 non-null    float64
 11  Generosity                     157 non-null    float64
 12  Dystopia Residual              157 non-null    flo

In [10]:
# Identificación de columnas
columnas_2015 = df_2015.columns
columnas_2016 = df_2016.columns

# Comparación de columnas
diferencias = set(columnas_2015) - set(columnas_2016)

print("Columnas en el dataset de 2015:", columnas_2015)
print("\nColumnas en el dataset de 2016:", columnas_2016)
print("\nDiferencias entre los datasets:", diferencias)

Columnas en el dataset de 2015: Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Standard Error', 'Economy (GDP per Capita)', 'Family',
       'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)',
       'Generosity', 'Dystopia Residual'],
      dtype='object')

Columnas en el dataset de 2016: Index(['Country', 'Region', 'Happiness Rank', 'Happiness Score',
       'Lower Confidence Interval', 'Upper Confidence Interval',
       'Economy (GDP per Capita)', 'Family', 'Health (Life Expectancy)',
       'Freedom', 'Trust (Government Corruption)', 'Generosity',
       'Dystopia Residual'],
      dtype='object')

Diferencias entre los datasets: {'Standard Error'}


In [11]:
diferencias2015 = df_2015.columns.difference(df_2016.columns)
diferencias2016 = df_2016.columns.difference(df_2015.columns)
print("Diferencias entre los datasets:", diferencias2015)
print("Diferencias entre los datasets:", diferencias2016)

Diferencias entre los datasets: Index(['Standard Error'], dtype='object')
Diferencias entre los datasets: Index(['Lower Confidence Interval', 'Upper Confidence Interval'], dtype='object')


### Diferencias entre los Datasets

Al comparar los datasets correspondientes a los años 2015 y 2016 del "Informe Mundial de la Felicidad", se identificaron diferencias significativas en las columnas de datos. Estas diferencias son las siguientes:

En el dataset de 2015:

Se encuentra la columna 'Standard Error', que no está presente en el dataset de 2016.
Por otro lado, en el dataset de 2016:

Se encuentran las columnas 'Lower Confidence Interval' y 'Upper Confidence Interval', las cuales no están presentes en el dataset de 2015.

## <a id="union-de-los-dataframes"></a> 4.3 Unión de los DataFrames

---



In [14]:
# Agregar una columna 'Año' a cada DataFrame
df_2015['Año'] = 2015
df_2016['Año'] = 2016

In [15]:
# inner join utilizando la columna "Country" como key
df = pd.concat([df_2015, df_2016], ignore_index=True)


In [16]:
df.head()

Unnamed: 0,Country,Region,Happiness Rank,Happiness Score,Standard Error,Economy (GDP per Capita),Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Dystopia Residual,Año,Lower Confidence Interval,Upper Confidence Interval
0,Switzerland,Western Europe,1,7.587,0.03411,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2.51738,2015,,
1,Iceland,Western Europe,2,7.561,0.04884,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2.70201,2015,,
2,Denmark,Western Europe,3,7.527,0.03328,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139,2.49204,2015,,
3,Norway,Western Europe,4,7.522,0.0388,1.459,1.33095,0.88521,0.66973,0.36503,0.34699,2.46531,2015,,
4,Canada,North America,5,7.427,0.03553,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811,2.45176,2015,,


In [17]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 315 entries, 0 to 314
Data columns (total 15 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        315 non-null    object 
 1   Region                         315 non-null    object 
 2   Happiness Rank                 315 non-null    int64  
 3   Happiness Score                315 non-null    float64
 4   Standard Error                 158 non-null    float64
 5   Economy (GDP per Capita)       315 non-null    float64
 6   Family                         315 non-null    float64
 7   Health (Life Expectancy)       315 non-null    float64
 8   Freedom                        315 non-null    float64
 9   Trust (Government Corruption)  315 non-null    float64
 10  Generosity                     315 non-null    float64
 11  Dystopia Residual              315 non-null    float64
 12  Año                            315 non-null    int

## <a id="manejo-de-valores-nulos"></a> 4.4 Manejo de Valores Nulos

In [18]:
df.describe()

Unnamed: 0,Happiness Rank,Happiness Score,Standard Error,Economy (GDP per Capita),Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Dystopia Residual,Año,Lower Confidence Interval,Upper Confidence Interval
count,315.0,315.0,158.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0,157.0,157.0
mean,79.238095,5.378949,0.047885,0.899837,0.892647,0.594054,0.399896,0.140532,0.239957,2.212032,2015.498413,5.282395,5.481975
std,45.538922,1.141531,0.017146,0.41078,0.286718,0.24079,0.150684,0.11549,0.130077,0.558728,0.500793,1.148043,1.136493
min,1.0,2.839,0.01848,0.0,0.0,0.0,0.0,0.0,0.0,0.32858,2015.0,2.732,3.078
25%,40.0,4.51,0.037268,0.5949,0.73988,0.419645,0.29589,0.061315,0.15143,1.884135,2015.0,4.327,4.465
50%,79.0,5.286,0.04394,0.97306,0.93793,0.64045,0.41319,0.10613,0.21854,2.21126,2015.0,5.237,5.419
75%,118.5,6.269,0.0523,1.229,1.08736,0.78764,0.51673,0.17861,0.31145,2.56347,2016.0,6.154,6.434
max,158.0,7.587,0.13693,1.82427,1.40223,1.02525,0.66973,0.55191,0.81971,3.83772,2016.0,7.46,7.669


In [19]:
valores_nulos = df.isnull().sum()

# Calcular el porcentaje de valores nulos en cada columna
porcentaje_nulos = (valores_nulos / len(df)) * 100

# Crear un DataFrame para mostrar los resultados
info_nulos = pd.DataFrame({'Valores Nulos': valores_nulos, 'Porcentaje de Nulos': porcentaje_nulos})

# Mostrar la información de valores nulos
print(info_nulos)

                               Valores Nulos  Porcentaje de Nulos
Country                                    0              0.00000
Region                                     0              0.00000
Happiness Rank                             0              0.00000
Happiness Score                            0              0.00000
Standard Error                           157             49.84127
Economy (GDP per Capita)                   0              0.00000
Family                                     0              0.00000
Health (Life Expectancy)                   0              0.00000
Freedom                                    0              0.00000
Trust (Government Corruption)              0              0.00000
Generosity                                 0              0.00000
Dystopia Residual                          0              0.00000
Año                                        0              0.00000
Lower Confidence Interval                158             50.15873
Upper Conf

In [20]:
# Calcular los valores mínimos y máximos de las columnas
min_lower_confidence = df['Lower Confidence Interval'].min()
max_lower_confidence = df['Lower Confidence Interval'].max()

min_upper_confidence = df['Upper Confidence Interval'].min()
max_upper_confidence = df['Upper Confidence Interval'].max()


In [25]:
# Reemplazar valores nulos en "Lower Confidence Interval" y "Upper Confidence Interval" con números aleatorios
df['Lower Confidence Interval'].fillna(np.random.uniform(min_lower_confidence, max_lower_confidence), inplace=True)
df['Upper Confidence Interval'].fillna(np.random.uniform(min_upper_confidence, max_upper_confidence), inplace=True)


# Reemplazar valores nulos en "Standard Error" con la media al cuadrado
mean_standard_error = df['Standard Error'].mean()
df['Standard Error'].fillna(mean_standard_error**2, inplace=True)


In [26]:
valores_nulos = df.isnull().sum()

# Calcular el porcentaje de valores nulos en cada columna
porcentaje_nulos = (valores_nulos / len(df)) * 100

# Crear un DataFrame para mostrar los resultados
info_nulos = pd.DataFrame({'Valores Nulos': valores_nulos, 'Porcentaje de Nulos': porcentaje_nulos})

# Mostrar la información de valores nulos
print(info_nulos)

                               Valores Nulos  Porcentaje de Nulos
Country                                    0                  0.0
Region                                     0                  0.0
Happiness Rank                             0                  0.0
Happiness Score                            0                  0.0
Standard Error                             0                  0.0
Economy (GDP per Capita)                   0                  0.0
Family                                     0                  0.0
Health (Life Expectancy)                   0                  0.0
Freedom                                    0                  0.0
Trust (Government Corruption)              0                  0.0
Generosity                                 0                  0.0
Dystopia Residual                          0                  0.0
Año                                        0                  0.0
Lower Confidence Interval                  0                  0.0
Upper Conf

## <a id="resumen-estadistico"></a> 4.5 Resumen Estadístico

In [27]:
df.describe()

Unnamed: 0,Happiness Rank,Happiness Score,Standard Error,Economy (GDP per Capita),Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Dystopia Residual,Año,Lower Confidence Interval,Upper Confidence Interval
count,315.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0,315.0
mean,79.238095,5.378949,0.025161,0.899837,0.892647,0.594054,0.399896,0.140532,0.239957,2.212032,2015.498413,4.467135,6.388442
std,45.538922,1.141531,0.025851,0.41078,0.286718,0.24079,0.150684,0.11549,0.130077,0.558728,0.500793,1.147758,1.208627
min,1.0,2.839,0.002293,0.0,0.0,0.0,0.0,0.0,0.0,0.32858,2015.0,2.732,3.078
25%,40.0,4.51,0.002293,0.5949,0.73988,0.419645,0.29589,0.061315,0.15143,1.884135,2015.0,3.657036,5.451
50%,79.0,5.286,0.01848,0.97306,0.93793,0.64045,0.41319,0.10613,0.21854,2.21126,2015.0,3.657036,7.289173
75%,118.5,6.269,0.04394,1.229,1.08736,0.78764,0.51673,0.17861,0.31145,2.56347,2016.0,5.2315,7.289173
max,158.0,7.587,0.13693,1.82427,1.40223,1.02525,0.66973,0.55191,0.81971,3.83772,2016.0,7.46,7.669


# <a id="analisis-exploratorio"></a> 5. Análisis Exploratorio

## <a id="relacion-familia-salud"></a> 5.1 Relación Familia y Salud (Gráfica)

In [80]:

# Crear un gráfico de dispersión (scatter plot) con Plotly
fig = px.scatter(df, x='Family', y='Health (Life Expectancy)', title='Relación entre Familia y Salud')

fig.update_layout(xaxis_title='Familia',
                  yaxis_title='Salud (Espectativa de vida)')

# Mostrar el gráfico en el Notebook
fig.show()

El gráfico sugiere una leve relación positiva  entre "Familia" y "Salud (Expectativa de Vida)", pero no indica una correlación fuerte ni directa.

##<a id="relacion-felicidad-confianza"></a> 5.2 Relación Felicidad y Confianza (Gráfica)

In [79]:
# Crear un gráfico de dispersión (scatter plot) con Plotly
fig = px.scatter(df, x='Happiness Score', y='Trust (Government Corruption)',
                 title='Relación entre la puntuación de felicidad  y la confianza (corrupción del gobierno).')

fig.update_layout(xaxis_title='Puntuación de felicidad',
                  yaxis_title='Confianza (corrupción del gobierno)')

# Mostrar el gráfico en el Notebook
fig.show()

Los puntos están esparcidos de manera que no sugieren una relación lineal obvia. Por lo tanto, basándose solo en este gráfico, sería razonable concluir que no hay una correlación evidente entre las dos variables.

## <a id="matriz-correlacion"></a> 5.3 Matriz de Correlación

In [61]:
# Calcular la matriz de correlación
correlation_matrix = df.corr()

# Crear una figura para mostrar la matriz de correlación con Plotly
fig = go.Figure(data=go.Heatmap(z=correlation_matrix.values,
                                x=correlation_matrix.columns,
                                y=correlation_matrix.index,
                                colorscale='Viridis'))

# Personalizar el diseño del gráfico
fig.update_layout(title='Matriz de Correlación',
                  xaxis_title='Variables',
                  yaxis_title='Variables')

# Mostrar la matriz de correlación en el Notebook
fig.show()





## <a id="agrupar-por-pais"></a> 5.4 Agrupar por País (Máximo Felicidad)

In [67]:

#Agrupar el DataFrame por país y obtener el máximo de felicidad
df_agrupado = df.groupby('Country', as_index=False)['Happiness Score'].max()

# Mostrar el DataFrame agrupado
print(df_agrupado )



         Country  Happiness Score
0    Afghanistan            3.575
1        Albania            4.959
2        Algeria            6.355
3         Angola            4.033
4      Argentina            6.650
..           ...              ...
159    Venezuela            6.810
160      Vietnam            5.360
161        Yemen            4.077
162       Zambia            5.129
163     Zimbabwe            4.610

[164 rows x 2 columns]


In [68]:

# Combinar el DataFrame original con el DataFrame agrupado para obtener todas las demás columnas
df_resultado = pd.merge(df, df_agrupado, on=['Country', 'Happiness Score'], how='inner')

# Mostrar el DataFrame completo resultado
print(df_resultado)

         Country                           Region  Happiness Rank  \
0    Switzerland                   Western Europe               1   
1        Iceland                   Western Europe               2   
2        Denmark                   Western Europe               3   
3         Norway                   Western Europe               4   
4         Canada                    North America               5   
..           ...                              ...             ...   
164   Madagascar               Sub-Saharan Africa             148   
165       Rwanda               Sub-Saharan Africa             152   
166        Benin               Sub-Saharan Africa             153   
167         Togo               Sub-Saharan Africa             155   
168        Syria  Middle East and Northern Africa             156   

     Happiness Score  Standard Error  Economy (GDP per Capita)   Family  \
0              7.587        0.034110                   1.39651  1.34951   
1              7.561 

In [69]:
df_agrupado.describe()

Unnamed: 0,Happiness Score
count,164.0
mean,5.437366
std,1.120456
min,2.905
25%,4.5695
50%,5.297
75%,6.30225
max,7.587


In [70]:
df_resultado.describe()

Unnamed: 0,Happiness Rank,Happiness Score,Standard Error,Economy (GDP per Capita),Family,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Dystopia Residual,Año,Lower Confidence Interval,Upper Confidence Interval
count,169.0,169.0,169.0,169.0,169.0,169.0,169.0,169.0,169.0,169.0,169.0,169.0,169.0
mean,77.769231,5.419538,0.026614,0.877757,0.886365,0.578561,0.399952,0.144118,0.240555,2.292228,2015.491124,4.39258,6.341916
std,45.007407,1.13055,0.028097,0.419272,0.296667,0.248018,0.154398,0.116709,0.131641,0.53119,0.501407,1.055773,1.216769
min,1.0,2.905,0.002293,0.0,0.0,0.0,0.0,0.0,0.0,0.65429,2015.0,2.732,3.078
25%,40.0,4.565,0.002293,0.54558,0.71629,0.38847,0.28098,0.06413,0.15011,1.97478,2015.0,3.657036,5.291
50%,78.0,5.291,0.02043,0.97438,0.91612,0.62366,0.41319,0.11023,0.219,2.2735,2015.0,3.657036,7.289173
75%,116.0,6.269,0.04454,1.24142,1.09774,0.76376,0.52234,0.18037,0.31105,2.59115,2016.0,5.063,7.289173
max,157.0,7.587,0.13693,1.69042,1.40223,1.02525,0.66973,0.52208,0.81971,3.83772,2016.0,7.351,7.475


In [73]:
# Crear un gráfico de dispersión (scatter plot) con Plotly para la relación entre felicidad y generosidad
fig = px.scatter(df, x='Generosity', y='Happiness Score', color='Freedom',
                 title='Relación entre Felicidad, Generosidad y Libertad')

# Personalizar el diseño del gráfico
fig.update_layout(xaxis_title='Generosidad',
                  yaxis_title='Puntuación de Felicidad')

# Mostrar el gráfico
fig.show()

# <a id="distribucion-distopia-region"></a> 5.6 Distribución del Grado de Distopía por Región

In [78]:
# Crear un gráfico de barras con Plotly para la distribución del grado de distopía por región
fig = px.bar(df, x='Region', y='Dystopia Residual', title='Distribución del Grado de Distopía por Región')

# Personalizar el diseño del gráfico
fig.update_layout(xaxis_title='Región',
                  yaxis_title='Grado de Distopía')

# Mostrar el gráfico en el Notebook
fig.show()

In [77]:
# Crear un gráfico de caja y bigotes (box plot) con Plotly para la distribución del grado de distopía por región
fig = px.box(df, x='Region', y='Dystopia Residual', title='Distribución del Grado de Distopía por Región')

# Personalizar el diseño del gráfico
fig.update_layout(xaxis_title='Región',
                  yaxis_title='Grado de Distopía')

# Mostrar el gráfico en el Notebook
fig.show()