# Solución 1: Ejercicio resuelto con Python

**Nota:** Para que funcione correctamente este notebook, el notebook y los dos archivos de datos .csv han de estar en la misma carpeta, y ha de ser el actual Working Directory. Si no deseas cambiar el working directory o no deseas poner estos archivos en él, puedes cambiar el path en las dos celdas de importación de los datasets para reflejar el directorio donde has guardado los .csv


## Apartado 0  
*Paso opcional en caso de que quieras comprobar y cambiar el working directory. Ten en cuenta que cuando reinicies el kernel, el WD definido aquí desaparecerá y volverá a ser el que está definido por defecto. Debes descomentar las líneas de código.*  
*Si no deseas cambiar el WD, salta hasta el Apartado 1*

In [1]:
import os

In [2]:
os.getcwd()

'/Users/dj/Documents'

In [3]:
# Aquí has de poner el path donde están los 3 archivos.
# os.chdir("path_completo_del_nuevo_directorio_de_trabajo")
os.chdir("/Users/dj/Downloads/9 Processing Big Data/PROYECTO FINAL")

____

## Apartado 1: Importación de las librerías necesarias

In [4]:
# Importamos las librerías más comunes para el resto del Notebook
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

____

## Apartado 2: Importamos los datasets a dataframes

In [5]:
# Leemos los csv con Pandas
# Recuerda que si no has cambiado el directorio de trabajo, has de cambiar estas rutas y poner las de los archivos
file1 = pd.read_csv("world-happiness-report.csv")
file2 = pd.read_csv("world-happiness-report-2021.csv")

In [6]:
# Creamos unos dataframes con las importaciones
df1 = pd.DataFrame(file1)
df1.head()

Unnamed: 0,Country name,year,Life Ladder,Log GDP per capita,Social support,Healthy life expectancy at birth,Freedom to make life choices,Generosity,Perceptions of corruption,Positive affect,Negative affect
0,Afghanistan,2008,3.724,7.37,0.451,50.8,0.718,0.168,0.882,0.518,0.258
1,Afghanistan,2009,4.402,7.54,0.552,51.2,0.679,0.19,0.85,0.584,0.237
2,Afghanistan,2010,4.758,7.647,0.539,51.6,0.6,0.121,0.707,0.618,0.275
3,Afghanistan,2011,3.832,7.62,0.521,51.92,0.496,0.162,0.731,0.611,0.267
4,Afghanistan,2012,3.783,7.705,0.521,52.24,0.531,0.236,0.776,0.71,0.268


In [7]:
df2 = pd.DataFrame(file2)
df2.head()

Unnamed: 0,Country name,Regional indicator,Ladder score,Standard error of ladder score,upperwhisker,lowerwhisker,Logged GDP per capita,Social support,Healthy life expectancy,Freedom to make life choices,Generosity,Perceptions of corruption,Ladder score in Dystopia,Explained by: Log GDP per capita,Explained by: Social support,Explained by: Healthy life expectancy,Explained by: Freedom to make life choices,Explained by: Generosity,Explained by: Perceptions of corruption,Dystopia + residual
0,Finland,Western Europe,7.842,0.032,7.904,7.78,10.775,0.954,72.0,0.949,-0.098,0.186,2.43,1.446,1.106,0.741,0.691,0.124,0.481,3.253
1,Denmark,Western Europe,7.62,0.035,7.687,7.552,10.933,0.954,72.7,0.946,0.03,0.179,2.43,1.502,1.108,0.763,0.686,0.208,0.485,2.868
2,Switzerland,Western Europe,7.571,0.036,7.643,7.5,11.117,0.942,74.4,0.919,0.025,0.292,2.43,1.566,1.079,0.816,0.653,0.204,0.413,2.839
3,Iceland,Western Europe,7.554,0.059,7.67,7.438,10.878,0.983,73.0,0.955,0.16,0.673,2.43,1.482,1.172,0.772,0.698,0.293,0.17,2.967
4,Netherlands,Western Europe,7.464,0.027,7.518,7.41,10.932,0.942,72.4,0.913,0.175,0.338,2.43,1.501,1.079,0.753,0.647,0.302,0.384,2.798


<br>

#### Vamos a hacer un filtrado de ambos dataframes para quedarnos con las columnas que nos interesan para responder a las preguntas planteadas.

In [8]:
# Incluímos la columna "year" en el dataframe del 2021
df2["year"] = 2021
# Comprobamos que todos los registros del año son iguales a 2021
df2.year.head()

0    2021
1    2021
2    2021
3    2021
4    2021
Name: year, dtype: int64

In [9]:
# Para el dataframe con todos los años
f_df1 = df1[["Country name", "year", "Life Ladder", "Log GDP per capita", "Healthy life expectancy at birth"]]
# Renombramos las columnas por comodidad
f_df1.columns = ["Country", "Year", "Ladder", "GDP", "Life expectancy"]
f_df1.head()

Unnamed: 0,Country,Year,Ladder,GDP,Life expectancy
0,Afghanistan,2008,3.724,7.37,50.8
1,Afghanistan,2009,4.402,7.54,51.2
2,Afghanistan,2010,4.758,7.647,51.6
3,Afghanistan,2011,3.832,7.62,51.92
4,Afghanistan,2012,3.783,7.705,52.24


In [10]:
# Ahora para el del 2021
f_df2 = df2[["Country name", "year", "Ladder score", "Logged GDP per capita", "Healthy life expectancy"]]
# Renombramos las columnas por comodidad
f_df2.columns = ["Country", "Year", "Ladder", "GDP", "Life expectancy"]
f_df2.head()

Unnamed: 0,Country,Year,Ladder,GDP,Life expectancy
0,Finland,2021,7.842,10.775,72.0
1,Denmark,2021,7.62,10.933,72.7
2,Switzerland,2021,7.571,11.117,74.4
3,Iceland,2021,7.554,10.878,73.0
4,Netherlands,2021,7.464,10.932,72.4


#### Ahora los dos dataframes tienen el mismo formato. Vamos a concatenarlos para tener un sólo dataframe con todos los datos.

In [11]:
df_maestro = pd.concat([f_df1, f_df2]).sort_values(by=["Country","Year"]).reset_index(drop=True)
df_maestro

Unnamed: 0,Country,Year,Ladder,GDP,Life expectancy
0,Afghanistan,2008,3.724,7.370,50.800
1,Afghanistan,2009,4.402,7.540,51.200
2,Afghanistan,2010,4.758,7.647,51.600
3,Afghanistan,2011,3.832,7.620,51.920
4,Afghanistan,2012,3.783,7.705,52.240
...,...,...,...,...,...
2093,Zimbabwe,2017,3.638,8.016,55.000
2094,Zimbabwe,2018,3.616,8.049,55.600
2095,Zimbabwe,2019,2.694,7.950,56.200
2096,Zimbabwe,2020,3.160,7.829,56.800


#### Hacemos una inspección de los datos resultantes

In [12]:
df_maestro.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2098 entries, 0 to 2097
Data columns (total 5 columns):
 #   Column           Non-Null Count  Dtype  
---  ------           --------------  -----  
 0   Country          2098 non-null   object 
 1   Year             2098 non-null   int64  
 2   Ladder           2098 non-null   float64
 3   GDP              2062 non-null   float64
 4   Life expectancy  2043 non-null   float64
dtypes: float64(3), int64(1), object(1)
memory usage: 82.1+ KB


**Observamos que varios países tienen valores nulos en GDP y Life expectancy, por lo cual los cálculos de agregación mundial no reflejarán la realidad**

____

## Apartado 3: Empezamos a responder las preguntas del enunciado

### *Pregunta 1: País más feliz del 2021*

In [13]:
# Seleccionamos de los registros del año 2021, los ordenamos de mayor a menor y seleccionamos sólo el primero 
df_maestro[df_maestro.Year==2021].sort_values(by="Ladder", ascending=False).head(1)

Unnamed: 0,Country,Year,Ladder,GDP,Life expectancy
604,Finland,2021,7.842,10.775,72.0


#### Respuesta: El país más feliz del 2021 fue Finlandia
<br>
<br>

### *Pregunta 2: País más feliz por continente del 2021*

El primer dataframe con el histórico de varios años no tiene una columna para las zonas geográficas o continentes.  
El dataframe del 2021 sí tiene una columna para zonas geográficas. Observamos que hay 12 zonas geográficas definidas, que no son en sí continentes, pero las tomaremos para definir la respuesta al enunciado. Sólo están definidas en el dataframe del año 2021, por lo que hay que extraerlas y añadirlas al dataframe total.

In [21]:
# Creo un diccionario 
diccionario = {}
# Agrupo por continente escogiendo sólo las dos columnas que me interesan para ahorrar memoria
grupos = df2[["Regional indicator", "Country name"]].groupby("Regional indicator")
# Iteramos por las zonas para sacar los paises de cada una
for conti, linea in grupos:
    paises = linea["Country name"].unique()
    diccionario[conti] = paises.tolist()

In [16]:
# Ahora usaré el método .apply() de pandas para aplicar una función a toda una columna del dataframe para crear la columna de los continentes.
# La función que aplicaré la voy a definir:
def crear_conti(pais):
    for c, p in diccionario.items():
        if pais in p:
            return c

# Ahora aplicamos  la función con apply()
df_maestro["Continental zone"] = df_maestro.Country.apply(crear_conti)
df_maestro

Unnamed: 0,Country,Year,Ladder,GDP,Life expectancy,Continental zone
0,Afghanistan,2008,3.724,7.370,50.800,South Asia
1,Afghanistan,2009,4.402,7.540,51.200,South Asia
2,Afghanistan,2010,4.758,7.647,51.600,South Asia
3,Afghanistan,2011,3.832,7.620,51.920,South Asia
4,Afghanistan,2012,3.783,7.705,52.240,South Asia
...,...,...,...,...,...,...
2093,Zimbabwe,2017,3.638,8.016,55.000,Sub-Saharan Africa
2094,Zimbabwe,2018,3.616,8.049,55.600,Sub-Saharan Africa
2095,Zimbabwe,2019,2.694,7.950,56.200,Sub-Saharan Africa
2096,Zimbabwe,2020,3.160,7.829,56.800,Sub-Saharan Africa


In [17]:
# Reduciremos los datos al 2021, los agruparemos por zonas continentales y buscaremos los índices con mayor ladder
indexes = df_maestro.query("Year == 2021").groupby("Continental zone").Ladder.idxmax()
# Ahora recuperamos esos índices del dataframe, nos quedamos sólo las columnas descriptivas y reindexamos de mayor a menor Ladder
winners = df_maestro.iloc[indexes][["Continental zone", "Country", "Ladder"]].sort_values(by="Ladder", ascending=False).reset_index(drop=True)

#### Respuesta: Países más felices de 2021 por zona continental:

In [18]:
winners

Unnamed: 0,Continental zone,Country,Ladder
0,Western Europe,Finland,7.842
1,North America and ANZ,New Zealand,7.277
2,Middle East and North Africa,Israel,7.157
3,Latin America and Caribbean,Costa Rica,7.069
4,Central and Eastern Europe,Czech Republic,6.965
5,East Asia,Taiwan Province of China,6.584
6,Southeast Asia,Singapore,6.377
7,Commonwealth of Independent States,Uzbekistan,6.179
8,Sub-Saharan Africa,Mauritius,6.049
9,South Asia,Nepal,5.269


<br>
<br>

### *Pregunta 3: País que más veces ha sido el más feliz en la totalidad de años*

In [19]:
# Agrupamos por año, cogemos los más felices, hacemos un ranking e identificamos sus índices
anual_winners = df_maestro.groupby("Year").Ladder.idxmax()
anual_winners

Year
2005     482
2006     591
2007     483
2008     484
2009     485
2010     486
2011     487
2012    1782
2013     322
2014     490
2015    1407
2016     599
2017     600
2018     601
2019     602
2020     603
2021     604
Name: Ladder, dtype: int64

In [375]:
# Localizamos los índices de los ganadores anuales en el dataframe maestro, y contamos cada aparición
absolute_winner = df_maestro.iloc[anual_winners].Country.value_counts()
absolute_winner

Country
Denmark        7
Finland        7
Switzerland    1
Canada         1
Norway         1
Name: count, dtype: int64

#### Respuesta: Hay dos ganadores absolutos con el mismo número de años en primer puesto: Dinamarca y Finlandia
<br>
<br>

### *Pregunta 4: ¿Qué puesto de felicidad tiene el país con mayor GDP del mundo en 2020?*

In [386]:
# Filtramos por el 2020 y nos quedamos con las columnas representativas:
puestos = df_maestro.query("Year == 2020").drop(["Year", "Life expectancy", "Continental zone"], axis=1)
# Ya que no nos piden el valor del Ladder, sino su ranking, añado un ranking para los Ladder en orden descendiente, para que el mayor sea el 1
puestos["Ladder ranking"] = puestos.Ladder.rank(ascending=False)
# Una vez añadido el ranking a cada país, los ordenamos por GDP descendente
puestos = puestos.sort_values(by="GDP", ascending=False)
# Y ahora mostramos el primero
puestos.head(1)


Unnamed: 0,Country,Ladder,GDP,Ladder ranking
858,Ireland,7.035,11.323,13.0


#### Respuesta: Irlanda fue el país con más GDP en 2020, y su ránking de felicidad fue el nº 13
<br>
<br>

### *Pregunta 5: Porcentaje de variación del GDP medio mundial del 2020 al 2021*

In [388]:
# 
gdp_2020 = df_maestro.query("Year == 2020").GDP.mean()
gdp_2020

9.751329545454544

In [389]:
gdp_2021 = df_maestro.query("Year == 2021").GDP.mean()
gdp_2021

9.432208053691275

In [448]:
variacion = round(((gdp_2021 - gdp_2020) / gdp_2020 * 100), 6)
variacion

-3.272595

#### Respuesta: El GDP mundial disminuyó un 3.272595 aproximadamente.
<br>
<br>

### *Pregunta 6: ¿Cuál es el país con mayor expectativa de vida en 2021, y sus resultados en 2020 y 2019?*

In [490]:
life_2021_index = df_maestro.query("Year == 2021")["Life expectancy"].idxmax()
life_2021_country = df_maestro.iloc[life_2021_index][["Country", "Year", "Life expectancy"]]
life_2021_country

Country            Singapore
Year                    2021
Life expectancy       76.953
Name: 1653, dtype: object

In [493]:
df_maestro[df_maestro.Country == life_2021_country.Country].query("Year == 2020")[["Country", "Year", "Life expectancy"]]

Unnamed: 0,Country,Year,Life expectancy


In [494]:
df_maestro[(df_maestro.Country == life_2021_country.Country)].query("Year == 2019")[["Country", "Year", "Life expectancy"]]

Unnamed: 0,Country,Year,Life expectancy
1652,Singapore,2019,77.1


#### Respuesta: El país con mayor esperanza de vida en 2021 es Singapur, con 76,95 años. Para 2020 no tiene datos, y para 2019 tenía 77,1, algo mayor. El descenso podría estar causado por la epidemia del Covid en gran medida.