In [None]:
!pip install -r ../requirements.txt
print("··· Instalación en el entorno finalizada ···")

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

In [None]:
files = {
    "df2015": "../data/2015.csv",
    "df2016": "../data/2016.csv",
    "df2017": "../data/2017.csv",
    "df2018": "../data/2018.csv",
    "df2019": "../data/2019.csv"
}

datasets = {}

for name, path in files.items():
    try:
        df = pd.read_csv(path, sep=",")
        datasets[name] = df
        print(f"{name} cargado correctamente ({len(df)} filas).")
    except Exception as e:
        print(f"Ha habido un error al cargar los datasets: {e}")

In [None]:
datasets["df2015"].info()

In [None]:
datasets["df2016"].info()

In [None]:
datasets["df2017"].info()

In [None]:
datasets["df2018"].info()

In [None]:
datasets["df2019"].info()

Podemos comprobar que los datasets son bastante parecidos, tiene ligeras diferencias como la sintaxis del nombre de las columnas (Trust (Government Corruption) - Trust..Government.Corruption.) y que los datasets más actuales, 2018 y 2019 tienen menos columnas que años anteriores. Vamos comprobar si los tipos en las columnas siguen siendo iguales o han podido cambiar con el paso de los años.

In [None]:
print("TIPOS DE DATOS DEL DATASET 2015")
print(datasets["df2015"].dtypes)
print("--------------------------------")
print("TIPOS DE DATOS DEL DATASET 2016")
print(datasets["df2016"].dtypes)
print("--------------------------------")
print("TIPOS DE DATOS DEL DATASET 2017")
print(datasets["df2017"].dtypes)
print("--------------------------------")
print("TIPOS DE DATOS DEL DATASET 2018")
print(datasets["df2018"].dtypes)
print("--------------------------------")
print("TIPOS DE DATOS DEL DATASET 2019")
print(datasets["df2019"].dtypes)
print("--------------------------------")

Vamos primero a renombrar las columnas para poder tratar mejor la información en su colectivo

In [None]:
# 2015
datasets["df2015"] = datasets["df2015"].rename(columns={
    'Happiness Rank': 'Overall Rank', 
    'Happiness Score': 'Score', 
    'Economy (GDP per Capita)': 'GDP per Capita', 
    'Health (Life Expectancy)': 'Healthy Life Expectancy',
    'Trust (Government Corruption)': 'Perceptions of Corruption',
    'Freedom': 'Freedom to Make Life Choices',
    'Family': 'Social Support'
    })

In [None]:
# 2016
datasets["df2016"] = datasets["df2016"].rename(columns={
    'Happiness Rank': 'Overall Rank', 
    'Happiness Score': 'Score', 
    'Economy (GDP per Capita)': 'GDP per Capita', 
    'Health (Life Expectancy)': 'Healthy Life Expectancy',
    'Trust (Government Corruption)': 'Perceptions of Corruption',
    'Freedom': 'Freedom to Make Life Choices',
    'Family': 'Social Support'
    })

In [None]:
# 2017
datasets["df2017"] = datasets["df2017"].rename(columns={
    'Country': 'Country or region',
    'Happiness.Rank': 'Overall Rank',
    'Happiness.Score': 'Score', 
    'Economy..GDP.per.Capita.': 'GDP per Capita', 
    'Health..Life.Expectancy.': 'Healthy Life Expectancy',
    'Trust..Government.Corruption.': 'Perceptions of Corruption',
    'Freedom': 'Freedom to Make Life Choices',
    'Family': 'Social Support'
    })

Para empezar lo que voy a hacer es juntar la columna country con la columna región, ya que veo que en 2018 y 2019 existe la columna "Country or region", además de ordenar las columnas para tenerlas en el mismo orden que el resto de datasets

In [None]:
media = datasets["df2015"]['Score'].mean()
error_estandar = datasets["df2015"]['Standard Error'].max()
print(f"Proporción para: df2015: ", error_estandar / media)  

# No es una proporción significativa, así que este campo lo eliminaremos del único dataset que lo tiene para homogenizar los datos

In [None]:
# LIMPIEZA DE DATOS PARA EL 2015
datasets["df2015"]["Country or region"] = datasets["df2015"]["Country"] + " - " + datasets["df2015"]["Region"]
datasets["df2015"].insert(0, "Country or region", datasets["df2015"].pop("Country or region"))
datasets["df2015"].insert(0, "Overall Rank", datasets["df2015"].pop("Overall Rank"))
datasets["df2015"] = datasets["df2015"].drop(columns=["Country", "Region", "Dystopia Residual", "Standard Error"])
datasets["df2015"].head()

In [None]:
# LIMPIEZA DE DATOS PARA EL 2016
datasets["df2016"]["Country or region"] = datasets["df2016"]["Country"] + " - " + datasets["df2016"]["Region"]
datasets["df2016"].insert(0, "Country or region", datasets["df2016"].pop("Country or region"))
datasets["df2016"].insert(0, "Overall Rank", datasets["df2016"].pop("Overall Rank"))
datasets["df2016"] = datasets["df2016"].drop(columns=["Country", "Region", "Dystopia Residual", "Lower Confidence Interval", "Upper Confidence Interval"])
datasets["df2016"].head()

In [None]:
# LIMPIEZA DE DATOS PARA EL 2017
datasets["df2017"].insert(0, "Overall Rank", datasets["df2017"].pop("Overall Rank"))
datasets["df2017"] = datasets["df2017"].drop(columns=["Dystopia.Residual", "Whisker.high", "Whisker.low"])
datasets["df2017"].head()

Nuestros datasets ya están complemente igualados en cuestión de columnas, comprobemos una vez más los tipos, ahora se verá con más claridad

In [None]:
for nombre, df in datasets.items():
    print(f"Tipos de columnas en {nombre}:")
    print(df.dtypes)
    print('-' * 40)