# <font color=900C3F>CARGA DE LOS DATOS PARA EL PROYECTO</font>

---

## <font color=#FF5733>REQUISITOS:</font>

> El proceso de carga de datos trabaja con datos historicos obtenidos en la fase de colecta de informaciones para el proyecto.
> 
> Los datos tratados en el proceso de carga perteniecen al período de 2015-2023 y estan en formato CSV.
> 
> Esta fase tiene como objetivo importar, almacenar, procesar y organizar todos los datos obtenidos.
> 
> Después de tratar y procesar todos los datos, este proceso debe generar un fichero en formato CSV, para ser usado en la proxima fase del proyecto.
> 

---

## <font color=#FF5733>SITUACIÓN ACTUAL:</font>

> Al analisar cada fichero CSV para empezar con el proceso de carga, hemos detectado varios problemas referente a la estructura de columnas de los ficheros:
> - Cada linea en los CSVs representa un país, se nota que hay diferentes cantidades de países en los CSVs leídos.
> - Nombres de columnas compuestos por dos textos y con espacios entre ellos.
> - Nombres de columnas compuestos por dos textos y con un punto (.) entre ellos.
> - Nombres de columnas compuestos por dos textos y con dos puntos (..) entre ellos.
> - Mismas informaciones con nombres de columnas distinctas.
> - Cantidad de columnas diferentes entre los ficheros CSVs.
> - Hay CSV en que almacena en la misma columna "país" y "región".
> - Hay CSV que no tiene la columna "región".
> - Las columnas y los registros estan en idioma inglés.
> - Separadores de columnas que almacena valores que debian estar con punto (".") pero estan con coma (","). 
> - No hay columna año dentro de los ficheros. El año encuentra-se en la composición del nombre del fichero CSV, ejemplo(2015.csv, 2016.csv y así sucesivamente).
> 
> 1. Hemos detectado que hay CSV que no tiene la columna "Family" y en su lugar, esta la de "Social Support" que tiene un objetivo muy parecido. En este caso decidimos fusionar la columna "Family" con la de "Social Support" en el DataFrame unico.
> - La columna "Social support" (apoyo social) en los datos de felicidad se refiere a la medida en que las personas perciben tener apoyo social disponible en su vida. Esta medida incluye el apoyo de amigos, vecinos, familiares y otras personas cercanas. Representa la percepción de las personas sobre el apoyo emocional y material que reciben de su entorno social. La columna "Social support" incluye un alcance más amplio que abarca tanto el apoyo familiar como el apoyo de otros individuos fuera del ámbito familiar. 
> - Por otro lado, la columna "family" (familia) se refiere específicamente al apoyo y la relación con la familia. Esta medida se centra en la percepción de apoyo emocional y material proveniente de los miembros de la familia, como cónyuges, hijos, padres y hermYears.
>
> 2. También hemos detectado que los ficheros CSV de 2017 y 2020 poséen valores invalidos en las columnas.
> 
> Solución para tratamiento de los datos en la carga de los CSVs:
> - Cargar individualmente cada CSV y de paso, agregar la columna de año que faltaba.
> - Trabajar con países que estén en todos los CSVs en el período de años seleccionados para el proyecto.
> - Para solucionar el problema de los ficheros CSV de 2017 y 2020 hemos atribuído valores nulos para las columnas para que sean tratadas mas adelante, en el proceso de "limpieza de datos", que esta en otro cuaderno, donde vamos rellenar los valores nulos con la mediana.

---

## <font color=#FF5733>Importar Librerías</font>

In [624]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import os

### <font color=#186a3b>--> Configurar la presentación de los datos en los DataFrames </font>

In [625]:
# Configurar opciones para mostrar todas las filas y columnas sin trucarmiento
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

## <font color=#FF5733>Importar CSVs</font>

### <font color=#186a3b>--> Definir las rutas de los ficheros leídos y generados en el proceso de carga de datos </font>

In [626]:
# Definir la ruta donde se encuentra la carpeta y los CSVs que iremos trabajar
ruta_informes = '../data/informes/estadisticas_carga_ficheros.csv'
ruta_nuevoCSV = '../data/ficheros_procesados/datos_preprocesados.csv'

ruta_carpeta = '../data/'

ruta_2015 = '../data/2015.csv'
ruta_2016 = '../data/2016.csv'
ruta_2017 = '../data/2017.csv'
ruta_2018 = '../data/2018.csv'
ruta_2019 = '../data/2019.csv'
ruta_2020 = '../data/2020.csv'
ruta_2021 = '../data/2021.csv'
ruta_2022 = '../data/2022.csv'
ruta_2023 = '../data/2023.csv'

### <font color=#186a3b>--> Analisar la estructura de ficheros CSVs de 2015-2023</font>

In [627]:
# Generamos una tabla y almacenamos todos los CSVs leídos con objetivo de verificar la estructura de columnas y registros
df_csv_originales = pd.DataFrame(columns=['nombre_csv', 'columnas', 'cantidad_columnas', 'cantidad_registros'])

# Convertir los tipos de columnas
df_csv_originales = pd.DataFrame(df_csv_originales)
df_csv_originales["cantidad_columnas"] = df_csv_originales["cantidad_columnas"].astype("int64")
df_csv_originales["cantidad_registros"] = df_csv_originales["cantidad_registros"].astype("int64") 
df_csv_originales["nombre_csv"] = df_csv_originales["nombre_csv"].astype("object")
df_csv_originales["columnas"] = df_csv_originales["columnas"].astype("object")


for archivo in os.listdir(ruta_carpeta):
    if archivo.endswith('.csv'):
        # Obtiene el nombre del archivo sin la extensión
        # nombre_csv = os.path.splitext(archivo)[0]
        
        # Obtiene el nombre con la extensión
        nombre_csv = archivo
        
        # Lee el archivo CSV y obtiene la información requerida
        ruta_archivo = os.path.join(ruta_carpeta, archivo)
        df_csv = pd.read_csv(ruta_archivo)
        
        # Obtiene los nombres de las columnas separadas por coma
        columnas = ', '.join(df_csv.columns)

        # Obtiene la cantidad de columnas
        cantidad_columnas = len(df_csv.columns)
            
        # Obtiene las cantidad de registros
        cantidad_registros = len(df_csv)
        
        # Crea un nuevo registro en el dataframe df_csv_originales
        nuevo_registro = {'nombre_csv': nombre_csv, 'columnas': columnas, 'cantidad_columnas': cantidad_columnas, 'cantidad_registros': cantidad_registros}
        df_csv_originales.loc[len(df_csv_originales)] = nuevo_registro

df_alineamiento_izquierda = df_csv_originales[['columnas']].style.set_properties(**{'text-align': 'left'})

df_csv_originales.head(9)


Unnamed: 0,nombre_csv,columnas,cantidad_columnas,cantidad_registros
0,2015.csv,"Country, Region, Happiness Rank, Happiness Score, Standard Error, Economy (GDP per Capita), Family, Health (Life Expectancy), Freedom, Trust (Government Corruption), Generosity, Dystopia Residual",12,158
1,2016.csv,"Country, Region, Happiness Rank, Happiness Score, Lower Confidence Interval, Upper Confidence Interval, Economy (GDP per Capita), Family, Health (Life Expectancy), Freedom, Trust (Government Corruption), Generosity, Dystopia Residual",13,157
2,2017.csv,"Country, Happiness.Rank, Happiness.Score, Whisker.high, Whisker.low, Economy..GDP.per.Capita., Family, Health..Life.Expectancy., Freedom, Generosity, Trust..Government.Corruption., Dystopia.Residual",12,155
3,2018.csv,"Overall rank, Country or region, Score, GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption",9,156
4,2019.csv,"Overall rank, Country or region, Score, GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption",9,156
5,2020.csv,"Country name, Regional indicator, Ladder score, Standard error of ladder score, upperwhisker, lowerwhisker, Logged GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption, Ladder score in Dystopia, Explained by: Log GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption, Dystopia + residual",20,153
6,2021.csv,"Country name, Regional indicator, Ladder score, Standard error of ladder score, upperwhisker, lowerwhisker, Logged GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption, Ladder score in Dystopia, Explained by: Log GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption, Dystopia + residual",20,149
7,2022.csv,"RANK, Country, Happiness score, Whisker-high, Whisker-low, Dystopia (1.83) + residual, Explained by: GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption",12,147
8,2023.csv,"Country name, iso alpha, Regional indicator, Happiness score, Standard error of ladder score, upperwhisker, lowerwhisker, Logged GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption, Ladder score in Dystopia, Explained by: Log GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption, Dystopia + residual",21,137


In [628]:
# Genera CSV con la estadística de los ficheros usados en el proyecto
df_csv_originales.to_csv(ruta_informes, index=False)

In [629]:
# Función para formatear los números
def format_number(number):
    formatted_number = f"{number:.6f}"  # Convierte el número a string con 6 decimales
    return formatted_number

#### Importar 2015

In [630]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Happiness Score', 'Country', 'Region', 'Economy (GDP per Capita)', 'Family','Health (Life Expectancy)', \
                    'Freedom', 'Trust (Government Corruption)', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2015 = pd.read_csv(ruta_2015, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2015["Year"] = '2015'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2015.rename(columns={'Family': 'Social support'}, inplace=True)

df_2015.head(2)

Unnamed: 0,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Year
0,Switzerland,Western Europe,7.587,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2015
1,Iceland,Western Europe,7.561,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2015


In [631]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2015.shape

(158, 10)

#### Importar 2016

In [632]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Happiness Score', 'Country', 'Region', 'Economy (GDP per Capita)', 'Family','Health (Life Expectancy)', \
                    'Freedom', 'Trust (Government Corruption)', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2016 = pd.read_csv(ruta_2016, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2016["Year"] = '2016'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2016.rename(columns={'Family': 'Social support'}, inplace=True)

df_2016.head(2)

Unnamed: 0,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Year
0,Denmark,Western Europe,7.526,1.44178,1.16374,0.79504,0.57941,0.44453,0.36171,2016
1,Switzerland,Western Europe,7.509,1.52733,1.14524,0.86303,0.58557,0.41203,0.28083,2016


In [633]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2016.shape

(157, 10)

#### Importar 2017

In [634]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Happiness.Score', 'Country', 'Economy..GDP.per.Capita.', 'Family','Health..Life.Expectancy.', \
                    'Freedom', 'Trust..Government.Corruption.', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2017 = pd.read_csv(ruta_2017, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado.
df_2017["Year"] = '2017'
df_2017["Region"] = 'Western Europe'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2017.rename(columns={'Happiness.Score': 'Happiness Score', \
                        'Country': 'Country', \
                        'Economy..GDP.per.Capita.': 'Economy (GDP per Capita)', \
                        'Family': 'Social support', \
                        'Health..Life.Expectancy.': 'Health (Life Expectancy)', \
                        'Freedom': 'Freedom', \
                        'Trust..Government.Corruption.': 'Trust (Government Corruption)', \
                        'Generosity': 'Generosity'
                        }, inplace=True)
df_2017.head(2)

Unnamed: 0,Country,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),Year,Region
0,Norway,7.537,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2017,Western Europe
1,Denmark,7.522,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2017,Western Europe


In [635]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2017.shape

(155, 10)

#### Importar 2018

In [636]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Score', 'Country or region', 'GDP per capita', 'Social support','Healthy life expectancy', \
                    'Freedom to make life choices', 'Perceptions of corruption', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2018 = pd.read_csv(ruta_2018, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado.
df_2018["Year"] = '2018'
df_2018["Region"] = 'Western Europe'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2018.rename(columns={'Score': 'Happiness Score', \
                        'Country or region': 'Country', \
                        'GDP per capita': 'Economy (GDP per Capita)', \
                        'Healthy life expectancy': 'Health (Life Expectancy)', \
                        'Freedom to make life choices': 'Freedom', \
                        'Perceptions of corruption': 'Trust (Government Corruption)', \
                        'Generosity': 'Generosity'
                        }, inplace=True)
df_2018.head(2)

Unnamed: 0,Country,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),Year,Region
0,Finland,7.632,1.305,1.592,0.874,0.681,0.202,0.393,2018,Western Europe
1,Norway,7.594,1.456,1.582,0.861,0.686,0.286,0.34,2018,Western Europe


In [637]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2018.shape

(156, 10)

#### Importar 2019

In [638]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Score', 'Country or region', 'GDP per capita', 'Social support','Healthy life expectancy', \
                    'Freedom to make life choices', 'Perceptions of corruption', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2019 = pd.read_csv(ruta_2019, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2019["Year"] = '2019'
df_2019["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2019.rename(columns={'Score': 'Happiness Score', \
                        'Country or region': 'Country', \
                        'GDP per capita': 'Economy (GDP per Capita)', \
                        'Healthy life expectancy': 'Health (Life Expectancy)', \
                        'Freedom to make life choices': 'Freedom', \
                        'Perceptions of corruption': 'Trust (Government Corruption)', \
                        'Generosity': 'Generosity'
                        }, inplace=True)
df_2019.head(2)

Unnamed: 0,Country,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),Year,Region
0,Finland,7.769,1.34,1.587,0.986,0.596,0.153,0.393,2019,Western Europe
1,Denmark,7.6,1.383,1.573,0.996,0.592,0.252,0.41,2019,Western Europe


In [639]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2019.shape

(156, 10)

#### Importar 2020

In [640]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Ladder score', 'Country name', 'Explained by: Log GDP per capita', 'Explained by: Social support', \
                    'Explained by: Healthy life expectancy','Explained by: Freedom to make life choices', \
                    'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2020 = pd.read_csv(ruta_2020, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2020["Year"] = '2020'
df_2020["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2020.rename(columns={'Ladder score': 'Happiness Score', \
                        'Country name': 'Country', \
                        'Explained by: Log GDP per capita': 'Economy (GDP per Capita)', \
                        'Explained by: Social support': 'Social support', \
                        'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                        'Explained by: Freedom to make life choices': 'Freedom', \
                        'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                        'Explained by: Generosity': 'Generosity'
                        }, inplace=True)
df_2020.head(2)



Unnamed: 0,Country,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),Year,Region
0,Finland,7.8087,1.28519,1.499526,0.961271,0.662317,0.15967,0.477857,2020,Western Europe
1,Denmark,7.6456,1.326949,1.503449,0.979333,0.66504,0.242793,0.49526,2020,Western Europe


In [641]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2020.shape

(153, 10)

#### Importar 2021

In [642]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Ladder score', 'Country name', 'Explained by: Log GDP per capita', 'Explained by: Social support', \
                    'Explained by: Healthy life expectancy','Explained by: Freedom to make life choices', \
                    'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2021 = pd.read_csv(ruta_2021, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2021["Year"] = '2021'
df_2021["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2021.rename(columns={'Ladder score': 'Happiness Score', \
                        'Country name': 'Country', \
                        'Explained by: Log GDP per capita': 'Economy (GDP per Capita)', \
                        'Explained by: Social support': 'Social support', \
                        'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                        'Explained by: Freedom to make life choices': 'Freedom', \
                        'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                        'Explained by: Generosity': 'Generosity'
                        }, inplace=True)
df_2021.head(2)

Unnamed: 0,Country,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),Year,Region
0,Finland,7.842,1.446,1.106,0.741,0.691,0.124,0.481,2021,Western Europe
1,Denmark,7.62,1.502,1.108,0.763,0.686,0.208,0.485,2021,Western Europe


In [643]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2021.shape

(149, 10)

#### Importar 2022

In [644]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Happiness score', 'Country', 'Explained by: GDP per capita', 'Explained by: Social support', \
                    'Explained by: Healthy life expectancy','Explained by: Freedom to make life choices', \
                    'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2022 = pd.read_csv(ruta_2022, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2022["Year"] = '2022'
df_2022["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2022.rename(columns={'Happiness score': 'Happiness Score', \
                        'Country': 'Country', \
                        'Explained by: GDP per capita': 'Economy (GDP per Capita)', \
                        'Explained by: Social support': 'Social support', \
                        'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                        'Explained by: Freedom to make life choices': 'Freedom', \
                        'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                        'Explained by: Generosity': 'Generosity'
                        }, inplace=True)

df_2022.head(2)

Unnamed: 0,Country,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),Year,Region
0,Finland,7821,1892,1258,775,736,109,534,2022,Western Europe
1,Denmark,7636,1953,1243,777,719,188,532,2022,Western Europe


In [645]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2022.shape

(147, 10)

#### Importar 2023

In [646]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Happiness score', 'Country name', 'Explained by: Log GDP per capita', 'Explained by: Social support','Explained by: Healthy life expectancy', \
                    'Explained by: Freedom to make life choices', 'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2023 = pd.read_csv(ruta_2023, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2023["Year"] = '2023'
df_2023["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2023.rename(columns={'Happiness score': 'Happiness Score', \
                        'Country name': 'Country', \
                        'Explained by: Log GDP per capita': 'Economy (GDP per Capita)', \
                        'Explained by: Social support': 'Social support', \
                        'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                        'Explained by: Freedom to make life choices': 'Freedom', \
                        'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                        'Explained by: Generosity': 'Generosity'
                        }, inplace=True)

df_2023.head(2)

Unnamed: 0,Country,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),Year,Region
0,Afghanistan,1.859,0.645,0.0,0.087,0.0,0.093,0.059,2023,Western Europe
1,Albania,5.277,1.449,0.951,0.48,0.549,0.133,0.037,2023,Western Europe


In [647]:
# Cantidad de registros y columnas cargados en el DataFrame
df_2023.shape

(137, 10)

## <font color=#FF5733>TRATAR DATOS</font>

Este procedimiento consiste en realizar los ajustes mas profundos en los datos para prepararlos para la próxima fase del proyecto. 

### <font color=#186a3b>--> Tratar valores incorrectos en ficheros CSVs de 2017 y 2020</font>

#### 2017

In [648]:
# # Reemplazar los valores existentes por cero
# df_2017[['Happiness Score', 'Economy (GDP per Capita)',
#        'Social support', 'Health (Life Expectancy)', 'Freedom', 'Generosity',
#        'Trust (Government Corruption)']] = np.nan

# df_2017.head(2)

#### 2020

In [649]:
# # Reemplazar los valores existentes por cero
# df_2020[['Happiness Score', 'Economy (GDP per Capita)',
#        'Social support', 'Health (Life Expectancy)', 'Freedom', 'Generosity',
#        'Trust (Government Corruption)']] = np.nan

# df_2020.head(2)

### <font color=#186a3b>--> Fusionar en un unico DataFrame todos los datos </font>

In [650]:
# Después de tenernos uniformizados los nombres de las columnas de todos los CSVs importados, llega el momento de 
# fusionar todos los datos en un unico DataFrame

frames = [df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021, df_2022, df_2023]  # Lista de DataFrames que quieres unificar
df = pd.concat(frames, ignore_index=True)
df.head()

Unnamed: 0,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Year
0,Switzerland,Western Europe,7.587,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2015
1,Iceland,Western Europe,7.561,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2015
2,Denmark,Western Europe,7.527,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139,2015
3,Norway,Western Europe,7.522,1.459,1.33095,0.88521,0.66973,0.36503,0.34699,2015
4,Canada,North America,7.427,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811,2015


In [651]:
# Cantidad Total de Registros y Columnas en el DataFrame
df.shape

(1368, 10)

In [652]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1368 entries, 0 to 1367
Data columns (total 10 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Country                        1368 non-null   object
 1   Region                         1368 non-null   object
 2   Happiness Score                1367 non-null   object
 3   Economy (GDP per Capita)       1367 non-null   object
 4   Social support                 1367 non-null   object
 5   Health (Life Expectancy)       1366 non-null   object
 6   Freedom                        1367 non-null   object
 7   Trust (Government Corruption)  1366 non-null   object
 8   Generosity                     1367 non-null   object
 9   Year                           1368 non-null   object
dtypes: object(10)
memory usage: 107.0+ KB


### <font color=#186a3b>--> Reemplazar la coma (",") por punto (".") en las columnas numéricas </font>

In [653]:
df_comas = pd.DataFrame(df)

# Columnas en las que se realizará el reemplazo
columnas = ['Happiness Score', 'Economy (GDP per Capita)', 'Social support', 'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)', \
            'Generosity']

# Reemplazo de comas por puntos en las columnas seleccionadas
df[columnas] = df_comas[columnas].replace(',', '.', regex=True)

In [654]:
df.head(2)

Unnamed: 0,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Year
0,Switzerland,Western Europe,7.587,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2015
1,Iceland,Western Europe,7.561,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2015


### <font color=#186a3b>--> Convertir los tipos de datos de las Columnas </font>

In [655]:
df.columns

Index(['Country', 'Region', 'Happiness Score', 'Economy (GDP per Capita)',
       'Social support', 'Health (Life Expectancy)', 'Freedom',
       'Trust (Government Corruption)', 'Generosity', 'Year'],
      dtype='object')

In [656]:
# Convertir los tipos de columnas
df_tipo_datos = pd.DataFrame(df)

df["Year"] = df_tipo_datos["Year"].astype("int64")

columnas_numericas = ['Happiness Score', 'Economy (GDP per Capita)', 'Social support', 'Health (Life Expectancy)', 'Freedom', \
                    'Trust (Government Corruption)', 'Generosity']

columnas_categoricas = ['Country', 'Region']

# converte a valores numericos tipo float los valores de la lista
for i in columnas_numericas:
    df[i] = df[i].astype("float64")

# converte a valores categóricos los valores de la lista
for i in columnas_categoricas:
    df[i] = df[i].astype("category")

df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1368 entries, 0 to 1367
Data columns (total 10 columns):
 #   Column                         Non-Null Count  Dtype   
---  ------                         --------------  -----   
 0   Country                        1368 non-null   category
 1   Region                         1368 non-null   category
 2   Happiness Score                1367 non-null   float64 
 3   Economy (GDP per Capita)       1367 non-null   float64 
 4   Social support                 1367 non-null   float64 
 5   Health (Life Expectancy)       1366 non-null   float64 
 6   Freedom                        1367 non-null   float64 
 7   Trust (Government Corruption)  1366 non-null   float64 
 8   Generosity                     1367 non-null   float64 
 9   Year                           1368 non-null   int64   
dtypes: category(2), float64(7), int64(1)
memory usage: 99.7 KB


In [657]:
# Uniformiza los valores contenidos en las columnas. Las columnas de "Happiness Score" deben de contener apenas 4 digitos
# Las columnas que almacenan valores deben tener un logitud de 6 digitos despues de la casa decimal y las columnas que 
# no poseen los 6 numeros completamos con cero a la derecha.

# Los valores en este CSV estan fora de formato, limitamos las columnas de valores a 6 digitos y arrendondamos los valores
df['Happiness Score'] = round(df['Happiness Score'], 4)
df['Economy (GDP per Capita)'] = round(df['Economy (GDP per Capita)'], 6).apply(format_number)
df['Social support'] = round(df['Social support'], 6).apply(format_number)
df['Health (Life Expectancy)'] = round(df['Health (Life Expectancy)'], 6).apply(format_number)
df['Freedom'] = round(df['Freedom'], 6).apply(format_number)
df['Generosity'] = round(df['Generosity'], 6).apply(format_number)
df['Trust (Government Corruption)'] = round(df['Trust (Government Corruption)'], 6).apply(format_number)

df.head()

Unnamed: 0,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,Year
0,Switzerland,Western Europe,7.587,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2015
1,Iceland,Western Europe,7.561,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2015
2,Denmark,Western Europe,7.527,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139,2015
3,Norway,Western Europe,7.522,1.459,1.33095,0.88521,0.66973,0.36503,0.34699,2015
4,Canada,North America,7.427,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811,2015


### <font color=#186a3b>--> Cambiar de posición la columna "Year" </font>

In [658]:
# Extraer la columna 'Year' utilizando el método 'pop'
columma_Year = df.pop('Year')

# Insertar la columna 'Year' en la primera posición utilizando el método 'insert'
df.insert(0, 'Year', columma_Year)
df.head()

Unnamed: 0,Year,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity
0,2015,Switzerland,Western Europe,7.587,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678
1,2015,Iceland,Western Europe,7.561,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363
2,2015,Denmark,Western Europe,7.527,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139
3,2015,Norway,Western Europe,7.522,1.459,1.33095,0.88521,0.66973,0.36503,0.34699
4,2015,Canada,North America,7.427,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811


In [659]:
df.columns

Index(['Year', 'Country', 'Region', 'Happiness Score',
       'Economy (GDP per Capita)', 'Social support',
       'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)',
       'Generosity'],
      dtype='object')

## <font color=#FF5733>Seleccionar los datos de interés para el proyecto</font>

In [660]:
# selecionamos a los países que iremos trabajar en el proyecto
paises_seleccionados = ['Denmark', 'Finland', 'Iceland', 'Norway', 'Sweden', 'Spain']

# Filtrar el DataFrame utilizando el método "isin" de Pandas
# df_paises_elegidos = df_traduccido[df_traduccido['PAIS'].isin(paises_seleccionados)]

df_paises_elegidos = df[df['Country'].isin(paises_seleccionados)]

df_paises_elegidos.head()

Unnamed: 0,Year,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity
1,2015,Iceland,Western Europe,7.561,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363
2,2015,Denmark,Western Europe,7.527,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139
3,2015,Norway,Western Europe,7.522,1.459,1.33095,0.88521,0.66973,0.36503,0.34699
5,2015,Finland,Western Europe,7.406,1.29025,1.31826,0.88911,0.64169,0.41372,0.23351
7,2015,Sweden,Western Europe,7.364,1.33171,1.28907,0.91087,0.6598,0.43844,0.36262


In [661]:
df_paises_elegidos.tail(6)

Unnamed: 0,Year,Country,Region,Happiness Score,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity
1262,2023,Denmark,Western Europe,7.586,1.949,1.548,0.537,0.734,0.525,0.208
1269,2023,Finland,Western Europe,7.804,1.888,1.585,0.535,0.772,0.535,0.126
1282,2023,Iceland,Western Europe,7.53,1.926,1.62,0.559,0.738,0.187,0.25
1326,2023,Norway,Western Europe,7.315,1.994,1.521,0.544,0.752,0.463,0.212
1345,2023,Spain,Western Europe,6.436,1.798,1.491,0.567,0.533,0.157,0.101
1348,2023,Sweden,Western Europe,7.395,1.921,1.51,0.562,0.754,0.52,0.225


In [662]:
# Cantidad de registros después de elegir solamente los países de interese para el proyecto
print("df_paises_elegidos: ", df_paises_elegidos.shape, "df todos los paises", df.shape)

df_paises_elegidos:  (54, 10) df todos los paises (1368, 10)


In [663]:
# Nombres de columnas en el DataFrame
df_paises_elegidos.columns

Index(['Year', 'Country', 'Region', 'Happiness Score',
       'Economy (GDP per Capita)', 'Social support',
       'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)',
       'Generosity'],
      dtype='object')

In [664]:
# Identificación del tipo de columnas en el DataFrame
df_paises_elegidos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 54 entries, 1 to 1348
Data columns (total 10 columns):
 #   Column                         Non-Null Count  Dtype   
---  ------                         --------------  -----   
 0   Year                           54 non-null     int64   
 1   Country                        54 non-null     category
 2   Region                         54 non-null     category
 3   Happiness Score                54 non-null     float64 
 4   Economy (GDP per Capita)       54 non-null     object  
 5   Social support                 54 non-null     object  
 6   Health (Life Expectancy)       54 non-null     object  
 7   Freedom                        54 non-null     object  
 8   Trust (Government Corruption)  54 non-null     object  
 9   Generosity                     54 non-null     object  
dtypes: category(2), float64(1), int64(1), object(6)
memory usage: 14.0+ KB


In [665]:
# Resumen: Estadística Descriptiva
df_paises_elegidos.describe().round(2)

Unnamed: 0,Year,Happiness Score
count,54.0,54.0
mean,2019.0,7.33
std,2.61,0.44
min,2015.0,6.31
25%,2017.0,7.35
50%,2019.0,7.5
75%,2021.0,7.56
max,2023.0,7.84


In [666]:
# Verificar si hay valores nulos
df_paises_elegidos.isnull().sum()

Year                             0
Country                          0
Region                           0
Happiness Score                  0
Economy (GDP per Capita)         0
Social support                   0
Health (Life Expectancy)         0
Freedom                          0
Trust (Government Corruption)    0
Generosity                       0
dtype: int64

## <font color=#FF5733>Generar nuevo CSV con los datos cargados y preprocesados</font>

In [667]:
df_paises_elegidos.to_csv(ruta_nuevoCSV, index=False)