# CARGA DE LOS DATOS PARA EL PROYECTO

Analizar y comparar los países nórdicos con España utilizando una base de datos de Kaggle sobre la felicidad (happiness):

## IMPORTAR LIBRERÍAS

In [158]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

import os


## IMPORTAR DATOS

Al analisar cada fichero CSV para empezar con el proceso de carga, hemos detectado varios problemas referente a la estructura de columnas de los ficheros:

- Nombres de columnas compuestos por dos textos y con espacios entre ellos.
- Nombres de columnas compuestos por dos textos y con un punto (.) entre ellos.
- Nombres de columnas compuestos por dos textos y con dos puntos (..) entre ellos.
- Mismas informaciones con nombres de columnas distinctas.
- Cantidad de columnas diferentes entre los ficheros CSVs.
- Hay CSV en que almacena en la misma columna "país" y "región".
- Hay CSV que no tiene la columna "región".
- Las columnas y los registros estan en idioma inglés.
- Separadores de columnas que almacena valores que debian estar con punto (".") pero estan con coma (","). 
- No hay columna año dentro de los ficheros. El año encuentra-se en la composición del nombre del fichero CSV, ejemplo(2015.csv, 2016.csv y así sucesivamente).

Hemos detectado que hay CSV que no tiene la columna "Family" y en su lugar, esta la de "Social Support" que tiene un objetivo muy parecido. En este caso decidimos fusionar la columna "Family" con la de "Social Support" en el DataFrame unico.
  - La columna "Social support" (apoyo social) en los datos de felicidad se refiere a la medida en que las personas perciben tener apoyo social disponible en su vida. Esta medida incluye el apoyo de amigos, vecinos, familiares y otras personas cercanas. Representa la percepción de las personas sobre el apoyo emocional y material que reciben de su entorno social. La columna "Social support" incluye un alcance más amplio que abarca tanto el apoyo familiar como el apoyo de otros individuos fuera del ámbito familiar. 
  - Por otro lado, la columna "family" (familia) se refiere específicamente al apoyo y la relación con la familia. Esta medida se centra en la percepción de apoyo emocional y material proveniente de los miembros de la familia, como cónyuges, hijos, padres y hermanos.


Solución para tratamiento de los datos en la carga de los CSVs:
- Cargar individualmente cada CSV y de paso, agregar la columna de año que faltaba.


### Definir las rutas de los ficheros leídos y generados en el proceso de carga de datos

In [159]:
# Definir la ruta donde se encuentra la carpeta y los CSVs que iremos trabajar
ruta_informes = '../data/informes/estadisticas_carga_ficheros.csv'
ruta_nuevoCSV = '../data/ficheros_procesados/datos_preprocesados.csv'

ruta_carpeta = '../data/'

ruta_2015 = '../data/2015.csv'
ruta_2016 = '../data/2016.csv'
ruta_2017 = '../data/2017.csv'
ruta_2018 = '../data/2018.csv'
ruta_2019 = '../data/2019.csv'
ruta_2020 = '../data/2020.csv'
ruta_2021 = '../data/2021.csv'
ruta_2022 = '../data/2022.csv'
ruta_2023 = '../data/2023.csv'

### CONFIGURAR LA PRESENTACIÓN DE LOS DATOS EN LOS DATAFRAMES EN ESTE CUADERNOS

In [160]:
# Configurar opciones para mostrar todas las filas y columnas sin trucarmiento
pd.set_option('display.max_rows', None)
pd.set_option('display.max_columns', None)
pd.set_option('display.width', None)
pd.set_option('display.max_colwidth', None)

### Importar CSVs

#### Análisis estructura de ficheros CSVs de 2015-2023

In [161]:
# Generamos una tabla y almacenamos todos los CSVs leídos con objetivo de verificar la estructura de columnas y registros
df_csv_originales = pd.DataFrame(columns=['nombre_csv', 'columnas', 'cantidad_columnas', 'cantidad_registros'])

# 'nombre_csv': str,
# 'cantidad_columnas': int,
# 'columnas': str,
# 'cantidad_registros': int

# Convertir los tipos de columnas
df_csv_originales = pd.DataFrame(df_csv_originales)
df_csv_originales["cantidad_columnas"] = df_csv_originales["cantidad_columnas"].astype("int64")
df_csv_originales["cantidad_registros"] = df_csv_originales["cantidad_registros"].astype("int64") 
df_csv_originales["nombre_csv"] = df_csv_originales["nombre_csv"].astype("object")
df_csv_originales["columnas"] = df_csv_originales["columnas"].astype("object")


for archivo in os.listdir(ruta_carpeta):
    if archivo.endswith('.csv'):
        # Obtiene el nombre del archivo sin la extensión
        # nombre_csv = os.path.splitext(archivo)[0]
        
        # Obtiene el nombre con la extensión
        nombre_csv = archivo
        
        # Lee el archivo CSV y obtiene la información requerida
        ruta_archivo = os.path.join(ruta_carpeta, archivo)
        df_csv = pd.read_csv(ruta_archivo)
        
        # Obtiene los nombres de las columnas separadas por coma
        columnas = ', '.join(df_csv.columns)

        # Obtiene la cantidad de columnas
        cantidad_columnas = len(df_csv.columns)
            
        # Obtiene las cantidad de registros
        cantidad_registros = len(df_csv)
        
        # Crea un nuevo registro en el dataframe df_csv_originales
        nuevo_registro = {'nombre_csv': nombre_csv, 'columnas': columnas, 'cantidad_columnas': cantidad_columnas, 'cantidad_registros': cantidad_registros}
        df_csv_originales.loc[len(df_csv_originales)] = nuevo_registro

# # Crear formatadores personalizados para alinear a la izquierda
# formatters = {}
# for col in df_csv_originales.dtypes("object"):
#     len_max = df_csv_originales[col].str.len().max()
#     formatters[col] = lambda x: f"{x:<{len_max}s}"

df_alineamiento_izquierda = df_csv_originales[['columnas']].style.set_properties(**{'text-align': 'left'})

df_csv_originales.head(9)



Unnamed: 0,nombre_csv,columnas,cantidad_columnas,cantidad_registros
0,2015.csv,"Country, Region, Happiness Rank, Happiness Score, Standard Error, Economy (GDP per Capita), Family, Health (Life Expectancy), Freedom, Trust (Government Corruption), Generosity, Dystopia Residual",12,158
1,2016.csv,"Country, Region, Happiness Rank, Happiness Score, Lower Confidence Interval, Upper Confidence Interval, Economy (GDP per Capita), Family, Health (Life Expectancy), Freedom, Trust (Government Corruption), Generosity, Dystopia Residual",13,157
2,2017.csv,"Country, Happiness.Rank, Happiness.Score, Whisker.high, Whisker.low, Economy..GDP.per.Capita., Family, Health..Life.Expectancy., Freedom, Generosity, Trust..Government.Corruption., Dystopia.Residual",12,155
3,2018.csv,"Overall rank, Country or region, Score, GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption",9,156
4,2019.csv,"Overall rank, Country or region, Score, GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption",9,156
5,2020.csv,"Country name, Regional indicator, Ladder score, Standard error of ladder score, upperwhisker, lowerwhisker, Logged GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption, Ladder score in Dystopia, Explained by: Log GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption, Dystopia + residual",20,153
6,2021.csv,"Country name, Regional indicator, Ladder score, Standard error of ladder score, upperwhisker, lowerwhisker, Logged GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption, Ladder score in Dystopia, Explained by: Log GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption, Dystopia + residual",20,149
7,2022.csv,"RANK, Country, Happiness score, Whisker-high, Whisker-low, Dystopia (1.83) + residual, Explained by: GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption",12,147
8,2023.csv,"Country name, iso alpha, Regional indicator, Happiness score, Standard error of ladder score, upperwhisker, lowerwhisker, Logged GDP per capita, Social support, Healthy life expectancy, Freedom to make life choices, Generosity, Perceptions of corruption, Ladder score in Dystopia, Explained by: Log GDP per capita, Explained by: Social support, Explained by: Healthy life expectancy, Explained by: Freedom to make life choices, Explained by: Generosity, Explained by: Perceptions of corruption, Dystopia + residual",21,137


In [162]:
# Genera CSV con la estadística de los ficheros usados en el proyecto

df_csv_originales.to_csv(ruta_informes, index=False)

#### Importar 2015

In [163]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country', 'Region', 'Economy (GDP per Capita)', 'Family','Health (Life Expectancy)', \
                    'Freedom', 'Trust (Government Corruption)', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2015 = pd.read_csv(ruta_2015, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2015["ANO"] = '2015'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2015.rename(columns={'Family': 'Social support'}, inplace=True)

df_2015.head(2)

Unnamed: 0,Country,Region,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,ANO
0,Switzerland,Western Europe,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2015
1,Iceland,Western Europe,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2015


#### Importar 2016

In [164]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country', 'Region', 'Economy (GDP per Capita)', 'Family','Health (Life Expectancy)', \
                    'Freedom', 'Trust (Government Corruption)', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2016 = pd.read_csv(ruta_2016, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2016["ANO"] = '2016'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2016.rename(columns={'Family': 'Social support'}, inplace=True)

df_2016.head(2)

Unnamed: 0,Country,Region,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,ANO
0,Denmark,Western Europe,1.44178,1.16374,0.79504,0.57941,0.44453,0.36171,2016
1,Switzerland,Western Europe,1.52733,1.14524,0.86303,0.58557,0.41203,0.28083,2016


#### Importar 2017

In [165]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country', 'Economy..GDP.per.Capita.', 'Family','Health..Life.Expectancy.', \
                    'Freedom', 'Trust..Government.Corruption.', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2017 = pd.read_csv(ruta_2017, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado.
df_2017["ANO"] = '2017'
df_2017["Region"] = 'Western Europe'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2017.rename(columns={'Country': 'Country', \
                   'Economy..GDP.per.Capita.': 'Economy (GDP per Capita)', \
                   'Family': 'Social support', \
                   'Health..Life.Expectancy.': 'Health (Life Expectancy)', \
                   'Freedom': 'Freedom', \
                   'Trust..Government.Corruption.': 'Trust (Government Corruption)', \
                   'Generosity': 'Generosity'
                   }, inplace=True)

df_2017.head(2)

Unnamed: 0,Country,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),ANO,Region
0,Norway,1.616463,1.533524,0.796667,0.635423,0.362012,0.315964,2017,Western Europe
1,Denmark,1.482383,1.551122,0.792566,0.626007,0.35528,0.40077,2017,Western Europe


#### Importar 2018

In [166]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country or region', 'GDP per capita', 'Social support','Healthy life expectancy', \
                    'Freedom to make life choices', 'Perceptions of corruption', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2018 = pd.read_csv(ruta_2018, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado.
df_2018["ANO"] = '2018'
df_2018["Region"] = 'Western Europe'

# Renombra las columas para que esten iguales en todos los Dataframes
df_2018.rename(columns={'Country or region': 'Country', \
                   'GDP per capita': 'Economy (GDP per Capita)', \
                   'Healthy life expectancy': 'Health (Life Expectancy)', \
                   'Freedom to make life choices': 'Freedom', \
                   'Perceptions of corruption': 'Trust (Government Corruption)', \
                   'Generosity': 'Generosity'
                   }, inplace=True)

df_2018.head(2)

Unnamed: 0,Country,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),ANO,Region
0,Finland,1.305,1.592,0.874,0.681,0.202,0.393,2018,Western Europe
1,Norway,1.456,1.582,0.861,0.686,0.286,0.34,2018,Western Europe


#### Importar 2019

In [167]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country or region', 'GDP per capita', 'Social support','Healthy life expectancy', \
                    'Freedom to make life choices', 'Perceptions of corruption', 'Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2019 = pd.read_csv(ruta_2019, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2019["ANO"] = '2019'
df_2019["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2019.rename(columns={'Country or region': 'Country', \
                   'GDP per capita': 'Economy (GDP per Capita)', \
                   'Healthy life expectancy': 'Health (Life Expectancy)', \
                   'Freedom to make life choices': 'Freedom', \
                   'Perceptions of corruption': 'Trust (Government Corruption)', \
                   'Generosity': 'Generosity'
                   }, inplace=True)

df_2019.head(2)

Unnamed: 0,Country,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),ANO,Region
0,Finland,1.34,1.587,0.986,0.596,0.153,0.393,2019,Western Europe
1,Denmark,1.383,1.573,0.996,0.592,0.252,0.41,2019,Western Europe


#### Importar 2020

In [168]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country name', 'Explained by: Log GDP per capita', 'Explained by: Social support', \
                    'Explained by: Healthy life expectancy','Explained by: Freedom to make life choices', \
                    'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2020 = pd.read_csv(ruta_2020, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2020["ANO"] = '2020'
df_2020["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2020.rename(columns={'Country name': 'Country', \
                   'Explained by: Log GDP per capita': 'Economy (GDP per Capita)', \
                   'Explained by: Social support': 'Social support', \
                   'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                   'Explained by: Freedom to make life choices': 'Freedom', \
                   'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                   'Explained by: Generosity': 'Generosity'
                   }, inplace=True)

df_2020.head(2)

Unnamed: 0,Country,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),ANO,Region
0,Finland,1.28519,1.499526,0.961271,0.662317,0.15967,0.477857,2020,Western Europe
1,Denmark,1.326949,1.503449,0.979333,0.66504,0.242793,0.49526,2020,Western Europe


#### Importar 2021

In [169]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country name', 'Explained by: Log GDP per capita', 'Explained by: Social support', \
                    'Explained by: Healthy life expectancy','Explained by: Freedom to make life choices', \
                    'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2021 = pd.read_csv(ruta_2021, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2021["ANO"] = '2021'
df_2021["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2021.rename(columns={'Country name': 'Country', \
                   'Explained by: Log GDP per capita': 'Economy (GDP per Capita)', \
                   'Explained by: Social support': 'Social support', \
                   'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                   'Explained by: Freedom to make life choices': 'Freedom', \
                   'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                   'Explained by: Generosity': 'Generosity'
                   }, inplace=True)

df_2021.head(2)

Unnamed: 0,Country,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),ANO,Region
0,Finland,1.446,1.106,0.741,0.691,0.124,0.481,2021,Western Europe
1,Denmark,1.502,1.108,0.763,0.686,0.208,0.485,2021,Western Europe


#### Importar 2022

In [170]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country', 'Explained by: GDP per capita', 'Explained by: Social support', \
                    'Explained by: Healthy life expectancy','Explained by: Freedom to make life choices', \
                    'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2022 = pd.read_csv(ruta_2022, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2022["ANO"] = '2022'
df_2022["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2022.rename(columns={'Country': 'Country', \
                   'Explained by: GDP per capita': 'Economy (GDP per Capita)', \
                   'Explained by: Social support': 'Social support', \
                   'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                   'Explained by: Freedom to make life choices': 'Freedom', \
                   'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                   'Explained by: Generosity': 'Generosity'
                   }, inplace=True)

df_2022.head(2)

Unnamed: 0,Country,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),ANO,Region
0,Finland,1892,1258,775,736,109,534,2022,Western Europe
1,Denmark,1953,1243,777,719,188,532,2022,Western Europe


#### Importar 2023

In [171]:
# Especifica los nombres de las columnas que deseas importar
columnas_deseadas = ['Country name', 'Explained by: Log GDP per capita', 'Explained by: Social support','Explained by: Healthy life expectancy', \
                    'Explained by: Freedom to make life choices', 'Explained by: Perceptions of corruption', 'Explained by: Generosity']

# Lee el archivo CSV incluyendo solamente las columnas especificadas
df_2023 = pd.read_csv(ruta_2023, usecols=columnas_deseadas)

# Crea columna año y atribuye el valor correspondente al año que vemos compuesto en el propio nombre del
# fichero csv importado
df_2023["ANO"] = '2023'
df_2023["Region"] = 'Western Europe' # Como vamos trabajar solamente con países de esta Región, desde ya actualizo este dato aquí mismo.

# Renombra las columas para que esten iguales en todos los Dataframes
df_2023.rename(columns={'Country name': 'Country', \
                   'Explained by: Log GDP per capita': 'Economy (GDP per Capita)', \
                   'Explained by: Social support': 'Social support', \
                   'Explained by: Healthy life expectancy': 'Health (Life Expectancy)', \
                   'Explained by: Freedom to make life choices': 'Freedom', \
                   'Explained by: Perceptions of corruption': 'Trust (Government Corruption)', \
                   'Explained by: Generosity': 'Generosity'
                   }, inplace=True)

df_2023.head(2)

Unnamed: 0,Country,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Generosity,Trust (Government Corruption),ANO,Region
0,Afghanistan,0.645,0.0,0.087,0.0,0.093,0.059,2023,Western Europe
1,Albania,1.449,0.951,0.48,0.549,0.133,0.037,2023,Western Europe


## TRATAR DATOS

Este procedimiento consiste en realizar los ajustes mas profundos en los datos para prepararlos para la próxima fase del proyecto. 

### Fusionar en un unico DataFrame todos los datos

In [172]:
# Después de tenernos uniformizados los nombres de las columnas de todos los CSVs importados, llega el momento de 
# fusionar todos los datos en un unico DataFrame

frames = [df_2015, df_2016, df_2017, df_2018, df_2019, df_2020, df_2021, df_2022, df_2023]  # Lista de DataFrames que quieres unificar
df = pd.concat(frames, ignore_index=True)
df.head()

Unnamed: 0,Country,Region,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity,ANO
0,Switzerland,Western Europe,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678,2015
1,Iceland,Western Europe,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363,2015
2,Denmark,Western Europe,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139,2015
3,Norway,Western Europe,1.459,1.33095,0.88521,0.66973,0.36503,0.34699,2015
4,Canada,North America,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811,2015


In [173]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1368 entries, 0 to 1367
Data columns (total 9 columns):
 #   Column                         Non-Null Count  Dtype 
---  ------                         --------------  ----- 
 0   Country                        1368 non-null   object
 1   Region                         1368 non-null   object
 2   Economy (GDP per Capita)       1367 non-null   object
 3   Social support                 1367 non-null   object
 4   Health (Life Expectancy)       1366 non-null   object
 5   Freedom                        1367 non-null   object
 6   Trust (Government Corruption)  1366 non-null   object
 7   Generosity                     1367 non-null   object
 8   ANO                            1368 non-null   object
dtypes: object(9)
memory usage: 96.3+ KB


### Reemplazar la coma (",") por punto (".") en las columnas numéricas

In [174]:
df = pd.DataFrame(df)

# Columnas en las que se realizará el reemplazo
columnas = ['Economy (GDP per Capita)', 'Social support', 'Health (Life Expectancy)', 'Freedom', 'Trust (Government Corruption)', \
            'Generosity']

# Reemplazo de comas por puntos en las columnas seleccionadas
df[columnas] = df[columnas].replace(',', '.', regex=True)

### Coverter los tipos de datos de las Columnas

In [175]:
# Convertir los tipos de columnas
df = pd.DataFrame(df)
df["ANO"] = df["ANO"].astype("int64")
df["Country"] = df["Country"].astype("object")
df["Region"] = df["Region"].astype("object")
df["Economy (GDP per Capita)"] = df["Economy (GDP per Capita)"].astype("float64") 
df["Social support"] = df["Social support"].astype("float64")
df["Health (Life Expectancy)"] = df["Health (Life Expectancy)"].astype("float64")
df["Freedom"] = df["Freedom"].astype("float64")
df["Trust (Government Corruption)"] = df["Trust (Government Corruption)"].astype("float64")
df["Generosity"] = df["Generosity"].astype("float64")
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1368 entries, 0 to 1367
Data columns (total 9 columns):
 #   Column                         Non-Null Count  Dtype  
---  ------                         --------------  -----  
 0   Country                        1368 non-null   object 
 1   Region                         1368 non-null   object 
 2   Economy (GDP per Capita)       1367 non-null   float64
 3   Social support                 1367 non-null   float64
 4   Health (Life Expectancy)       1366 non-null   float64
 5   Freedom                        1367 non-null   float64
 6   Trust (Government Corruption)  1366 non-null   float64
 7   Generosity                     1367 non-null   float64
 8   ANO                            1368 non-null   int64  
dtypes: float64(6), int64(1), object(2)
memory usage: 96.3+ KB


### Cambiar de posición la columna "ANO"

In [176]:
# Extraer la columna 'ANO' utilizando el método 'pop'
columma_ano = df.pop('ANO')

# Insertar la columna 'ANO' en la primera posición utilizando el método 'insert'
df.insert(0, 'ANO', columma_ano)

# Cambiar a Entero el tipo de datos de la columna "ANO"
#df['ANO'] = pd.to_numeric(df['ANO'], errors='coerce').astype(int)

df.head()

Unnamed: 0,ANO,Country,Region,Economy (GDP per Capita),Social support,Health (Life Expectancy),Freedom,Trust (Government Corruption),Generosity
0,2015,Switzerland,Western Europe,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678
1,2015,Iceland,Western Europe,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363
2,2015,Denmark,Western Europe,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139
3,2015,Norway,Western Europe,1.459,1.33095,0.88521,0.66973,0.36503,0.34699
4,2015,Canada,North America,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811


In [177]:
df.columns

Index(['ANO', 'Country', 'Region', 'Economy (GDP per Capita)',
       'Social support', 'Health (Life Expectancy)', 'Freedom',
       'Trust (Government Corruption)', 'Generosity'],
      dtype='object')

### Traduccir columnas y datos al idioma español

Renombrar los nombres de las columnas del DataFrame

In [178]:

# Crear un diccionario con los nuevos nombres de las columnas
nuevos_nombres = {
    'Country': 'PAIS',
    'Region': 'REGION',
    'Economy (GDP per Capita)': 'ECONOMIA_PIB_PER_CAPITA',
    'Social support': 'APOYO_SOCIAL',
    'Health (Life Expectancy)': 'SALUD_ESPERANZA_DE_VIDA',
    'Freedom': 'LIBERTAD',
    'Trust (Government Corruption)': 'PERCEPCION_CORRUPCION',
    'Generosity': 'GENEROSIDAD'
}

# Renombrar las columnas
df = df.rename(columns=nuevos_nombres)
df.head()

Unnamed: 0,ANO,PAIS,REGION,ECONOMIA_PIB_PER_CAPITA,APOYO_SOCIAL,SALUD_ESPERANZA_DE_VIDA,LIBERTAD,PERCEPCION_CORRUPCION,GENEROSIDAD
0,2015,Switzerland,Western Europe,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678
1,2015,Iceland,Western Europe,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363
2,2015,Denmark,Western Europe,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139
3,2015,Norway,Western Europe,1.459,1.33095,0.88521,0.66973,0.36503,0.34699
4,2015,Canada,North America,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811


Traduccir al español, los registros contenidos dentro de las columnas "PAIS" y "REGION"

- Aquí traduccimos los nombres solamente para los países y región que vamos tratar en el proyecto

In [179]:

# Crear el dataframe
df_traduccido = pd.DataFrame({'PAIS': ['Denmark', 'Finland', 'Iceland', 'Norway', 'Sweden', 'Spain'],
                                      'REGION': ['Western Europe', 'Western Europe', 'Western Europe', \
                                                 'Western Europe', 'Western Europe', 'Western Europe']})

# Crear el diccionario de mapeo para los valores de Country
paises_mapeados = {'Denmark': 'Dinamarca', 'Finland': 'Finlandia', 'Iceland': 'Islandia', 'Norway': 'Noruega', 'Sweden': 'Suecia', 'Spain': 'España'}

# Crear el diccionario de mapeo para el valor de Region
regiones_mapeadas = {'Western Europe': 'Europa Occidental'}

# Renombrar los valores en el dataframe
df_traduccido = df.replace({'PAIS': paises_mapeados, 'REGION': regiones_mapeadas})

# Imprimir el dataframe actualizado
df_traduccido.head()


Unnamed: 0,ANO,PAIS,REGION,ECONOMIA_PIB_PER_CAPITA,APOYO_SOCIAL,SALUD_ESPERANZA_DE_VIDA,LIBERTAD,PERCEPCION_CORRUPCION,GENEROSIDAD
0,2015,Switzerland,Europa Occidental,1.39651,1.34951,0.94143,0.66557,0.41978,0.29678
1,2015,Islandia,Europa Occidental,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363
2,2015,Dinamarca,Europa Occidental,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139
3,2015,Noruega,Europa Occidental,1.459,1.33095,0.88521,0.66973,0.36503,0.34699
4,2015,Canada,North America,1.32629,1.32261,0.90563,0.63297,0.32957,0.45811


## SELECCIONAR LOS DATOS DE INTERÉS PARA EL PROYECTO

In [180]:
# selecionamos a los países que iremos trabajar en el proyecto
paises_seleccionados = ['Dinamarca', 'Finlandia', 'Islandia', 'Noruega', 'Suecia', 'España']

# Filtrar el DataFrame utilizando el método "isin" de Pandas
df = df_traduccido[df_traduccido['PAIS'].isin(paises_seleccionados)]

df.head()

Unnamed: 0,ANO,PAIS,REGION,ECONOMIA_PIB_PER_CAPITA,APOYO_SOCIAL,SALUD_ESPERANZA_DE_VIDA,LIBERTAD,PERCEPCION_CORRUPCION,GENEROSIDAD
1,2015,Islandia,Europa Occidental,1.30232,1.40223,0.94784,0.62877,0.14145,0.4363
2,2015,Dinamarca,Europa Occidental,1.32548,1.36058,0.87464,0.64938,0.48357,0.34139
3,2015,Noruega,Europa Occidental,1.459,1.33095,0.88521,0.66973,0.36503,0.34699
5,2015,Finlandia,Europa Occidental,1.29025,1.31826,0.88911,0.64169,0.41372,0.23351
7,2015,Suecia,Europa Occidental,1.33171,1.28907,0.91087,0.6598,0.43844,0.36262


In [181]:
df.columns

Index(['ANO', 'PAIS', 'REGION', 'ECONOMIA_PIB_PER_CAPITA', 'APOYO_SOCIAL',
       'SALUD_ESPERANZA_DE_VIDA', 'LIBERTAD', 'PERCEPCION_CORRUPCION',
       'GENEROSIDAD'],
      dtype='object')

In [182]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 54 entries, 1 to 1348
Data columns (total 9 columns):
 #   Column                   Non-Null Count  Dtype  
---  ------                   --------------  -----  
 0   ANO                      54 non-null     int64  
 1   PAIS                     54 non-null     object 
 2   REGION                   54 non-null     object 
 3   ECONOMIA_PIB_PER_CAPITA  54 non-null     float64
 4   APOYO_SOCIAL             54 non-null     float64
 5   SALUD_ESPERANZA_DE_VIDA  54 non-null     float64
 6   LIBERTAD                 54 non-null     float64
 7   PERCEPCION_CORRUPCION    54 non-null     float64
 8   GENEROSIDAD              54 non-null     float64
dtypes: float64(6), int64(1), object(2)
memory usage: 4.2+ KB


In [183]:
df.describe().round(2)

Unnamed: 0,ANO,ECONOMIA_PIB_PER_CAPITA,APOYO_SOCIAL,SALUD_ESPERANZA_DE_VIDA,LIBERTAD,PERCEPCION_CORRUPCION,GENEROSIDAD
count,54.0,54.0,54.0,54.0,54.0,54.0,54.0
mean,2019.0,1.51,1.39,0.84,0.62,0.33,0.26
std,2.61,0.23,0.19,0.14,0.1,0.16,0.09
min,2015.0,1.23,1.06,0.54,0.36,0.06,0.1
25%,2017.0,1.34,1.22,0.79,0.58,0.15,0.19
50%,2019.0,1.44,1.48,0.85,0.65,0.39,0.25
75%,2021.0,1.57,1.55,0.95,0.69,0.45,0.35
max,2023.0,2.0,1.64,1.06,0.77,0.54,0.48


In [184]:
df.isnull().sum()

ANO                        0
PAIS                       0
REGION                     0
ECONOMIA_PIB_PER_CAPITA    0
APOYO_SOCIAL               0
SALUD_ESPERANZA_DE_VIDA    0
LIBERTAD                   0
PERCEPCION_CORRUPCION      0
GENEROSIDAD                0
dtype: int64

## Generar nuevo CSV con los datos cargados y preprocesados

In [185]:
df.to_csv(ruta_nuevoCSV, index=False)