Temática: progresión del GDP per cápita en los países del mundo.

Datos descargados de: https://databank.worldbank.org/

Regiones en las que he dividido el conjunto de datos:  
Asia y Oceanía  
Europa   
Africa  
Norte América  
Sudamérica  

In [1]:
import pandas as pd

## Lectura de archivos

In [2]:
# Leemos los archivos Excel y cargamos los datos en dataFrames:
asia_oceania = pd.read_excel("asia_oceania.xlsx")
europe = pd.read_excel("europe.xlsx")
africa = pd.read_excel("africa.xlsx")
northamerica = pd.read_excel("northamerica.xlsx")
southamerica = pd.read_excel("southamerica.xlsx")

## Limpieza de datos

In [3]:
# Eliminamos las dos primeras columnas:
asia_oceania.drop(asia_oceania.columns[:2], axis=1, inplace=True)
europe.drop(europe.columns[:2], axis=1, inplace=True)
africa.drop(africa.columns[:2], axis=1, inplace=True)
northamerica.drop(northamerica.columns[:2], axis=1, inplace=True)
southamerica.drop(southamerica.columns[:2], axis=1, inplace=True)

# Seleccionamos las columnas que contienen los datos por años:
columnas_years = asia_oceania.columns[2:] # son iguales en todos los datasets

# Convertimos las columnas seleccionadas a tipo numérico y redondeamos a dos decimales:
asia_oceania[columnas_years] = asia_oceania[columnas_years].apply(pd.to_numeric, errors='coerce').round(2)
europe[columnas_years] = europe[columnas_years].apply(pd.to_numeric, errors='coerce').round(2)
africa[columnas_years] = africa[columnas_years].apply(pd.to_numeric, errors='coerce').round(2)
northamerica[columnas_years] = northamerica[columnas_years].apply(pd.to_numeric, errors='coerce').round(2)
southamerica[columnas_years] = southamerica[columnas_years].apply(pd.to_numeric, errors='coerce').round(2)

# Limpiamos los nombres de las columnas para que sólo quede el número del año:
asia_oceania.rename(columns={col: col.split()[0] for col in columnas_years}, inplace=True)
europe.rename(columns={col: col.split()[0] for col in columnas_years}, inplace=True)
africa.rename(columns={col: col.split()[0] for col in columnas_years}, inplace=True)
northamerica.rename(columns={col: col.split()[0] for col in columnas_years}, inplace=True)
southamerica.rename(columns={col: col.split()[0] for col in columnas_years}, inplace=True)

# Añadimos el nombre de la región:
asia_oceania.insert(1, "Region", "Asia & Oceania")
europe.insert(1, "Region", "Europe")
africa.insert(1, "Region", "Africa")
northamerica.insert(1, "Region", "North America")
southamerica.insert(1, "Region", "South America")

def generate_image_url(country_code):
    return f"https://public.flourish.studio/country-flags/svg/{str(country_code)[:2].lower()}.svg"

# Creamos una nueva columna "Image URL" modificando el contenido de "Country Code": 
asia_oceania["Image URL"] = asia_oceania["Country Code"].apply(generate_image_url)
asia_oceania = asia_oceania.drop("Country Code", axis=1)
europe["Image URL"] = europe["Country Code"].apply(generate_image_url)
europe = europe.drop("Country Code", axis=1)
africa["Image URL"] = africa["Country Code"].apply(generate_image_url)
africa = africa.drop("Country Code", axis=1)
northamerica["Image URL"] = northamerica["Country Code"].apply(generate_image_url)
northamerica = northamerica.drop("Country Code", axis=1)
southamerica["Image URL"] = southamerica["Country Code"].apply(generate_image_url)
southamerica = southamerica.drop("Country Code", axis=1)

# Extraemos la columna del último lugar:
columna_extraida1 = asia_oceania.pop("Image URL")
columna_extraida2 = europe.pop("Image URL")
columna_extraida3 = africa.pop("Image URL")
columna_extraida4 = northamerica.pop("Image URL")
columna_extraida5 = southamerica.pop("Image URL")

# Insertamos la columna en la tercera posición:
asia_oceania.insert(2, "Image URL", columna_extraida1)
europe.insert(2, "Image URL", columna_extraida2)
africa.insert(2, "Image URL", columna_extraida3)
northamerica.insert(2, "Image URL", columna_extraida4)
southamerica.insert(2, "Image URL", columna_extraida5)

dataframes = [asia_oceania, europe, africa, northamerica, southamerica]
# Realizamos el merge de los dataframes:
paises = pd.concat(dataframes, ignore_index=True)

# Pasamos el dataframe a Excel para importarlo en Flourish:
paises.to_excel("paises_clean.xlsx", index=False)