# Proyecto: PROWPI001 (Proyecto World Population Indicators 001)

Data source: **Kaggle, World Bank Indicators Collection**  
URL        : https://www.kaggle.com/datasets/ploverbrown/world-bank-indicators-collection  
Autor      : PLOVER BROWN  
Fuente     : **Banco Mundial**  
Fichero    : PopulationDataWorldBank.xlsx  

## Componentes

1. ***Población (seleccionado)***
2. ***Densidad de población (seleccionado)***
3. ***Crecimiento de la población  (seleccionado)***
4. Población femenina
5. Población masculina
6. ***Educación  (seleccionado)***
7. Cambio climático
8. Comercio
9. Infraestructura
10. Pobreza 
11. Desarrollo social
12. Medio ambiente
13. Agricultura y medio rural
14. ***Desarrollo económico  (seleccionado)***
15. ***Salud  (seleccionado)***
16. Sector privado
17. Sector público
18. Sector financiero
19. Ciencia y tecnología
20. ***Deuda externa (seleccionado)***
21. ***Metadatos de paises (seleccionado)***
22. ***Metadatos de indicadores (seleccionado)***

Los conjuntos de datos marcados como ***seleccionado*** serán incluidos en este proyecto. Caso que no tengan calodad los datasets, se buscarán datasets alternativos.  

El presente proyecto solo es un ejercicio de NumPy y Pandas sobre Python en Notebbok en Google Colab. **No tiene más pretensiones**.  

## Objetivos  

Aunque, **el presente notebook es un ejercicio de un curso**, como se pretende hacer un análisis de datos, es imprescindible definir ***objetivos claros***. Estos son:  

1. Los datasets, que se convertirán en nuestros datasources, deben ser completos y consistentes. Es decir:  
  * No deben tener datos nulos o estos deben ser una minoría justificable.  
  * Cogeremos un año como referencia del estudio. En nuestro caso será el 2021 (lo escogemos arbitráriamente y si no es posible obtenerlo, se buscará el año anterior).  
2. Datos e indicadores buscados:  
  * País, código alfanumérico estándard (ISO -iso3-). Deben haber 193 paises (reconocidos por la ONU) en 2021.
  * Nombre país (de todos los paises del mundo en el año seleccionado -2021-).  
  * Población total por país.  
  * Densidad de población (nº de habitantes/Km2).  
  * Tasa anual de crecimiento poblacional (confiaremos en el resultado que nos proporcionen los datasets).Siendo las fórmulas correctas:  
      * Crecimiento = (nacimientos – defunciones) + (inmigraciones – emigraciones)  
      * Tasa de crecimento anual = crecimiento anual / población media anual * 100
      * Unidad de medida = %  
  * Superfice (Km2).  



  ***Nota***: Algunos estudios de prospectiva indican que el 16 de abril de 2023 India habra superado a China como el país más poblado del mundo. ¿Será verdad? ;-)

***Extracción de datos***

In [1]:
# Librerías
import numpy  as np
import pandas as pd

In [3]:
# Leer conjuntos de datos
df_pob = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Population Totals')    # Población
df_den = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Population Density')   # Densidad de población
df_cre = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Population Growth')    # Crecimiento de la población
df_edu = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Education')            # Educación
df_des = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Economic Growth')      # Desarrollo económico
df_sal_a = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Health1')            # Salud - hoja 1
df_sal_b = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Health2')            # Salud - hoja 2
df_deu = pd.read_excel('/content/PopulationDataWorldBank.xlsx','External Debt')        # Deuda externa
df_pai = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Country Metadata')     # Metadatos de paises
df_ind = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Metadata Indicators')  # Metadatos de indicadores

***Transformación de datos - Población -***

In [4]:
# Comprobamos el DataFrame df_pob
df_pob.info

<bound method DataFrame.info of      Country Name Country Code     Indicator Name Indicator Code        1960  \
0           Aruba          ABW  Population, total    SP.POP.TOTL     54211.0   
1     Afghanistan          AFG  Population, total    SP.POP.TOTL   8996973.0   
2          Angola          AGO  Population, total    SP.POP.TOTL   5454933.0   
3         Albania          ALB  Population, total    SP.POP.TOTL   1608800.0   
4         Andorra          AND  Population, total    SP.POP.TOTL     13411.0   
..            ...          ...                ...            ...         ...   
259        Kosovo          XKX  Population, total    SP.POP.TOTL    947000.0   
260   Yemen, Rep.          YEM  Population, total    SP.POP.TOTL   5315355.0   
261  South Africa          ZAF  Population, total    SP.POP.TOTL  17099840.0   
262        Zambia          ZMB  Population, total    SP.POP.TOTL   3070776.0   
263      Zimbabwe          ZWE  Population, total    SP.POP.TOTL   3776681.0   

       

***Nueva extracción de datos - Población -***

Queremos datos del año 2021 y en el presente dataset no disponemos de ellos. No tiene la calidad que requerimos en nuestros objetivos, por lo tanto, buscamos otro dataset, el cual nos proporcione los datos que necesitamos.  

Data source: Kaggle, 2021 World Population (updated daily)  
URL : https://www.kaggle.com/datasets/rsrishav/world-population  
Autor : RISHAV SHARMA  
Fuente : -  
Fichero : 2021_population.csv  

In [9]:
# Releer el conjunto de datos
df_pob = pd.read_csv('/content/2021_population.csv')    # Población

***Nueva transformación de datos - Población -***

In [10]:
# Comprobamos el DataFrame df_pob
df_pob.info

<bound method DataFrame.info of     iso_code           country 2021_last_updated 2020_population  \
0        CHN             China     1,447,065,329   1,439,323,776   
1        IND             India     1,401,310,563   1,380,004,385   
2        USA     United States       334,058,426     331,002,651   
3        IDN         Indonesia       278,037,263     273,523,615   
4        PAK          Pakistan       227,724,796     220,892,340   
..       ...               ...               ...             ...   
219      MSR        Montserrat             4,977           4,992   
220      FLK  Falkland Islands             3,533           3,480   
221      NIU              Niue             1,619           1,626   
222      TKL           Tokelau             1,373           1,357   
223      VAT      Vatican City               800             801   

                area density_sq_km growth_rate world_%  rank  
0    9,706,961 sq_km     149/sq_km       0.34%  18.34%     1  
1    3,287,590 sq_km     

In [11]:
# Comprobamos las columnas que hay en el DataFrame
for column in df_pob:
  print(column)

iso_code
country
2021_last_updated
2020_population
area
density_sq_km
growth_rate
world_%
rank


In [12]:
# Limpiamos el Dataframe de las columnas que no necesitamos 
# Como hay > 195 paises, deben haber filas que no se refieren a paises, 
# sino a territorios autónomos, de ultramar, etc., como consecuencia 
# eliminamos el % de la población mundial y el ranking
df_pob = df_pob.drop(['country' ,'2020_population', 'world_%', 'rank'], axis=1)

In [13]:
# Renombramos columnas para hacer más manejable el df
df_pob = df_pob.set_axis(['codigo_pais', 'poblacion', 'area', 'densidad_poblacion', 'tasa_crecimiento'], axis=1)

In [14]:
# Comprobamos el DataFrame (general)
df_pob.info

<bound method DataFrame.info of     codigo_pais      poblacion             area densidad_poblacion  \
0           CHN  1,447,065,329  9,706,961 sq_km          149/sq_km   
1           IND  1,401,310,563  3,287,590 sq_km          424/sq_km   
2           USA    334,058,426  9,372,610 sq_km           36/sq_km   
3           IDN    278,037,263  1,904,569 sq_km          145/sq_km   
4           PAK    227,724,796    881,912 sq_km          255/sq_km   
..          ...            ...              ...                ...   
219         MSR          4,977        102 sq_km           49/sq_km   
220         FLK          3,533     12,173 sq_km            0/sq_km   
221         NIU          1,619        260 sq_km            6/sq_km   
222         TKL          1,373         12 sq_km          114/sq_km   
223         VAT            800          1 sq_km          800/sq_km   

    tasa_crecimiento  
0              0.34%  
1              0.97%  
2              0.58%  
3              1.04%  
4           

In [15]:
# Estandarizamos el código de población (iso3) a minúsculas
df_pob['codigo_pais'] = df_pob['codigo_pais'].str.lower()
df_pob.info

<bound method DataFrame.info of     codigo_pais      poblacion             area densidad_poblacion  \
0           chn  1,447,065,329  9,706,961 sq_km          149/sq_km   
1           ind  1,401,310,563  3,287,590 sq_km          424/sq_km   
2           usa    334,058,426  9,372,610 sq_km           36/sq_km   
3           idn    278,037,263  1,904,569 sq_km          145/sq_km   
4           pak    227,724,796    881,912 sq_km          255/sq_km   
..          ...            ...              ...                ...   
219         msr          4,977        102 sq_km           49/sq_km   
220         flk          3,533     12,173 sq_km            0/sq_km   
221         niu          1,619        260 sq_km            6/sq_km   
222         tkl          1,373         12 sq_km          114/sq_km   
223         vat            800          1 sq_km          800/sq_km   

    tasa_crecimiento  
0              0.34%  
1              0.97%  
2              0.58%  
3              1.04%  
4           

In [16]:
# Limpiamos las columnas de caracteres no deseados
df_pob.area = df_pob.area.str.slice(0,-6)
df_pob.densidad_poblacion = df_pob.densidad_poblacion.str.slice(0,-6)
df_pob.tasa_crecimiento = df_pob.tasa_crecimiento.str.slice(0,-1)
df_pob.info

<bound method DataFrame.info of     codigo_pais      poblacion       area densidad_poblacion tasa_crecimiento
0           chn  1,447,065,329  9,706,961                149             0.34
1           ind  1,401,310,563  3,287,590                424             0.97
2           usa    334,058,426  9,372,610                 36             0.58
3           idn    278,037,263  1,904,569                145             1.04
4           pak    227,724,796    881,912                255             1.95
..          ...            ...        ...                ...              ...
219         msr          4,977        102                 49            -0.30
220         flk          3,533     12,173                  0             1.52
221         niu          1,619        260                  6            -0.43
222         tkl          1,373         12                114             1.18
223         vat            800          1                800            -0.12

[224 rows x 5 columns]>

In [17]:
# Comprobamos el DataFrame (NaN)
df_pob.isna().sum()

codigo_pais           0
poblacion             0
area                  0
densidad_poblacion    0
tasa_crecimiento      0
dtype: int64

In [18]:
# Comprobamos el DataFrame (nulos)
df_pob.isnull().sum()

codigo_pais           0
poblacion             0
area                  0
densidad_poblacion    0
tasa_crecimiento      0
dtype: int64

Vamos a la ***transformación de datos*** del dataset de metadatos de país, para obtener el datasource límpio

In [19]:
# Comprobamos el DataFrame df_pai (columnas)
for column in df_pai:
  print(column)

Country Code
Region
IncomeGroup
SpecialNotes
TableName


In [37]:
# Ahora seleccionamos solo los registros que estén incluidos en nuestro dataset de paises 
# (ir más abajo a la extracción de datos de paises)
df_pob_copy = df_pob[df_pob.codigo_pais.isin(df_pai['codigo_pais'])]
df_pob_copy.info

<bound method DataFrame.info of     codigo_pais      poblacion       area densidad_poblacion tasa_crecimiento
0           chn  1,447,065,329  9,706,961                149             0.34
1           ind  1,401,310,563  3,287,590                424             0.97
2           usa    334,058,426  9,372,610                 36             0.58
3           idn    278,037,263  1,904,569                145             1.04
4           pak    227,724,796    881,912                255             1.95
..          ...            ...        ...                ...              ...
208         lie         38,250        160                239             0.32
209         smr         34,017         61                558             0.25
211         plw         18,169        459                 40             0.41
214         tuv         11,931         26                459             1.18
216         nru         10,876         21                518             0.48

[189 rows x 5 columns]>

In [38]:
# Volcamos la copia del df con el que hemos trabajado en el original y listo.
# Ya tenemos el df limpio
df_pob = df_pob_copy
df_pob.info

<bound method DataFrame.info of     codigo_pais      poblacion       area densidad_poblacion tasa_crecimiento
0           chn  1,447,065,329  9,706,961                149             0.34
1           ind  1,401,310,563  3,287,590                424             0.97
2           usa    334,058,426  9,372,610                 36             0.58
3           idn    278,037,263  1,904,569                145             1.04
4           pak    227,724,796    881,912                255             1.95
..          ...            ...        ...                ...              ...
208         lie         38,250        160                239             0.32
209         smr         34,017         61                558             0.25
211         plw         18,169        459                 40             0.41
214         tuv         11,931         26                459             1.18
216         nru         10,876         21                518             0.48

[189 rows x 5 columns]>

***Transformación de datos - Densidad de población -***

In [39]:
# Comprobamos el DataFrame df_den
df_den.info

<bound method DataFrame.info of      Country Name Country Code  \
0           Aruba          ABW   
1     Afghanistan          AFG   
2          Angola          AGO   
3         Albania          ALB   
4         Andorra          AND   
..            ...          ...   
259        Kosovo          XKX   
260   Yemen, Rep.          YEM   
261  South Africa          ZAF   
262        Zambia          ZMB   
263      Zimbabwe          ZWE   

                                        Indicator Name Indicator Code  1960  \
0    Population density (people per sq. km of land ...    EN.POP.DNST   NaN   
1    Population density (people per sq. km of land ...    EN.POP.DNST   NaN   
2    Population density (people per sq. km of land ...    EN.POP.DNST   NaN   
3    Population density (people per sq. km of land ...    EN.POP.DNST   NaN   
4    Population density (people per sq. km of land ...    EN.POP.DNST   NaN   
..                                                 ...            ...   ...   
259  P

Este dataset no nos proporciona ninguna información del 2021, además, la densidad de la población ya la tenemos límpia en df_pob. Lo despreciamos para nuetro análisis

***Transformación de datos - Crecimiento demográfico -***

In [41]:
# Comprobamos el DataFrame df_cre
df_cre.info

<bound method DataFrame.info of      Country Name Country Code                Indicator Name Indicator Code  \
0           Aruba          ABW  Population growth (annual %)    SP.POP.GROW   
1     Afghanistan          AFG  Population growth (annual %)    SP.POP.GROW   
2          Angola          AGO  Population growth (annual %)    SP.POP.GROW   
3         Albania          ALB  Population growth (annual %)    SP.POP.GROW   
4         Andorra          AND  Population growth (annual %)    SP.POP.GROW   
..            ...          ...                           ...            ...   
259        Kosovo          XKX  Population growth (annual %)    SP.POP.GROW   
260   Yemen, Rep.          YEM  Population growth (annual %)    SP.POP.GROW   
261  South Africa          ZAF  Population growth (annual %)    SP.POP.GROW   
262        Zambia          ZMB  Population growth (annual %)    SP.POP.GROW   
263      Zimbabwe          ZWE  Population growth (annual %)    SP.POP.GROW   

     1960      1961

Por las mismas razones que el caso anterior, despreciamos df_cre, para nuetro análisis

***Transformación de datos - Educación -***

In [42]:
# Comprobamos el DataFrame df_edu
df_edu.info

<bound method DataFrame.info of       Country Name Country Code  \
0            Aruba          ABW   
1            Aruba          ABW   
2            Aruba          ABW   
3            Aruba          ABW   
4            Aruba          ABW   
...            ...          ...   
42763     Zimbabwe          ZWE   
42764     Zimbabwe          ZWE   
42765     Zimbabwe          ZWE   
42766     Zimbabwe          ZWE   
42767     Zimbabwe          ZWE   

                                          Indicator Name  \
0          Population ages 15-64 (% of total population)   
1           Population ages 0-14 (% of total population)   
2      Unemployment, total (% of total labor force) (...   
3      Unemployment, male (% of male labor force) (mo...   
4      Unemployment, female (% of female labor force)...   
...                                                  ...   
42763  Literacy rate, adult female (% of females ages...   
42764  Literacy rate, youth total (% of people ages 1...   
42765  

***Nueva extracción de datos - Educación -***

Este datasource no nos proporciona información del año que queremos analizar (2021), por lo tanto, buscamos otro, el cual nos proporcione los datos que necesitamos.

Data source: All composite indices and components time series (1990-2021), Metadata  
URL : https://hdr.undp.org/sites/default/files/2021-22_HDR/HDR21-22_Composite_indices_complete_time_series.csv  
Autor : United Nations Development Programme  
Fuente : UN  
Fichero : HDR21-22_Composite_indices_complete_time_series.csv  



In [43]:
# Releer el conjunto de datos
df_edu = pd.read_csv('/content/HDR21-22_Composite_indices_complete_time_series.csv')            # Educación

***Nueva transformación de datos - Educación -***

In [44]:
# Comprobamos el DataFrame df_edu
df_edu.info

<bound method DataFrame.info of           iso3                          country    hdicode region  \
0          AFG                      Afghanistan        Low     SA   
1          AGO                           Angola     Medium    SSA   
2          ALB                          Albania       High    ECA   
3          AND                          Andorra  Very High    NaN   
4          ARE             United Arab Emirates  Very High     AS   
..         ...                              ...        ...    ...   
201    ZZG.ECA          Europe and Central Asia        NaN    NaN   
202    ZZH.LAC  Latin America and the Caribbean        NaN    NaN   
203     ZZI.SA                       South Asia        NaN    NaN   
204    ZZJ.SSA               Sub-Saharan Africa        NaN    NaN   
205  ZZK.WORLD                            World        NaN    NaN   

     hdi_rank_2021  hdi_1990  hdi_1991  hdi_1992  hdi_1993  hdi_1994  ...  \
0            180.0     0.273     0.279     0.287     0.297    

In [45]:
# Limpiamos columnas que no necesitamos 
#     human development index     = hdi 
#     índice de desarrollo humano = idh
df_edu = df_edu.drop(['hdi_1990',
                  'hdi_1991',
                  'hdi_1992',
                  'hdi_1993',
                  'hdi_1994',
                  'hdi_1995',
                  'hdi_1996',
                  'hdi_1997',
                  'hdi_1998',
                  'hdi_1999',
                  'hdi_2000',
                  'hdi_2001',
                  'hdi_2002',
                  'hdi_2003',
                  'hdi_2004',
                  'hdi_2005',
                  'hdi_2006',
                  'hdi_2007',
                  'hdi_2008',
                  'hdi_2009',
                  'hdi_2010',
                  'hdi_2011',
                  'hdi_2012',
                  'hdi_2013',
                  'hdi_2014',
                  'hdi_2015',
                  'hdi_2016',
                  'hdi_2017',
                  'hdi_2018',
                  'hdi_2019',
                  'hdi_2020'], axis=1)

In [None]:
# Limpiamos columnas que no necesitamos 
#     life expectancy at birth (years)  = le
#     esperanza de vida (años)          = ev
df_edu = df_edu.drop(['le_1990',
                  'le_1991',
                  'le_1992',
                  'le_1993',
                  'le_1994',
                  'le_1995',
                  'le_1996',
                  'le_1997',
                  'le_1998',
                  'le_1999',
                  'le_2000',
                  'le_2001',
                  'le_2002',
                  'le_2003',
                  'le_2004',
                  'le_2005',
                  'le_2006',
                  'le_2007',
                  'le_2008',
                  'le_2009',
                  'le_2010',
                  'le_2011',
                  'le_2012',
                  'le_2013',
                  'le_2014',
                  'le_2015',
                  'le_2016',
                  'le_2017',
                  'le_2018',
                  'le_2019',
                  'le_2020'], axis=1)

In [48]:
# Limpiamos columnas que no necesitamos 
#     expected years of schooling   = eys
#     años esperados de escolaridad = aee
df_edu = df_edu.drop(['eys_1990',
                  'eys_1991',
                  'eys_1992',
                  'eys_1993',
                  'eys_1994',
                  'eys_1995',
                  'eys_1996',
                  'eys_1997',
                  'eys_1998',
                  'eys_1999',
                  'eys_2000',
                  'eys_2001',
                  'eys_2002',
                  'eys_2003',
                  'eys_2004',
                  'eys_2005',
                  'eys_2006',
                  'eys_2007',
                  'eys_2008',
                  'eys_2009',
                  'eys_2010',
                  'eys_2011',
                  'eys_2012',
                  'eys_2013',
                  'eys_2014',
                  'eys_2015',
                  'eys_2016',
                  'eys_2017',
                  'eys_2018',
                  'eys_2019',
                  'eys_2020'], axis=1)

In [49]:
# Limpiamos columnas que no necesitamos 
#     mean years of schooling       = mys
#     promnedio años de escolaridad = pae
df_edu = df_edu.drop(['mys_1990',
                  'mys_1991',
                  'mys_1992',
                  'mys_1993',
                  'mys_1994',
                  'mys_1995',
                  'mys_1996',
                  'mys_1997',
                  'mys_1998',
                  'mys_1999',
                  'mys_2000',
                  'mys_2001',
                  'mys_2002',
                  'mys_2003',
                  'mys_2004',
                  'mys_2005',
                  'mys_2006',
                  'mys_2007',
                  'mys_2008',
                  'mys_2009',
                  'mys_2010',
                  'mys_2011',
                  'mys_2012',
                  'mys_2013',
                  'mys_2014',
                  'mys_2015',
                  'mys_2016',
                  'mys_2017',
                  'mys_2018',
                  'mys_2019',
                  'mys_2020'], axis=1)

In [50]:
# Limpiamos columnas que no necesitamos 
#     gross national income per capita  = gnipc 
#     ingreso nacional bruto per cápita = inbpc
df_edu = df_edu.drop(['gnipc_1990',
                  'gnipc_1991',
                  'gnipc_1992',
                  'gnipc_1993',
                  'gnipc_1994',
                  'gnipc_1995',
                  'gnipc_1996',
                  'gnipc_1997',
                  'gnipc_1998',
                  'gnipc_1999',
                  'gnipc_2000',
                  'gnipc_2001',
                  'gnipc_2002',
                  'gnipc_2003',
                  'gnipc_2004',
                  'gnipc_2005',
                  'gnipc_2006',
                  'gnipc_2007',
                  'gnipc_2008',
                  'gnipc_2009',
                  'gnipc_2010',
                  'gnipc_2011',
                  'gnipc_2012',
                  'gnipc_2013',
                  'gnipc_2014',
                  'gnipc_2015',
                  'gnipc_2016',
                  'gnipc_2017',
                  'gnipc_2018',
                  'gnipc_2019',
                  'gnipc_2020'], axis=1)

No hace falta limpiar las columnas que no necesitamos de
     gdi group = gdi_group
     grupo idg = grupo_idg
 No hace falta limpar este dato, porque solo está el año 2021

In [52]:
# Limpiamos columnas que no necesitamos 
#     gender development index        = gdi
#     índice de desarrollo de género  = idg
df_edu = df_edu.drop(['gdi_1990',
                  'gdi_1991',
                  'gdi_1992',
                  'gdi_1993',
                  'gdi_1994',
                  'gdi_1995',
                  'gdi_1996',
                  'gdi_1997',
                  'gdi_1998',
                  'gdi_1999',
                  'gdi_2000',
                  'gdi_2001',
                  'gdi_2002',
                  'gdi_2003',
                  'gdi_2004',
                  'gdi_2005',
                  'gdi_2006',
                  'gdi_2007',
                  'gdi_2008',
                  'gdi_2009',
                  'gdi_2010',
                  'gdi_2011',
                  'gdi_2012',
                  'gdi_2013',
                  'gdi_2014',
                  'gdi_2015',
                  'gdi_2016',
                  'gdi_2017',
                  'gdi_2018',
                  'gdi_2019',
                  'gdi_2020'], axis=1)

In [53]:
# Limpiamos columnas que no necesitamos 
#     hdi female    = hdi_f
#     idh femenino  = idh_f
df_edu = df_edu.drop(['hdi_f_1990',
                  'hdi_f_1991',
                  'hdi_f_1992',
                  'hdi_f_1993',
                  'hdi_f_1994',
                  'hdi_f_1995',
                  'hdi_f_1996',
                  'hdi_f_1997',
                  'hdi_f_1998',
                  'hdi_f_1999',
                  'hdi_f_2000',
                  'hdi_f_2001',
                  'hdi_f_2002',
                  'hdi_f_2003',
                  'hdi_f_2004',
                  'hdi_f_2005',
                  'hdi_f_2006',
                  'hdi_f_2007',
                  'hdi_f_2008',
                  'hdi_f_2009',
                  'hdi_f_2010',
                  'hdi_f_2011',
                  'hdi_f_2012',
                  'hdi_f_2013',
                  'hdi_f_2014',
                  'hdi_f_2015',
                  'hdi_f_2016',
                  'hdi_f_2017',
                  'hdi_f_2018',
                  'hdi_f_2019',
                  'hdi_f_2020'], axis=1)

In [54]:
# Limpiamos columnas que no necesitamos 
#     life expectancy at birth, female (years)    = le_f 
#     esperanza de vida al nacer, femenino (años) = ev_f
df_edu = df_edu.drop(['le_f_1990',
                  'le_f_1991',
                  'le_f_1992',
                  'le_f_1993',
                  'le_f_1994',
                  'le_f_1995',
                  'le_f_1996',
                  'le_f_1997',
                  'le_f_1998',
                  'le_f_1999',
                  'le_f_2000',
                  'le_f_2001',
                  'le_f_2002',
                  'le_f_2003',
                  'le_f_2004',
                  'le_f_2005',
                  'le_f_2006',
                  'le_f_2007',
                  'le_f_2008',
                  'le_f_2009',
                  'le_f_2010',
                  'le_f_2011',
                  'le_f_2012',
                  'le_f_2013',
                  'le_f_2014',
                  'le_f_2015',
                  'le_f_2016',
                  'le_f_2017',
                  'le_f_2018',
                  'le_f_2019',
                  'le_f_2020'], axis=1)

In [55]:
# Limpiamos columnas que no necesitamos 
#     expected years of schooling, female     = eys_f 
#     años esperados de escolaridad, femenino = aee_f
df_edu = df_edu.drop(['eys_f_1990',
                  'eys_f_1991',
                  'eys_f_1992',
                  'eys_f_1993',
                  'eys_f_1994',
                  'eys_f_1995',
                  'eys_f_1996',
                  'eys_f_1997',
                  'eys_f_1998',
                  'eys_f_1999',
                  'eys_f_2000',
                  'eys_f_2001',
                  'eys_f_2002',
                  'eys_f_2003',
                  'eys_f_2004',
                  'eys_f_2005',
                  'eys_f_2006',
                  'eys_f_2007',
                  'eys_f_2008',
                  'eys_f_2009',
                  'eys_f_2010',
                  'eys_f_2011',
                  'eys_f_2012',
                  'eys_f_2013',
                  'eys_f_2014',
                  'eys_f_2015',
                  'eys_f_2016',
                  'eys_f_2017',
                  'eys_f_2018',
                  'eys_f_2019',
                  'eys_f_2020'], axis=1)

In [56]:
# Limpiamos columnas que no necesitamos 
#     mean years of schooling, female           = mys_f
#     promedio de años de escolaridad, femenino = pae_f
df_edu = df_edu.drop(['mys_f_1990',
                  'mys_f_1991',
                  'mys_f_1992',
                  'mys_f_1993',
                  'mys_f_1994',
                  'mys_f_1995',
                  'mys_f_1996',
                  'mys_f_1997',
                  'mys_f_1998',
                  'mys_f_1999',
                  'mys_f_2000',
                  'mys_f_2001',
                  'mys_f_2002',
                  'mys_f_2003',
                  'mys_f_2004',
                  'mys_f_2005',
                  'mys_f_2006',
                  'mys_f_2007',
                  'mys_f_2008',
                  'mys_f_2009',
                  'mys_f_2010',
                  'mys_f_2011',
                  'mys_f_2012',
                  'mys_f_2013',
                  'mys_f_2014',
                  'mys_f_2015',
                  'mys_f_2016',
                  'mys_f_2017',
                  'mys_f_2018',
                  'mys_f_2019',
                  'mys_f_2020'], axis=1)

In [57]:
# Limpiamos columnas que no necesitamos 
#     gross national income per capita, female    = gni_pc_f
#     ingreso nacional bruto per cápita, femenino = inb_pc_f
df_edu = df_edu.drop(['gni_pc_f_1990',
                  'gni_pc_f_1991',
                  'gni_pc_f_1992',
                  'gni_pc_f_1993',
                  'gni_pc_f_1994',
                  'gni_pc_f_1995',
                  'gni_pc_f_1996',
                  'gni_pc_f_1997',
                  'gni_pc_f_1998',
                  'gni_pc_f_1999',
                  'gni_pc_f_2000',
                  'gni_pc_f_2001',
                  'gni_pc_f_2002',
                  'gni_pc_f_2003',
                  'gni_pc_f_2004',
                  'gni_pc_f_2005',
                  'gni_pc_f_2006',
                  'gni_pc_f_2007',
                  'gni_pc_f_2008',
                  'gni_pc_f_2009',
                  'gni_pc_f_2010',
                  'gni_pc_f_2011',
                  'gni_pc_f_2012',
                  'gni_pc_f_2013',
                  'gni_pc_f_2014',
                  'gni_pc_f_2015',
                  'gni_pc_f_2016',
                  'gni_pc_f_2017',
                  'gni_pc_f_2018',
                  'gni_pc_f_2019',
                  'gni_pc_f_2020'], axis=1)

In [58]:
# Limpiamos columnas que no necesitamos 
#     hdi male      = hdi_m
#     idh masculino = idh_m
df_edu = df_edu.drop(['hdi_m_1990',
                  'hdi_m_1991',
                  'hdi_m_1992',
                  'hdi_m_1993',
                  'hdi_m_1994',
                  'hdi_m_1995',
                  'hdi_m_1996',
                  'hdi_m_1997',
                  'hdi_m_1998',
                  'hdi_m_1999',
                  'hdi_m_2000',
                  'hdi_m_2001',
                  'hdi_m_2002',
                  'hdi_m_2003',
                  'hdi_m_2004',
                  'hdi_m_2005',
                  'hdi_m_2006',
                  'hdi_m_2007',
                  'hdi_m_2008',
                  'hdi_m_2009',
                  'hdi_m_2010',
                  'hdi_m_2011',
                  'hdi_m_2012',
                  'hdi_m_2013',
                  'hdi_m_2014',
                  'hdi_m_2015',
                  'hdi_m_2016',
                  'hdi_m_2017',
                  'hdi_m_2018',
                  'hdi_m_2019',
                  'hdi_m_2020'], axis=1)

In [59]:
# Limpiamos columnas que no necesitamos 
#     life expectancy at birth, male (years)        = le_m
#     esperanza de vida al nacer, masculino (años)  = ev_m
df_edu = df_edu.drop(['le_m_1990',
                  'le_m_1991',
                  'le_m_1992',
                  'le_m_1993',
                  'le_m_1994',
                  'le_m_1995',
                  'le_m_1996',
                  'le_m_1997',
                  'le_m_1998',
                  'le_m_1999',
                  'le_m_2000',
                  'le_m_2001',
                  'le_m_2002',
                  'le_m_2003',
                  'le_m_2004',
                  'le_m_2005',
                  'le_m_2006',
                  'le_m_2007',
                  'le_m_2008',
                  'le_m_2009',
                  'le_m_2010',
                  'le_m_2011',
                  'le_m_2012',
                  'le_m_2013',
                  'le_m_2014',
                  'le_m_2015',
                  'le_m_2016',
                  'le_m_2017',
                  'le_m_2018',
                  'le_m_2019',
                  'le_m_2020'], axis=1)

In [60]:
# Limpiamos columnas que no necesitamos 
#     expected years of schooling, male         = eys_m
#     años esperados de escolaridad, masculino  = aee_m
df_edu = df_edu.drop(['eys_m_1990',
                  'eys_m_1991',
                  'eys_m_1992',
                  'eys_m_1993',
                  'eys_m_1994',
                  'eys_m_1995',
                  'eys_m_1996',
                  'eys_m_1997',
                  'eys_m_1998',
                  'eys_m_1999',
                  'eys_m_2000',
                  'eys_m_2001',
                  'eys_m_2002',
                  'eys_m_2003',
                  'eys_m_2004',
                  'eys_m_2005',
                  'eys_m_2006',
                  'eys_m_2007',
                  'eys_m_2008',
                  'eys_m_2009',
                  'eys_m_2010',
                  'eys_m_2011',
                  'eys_m_2012',
                  'eys_m_2013',
                  'eys_m_2014',
                  'eys_m_2015',
                  'eys_m_2016',
                  'eys_m_2017',
                  'eys_m_2018',
                  'eys_m_2019',
                  'eys_m_2020'], axis=1)

In [61]:
# Limpiamos columnas que no necesitamos 
#     mean years of schooling, male               = mys_m
#     promedio de años de escolaridad, masculino  = pae_m
df_edu = df_edu.drop(['mys_m_1990',
                  'mys_m_1991',
                  'mys_m_1992',
                  'mys_m_1993',
                  'mys_m_1994',
                  'mys_m_1995',
                  'mys_m_1996',
                  'mys_m_1997',
                  'mys_m_1998',
                  'mys_m_1999',
                  'mys_m_2000',
                  'mys_m_2001',
                  'mys_m_2002',
                  'mys_m_2003',
                  'mys_m_2004',
                  'mys_m_2005',
                  'mys_m_2006',
                  'mys_m_2007',
                  'mys_m_2008',
                  'mys_m_2009',
                  'mys_m_2010',
                  'mys_m_2011',
                  'mys_m_2012',
                  'mys_m_2013',
                  'mys_m_2014',
                  'mys_m_2015',
                  'mys_m_2016',
                  'mys_m_2017',
                  'mys_m_2018',
                  'mys_m_2019',
                  'mys_m_2020'], axis=1)

In [62]:
# Limpiamos columnas que no necesitamos 
#     gross national income per capita, male        = gni_pc_m
#     ingreso nacional bruto per cápita, masculino  = inb_pc_m
df_edu = df_edu.drop(['gni_pc_m_1990',
                  'gni_pc_m_1991',
                  'gni_pc_m_1992',
                  'gni_pc_m_1993',
                  'gni_pc_m_1994',
                  'gni_pc_m_1995',
                  'gni_pc_m_1996',
                  'gni_pc_m_1997',
                  'gni_pc_m_1998',
                  'gni_pc_m_1999',
                  'gni_pc_m_2000',
                  'gni_pc_m_2001',
                  'gni_pc_m_2002',
                  'gni_pc_m_2003',
                  'gni_pc_m_2004',
                  'gni_pc_m_2005',
                  'gni_pc_m_2006',
                  'gni_pc_m_2007',
                  'gni_pc_m_2008',
                  'gni_pc_m_2009',
                  'gni_pc_m_2010',
                  'gni_pc_m_2011',
                  'gni_pc_m_2012',
                  'gni_pc_m_2013',
                  'gni_pc_m_2014',
                  'gni_pc_m_2015',
                  'gni_pc_m_2016',
                  'gni_pc_m_2017',
                  'gni_pc_m_2018',
                  'gni_pc_m_2019',
                  'gni_pc_m_2020'], axis=1)

In [63]:
# Limpiamos columnas que no necesitamos 
#     inequality-adjusted human development index             = ihdi 
#     índice de desarrollo humano ajustado por la desigualdad = idhd
df_edu = df_edu.drop(['ihdi_2010',
                  'ihdi_2011',
                  'ihdi_2012',
                  'ihdi_2013',
                  'ihdi_2014',
                  'ihdi_2015',
                  'ihdi_2016',
                  'ihdi_2017',
                  'ihdi_2018',
                  'ihdi_2019',
                  'ihdi_2020'], axis=1)

In [64]:
# Limpiamos columnas que no necesitamos 
#     coefficient of human inequality   = coef_ineq 
#     coeficiente de desigualdad humana = coef_desi
df_edu = df_edu.drop(['coef_ineq_2010',
                  'coef_ineq_2011',
                  'coef_ineq_2012',
                  'coef_ineq_2013',
                  'coef_ineq_2014',
                  'coef_ineq_2015',
                  'coef_ineq_2016',
                  'coef_ineq_2017',
                  'coef_ineq_2018',
                  'coef_ineq_2019',
                  'coef_ineq_2020'], axis=1)

In [65]:
# Limpiamos columnas que no necesitamos 
#     overall loss (%)  = loss
#     pérdida total (%) = perd
df_edu = df_edu.drop(['loss_2010',
                  'loss_2011',
                  'loss_2012',
                  'loss_2013',
                  'loss_2014',
                  'loss_2015',
                  'loss_2016',
                  'loss_2017',
                  'loss_2018',
                  'loss_2019',
                  'loss_2020'], axis=1)

In [66]:
# Limpiamos columnas que no necesitamos 
#     inequality in life expectancy       = ineq_le 
#     desigualdad en la esperanza de vida = desi_ev
df_edu = df_edu.drop(['ineq_le_2010',
                  'ineq_le_2011',
                  'ineq_le_2012',
                  'ineq_le_2013',
                  'ineq_le_2014',
                  'ineq_le_2015',
                  'ineq_le_2016',
                  'ineq_le_2017',
                  'ineq_le_2018',
                  'ineq_le_2019',
                  'ineq_le_2020'], axis=1)

In [67]:
# Limpiamos columnas que no necesitamos 
#     inequality in eduation      = ineq_edu 
#     desigualdad en la educación = desi_edu
df_edu = df_edu.drop(['ineq_edu_2010',
                  'ineq_edu_2011',
                  'ineq_edu_2012',
                  'ineq_edu_2013',
                  'ineq_edu_2014',
                  'ineq_edu_2015',
                  'ineq_edu_2016',
                  'ineq_edu_2017',
                  'ineq_edu_2018',
                  'ineq_edu_2019',
                  'ineq_edu_2020'], axis=1)

In [68]:
# Limpiamos columnas que no necesitamos 
#     inequality in income    = ineq_inc 
#     desigualdad de ingresos = desi_ing
df_edu = df_edu.drop(['ineq_inc_2010',
                  'ineq_inc_2011',
                  'ineq_inc_2012',
                  'ineq_inc_2013',
                  'ineq_inc_2014',
                  'ineq_inc_2015',
                  'ineq_inc_2016',
                  'ineq_inc_2017',
                  'ineq_inc_2018',
                  'ineq_inc_2019',
                  'ineq_inc_2020'], axis=1)

In [69]:
# Limpiamos columnas que no necesitamos 
#     gender inequality index         = gii 
#     índice de desigualdad de género = idg
df_edu = df_edu.drop(['gii_1990',
                  'gii_1991',
                  'gii_1992',
                  'gii_1993',
                  'gii_1994',
                  'gii_1995',
                  'gii_1996',
                  'gii_1997',
                  'gii_1998',
                  'gii_1999',
                  'gii_2000',
                  'gii_2001',
                  'gii_2002',
                  'gii_2003',
                  'gii_2004',
                  'gii_2005',
                  'gii_2006',
                  'gii_2007',
                  'gii_2008',
                  'gii_2009',
                  'gii_2010',
                  'gii_2011',
                  'gii_2012',
                  'gii_2013',
                  'gii_2014',
                  'gii_2015',
                  'gii_2016',
                  'gii_2017',
                  'gii_2018',
                  'gii_2019',
                  'gii_2020'], axis=1)

In [70]:
# Limpiamos columnas que no necesitamos 
#     maternal mortality ratio (deaths per 100,000 live births)           = mmr 
#     tasa de mortalidad materna (muertes por cada 100.000 nacidos vivos) = tmm
df_edu = df_edu.drop(['mmr_1990',
                  'mmr_1991',
                  'mmr_1992',
                  'mmr_1993',
                  'mmr_1994',
                  'mmr_1995',
                  'mmr_1996',
                  'mmr_1997',
                  'mmr_1998',
                  'mmr_1999',
                  'mmr_2000',
                  'mmr_2001',
                  'mmr_2002',
                  'mmr_2003',
                  'mmr_2004',
                  'mmr_2005',
                  'mmr_2006',
                  'mmr_2007',
                  'mmr_2008',
                  'mmr_2009',
                  'mmr_2010',
                  'mmr_2011',
                  'mmr_2012',
                  'mmr_2013',
                  'mmr_2014',
                  'mmr_2015',
                  'mmr_2016',
                  'mmr_2017',
                  'mmr_2018',
                  'mmr_2019',
                  'mmr_2020'], axis=1)

In [71]:
# Limpiamos columnas que no necesitamos 
#     adolescent birth rate (births per 1,000 women ages 15-19)                         = abr 
#     tasa de natalidad adolescente (nacimientos por cada 1000 mujeres de 15 a 19 años) = tna
df_edu = df_edu.drop(['abr_1990',
                  'abr_1991',
                  'abr_1992',
                  'abr_1993',
                  'abr_1994',
                  'abr_1995',
                  'abr_1996',
                  'abr_1997',
                  'abr_1998',
                  'abr_1999',
                  'abr_2000',
                  'abr_2001',
                  'abr_2002',
                  'abr_2003',
                  'abr_2004',
                  'abr_2005',
                  'abr_2006',
                  'abr_2007',
                  'abr_2008',
                  'abr_2009',
                  'abr_2010',
                  'abr_2011',
                  'abr_2012',
                  'abr_2013',
                  'abr_2014',
                  'abr_2015',
                  'abr_2016',
                  'abr_2017',
                  'abr_2018',
                  'abr_2019',
                  'abr_2020'], axis=1)

In [72]:
# Limpiamos columnas que no necesitamos 
#     population with at least some secondary education, female (% ages 25 and older)     = se_f 
#     población con al menos algo de educación secundaria, femenino (% de 25 años y más)  = es_f
df_edu = df_edu.drop(['se_f_1990',
                  'se_f_1991',
                  'se_f_1992',
                  'se_f_1993',
                  'se_f_1994',
                  'se_f_1995',
                  'se_f_1996',
                  'se_f_1997',
                  'se_f_1998',
                  'se_f_1999',
                  'se_f_2000',
                  'se_f_2001',
                  'se_f_2002',
                  'se_f_2003',
                  'se_f_2004',
                  'se_f_2005',
                  'se_f_2006',
                  'se_f_2007',
                  'se_f_2008',
                  'se_f_2009',
                  'se_f_2010',
                  'se_f_2011',
                  'se_f_2012',
                  'se_f_2013',
                  'se_f_2014',
                  'se_f_2015',
                  'se_f_2016',
                  'se_f_2017',
                  'se_f_2018',
                  'se_f_2019',
                  'se_f_2020'], axis=1)

In [73]:
# Limpiamos columnas que no necesitamos 
#     population with at least some secondary education, male (% ages 25 and older)     = se_m 
#     población con al menos algo de educación secundaria, masculina (% de 25 años y más) = es_m
df_edu = df_edu.drop(['se_m_1990',
                  'se_m_1991',
                  'se_m_1992',
                  'se_m_1993',
                  'se_m_1994',
                  'se_m_1995',
                  'se_m_1996',
                  'se_m_1997',
                  'se_m_1998',
                  'se_m_1999',
                  'se_m_2000',
                  'se_m_2001',
                  'se_m_2002',
                  'se_m_2003',
                  'se_m_2004',
                  'se_m_2005',
                  'se_m_2006',
                  'se_m_2007',
                  'se_m_2008',
                  'se_m_2009',
                  'se_m_2010',
                  'se_m_2011',
                  'se_m_2012',
                  'se_m_2013',
                  'se_m_2014',
                  'se_m_2015',
                  'se_m_2016',
                  'se_m_2017',
                  'se_m_2018',
                  'se_m_2019',
                  'se_m_2020'], axis=1)

In [74]:
# Limpiamos columnas que no necesitamos 
#     share of seats in parliament, female (% held by women)                  = pr_f 
#     porcentaje de escaños en el parlamento, femenino (% ocupado por mujeres) = ec_f
df_edu = df_edu.drop(['pr_f_1990',
                  'pr_f_1991',
                  'pr_f_1992',
                  'pr_f_1993',
                  'pr_f_1994',
                  'pr_f_1995',
                  'pr_f_1996',
                  'pr_f_1997',
                  'pr_f_1998',
                  'pr_f_1999',
                  'pr_f_2000',
                  'pr_f_2001',
                  'pr_f_2002',
                  'pr_f_2003',
                  'pr_f_2004',
                  'pr_f_2005',
                  'pr_f_2006',
                  'pr_f_2007',
                  'pr_f_2008',
                  'pr_f_2009',
                  'pr_f_2010',
                  'pr_f_2011',
                  'pr_f_2012',
                  'pr_f_2013',
                  'pr_f_2014',
                  'pr_f_2015',
                  'pr_f_2016',
                  'pr_f_2017',
                  'pr_f_2018',
                  'pr_f_2019',
                  'pr_f_2020'], axis=1)

In [75]:
# Limpiamos columnas que no necesitamos 
#     share of seats in parliament, male (% held by men)                      = pr_m 
#     porcentaje de escaños en el parlamento, hombres (% ocupado por hombres) = ec_m
df_edu = df_edu.drop(['pr_m_1990',
                  'pr_m_1991',
                  'pr_m_1992',
                  'pr_m_1993',
                  'pr_m_1994',
                  'pr_m_1995',
                  'pr_m_1996',
                  'pr_m_1997',
                  'pr_m_1998',
                  'pr_m_1999',
                  'pr_m_2000',
                  'pr_m_2001',
                  'pr_m_2002',
                  'pr_m_2003',
                  'pr_m_2004',
                  'pr_m_2005',
                  'pr_m_2006',
                  'pr_m_2007',
                  'pr_m_2008',
                  'pr_m_2009',
                  'pr_m_2010',
                  'pr_m_2011',
                  'pr_m_2012',
                  'pr_m_2013',
                  'pr_m_2014',
                  'pr_m_2015',
                  'pr_m_2016',
                  'pr_m_2017',
                  'pr_m_2018',
                  'pr_m_2019',
                  'pr_m_2020'], axis=1)

In [76]:
# Limpiamos columnas que no necesitamos 
#     labour force participation rate, female (% ages 15 and older)               = lfpr_f 
#     tasa de participación en la fuerza laboral, femenino (% mayores de 15 años) = tpfl_f
df_edu = df_edu.drop(['lfpr_f_1990',
                  'lfpr_f_1991',
                  'lfpr_f_1992',
                  'lfpr_f_1993',
                  'lfpr_f_1994',
                  'lfpr_f_1995',
                  'lfpr_f_1996',
                  'lfpr_f_1997',
                  'lfpr_f_1998',
                  'lfpr_f_1999',
                  'lfpr_f_2000',
                  'lfpr_f_2001',
                  'lfpr_f_2002',
                  'lfpr_f_2003',
                  'lfpr_f_2004',
                  'lfpr_f_2005',
                  'lfpr_f_2006',
                  'lfpr_f_2007',
                  'lfpr_f_2008',
                  'lfpr_f_2009',
                  'lfpr_f_2010',
                  'lfpr_f_2011',
                  'lfpr_f_2012',
                  'lfpr_f_2013',
                  'lfpr_f_2014',
                  'lfpr_f_2015',
                  'lfpr_f_2016',
                  'lfpr_f_2017',
                  'lfpr_f_2018',
                  'lfpr_f_2019',
                  'lfpr_f_2020'], axis=1)

In [77]:
# Limpiamos columnas que no necesitamos 
#     labour force participation rate, male (% ages 15 and older)                   = lfpr_m 
#     tasa de participación en la fuerza laboral, masculina (% mayores de 15 años)  = tpfl_m
df_edu = df_edu.drop(['lfpr_m_1990',
                  'lfpr_m_1991',
                  'lfpr_m_1992',
                  'lfpr_m_1993',
                  'lfpr_m_1994',
                  'lfpr_m_1995',
                  'lfpr_m_1996',
                  'lfpr_m_1997',
                  'lfpr_m_1998',
                  'lfpr_m_1999',
                  'lfpr_m_2000',
                  'lfpr_m_2001',
                  'lfpr_m_2002',
                  'lfpr_m_2003',
                  'lfpr_m_2004',
                  'lfpr_m_2005',
                  'lfpr_m_2006',
                  'lfpr_m_2007',
                  'lfpr_m_2008',
                  'lfpr_m_2009',
                  'lfpr_m_2010',
                  'lfpr_m_2011',
                  'lfpr_m_2012',
                  'lfpr_m_2013',
                  'lfpr_m_2014',
                  'lfpr_m_2015',
                  'lfpr_m_2016',
                  'lfpr_m_2017',
                  'lfpr_m_2018',
                  'lfpr_m_2019',
                  'lfpr_m_2020'], axis=1)

No hace falta limpiar el siguiente indicador  
     difference from hdi rank    = rankdiff_hdi_phdi   
     diferencia del rango de hdi = rangdife_idh  
No hace falta limpiarlo, porque solo aparece el 2021  

In [78]:
# Limpiamos columnas que no necesitamos 
#     planetary pressures–adjusted human development index            = phdi 
#     índice de desarrollo humano ajustado por presiones planetarias  = idhp
df_edu = df_edu.drop(['phdi_1990',
                  'phdi_1991',
                  'phdi_1992',
                  'phdi_1993',
                  'phdi_1994',
                  'phdi_1995',
                  'phdi_1996',
                  'phdi_1997',
                  'phdi_1998',
                  'phdi_1999',
                  'phdi_2000',
                  'phdi_2001',
                  'phdi_2002',
                  'phdi_2003',
                  'phdi_2004',
                  'phdi_2005',
                  'phdi_2006',
                  'phdi_2007',
                  'phdi_2008',
                  'phdi_2009',
                  'phdi_2010',
                  'phdi_2011',
                  'phdi_2012',
                  'phdi_2013',
                  'phdi_2014',
                  'phdi_2015',
                  'phdi_2016',
                  'phdi_2017',
                  'phdi_2018',
                  'phdi_2019',
                  'phdi_2020'], axis=1)

In [79]:
# Limpiamos columnas que no necesitamos 
#     difference from hdi value (%) = diff_hdi_phdi 
#     diferencia del valor hdi (%)  = dife_idh_val
df_edu = df_edu.drop(['diff_hdi_phdi_1990',
                  'diff_hdi_phdi_1991',
                  'diff_hdi_phdi_1992',
                  'diff_hdi_phdi_1993',
                  'diff_hdi_phdi_1994',
                  'diff_hdi_phdi_1995',
                  'diff_hdi_phdi_1996',
                  'diff_hdi_phdi_1997',
                  'diff_hdi_phdi_1998',
                  'diff_hdi_phdi_1999',
                  'diff_hdi_phdi_2000',
                  'diff_hdi_phdi_2001',
                  'diff_hdi_phdi_2002',
                  'diff_hdi_phdi_2003',
                  'diff_hdi_phdi_2004',
                  'diff_hdi_phdi_2005',
                  'diff_hdi_phdi_2006',
                  'diff_hdi_phdi_2007',
                  'diff_hdi_phdi_2008',
                  'diff_hdi_phdi_2009',
                  'diff_hdi_phdi_2010',
                  'diff_hdi_phdi_2011',
                  'diff_hdi_phdi_2012',
                  'diff_hdi_phdi_2013',
                  'diff_hdi_phdi_2014',
                  'diff_hdi_phdi_2015',
                  'diff_hdi_phdi_2016',
                  'diff_hdi_phdi_2017',
                  'diff_hdi_phdi_2018',
                  'diff_hdi_phdi_2019',
                  'diff_hdi_phdi_2020'], axis=1)

In [80]:
# Limpiamos columnas que no necesitamos 
#     carbon dioxide emissions per capita (production in tonnes)            = co2_prod 
#     emisiones de dióxido de carbono per cápita (producción en toneladas)  = emis_co2
df_edu = df_edu.drop(['co2_prod_1990',
                  'co2_prod_1991',
                  'co2_prod_1992',
                  'co2_prod_1993',
                  'co2_prod_1994',
                  'co2_prod_1995',
                  'co2_prod_1996',
                  'co2_prod_1997',
                  'co2_prod_1998',
                  'co2_prod_1999',
                  'co2_prod_2000',
                  'co2_prod_2001',
                  'co2_prod_2002',
                  'co2_prod_2003',
                  'co2_prod_2004',
                  'co2_prod_2005',
                  'co2_prod_2006',
                  'co2_prod_2007',
                  'co2_prod_2008',
                  'co2_prod_2009',
                  'co2_prod_2010',
                  'co2_prod_2011',
                  'co2_prod_2012',
                  'co2_prod_2013',
                  'co2_prod_2014',
                  'co2_prod_2015',
                  'co2_prod_2016',
                  'co2_prod_2017',
                  'co2_prod_2018',
                  'co2_prod_2019',
                  'co2_prod_2020'], axis=1)

In [81]:
# Limpiamos columnas que no necesitamos 
#     material footprint per capita (tonnes)  = mf 
#     huella material per cápita (toneladas)  = hm
df_edu = df_edu.drop(['mf_1990',
                  'mf_1991',
                  'mf_1992',
                  'mf_1993',
                  'mf_1994',
                  'mf_1995',
                  'mf_1996',
                  'mf_1997',
                  'mf_1998',
                  'mf_1999',
                  'mf_2000',
                  'mf_2001',
                  'mf_2002',
                  'mf_2003',
                  'mf_2004',
                  'mf_2005',
                  'mf_2006',
                  'mf_2007',
                  'mf_2008',
                  'mf_2009',
                  'mf_2010',
                  'mf_2011',
                  'mf_2012',
                  'mf_2013',
                  'mf_2014',
                  'mf_2015',
                  'mf_2016',
                  'mf_2017',
                  'mf_2018',
                  'mf_2019',
                  'mf_2020'], axis=1)

In [82]:
# Comprobamos el DataFrame df_edu
for column in df_edu:
  print(column)

iso3
country
hdicode
region
hdi_rank_2021
hdi_2021
le_2021
eys_2021
mys_2021
gnipc_2021
gdi_group_2021
gdi_2021
hdi_f_2021
le_f_2021
eys_f_2021
mys_f_2021
gni_pc_f_2021
hdi_m_2021
le_m_2021
eys_m_2021
mys_m_2021
gni_pc_m_2021
ihdi_2021
coef_ineq_2021
loss_2021
ineq_le_2021
ineq_edu_2021
ineq_inc_2021
gii_rank_2021
gii_2021
mmr_2021
abr_2021
se_f_2021
se_m_2021
pr_f_2021
pr_m_2021
lfpr_f_2021
lfpr_m_2021
rankdiff_hdi_phdi_2021
phdi_2021
diff_hdi_phdi_2021
co2_prod_2021
mf_2021


De toda esta brutalidad de campos e indicadores, nos interesa:  
  * código país  
  * pae (promedio años de escolaridad)  

  El resto de campos los eliminamos del df.  

In [83]:
# Renombramos columnas para hacer más manejable el df
#     1.  iso3                    ->  codigo_pais                     (código país)
#     2.  country                 ->  pais                            (país)
#     3.  hdicode                 ->  codigo_idh                      (código índice de desarrollo humano)
#     4.  region                  ->  region                          (región)
#     5.  hdi_rank_2021           ->  rango_idh                       (rango índice de desarrollo humano)
#     6.  hdi_2021                ->  idh                             (índice de desarrollo humano)
#     7.  le_2021                 ->  ev                              (esperanza de vida -años-)
#     8.  eys_2021                ->  aee                             (años esperados de escolaridad)
#     9.  mys_2021                ->  pae                             (promnedio años de escolaridad)
#     10. gnipc_2021              ->  inbpc                           (ingreso nacional bruto per cápita)
#     11. gdi_group_2021          ->  grupo_idg                       (grupo índice de desarrollo de género)      
#     12. gdi_2021                ->  idg                             (índice de desarrollo de género)
#     13. hdi_f_2021              ->  idh_f                           (idh femenino)
#     14. le_f_2021               ->  ev_f                            (esperanza de vida al nacer, femenina -años-)
#     15. eys_f_2021              ->  aee_f                           (años esperados de escolaridad, femenino)
#     16. mys_f_2021              ->  pae_f                           (promedio de años de escolaridad, masculino)
#     17. gni_pc_f_2021           ->  inb_pc_f                        (ingreso nacional bruto per cápita, femenino)
#     18. hdi_m_2021              ->  idh_m                           (idh masculino)
#     19. le_m_2021               ->  ev_m                            (esperanza de vida al nacer, masculina -años-)
#     20. eys_m_2021              ->  aee_m                           (años esperados de escolaridad, masculino)
#     21. mys_m_2021              ->  pae_m                           (promedio de años de escolaridad, masculino)
#     22. gni_pc_m_2021           ->  inb_pc_m                        (ingreso nacional bruto per cápita, masculino)
#     23. ihdi_2021               ->  idhd                            (índice de desarrollo humano ajustado por la desigualdad)
#     24. coef_ineq_2021          ->  coef_desi                       (coeficiente de desigualdad humana)
#     25. loss_2021               ->  perd                            (pérdida total -%-)
#     26. ineq_le_2021            ->  desi_ev                         (desigualdad en la esperanza de vida)
#     27. ineq_edu_2021           ->  desi_edu                        (desigualdad en la educación)
#     28. ineq_inc_2021           ->  desi_ing                        (desigualdad de ingresos)
#     29. gii_rank_2021           ->  rango_idg                       (rango índice de desigualdad de género)
#     30. gii_2021                ->  idg                             (índice de desigualdad de género)
#     31. mmr_2021                ->  tmm                             (tasa de mortalidad materna -muertes por cada 100.000 nacidos vivos-)
#     32. abr_2021                ->  tna                             (tasa de natalidad adolescente -nacimientos por cada 1000 mujeres de 15 a 19 años-)
#     33. se_f_2021               ->  es_f                            (población con al menos algo de educación secundaria, femenina -% de 25 años y más-)
#     34. se_m_2021               ->  es_m                            (población con al menos algo de educación secundaria, masculina -% de 25 años y más-)
#     35. pr_f_2021               ->  ec_f                            (porcentaje de escaños en el parlamento, femenino -% ocupado por mujeres-)
#     36. pr_m_2021               ->  ec_m                            (porcentaje de escaños en el parlamento, masculino -% ocupado por hombres-)
#     37. lfpr_f_2021             ->  tpfl_f                          (tasa de participación en la fuerza laboral, femenina -% mayores de 15 años-)
#     38. lfpr_m_2021             ->  tpfl_m                          (tasa de participación en la fuerza laboral, masculina -% mayores de 15 años-)                     
#     39. rankdiff_hdi_phdi_2021  ->  rangdife_idh                    (diferencia del rango de hdi)
#     40. phdi_2021               ->  idhp                            (índice de desarrollo humano ajustado por presiones planetarias)
#     41. diff_hdi_phdi_2021      ->  dife_idh_val                    (diferencia del valor hdi -%-)
#     42. co2_prod_2021           ->  emis_co2                        (emisiones de dióxido de carbono per cápita -producción en toneladas-)
#     43. mf_2021                 ->  hm                              (huella material per cápita -toneladas-)
df_edu = df_edu.set_axis(['codigo_pais', 
                      'pais',
                      'codigo_idh',
                      'region',
                      'rango_idh',
                      'idh',
                      'ev',
                      'aee',
                      'pae',
                      'inbpc',
                      'grupo_idg',
                      'idg',
                      'idh_f',
                      'ev_f',
                      'aee_f',
                      'pae_f',
                      'inb_pc_f',
                      'idh_m',
                      'ev_m',
                      'aee_m',
                      'pae_m',
                      'inb_pc_m',
                      'idhd',
                      'coef_desi',
                      'perd',
                      'desi_ev',
                      'desi_edu',
                      'desi_ing',
                      'rango_idg',
                      'idg',
                      'tmm',
                      'tna',
                      'es_f',
                      'es_m',
                      'ec_f',
                      'ec_m',
                      'tpfl_f',
                      'tpfl_m',
                      'rangdife_idh',
                      'idhp',
                      'dife_idh_val',
                      'emis_co2',
                      'hm'], axis=1)

In [86]:
# Limpiamos columnas que no necesitamos 
df_edu = df_edu.drop(['pais',
                      'codigo_idh',
                      'region',
                      'rango_idh',
                      'idh',
                      'ev',
                      'aee',
                      'inbpc',
                      'grupo_idg',
                      'idg',
                      'idh_f',
                      'ev_f',
                      'aee_f',
                      'pae_f',
                      'inb_pc_f',
                      'idh_m',
                      'ev_m',
                      'aee_m',
                      'pae_m',
                      'inb_pc_m',
                      'idhd',
                      'coef_desi',
                      'perd',
                      'desi_ev',
                      'desi_edu',
                      'desi_ing',
                      'rango_idg',
                      'idg',
                      'tmm',
                      'tna',
                      'es_f',
                      'es_m',
                      'ec_f',
                      'ec_m',
                      'tpfl_f',
                      'tpfl_m',
                      'rangdife_idh',
                      'idhp',
                      'dife_idh_val',
                      'emis_co2',
                      'hm'], axis=1)

In [87]:
# Volvemos a comprobar el DataFrame df_edu
for column in df_edu:
  print(column)

codigo_pais
pae


In [89]:
# Comprobamos el DataFrame df_edu
df_edu.info

<bound method DataFrame.info of     codigo_pais        pae
0           AFG   2.985070
1           AGO   5.417391
2           ALB  11.286455
3           AND  10.555120
4           ARE  12.694030
..          ...        ...
201     ZZG.ECA  10.553922
202     ZZH.LAC   8.997700
203      ZZI.SA   6.710321
204     ZZJ.SSA   6.001639
205   ZZK.WORLD   8.617461

[206 rows x 2 columns]>

In [90]:
# Estandarizamos el código de población (iso3) a minúsculas
df_edu['codigo_pais'] = df_edu['codigo_pais'].str.lower()
df_edu.info

<bound method DataFrame.info of     codigo_pais        pae
0           afg   2.985070
1           ago   5.417391
2           alb  11.286455
3           and  10.555120
4           are  12.694030
..          ...        ...
201     zzg.eca  10.553922
202     zzh.lac   8.997700
203      zzi.sa   6.710321
204     zzj.ssa   6.001639
205   zzk.world   8.617461

[206 rows x 2 columns]>

In [91]:
# Ahora seleccionamos solo los registros que estén incluidos en nuestro dataset de paises 
# (ir más abajo a la extracción de datos de paises)
df_edu_copy = df_edu[df_edu.codigo_pais.isin(df_pai['codigo_pais'])]
df_edu_copy.info

<bound method DataFrame.info of     codigo_pais        pae
0           afg   2.985070
1           ago   5.417391
2           alb  11.286455
3           and  10.555120
4           are  12.694030
..          ...        ...
190         wsm  11.403800
191         yem   3.200000
192         zaf  11.373160
193         zmb   7.187091
194         zwe   8.710909

[193 rows x 2 columns]>

In [92]:
# Volcamos la copia del df con el que hemos trabajado en el original y listo.
# Ya tenemos el df limpio
df_edu = df_edu_copy
df_edu.info

<bound method DataFrame.info of     codigo_pais        pae
0           afg   2.985070
1           ago   5.417391
2           alb  11.286455
3           and  10.555120
4           are  12.694030
..          ...        ...
190         wsm  11.403800
191         yem   3.200000
192         zaf  11.373160
193         zmb   7.187091
194         zwe   8.710909

[193 rows x 2 columns]>

***Transformación de datos - Desarrollo económico -***

In [88]:
# Comprobamos el DataFrame df_des
df_des.info

<bound method DataFrame.info of       Country Name Country Code  \
0            Aruba          ABW   
1            Aruba          ABW   
2            Aruba          ABW   
3            Aruba          ABW   
4            Aruba          ABW   
...            ...          ...   
64675     Zimbabwe          ZWE   
64676     Zimbabwe          ZWE   
64677     Zimbabwe          ZWE   
64678     Zimbabwe          ZWE   
64679     Zimbabwe          ZWE   

                                          Indicator Name     Indicator Code  \
0      PPP conversion factor, private consumption (LC...     PA.NUS.PRVT.PP   
1      Price level ratio of PPP conversion factor (GD...     PA.NUS.PPPC.RF   
2      PPP conversion factor, GDP (LCU per internatio...         PA.NUS.PPP   
3        DEC alternative conversion factor (LCU per US$)        PA.NUS.ATLS   
4               Terms of trade adjustment (constant LCU)     NY.TTF.GNFS.KN   
...                                                  ...                .

***Nueva extracción de datos - Desarrollo económico -***  

Este datasource no nos proporciona información del año que queremos analizar (2021), por lo tanto, buscamos otro, el cual nos proporcione los datos que necesitamos.  

Data source: Kaggle, GDP Growth around the Globe  
URL : https://www.kaggle.com/datasets/fuarresvij/gdp-growth-around-the-globe  
Autor : L. FARRAS VIJAYA AND 2 COLLABORATORS  
Fuente : -  
Fichero : API_NY.GDP.MKTP.KD.ZG_DS2_en_csv_v2_4701072.csv

In [93]:
# Releer el conjunto de datos
df_des = pd.read_csv('/content/API_NY.GDP.MKTP.KD.ZG_DS2_en_csv_v2_4701072.csv')            # Educación

In [94]:
# Comprobamos el DataFrame df_des
df_des.info

<bound method DataFrame.info of                     Country Name Country Code         Indicator Name  \
0                          Aruba          ABW  GDP growth (annual %)   
1    Africa Eastern and Southern          AFE  GDP growth (annual %)   
2                    Afghanistan          AFG  GDP growth (annual %)   
3     Africa Western and Central          AFW  GDP growth (annual %)   
4                         Angola          AGO  GDP growth (annual %)   
..                           ...          ...                    ...   
261                       Kosovo          XKX  GDP growth (annual %)   
262                  Yemen, Rep.          YEM  GDP growth (annual %)   
263                 South Africa          ZAF  GDP growth (annual %)   
264                       Zambia          ZMB  GDP growth (annual %)   
265                     Zimbabwe          ZWE  GDP growth (annual %)   

        Indicator Code  1960      1961      1962      1963       1964  \
0    NY.GDP.MKTP.KD.ZG   NaN  

In [95]:
# Volvemos a comprobar el DataFrame df_des
for column in df_des:
  print(column)

Country Name
Country Code
Indicator Name
Indicator Code
1960
1961
1962
1963
1964
1965
1966
1967
1968
1969
1970
1971
1972
1973
1974
1975
1976
1977
1978
1979
1980
1981
1982
1983
1984
1985
1986
1987
1988
1989
1990
1991
1992
1993
1994
1995
1996
1997
1998
1999
2000
2001
2002
2003
2004
2005
2006
2007
2008
2009
2010
2011
2012
2013
2014
2015
2016
2017
2018
2019
2020
2021
Unnamed: 66


In [96]:
# Limpiamos columnas que no necesitamos 
df_des = df_des.drop(['Country Name',
                  '1960',
                  '1961',
                  '1962',
                  '1963',
                  '1964',
                  '1965',
                  '1966',
                  '1967',
                  '1968',
                  '1969',
                  '1970',
                  '1971',
                  '1972',
                  '1973',
                  '1974',
                  '1975',
                  '1976',
                  '1977',
                  '1978',
                  '1979',
                  '1980',
                  '1981',
                  '1982',
                  '1983',
                  '1984',
                  '1985',
                  '1986',
                  '1987',
                  '1988',
                  '1989',
                  '1990',
                  '1991',
                  '1992',
                  '1993',
                  '1994',
                  '1995',
                  '1996',
                  '1997',
                  '1998',
                  '1999',
                  '2000',
                  '2001',
                  '2002',
                  '2003',
                  '2004',
                  '2005',
                  '2006',
                  '2007',
                  '2008',
                  '2009',
                  '2010',
                  '2011',
                  '2012',
                  '2013',
                  '2014',
                  '2015',
                  '2016',
                  '2017',
                  '2018',
                  '2019',
                  '2020'], axis=1)

In [102]:
# Volvemos a comprobar el DataFrame df_des
for column in df_des:
  print(column)

Country Code
Indicator Name
Indicator Code
2021
Unnamed: 66


In [98]:
df_des.info

<bound method DataFrame.info of     Country Code         Indicator Name     Indicator Code      2021  \
0            ABW  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN   
1            AFE  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.303667   
2            AFG  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN   
3            AFW  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.914799   
4            AGO  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  0.700000   
..           ...                    ...                ...       ...   
261          XKX  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  9.127578   
262          YEM  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG -2.061513   
263          ZAF  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.914603   
264          ZMB  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.572815   
265          ZWE  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  5.849420   

     Unnamed: 66  
0            NaN  
1            NaN  
2            NaN  
3            NaN  
4       

In [103]:
# Renombramos columnas para hacer más manejable el df
#     1.  Country Code            ->  codigo_pais
#     2.  Indicator Name          ->  indicador
#     3.  Indicator Code          ->  codigo_indicador
#     4.  2021                    ->  valor
df_des = df_des.set_axis(['codigo_pais',
                      'indicador',
                      'codigo_indicador',
                      'valor','x'], axis=1)

In [105]:
# Limpiamos columnas que no necesitamos 
df_des = df_des.drop(['x'], axis=1)

In [106]:
# Comprobamos el DataFrame df_des
df_des.info

<bound method DataFrame.info of     codigo_pais              indicador   codigo_indicador     valor
0           ABW  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
1           AFE  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.303667
2           AFG  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
3           AFW  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.914799
4           AGO  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  0.700000
..          ...                    ...                ...       ...
261         XKX  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  9.127578
262         YEM  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG -2.061513
263         ZAF  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.914603
264         ZMB  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.572815
265         ZWE  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  5.849420

[266 rows x 4 columns]>

In [107]:
# Estandarizamos el código de población (iso3) a minúsculas
df_des['codigo_pais'] = df_des['codigo_pais'].str.lower()
df_des.info

<bound method DataFrame.info of     codigo_pais              indicador   codigo_indicador     valor
0           abw  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
1           afe  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.303667
2           afg  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
3           afw  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.914799
4           ago  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  0.700000
..          ...                    ...                ...       ...
261         xkx  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  9.127578
262         yem  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG -2.061513
263         zaf  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.914603
264         zmb  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.572815
265         zwe  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  5.849420

[266 rows x 4 columns]>

In [109]:
# Ahora seleccionamos solo los registros que estén incluidos en nuestro dataset de paises 
# (ir más abajo a la extracción de datos de paises)
df_des_copy = df_des[df_des.codigo_pais.isin(df_pai['codigo_pais'])]
df_des_copy.info

<bound method DataFrame.info of     codigo_pais              indicador   codigo_indicador     valor
2           afg  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
4           ago  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  0.700000
5           alb  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  8.544083
6           and  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  8.949418
8           are  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
..          ...                    ...                ...       ...
260         wsm  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG -8.078563
262         yem  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG -2.061513
263         zaf  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.914603
264         zmb  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.572815
265         zwe  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  5.849420

[193 rows x 4 columns]>

In [110]:
# Volcamos la copia del df con el que hemos trabajado en el original y listo.
# Ya tenemos el df limpio
df_des = df_des_copy
df_des.info

<bound method DataFrame.info of     codigo_pais              indicador   codigo_indicador     valor
2           afg  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
4           ago  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  0.700000
5           alb  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  8.544083
6           and  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  8.949418
8           are  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG       NaN
..          ...                    ...                ...       ...
260         wsm  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG -8.078563
262         yem  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG -2.061513
263         zaf  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  4.914603
264         zmb  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  3.572815
265         zwe  GDP growth (annual %)  NY.GDP.MKTP.KD.ZG  5.849420

[193 rows x 4 columns]>

***Transformación de datos - Salud -***

In [None]:
# Comprobamos el DataFrame df_sal_a
df_sal_a.info

<bound method DataFrame.info of       Country Name Country Code  \
0            Aruba          ABW   
1            Aruba          ABW   
2            Aruba          ABW   
3            Aruba          ABW   
4            Aruba          ABW   
...            ...          ...   
65527       Kosovo          XKX   
65528       Kosovo          XKX   
65529       Kosovo          XKX   
65530       Kosovo          XKX   
65531       Kosovo          XKX   

                                          Indicator Name     Indicator Code  \
0      Unmet need for contraception (% of married wom...        SP.UWT.TFRT   
1      Completeness of death registration with cause-...     SP.REG.DTHS.ZS   
2                 Completeness of birth registration (%)     SP.REG.BRTH.ZS   
3          Completeness of birth registration, urban (%)  SP.REG.BRTH.UR.ZS   
4          Completeness of birth registration, rural (%)  SP.REG.BRTH.RU.ZS   
...                                                  ...                .

In [111]:
# Redefinimos la lectura para capturar solamente las columnas que nos interesa del DataFrame df_sal_a
# Consideramos solo el indicador en los últimos dos años considerados
df_sal_a = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Health1').loc[:, ('Country Name', 'Country Code', 'Indicator Name', 'Indicator Code', '2019', '2020')]
df_sal_a.info

<bound method DataFrame.info of       Country Name Country Code  \
0            Aruba          ABW   
1            Aruba          ABW   
2            Aruba          ABW   
3            Aruba          ABW   
4            Aruba          ABW   
...            ...          ...   
65527       Kosovo          XKX   
65528       Kosovo          XKX   
65529       Kosovo          XKX   
65530       Kosovo          XKX   
65531       Kosovo          XKX   

                                          Indicator Name     Indicator Code  \
0      Unmet need for contraception (% of married wom...        SP.UWT.TFRT   
1      Completeness of death registration with cause-...     SP.REG.DTHS.ZS   
2                 Completeness of birth registration (%)     SP.REG.BRTH.ZS   
3          Completeness of birth registration, urban (%)  SP.REG.BRTH.UR.ZS   
4          Completeness of birth registration, rural (%)  SP.REG.BRTH.RU.ZS   
...                                                  ...                .

In [112]:
# Comprobamos el DataFrame df_sal_b
df_sal_b.info

<bound method DataFrame.info of      Country Name Country Code  \
0          Kosovo          XKX   
1          Kosovo          XKX   
2          Kosovo          XKX   
3          Kosovo          XKX   
4          Kosovo          XKX   
...           ...          ...   
1255     Zimbabwe          ZWE   
1256     Zimbabwe          ZWE   
1257     Zimbabwe          ZWE   
1258     Zimbabwe          ZWE   
1259     Zimbabwe          ZWE   

                                         Indicator Name     Indicator Code  \
0          Completeness of birth registration, male (%)  SP.REG.BRTH.MA.ZS   
1        Completeness of birth registration, female (%)  SP.REG.BRTH.FE.ZS   
2              Population, male (% of total population)  SP.POP.TOTL.MA.ZS   
3                                      Population, male  SP.POP.TOTL.MA.IN   
4            Population, female (% of total population)  SP.POP.TOTL.FE.ZS   
...                                                 ...                ...   
1255  Women w

In [113]:
# Redefinimos la lectura para capturar solamente las columnas que nos interesa de l DataFrame df_sal_b
# Consideramos solo el indicador en los últimos dos años considerados
# df_sal_a y df_sal_b se fusionarán en df_sal
df_sal_b = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Health2').loc[:, ('Country Name', 'Country Code', 'Indicator Name', 'Indicator Code', '2019', '2020')]
df_sal_b.info

<bound method DataFrame.info of      Country Name Country Code  \
0          Kosovo          XKX   
1          Kosovo          XKX   
2          Kosovo          XKX   
3          Kosovo          XKX   
4          Kosovo          XKX   
...           ...          ...   
1255     Zimbabwe          ZWE   
1256     Zimbabwe          ZWE   
1257     Zimbabwe          ZWE   
1258     Zimbabwe          ZWE   
1259     Zimbabwe          ZWE   

                                         Indicator Name     Indicator Code  \
0          Completeness of birth registration, male (%)  SP.REG.BRTH.MA.ZS   
1        Completeness of birth registration, female (%)  SP.REG.BRTH.FE.ZS   
2              Population, male (% of total population)  SP.POP.TOTL.MA.ZS   
3                                      Population, male  SP.POP.TOTL.MA.IN   
4            Population, female (% of total population)  SP.POP.TOTL.FE.ZS   
...                                                 ...                ...   
1255  Women w

In [114]:
# Concatenamos df_sal_a y df_sal_b
df_sal = pd.concat([df_sal_a,df_sal_b])
df_sal

Unnamed: 0,Country Name,Country Code,Indicator Name,Indicator Code,2019,2020
0,Aruba,ABW,Unmet need for contraception (% of married wom...,SP.UWT.TFRT,,
1,Aruba,ABW,Completeness of death registration with cause-...,SP.REG.DTHS.ZS,,
2,Aruba,ABW,Completeness of birth registration (%),SP.REG.BRTH.ZS,,
3,Aruba,ABW,"Completeness of birth registration, urban (%)",SP.REG.BRTH.UR.ZS,,
4,Aruba,ABW,"Completeness of birth registration, rural (%)",SP.REG.BRTH.RU.ZS,,
...,...,...,...,...,...,...
1255,Zimbabwe,ZWE,Women who believe a husband is justified in be...,SG.VAW.NEGL.ZS,,
1256,Zimbabwe,ZWE,Women who believe a husband is justified in be...,SG.VAW.GOES.ZS,,
1257,Zimbabwe,ZWE,Women who believe a husband is justified in be...,SG.VAW.BURN.ZS,,
1258,Zimbabwe,ZWE,Women who believe a husband is justified in be...,SG.VAW.ARGU.ZS,,


***Nueva extracción de datos - Salut -***

Este datasource no nos proporciona información del año que queremos analizar (2021, ni 2020), por lo tanto, buscamos otro, el cual nos proporcione los datos que necesitamos.  

Data source: WHO (OMS), Global Health Expenditure Database  
URL : https://apps.who.int/nha/database/Select/Indicators/en  
Autor : WHO  
Fuente : WHO  
Fichero : NHA indicators.xlsx (arreglamos filas y columnas combinadas)

In [115]:
# Releer el conjunto de datos
df_sal = pd.read_excel('/content/NHA indicators.xlsx')                            # Salud

In [116]:
# Comprobamos el DataFrame df_sal
df_sal.info

<bound method DataFrame.info of     Countries                                         Indicators        2020  \
0     Algeria  Current Health Expenditure (CHE) as % Gross Do...    6.321180   
1     Algeria  Current Health Expenditure (CHE) per Capita in...  214.851791   
2      Angola  Current Health Expenditure (CHE) as % Gross Do...    2.911835   
3      Angola  Current Health Expenditure (CHE) per Capita in...   50.742622   
4    Botswana  Current Health Expenditure (CHE) as % Gross Do...    6.186646   
..        ...                                                ...         ...   
456   Vanuatu       Capital Health Expenditure (Domestic Public)    2.607348   
457   Vanuatu              Capital Health Expenditure (External)    0.000000   
458  Viet Nam  Current Health Expenditure (CHE) as % Gross Do...    4.680668   
459  Viet Nam  Current Health Expenditure (CHE) per Capita in...  166.231842   
460  Viet Nam       Capital Health Expenditure (Domestic Public)  991.495777   

     20

Queda claro que la OMS no tiene datos disponibles del 2021, pero si del 20121, como habitualmente los datos se recogen en el segundo trimestre, cogeremos los datos del 2020 como del 2021.

In [117]:
# Volvemos a comprobar el DataFrame df_sal (columnas)
for column in df_sal:
  print(column)

Countries
Indicators
2020
2021


In [118]:
# Limpiamos columnas que no necesitamos 
df_sal = df_sal.drop(['2021'], axis=1)

In [119]:
# Renombramos columnas para hacer más manejable el df
#     1.  Countries               ->  pais
#     2.  Indicators              ->  indicador
#     3.  2020                    ->  2021
df_sal = df_sal.set_axis(['pais',
                      'indicador',
                      '2021'], axis=1)

In [120]:
# Volvemos a comprobar el DataFrame df_sal (columnas)
for column in df_sal:
  print(column)

pais
indicador
2021


In [121]:
# Comprobamos el DataFrame df_sal
df_sal.info

<bound method DataFrame.info of          pais                                          indicador        2021
0     Algeria  Current Health Expenditure (CHE) as % Gross Do...    6.321180
1     Algeria  Current Health Expenditure (CHE) per Capita in...  214.851791
2      Angola  Current Health Expenditure (CHE) as % Gross Do...    2.911835
3      Angola  Current Health Expenditure (CHE) per Capita in...   50.742622
4    Botswana  Current Health Expenditure (CHE) as % Gross Do...    6.186646
..        ...                                                ...         ...
456   Vanuatu       Capital Health Expenditure (Domestic Public)    2.607348
457   Vanuatu              Capital Health Expenditure (External)    0.000000
458  Viet Nam  Current Health Expenditure (CHE) as % Gross Do...    4.680668
459  Viet Nam  Current Health Expenditure (CHE) per Capita in...  166.231842
460  Viet Nam       Capital Health Expenditure (Domestic Public)  991.495777

[461 rows x 3 columns]>

Ahora tenemos el problema de que la columna país no nos interesa, en su lugar queremos el código del país, pero además el nombre del país está en inglés.  bullshit

In [None]:
# Comprobamos el DataFrame df_deu
df_deu.info

<bound method DataFrame.info of       Country Name Country Code  \
0            Aruba          ABW   
1            Aruba          ABW   
2            Aruba          ABW   
3            Aruba          ABW   
4            Aruba          ABW   
...            ...          ...   
16099     Zimbabwe          ZWE   
16100     Zimbabwe          ZWE   
16101     Zimbabwe          ZWE   
16102     Zimbabwe          ZWE   
16103     Zimbabwe          ZWE   

                                          Indicator Name     Indicator Code  \
0                                      GNI (current US$)     NY.GNP.MKTP.CD   
1                    Total reserves in months of imports     FI.RES.TOTL.MO   
2              Total reserves (% of total external debt)  FI.RES.TOTL.DT.ZS   
3            Total reserves (includes gold, current US$)     FI.RES.TOTL.CD   
4      Multilateral debt service (% of public and pub...  DT.TDS.MLAT.PG.ZS   
...                                                  ...                .

Este datasource no nos proporciona información del año que queremos analizar (2021, ni 2020), por lo tanto, buscamos otro, el cual nos proporcione los datos que necesitamos.  

Data source: IFM (FMI), World Economic Outlook Database  
URL : https://www.imf.org/en/Publications/WEO/weo-database/2022/October  
Autor : IFM  
Fuente : IFM  
Fichero : WEO_Data.xls  

In [None]:
# Redefinimos la lectura para capturar solamente las columnas que nos interesa de l DataFrame df_deu
# Consideramos solo el indicador en los últimos dos años considerados
df_deu = pd.read_excel('/content/WEO_Data.xlsx','WEO_Data')
df_deu.info

<bound method DataFrame.info of      ISO             Country           Subject Descriptor           Units  \
0    AFG         Afghanistan  General government net debt  Percent of GDP   
1    ALB             Albania  General government net debt  Percent of GDP   
2    DZA             Algeria  General government net debt  Percent of GDP   
3    AND             Andorra  General government net debt  Percent of GDP   
4    AGO              Angola  General government net debt  Percent of GDP   
..   ...                 ...                          ...             ...   
191  VNM             Vietnam  General government net debt  Percent of GDP   
192  WBG  West Bank and Gaza  General government net debt  Percent of GDP   
193  YEM               Yemen  General government net debt  Percent of GDP   
194  ZMB              Zambia  General government net debt  Percent of GDP   
195  ZWE            Zimbabwe  General government net debt  Percent of GDP   

     Scale                      Country/Ser

In [None]:
# Volvemos a comprobar el DataFrame df_deu (columnas)
for column in df_deu:
  print(column)

ISO
Country
Subject Descriptor
Units
Scale
Country/Series-specific Notes
2021
Estimates Start After


In [None]:
# Limpiamos columnas que no necesitamos 
df_deu = df_deu.drop(['Scale',
                  'Country/Series-specific Notes',
                  'Estimates Start After'], axis=1)

In [None]:
# Volvemos a comprobar el DataFrame df_deu (columnas)
for column in df_deu:
  print(column)

ISO
Country
Subject Descriptor
Units
2021


In [None]:
# Renombramos columnas para hacer más manejable el df
#     1.  ISO                     ->  codigo_pais
#     2.  Country                 ->  pais
#     3.  Subject Descriptor      ->  indicador
#     4.  Units                   ->  unidades
#     5.  2021                    ->  2021
df_deu = df_deu.set_axis(['codigo_pais',
                      'pais',
                      'indicador',
                      'unidades',
                      '2021'], axis=1)

In [None]:
# Volvemos a comprobar el DataFrame df_deu (columnas)
for column in df_deu:
  print(column)

codigo_pais
pais
indicador
unidades
2021


***Transformación de datos - Paises -***

In [20]:
# Comprobamos el DataFrame df_pai. Todas las columnas son necesarias
df_pai.info

<bound method DataFrame.info of     Country Code                      Region          IncomeGroup  \
0            ABW   Latin America & Caribbean          High income   
1            AFG                  South Asia           Low income   
2            AGO          Sub-Saharan Africa  Lower middle income   
3            ALB       Europe & Central Asia  Upper middle income   
4            AND       Europe & Central Asia          High income   
..           ...                         ...                  ...   
258          XKX       Europe & Central Asia  Upper middle income   
259          YEM  Middle East & North Africa           Low income   
260          ZAF          Sub-Saharan Africa  Upper middle income   
261          ZMB          Sub-Saharan Africa  Lower middle income   
262          ZWE          Sub-Saharan Africa  Lower middle income   

                                          SpecialNotes     TableName  
0                                                  NaN         Aruba

***Nueva extracción de datos - Paises -***  

***Como podemos observar este fichero de metadatos dispone de 262 países y muchos NaN***, por lo tanto, buscamos otro, el cual nos proporcione los datos que necesitamos (193 paises reconocidos por la ONU en 2021). No obstante, conservaremos el resto de datos de este dataset, haciendo un join con el nuevo (de 193 filas).

Data source: World countries  
URL : https://stefangabos.github.io/world_countries/  
Autor : Stefan Gabos   
Fuente : Stefan Gabos  
Fichero : countries.csv  

In [21]:
# En primer lugar hacemos una copia del df_pai en df_pai_ext
df_pai_ext = df_pai.copy()
df_pai_ext.info

<bound method DataFrame.info of     Country Code                      Region          IncomeGroup  \
0            ABW   Latin America & Caribbean          High income   
1            AFG                  South Asia           Low income   
2            AGO          Sub-Saharan Africa  Lower middle income   
3            ALB       Europe & Central Asia  Upper middle income   
4            AND       Europe & Central Asia          High income   
..           ...                         ...                  ...   
258          XKX       Europe & Central Asia  Upper middle income   
259          YEM  Middle East & North Africa           Low income   
260          ZAF          Sub-Saharan Africa  Upper middle income   
261          ZMB          Sub-Saharan Africa  Lower middle income   
262          ZWE          Sub-Saharan Africa  Lower middle income   

                                          SpecialNotes     TableName  
0                                                  NaN         Aruba

In [22]:
# Estandarizamos el código de población (iso3) a minúsculas
df_pai_ext['Country Code'] = df_pai_ext['Country Code'].str.lower()
df_pai_ext.info

<bound method DataFrame.info of     Country Code                      Region          IncomeGroup  \
0            abw   Latin America & Caribbean          High income   
1            afg                  South Asia           Low income   
2            ago          Sub-Saharan Africa  Lower middle income   
3            alb       Europe & Central Asia  Upper middle income   
4            and       Europe & Central Asia          High income   
..           ...                         ...                  ...   
258          xkx       Europe & Central Asia  Upper middle income   
259          yem  Middle East & North Africa           Low income   
260          zaf          Sub-Saharan Africa  Upper middle income   
261          zmb          Sub-Saharan Africa  Lower middle income   
262          zwe          Sub-Saharan Africa  Lower middle income   

                                          SpecialNotes     TableName  
0                                                  NaN         Aruba

***Nueva extracción de datos - Paises -***

In [24]:
# Releer el conjunto de datos, pero lo llamaremos df_pai_princ
df_pai_princ = pd.read_csv('/content/countries.csv')                # Paises

***Nueva transformación de datos - Paises -***

In [25]:
# Comprobamos el DataFrame df_pai. Todas las columnas son necesarias
df_pai_princ.info

<bound method DataFrame.info of       id alpha2 alpha3        name
0      4     af    afg  Afganistán
1      8     al    alb     Albania
2    276     de    deu    Alemania
3     20     ad    and     Andorra
4     24     ao    ago      Angola
..   ...    ...    ...         ...
188  704     vn    vnm     Vietnam
189  887     ye    yem       Yemen
190  262     dj    dji      Yibuti
191  894     zm    zmb      Zambia
192  716     zw    zwe    Zimbabue

[193 rows x 4 columns]>

In [26]:
# Volvemos a comprobar el DataFrame df_pai_princ (columnas)
for column in df_pai_princ:
  print(column)

id
alpha2
alpha3
name


In [27]:
# Limpiamos columnas que no necesitamos 
df_pai_princ = df_pai_princ.drop(['id','alpha2'], axis=1)

In [28]:
# Volvemos a comprobar el DataFrame df_pai_princ (columnas)
for column in df_pai_princ:
  print(column)

alpha3
name


In [29]:
# Renombramos columnas para hacer más manejable el df
#     1.  alpha3                  ->  codigo_pais
#     2.  name                    ->  pais
df_pai_princ = df_pai_princ.set_axis(['codigo_pais',
                      'pais'], axis=1)

In [30]:
# Volvemos a comprobar el DataFrame df_pai_princ (columnas)
for column in df_pai_princ:
  print(column)

codigo_pais
pais


In [31]:
# Comprobamos el DataFrame df_pai_princ. Todas las columnas son necesarias
df_pai_princ.info

<bound method DataFrame.info of     codigo_pais        pais
0           afg  Afganistán
1           alb     Albania
2           deu    Alemania
3           and     Andorra
4           ago      Angola
..          ...         ...
188         vnm     Vietnam
189         yem       Yemen
190         dji      Yibuti
191         zmb      Zambia
192         zwe    Zimbabue

[193 rows x 2 columns]>

In [32]:
# Ahora hacemos un inner join entre el DataFrame con 193 filas y el que tiene más, 
# el resultado será extender (columnas) el df más restrictivo (filas)
df_pai = pd.merge(df_pai_princ, df_pai_ext, how='inner', left_on='codigo_pais', right_on='Country Code')
df_pai.info

<bound method DataFrame.info of     codigo_pais        pais Country Code                      Region  \
0           afg  Afganistán          afg                  South Asia   
1           alb     Albania          alb       Europe & Central Asia   
2           deu    Alemania          deu       Europe & Central Asia   
3           and     Andorra          and       Europe & Central Asia   
4           ago      Angola          ago          Sub-Saharan Africa   
..          ...         ...          ...                         ...   
188         vnm     Vietnam          vnm         East Asia & Pacific   
189         yem       Yemen          yem  Middle East & North Africa   
190         dji      Yibuti          dji  Middle East & North Africa   
191         zmb      Zambia          zmb          Sub-Saharan Africa   
192         zwe    Zimbabue          zwe          Sub-Saharan Africa   

             IncomeGroup                                       SpecialNotes  \
0             Low income

In [33]:
# Limpiamos columnas que no necesitamos 
df_pai = df_pai.drop(['Country Code', 'SpecialNotes', 'TableName'], axis=1)

In [34]:
# Volvemos a comprobar el DataFrame df_pai (columnas)
for column in df_pai:
  print(column)

codigo_pais
pais
Region
IncomeGroup


In [35]:
# Renombramos columnas para hacer más manejable el df
#     1.  codigo_pais             ->  codigo_pais
#     2.  pais                    ->  pais
#     3.  Region                  ->  region
#     4.  IncomeGroup             ->  grupo_ingresos
df_pai = df_pai.set_axis(['codigo_pais',
                      'pais',
                      'region',
                      'grupo_ingresos'], axis=1)

In [36]:
# Volvemos a comprobar el DataFrame df_pai (columnas)
for column in df_pai:
  print(column)

codigo_pais
pais
region
grupo_ingresos


***Transformación de datos - Indicadores -***

In [None]:
# Comprobamos el DataFrame df_ind
df_ind.info

<bound method DataFrame.info of          INDICATOR_CODE                                     INDICATOR_NAME  \
0           SP.POP.GROW                       Population growth (annual %)   
1           SP.POP.TOTL                                  Population, total   
2           EN.POP.DNST  Population density (people per sq. km of land ...   
3     SP.POP.TOTL.FE.IN                                 Population, female   
4     SP.POP.TOTL.MA.IN                                   Population, male   
...                 ...                                                ...   
1211     DT.DOD.DSTC.CD  External debt stocks, short-term (DOD, current...   
1212     DT.DOD.DPPG.CD  External debt stocks, public and publicly guar...   
1213     DT.DOD.DPNG.CD  External debt stocks, private nonguaranteed (P...   
1214     DT.DOD.DLXF.CD  External debt stocks, long-term (DOD, current ...   
1215     DT.DOD.DIMF.CD               Use of IMF credit (DOD, current US$)   

                               

In [None]:
# Redefinimos la lectura para capturar solamente las columnas que nos interesa de l DataFrame df_ind
# Consideramos solo el indicador y el descriptivo
df_ind = pd.read_excel('/content/PopulationDataWorldBank.xlsx','Metadata Indicators').loc[:, ('INDICATOR_CODE', 'INDICATOR_NAME')]
df_ind.info

<bound method DataFrame.info of          INDICATOR_CODE                                     INDICATOR_NAME
0           SP.POP.GROW                       Population growth (annual %)
1           SP.POP.TOTL                                  Population, total
2           EN.POP.DNST  Population density (people per sq. km of land ...
3     SP.POP.TOTL.FE.IN                                 Population, female
4     SP.POP.TOTL.MA.IN                                   Population, male
...                 ...                                                ...
1211     DT.DOD.DSTC.CD  External debt stocks, short-term (DOD, current...
1212     DT.DOD.DPPG.CD  External debt stocks, public and publicly guar...
1213     DT.DOD.DPNG.CD  External debt stocks, private nonguaranteed (P...
1214     DT.DOD.DLXF.CD  External debt stocks, long-term (DOD, current ...
1215     DT.DOD.DIMF.CD               Use of IMF credit (DOD, current US$)

[1216 rows x 2 columns]>

In [None]:
# Volvemos a comprobar el DataFrame df_ind (columnas)
for column in df_ind:
  print(column)

INDICATOR_CODE
INDICATOR_NAME


In [None]:
# Renombramos columnas para hacer más manejable el df
#     1.  INDICATOR_CODE          ->  codigo_indicador
#     2.  INDICATOR_NAME          ->  indicador
df_ind = df_ind.set_axis(['codigo_indicador',
                      'indicador'], axis=1)

In [None]:
# Volvemos a comprobar el DataFrame df_ind (columnas)
for column in df_ind:
  print(column)

codigo_indicador
indicador
