# Large Coding Test - Data Engineer

### INSTRUCCIONES

Crear un pipeline con Python, el cual debe:
1. Extraer los datos correspondientes al total de población de cada país a través de los años usando la [API JSON](http://api.worldbank.org/v2/country/all/indicator/SP.POP.TOTL?format=json) de [Indicadores del Banco Mundial](https://datahelpdesk.worldbank.org/knowledgebase/articles/889392-about-the-indicators-api-documentation).
<br>
Nota: Puedes usar el parámetro page=n para obtener la página número n.

Para realizar la petición a la API, se va a hacer uso de la librería **requests**. Mientras que para almacenar los datos se hará uso de la librería **pandas**.

In [1]:
import requests
import pandas as pd

La información de la **API** contiene un **JSON** que se visualiza de la siguiente forma:

![Formato de la API](images/API_formart.png)

Se incluye una lista que contiene un diccionario y una lista. El diccionario tiene información útil para este ptroyecto, como son la página, el total de páginas y el total de datos. Es importante conocer el número total de páginas que tiene la API, para saber cuantas veces se debe acceder por los datos. La lista contiene a su vez diccionarios, estos contienen los datos que van a ser extraídos y almacenados. Es importante conocer cuántos indicadores hay por página, ya que estos servirán para iterar y almacenar cada información. La información que se estará almacenando será: el valor del país, el código ISO, el año y el valor (la población total).

### Accediendo a todas las páginas de la API

Primero se declara una variable tipo string que contiene la dirección principal, hasta antes de enumerar la página.

In [2]:
url_grl ="http://api.worldbank.org/v2/country/all/indicator/SP.POP.TOTL?format=json&page="

Para conocer cuántas páginas hay en total, se realiza una primera petición, se accede al **JSON** y, conociendo la estructura de este se accede al valor de las páginas totales. Posteriormente se declara un rango de 1 hasta el número total de páginas.

In [3]:
pages = range(1, requests.get(url_grl+'1').json()[0]['pages']+1)

Se declarán listas vacías para almacenar todas las urls, es decir, una url por cada página. Y una para almacenar todos los datos.

In [4]:
urls = []
all_pages_data = []

In [5]:
for page in pages:
    urls.append(url_grl+str(page))

In [6]:
for url in urls:
    all_pages_data.append(requests.get(url).json())

Para acceder a todos los indicadores por página, se sigue el mismo procedimiento que con las urls.

In [7]:
indicators_numbers = range(requests.get(url_grl+'1').json()[0]['per_page'])

Para empezar a almacenar la información. Se crean series con **pandas**. Para ello, primero se almacenarán los calores en una lista. Luego, se itera sobre las páginas totales (cada lista de la API almacenada) y sobre los indicadores (cada diccionario de la página).

In [8]:
list_iso3 = []

In [9]:
for page in range(pages[-2]):
    for i_num in indicators_numbers:
        list_iso3.append(all_pages_data[page][1][i_num]['countryiso3code'])

In [10]:
series_iso3 = pd.Series(list_iso3)

In [11]:
list_countries = []

In [12]:
for page in range(pages[-2]):
    for i_num in indicators_numbers:
        list_countries.append(all_pages_data[page][1][i_num]['country']['value'])

In [13]:
series_countries = pd.Series(list_countries, index = list_iso3)

In [14]:
list_years = []

In [15]:
for page in range(pages[-2]):
    for i_num in indicators_numbers:
        list_years.append(all_pages_data[page][1][i_num]['date'])

In [16]:
series_year = pd.Series(list_years, index = list_iso3)

In [17]:
list_total_population = []

In [18]:
for page in range(pages[-2]):
    for i_num in indicators_numbers:
        list_total_population.append(all_pages_data[page][1][i_num]['value'])

In [19]:
series_total_population = pd.Series(list_total_population, index = list_iso3)

Para almacenar los datos que se han guardado hasta ahora, se crea un diccionario. Este contiene las columnas que tendrá el dataframe.

In [20]:
dict_data = {
    'Country' : pd.Series(series_countries),
    'Year' : pd.Series(series_year),
    'Population' : pd.Series(series_total_population)
}

In [21]:
population_country_year_df = pd.DataFrame(dict_data)

In [22]:
population_country_year_df

Unnamed: 0,Country,Year,Population
AFE,Africa Eastern and Southern,2021,702976832.0
AFE,Africa Eastern and Southern,2020,685112705.0
AFE,Africa Eastern and Southern,2019,667242712.0
AFE,Africa Eastern and Southern,2018,649756874.0
AFE,Africa Eastern and Southern,2017,632746296.0
...,...,...,...
ZWE,Zimbabwe,2006,12330490.0
ZWE,Zimbabwe,2005,12224753.0
ZWE,Zimbabwe,2004,12160881.0
ZWE,Zimbabwe,2003,12075828.0


In [23]:
population_country_year_df.loc[['CAN','MEX','USA']]

Unnamed: 0,Country,Year,Population
CAN,Canada,2021,38246108.0
CAN,Canada,2020,38037204.0
CAN,Canada,2019,37601230.0
CAN,Canada,2018,37065084.0
CAN,Canada,2017,36545236.0
...,...,...,...
USA,United States,1964,191889000.0
USA,United States,1963,189242000.0
USA,United States,1962,186538000.0
USA,United States,1961,183691000.0


In [24]:
prev_year_population = population_country_year_df.loc['AFE']['Population'].shift(1)

In [25]:
media_population_per_year = (population_country_year_df.loc['AFE']['Population']+prev_year_population)/2

In [26]:
media_population_per_year

AFE            NaN
AFE    694044768.5
AFE    676177708.5
AFE    658499793.0
AFE    641251585.0
          ...     
AFE    147674173.0
AFE    143618270.5
AFE    139733068.0
AFE    136002413.5
AFE    132430908.0
Name: Population, Length: 62, dtype: float64

In [27]:
grow_rate_year_percentage = ((population_country_year_df.loc['AFE']['Population'] - prev_year_population) / media_population_per_year)*100

In [28]:
grow_rate_year_percentage

AFE         NaN
AFE   -2.573916
AFE   -2.642795
AFE   -2.655405
AFE   -2.652715
         ...   
AFE   -2.801002
AFE   -2.768066
AFE   -2.715861
AFE   -2.695800
AFE   -2.625262
Name: Population, Length: 62, dtype: float64

In [29]:
new_frame = population_country_year_df.loc['AFE']

In [30]:
grow_rate_year_percentage

AFE         NaN
AFE   -2.573916
AFE   -2.642795
AFE   -2.655405
AFE   -2.652715
         ...   
AFE   -2.801002
AFE   -2.768066
AFE   -2.715861
AFE   -2.695800
AFE   -2.625262
Name: Population, Length: 62, dtype: float64

In [31]:
pd.DataFrame(grow_rate_year_percentage).describe()

Unnamed: 0,Population
count,61.0
mean,-2.757981
std,0.149472
min,-3.093978
25%,-2.869749
50%,-2.737016
75%,-2.631165
max,-2.483429
