# Explorando estatísticas de gênero do Banco Mundial

Nas aulas anteriores, acessamos fontes de dados criando, nós mesmos, funções ou rotinas de consulta a suas API. 

Algumas fontes, no entanto, oferecem bibliotecas para facilitar as definições de parâmetros e criação de consultas, integrando-as mais suavemente ao nosso código.

O Banco Mundial oferece biblioteca em Python para consultas aos seus bancos de dados:

https://pypi.org/project/wbgapi/

https://blogs.worldbank.org/opendata/introducing-wbgapi-new-python-package-accessing-world-bank-data

In [None]:
# !pip install wbgapi

In [None]:
import wbgapi as wb
import pandas as pd

Podemos listas as diversas fontes de dados disponíveis com a seguinte função:

In [None]:
wb.source.info()

Vamos consultas as séries de dados do banco "Gender Statistics":

In [None]:
wb.series.info(db=14)

As tabelas 'SL.TLF.ACTI.FE.ZS' e 'SL.TLF.ACTI.MA.ZS' referem-se à parcela da população feminina e masculina, respectivamente, de 15 a 64 anos que integra a força de trabalho 

A função de consulta 'wb.data.DataFrame()' retorna, por padrão, um Pandas DataFrame em que os índices são o código ISO3 de país, região ou grupo de renda, e as colunas são anos. 

Vamos consultar as séries indicadas restringindo o período a um só ano, e transformá-las em Pandas Series.

In [None]:
female_labor_force = wb.data.DataFrame('SL.TLF.ACTI.FE.ZS', time = 2019).squeeze()
male_labor_force = wb.data.DataFrame('SL.TLF.ACTI.MA.ZS', time = 2019).squeeze()

Retorne a taxa de participação na força de trabalho feminina e masculina para o Brasil (código "BRA") e para mundo (código "WLD").

Como vimos, as linhas e índices da série incluem tanto países como agregações por região e grupo de renda. Antes de prosseguir com a análise, vamos separá-los.

In [None]:
economy_info = wb.economy.info()
region_info = wb.region.info()
income_info = wb.income.info()

In [None]:
country_codes = [pais.get('id') 
                 for pais in economy_info.items
                 if pais.get('region') != ''] # códigos que não são países têm o campo region e income em branco

income_levels = [item.get('id') for item in income_info.items]

In [None]:
paises_info = [{'id': pais.get('id'),
                'name': pais.get('value'),
                'region': pais.get('region'),
                'income_level': pais.get('incomeLevel')}
                for pais in economy_info.items 
                if pais.get("region") != ""]

Com os objetos que já temos, crie a série female_labor_force_income e male_labor_force_income, subconjuntos das séries completas onde os índices são somente os códigos dos grupos de renda.

Em seguida, crie as séries female_labor_force_country e male_labor_force_country, somente com códigos de países.

Agora junte as séries em dois DataFrames: um com as participações feminina e masculina por grupo de renda, outro por país. Adicione também, em cada DataFrame, uma coluna com a diferença entre as taxas.

Encontre a média, mediana, mínimo e máximo das participações e da diferença, dentre os países.

Encontre qual o grupo de renda com menor diferença entre as taxas de participação na força de trabalho.

Encontre a média da taxa de participação feminina na força de trabalho entre os países Brasil, Argentina, Uruguai e Paraguai, e entre os países Canadá e Estados Unidos.