# Explorando as estatísticas de gênero do Banco Mundial

Vamos começar resgatando os dados que produzimos na última aula.

In [2]:
import wbgapi as wb
import pandas as pd

In [3]:
labor_force_country = pd.read_csv("data/labor_force_country.csv", index_col = 0)
labor_force_income = pd.read_csv("data/labor_force_income.csv", index_col = 0)

In [4]:
economy_info = wb.economy.info()
income_info = wb.income.info()

In [None]:
country_codes = [pais.get('id') 
                 for pais in economy_info.items
                 if pais.get('region') != ''] # códigos que não são países têm o campo region e income em branco

income_levels = [item.get('id') for item in income_info.items]

Antes de mais nada, remova dos DataFrames as linhas sem dados disponíveis (no caso, com valores 'NaN').

In [None]:
labor_force_country.dropna(inplace = True)
labor_force_income.dropna(inplace = True)

Para facilitar a compreensão das tabelas, vamos acrescentar colunas com os nomes dos países ou dos grupos de renda.

Primeiro, crie dois dicionários no formato {'código': 'nome'}
relacionando os códigos aos nomes dos países em um, e aos dos grupos de renda em outro, a partir dos objetos economy_info e income_info.

In [10]:
country_codes_names = {pais.get('id'): pais.get('value') 
                       for pais in economy_info.items 
                       if pais.get('region') != ''}

income_level_names = {grupo.get('id'): grupo.get('value')
                      for grupo in income_info.items}

In [None]:
country_codes_names

In [12]:
income_level_names

{'HIC': 'High income',
 'INX': 'Not classified',
 'LIC': 'Low income',
 'LMC': 'Lower middle income',
 'LMY': 'Low & middle income',
 'MIC': 'Middle income',
 'UMC': 'Upper middle income'}

Agora, usando a função map, crie as novas colunas nos dois DataFrames.

In [13]:
labor_force_country['country'] = labor_force_country.index.map(country_codes_names)
labor_force_income['group'] = labor_force_income.index.map(income_level_names)

Nos exercícios anteriores, comparamos as estatísticas entre grupos de países fazendo recortes nas séries. Agora vamos trabalhar com os DataFrames.

Obtenha as médias para o grupo Brasil, Argentina, Uruguai e Paraguai e para o grupo Estados Unidos e Canadá, de todas as colunas do DataFrame.

In [None]:
labor_force_country.loc[["BRA", "ARG", "URY", "PRY"]].mean()

In [None]:
labor_force_country.loc[["CAN", "USA"]].mean()

Crie um DataFrame com as colunas de nome do país e diferença na taxa de participação, mantendo somente os países com diferença nas taxas de participação maiores que 50 pontos percentuais.

In [None]:
gap_acima_50 = (labor_force_country
                .loc[labor_force_country['rate_gap'] > 50, ['country', 'rate_gap']]
                .sort_values('rate_gap'))

Crie um Dataframe com os países que apresentam as 10 maiores taxas de participação masculina na força trabalho e seus respectivos valores, ordenando-os de forma descrescente.

In [None]:
maiores_taxas_masculino = (labor_force_country
                           .sort_values("male_rate", ascending = False)
                           .head(10)
                           .loc[:, ['country', 'male_rate']])