# Extração e Análise dos Dados - IPEA - Remuneração líquida média mensal no Executivo civil federal ativo, por sexo e raça - 1999-2020)

A metodologia aplicada para a atividade foi a de codificação e disponibilização dos dados em sequência lógica, para posteriormente comentá-los, ao fim do notebook.

Neste notebook, foram criados alguns dataframes de modo a facilitar a inferência dos dados de interesse, de acordo com a estratégia mais conveniente para extração de cada informação.

Pequenos ajustes podem ser feitos no código para modificar a apresentação dos dados, e ainda exportá-lo para novos arquivos. Fez-se uma ponderação entre a extração do maior número de dados possíveis e a simplicidade do código, de modo a não deixá-lo complexo demais, evitando a utilização de demais bibliotecas.

Obs: os termos utilizados na atividade como "Raça" e "Sexo" (sic), foram herdados da construção dos dados disponibilizados.

## Importação de Bibliotecas Necessárias

In [244]:
import pandas as pd
import requests
import os

## Configurando o ambiente do Projeto e o Acesso aos Dados

In [144]:
#Criação do diretório do projeto, com checagem de existência prévia

os.makedirs('./projeto-selecao-gc', exist_ok=True)
path = './projeto-selecao-gc'
os.chdir(path)

In [145]:
# Definição do caminho online

url = "https://www.ipea.gov.br/atlasestado/arquivos/downloads/5233-liquidosexoraca.csv"

# Download dos dados para repositório para documentação

response = requests.get(url)
open("dados.csv", "wb").write(response.content)

3003

## Transformação e Limpeza dos Dataframes

In [146]:
#Construção do Dataframe inicial

df_remuneracao = pd.read_csv("./dados.csv", sep = ";", decimal = ",")

In [147]:
#Visualizar informações gerais do dataframe montado

df_remuneracao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 88 entries, 0 to 87
Data columns (total 4 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   Unnamed: 0  88 non-null     int64  
 1   ano         88 non-null     int64  
 2   sexo_raça   88 non-null     object 
 3   liquido     88 non-null     float64
dtypes: float64(1), int64(2), object(1)
memory usage: 2.9+ KB


In [148]:
#Visualizar cabeçalho do Dataframe

df_remuneracao.head()

Unnamed: 0.1,Unnamed: 0,ano,sexo_raça,liquido
0,1,1999,Homem Branco,6527.2
1,2,1999,Homem Negro,4768.7
2,3,1999,Mulher Branca,5261.6
3,4,1999,Mulher Negra,4010.0
4,5,2000,Homem Branco,5690.3


In [149]:
# Renomear as colunas para uma apresentação mais limpa dos dados
## RLMM: Remuneração Líquida Média Mensal

df_remuneracao = df_remuneracao.rename(columns={    
 'Unnamed: 0': 'Índice',
 'ano': 'Ano',
 'sexo_raça': 'Sexo Raça',
 'liquido': 'RLMM'}
)

In [150]:
# Visualização do topo do dataframe

df_remuneracao.head()

Unnamed: 0,Índice,Ano,Sexo Raça,RLMM
0,1,1999,Homem Branco,6527.2
1,2,1999,Homem Negro,4768.7
2,3,1999,Mulher Branca,5261.6
3,4,1999,Mulher Negra,4010.0
4,5,2000,Homem Branco,5690.3


In [151]:
#Separação das Colunas Sexo e Raça para análise isolada posteriormente -> Remodelagem linha coluna para Raça e Sexo

df_remuneracao[['Sexo', 'Raça']] = df_remuneracao['Sexo Raça'].str.split(' ', 1, expand=True)
df_remuneracao['Raça'] = df_remuneracao['Raça'].replace(['Branco', 'Negro'], ['Branca', 'Negra'])
df_remuneracao = df_remuneracao[['Ano', 'Sexo', 'Raça', 'RLMM']]

In [163]:
# Visualização do Topo do Dataframe Criado
df_remuneracao.head()

Unnamed: 0,Ano,Sexo,Raça,RLMM
0,1999,Homem,Branca,6527.2
1,1999,Homem,Negra,4768.7
2,1999,Mulher,Branca,5261.6
3,1999,Mulher,Negra,4010.0
4,2000,Homem,Branca,5690.3


In [222]:
# Visualização geral dos dados de forma transposta

df_remuneracao.groupby(['Ano', 'Sexo', 'Raça'])['RLMM'].agg(['mean']).transpose()

# Caso se deseje alterar a visualização dos dados:
#
# df_remuneracao.groupby(['Ano', 'Sexo', 'Raça'])['RLMM'].agg(['mean'])
#
# Caso se deseje visualizar todo o dataframe, configurar utilizando:
#
#with pd.option_context('display.max_rows', None,
                       #'display.max_columns', None,
                       #'display.precision', 3) 

Ano,1999,1999,1999,1999,2000,2000,2000,2000,2001,2001,...,2018,2018,2019,2019,2019,2019,2020,2020,2020,2020
Sexo,Homem,Homem,Mulher,Mulher,Homem,Homem,Mulher,Mulher,Homem,Homem,...,Mulher,Mulher,Homem,Homem,Mulher,Mulher,Homem,Homem,Mulher,Mulher
Raça,Branca,Negra,Branca,Negra,Branca,Negra,Branca,Negra,Branca,Negra,...,Branca,Negra,Branca,Negra,Branca,Negra,Branca,Negra,Branca,Negra
mean,6527.2,4768.7,5261.6,4010.0,5690.3,4151.7,4887.3,3782.5,5833.8,4107.2,...,7952.3,6048.9,9044.7,6454.7,7977.5,5996.2,8774.2,6272.2,7753.8,5815.5


In [181]:
# Distinguir dataframes por sexo e raça

df_rem_genero = df_remuneracao[['Ano','Sexo', 'RLMM']]
df_rem_raca = df_remuneracao[['Ano','Raça', 'RLMM']]

## Disponibilização de Dados para Análise Exploratória

In [318]:
# Obter informações Médias por Sexo Ano a Ano

df_rem_genero.groupby(['Ano', 'Sexo']).mean()

Unnamed: 0_level_0,Unnamed: 1_level_0,RLMM
Ano,Sexo,Unnamed: 2_level_1
1999,Homem,5647.95
1999,Mulher,4635.8
2000,Homem,4921.0
2000,Mulher,4334.9
2001,Homem,4970.5
2001,Mulher,4366.0
2002,Homem,5448.3
2002,Mulher,4749.7
2003,Homem,5215.35
2003,Mulher,4514.3


In [236]:
# Resumo por raça Ano a Ano

df_rem_raca.groupby(['Raça', 'Ano'])['RLMM'].agg(['max','min','mean','median'])

Unnamed: 0_level_0,Unnamed: 1_level_0,max,min,mean,median
Raça,Ano,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Branca,1999,6527.2,5261.6,5894.4,5894.4
Branca,2000,5690.3,4887.3,5288.8,5288.8
Branca,2001,5833.8,4997.5,5415.65,5415.65
Branca,2002,6407.0,5429.7,5918.35,5918.35
Branca,2003,6133.3,5171.9,5652.6,5652.6
Branca,2004,5902.9,4963.7,5433.3,5433.3
Branca,2005,6314.4,5298.2,5806.3,5806.3
Branca,2006,6227.3,5269.9,5748.6,5748.6
Branca,2007,7049.0,5822.3,6435.65,6435.65
Branca,2008,7220.2,5946.1,6583.15,6583.15


In [241]:
# Resumo por raça Ano a Ano

df_rem_genero.groupby(['Sexo', 'Ano'])['RLMM'].agg(['max','min','mean','median'])

Unnamed: 0_level_0,Unnamed: 1_level_0,max,min,mean,median
Sexo,Ano,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
Homem,1999,6527.2,4768.7,5647.95,5647.95
Homem,2000,5690.3,4151.7,4921.0,4921.0
Homem,2001,5833.8,4107.2,4970.5,4970.5
Homem,2002,6407.0,4489.6,5448.3,5448.3
Homem,2003,6133.3,4297.4,5215.35,5215.35
Homem,2004,5902.9,4372.2,5137.55,5137.55
Homem,2005,6314.4,4558.0,5436.2,5436.2
Homem,2006,6227.3,4368.9,5298.1,5298.1
Homem,2007,7049.0,4815.0,5932.0,5932.0
Homem,2008,7220.2,4914.5,6067.35,6067.35


In [321]:
# Razão de Aumento percentual Ano a Ano - com base no Sexo

df_rem_genero.groupby(['Sexo', 'Ano']).mean().pct_change()

Unnamed: 0_level_0,Unnamed: 1_level_0,RLMM
Sexo,Ano,Unnamed: 2_level_1
Homem,1999,
Homem,2000,-0.12871
Homem,2001,0.010059
Homem,2002,0.096127
Homem,2003,-0.042756
Homem,2004,-0.014918
Homem,2005,0.058131
Homem,2006,-0.025404
Homem,2007,0.119647
Homem,2008,0.022817


In [228]:
# Razão de Aumento percentual Ano a Ano - com base na Raça

df_rem_raca.groupby(['Raça','Ano']).agg(['mean']).pct_change()

Unnamed: 0_level_0,Unnamed: 1_level_0,RLMM
Unnamed: 0_level_1,Unnamed: 1_level_1,mean
Raça,Ano,Unnamed: 2_level_2
Branca,1999,
Branca,2000,-0.102742
Branca,2001,0.023985
Branca,2002,0.092824
Branca,2003,-0.044903
Branca,2004,-0.038796
Branca,2005,0.068651
Branca,2006,-0.009937
Branca,2007,0.119516
Branca,2008,0.022919


In [None]:
# Razão de Aumento percentual Ano a Ano - com base na Raça e no Sexo

df_remuneracao.groupby(['Raça', 'Sexo', 'Ano'])[['RLMM']].mean().pct_change()

In [223]:
# Resumo por Raça

df_rem_raca.groupby(['Raça'])['RLMM'].agg(['max','min','mean','median'])

Unnamed: 0_level_0,max,min,mean,median
Raça,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
Branca,9279.1,4887.3,7228.568182,7700.6
Negra,6591.9,3734.5,5263.411364,5734.5


In [270]:
# Criacao de modelo de Raça com Variaveis Dummy

df_dummy = df_remuneracao
df_dummy = df_dummy.replace(['Branca', 'Negra'], ['1', '0'])
df_dummy = df_dummy.replace(['Homem', 'Mulher'], ['1', '0'])
df_dummy = df_dummy.astype({"Raça": int,
               "Sexo": int}, errors='raise')

In [272]:
# Calculo de Correlação entre as variáveis

df_raca_dummy.corr()

Unnamed: 0,Ano,Sexo,Raça,RLMM
Ano,1.0,1.119972e-15,1.129517e-15,0.65191
Sexo,1.119972e-15,1.0,-2.5232340000000003e-17,0.224562
Raça,1.129517e-15,-2.5232340000000003e-17,1.0,0.62485
RLMM,0.6519095,0.2245617,0.62485,1.0


# Análise dos Dados

A partir da extração dos dados e da sua posterior análise, podemos identificar algumas tendências na série temporal que relaciona o salário líquido mensal médio com atributos como Raça e Sexo.

## Pôde-se inferir a partir dos dados que entre os anos de 1999 e 2020:

Ocorreu um crescimento na RLMM em média de:

- 33,20% para Homens em geral,
- 46,35% para Mulheres em geral

Estratificando por raça e sexo, temos os seguintes índices de crescimento:
- Homens brancos: 34,43%
- Homens negros: 31,53%
- Mulheres brancas: 47,37%
- Mulheres negras: 45,02

A partir disso, podemos perceber que as mulheres tiveram um crescimento salarial maior que o dos homens no período analisado, sendo que as mulheres brancas tiveram em média um crescimento maior que as negras. Analisando os dados isoladamente, entretanto, pode-se perceber que apesar de ter uma tendência equiparação salarial aos homens, as mulheres ainda recebem em média menos que os homens, para ambas as "raças".
Para ambas as categorias de sexo, no que diz respeito à raça, o crescimento médio salarial ao longo dos anos ainda foi menor para indivíduos da raça "negra" em comparação com "brancos".
A partir da matriz de correlação, podemos analisar que os índices de correlação entre a RLMM e a Raça e o Sexo, e identificar que a correlação entre as variáveis é maior para a raça do que para o sexo.