Projeto: Dados da PNAD
======================

O presente trabalho é um tutorial guiado em que exploramos o uso de programação para a análise de um grande volume de dados. Vamos descobrir alguns resultados socioeconômicos sobre a população brasileira usando o Python como ferramenta de cálculo.

Usaremos os dados da PNAD (Pesquisa Nacional por Amostra de Domicílios) de 2012. Os dados foram extraídos a partir dos arquivos fornecidos pelo IBGE, mas estão em um formato simplificado e incluem apenas uma pequena fração dos campos disponíveis no conjunto original.


Conjunto de dados
-----------------

Os dados estão gravados em um arquivo do tipo CSV (comma separated values, ou valores separados por vírgulas) e representam uma tabela onde cada coluna corresponde a um tipo de valor e cada linha a um indivíduo.

As colunas disponíveis são:

* `id`: posição do elemento na tabela.
* `education`: estimativa do número de anos de escolaridade do indivíduo.
* `income`: renda total (reais)
* `income_work`: renda do salário (reais)
* `income_rent`: renda proveniente de aluguel (reais)
* `income_capital`: renda proviente de investimentos financeiros e outros ganhos de capital (reais)
* `race`: declaração de raça. Um dos grupos considerados pelo IBGE (preto, pardo, branco, amarelo ou indígena). Armazenado como um número.
* `gender`: gênero masculino ou feminino. Armazenado como um número.
* `weight`: peso estatístico da amostra. Corresponde ao número de pessoas na população brasileira que aquela entrada representa. 

Os valores monetários correspondem a reais de 2012, e se fossem corrigidos pela inflação corresponderiam aproximadamente ao dobro dos valores nominais em valores correntes (veja: https://www3.bcb.gov.br/CALCIDADAO/publico/corrigirPorIndice.do?method=corrigirPorIndice).

### Lendo os dados

O primeiro passo da nossa atividade consiste em carregar os dados em um formato conveniente para utilização no Python. O arquivo original consistem em várias linhas como a abaixo:

```
    42,13.0,,,,,16,2,246.0
```

Cada valor corresponde a uma coluna, sendo que alguns valores podem estar vazios. Precisamos ler strings como essa e retornar um objeto mais fácil de manipular. Existem várias opções: criar listas de números, dicionários ou até mesmo classes personalizadas.

Você decide como proceder, mas antes, vamos criar a função que processa cada linha e retorna um valor no formato escolhido.

Não importa como você quer representar as linhas de saída, somente preste atenção para salvar os campos em branco como zeros. Isso facilitará vários cálculos daqui para frente.

Você deve completar o código da célula abaixo, substituindo ... pelo código Python correto.

In [29]:
# A variável abaixo guarda o nome de cada coluna 
# como refererência
COLUNAS = [
    "id", 
    "education", 
    "income", 
    "income_work",
    "income_rent", 
    "income_capital", 
    "race", 
    "gender", 
    "weight",
]

# Implemente a função ler_linha, que recebe uma linha como string e
# retorna um valor do tipo que você escolher para representar 
# cada indivíduo.
def ler_linha(linha: str):
    ... # Implemente a função
    return ...


# Agora testamos com um exemplo. Funciona?
ler_linha("42,13.0,,,,,16,2,246.0")

### Lendo o banco de dados

O passo seguinte consiste em aplicar a função `ler_linha()` para criar uma lista em Python com cada entrada do CSV. Antes, você precisa carregar o CSV da PNAD no datalore (ou salvá-lo na mesma pasta do notebook, caso esteja utilizando um notebook tradicional). Baixe o arquivo em https://github.com/fga-apc/pnad/raw/main/pnad2012.csv e salve-o no lugar apropriado.

Precisamos ler cada linha deste arquivo e aplicar a função `ler_linha()` para em seguida armazernar os resultados em uma lista. Começamos com o código de ler um arquivo.

In [24]:
arquivo = open("pnad2012.csv")

A função readline() associada aos arquivos lê uma única linha e avança o cursor de leitura para a linha seguinte. Queremos pular a primeira linha, já que ela contêm apenas os nomes das colunas.

In [19]:
colunas = arquivo.readline() 
print('Colunas:', colunas)

Agora lemos o restante das linhas aplicando a função `ler_linha()` criada por você. Após executar o código abaixo, o conteúdo do arquivo ficará armazenado como uma lista na variável `pessoas`.

In [20]:
pessoas = []
for linha in arquivo:
    pessoas.append(ler_linha(linha))

# Dica: às vezes o notebook fica em um estado inconsistente e 
# produz erros aparentemente sem sentido. Se isto acontecer, tente
# executar o comando `Run > Run all above`. Isso possivelmente 
# restaurará a execução para um estado válido.  

Pronto! 

Nosso banco de dados agora está salvo na variável `pessoas`. Vamos explorá-lo um pouquinho para descobrir algumas informações sobre a população brasileira. O primeiro passo é descobrir qual o valor numérico atribuído a cada gênero. Para isso, vamos usar alguns fatos conhecidos sobre nossa população:

1) Existem mais mulheres que homens na população.
2) A renda média dos homens é maior que a das mulheres.

A estrutura básica do código consiste em iterar sobre todas as pessoas somando a variável `weight` de cada categoria. Isso dará o total de homens e mulheres na população. A partir daí, descobriremos qual código representa cada gênero.

Você precisa completar os `...` com o código correto. 

In [22]:
total_cod_1 = 0
total_cod_2 = 0
total_cod_outros = 0

for pessoa in pessoas:
    cod_genero = ...  # extraia o gênero da pessoa (coluna gender)
    peso       = ...  # extraia o peso estatístico (coluna weight)
    
    if cod_genero == 1:
        total_cod_1 += peso
    elif cod_genero == 2:
        total_cod_2 += peso
    # Colocamos o else para ter certeza que os únicos
    # códigos existentes são 1 ou 2.
    else:
        total_cod_outros += peso
        
print('Códigos de gênero:')
print(f'  1: {total_cod_1:12_}')
print(f'  2: {total_cod_2:12_}')
print(f'  outros: {total_cod_outros:12_}')

Ótimo! Agora que sabemos que código corresponde a cada gênero, vamos salvá-lo nas constantes constantes correspondentes.

In [26]:
MULHER = ...  # Complete com o código correto!
HOMEM  = ...

Vamos fazer um teste para conferir. Sabemos que o salário médio das mulheres é menor que o dos homens. Podemos verificar isso nos dados e descobrir a diferença exatamente. 

Assim como antes, complete os `...` com o código correto. 

In [27]:
salario_homens = 0
salario_mulheres = 0
n_homens = 0
n_mulheres = 0

for pessoa in pessoas:
    salario = ...  # extraia o valor na coluna income_work
    genero  = ...  # extraia o gênero da pessoa (coluna gender)
    peso    = ...  # extraia o peso estatístico (coluna weight)
    
    if genero == MULHER:
        salario_mulheres += salario * peso
        n_mulheres += peso
    
    if genero == HOMEM:
        salario_homens += salario * peso
        n_homens += peso
        

# O salário médio é o total dos salários dividido
# pelo total de pessoas.
salario_homens /= n_homens 
salario_mulheres /= n_mulheres 
razao = salario_mulheres / salario_homens

print('Salário médio:')
print(f'  homens: {salario_homens:.1f}')
print(f'  mulheres: {salario_mulheres:.1f}')
print(f'  relativo: {100 * razao:.0f}%')

Provavelmente a diferença calculada deve ser maior que a que você esperava (e que os valores normalmente repetidos na imprensa). Um dos motivos para isso é que usamos a média da massa salarial de cada gênero, sem considerar quem está empregado ou não. Como no Brasil existem menos mulheres empregadas que homens, a diferença fica ampliada nessa forma de cálculo.

Vamos agora considerar apenas o salário médio de quem está empregado (ou seja, com a variável income_work diferente de zero). Isso corresponde ao valor mais comumente relatado para a diferença salarial entre os sexos, ainda que existam outras maneiras de medir que podem fornecer valores um pouco diferentes.

Vamos simplesmente copiar o código acima e incluir uma cláusula para ignorar os elementos com salário nulo.

In [8]:
salario_homens = 0
salario_mulheres = 0
n_homens = 0
n_mulheres = 0

for pessoa in pessoas:
    salario = ...  # extraia o valor na coluna income_work
    genero  = ...  # extraia o gênero da pessoa (coluna gender)
    peso    = ...  # extraia o peso estatístico (coluna weight)
    
    if salario > 0:
        if genero == MULHER:
            salario_mulheres += salario * peso
            n_mulheres += peso
        
        if genero == HOMEM:
            salario_homens += salario * peso
            n_homens += peso
        

# O salário médio é o total dos salários dividido
# pelo total de pessoas.
salario_homens /= n_homens 
salario_mulheres /= n_mulheres 
razao = salario_mulheres / salario_homens

print('Salário médio:')
print(f'  homens: {salario_homens:.1f}')
print(f'  mulheres: {salario_mulheres:.1f}')
print(f'  relativo: {100 * razao:.0f}%')

Muito bem! Repare como ao considerar apenas pessoas empregadas, a média salarial dos dois gêneros aumentou bastante e a diferença salarial diminuiu. Além do gênero, a escolaridade também afeta fortemente a expectativa salarial. Copie e cole o código da célula anterior e adapte para incluir somente os indivíduos de uma determinada faixa de escolaridade. 

Vamos perguntar a escolaridade para usuário utilizando a função input() e em seguida realizar o cálculo das médias somente para a faixa de escolaridade escolhida. Adapte o código da célula anterior para considerar essa nova variável.

(Bônus: quem quiser se desafiar, procure sobre a função [matplotlib.pyplot.bar](https://matplotlib.org/stable/api/_as_gen/matplotlib.pyplot.bar.html) e ao invés de pedir uma escolaridade específica, mostre um gráfico de barras com os salários médios de cada faixa de escolaridade tanto para homens quanto para mulheres).

In [28]:
# Pergunta a escolaridade para o usuário
escolaridade = int(input("Escolaridade (anos): "))


# (copie e cole o código da célula anterior e altere para incluir apenas a faixa
#  de escolaridade desejada)
... 

Os resultados acima talvez pareçam contraditórios: a diferença salarial entre homens e mulheres parece maior que a diferença global em praticamente todas as faixas de escolaridade. Como pode isso?

De fato, esta contradição é apenas aparente. A escolaridade média das mulheres é **maior** que a dos homens. Se pensarmos no salário de forma "meritocrática" como uma recompensa para o esforço (aqui medido como anos de estudo), esperaríamos que a média salarial das mulheres deveria ser maior que a dos homens por causa disso. No entanto, outros fatores de desigualdade que prejudicam as mulheres acabam predominando e vemos a média salarial menor. Historicamente, o salário médio dos homens sempre foi maior que o das mulheres. A inversão da escolaridade média, no entanto é um fenômeno relativamente recente e não ocorre em todas as faixas etárias. 

Vamos verificar se isto acontece e quantos anos (ou meses) de diferença de escolaridade existe entre os dois sexos. Use o código acima como inspiração, já que a solução é muito parecida.

In [10]:
# Inicialize as variáveis acumuladoras
edu_homens   = ...
edu_mulheres = ...
n_homens   = ...
n_mulheres = ...

for pessoa in pessoas:
    # Extraia as informações da pessoa
    escolaridade = ...
    genero       = ...
    peso         = ...
    
    if genero == MULHER:
        ...  # O que fazer em cada ramo?

    if genero == HOMEM:
        ...
        

print('Escolaridade média:')
print(f'  homens: {edu_homens / n_homens:.1f}')
print(f'  mulheres: {edu_mulheres / n_mulheres:.1f}')

### Raça

Agora que vimos alguns dos efeitos do sexo e escolaridade na renda, vamos nos voltar para outra variável crucial correlacionada com o desempenho socioeconômico: a raça. Deixei para o final porque a programação envolvida é a mais difícil, mas isto não significa que as desigualdades sejam menores. Enquanto antes tinhamos apenas duas categorias, homens e mulheres, agora temos 5. Armazenar os acumuladores de cada categoria separadamente em uma variável própria não é tão prático quanto antes.

Antes de continuar, vale lembrar que "raça" é uma construção social e não possui base biológica. As categorias do IBGE tentam capturar como esse conceito se manifesta na população brasileira, mas a interpretação e a racialização (ou não-racialização) de determinados indivíduos é sempre altamente subjetiva e dependente do contexto social e cultural. Dito isso, o tutorial vai simplesmente se ater às variáveis disponibizadas pelo IBGE e tentar extrair alguns dados objetivos. 

Vamos utilizar um dicionário para salvar os resultados. A estratégia agora é salvar os acumuladores de cada grupo racial em uma entrada de um dicionário. Assim, ao iterar sobre cada indivíduo da população, podemos atualizar somente o campo correspondente à sua raça. Um código básico que conta a população de cada raça, portanto, ficaria assim:

In [1]:
# Inicializamos cada categoria com a contagem parcial
# Lembramos que as raças são representadas por potências de
# dois
n_pessoas = {0: 0, 1: 0, 2: 0, 4: 0, 8: 0, 16: 0}

for pessoa in pessoas:
    # Complete o código para ler as informações sobre a pessoa
    raca = ...
    peso = ...
    
    # Aqui incrementamos o campo associado à raça da pessoa escolhida 
    n_pessoas[raca] += peso    
        

print('Distribução das raças:')
for raca_cod, n in n_pessoas.items():
    print(f'  {raca_cod:2.0f}: {n:12_}')


Para descobrir qual raça corresponda a cada código, vamos utilizar os seguintes fatos conhecidos sobre a população.

1) Os dois grupos mais numerosos são brancos e pardos.
2) Os dois grupos menos numerosos são amarelos e indígenas.
3) A renda média dos brancos é maior que a dos pardos.
4) A renda média dos amarelos é maior que a dos indígenas. 


Vemos aqui os dois números candidatos para branco e pardo (as maiores populações) e para amarelo e indígena (as duas menores). Por exclusão, também determinamos o código para pretos. Vemos também que existem alguns poucos casos classificados como zero. Isso provavelmente corresponde a erro na entrada de dados do IBGE ou a formulários ilegíveis onde não foi possivel determinar a raça. 

Vamos agora calcular os salários médios de cada raça e decidir a questão de uma vez por todas. Modifique o código abaixo para calcular o salário médio entre os assalariados para cada raça. Para essa análise, desconsidere os elementos com o código de raça nulo. Essa categoria é estatisticamente irrelevante e acaba dificultando a análise.

In [2]:
n_pessoas = {1: 0, 2: 0, 4: 0, 8: 0, 16: 0}
salarios = {1: 0, 2: 0, 4: 0, 8: 0, 16: 0}

for pessoa in pessoas:
    # Leia informações sobre a pessoa
    raca = ...
    peso = ...
    salario = ...

    if salario > 0:
        # Atualize os acumuladores, somente para assalariados
        ...
        

print('Distribução de salários entre as raças:')
for raca, n in n_pessoas.items():
    media = salarios[raca] / n 
    print(f'  {raca:2.0f}: {media:.1f}')

# (antes de executar o código faça uma aposta: qual 
# grupo você acredita possuir a maior renda média e 
# qual possui a menor?)

Ótimo! 

O resultado foi o que você esperava?

Agora com base nos dados de tamanho da população e salário médio, podemos preencher as variáveis abaixo com o código de cada raça 

In [30]:
RACA_BRANCO   = ...
RACA_PRETO    = ...
RACA_PARDO    = ...
RACA_INDIGENA = ...
RACA_AMARELO  = ...

# O 
RACA_NOMES = {
    RACA_BRANCO: "branco",
    RACA_PRETO: "preto",
    RACA_PARDO: "pardo",
    RACA_INDIGENA: "indígena",
    RACA_AMARELO: "amarelo",
}

O próximo passo é encontrar a média de escolaridade para cada grupo. Adapte o código anterior para realizar esse cálculo e imprima as escolaridades médias. Você pode imprimir o código numérico ou utilizar o dicionário `RACA_NOMES` para mostrar a descrição associada a cada código.

In [21]:
n_pessoas = {1: 0, 2: 0, 4: 0, 8: 0, 16: 0}
escolaridades = {1: 0, 2: 0, 4: 0, 8: 0, 16: 0}

for pessoa in pessoas:
    # Leia informações sobre a pessoa
    raca = ...
    peso = ...
    escolaridade = ...

    # Atualize os acumuladores n_pessoas e escolaridades
    ...


print('Distribução de escolaridade entre as raças:')
for raca, n in n_pessoas.items():
    media = escolaridade[raca] / n
    raca = RACA_NOMES[raca]
    print(f'  {raca}: {media:.1f}')

Vemos que as categorias com maior escolaridade tendem a receber melhor, mas existem algumas exceções importantes a essa regra. De fato, a escolaridade explica uma parte da desigualdade, mas não tudo. Se a escolaridade fosse o fator dominante na diferenças salarial, esperaríamos que cada raça teria a mesma remuneração para cada faixa de escolaridade. Além disso, as mulheres deveriam receber um salário médio maior que o dos homens.

Na última parte do tutorial, vamos tentar mensurar a parte da desigualdade referente à escolaridade e a separá-la da parte devido a outros fatores. A pergunta então é: se pudéssemos remover a discrepância de escolaridade, qual seria a média salarial?

O primeiro passo é extrair os salários médios de cada categoria de escolaridade para cada raça separadamente. Podemos fazer isto utilizando um dicionário que relacione raças a listas com os acumuladores de cada faixa de escolaridade.

In [25]:
n_pessoas     = {k: [0] * 16 for k in [1, 2, 4, 8, 16]}
salarios      = {k: [0] * 16 for k in [1, 2, 4, 8, 16]}

for pessoa in pessoas:
    # Extraia informações sobre a pessoa    
    raca = ...
    peso = ...
    salario = ...

    if salario > 0:
        n_pessoas[raca][escolaridade] += peso    
        salarios[raca][escolaridade] += salario * peso

print('Distribução de salários entre as raças:')
for raca, n in total.items():
    raca = RACA_NOMES[raca]
    
    # Calculamos os salarios médios usando uma compreensão de listas
    #  - zip(as, bs), cria uma lista de pares (a, b)
    salarios_medios = [x / y for (x, y) in zip(salarios[raca], n)] 
    
    print(f'  {raca}: {salarios_medios}')

Agora que temos a informação completa, vamos criar uma lista com a escolaridade média em cada faixa etária (somente entre os assalariados), ignorando o fator raça.

In [29]:
escolaridades = [0] * 16

for pessoa in pessoas:
    peso         = ...
    escolaridade = ...
    salario      = ...

    # Selecionamos apenas os assalariados
    if salario > 0:
        escolaridades[escolaridade] += peso    

# Somamos as frações em cada escolaridade para obter a população total 
populacao = sum(escolaridades)

# Criamos pesos com as proporções da população em cada faixa de escolaridade
ws = [x / populacao for x in escolaridades]

print(ws)

Na última parte da atividade, vamos juntar as duas informações: por um lado temos a distribuição de escolaridades na população brasileira, por outro, sabemos o salário médio de cada raça por faixa de escolaridade. Podemos reconstruir o salário médio geral de cada raça supondo que a escolaridade corresponde à média da população brasileira. Basta calcular a média dos salários ponderada pela distribuição de escolaridade, como na fórmula

$$S_i = \sum_j s_j f_j,$$

onde $S_i$ representa a média salarial corrigida para a i-ésima raça, s_ij é o salário da raça $i$ e escolaridade $j$ e $f_j$ representa a fração da população total com escolaridade $j$. 

Implemente esse somatório em código e imprima o resultado da média salarial corrigida para cada raça.

In [39]:
for raca, rendas in salarios.items():
    ... # complete o código
    salario = ...
    raca = RACA_NOMES[raca]
    print(f'  {raca}: {salario}')

Perceba que os grupos com maior escolaridade viram a média salarial abaixar um pouco, mas ainda assim a desigualdade de renda persiste. A discussão sobre os motivos dessa persistência passa por sociologia, história, estudos de gênero e raça e fogem bastante do escopo desse trabalho.

Com isso, também terminamos a atividade. Espero que você tenha aprendido um pouco mais sobre a realidade do seu país e de como utilizar Python para navegar esses dados.