## Pré-processamento

Antes de verificações estatísticas das variáveis, pegaremos da base completa algumas de interesse e faremos a tradução de seus significados, para garantir análises interpretáveis.

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import pickle

sns.set_style("white")
%matplotlib inline

In [2]:
cols = []
with open('./aux_files/features.txt') as feats:
    for line in feats:
        if line.startswith('*'):
            continue
        cols.append(line.strip().split(' - ')[0])
cols[0] = 'UF'

In [3]:
data = pd.read_csv('./dados/pes2015_data.csv', usecols=cols)

In [4]:
data.shape

(356904, 27)

In [5]:
# atualizando nome colunas para as descricoes dadas no arquivo de input
code2desc = pickle.load(open("./dados/code2desc.p", "rb"))
data = data.rename(index=str, columns=code2desc)

In [6]:
# nomes uf
uf_map = {
    11: 'Rondonia',
    12: 'Acre',
    13: 'Amazonas',
    14: 'Roraima',
    15: 'Para',
    16: 'Amapa',
    17: 'Tocantins',
    21: 'Maranhao',
    22: 'Piaui',
    23: 'Ceara',
    24: 'Rio Grande do Norte',
    25: 'Paraiba',
    26: 'Pernambuco',
    27: 'Alagoas',
    28: 'Sergipe',
    29: 'Bahia',
    31: 'Minas Gerais',
    32: 'Espirito Santo',
    33: 'Rio de Janeiro',
    35: 'Sao Paulo',
    41: 'Parana',
    42: 'Santa Catarina',
    43: 'Rio Grande do Sul',
    50: 'Mato Grosso do Sul',
    51: 'Mato Grosso',
    52: 'Goias',
    53: 'Distrito Federal'
}

data['unidade_da_federacao'] = data['unidade_da_federacao'].map(uf_map)

In [7]:
# 1: masculino 0: feminino
sexo_map = {
    2: 1,
    4: 0
}

data['sexo'] = data['sexo'].map(sexo_map)

In [8]:
# condição na unidade domiciliar
cond_dom_map = {
    1: 'Pessoa de referencia',
    2: 'Conjuge',
    3: 'Filho',
    4: 'Outro parente',
    5: 'Agregado',
    6: 'Pensionista',
    7: 'Empregado domestico',
    8: 'Parente do empregado domestico',
}

data['condicao_na_unidade_domiciliar'] = data['condicao_na_unidade_domiciliar'].map(cond_dom_map)

In [9]:
# raça
raca_map = {
    2: 'Branca',
    4: 'Preta',
    6: 'Amarela',
    8: 'Parda',
    0: 'Indigena',
    9: 'Sem declaracao'
}
    
data['cor_ou_raca'] = data['cor_ou_raca'].map(raca_map) 

In [10]:
estado_civ_map = {
    1: 'Casado',
    3: 'Desquitado ou separado judicialmente',
    5: 'Divorciado',
    7: 'Viuvo',
    0: 'Solteiro'
}

data['estado_civil'] = data['estado_civil'].map(estado_civ_map) 

In [11]:
# 1: sabe ler 0: nao sabe
ler_map = {
    1: 1,
    3: 0
}

data['sabe_ler_e_escrever'] = data['sabe_ler_e_escrever'].map(ler_map) 

In [12]:
# estuda: 1 nao estuda: 0
escola_map = {
    2: 1,
    4: 0
}

data['frequenta_escola_ou_creche'] = data['frequenta_escola_ou_creche'].map(escola_map) 

In [13]:
# acessou: 1 nao acessou: 0
internet_map = {
    1: 1,
    2: 0
}

data['o_acesso_a_internet_foi_feito_atraves_de_telefone_celular'] = data['o_acesso_a_internet_foi_feito_atraves_de_telefone_celular'].map(internet_map) 
data['o_acesso_a_internet_foi_feito_atraves_de_telefone_celular'] = data['o_acesso_a_internet_foi_feito_atraves_de_telefone_celular'].fillna(0)

In [14]:
# trabalha: 1 nao trabalha: 0
trabalho_map = {
    1: 1,
    3: 0
}

data['trabalhou_na_semana_de_referencia'] = data['trabalhou_na_semana_de_referencia'].map(trabalho_map) 

In [15]:
idade_trabalho_map = {
    1: 'Ate 9 anos',
    2: '10 a 14 anos',
    3: '15 a 17 anos',
    4: '18 a 19 anos',
    5: '20 a 24 anos',
    6: '25 a 29 anos',
    7: '30 anos ou mais'
}

data['faixa_de_idade_em_que_comecou_a_trabalhar'] = data['faixa_de_idade_em_que_comecou_a_trabalhar'].map(idade_trabalho_map) 

In [16]:
# afazeres domesticos: 1 nao: 0
domest_map = {
    1: 1,
    3: 0
}

data['cuidava_dos_afazeres_domesticos_na_semana_de_referencia'] = data['cuidava_dos_afazeres_domesticos_na_semana_de_referencia'].map(domest_map) 

In [17]:
# inss: 1 nao inss: 0
data['inss'] = ((data['era_aposentado_de_instituto_de_previdencia_federal_(inss)_estadual_ou_municipal_ou_do_governo_federal_na_semana_de_referencia'] == 2)
    |(data['era_pensionista_de_instituto_de_previdencia_federal_(inss)_estadual_ou_municipal_ou_do_governo_federal_na_semana_de_referencia'] == 1)).astype(int)
del data['era_aposentado_de_instituto_de_previdencia_federal_(inss)_estadual_ou_municipal_ou_do_governo_federal_na_semana_de_referencia']
del data['era_pensionista_de_instituto_de_previdencia_federal_(inss)_estadual_ou_municipal_ou_do_governo_federal_na_semana_de_referencia']

In [18]:
# ativo economicamente: 1 nao: 0
ativ_map = {
    1: 1,
    2: 0
}

data['condicao_de_atividade_no_trabalho_principal_do_periodo_de_referencia_de_365_dias'] = data['condicao_de_atividade_no_trabalho_principal_do_periodo_de_referencia_de_365_dias'].map(ativ_map)

In [19]:
# ocupado: 1 nao: 0
ocup_map = {
    1: 1,
    2: 0
}

data['condicao_de_ocupacao_no_periodo_de_referencia_de_365_dias'] = data['condicao_de_ocupacao_no_periodo_de_referencia_de_365_dias'].map(ocup_map)

In [20]:
horas_map = {
    1: 'Ate 14 horas',
    2: '15 a 39 horas',
    3: '40 a 44 horas',
    4: '45 a 48 horas',
    5: '49 horas ou mais'
}

data['horas_habitualmente_trabalhadas_por_semana_em_todos_os_trabalhos'] = data['horas_habitualmente_trabalhadas_por_semana_em_todos_os_trabalhos'].map(horas_map)

In [21]:
pos_map = {
    1: 'Empregado com carteirade trabalho assinada',
    2: 'Militar',
    3: 'Funcionario público estatutario',
    4: 'Outro empregado sem carteira de trabalho assinada',
    6: 'Trabalhador domestico com carteira de trabalho assinada',
    7: 'Trabalhador domestico sem carteira de trabalho assinada',
    9: 'Conta propria',
    10: 'Empregador',
    11: 'Nao remunerado',
    12: 'Trabalhador na producao para o proprio consumo',
    13: 'Trabalhador na construcao para o proprio uso'
}

data['posicao_na_ocupacao_no_trabalho_principal_do_periodo_de_referencia_de_365_dias'] = data['posicao_na_ocupacao_no_trabalho_principal_do_periodo_de_referencia_de_365_dias'].map(pos_map)

In [22]:
group_ativ_map = {
    1: 'Agricola',
    2: 'Outras atividades industriais',
    3: 'Industria de transformacao',
    4: 'Construcao',
    5: 'Comercio e reparacao',
    6: 'Alojamento e alimentacao',
    7: 'Transporte, armazenagem e comunicacao',
    8: 'Administração publica',
    9: 'Educacao, saude e servicos sociais',
    10: 'Servicos domesticos',
    11: 'Outros servicos coletivos, sociais e pessoais',
    12: 'Outras atividades',
    13: 'Atividades maldefinidas'
}

data['grupamentos_de_atividade_no_trabalho_principal_do_periodo_de_referencia_de_365_dias'] = data['grupamentos_de_atividade_no_trabalho_principal_do_periodo_de_referencia_de_365_dias'].map(group_ativ_map)

In [23]:
group_ocup_map = {
    1: 'Dirigentes em geral',
    2: 'Profissionais das ciencias e das artes',
    3: 'Tecnicos de nivel medio',
    4: 'Trabalhadores de servicos administrativos',
    5: 'Trabalhadores dos servicos',
    6: 'Vendedores e prestadores de servico do comercio',
    7: 'Trabalhadores agricolas',
    8: 'Trabalhadores da producao de bens e servicos e de reparacao e manutencao',
    9: 'Membros das forcas armadas e auxiliares',
    10: 'Ocupacoes maldefinidas' 
}

data['grupamentos_ocupacionais_do_trabalho_principal_do_periodo_de_referencia_de_365_dias'] = data['grupamentos_ocupacionais_do_trabalho_principal_do_periodo_de_referencia_de_365_dias'].map(group_ocup_map)

In [24]:
familia_map = {
    1: 'Casal sem filhos',
    2: 'Casal com todos os filhos menores de 14 anos',
    3: 'Casal com todos os filhos de 14 anos ou mais',
    4: 'Casal com filhos menores de 14 anos e de 14 anos ou mais',
    6: 'Mae com todos os filhos menores de 14 anos',
    7: 'Mae com todos os filhos de 14 anos ou mais',
    8: 'Mae com filhos menores de 14 anos e de 14 anos ou mais',
    10: 'Outros tipos de família'
}

data['tipo_de_familia'] = data['tipo_de_familia'].map(familia_map)

In [25]:
sit_cens_map = {
    1: 'Urbana',
    2: 'Urbana',
    3: 'Urbana',
    4: 'Rural',
    5: 'Rural',
    6: 'Rural', 
    7: 'Rural',
    8: 'Rural' 
}

data['codigo_de_situacao_censitaria'] = data['codigo_de_situacao_censitaria'].map(sit_cens_map)

In [26]:
group_anos_estudo_map = {
    1: 'Sem instrucao e menos de 1 ano',
    2: '1 a 3 anos',
    3: '4 a 7 anos',
    4: '8 a 10 anos',
    5: '11 a 14 anos',
    6: '15 anos ou mais',
    7: 'Nao determinados'
}

data['grupos_de_anos_de_estudo'] = data['grupos_de_anos_de_estudo'].map(group_anos_estudo_map)

In [27]:
rend_map = {
    0: 'Sem rendimento',
    1: 'Ate 1/4 salario minimo',
    2: 'Mais de 1/4 ate 1/2 salario minimo',
    3: 'Mais de 1/2 ate 1 salario minimo',
    4: 'Mais de 1 ate 2 salarios minimos',
    5: 'Mais de 2 ate 3 salarios minimos',
    6: 'Mais de 3 ate 5 salarios minimos',
    7: 'Mais de 5 salarios minimos',
    99: 'Sem declaracao'
}

data['faixa_de_rendimento_mensal_domiciliar_per_capita_'] = data['faixa_de_rendimento_mensal_domiciliar_per_capita_'].map(rend_map)

In [28]:
instrucao_map = {
    1: 'Sem instrucao',
    2: 'Fundamental incompleto ou equivalente',
    3: 'Fundamental completo ou equivalente',
    4: 'Medio incompleto ou equivalente',
    5: 'Medio completo ou equivalente',
    6: 'Superior incompleto ou equivalente',
    7: 'Superior completo',
    8: 'Nao determinado'
}

data['nivel_de_instrucao_mais_elevado_alcancado'] = data['nivel_de_instrucao_mais_elevado_alcancado'].map(instrucao_map)

In [29]:
# agricola: 1 nao: 0
agric_map = {
    1: 1,
    2: 0
}

data['atividade_principal_do_empreendimento_do_trabalho_principal_do_periodo_de_referencia_de_365_dias'] = data['atividade_principal_do_empreendimento_do_trabalho_principal_do_periodo_de_referencia_de_365_dias'].map(agric_map)

In [30]:
data.iloc[:5]

Unnamed: 0,unidade_da_federacao,sexo,idade_do_morador_na_data_de_referencia,condicao_na_unidade_domiciliar,cor_ou_raca,estado_civil,sabe_ler_e_escrever,frequenta_escola_ou_creche,o_acesso_a_internet_foi_feito_atraves_de_telefone_celular,trabalhou_na_semana_de_referencia,...,grupamentos_de_atividade_no_trabalho_principal_do_periodo_de_referencia_de_365_dias,grupamentos_ocupacionais_do_trabalho_principal_do_periodo_de_referencia_de_365_dias,tipo_de_familia,codigo_de_situacao_censitaria,grupos_de_anos_de_estudo,numero_de_componentes_do_domicilio_,faixa_de_rendimento_mensal_domiciliar_per_capita_,nivel_de_instrucao_mais_elevado_alcancado,atividade_principal_do_empreendimento_do_trabalho_principal_do_periodo_de_referencia_de_365_dias,inss
0,Rondonia,1,23,Pessoa de referencia,Parda,Solteiro,1,0,1.0,1.0,...,"Outros servicos coletivos, sociais e pessoais",Trabalhadores dos servicos,Outros tipos de família,Urbana,11 a 14 anos,1.0,Mais de 1 ate 2 salarios minimos,Medio completo ou equivalente,0.0,0
1,Rondonia,0,23,Pessoa de referencia,Branca,Divorciado,1,0,1.0,1.0,...,Outras atividades,Trabalhadores de servicos administrativos,Outros tipos de família,Urbana,11 a 14 anos,1.0,Mais de 1 ate 2 salarios minimos,Medio completo ou equivalente,0.0,0
2,Rondonia,0,35,Pessoa de referencia,Parda,,1,1,1.0,1.0,...,Administração publica,Profissionais das ciencias e das artes,Casal com todos os filhos menores de 14 anos,Urbana,11 a 14 anos,6.0,Mais de 1 ate 2 salarios minimos,Superior incompleto ou equivalente,0.0,0
3,Rondonia,1,34,Conjuge,Parda,,1,0,1.0,1.0,...,Comercio e reparacao,Dirigentes em geral,Casal com todos os filhos menores de 14 anos,Urbana,11 a 14 anos,6.0,Mais de 1 ate 2 salarios minimos,Superior completo,0.0,0
4,Rondonia,0,11,Filho,Parda,Solteiro,1,1,0.0,0.0,...,,,Casal com todos os filhos menores de 14 anos,Urbana,1 a 3 anos,6.0,Mais de 1 ate 2 salarios minimos,Fundamental incompleto ou equivalente,,0


<hr>

In [31]:
feature_names = {
    'unidade_da_federacao': 'uf',
    'sexo': 'sexo',
    'idade_do_morador_na_data_de_referencia': 'idade',
    'condicao_na_unidade_domiciliar': 'condicao_domiciliar',
    'cor_ou_raca': 'raca',
    'estado_civil': 'estado_civil',
    'sabe_ler_e_escrever': 'alfabetizado',
    'frequenta_escola_ou_creche': 'estuda',
    'o_acesso_a_internet_foi_feito_atraves_de_telefone_celular': 'internet_via_celular',
    'trabalhou_na_semana_de_referencia': 'trabalha',
    'faixa_de_idade_em_que_comecou_a_trabalhar': 'idade_inicio_trabalho',
    'cuidava_dos_afazeres_domesticos_na_semana_de_referencia': 'responsavel_afazeres_domesticos',
    'horas_habitualmente_trabalhadas_por_semana_em_todos_os_trabalhos': 'horas_semanais_trabalho',
    'condicao_de_atividade_no_trabalho_principal_do_periodo_de_referencia_de_365_dias': 'ativo_economicamente',
    'condicao_de_ocupacao_no_periodo_de_referencia_de_365_dias': 'ocupado',
    'posicao_na_ocupacao_no_trabalho_principal_do_periodo_de_referencia_de_365_dias': 'posicao_trabalho',
    'grupamentos_de_atividade_no_trabalho_principal_do_periodo_de_referencia_de_365_dias': 'atividade',
    'grupamentos_ocupacionais_do_trabalho_principal_do_periodo_de_referencia_de_365_dias': 'ocupacao',
    'tipo_de_familia': 'tipo_familia',
    'codigo_de_situacao_censitaria': 'situacao_censitaria',
    'grupos_de_anos_de_estudo': 'anos_de_estudo',
    'numero_de_componentes_do_domicilio_': 'componentes_domicilio',
    'faixa_de_rendimento_mensal_domiciliar_per_capita_': 'rendimento_mensal',
    'nivel_de_instrucao_mais_elevado_alcancado': 'nivel_de_instrucao',
    'atividade_principal_do_empreendimento_do_trabalho_principal_do_periodo_de_referencia_de_365_dias': 'atividade_agricola',
    'inss': 'inss'
}

In [32]:
# renomeando novamente - agora com nomes definidos por mim
data = data.rename(index=str, columns=feature_names)

In [33]:
data.head()

Unnamed: 0,uf,sexo,idade,condicao_domiciliar,raca,estado_civil,alfabetizado,estuda,internet_via_celular,trabalha,...,atividade,ocupacao,tipo_familia,situacao_censitaria,anos_de_estudo,componentes_domicilio,rendimento_mensal,nivel_de_instrucao,atividade_agricola,inss
0,Rondonia,1,23,Pessoa de referencia,Parda,Solteiro,1,0,1.0,1.0,...,"Outros servicos coletivos, sociais e pessoais",Trabalhadores dos servicos,Outros tipos de família,Urbana,11 a 14 anos,1.0,Mais de 1 ate 2 salarios minimos,Medio completo ou equivalente,0.0,0
1,Rondonia,0,23,Pessoa de referencia,Branca,Divorciado,1,0,1.0,1.0,...,Outras atividades,Trabalhadores de servicos administrativos,Outros tipos de família,Urbana,11 a 14 anos,1.0,Mais de 1 ate 2 salarios minimos,Medio completo ou equivalente,0.0,0
2,Rondonia,0,35,Pessoa de referencia,Parda,,1,1,1.0,1.0,...,Administração publica,Profissionais das ciencias e das artes,Casal com todos os filhos menores de 14 anos,Urbana,11 a 14 anos,6.0,Mais de 1 ate 2 salarios minimos,Superior incompleto ou equivalente,0.0,0
3,Rondonia,1,34,Conjuge,Parda,,1,0,1.0,1.0,...,Comercio e reparacao,Dirigentes em geral,Casal com todos os filhos menores de 14 anos,Urbana,11 a 14 anos,6.0,Mais de 1 ate 2 salarios minimos,Superior completo,0.0,0
4,Rondonia,0,11,Filho,Parda,Solteiro,1,1,0.0,0.0,...,,,Casal com todos os filhos menores de 14 anos,Urbana,1 a 3 anos,6.0,Mais de 1 ate 2 salarios minimos,Fundamental incompleto ou equivalente,,0


In [34]:
data.to_csv('./dados/base_full.csv', index=False, encoding='utf-8')