In [1]:
import warnings
import sys
sys.path.insert(0, '../src')

In [2]:
import re

import numpy as np
import pandas as pd
# import matplotlib.pyplot as plt

In [3]:
from felix_ml_tools import macgyver as mg
from utils import *

In [4]:
warnings.filterwarnings('ignore')

pd.set_option("max_columns", None)
pd.set_option("max_rows", None)
pd.set_option('display.float_format', lambda x: '%.3f' % x)
%matplotlib inline 

# Ingesting some datasets

**CBOs**

In [5]:
# https://www.hardware.com.br/comunidade/attachments/cbo-xlsx.37816/
cbos = pd.read_csv('../data/cbo.csv')

inspect(cbos);

shape: (2428, 2)
columns: ['codigoCbo', 'ocupacaoCbo']


Unnamed: 0,codigoCbo,ocupacaoCbo
0,848505,ABATEDOR
1,764305,ACABADOR DE CALCADOS
2,766305,ACABADOR DE EMBALAGENS (FLEXIVEIS E CARTOTECNI...
3,716105,ACABADOR DE SUPERFICIES DE CONCRETO
4,848510,ACOUGUEIRO


**CID-10**

In [6]:
# TODO

**Municípios do IBGE**

In [7]:
ibge_municipio = pd.read_parquet('../data/ibge_municipio_pib.parquet')

ibge_municipio['ufCodigo'] = ibge_municipio['ufCodigo'].astype(str)
ibge_municipio['municipioCodigo'] = ibge_municipio['municipioCodigo'].astype(str)
ibge_municipio['municipioCodigo6d'] = ibge_municipio['municipioCodigo'].str.slice(0, 6)

ibge_municipio['nomeMunicipioNorm'] = ibge_municipio['nomeMunicipio'].apply(replace_accents)
ibge_municipio['nomeMunicipioNorm'] = ibge_municipio['nomeMunicipioNorm'].apply(lambda x: re.sub(r"[^a-zA-Z\d\_]+", " ", x))
ibge_municipio['nomeMunicipioNorm'] = ibge_municipio['nomeMunicipioNorm'].str.upper()

ibge_municipio = ibge_municipio[['uf', 'ufCodigo', 'nomeUf', 'nomeMunicipio', 'nomeMunicipioNorm', 'municipioCodigo', 'municipioCodigo6d']]
ibge_municipio = ibge_municipio.drop_duplicates()

inspect(ibge_municipio);

shape: (5570, 7)
columns: ['uf', 'ufCodigo', 'nomeUf', 'nomeMunicipio', 'nomeMunicipioNorm', 'municipioCodigo', 'municipioCodigo6d']


Unnamed: 0,uf,ufCodigo,nomeUf,nomeMunicipio,nomeMunicipioNorm,municipioCodigo,municipioCodigo6d
0,RO,11,Rondônia,Alta Floresta D'Oeste,ALTA FLORESTA D OESTE,1100015,110001
1,RO,11,Rondônia,Ariquemes,ARIQUEMES,1100023,110002
2,RO,11,Rondônia,Cabixi,CABIXI,1100031,110003
3,RO,11,Rondônia,Cacoal,CACOAL,1100049,110004
4,RO,11,Rondônia,Cerejeiras,CEREJEIRAS,1100056,110005


**Município - Total de pessoas com empregado formal (RAIS/CAGED)**

In [8]:
rais_caged_cnpj = inspect(
    pd.read_parquet('../data/rais_caged_cnpj.parquet')
    .rename(columns={'enderecoUf': 'uf', 'enderecoMunicipio': 'nomeMunicipioNorm'})
    .merge(ibge_municipio, on=['uf', 'nomeMunicipioNorm'])
)

rais_caged_municipio_funcionarios = (
    rais_caged_cnpj
    .groupby(['uf', 'ufCodigo', 'nomeMunicipio', 'municipioCodigo', 'municipioCodigo6d', 'ano'])
    .agg(
        totalFuncionarios=('funcionarios', 'sum'),
    )
    .reset_index()
    #.rename(columns={'uf': 'uf'})
)

inspect(rais_caged_municipio_funcionarios);

shape: (22832693, 10)
columns: ['cnpj', 'ano', 'funcionarios', 'uf', 'nomeMunicipioNorm', 'ufCodigo', 'nomeUf', 'nomeMunicipio', 'municipioCodigo', 'municipioCodigo6d']


Unnamed: 0,cnpj,ano,funcionarios,uf,nomeMunicipioNorm,ufCodigo,nomeUf,nomeMunicipio,municipioCodigo,municipioCodigo6d
0,66370,2010,6,SP,SAO PAULO,35,São Paulo,São Paulo,3550308,355030
1,66370,2011,7,SP,SAO PAULO,35,São Paulo,São Paulo,3550308,355030
2,66370,2012,8,SP,SAO PAULO,35,São Paulo,São Paulo,3550308,355030
3,66370,2013,9,SP,SAO PAULO,35,São Paulo,São Paulo,3550308,355030
4,66370,2014,11,SP,SAO PAULO,35,São Paulo,São Paulo,3550308,355030


shape: (60515, 7)
columns: ['uf', 'ufCodigo', 'nomeMunicipio', 'municipioCodigo', 'municipioCodigo6d', 'ano', 'totalFuncionarios']


Unnamed: 0,uf,ufCodigo,nomeMunicipio,municipioCodigo,municipioCodigo6d,ano,totalFuncionarios
0,AC,12,Acrelândia,1200013,120001,2010,232
1,AC,12,Acrelândia,1200013,120001,2011,264
2,AC,12,Acrelândia,1200013,120001,2012,283
3,AC,12,Acrelândia,1200013,120001,2013,310
4,AC,12,Acrelândia,1200013,120001,2014,364


**Município - PIB (IBGE)**

In [9]:
ibge_municipio_pib = pd.read_parquet('../data/ibge_municipio_pib.parquet')
ibge_municipio_pib['ufCodigo'] = ibge_municipio_pib['ufCodigo'].astype(str)
ibge_municipio_pib['municipioCodigo'] = ibge_municipio_pib['municipioCodigo'].astype(str)
ibge_municipio_pib['municipioCodigo6d'] = ibge_municipio_pib['municipioCodigo'].str.slice(0, 6)

inspect(ibge_municipio_pib);

shape: (5570, 18)
columns: ['uf', 'ufCodigo', 'nomeUf', 'nomeMunicipio', 'municipioCodigo', 'valorBrutoAgropecuraria1000', 'valorBrutoIndustria1000', 'valorBrutoServicos1000', 'valorBrutoUtilidade1000', 'valorBruto1000', 'impostosProdutos1000', 'pib1000', 'pibPerCapita', 'atividadeMaisRelevanteValorBruto1', 'atividadeMaisRelevanteValorBruto2', 'atividadeMaisRelevanteValorBruto3', 'ano', 'municipioCodigo6d']


Unnamed: 0,uf,ufCodigo,nomeUf,nomeMunicipio,municipioCodigo,valorBrutoAgropecuraria1000,valorBrutoIndustria1000,valorBrutoServicos1000,valorBrutoUtilidade1000,valorBruto1000,impostosProdutos1000,pib1000,pibPerCapita,atividadeMaisRelevanteValorBruto1,atividadeMaisRelevanteValorBruto2,atividadeMaisRelevanteValorBruto3,ano,municipioCodigo6d
0,RO,11,Rondônia,Alta Floresta D'Oeste,1100015,169623,27805,117717,154926,470072,28793,498864,19612,"Administração, defesa, educação e saúde públic...","Pecuária, inclusive apoio à pecuária",Demais serviços\r,2017,110001
1,RO,11,Rondônia,Ariquemes,1100023,165217,330319,933935,634591,2064062,232012,2296074,21390,Demais serviços,"Administração, defesa, educação e saúde públic...",Comércio e reparação de veículos automotores e...,2017,110002
2,RO,11,Rondônia,Cabixi,1100031,63022,4797,22431,43150,133399,5494,138894,22316,"Administração, defesa, educação e saúde públic...","Pecuária, inclusive apoio à pecuária","Agricultura, inclusive apoio à agricultura e a...",2017,110003
3,RO,11,Rondônia,Cacoal,1100049,255060,224595,908665,521368,1909689,217835,2127523,24038,Demais serviços,"Administração, defesa, educação e saúde públic...",Comércio e reparação de veículos automotores e...,2017,110004
4,RO,11,Rondônia,Cerejeiras,1100056,61940,22170,192882,107819,384811,63713,448524,25010,"Administração, defesa, educação e saúde públic...",Demais serviços,Comércio e reparação de veículos automotores e...,2017,110005


**Município - População Estimada (IBGE)**

In [10]:
ibge_municipio_populacao_estimada = pd.read_parquet('../data/ibge_municipio_populacao_estimada.parquet')

ibge_municipio_populacao_estimada['ufCodigo'] = ibge_municipio_populacao_estimada['ufCodigo'].astype(str)
ibge_municipio_populacao_estimada['municipioCodigo'] = ibge_municipio_populacao_estimada['municipioCodigo'].astype(str)
ibge_municipio_populacao_estimada['municipioCodigo'] = ibge_municipio_populacao_estimada['municipioCodigo'].str.pad(5, fillchar='0')
ibge_municipio_populacao_estimada['municipioCodigo'] = (
    ibge_municipio_populacao_estimada['ufCodigo'].astype(str) + ibge_municipio_populacao_estimada['municipioCodigo']
)

ibge_municipio_populacao_estimada['municipioCodigo6d'] = ibge_municipio_populacao_estimada['municipioCodigo'].str.slice(0, 6)

# categorizacao da populacao estimada em faixas
max_pop = int(ibge_municipio_populacao_estimada['populacaoEstimada'].max())
pop_bins = [i * 10000 for i in [0, 1, 2, 3, 5, 8, 13, 21, 34, 55, 89, 144]] + [max_pop]
pop_labels = [
    ('{}:{}'.format(
        str(int(pop_bins[(i)])),
        str(int(pop_bins[(i+1)])) if (i + 1) < len(pop_bins) else str(max_pop)
    ))
    for i, n in enumerate(pop_bins[:-1])
]

ibge_municipio_populacao_estimada['faixaPopulacaoEstimada'] = pd.cut(
    ibge_municipio_populacao_estimada['populacaoEstimada'],
    bins=pop_bins,
    labels=pop_labels
)

inspect(ibge_municipio_populacao_estimada);

shape: (5570, 8)
columns: ['uf', 'ufCodigo', 'nomeMunicipio', 'municipioCodigo', 'populacaoEstimada', 'ano', 'municipioCodigo6d', 'faixaPopulacaoEstimada']


Unnamed: 0,uf,ufCodigo,nomeMunicipio,municipioCodigo,populacaoEstimada,ano,municipioCodigo6d,faixaPopulacaoEstimada
0,RO,11,Alta Floresta D'Oeste,1100015,22945.0,2020,110001,20000:30000
1,RO,11,Ariquemes,1100023,107863.0,2020,110002,80000:130000
2,RO,11,Cabixi,1100031,5312.0,2020,110003,0:10000
3,RO,11,Cacoal,1100049,85359.0,2020,110004,80000:130000
4,RO,11,Cerejeiras,1100056,16323.0,2020,110005,10000:20000


**Município - Censo Básico (IBGE)**

In [11]:
ibge_setor_censo_basico = pd.read_parquet('../data/ibge_setor_censo_basico.parquet')
ibge_setor_censo_basico['codigoMunicipio'] = ibge_setor_censo_basico['codigoMunicipio'].astype(str)
# ibge_setor_censo_basico['codigoMunicipio6d'] = ibge_setor_censo_basico['codigoMunicipio'].str.slice(0, 6)
ibge_setor_censo_basico = (
    ibge_setor_censo_basico
    .assign(ano=lambda x: 2010)
    .drop(columns=['nomeUf', 'nomeMunicipio'])
    .rename(columns={'codigoUf': 'ufCodigo', 'siglaUf': 'uf', 'codigoMunicipio': 'municipioCodigo'})
    .merge(ibge_municipio, on=['uf', 'ufCodigo', 'municipioCodigo'], how='left')
)

ibge_municipio_censo_basico = (
    ibge_setor_censo_basico
    .groupby(['uf', 'ufCodigo', 'nomeMunicipio', 'municipioCodigo', 'municipioCodigo6d', 'ano'])
    .agg(
        nomeGrandeRegiao=('nomeGrandeRegiao', 'first'),
        nomeMesoRegiao=('nomeMesoRegiao', 'first'),
        nomeMicroRegiao=('nomeMicroRegiao', 'first'),
        qtSetorCentiario=('codigoSetor', 'count'),
        qtDistritos=('codigoDistrito', 'count'),
        qtBairros=('codigoBairro', 'count'),
        qtDomicilios=('domicilios', 'sum'),
        # qtMoradores=('moradores', 'sum'), # deprecated: usar ibge_municipio_populacao_estimada

        mediaMoradoresDomicilios=('mediaMoradoresDomicilios', 'mean'),
        minMoradoresDomicilios=('mediaMoradoresDomicilios', 'min'),
        maxMoradoresDomicilios=('mediaMoradoresDomicilios', 'max'),

        mediaRendaMensalMoradores=('rendaMediaMensalMoradores', 'mean'),
        minRendaMensalMoradores=('rendaMediaMensalMoradores', 'min'),
        maxRendaMensalMoradores=('rendaMediaMensalMoradores', 'max'),

        qtSetorUrbano=('urbano', lambda x: x.astype(int).sum()),
        qtSetorRural=('rural', lambda x: x.astype(int).sum()),
        # qtSetorMetropolitano=('metropolitano', lambda x: x.astype(int).sum()) # TODO: variavel metropolitano foi exportada errada
    )
    .reset_index()
    .assign(partSetorUrbano=lambda x: x['qtSetorUrbano']/x['qtSetorCentiario'])
    .assign(partSetorRural=lambda x: x['qtSetorRural']/x['qtSetorCentiario'])
    #.assign(partSetorMetropolitano=lambda x: x['qtSetorRural']/x['qtSetorCentiario']) # TODO: fix metropolitano
    .assign(nivelUrbanizacao=lambda x: pd.cut(
        x=x['partSetorUrbano'],
        bins=[0, 0.2, 0.4, 0.6, 0.8, 1],
        labels=['muito baixo', 'baixo', 'moderado', 'alto', 'muito alto']
    ))
)

# inspect(ibge_setor_censo_basico);
inspect(ibge_municipio_censo_basico);

shape: (5565, 24)
columns: ['uf', 'ufCodigo', 'nomeMunicipio', 'municipioCodigo', 'municipioCodigo6d', 'ano', 'nomeGrandeRegiao', 'nomeMesoRegiao', 'nomeMicroRegiao', 'qtSetorCentiario', 'qtDistritos', 'qtBairros', 'qtDomicilios', 'mediaMoradoresDomicilios', 'minMoradoresDomicilios', 'maxMoradoresDomicilios', 'mediaRendaMensalMoradores', 'minRendaMensalMoradores', 'maxRendaMensalMoradores', 'qtSetorUrbano', 'qtSetorRural', 'partSetorUrbano', 'partSetorRural', 'nivelUrbanizacao']


Unnamed: 0,uf,ufCodigo,nomeMunicipio,municipioCodigo,municipioCodigo6d,ano,nomeGrandeRegiao,nomeMesoRegiao,nomeMicroRegiao,qtSetorCentiario,qtDistritos,qtBairros,qtDomicilios,mediaMoradoresDomicilios,minMoradoresDomicilios,maxMoradoresDomicilios,mediaRendaMensalMoradores,minRendaMensalMoradores,maxRendaMensalMoradores,qtSetorUrbano,qtSetorRural,partSetorUrbano,partSetorRural,nivelUrbanizacao
0,AC,12,Acrelândia,1200013,120001,2010,Regio Norte,Vale do Acre,Rio Branco,16,16,16,3459.0,3.614,3.18,4.08,749.394,342.57,1761.27,5,11,0.312,0.688,baixo
1,AC,12,Assis Brasil,1200054,120005,2010,Regio Norte,Vale do Acre,Brasilia,10,10,10,1539.0,4.658,3.59,7.0,446.273,92.39,1126.38,3,7,0.3,0.7,baixo
2,AC,12,Brasiléia,1200104,120010,2010,Regio Norte,Vale do Acre,Brasilia,31,31,31,5930.0,3.926,2.97,6.5,626.717,210.74,1602.43,16,15,0.516,0.484,moderado
3,AC,12,Bujari,1200138,120013,2010,Regio Norte,Vale do Acre,Rio Branco,14,14,14,2330.0,3.6,3.0,4.26,813.732,496.64,1857.06,4,10,0.286,0.714,baixo
4,AC,12,Capixaba,1200179,120017,2010,Regio Norte,Vale do Acre,Rio Branco,18,18,18,2353.0,3.524,2.33,3.96,665.828,278.89,1230.18,5,13,0.278,0.722,baixo


**Pessoa Física - homicídios (SIM)**

In [12]:
sim_pf_homcidios = pd.read_csv(
    '../data/1. SIM (Homicidios)/DadosHomicidios_2013-18_SIM.csv',
    dtype={'dtnasc': str},
    low_memory=False
)

sim_pf_homcidios.columns = sim_pf_homcidios.columns.str.lower()

# Código relativo ao município onde ocorreu o óbito
sim_pf_homcidios['codmunocor'] = sim_pf_homcidios['codmunocor'].astype(str)

# combinando dados
sim_pf_homcidios = (
    sim_pf_homcidios
    .merge(ibge_municipio.rename(columns={'municipioCodigo6d': 'codmunocor'}), on='codmunocor')
    .merge(cbos.rename(columns={'codigoCbo': 'ocup'}), on='ocup', how='left')
)

# DE-PARA, conforme dicionario de dados do SIM
sim_pf_homcidios = sim_pf_homcidios.replace({
    # Tipo de morte violenta ou circunstâncias em que se deu a morte não  natural
    "circobito": {1: "acidente", 2: "suicídio", 3: "homicídio", 4: "outros", 9: "ignorado"},

    # Sexo do falecido
    "sexo": {0: "ignorado", 1: "masculino", 2: "feminino"},

    # Cor informada pelo responsável pelas informações do falecido.
    "racacor": {1: "Branca", 2: "Preta", 3: "Amarela", 4: "Parda", 5: "Indígena"},

    # Local de ocorrência do óbito.
    "lococor": {
        1: "hospital", 2: "outros estabelecimentos de saúde", 3: "domicílio",
        4: "via pública", 5: "outros", 6: "aldeia indígena", 9: "ignorado"
    },

    # Se refere ao atendimento médico continuado que o paciente recebeu,  ou não , durante a enfermidade que ocasionou o óbito.
    "assistmed": {1: "sim", 2: "não", 9: "ignorado"},
})

# Data em que occoreu o óbito
sim_pf_homcidios['dtobito'] = pd.to_datetime((sim_pf_homcidios['dtobito'].astype(int).astype(str)).str.pad(8, fillchar='0'), format='%d%m%Y')

# Extraindo outras variaveis a partir da data do óbito
sim_pf_homcidios = mg.extract_time_deltas(sim_pf_homcidios, 'dtobito')

# Horário do óbito.
sim_pf_homcidios['horaobito'] = sim_pf_homcidios['horaobito'].fillna(-9999)
sim_pf_homcidios['horaobito'] = (sim_pf_homcidios['horaobito'].astype(int).astype(str)).str.pad(4, fillchar='0')
sim_pf_homcidios['horaobito'] = (sim_pf_homcidios['horaobito'].str.slice(0, 2).astype(int) * 60 + sim_pf_homcidios['horaobito'].str.slice(2, 4).astype(int))/float(60)
sim_pf_homcidios['horaobito'] = np.where(sim_pf_homcidios['horaobito'] < 0, np.nan, sim_pf_homcidios['horaobito'])

# Tipo de trabalho que o falecido desenvolveu na maior parte de sua vida produtiva (CBO 2002).
sim_pf_homcidios['ocup'] = sim_pf_homcidios['ocup'].fillna(-1)
sim_pf_homcidios['ocup'] = sim_pf_homcidios['ocup'].astype(int)

# extraindo outras caracteristicas a partir da ocupacao
sim_pf_homcidios['ocupacaoCbo'] = sim_pf_homcidios['ocupacaoCbo'].fillna('IGNORADO')
sim_pf_homcidios['semOcupacao'] = sim_pf_homcidios['ocup'].isin([-1, 999991, 999994, 998999])

# O primeiro, de 1 dígito, indica a unidade da idade (se 1 = minuto, se 2 = hora, se 3 = mês, se 4 = ano,  se = 5 idade maior que 100 anos)
# Anos - subcampo varia de 00 a 99; - 9 - ignorado)
sim_pf_homcidios = sim_pf_homcidios[(sim_pf_homcidios['idade'] >= 400) & (sim_pf_homcidios['idade'] < 500)]
sim_pf_homcidios['idade'] = (sim_pf_homcidios['idade'].astype(str).str.slice(1, 3)).astype(int)

# Se refere ao atendimento médico continuado que o paciente recebeu, ou não, durante a enfermidade que ocasionou o óbito.
sim_pf_homcidios['assistmed'] = sim_pf_homcidios['assistmed'].fillna('não')

# População alvo de estudo
# considerando apenas homicídios
# Considerando apenas homicídios de Jovens (15 a 29 anos)
sim_pf_homcidios = sim_pf_homcidios[sim_pf_homcidios['circobito'] == 'homicídio']
sim_pf_homcidios = sim_pf_homcidios[(sim_pf_homcidios['idade'] >= 15) & (sim_pf_homcidios['idade'] < 30)]

# removendo variaveis com preenchimento muito baixo (<20%)
sim_pf_homcidios_fill_rate = mg.fill_rate(sim_pf_homcidios)
sim_pf_homcidios_low_fill_rate_cols = sim_pf_homcidios_fill_rate[sim_pf_homcidios_fill_rate['Fill (%)'] < 20]['Variable'].tolist()
sim_pf_homcidios_cols = [i for i in sim_pf_homcidios.columns.tolist() if i not in sim_pf_homcidios_low_fill_rate_cols]
sim_pf_homcidios = sim_pf_homcidios[sim_pf_homcidios_cols]

# removendo variaveis irrelevantes: 
sim_pf_homcidios_bad_cols = [
    'numerolote', 'linhac', 'tipobito', 'comunsvoim', 'dtrecebim', 'difdata',
    'stcodifica', 'versaosist', 'versaoscb', 'stdoepidem', 'stdonova', 'numerolote', 'dtrecoriga'
]

sim_pf_homcidios = sim_pf_homcidios.drop(columns=sim_pf_homcidios_bad_cols)

# TODO Campos relevantes (motivo do obito): LINHAA, CAUSABAS_O, necropsia, causabas, atestado, lococor
# estciv  (comunidade)
# dtatestado, assistmed, ATESTANTE (recuperacao)
# ESCFALAGR1, esc, esc2010, SERIESCFAL (ensino)
# fonte, dtinvestig, fonteinv, necropsia

print('low_fill_rate_cols: ', sim_pf_homcidios_low_fill_rate_cols)

inspect(sim_pf_homcidios);

low_fill_rate_cols:  ['nudiasinf', 'escmae2010', 'seriescmae', 'ocupmae', 'qtdfilvivo', 'qtdfilmort', 'gravidez', 'semagestac', 'gestacao', 'parto', 'obitoparto', 'peso', 'dtcadinf', 'morteparto', 'dtconcaso', 'cb_pre', 'escmaeagr1', 'escmae', 'idademae', 'estabdescr', 'altcausa', 'causamat', 'acidtrab', 'exame', 'cirurgia', 'tpresginfo', 'nudiasobin', 'fontes', 'dtregcart', 'numregcart', 'codmuncart', 'nudiasobco', 'tpnivelinv', 'tpmorteoco', 'obitopuerp', 'obitograv', 'dtconinv', 'dtcadinv', 'tpobitocor', 'linhaii', 'dtrecorig', 'fontesinf', 'linhad']
shape: (182444, 49)
columns: ['contador', 'origem', 'dtobito', 'horaobito', 'natural', 'dtnasc', 'idade', 'sexo', 'racacor', 'estciv', 'esc', 'esc2010', 'seriescfal', 'ocup', 'codmunres', 'lococor', 'codestab', 'codmunocor', 'assistmed', 'necropsia', 'linhaa', 'linhab', 'causabas', 'dtatestado', 'circobito', 'fonte', 'tppos', 'dtinvestig', 'causabas_o', 'dtcadastro', 'atestante', 'fonteinv', 'codmunnatu', 'codificado', 'atestado', 'escf

Unnamed: 0,contador,origem,dtobito,horaobito,natural,dtnasc,idade,sexo,racacor,estciv,esc,esc2010,seriescfal,ocup,codmunres,lococor,codestab,codmunocor,assistmed,necropsia,linhaa,linhab,causabas,dtatestado,circobito,fonte,tppos,dtinvestig,causabas_o,dtcadastro,atestante,fonteinv,codmunnatu,codificado,atestado,escfalagr1,uf,ufCodigo,nomeUf,nomeMunicipio,nomeMunicipioNorm,municipioCodigo,ocupacaoCbo,dtobito_yyyymm,dtobito_year,dtobito_quarter,dtobito_month,dtobito_day,semOcupacao
0,49,1,2013-06-30,5.0,,9101987.0,25,masculino,Branca,5.0,3.0,2.0,,-1,120035,hospital,2001594.0,120035,não,,*X990,,X990,,homicídio,3.0,,,X990,14082013.0,,,,,,,AC,12,Acre,Marechal Thaumaturgo,MARECHAL THAUMATURGO,1200351,IGNORADO,201306,2013,2,6,30,True
2,1077,1,2015-10-22,17.0,812.0,4101987.0,28,feminino,Branca,2.0,2.0,1.0,,999992,120035,domicílio,,120035,não,2.0,*X940,,X940,22102015.0,homicídio,1.0,N,,X940,30102015.0,5.0,,120035.0,S,X940,10.0,AC,12,Acre,Marechal Thaumaturgo,MARECHAL THAUMATURGO,1200351,DONA DE CASA,201510,2015,4,10,22,False
4,3385,1,2016-11-29,2.0,812.0,30081987.0,29,masculino,Branca,1.0,4.0,3.0,3.0,-1,120035,hospital,2001594.0,120035,sim,2.0,*R571,*X994,X994,29112016.0,homicídio,3.0,N,,X994,16122016.0,5.0,,120035.0,S,R571/X994,6.0,AC,12,Acre,Marechal Thaumaturgo,MARECHAL THAUMATURGO,1200351,IGNORADO,201611,2016,4,11,29,True
5,267,1,2013-04-28,17.083,,29011991.0,22,feminino,Parda,5.0,3.0,1.0,4.0,999992,120030,outros,,120030,não,2.0,*Y004,*S061,Y004,28042013.0,homicídio,2.0,N,,Y004,23082013.0,5.0,,,,,,AC,12,Acre,Feijó,FEIJO,1200302,DONA DE CASA,201304,2013,2,4,28,False
11,1867,1,2013-11-01,23.0,,13081993.0,20,masculino,Parda,5.0,1.0,0.0,,999992,120030,outros,,120030,não,2.0,*S211,*S311,X998,2112013.0,homicídio,3.0,N,,X998,4112013.0,5.0,,,,,,AC,12,Acre,Feijó,FEIJO,1200302,DONA DE CASA,201311,2013,4,11,1,False


In [13]:
sim_pf_homcidios['racacor'].dropna().unique().tolist()

['Branca', 'Parda', 'Preta', 'Amarela', 'Indígena']

**Município - homicídios (SIM)**

In [14]:
print((sim_pf_homcidios['dtobito_year']).unique())

sim_municipio_homicidios = (
    sim_pf_homcidios
    # [(sim_pf_homcidios['uf'].isin(UFS)) & (sim_pf_homcidios['dtobito'].dt.year == 2018)]
    .rename(columns={'codmunocor': 'municipioCodigo6d'})
    .groupby(['uf', 'ufCodigo', 'nomeMunicipio', 'municipioCodigo', 'municipioCodigo6d', 'dtobito_year'])
    .agg(
        qtHomicidios=('contador', 'count'),
        qtHomicidiosFeminino=('sexo', lambda x: (x == 'feminino').astype(int).sum()),
        qtHomicidiosMasculino=('sexo', lambda x: (x == 'masculino').astype(int).sum()),

        # TODO homicidios por racacor
        # TODO homicidios por lococor
        # TODO homicidios por grupo de CID

        qtHomicidiosComAssistmed=('assistmed', lambda x: (x == 'sim').astype(int).sum()),
        qtHomicidiosSemAssistmed=('assistmed', lambda x: (x == 'não').astype(int).sum()),
        qtHomicidiosSemOcupacao=('semOcupacao', lambda x: x.astype(int).sum()),
        qtHomicidiosComOcupacao=('semOcupacao', lambda x: (x == False).astype(int).sum()),
    )
    .reset_index()
)

inspect(sim_municipio_homicidios);

[2013 2015 2016 2014 2017 2018]
shape: (15893, 13)
columns: ['uf', 'ufCodigo', 'nomeMunicipio', 'municipioCodigo', 'municipioCodigo6d', 'dtobito_year', 'qtHomicidios', 'qtHomicidiosFeminino', 'qtHomicidiosMasculino', 'qtHomicidiosComAssistmed', 'qtHomicidiosSemAssistmed', 'qtHomicidiosSemOcupacao', 'qtHomicidiosComOcupacao']


Unnamed: 0,uf,ufCodigo,nomeMunicipio,municipioCodigo,municipioCodigo6d,dtobito_year,qtHomicidios,qtHomicidiosFeminino,qtHomicidiosMasculino,qtHomicidiosComAssistmed,qtHomicidiosSemAssistmed,qtHomicidiosSemOcupacao,qtHomicidiosComOcupacao
0,AC,12,Acrelândia,1200013,120001,2013,1,0,1,0,1,1,0
1,AC,12,Acrelândia,1200013,120001,2014,1,0,1,0,1,1,0
2,AC,12,Acrelândia,1200013,120001,2016,3,0,3,0,3,1,2
3,AC,12,Acrelândia,1200013,120001,2017,1,0,1,0,1,1,0
4,AC,12,Acrelândia,1200013,120001,2018,4,0,4,2,2,3,1


# Write some handled datasets

In [15]:
data_names = {
    'cbos': cbos,
    'ibge_municipio': ibge_municipio,
    'rais_caged_municipio_funcionarios': rais_caged_municipio_funcionarios,
    'ibge_municipio_pib': ibge_municipio_pib,
    'ibge_municipio_populacao_estimada': ibge_municipio_populacao_estimada,
    'ibge_municipio_censo_basico': ibge_municipio_censo_basico,
    'sim_pf_homcidios': sim_pf_homcidios,
    'sim_municipio_homicidios': sim_municipio_homicidios
}

In [16]:
for name, df in data_names.items():
    df.to_parquet(f'../data/handled/{name}.parquet')