# Tratamento de dados - Secretaria de segurança do estado do Paraná

## Descrição do notebook

O objetivo desse notebook é realizar o tratamento dos dados fornecidos pela Secretaria de Segurança Pública do Estado do Paraná para que possa ser analisado juntamente com os dados do estado paraens.

Nessa versão, são utilizados quatro arquivos do tipo CSV e para manipulação de dados é utilizado o pacote pandas.

**Observação:** O código contido nesse notebook foi baseado na solução desenvolvida por Mariana Kniss (https://www.linkedin.com/in/mariana-kniss-471ba0196/), para validar o conteúdo de seu trabalho de conclusão de curso, intitulado "ANÁLISE DE DADOS CRIMINAIS SOBRE VIOLÊNCIA CONTRA A MULHER NOS ESTADOS PARÁ E PARANÁ".

## Sumário

1. [Importação dos módulos e pacotes necessários](#importacao-dos-modulos-e-pacotes-necessarios)
2. [Carregamento dos dados](#carregamento-dos-dados)
4. [Agrupamento dos dados](#agrupamento-dos-dados)
5. [Visão geral do conjunto de dados](#visao-geral-do-conjunto-de-dados)
6. [Filtros, tratamentos e padronização de valores](#filtros-tratamentos-e-padronizacao-de-valores)
7. [Ordenação das colunas](#ordernacao-das-colunas)
8. [Exportação dos dados formatados](#exportacao-dos-dados-formatados)

----


## Importação dos módulos e pacotes necessários <a id="importacao-dos-modulos-e-pacotes-necessarios"></a>

In [2]:
# Pandas (https://pandas.pydata.org/)
import pandas as pd

# Datetime (https://docs.python.org/3/library/datetime.html)
import datetime as dt

# Funções de internacionalização para formatar datas, número etc. (https://docs.python.org/3/library/locale.html)
import locale

## Carregamento dos dados

In [3]:
# Dados sobre as ocorrências
df_ocorrencias = pd.read_csv('./dados/PR/Ocorrencias de ViolDom ContraMulher (Jan2018-Ago2023) PR.csv', sep = ';')

# Dados sobre as naturezas
df_naturezas = pd.read_csv('./dados/PR/Naturezas das Ocorrencias de ViolDom ContraMulher (Jan2018-Ago2023) PR.csv', sep = ';')

# Dados sobre as vítimas
df_vitimas = pd.read_csv('./dados/PR/Vitimas das Ocorrencias de ViolDom ContraMulher (Jan2018-Ago2023) PR.csv', sep = ';')

# Dados sobre os autores
df_autores = pd.read_csv('./dados/PR/Autores das Ocorrencias de ViolDom ContraMulher (Jan2018-Ago2023) PR.csv', sep = ';')

### Boletins de ocorrências

In [4]:
df_ocorrencias.head(10)

Unnamed: 0,id_boletim,data_registro,hora_registro,data_fato,dia_semana,hora_fato,fx_4_hr,fx_12_hr,mes_registro,mes_fato,ano_registro,ano_fato,causa_presumivel,distrito,municipio,regional,bairro,identificacao_fato
0,20181000026,2018-09-02 00:44:00,0,2018-09-01 22:05:00,Sab,22,18_23,20_22,9,9,2018,2018,indisponivel,indisponivel,IVAIPORA,indisponivel,CENTRO,Violencia_Domestica_Contra_Mulher
1,20181000038,2018-09-02 00:57:00,0,2018-09-02 00:15:00,Dom,0,00_05,00_02,9,9,2018,2018,indisponivel,indisponivel,PITANGA,indisponivel,CENTRO,Violencia_Domestica_Contra_Mulher
2,20181000045,2018-09-02 00:56:00,0,2018-09-02 00:30:00,Dom,0,00_05,00_02,9,9,2018,2018,indisponivel,indisponivel,LARANJEIRAS DO SUL,indisponivel,CENTRO,Violencia_Domestica_Contra_Mulher
3,2018100010,2018-01-24 16:20:00,16,2018-01-24 01:50:00,Qua,1,00_05,00_02,1,1,2018,2018,indisponivel,indisponivel,CURITIBA,indisponivel,PILARZINHO,Violencia_Domestica_Contra_Mulher
4,20181000110,2018-09-02 01:37:00,1,2018-09-02 01:00:00,Dom,1,00_05,00_02,9,9,2018,2018,indisponivel,indisponivel,QUEDAS DO IGUACU,indisponivel,LUZITANI,Violencia_Domestica_Contra_Mulher
5,20181000125,2018-09-02 01:43:00,1,2018-09-02 00:00:00,Dom,0,00_05,00_02,9,9,2018,2018,indisponivel,indisponivel,APUCARANA,indisponivel,JD NOVO HORIZONTE,Violencia_Domestica_Contra_Mulher
6,20181000132,2018-09-02 01:39:00,1,2018-09-02 00:40:00,Dom,0,00_05,00_02,9,9,2018,2018,indisponivel,indisponivel,COLOMBO,indisponivel,SANTA TEREZA,Violencia_Domestica_Contra_Mulher
7,2018100014,2018-01-24 16:02:00,16,2018-01-23 11:59:00,Ter,11,06_11,10_12,1,1,2018,2018,indisponivel,indisponivel,CASCAVEL,indisponivel,ALTO ALEGRE,Violencia_Domestica_Contra_Mulher
8,20181000151,2018-09-02 01:24:00,1,2018-09-02 00:50:00,Dom,0,00_05,00_02,9,9,2018,2018,indisponivel,indisponivel,LONDRINA,indisponivel,ABUSSAFE 2,Violencia_Domestica_Contra_Mulher
9,20181000167,2018-09-02 01:59:00,1,2018-09-02 00:30:00,Dom,0,00_05,00_02,9,9,2018,2018,indisponivel,indisponivel,ALTO PIQUIRI,indisponivel,CENTRO,Violencia_Domestica_Contra_Mulher


In [112]:
df_ocorrencias.columns

Index(['id_boletim', 'data_registro', 'hora_registro', 'data_fato',
       'dia_semana', 'hora_fato', 'fx_4_hr', 'fx_12_hr', 'mes_registro',
       'mes_fato', 'ano_registro', 'ano_fato', 'causa_presumivel', 'distrito',
       'municipio', 'regional', 'bairro', 'identificacao_fato'],
      dtype='object')

In [113]:
# Verificando o conteúdo da coluna 'identificacao_fato'
df_ocorrencias.identificacao_fato.value_counts()

identificacao_fato
Violencia_Domestica_Contra_Mulher    340478
Name: count, dtype: int64

In [114]:
# Quantidade de registros encontrados no arquivo de ocorrências
len(df_ocorrencias)

340478

In [115]:
# Quantidade de valores únicos para identificação de boletins de ocorrências
df_ocorrencias['id_boletim'].nunique()

340478

In [116]:
df_ocorrencias_ate_2022 = df_ocorrencias[df_ocorrencias['ano_fato'] <= 2022]
len(df_ocorrencias_ate_2022)

290033

In [117]:
df_ocorrencias_ate_2022['identificacao_fato'].value_counts()

identificacao_fato
Violencia_Domestica_Contra_Mulher    290033
Name: count, dtype: int64

Como pode ser verificado, cada linha do arquivo de ocorrências representa os dados de um BO.

- **Número de registros no arquivo:** 340.478
- **Número de boletins de ocorrências:** 340.478
- **Número de ocorrências entre 2018 e 2022:** 290.033 => Todos identificados como 'Violencia_Domestica_Contra_Mulher'

-----

### Vítimas

In [6]:
df_vitimas.head(10)

Unnamed: 0,id_boletim,data_registro,hora_registro,data_fato,dia_semana,hora_fato,fx_4_hr,fx_12_hr,mes_registro,mes_fato,...,bairro,identificacao_fato,vitima,vit_dt_nasc,vit_idade,faixa_etaria,sexo,raca_cor,grau_instrucao,profissao
0,20181000026,2018-09-02 00:44:00,0,2018-09-01 22:05:00,Sab,22,18_23,20_22,9,9,...,CENTRO,Violencia_Domestica_Contra_Mulher,id_env_vitima201810000261,1972-01-29 00:00:00,46,Entre 46 e 60,F,BRANCA,NAO INFORMADO,
1,20181000038,2018-09-02 00:57:00,0,2018-09-02 00:15:00,Dom,0,00_05,00_02,9,9,...,CENTRO,Violencia_Domestica_Contra_Mulher,id_env_vitima201810000381,1993-10-31 00:00:00,24,Entre 18 e 24,F,BRANCA,TERCEIRO GRAU INCOMPLETO,ESTUDANTE
2,20181000038,2018-09-02 00:57:00,0,2018-09-02 00:15:00,Dom,0,00_05,00_02,9,9,...,CENTRO,Violencia_Domestica_Contra_Mulher,id_env_vitima201810000382,1975-09-10 00:00:00,42,Entre 35 e 45,F,BRANCA,TERCEIRO GRAU INCOMPLETO,ATENDENTE
3,20181000045,2018-09-02 00:56:00,0,2018-09-02 00:30:00,Dom,0,00_05,00_02,9,9,...,CENTRO,Violencia_Domestica_Contra_Mulher,id_env_vitima201810000451,1977-05-19 00:00:00,41,Entre 35 e 45,F,PARDA,PRIMEIRO GRAU INCOMPLETO,AUXILIAR DE SERVIÇOS GERAIS
4,2018100010,2018-01-24 16:20:00,16,2018-01-24 01:50:00,Qua,1,00_05,00_02,1,1,...,PILARZINHO,Violencia_Domestica_Contra_Mulher,id_env_vitima20181000101,1985-09-08 00:00:00,32,Entre 30 e 34,F,PRETA,PRIMEIRO GRAU COMPLETO,MANICURE
5,20181000110,2018-09-02 01:37:00,1,2018-09-02 01:00:00,Dom,1,00_05,00_02,9,9,...,LUZITANI,Violencia_Domestica_Contra_Mulher,id_env_vitima201810001101,1982-05-08 00:00:00,36,Entre 35 e 45,F,NAO INFORMADO,TERCEIRO GRAU COMPLETO,
6,20181000125,2018-09-02 01:43:00,1,2018-09-02 00:00:00,Dom,0,00_05,00_02,9,9,...,JD NOVO HORIZONTE,Violencia_Domestica_Contra_Mulher,id_env_vitima201810001251,1995-12-19 00:00:00,22,Entre 18 e 24,F,PARDA,SEGUNDO GRAU COMPLETO,ESTAGIARIO
7,20181000132,2018-09-02 01:39:00,1,2018-09-02 00:40:00,Dom,0,00_05,00_02,9,9,...,SANTA TEREZA,Violencia_Domestica_Contra_Mulher,id_env_vitima201810001323,1977-08-01 00:00:00,41,Entre 35 e 45,F,BRANCA,NAO INFORMADO,
8,2018100014,2018-01-24 16:02:00,16,2018-01-23 11:59:00,Ter,11,06_11,10_12,1,1,...,ALTO ALEGRE,Violencia_Domestica_Contra_Mulher,id_env_vitima20181000141,1987-07-22 00:00:00,30,Entre 30 e 34,F,BRANCA,TERCEIRO GRAU COMPLETO,FUNCIONARIO PUBLICO ESTADUAL
9,20181000151,2018-09-02 01:24:00,1,2018-09-02 00:50:00,Dom,0,00_05,00_02,9,9,...,ABUSSAFE 2,Violencia_Domestica_Contra_Mulher,id_env_vitima201810001512,1997-07-08 00:00:00,21,Entre 18 e 24,F,BRANCA,TERCEIRO GRAU COMPLETO,DESEMPREGADO


In [7]:
len(df_vitimas)

350240

Enquanto há 340.478 ocorrências, há 350.240 vítimas, representando uma diferença de 9.762. Ou seja, há casos de registros de violências com mais de uma vítima. Verificar.

In [8]:
df_vitimas_ate_2022 = df_vitimas[df_vitimas['ano_fato'] <= 2022]
len(df_vitimas_ate_2022)

298475

#### Remoção das colunas já existentes no conjunto das ocorrências

Esse procedimento foi adotado como precendente à fusão dos conjuntos de dados, visto que colunas de mesmo nome são renomeadas no método merge().

In [9]:
# Cria uma lista com as colunas das ocorrências
colunas_ocorrencias = df_ocorrencias.columns
# Cria uma lista com as colunas das vítimas
colunas_vitimas = df_vitimas.columns
# Cria uma lista com as colunas em comum das duas listas anteriores
colunas_comuns = set(colunas_ocorrencias) & set(colunas_vitimas)
# Remove dessa lista em comum a coluna 'id_boletim' que deverá ser mantida nos dois conjuntos de dados para servir como chave
colunas_comuns.remove('id_boletim')
# Cria um novo dataframe das vítimas, sem as colunas que se repetem no conjunto das ocorrências
df_vitimas_sem_colunas_comuns = df_vitimas.drop(columns=colunas_comuns)
df_vitimas_sem_colunas_comuns.columns

Index(['id_boletim', 'vitima', 'vit_dt_nasc', 'vit_idade', 'faixa_etaria',
       'sexo', 'raca_cor', 'grau_instrucao', 'profissao'],
      dtype='object')

#### Renomeando as colunas

Algumas colunas possuem o mesmo nome para o conjunto de vítimas e de autores. Assim, foram adicionados prefixos para diferenciar esses dados. 

Além disso, algumas variáveis foram renomeadas para manter o mesmo padrão utilizado nos dados do estado do Pará, como 'raca_cor' alterada para '_cor_pele'.

In [10]:
df_vitimas_sem_colunas_comuns.rename(columns={
	'faixa_etaria'		: 'vit_faixa_etaria',
	'sexo'				: 'vit_sexo',
	'raca_cor'			: 'vit_cor_pele',
	'grau_instrucao'	: 'vit_grau_inst',
	'profissao'			: 'vit_profissao'}, inplace=True)

df_vitimas_sem_colunas_comuns.columns

Index(['id_boletim', 'vitima', 'vit_dt_nasc', 'vit_idade', 'vit_faixa_etaria',
       'vit_sexo', 'vit_cor_pele', 'vit_grau_inst', 'vit_profissao'],
      dtype='object')

----

### Natureza

In [11]:
df_naturezas.head(10)

Unnamed: 0,id_boletim,data_registro,hora_registro,data_fato,dia_semana,hora_fato,fx_4_hr,fx_12_hr,mes_registro,mes_fato,...,causa_presumivel,distrito,municipio,regional,bairro,identificacao_fato,local_ocorrencia,meio_empregado,classe_motivo,registros
0,20181000026,2018-09-02 00:44:00,0,2018-09-01 22:05:00,Sab,22,18_23,20_22,9,9,...,indisponivel,indisponivel,IVAIPORA,indisponivel,CENTRO,Violencia_Domestica_Contra_Mulher,RESIDENCIA,HOMEM/ADULTO/MULHER ADULTA,CRIMES CONTRA A PESSOA,LESAO CORPORAL - VIOLENCIA DOMESTICA E FAMILIAR
1,20181000038,2018-09-02 00:57:00,0,2018-09-02 00:15:00,Dom,0,00_05,00_02,9,9,...,indisponivel,indisponivel,PITANGA,indisponivel,CENTRO,Violencia_Domestica_Contra_Mulher,VIA PUBLICA,HOMEM/ADULTO/MULHER/ADULTO,CRIMES CONTRA A PESSOA,LESAO CORPORAL
2,20181000045,2018-09-02 00:56:00,0,2018-09-02 00:30:00,Dom,0,00_05,00_02,9,9,...,indisponivel,indisponivel,LARANJEIRAS DO SUL,indisponivel,CENTRO,Violencia_Domestica_Contra_Mulher,RESIDENCIA,HOMEM/ADULTO/MULHER ADULTA,CRIMES CONTRA A PESSOA,LESAO CORPORAL - VIOLENCIA DOMESTICA E FAMILIAR
3,2018100010,2018-01-24 16:20:00,16,2018-01-24 01:50:00,Qua,1,00_05,00_02,1,1,...,indisponivel,indisponivel,CURITIBA,indisponivel,PILARZINHO,Violencia_Domestica_Contra_Mulher,RESIDENCIA,VERBAL,CRIMES CONTRA A PESSOA,AMEACA
4,2018100010,2018-01-24 16:20:00,16,2018-01-24 01:50:00,Qua,1,00_05,00_02,1,1,...,indisponivel,indisponivel,CURITIBA,indisponivel,PILARZINHO,Violencia_Domestica_Contra_Mulher,RESIDENCIA,VERBAL,CRIMES CONTRA A PESSOA,INJURIA
5,20181000110,2018-09-02 01:37:00,1,2018-09-02 01:00:00,Dom,1,00_05,00_02,9,9,...,indisponivel,indisponivel,QUEDAS DO IGUACU,indisponivel,LUZITANI,Violencia_Domestica_Contra_Mulher,RESIDENCIA,PESSOAS,CRIMES CONTRA A PESSOA,LESAO CORPORAL - VIOLENCIA DOMESTICA E FAMILIAR
6,20181000125,2018-09-02 01:43:00,1,2018-09-02 00:00:00,Dom,0,00_05,00_02,9,9,...,indisponivel,indisponivel,APUCARANA,indisponivel,JD NOVO HORIZONTE,Violencia_Domestica_Contra_Mulher,RESIDENCIA,AGRESSAO/AMEACA/HOMEM/ADULTO/VERBAL/VIOLENCIA,CRIMES CONTRA A PESSOA,INJURIA
7,20181000125,2018-09-02 01:43:00,1,2018-09-02 00:00:00,Dom,0,00_05,00_02,9,9,...,indisponivel,indisponivel,APUCARANA,indisponivel,JD NOVO HORIZONTE,Violencia_Domestica_Contra_Mulher,RESIDENCIA,AGRESSAO/AMEACA/HOMEM/ADULTO/VERBAL/VIOLENCIA,CRIMES CONTRA A PESSOA,LESAO CORPORAL - VIOLENCIA DOMESTICA E FAMILIAR
8,20181000132,2018-09-02 01:39:00,1,2018-09-02 00:40:00,Dom,0,00_05,00_02,9,9,...,indisponivel,indisponivel,COLOMBO,indisponivel,SANTA TEREZA,Violencia_Domestica_Contra_Mulher,VIA PUBLICA,PESSOAS,CRIMES CONTRA A PESSOA,LESAO CORPORAL - VIOLENCIA DOMESTICA E FAMILIAR
9,2018100014,2018-01-24 16:02:00,16,2018-01-23 11:59:00,Ter,11,06_11,10_12,1,1,...,indisponivel,indisponivel,CASCAVEL,indisponivel,ALTO ALEGRE,Violencia_Domestica_Contra_Mulher,ORGAO PUBLICO ESTADUAL,VERBAL,LEI 3.688/41 - CONTRAVENCOES PENAIS,PERTURBACAO DA TRANQUILIDADE


#### Remoção das colunas já existentes no conjunto das ocorrências

In [12]:
colunas_naturezas = df_naturezas.columns
colunas_comuns = set(colunas_ocorrencias) & set(colunas_naturezas)
colunas_comuns.remove('id_boletim')
df_naturezas_sem_colunas_comuns = df_naturezas.drop(columns=colunas_comuns)

df_naturezas_sem_colunas_comuns.columns

Index(['id_boletim', 'local_ocorrencia', 'meio_empregado', 'classe_motivo',
       'registros'],
      dtype='object')

----

### Autores

In [13]:
df_autores.head(10)

Unnamed: 0,id_boletim,data_registro,hora_registro,data_fato,dia_semana,hora_fato,fx_4_hr,fx_12_hr,mes_registro,mes_fato,...,identificacao_fato,autor,aut_dt_nasc,aut_idade,faixa_etaria,parentesco,sexo,raca_cor,grau_instrucao,profissao
0,20181000581,2018-09-02 08:14:00,8,2018-08-02 07:20:00,Qui,7,06_11,06_08,8,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810005813,1959-01-06 00:00:00,59,Entre 46 e 60,Grau parentesco com o envolvido n.1-FILHO,F,PARDA,NAO INFORMADO,
1,20181002547,2018-09-03 09:05:00,9,2018-08-03 07:15:00,Sex,7,06_11,06_08,8,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810025472,1990-05-12 00:00:00,28,Entre 25 e 29,nao informado,F,BRANCA,NAO INFORMADO,
2,20181002816,2018-09-03 09:23:00,9,2018-09-02 13:00:00,Dom,13,12_17,12_14,9,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810028162,1990-04-15 00:00:00,28,Entre 25 e 29,nao informado,F,BRANCA,NAO INFORMADO,
3,20181003126,2018-09-03 10:07:00,10,2018-09-02 07:30:00,Dom,7,06_11,06_08,9,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810031262,1959-01-06 00:00:00,59,Entre 46 e 60,nao informado,F,BRANCA,NAO INFORMADO,
4,20181003956,2018-09-03 11:20:00,11,2018-08-31 12:00:00,Sex,12,12_17,10_12,8,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810039563,1998-02-18 00:00:00,20,Entre 18 e 24,nao informado,F,BRANCA,NAO INFORMADO,
5,20181004754,2018-09-03 13:42:00,13,2018-09-01 23:00:00,Sab,23,18_23,,9,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810047542,,33,Entre 30 e 34,nao informado,F,PRETA,NAO INFORMADO,
6,20181005558,2018-09-03 15:11:00,15,2018-09-02 15:00:00,Dom,15,12_17,14_16,9,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810055583,,25,Entre 25 e 29,nao informado,F,BRANCA,NAO INFORMADO,
7,20181007549,2018-09-04 00:09:00,0,2018-09-03 22:00:00,Seg,22,18_23,20_22,9,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810075492,1978-10-03 00:00:00,39,Entre 35 e 45,nao informado,F,BRANCA,SEGUNDO GRAU COMPLETO,TELEMARKETING
8,20181008521,2018-09-04 09:40:00,9,2018-09-01 01:00:00,Sab,1,00_05,00_02,9,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810085212,,24,Entre 18 e 24,nao informado,F,BRANCA,NAO INFORMADO,DESEMPREGADO
9,20181008776,2018-09-04 10:12:00,10,2018-09-03 18:00:00,Seg,18,18_23,16_18,9,9,...,Violencia_Domestica_Contra_Mulher,id_env_autor201810087762,1964-02-27 00:00:00,54,Entre 46 e 60,nao informado,F,BRANCA,NAO INFORMADO,


#### Remoção das colunas já existentes no conjunto das ocorrências

In [14]:
colunas_autores = df_autores.columns
colunas_comuns = set(colunas_ocorrencias) & set(colunas_autores)
colunas_comuns.remove('id_boletim')
df_autores_sem_colunas_comuns = df_autores.drop(columns=colunas_comuns)

df_autores_sem_colunas_comuns.columns

Index(['id_boletim', 'autor', 'aut_dt_nasc', 'aut_idade', 'faixa_etaria',
       'parentesco', 'sexo', 'raca_cor', 'grau_instrucao', 'profissao'],
      dtype='object')

#### Renomeando as colunas

In [15]:
df_autores_sem_colunas_comuns.rename(columns={
	'faixa_etaria'		: 'aut_faixa_etaria',
	'sexo'				: 'aut_sexo',
	'raca_cor'			: 'aut_cor_pele',
	'grau_instrucao'	: 'aut_grau_inst',
    'parentesco'		: 'grau_de_relacionamento',
	'profissao'			: 'aut_profissao'}, inplace=True)

df_autores_sem_colunas_comuns.columns

Index(['id_boletim', 'autor', 'aut_dt_nasc', 'aut_idade', 'aut_faixa_etaria',
       'grau_de_relacionamento', 'aut_sexo', 'aut_cor_pele', 'aut_grau_inst',
       'aut_profissao'],
      dtype='object')

## Agrupamento dos dados

Os procedimentos nesta seção se destinam a agrupamento os dados dos quatro arquivos distintos relacionados à violência contra a mulher.

O campo utilizado como 'chave primária' é a identificação do boletim de ocorrência (*id_boletim*).

Assim, é importante considerar esse procedimento para as análises estatísticas, visto que uma mesma ocorrência pode apresentar mais de um registros no conjunto de dados final.

In [16]:
# Fusão dos dataframes carregados anteriormente
df_ocorrencias_vitimas = pd.merge(df_ocorrencias, df_vitimas_sem_colunas_comuns, on='id_boletim', how='left')
df_ocorrencias_vitimas_naturezas = pd.merge(df_ocorrencias_vitimas, df_naturezas_sem_colunas_comuns, on='id_boletim', how='left')
df_completo = pd.merge(df_ocorrencias_vitimas_naturezas, df_autores_sem_colunas_comuns, on='id_boletim', how='left')

In [129]:
df_completo.columns

Index(['id_boletim', 'data_registro', 'hora_registro', 'data_fato',
       'dia_semana', 'hora_fato', 'fx_4_hr', 'fx_12_hr', 'mes_registro',
       'mes_fato', 'ano_registro', 'ano_fato', 'causa_presumivel', 'distrito',
       'municipio', 'regional', 'bairro', 'identificacao_fato', 'vitima',
       'vit_dt_nasc', 'vit_idade', 'vit_faixa_etaria', 'vit_sexo',
       'vit_cor_pele', 'vit_grau_inst', 'vit_profissao', 'local_ocorrencia',
       'meio_empregado', 'classe_motivo', 'registros', 'autor', 'aut_dt_nasc',
       'aut_idade', 'aut_faixa_etaria', 'grau_de_relacionamento', 'aut_sexo',
       'aut_cor_pele', 'aut_grau_inst', 'aut_profissao'],
      dtype='object')

In [17]:
len(df_completo)

483906

## Visão geral do conjunto de dados <a id="visao-geral-do-conjunto-de-dados"></a>

In [21]:
# Contagem do número de variáveis
v = len(df_completo.columns)
# Contagem do número de registros
n = len(df_completo)

print(f'O conjunto de dados possui {n} registros e {v} variáveis.')

O conjunto de dados possui 483906 registros e 39 variáveis.


In [19]:
df_completo.head()

Unnamed: 0,id_boletim,data_registro,hora_registro,data_fato,dia_semana,hora_fato,fx_4_hr,fx_12_hr,mes_registro,mes_fato,...,registros,autor,aut_dt_nasc,aut_idade,aut_faixa_etaria,grau_de_relacionamento,aut_sexo,aut_cor_pele,aut_grau_inst,aut_profissao
0,20181000026,2018-09-02 00:44:00,0,2018-09-01 22:05:00,Sab,22,18_23,20_22,9,9,...,LESAO CORPORAL - VIOLENCIA DOMESTICA E FAMILIAR,,,,,,,,,
1,20181000038,2018-09-02 00:57:00,0,2018-09-02 00:15:00,Dom,0,00_05,00_02,9,9,...,LESAO CORPORAL,,,,,,,,,
2,20181000038,2018-09-02 00:57:00,0,2018-09-02 00:15:00,Dom,0,00_05,00_02,9,9,...,LESAO CORPORAL,,,,,,,,,
3,20181000045,2018-09-02 00:56:00,0,2018-09-02 00:30:00,Dom,0,00_05,00_02,9,9,...,LESAO CORPORAL - VIOLENCIA DOMESTICA E FAMILIAR,,,,,,,,,
4,2018100010,2018-01-24 16:20:00,16,2018-01-24 01:50:00,Qua,1,00_05,00_02,1,1,...,AMEACA,,,,,,,,,


In [22]:
# Descrição dos tipos dos dados
df_completo.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 483906 entries, 0 to 483905
Data columns (total 39 columns):
 #   Column                  Non-Null Count   Dtype  
---  ------                  --------------   -----  
 0   id_boletim              483906 non-null  int64  
 1   data_registro           483906 non-null  object 
 2   hora_registro           483906 non-null  int64  
 3   data_fato               483906 non-null  object 
 4   dia_semana              483906 non-null  object 
 5   hora_fato               483906 non-null  int64  
 6   fx_4_hr                 483906 non-null  object 
 7   fx_12_hr                458246 non-null  object 
 8   mes_registro            483906 non-null  int64  
 9   mes_fato                483906 non-null  int64  
 10  ano_registro            483906 non-null  int64  
 11  ano_fato                483906 non-null  int64  
 12  causa_presumivel        483906 non-null  object 
 13  distrito                483906 non-null  object 
 14  municipio           

----

## Filtros, tratamentos e padronização de valores <a id="filtros-tratamentos-e-padronizacao-de-valores"></a>

### Filtros

#### Classe

É estranho que a identificação de todos os registro consta como 'Violencia_Domestica_Contra_Mulher'. Mesmo assim, será mantido o filtro por palavras-chave?

In [20]:
df_completo['identificacao_fato'].value_counts()

identificacao_fato
Violencia_Domestica_Contra_Mulher    483906
Name: count, dtype: int64

**Visualizando os valores para a variável 'classe_motivo'.**

In [23]:
# Cria um novo dataframe para guardar os dados dos registros por ano
df_registros = df_completo['classe_motivo'].value_counts().reset_index().rename(columns={'index': 'Index', 'classe_motivo': 'Classe motivo', 'count': 'Total'}).sort_values(by='Total', ascending=False).reset_index(drop=True)
# Criando uma coluna com a porcentagem dos valores anuais
df_registros['Porcentagem'] = df_registros.Total / df_registros.Total.sum()
# Exibe a tabela
df_registros.style.format(formatter={'Porcentagem': lambda x: locale.format_string("%.2f", x*100, True) + '%' }).hide(axis="index")

Classe motivo,Total,Porcentagem
CRIMES CONTRA A PESSOA,381930,78.93%
LEI 3.688/41 - CONTRAVENCOES PENAIS,34991,7.23%
OCORRENCIAS NAO DELITUOSAS,21184,4.38%
CRIMES CONTRA O PATRIMONIO,17124,3.54%
LEI 11340/06 - CRIA MECANISMOS PARA COIBIR A VIOLENCIA DOMESTICA E FAMILIAR CONTRA A MULHER,13393,2.77%
LEI 13.641/18 - DO CRIME DE DESCUMPRIMENTO DE MEDIDAS PROTETIVAS DE URGENCIA - DESCUMPRIMENTO DE MEDIDAS PROTETIVAS DE URGENCIA,5495,1.14%
CRIMES CONTRA A DIGNIDADE SEXUAL,3692,0.76%
CRIMES CONTRA A ADMINISTRACAO DA JUSTICA,1261,0.26%
LEI 10.826/03 - ARMAS DE FOGO,740,0.15%
LEI 10.741/03 - ESTATUTO DO IDOSO,632,0.13%


Definição de palavras-chave para filtrar apenas os casos que são específicos de violência contra a mulher.

In [24]:
palavras_chave = ["mulher", "sexual", "medidas protetivas", "13772"]

In [25]:
df_VCM = df_completo[(df_completo['classe_motivo'].notnull()) & (df_completo['classe_motivo'].str.lower().str.contains('|'.join(palavras_chave)))]
len(df_VCM)

22669

Filtrando apenas casos ocorridos até 2022.

In [26]:
df_VCM = df_VCM[df_VCM['ano_fato'] <= 2022]
len(df_VCM)

17698

### Investigando os registros em relação aos boletins de ocorrência

Identificando a quantidade de boletins de ocorrência únicos.

In [27]:
len(df_VCM.drop_duplicates(subset='id_boletim'))

17065

Verificando os boletins com mais de um envolvido.

In [42]:
# Identifica os valores distintos de identificação de boletins de ocorrência
valores_unicos_bo = df_VCM['id_boletim'].unique()
# Contagem do número de ocorrências para cada valor único identificado
contagem_valores_unicos_bo = df_VCM['id_boletim'].value_counts()
# Identifica apenas os boletins que apresentam mais de um registro, isto é, ou possuem mais de uma vítima, mais de um autor e/ou mais de uma natureza (class_motivo)
boletins_com_mais_de_um_registro = contagem_valores_unicos_bo[contagem_valores_unicos_bo > 1]
print(boletins_com_mais_de_um_registro)

id_boletim
2022646186     6
20221093794    6
2021200949     4
2021898860     4
2020620444     4
              ..
20191424219    2
20211269929    2
2021626713     2
20191271582    2
20221219239    2
Name: count, Length: 577, dtype: int64


In [48]:
# Exibe os dados do boletim '20221093794', com seis registros
df_boletim = df_VCM[df_VCM['id_boletim'] == 2022646186]
df_boletim.to_csv('./dados-tratados/boletim-unico.csv')

Verificando as vítimas que aparecem mais de uma vez nos registros.

In [31]:
# Identifica os valores distintos de identificação de boletins de ocorrência
valores_unicos_vitima = df_VCM['vitima'].unique()
# Contagem do número de ocorrências para cada valor único identificado
contagem_valores_unicos_vitima = df_VCM['vitima'].value_counts()
# Identifica apenas os boletins que apresentam mais de um registro, isto é, ou possuem mais de uma vítima, mais de um autor e/ou mais de uma natureza (class_motivo)
boletins_com_mais_de_uma_vitima = contagem_valores_unicos_vitima[contagem_valores_unicos_vitima > 1]
print(boletins_com_mais_de_uma_vitima)

vitima
id_env_vitima20229092241     4
id_env_vitima20216909261     3
id_env_vitima2021470431      3
id_env_vitima202210937943    3
id_env_vitima201912689171    3
                            ..
id_env_vitima20219486681     2
id_env_vitima202013168451    2
id_env_vitima20227496421     2
id_env_vitima20208852021     2
id_env_vitima20227566541     2
Name: count, Length: 193, dtype: int64


In [36]:
# Exibe os dados da vítima 'id_env_vitima20229092241', com quatro registros
df_vitima = df_VCM[df_VCM['vitima'] == 'id_env_vitima20229092241']
df_vitima.to_csv('./dados-tratados/vitima-unica.csv')

### Tratamentos


In [140]:
print(df_VCM.columns)

Index(['id_boletim', 'data_registro', 'hora_registro', 'data_fato',
       'dia_semana', 'hora_fato', 'fx_4_hr', 'fx_12_hr', 'mes_registro',
       'mes_fato', 'ano_registro', 'ano_fato', 'causa_presumivel', 'distrito',
       'municipio', 'regional', 'bairro', 'identificacao_fato', 'vitima',
       'vit_dt_nasc', 'vit_idade', 'vit_faixa_etaria', 'vit_sexo',
       'vit_cor_pele', 'vit_grau_inst', 'vit_profissao', 'local_ocorrencia',
       'meio_empregado', 'classe_motivo', 'registros', 'autor', 'aut_dt_nasc',
       'aut_idade', 'aut_faixa_etaria', 'grau_de_relacionamento', 'aut_sexo',
       'aut_cor_pele', 'aut_grau_inst', 'aut_profissao'],
      dtype='object')


#### Removação de atributos não relevantes para as análises

In [49]:
# Remoção de colunas desnecessárias
colunas_para_remover = ['fx_4_hr', # Padrão de faixa horária em quatro horas
						'fx_12_hr', # Padrão de faixa horária em doze horas
						'hora_registro', # Horário de registro
						'hora_fato', # Horário do fato
						'causa_presumivel', # Causa presumível
						'distrito', # Distrito
						'regional', # Regional
						#'id_boletim', # Identificação do BO --> Será mantido
						#'vitima', # Identificação da vítima --> Será mantido
						#'autor', # Identificação do autor --> Será mantido
						'identificacao_fato', # Identificação dos fatos (Todos estão com o valor 'Violencia_Domestica_Contra_Mulher')
						]

df_VCM = df_VCM.drop(columns=colunas_para_remover)

In [50]:
print(df_VCM.columns)

Index(['id_boletim', 'data_registro', 'data_fato', 'dia_semana',
       'mes_registro', 'mes_fato', 'ano_registro', 'ano_fato', 'municipio',
       'bairro', 'vitima', 'vit_dt_nasc', 'vit_idade', 'vit_faixa_etaria',
       'vit_sexo', 'vit_cor_pele', 'vit_grau_inst', 'vit_profissao',
       'local_ocorrencia', 'meio_empregado', 'classe_motivo', 'registros',
       'autor', 'aut_dt_nasc', 'aut_idade', 'aut_faixa_etaria',
       'grau_de_relacionamento', 'aut_sexo', 'aut_cor_pele', 'aut_grau_inst',
       'aut_profissao'],
      dtype='object')


#### Dias da semana

Converte os valores para letras maiúsculas.

In [51]:
df_VCM['dia_semana'] = df_VCM['dia_semana'].str.upper()

#### Faixa horária

Separando as colunas referentes às datas e horários do fato e do registro em duas colunas distintas, uma para o horário e outra para a data.

In [52]:
if not 'hora_registro' in df_VCM.columns:
	df_VCM['hora_registro'] = pd.to_datetime(df_VCM['data_registro'].astype('str').str.slice(11, 19), format='%H:%M:%S').dt.time

df_VCM['data_registro'] = pd.to_datetime(df_VCM['data_registro'].astype('str').str.slice(0, 10))

if not 'hora_fato' in df_VCM.columns:
	df_VCM['hora_fato'] = pd.to_datetime(df_VCM['data_fato'].astype('str').str.slice(11, 19), format='%H:%M:%S').dt.time

df_VCM['data_fato'] = pd.to_datetime(df_VCM['data_fato'].astype('str').str.slice(0, 10))

In [53]:
for h in df_VCM['hora_fato']:
	print(h)
	break

19:00:00


In [54]:

# Definindo os intervalos e os rótulos das faixas etárias
intervals = [0, 6, 12, 18, 24]
labels = ['Madrugada', 'Manhã', 'Tarde', 'Noite']
categories = labels + ['Outro']

# Cria uma nova coluna com a hora do fato no formato inteiro
df_VCM['hora_fato_int'] = df_VCM['hora_fato'].apply(lambda x: x.hour)

# Período que ocorreu o fato (Manhã, Tarde, Noite ou Madrugada)
df_VCM['faixa_horaria'] = pd.cut(df_VCM['hora_fato_int'], bins=intervals, labels=labels, right=False)
df_VCM['faixa_horaria'] = pd.Categorical(df_VCM['faixa_horaria'], categories=categories)
df_VCM['faixa_horaria'] = df_VCM['faixa_horaria'].fillna('Outro')

# Período que ocorreu o fato (['00h - 06h', '06h - 12h', '12h - 18h' ou '18h - 00h')
labels = ['00h - 06h', '06h - 12h', '12h - 18h', '18h - 00h']
categories = labels + ['Outro']

df_VCM['faixa_horaria_6h'] = pd.cut(df_VCM['hora_fato_int'], bins=intervals, labels=labels, right=False)
df_VCM['faixa_horaria_6h'] = pd.Categorical(df_VCM['faixa_horaria_6h'], categories=categories)
df_VCM['faixa_horaria_6h'] = df_VCM['faixa_horaria_6h'].fillna('Outro')

intervals = [0, 2, 4, 6, 8, 10, 12, 14, 16, 18, 20, 22, 24]
labels = ['00h - 02h', '02h - 04h', '04h - 06h', '06h - 08h', '08h - 10h', '10h - 12h', '12h - 14h', '14h - 16h', '16h - 18h', '18h - 20h', '20h - 22h', '22h - 00h']
categories = labels + ['Outro']

df_VCM['faixa_horaria_2h'] = pd.cut(df_VCM['hora_fato_int'], bins=intervals, labels=labels, right=False)
df_VCM['faixa_horaria_2h'] = pd.Categorical(df_VCM['faixa_horaria_2h'], categories=categories)
df_VCM['faixa_horaria_2h'] = df_VCM['faixa_horaria_2h'].fillna('Outro')

# Exibindo a coluna com o horário e as demais colunas criadas
df_VCM[['hora_fato', 'hora_fato_int', 'faixa_horaria', 'faixa_horaria_6h', 'faixa_horaria_2h']].head(10)

Unnamed: 0,hora_fato,hora_fato_int,faixa_horaria,faixa_horaria_6h,faixa_horaria_2h
179,19:00:00,19,Noite,18h - 00h,18h - 20h
242,10:30:00,10,Manhã,06h - 12h,10h - 12h
291,19:00:00,19,Noite,18h - 00h,18h - 20h
294,18:00:00,18,Noite,18h - 00h,18h - 20h
425,23:40:00,23,Noite,18h - 00h,22h - 00h
535,18:00:00,18,Noite,18h - 00h,18h - 20h
542,18:30:00,18,Noite,18h - 00h,18h - 20h
631,23:00:00,23,Noite,18h - 00h,22h - 00h
679,09:30:00,9,Manhã,06h - 12h,08h - 10h
690,08:00:00,8,Manhã,06h - 12h,08h - 10h


In [55]:
df_VCM['vit_dt_nasc']

179       1981-01-03 00:00:00
242       1996-03-24 00:00:00
291       1996-01-14 00:00:00
294       1974-06-21 00:00:00
425       1985-11-04 00:00:00
                 ...         
413215    2000-05-14 00:00:00
413229    1991-08-09 00:00:00
413230    1965-12-01 01:00:00
413240    1998-12-16 00:00:00
413244    1990-02-10 00:00:00
Name: vit_dt_nasc, Length: 17698, dtype: object

Removendo o horário das datas de nascimento das vítimas e dos autores.

In [56]:
df_VCM['vit_dt_nasc'] = pd.to_datetime(df_VCM['vit_dt_nasc'].astype('str').str.slice(0, 10), errors='coerce')
df_VCM['aut_dt_nasc'] = pd.to_datetime(df_VCM['aut_dt_nasc'].astype('str').str.slice(0, 10), errors='coerce')

## Ordenação das colunas <a id="ordernacao-das-colunas"></a>

### Definindo a nova ordem das colunas

Cria uma nova coluna para especificar o estado do Paraná.

In [57]:
df_VCM['estado'] = 'PR'

### Definindo a nova ordem das colunas

In [59]:
df_VCM = df_VCM[['data_registro', 'hora_registro', 'data_fato', 'hora_fato', 'dia_semana', 'faixa_horaria_2h', 'faixa_horaria_6h', 'classe_motivo', 'mes_fato', 'ano_registro', 'ano_fato', 'registros', 'municipio', 'bairro', 'local_ocorrencia', 'meio_empregado', 'mes_registro', 'vit_dt_nasc', 'vit_idade', 'vit_faixa_etaria', 'vit_cor_pele', 'vit_grau_inst', 'vit_profissao', 'aut_dt_nasc', 'aut_idade', 'aut_faixa_etaria', 'aut_cor_pele', 'aut_grau_inst', 'aut_profissao', 'grau_de_relacionamento', 'faixa_horaria', 'estado', 'id_boletim', 'vitima', 'autor']]

## Exportação dos dados formatados <a id="exportacao-dos-dados-formatados"></a>

In [60]:
df_VCM.to_csv('./dados-tratados/' + dt.datetime.now().strftime('%Y%m%d%H%M%S') + '-df_VCM_PR-pandas.csv', index=False, sep='|', encoding='utf-8')