# Pré processamento de dados
A base de dados utilizada oferecida pelo (Ministério da Justiça e Segurança Pública)[https://www.gov.br/mj/pt-br/assuntos/sua-seguranca/seguranca-publica/estatistica/download/dnsp-base-de-dados] é um grande compilado de dados de todos os municipios de diversas fontes. Por isso, é possível encontrar informações ausentes, municipios não informados, dados com objetivos diferentes, etc...

Por causa disso, será necessário darmos uma filtrada e manipular esses dados para adequar ao uso dos nossos algoritmos.

In [33]:
import pandas as pd

CAMINHO_ARQUIVO = './BancoVDE 2025.xlsx'

In [34]:
df = pd.read_excel(CAMINHO_ARQUIVO)
df.head(5)

Unnamed: 0,uf,municipio,evento,data_referencia,agente,arma,faixa_etaria,feminino,masculino,nao_informado,total_vitima,total,total_peso,abrangencia,formulario
0,AC,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,,,,10.813,Estadual,Formulário 5
1,AL,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,,,,25.38,Estadual,Formulário 5
2,AM,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,,,,498.023,Estadual,Formulário 5
3,AP,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,,,,4.57,Estadual,Formulário 5
4,BA,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,,,,215.877,Estadual,Formulário 5


In [35]:
# Para nossa pesquisa, colunas como abrangencia, formulário, agente e arma não fazem tanto sentido.
# Além disso a coluna total_peso é referente apenas a crime de apreensão de drogas, e não é relevante para nossa análise.
print(df.columns.tolist())

['uf', 'municipio', 'evento', 'data_referencia', 'agente', 'arma', 'faixa_etaria', 'feminino', 'masculino', 'nao_informado', 'total_vitima', 'total', 'total_peso', 'abrangencia', 'formulario']


In [36]:
# Removendo colunas irrelevantes do dataset
colunas_para_remover = ['abrangencia', 'formulario', 'agente', 'arma', 'total_peso']
df = df.drop(columns=colunas_para_remover)
df.head(5)

Unnamed: 0,uf,municipio,evento,data_referencia,faixa_etaria,feminino,masculino,nao_informado,total_vitima,total
0,AC,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,
1,AL,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,
2,AM,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,
3,AP,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,
4,BA,NÃO INFORMADO,Apreensão de Cocaína,2025-01-01,,,,,,


In [37]:
# A coluna 'municipio' tem um valor 'NÃO INFORMADO' que não é útil para nossa análise, então vamos removê-lo.
df = df[df['municipio'] != 'NÃO INFORMADO']
df.head(5)

Unnamed: 0,uf,municipio,evento,data_referencia,faixa_etaria,feminino,masculino,nao_informado,total_vitima,total
5508,AC,ACRELÂNDIA,Feminicídio,2025-01-01,,0.0,0.0,0.0,0.0,
5509,AC,ASSIS BRASIL,Feminicídio,2025-01-01,,0.0,0.0,0.0,0.0,
5510,AC,BRASILÉIA,Feminicídio,2025-01-01,,0.0,0.0,0.0,0.0,
5511,AC,BUJARI,Feminicídio,2025-01-01,,0.0,0.0,0.0,0.0,
5512,AC,CAPIXABA,Feminicídio,2025-01-01,,0.0,0.0,0.0,0.0,


In [38]:
# Após o tratamento dos dados, podemos observar que a faixa etaria só apresenta valores NaN, o que não é útil para nossa análise.
valores_unicos = df['faixa_etaria'].unique()
print("Valores únicos na coluna 'faixa_etaria':", valores_unicos)
df = df.drop(columns=['faixa_etaria'])

Valores únicos na coluna 'faixa_etaria': [nan]


Agora, com os dados minimamente tratados, iremos tratar algumas inconsistências e remover mais dados irrelevantes.

In [39]:
# Análise da coluna total
df_filtrado = df[df['total'] > 0]
print("Valores únicos na coluna 'evento' após filtragem:", df_filtrado['evento'].unique())
df_filtrado.head(5)

Valores únicos na coluna 'evento' após filtragem: ['Mandado de prisão cumprido']


Unnamed: 0,uf,municipio,evento,data_referencia,feminino,masculino,nao_informado,total_vitima,total
208476,AC,ACRELÂNDIA,Mandado de prisão cumprido,2025-01-01,,,,,4.0
208478,AC,BRASILÉIA,Mandado de prisão cumprido,2025-01-01,,,,,2.0
208479,AC,BUJARI,Mandado de prisão cumprido,2025-01-01,,,,,1.0
208480,AC,CAPIXABA,Mandado de prisão cumprido,2025-01-01,,,,,3.0
208481,AC,CRUZEIRO DO SUL,Mandado de prisão cumprido,2025-01-01,,,,,4.0


Nesse caso, iremos assumir que "Mandado de prisão cumprido" não é necessarimente um crime cometido. Provavelmente, o motivo desse dado estar aqui é a forma como o sistema funciona.
Sendo assim, para evitar qualquer influência, ou resultado enviezado, iremos remover essa coluna e todos os crimes dessa categoria.

In [40]:
df = df.drop(columns=['total'])
df = df[~(df['evento'] == 'Mandado de prisão cumprido')]

Além disso, o evento Mortes a esclarecer (sem indício de crime) é declaradamente algo não criminoso. Sendo assim, iremos também remover essa informação

In [41]:
df = df[~(df['evento'] == 'Mortes a esclarecer (sem indício de crime)')]

Outra coisa que é possível perceber é a inconsistência entre a classificação das vitmas. Alguns crimes possuem a separação por gênero e o total de vitmas, outros se concentram apenas no total de vitmas. 

In [42]:
# Situação onde existe uma vítima, mas o gênero não é informado
df_filtrado = df[df['total_vitima'] > 0 & ((df['feminino'] == 0) & (df['masculino'] == 0) & (df['nao_informado'] == 0))]
print("Valores únicos na coluna 'evento' após filtragem por total_vitima > 0:", df_filtrado['evento'].unique())
df_filtrado.head(5)

Valores únicos na coluna 'evento' após filtragem por total_vitima > 0: ['Feminicídio' 'Homicídio doloso' 'Lesão corporal seguida de morte'
 'Morte no trânsito ou em decorrência dele (exceto homicídio doloso)'
 'Roubo seguido de morte (latrocínio)' 'Suicídio'
 'Tentativa de feminicídio' 'Tentativa de homicídio']


Unnamed: 0,uf,municipio,evento,data_referencia,feminino,masculino,nao_informado,total_vitima
5517,AC,MÂNCIO LIMA,Feminicídio,2025-01-01,1.0,0.0,0.0,1.0
5633,AL,VIÇOSA,Feminicídio,2025-01-01,1.0,0.0,0.0,1.0
5641,AM,BARCELOS,Feminicídio,2025-01-01,1.0,0.0,0.0,1.0
5751,BA,BARREIRAS,Feminicídio,2025-01-01,1.0,0.0,0.0,1.0
5778,BA,CAETITÉ,Feminicídio,2025-01-01,1.0,0.0,0.0,1.0


In [43]:
# Garantia que não existem registros onde o total de vítimas é zero, mas existe um gênero informado
df_filtrado = df[((df['feminino'] > 0) | (df['masculino'] > 0) | (df['nao_informado'] > 0)) & (df['total_vitima'] == 0)]
print("Valores únicos na coluna 'evento' após filtragem por gênero:", df_filtrado['evento'].unique())
df_filtrado.head(5)

Valores únicos na coluna 'evento' após filtragem por gênero: []


Unnamed: 0,uf,municipio,evento,data_referencia,feminino,masculino,nao_informado,total_vitima


Para o propósito desse estudo, faz mais sentido apenas olharmos para a quantidade total de vitmas ao invés da caracteristica do dado. Sendo assim, iremos remover essa dimensão da informação.

In [44]:
# Mas antes, vamos garantir que não existe nenhum erro de calculo, onde o total de vítimas é diferente da soma dos gêneros
colunas_soma = ['feminino', 'masculino', 'nao_informado']
df_calc = df[colunas_soma + ['total_vitima']].fillna(0)



soma_partes = df_calc['feminino'] + df_calc['masculino'] + df_calc['nao_informado']

divergencias = df[soma_partes != df_calc['total_vitima']].copy()
divergencias['soma_calculada'] = soma_partes[soma_partes != df_calc['total_vitima']]
divergencias

Unnamed: 0,uf,municipio,evento,data_referencia,feminino,masculino,nao_informado,total_vitima,soma_calculada


Desse modo, confirmamos que não há divergências. Agora vamos remover as colunas de gênero

In [45]:
colunas_para_remover = ['feminino', 'masculino', 'nao_informado']
df = df.drop(columns=colunas_para_remover)
df.head(5)

Unnamed: 0,uf,municipio,evento,data_referencia,total_vitima
5508,AC,ACRELÂNDIA,Feminicídio,2025-01-01,0.0
5509,AC,ASSIS BRASIL,Feminicídio,2025-01-01,0.0
5510,AC,BRASILÉIA,Feminicídio,2025-01-01,0.0
5511,AC,BUJARI,Feminicídio,2025-01-01,0.0
5512,AC,CAPIXABA,Feminicídio,2025-01-01,0.0


Para o estudo, podemos simplificar a granularidade das datas para um intervalo de ano. Como toda a base de dados é de 2025, vamos somar os crimes relacionados em relação ao evento de cada município.
Além disso, vamos fazer um one-hot enconding de todos os tipos de eventos em relação aos municipios a fim de facilicar a intepretação dos algoritmos

In [47]:
df['data_referencia'] = pd.to_datetime(df['data_referencia'])
df_2025 = df[df['data_referencia'].dt.year == 2025]


df_final = df_2025.pivot_table(
    index=['uf', 'municipio'], 
    columns='evento', 
    values='total_vitima', 
    aggfunc='sum',
    fill_value=0 
).reset_index()

df_final.head()

evento,uf,municipio,Feminicídio,Homicídio doloso,Lesão corporal seguida de morte,Morte no trânsito ou em decorrência dele (exceto homicídio doloso),Roubo seguido de morte (latrocínio),Suicídio,Tentativa de feminicídio,Tentativa de homicídio
0,AC,ACRELÂNDIA,0.0,1.0,0.0,4.0,0.0,1.0,1.0,10.0
1,AC,ASSIS BRASIL,0.0,7.0,0.0,2.0,0.0,1.0,1.0,4.0
2,AC,BRASILÉIA,1.0,6.0,0.0,8.0,0.0,4.0,0.0,13.0
3,AC,BUJARI,1.0,1.0,0.0,1.0,0.0,1.0,0.0,8.0
4,AC,CAPIXABA,1.0,1.0,0.0,1.0,0.0,0.0,0.0,5.0


Por curiosidade e validação de dados, vamos ver as cidades com mais ocorrências de cada crime

In [48]:
colunas_crimes = df_final.columns.drop(['uf', 'municipio'])

for crime in colunas_crimes:
    idx_max = df_final[crime].idxmax()

    cidade = df_final.loc[idx_max, 'municipio']
    estado = df_final.loc[idx_max, 'uf']
    valor = df_final.loc[idx_max, crime]
    
    print(f"{crime}: {cidade} ({estado}) com {valor} ocorrências")

Feminicídio: SÃO PAULO (SP) com 63.0 ocorrências
Homicídio doloso: RIO DE JANEIRO (RJ) com 1152.0 ocorrências
Lesão corporal seguida de morte: SÃO PAULO (SP) com 37.0 ocorrências
Morte no trânsito ou em decorrência dele (exceto homicídio doloso): RIO DE JANEIRO (RJ) com 799.0 ocorrências
Roubo seguido de morte (latrocínio): RIO DE JANEIRO (RJ) com 41.0 ocorrências
Suicídio: SÃO PAULO (SP) com 649.0 ocorrências
Tentativa de feminicídio: SÃO PAULO (SP) com 175.0 ocorrências
Tentativa de homicídio: RIO DE JANEIRO (RJ) com 1249.0 ocorrências
