<a href="https://colab.research.google.com/github/itsnalu/Projeto_CCF425/blob/main/Projeto_CCF425.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Relatório de Análise e Documentação do Código do Projeto SPSafe

---
Integrantes do grupo:
- | 5389 | Ana Luísa Moreira Rodrigues
- | 5377 | Lucas da Costa Moreira          
- | 5373 | Aléxia Karoline Augusta
- | 5798 | Daniel Martins de Abreu          

Projeto desenvolvido para a análise dos dados de criminalidade de São Paulo (SPSafe).

---

# Importação de Bibliotecas e Montagem do Ambiente

No início do código, são importadas as bibliotecas essenciais para a manipulação dos dados:  

In [1]:
import pandas as pd
import numpy as np

Além disso, o código utiliza o módulo `drive` do Google Colab para montar o Google Drive e acessar o arquivo CSV com os dados.

In [2]:
from google.colab import drive
drive.mount('/content/drive')
df= pd.read_csv("/content/drive/MyDrive/SPSafe_2022.csv", delimiter=";")

Mounted at /content/drive


  df= pd.read_csv("/content/drive/MyDrive/SPSafe_2022.csv", delimiter=";")


Foi feita uma análise de quais colunas e seus tipos de dados estão presentes no arquivo importado (aumentar essa descrição)

In [3]:
# Tipos de dados de cada coluna do dataframe
df.dtypes

Unnamed: 0,0
NUM_BO,float64
ANO_BO,int64
CODIGO_BOLETIM,object
NATUREZA_APURADA,object
DATA_OCORRENCIA,object
HORA_OCORRENCIA,object
PERIODO_OCORRENCIA,object
CIDADE,float64
LOGRADOURO,object
NUMERO_LOGRADOURO,float64


In [4]:
pd.set_option('display.max_colwidth', None) #definir a opção para mostrar todo o conteúdo das células
pd.set_option('display.max_rows', None) #definir a opção para mostrar todas as linhas
pd.set_option('display.max_columns', None)  # Exibir todas as colunas do DataFrame
df.head(4)

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO
0,21.0,2022,21/2022,HOMICIDIO DOLOSO,2021-12-31 00:00:00,15:40:00,A TARDE,,DA VEDACAO DA DIVULGACAO DOS DADOS RELATIVOS,,,,RESIDENCIA,,,DEL.POL.PLANTAO BIRIGUI,DEINTER 10 - ARACATUBA,DEL.SEC.ARACATUBA,DM - BIRIGUI,DEINTER 10,SEC ARACATUBA,VITIMA,FEMININO,55.0,1966-08-15,PARDA,,,,,,,,,,,,,,,2021-12-31 00:00:00,,,,,,,,,
1,312.0,2022,312/2022,HOMICIDIO DOLOSO,2022-01-20 00:00:00,07:00:00,PELA MANHA,,PRACA DA BANDEIRA,10.0,,,VIA PUBLICA,-23.550235,-46.639255,08º D.P. BRAS,DECAP,DEL.SEC.1º CENTRO,001 DP - SE,DECAP,1ª SEC,VITIMA,MASCULINO,34.0,1987-02-15,PARDA,DESEMPREGADO,,,,,,,,,,,,,,2022-01-20 09:45:00,,,,,,,,,
2,253.0,2022,253/2022,HOMICIDIO DOLOSO,2022-01-16 00:00:00,05:48:00,DE MADRUGADA,,RUA PRATES,536.0,,,VIA PUBLICA,-23.525989,-46.634852,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,21.0,2000-06-10,PARDA,,,,,,,,,,,,,,,2022-01-16 00:00:00,,,,,,,,,
3,305.0,2022,305/2022,HOMICIDIO DOLOSO,2022-01-22 00:00:00,19:50:00,,,RUA GUARANI,427.0,,,VIA PUBLICA,-23.528916,-46.633914,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,48.0,1974-01-06,PARDA,AUTONOMO(A),,,,,,,,,,,,,,2022-01-22 00:00:00,,,,,,,,,


# Significado e valores de cada coluna

Antes de tratar os dados, é necessário compreender o significado de cada uma das colunas do dataset original; especialmente aquelas que representam algum tipo de categoria ou classificação. Seguem breves explicações para cada uma das colunas, em ordem:

### Dados gerais do boletim de ocorrência

* **NUM BO**: Número do boletim de ocorrência  
* **ANO BO**: Ano do boletim de ocorrência  
* **CODIGO BOLETIM**: Junção do número de boletim com o ano do boletim separados por ‘/’  
* **NATUREZA APURADA**: Tipo de crime cometido  
* **DATA OCORRENCIA**: Data em que o crime ocorreu  
* **HORA OCORRENCIA**: Hora em que o crime ocorreu  
* **PERIODO OCORRENCIA**: Período do dia em que o crime ocorreu  
* **CIDADE**: Código da cidade em que o crime ocorreu, no formato IBGE  
* **LOGRADOURO**: Via em que o crime ocorreu  
* **NUMERO LOGRADOURO**: Número que identifica em uma via o local do crime  
* **BAIRRO**: Bairro em que o crime ocorreu  
* **UF**: Sigla da unidade federativa em que o crime ocorreu  
* **TIPO LOCAL**: Tipo de local em que o crime ocorreu  
* **LATITUDE**: Latitude do ponto em que o crime ocorreu  
* **LONGITUDE**: Longitude do ponto em que o crime ocorreu  
* **DELEGACIA ELABORACAO**: Delegacia em que o boletim de ocorrência foi elaborado  
* **DEPARTAMENTO ELABORACAO**: Departamento em que o boletim de ocorrência foi elaborado  
* **SECCIONAL ELABORACAO**: Seccional em que o boletim de ocorrência foi elaborado  
* **DELEGACIA CIRCUNSCRICAO**: Delegacia de circunscrição  
* **DEPARTAMENTO CIRCUNSCRICAO**: Departamento de circunscrição  
* **SECCIONAL CIRCUNSCRICAO**: Seccional de circunscrição  

### Dados sobre a pessoa envolvida na ocorrência  

* **TIPO PESSOA**: Indica se a pessoa é a vítima ou autora do crime  
* **SEXO PESSOA**: Gênero  
* **IDADE PESSOA**: Idade  
* **DATA NASCIMENTO PESSOA**: Data de nascimento  
* **COR PELE**: Cor de pele  
* **PROFISSAO**: Profissão  

### Dados sobre o veículo envolvido na ocorrência

* **PLACA VEICULO**: Placa do veículo  
* **UF VEICULO**: Unidade federativa do emplacamento  
* **CIDADE VEICULO**: Cidade do emplacamento  
* **COR VEICULO**: Cor do veículo  
* **MARCA VEICULO**: Marca do veículo  
* **MODELO VEICULO**: Modelo do veículo  
* **ANO FABRICACAO**: Ano de fabricação do veículo  
* **ANO MODELO**: Ano do modelo do veículo  
* **TIPO VEICULO**: Tipo de veículo envolvido  

### Dados sobre o telefone celular envolvido na ocorrência

* **MARCA CELULAR**: Marca do celular  
* **QUANT CELULAR**: Quantidade de celulares  

### Outras informações sobre o boletim de ocorrência  

* **BO INICIADO**: Data e hora em que o BO foi iniciado  
* **BO EMITIDO**: Data e hora em que o BO foi concluído  
* **DATA HORA ELABORACAO**: Data e hora de elaboração do BO  
* **DATA COMUNICACAO**: Data em que o BO foi comunicado à delegacia  
* **BO AUTORIA**: Responsável pela realização do BO  
* **FLAGRANTE**: Indica se se trata de uma situação de flagrante  
* **EXAME**: Responsável pelo exame de corpo  
* **SOLUCAO**: Tipo de solução dada ao crime  
* **ESPECIE**: Espécie de patrimônio envolvido no crime  
* **STATUS**: Status do crime  
* **FLAG VITIMA FATAL**: Indica se houve fatalidades  
* **DESDOBRAMENTO**: Desdobramento do caso

#  Ajustes e Conversões de Dados


Esta seção trata das transformações necessárias para garantir que os dados estejam no formato adequado para análise.

## Tratamento de Valores Nulos e Conversão de Tipos



### Tratamento do NUM_BO

Foi feita o preenchimento de registros onde o campo **NUM_BO** é nulo com base no **CODIGO_BOLETIM**, pois eram valores que estavam preenchidos e o grupo notou que o seu padrão era: "número do BO/ ano do BO", apenas foi necessário remover algumas letras em frente ao número.

In [5]:
# Mostra os dados com o número de BO nulo
df[df['NUM_BO'].isna()]

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO
250,,2022,AM2107/2022,HOMICIDIO DOLOSO,2022-02-28 00:00:00,02:20:00,DE MADRUGADA,,RUA CARDEAL ARCOVERDE,950.0,,,TEMPLO E AFINS,,,CORREGEDORIA - PLANTAO,CORREGEDORIA POLICIA CIVIL,DIVISAO CORREGEDORIA DA POLICIA CIVIL,014 DP - PINHEIROS,DECAP,3ª SEC,VITIMA,MASCULINO,20.0,1987-01-23,BRANCA,DESOCUPADO(A),,,,,,,,,,,,,,2022-02-28 00:00:00,,,,,,,,,
869,,2022,BF3900/2022,HOMICIDIO DOLOSO,2022-04-25 00:00:00,02:30:00,DE MADRUGADA,,RODOVIA SP 425,373.0,,,RODOVIA/ESTRADA,,,DEL.POL.PARAPUA,DEINTER 4 - BAURU,DEL.SEC.TUPA,DM - PARAPUA,DEINTER 4,SEC TUPA,VITIMA,MASCULINO,51.0,1971-05-11,BRANCA,,,,,,,,,,,,,,,2022-04-25 00:00:00,,,,,,,,,
2752,,2022,LH5061/2022,HOMICIDIO DOLOSO,2022-12-28 00:00:00,,EM HORA INCERTA,,DA VEDACAO DA DIVULGACAO DOS DADOS RELATIVOS,,,,RESIDENCIA,,,CORREGEDORIA - PLANTAO,CORREGEDORIA POLICIA CIVIL,DIVISAO CORREGEDORIA DA POLICIA CIVIL,034 DP - VILA SONIA,DECAP,3ª SEC,VITIMA,FEMININO,44.0,1978-05-10,BRANCA,NUTRICIONISTA,,,,,,,,,,,,,,2022-12-29 00:00:00,,,,,,,,,


In [6]:
# Extrai apenas o número antes da barra
df['NUM_BO'] = df['NUM_BO'].fillna(
    df['CODIGO_BOLETIM'].str.extract(r'\D*(\d+)/\d{4}')[0].astype(float)
)

In [7]:
# Converte a coluna NUM_BO para inteiro
df['NUM_BO'] = df['NUM_BO'].astype('int')


### Conversão de datas

O código utiliza `pd.to_datetime` para converter as colunas de data, devido as funções do próprio python que vão lidar melhor com esse tipo.

In [8]:
# Converte para datetime e transforma os valores nulos em NaT (Not a Time)
df['DATA_OCORRENCIA'] = pd.to_datetime(df['DATA_OCORRENCIA'], errors='coerce')
df['DATA_NASCIMENTO_PESSOA'] = pd.to_datetime(df['DATA_NASCIMENTO_PESSOA'], errors='coerce')
df['DATA_HORA_ELABORACAO'] = pd.to_datetime(df['DATA_HORA_ELABORACAO'], errors='coerce')
df['DATA_COMUNICACAO'] = pd.to_datetime(df['DATA_COMUNICACAO'], errors='coerce')

### Tratamento de Códigos de Cidade e Integração com Dados do IBGE

### Conversão de cidade e remoção de dados

O grupo percebeu que durante a leitura dos dados, a coluna `CIDADE` não continha o nome das cidades como mencionado no artigo e sim os códigos do [IBGE](https://www.ibge.gov.br/explica/codigos-dos-municipios.php) referentes as essas cidades. Dessa maneira, decidimos analisar se todos eles eram no estado de São Paulo.

A primeira divergência com poucas linhas atrbuídas foi uma cidade do Paraná, e por ter poucos dados atrelados a ela foi teve todas as suas linhas removidas.

In [9]:
# Remove cidade com o código do IBGE "4123824.0" que não se refere a São Paulo e possui poucos dados
df.drop(df[df['CIDADE'] == 4123824.0].index, inplace=True)

A segunda divergência foi um valor que não dizia respeito a nenhuma cidade, portanto os dados com a coluna `CIDADE` com o valor "-1.0" também foram removidos do dataset.

In [10]:
# Remove cidade com o código do IBGE "-1.0" que não se refere a São Paulo
df.drop(df[df['CIDADE'] == -1.0].index, inplace=True)

Notamos que existem 21.807 dados com o código do IBGE de uma cidade chamada "Santo André" na Paraíba. No entanto, também existe uma cidade chamada "Santo André" em São Paulo. Dessa forma, os 17 logradouros com o maior número de dados foram pesquisados manualmente com a intenção de verificar se pertencem a esse município em São Paulo e todos corresponderam.

| LOGRADOUROS PESQUISADOS                     | Quantidade |
|---------------------------------------------|------------|
| AVENIDA DOS ESTADOS                         | 570        |
| RUA ITAMBE                                  | 305        |
| AVENIDA INDUSTRIAL                          | 269        |
| RUA ORATORIO                                | 228        |
| AVENIDA DOM PEDRO I                         | 192        |
| AVENIDA DOM PEDRO II                        | 157        |
| AVENIDA CAPITAO MARIO TOLEDO DE CAMARGO     | 144        |
| ESTRADA DO PEDROSO                          | 141        |
| AVENIDA ITAMARATI                           | 132        |
| RUA CARIJOS                                 | 130        |
| RUA GENERAL GLICERIO                        | 124        |
| ESTRADA CATA PRETA                          | 117        |
| AVENIDA PEREIRA BARRETO                     | 114        |
| AVENIDA QUEIROS FILHO                       | 107        |
| AVENIDA QUEIROS DOS SANTOS                  | 103        |
| AVENIDA VALENTIM MAGALHAES                  | 100        |
| RUA CORONEL OLIVEIRA LIMA                   | 98         |

 Logo, a coluna referente a cidade de Paraíba (2513851) será alterada para o código do IBGE referente a cidade de São Paulo (3547809).

In [11]:
# Alterando a coluna 'CIDADE' de 2513851.0 para 3547809.0
df.loc[df["CIDADE"] == 2513851.0, "CIDADE"] = '3547809.0'


  df.loc[df["CIDADE"] == 2513851.0, "CIDADE"] = '3547809.0'


### Conversão do código da cidade para cidade no IBGE


Foi feita a integração com um dataset externo com dados do IBGE permite que os códigos sejam convertidos em nomes, facilitando a interpretação das colunas `CIDADE` e `CIDADE_VEICULO`.  Durante essa conversão, nota-se que a coluna `CIDADE_VEICULO` possui dados que não se limitam ao município de São Paulo, mas pertencem também a outros estados.

Importaremos a biblioteca cKDTree para podermos fazer uma busca mais rapida

In [12]:
from scipy.spatial import cKDTree

In [13]:
#Converter de float para string
df['CIDADE'] = df['CIDADE'].astype('string')
df['CIDADE_VEICULO'] = df['CIDADE_VEICULO'].astype('string')

#Altera os valores nulos em CIDADE por "DESCONHECIDO"
df['CIDADE'] = df['CIDADE'].fillna('DESCONHECIDO')
df['CIDADE_VEICULO'] = df['CIDADE_VEICULO'].fillna('DESCONHECIDO')

Podemos tentar adicionar cidades por meio da latitude e longitude já que temos varias cidade com valores desconhecido

In [14]:
# Vamos identificar as linhas onde CIDADE é nula ou 'DESCONHECIDO' e onde existem valores válidos em LATITUDE e LONGITUDE
cidades_nulas = df['CIDADE'].isna() | (df['CIDADE'] == 'DESCONHECIDO')
lat_long_validos = df['LATITUDE'].notna() & df['LONGITUDE'].notna()
cidades_lat_long = cidades_nulas & lat_long_validos

In [15]:
#Carregar o dataframe do IBGE com os dados dos municípios
url = "https://raw.githubusercontent.com/kelvins/municipios-brasileiros/refs/heads/main/csv/municipios.csv"
df_ibge = pd.read_csv(url, delimiter=",", low_memory=False)

In [16]:
# Coordenadas do IBGE
ibge_coords = df_ibge[['latitude', 'longitude']].values
tree = cKDTree(ibge_coords)

Podemos verificar que temos essa quantidade de CIDADES que estão como desconhecido

In [17]:
cidades_desconhecidas = (df['CIDADE'] == 'DESCONHECIDO').sum()
print(f'Cidades desconhecidas atualmente: {cidades_desconhecidas}')

Cidades desconhecidas atualmente: 695437


In [18]:
# Coordenadas das linhas com cidade desconhecida
coords_para_busca = df.loc[cidades_lat_long, ['LATITUDE', 'LONGITUDE']].values


In [19]:
# Busca da cidade mais próxima com KDTree
distancias, indices_mais_proximos = tree.query(coords_para_busca)

In [20]:
# Códigos IBGE correspondentes às coordenadas encontradas
codigos_ibge_encontrados = df_ibge.iloc[indices_mais_proximos]['codigo_ibge'].astype(str).values

In [21]:
# Preencher a coluna CIDADE com os códigos encontrados
df.loc[cidades_lat_long, 'CIDADE'] = codigos_ibge_encontrados

In [22]:
# Mostrar quantas ainda continuam como 'DESCONHECIDO'
cidades_desconhecidas = (df['CIDADE'] == 'DESCONHECIDO').sum()
print(f'Cidades desconhecidas após preenchimento por coordenada: {cidades_desconhecidas}')

Cidades desconhecidas após preenchimento por coordenada: 111365


Tambem faremos o oposto uma vez que pode ser util para frente

In [23]:
# Identifica as linhas onde LATITUDE ou LONGITUDE são nulas, mas onde há um código IBGE válido na coluna CIDADE
lat_long_nulos = df['LATITUDE'].isna() | df['LONGITUDE'].isna()
cidade_validas = df['CIDADE'].notna() & (df['CIDADE'] != 'DESCONHECIDO')
lat_long_cidade = lat_long_nulos & cidade_validas

In [24]:
# Função auxiliar: dado o código IBGE, retorna a latitude e longitude da base do IBGE
def posicaoIBGE(codigo_ibge, df_ref):
    # Como o código IBGE pode estar como string, convertemos para float para garantir a comparação correta
    row_ref = df_ref[df_ref['codigo_ibge'] == float(codigo_ibge)]
    if not row_ref.empty:
        return row_ref.iloc[0]['latitude'], row_ref.iloc[0]['longitude']
    else:
        return np.nan, np.nan

In [25]:
# Aplicar a função para preencher as coordenadas faltantes
df.loc[lat_long_cidade, ['LATITUDE', 'LONGITUDE']] = df.loc[lat_long_cidade].apply(
    lambda row: pd.Series(posicaoIBGE(row['CIDADE'], df_ibge)), axis=1
)

In [26]:
#Converter a coluna 'CIDADE' para numérico; valores não conversíveis virão como NaN
df['CIDADE_numeric'] = pd.to_numeric(df['CIDADE'], errors='coerce')
df['CIDADE_VEICULO_numeric'] = pd.to_numeric(df['CIDADE_VEICULO'], errors='coerce')

In [27]:
# Realiza o merge com o dataframe do IBGE para obter o nome da cidade
df = pd.merge(
    df,
    df_ibge[['codigo_ibge', 'nome']],
    left_on='CIDADE_numeric',
    right_on='codigo_ibge',
    how='left'
)

# Cria a nova coluna NOME_CIDADE com os nomes mapeados e, se não houver correspondência, atribui 'DESCONHECIDO'
df['NOME_CIDADE'] = df['nome'].fillna('DESCONHECIDO')


In [29]:
df.drop(columns=['CIDADE_numeric', 'codigo_ibge', 'codigo_ibge_y', 'codigo_ibge_x','nome_x', 'nome_y', 'nome'], inplace=True)

KeyError: "['codigo_ibge_y', 'codigo_ibge_x', 'nome_x', 'nome_y'] not found in axis"

In [30]:
df = pd.merge(
    df,
    df_ibge[['codigo_ibge', 'nome']],
    left_on='CIDADE_VEICULO_numeric',
    right_on='codigo_ibge',
    how='left'
)
df['CIDADE_VEICULO'] = df['nome'].fillna('DESCONHECIDO')

KeyError: 'nome'

# Tratamento de DELEGACIA_ELABORACAO e DELEGACIA_CIRCUNSCRICAO

In [31]:
# Verifica se todas as linhas têm a mesma delegacia nas duas colunas
sao_iguais = (df['DELEGACIA_ELABORACAO'] == df['DELEGACIA_CIRCUNSCRICAO']).all()

print("Delegacias são idênticas:", sao_iguais)

Delegacias são idênticas: False


In [32]:
freq_elaboracao = df['DELEGACIA_ELABORACAO'].value_counts()
freq_circunscricao = df['DELEGACIA_CIRCUNSCRICAO'].value_counts()
print(freq_elaboracao.sum())
print(freq_circunscricao.sum())


720411
720411


In [33]:
divergencias = df[df['DELEGACIA_ELABORACAO'] != df['DELEGACIA_CIRCUNSCRICAO']]
divergencias[['DELEGACIA_ELABORACAO', 'DELEGACIA_CIRCUNSCRICAO']].drop_duplicates()


Unnamed: 0,DELEGACIA_ELABORACAO,DELEGACIA_CIRCUNSCRICAO
0,DEL.POL.PLANTAO BIRIGUI,DM - BIRIGUI
1,08º D.P. BRAS,001 DP - SE
2,02º D.P. BOM RETIRO,002 DP - BOM RETIRO
4,02º D.P. BOM RETIRO,003 DP - CAMPOS ELISIOS
6,08º D.P. BRAS,008 DP - BRAS
8,08º D.P. BRAS,012 DP - PARI
10,91º D.P. CEASA,023 DP - PERDIZES
11,89º D.P. JARDIM TABOAO,037 DP - CAMPO LIMPO
15,33º D.P. PIRITUBA,046 DP - PERUS
17,14º D.P. PINHEIROS,051 DP - BUTANTA


Podemos escolher uma como prioridade, mas não podemos relacionar uma com a outra com base nos dados que temos, uma vez que existem muitos dados com diferenças não trataveis. Tem DELEGACIA_ELABORAÇÃO não se relaciona diretamente com a
 DELEGACIA_CIRCUNSCRIÇÃO tem muitos dados em que elas são completamente diferentes


### Conversão Flagrante

In [34]:
# Converte a coluna para string e preenche os valores nulos com "DESCONHECIDO"
df['FLAGRANTE'] = df['FLAGRANTE'].astype('string').fillna('DESCONHECIDO')

### Conversão FLAG_VITIMA_FATAL

In [35]:
# Converte a coluna para string e preenche os valores nulos com "DESCONHECIDO"
df['FLAG_VITIMA_FATAL'] = df['FLAG_VITIMA_FATAL'].astype('string').fillna('DESCONHECIDO')

### Conversão de várias colunas para String

As colunas também tiveram preenchimento dos dados nulos (naN- not a Number) para a string "DESCONHECIDO", para melhor clareza. Segue abaixo lista de colunas convertidas para o tipo string:

* CODIGO_BOLETIM
* NATUREZA_APURADA
* PERIODO_OCORRENCIA
* LOGRADOURO
* BAIRRO
* UF
* TIPO_LOCAL
* DELEGACIA_ELABORACAO
* DEPARTAMENTO_ELABORACAO
* SECCIONAL_ELABORACAO
* DELEGACIA_CIRCUNSCRICAO
* DEPARTAMENTO_CIRCUNSCRICAO
* SECCIONAL_CIRCUNSCRICAO
* TIPO_PESSOA
* SEXO_PESSOA
* COR_PELE
* PROFISSAO
* PLACA_VEICULO
* UF_VEICULO
* MARCA_VEICULO
* MODELO_VEICULO
* TIPO_VEICULO
* MARCA_CELULAR
* BO_AUTORIA
* EXAME
* SOLUCAO
* ESPECIE
* STATUS
* DESDOBRAMENTO

In [36]:
colunas = ['CODIGO_BOLETIM', 'NATUREZA_APURADA', 'PERIODO_OCORRENCIA',
           'LOGRADOURO','BAIRRO','UF','TIPO_LOCAL','DELEGACIA_ELABORACAO',
           'DEPARTAMENTO_ELABORACAO','SECCIONAL_ELABORACAO','DELEGACIA_CIRCUNSCRICAO',
           'DEPARTAMENTO_CIRCUNSCRICAO','SECCIONAL_CIRCUNSCRICAO','TIPO_PESSOA',
           'SEXO_PESSOA','COR_PELE','PROFISSAO','PLACA_VEICULO',
           'UF_VEICULO','COR_VEICULO','MARCA_VEICULO','MODELO_VEICULO','TIPO_VEICULO',
           'MARCA_CELULAR','BO_AUTORIA','EXAME','SOLUCAO','ESPECIE',
           'STATUS','DESDOBRAMENTO']  # Lista das colunas a converter

df[colunas] = df[colunas].astype('string').fillna('DESCONHECIDO')

### Conversão BO_INICIADO e BO_EMITIDO

A conversão para datetime permite fazer cálculos e análises com maior facilidade, além de ser possível calcular a diferença entre duas datas diretamente. Além disso podemos facilmente extrair o ano, mês ou dia de uma data.

In [37]:
df['BO_INICIADO'] = pd.to_datetime(df['BO_INICIADO'], errors='coerce')

In [38]:
df['BO_EMITIDO'] = pd.to_datetime(df['BO_EMITIDO'], errors='coerce')

### Conversão PERIODO_OCORRENCIA

Realiza o tratamento da coluna `PERIODO_OCORRENCIA` para garantir que todos os valores estejam padronizados e em formato `string`:


In [39]:
df['PERIODO_OCORRENCIA'] = df['PERIODO_OCORRENCIA'].fillna('DESCONHECIDO').replace('EM HORA INCERTA', 'DESCONHECIDO').astype('string')

#### Tratamento de veículos diferentes com o mesmo número de boletim

Percebe-se que existem muitos números de boletins com valores repetidos, dessa maneira utilizamos a coluna PLACA_VEICULO que é um dado único de cada carro para verificar se há números de boletins duplicados devido a se referir a um mesmo crime onde houve mais de um veículo envolvido.

In [40]:
# Remove linhas com placa nula
df_validas = df[df['PLACA_VEICULO'].notna()]

# Agrupa por NUM_BO e conta quantas placas únicas existem
placas_por_bo = df_validas.groupby('NUM_BO')['PLACA_VEICULO'].nunique()

# Seleciona apenas os NUM_BO com mais de uma placa diferente
bo_multiplos_veiculos = placas_por_bo[placas_por_bo > 1].index

# Filtra o DataFrame original para mostrar esses boletins
resultado = df_validas[df_validas['NUM_BO'].isin(bo_multiplos_veiculos)]

resultado[['NUM_BO', 'PLACA_VEICULO']].head(20)

Unnamed: 0,NUM_BO,PLACA_VEICULO
0,21,DESCONHECIDO
1,312,DESCONHECIDO
2,253,DESCONHECIDO
3,305,DESCONHECIDO
4,6,DESCONHECIDO
5,7,DESCONHECIDO
6,125,DESCONHECIDO
7,203,DESCONHECIDO
8,77,DESCONHECIDO
9,289,DESCONHECIDO


- Quantos boletins únicos têm mais de um veículo?

In [41]:
print(resultado['NUM_BO'].nunique())

13964


- Quantos veículos únicos (placas distintas)?

In [42]:
print(resultado['PLACA_VEICULO'].nunique())

79037


Como resultado é possível notar que boletins de ocorrência diferentes estão envolvendo o mesmo veículo, e também que os mesmos boletins de ocorrência estão envolvendo veículos diferentes. O que significa pode significar?

# Tratamento de Duplicatas

Observamos que muitos registros possuem o mesmo NUM_BO, mas não correspondem ao mesmo crime – provavelmente por conta de erros de digitação. Para identificar registros únicos, não podemos confiar apenas no campo NUM_BO. Assim, optamos por utilizar a combinação das seguintes colunas para diferenciar cada linha única:

- NUM_BO
- DATA_HORA_ELABORACAO
- DEPARTAMENTO_ELABORACAO
- DATA_NASCIMENTO_PESSOA
- NATUREZA_APURADA

A ideia é agrupar os dados por essas colunas e contar quantas vezes cada combinação ocorre. Identificamos que algumas combinações aparecem mais de uma vez, sendo registros idênticos, o que nos permite removê-los. Para os demais registros, incluímos um identificador específico para garantir que cada BO seja único

In [43]:
# Agrupar pelas colunas e contar as ocorrências
contagens = df.groupby(['NUM_BO','DATA_HORA_ELABORACAO', 'DEPARTAMENTO_ELABORACAO', 'DATA_NASCIMENTO_PESSOA', 'NATUREZA_APURADA']).size().reset_index(name='count')

# Filtrar somente as combinações que aparecem mais de uma vez
duplicados = contagens[contagens['count'] > 1]

print(duplicados['count'].sum())

1482


Exemplo de dado repetido 9 vezes

In [44]:
df[(df['NUM_BO'] == 6.0) &
   (df['DATA_HORA_ELABORACAO'] == '2022-03-01 17:24:57') &
   (df['DEPARTAMENTO_ELABORACAO'] == 'DESCONHECIDO') &
   (df['DATA_NASCIMENTO_PESSOA'] == '2002-06-01') &
   (df['NATUREZA_APURADA'] == 'HOMICIDIO SIMPLES (ART. 121)')]

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO,CIDADE_numeric,CIDADE_VEICULO_numeric,codigo_ibge_x,nome_x,NOME_CIDADE,codigo_ibge_y,nome_y
30201,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,0.0,0.0,DESCONHECIDO,APPLE,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,,
30202,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,0.0,0.0,DESCONHECIDO,SAMSUNG,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,,
30203,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DMG3872,SP,3550308.0,BRANCO,IMP,FIAT PALIO EX,2003.0,2003.0,AUTOMOVEL,APPLE,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,3550308.0,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,3550308.0,São Paulo
30204,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DMG3872,SP,3550308.0,BRANCO,IMP,FIAT PALIO EX,2003.0,2003.0,AUTOMOVEL,SAMSUNG,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,3550308.0,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,3550308.0,São Paulo
30205,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,FWP7D64,SP,3550308.0,BRANCO,VW,GOL 1.0L MC4,2021.0,2022.0,AUTOMOVEL,APPLE,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,3550308.0,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,3550308.0,São Paulo
30206,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,FWP7D64,SP,3550308.0,BRANCO,VW,GOL 1.0L MC4,2021.0,2022.0,AUTOMOVEL,SAMSUNG,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,3550308.0,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,3550308.0,São Paulo
674681,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,0.0,0.0,DESCONHECIDO,DESCONHECIDO,,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,,
674682,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DMG3872,SP,3550308,BRANCO,IMP,FIAT PALIO EX,2003.0,2003.0,AUTOMOVEL,DESCONHECIDO,,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,3550308.0,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,3550308.0,São Paulo
674683,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,3515707,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,FWP7D64,SP,3550308,BRANCO,VW,GOL 1.0L MC4,2021.0,2022.0,AUTOMOVEL,DESCONHECIDO,,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013),3515707.0,3550308.0,3515707.0,Ferraz de Vasconcelos,Ferraz de Vasconcelos,3550308.0,São Paulo


Eliminação de duplicadas

In [45]:
# Definindo as colunas que identificam unicamente cada registro
colunas = ['NUM_BO', 'DATA_HORA_ELABORACAO', 'DEPARTAMENTO_ELABORACAO', 'DATA_NASCIMENTO_PESSOA']

# Removendo as duplicatas com base nessas colunas, mantendo a primeira ocorrência
df = df.drop_duplicates(subset=colunas, keep='first')


Cria um idetificador unico do BO

In [46]:
# Resetar o índice para garantir que ele seja sequencial
df = df.reset_index(drop=True)

# Criar uma nova coluna 'ID_BO' que contém um identificador único para cada registro
df['ID_BO'] = df.index + 1

# Exibir as primeiras linhas do DataFrame para conferir
df.head()

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO,CIDADE_numeric,CIDADE_VEICULO_numeric,codigo_ibge_x,nome_x,NOME_CIDADE,codigo_ibge_y,nome_y,ID_BO
0,21,2022,21/2022,HOMICIDIO DOLOSO,2021-12-31,15:40:00,A TARDE,DESCONHECIDO,DA VEDACAO DA DIVULGACAO DOS DADOS RELATIVOS,,DESCONHECIDO,DESCONHECIDO,RESIDENCIA,,,DEL.POL.PLANTAO BIRIGUI,DEINTER 10 - ARACATUBA,DEL.SEC.ARACATUBA,DM - BIRIGUI,DEINTER 10,SEC ARACATUBA,VITIMA,FEMININO,55.0,1966-08-15,PARDA,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2021-12-31 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,,,DESCONHECIDO,,,1
1,312,2022,312/2022,HOMICIDIO DOLOSO,2022-01-20,07:00:00,PELA MANHA,3550308,PRACA DA BANDEIRA,10.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.550235,-46.639255,08º D.P. BRAS,DECAP,DEL.SEC.1º CENTRO,001 DP - SE,DECAP,1ª SEC,VITIMA,MASCULINO,34.0,1987-02-15,PARDA,DESEMPREGADO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-20 09:45:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,3550308.0,,3550308.0,São Paulo,São Paulo,,,2
2,253,2022,253/2022,HOMICIDIO DOLOSO,2022-01-16,05:48:00,DE MADRUGADA,3550308,RUA PRATES,536.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.525989,-46.634852,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,21.0,2000-06-10,PARDA,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-16 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,3550308.0,,3550308.0,São Paulo,São Paulo,,,3
3,305,2022,305/2022,HOMICIDIO DOLOSO,2022-01-22,19:50:00,DESCONHECIDO,3550308,RUA GUARANI,427.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.528916,-46.633914,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,48.0,1974-01-06,PARDA,AUTONOMO(A),DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-22 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,3550308.0,,3550308.0,São Paulo,São Paulo,,,4
4,6,2022,6/2022,HOMICIDIO DOLOSO,2022-01-01,,DESCONHECIDO,3550308,PRACA DA REPUBLICA,9.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.542956,-46.641287,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,003 DP - CAMPOS ELISIOS,DECAP,1ª SEC,VITIMA,MASCULINO,,NaT,PARDA,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-01 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,3550308.0,,3550308.0,São Paulo,São Paulo,,,5


# Tratamento de Dados

### Espaço extras e em branco

Nesse trecho, foi feita a alteração de espaço extras e em branco em colunas do tipo object e string pela string "DESCONHECIDO", devido a uma melhor interpretação.

In [47]:
#Passo 1: Selecionar colunas de TEXTO (onde pode haver espaços em branco no lugar de dados ou NaN)
colunas_texto = df.select_dtypes(include=['object', 'string']).columns

#Passo 2: Substituir por DESCONHECIDO
for coluna in colunas_texto:
    df[coluna] = df[coluna].replace(r'^\s*$', 'DESCONHECIDO', regex=True)

#Passo 3: Remover espaços extras no inicio e final de strings para ficar mais "uniforme"
for coluna in colunas_texto:
    df[coluna] = df[coluna].str.strip()

### Deletando outlier de Idade

In [48]:
#Deletando possível outlier considerando a idade e também muitos valores nulos
df.drop(df[df['IDADE_PESSOA'] == 122.0].index, inplace=True)

### Estimativa do Período da Ocorrência

Uma função `atribuir_periodo` é definida para estimar o período do dia com base na hora da ocorrência. Essa função é aplicada para preencher valores nulos na coluna `PERIODO_OCORRENCIA`.

In [49]:
def atribuir_periodo(hora):
    """
    Função que recebe uma string de hora e retorna o período do dia.
    Caso a hora não seja válida, retorna 'EM HORA INCERTA'.
    """
    try:
        # Converte a string para um objeto datetime e extrai a hora
        hora_convertida = pd.to_datetime(hora, format="%H:%M:%S")
        hora_valor = hora_convertida.hour
    except Exception:
        # Se não conseguir converter, retorna NaN
        return pd.NA

    # Define os períodos com base na hora
    if 0 <= hora_valor < 6:
        return "DE MADRUGADA"
    elif 6 <= hora_valor < 12:
        return "PELA MANHA"
    elif 12 <= hora_valor < 18:
        return "A TARDE"
    elif 18 <= hora_valor <= 23:
        return "A NOITE"
    else:
        return "EM HORA INCERTA"

Aplica a função "atribuir_periodo" que passa como parâmetro a linha HORA_OCORRENCIA, o retorno é escrito na coluna PERIODO_OCORRENCIA se for um valor nulo, fazendo uma boa estimativa do possível período da ocorrência.

In [50]:
# Preenche somente os valores nulos de PERIODO_OCORRENCIA
df['PERIODO_OCORRENCIA'] = df.apply(
    lambda row: atribuir_periodo(row['HORA_OCORRENCIA']) if pd.isna(row['PERIODO_OCORRENCIA']) else row['PERIODO_OCORRENCIA'],
    axis=1)

# Criação de novos Atributos

## Faixa etária de idades

A criação do atributo `FAIXA_ETARIA` permite categorizar os indivíduos em "MENOR", "ADULTO" e "IDOSO" com base na idade, por meio da funçao faixa_etaria.

In [51]:
def faixa_etaria(idade):
    if idade < 18:
        return 'MENOR'
    elif idade < 60:
        return 'ADULTO'
    else:
        return 'IDOSO'

df['FAIXA_ETARIA'] = df['IDADE_PESSOA'].apply(faixa_etaria)
df['FAIXA_ETARIA'].value_counts()

Unnamed: 0_level_0,count
FAIXA_ETARIA,Unnamed: 1_level_1
IDOSO,486687
ADULTO,15361
MENOR,1295


In [52]:
# Verificar se há NaN na coluna 'DATA_OCORRENCIA'
nan_data_ocorrencia = df['DATA_OCORRENCIA'].isna()

# Exibir as linhas que contêm NaN na coluna 'DATA_OCORRENCIA'
#print(df[nan_data_ocorrencia])

df = df.dropna(subset=['DATA_OCORRENCIA'])


## Dia da semana

A conversão da data de ocorrência para o dia da semana e o mapeamento para nomes para ajudar na análise temporal dos dados, considerando que há uma pergunta criada que utilizará essa informação.

In [53]:
# Cria coluna do dia da semana:
dias_da_semana = {
    'Monday': 'SEGUNDA-FEIRA',
    'Tuesday': 'TERÇA-FEIRA',
    'Wednesday': 'QUARTA-FEIRA',
    'Thursday': 'QUINTA-FEIRA',
    'Friday': 'SEXTA-FEIRA',
    'Saturday': 'SÁBADO',
    'Sunday': 'DOMINGO'
}

df['DIA_OCORRENCIA'] = df['DATA_OCORRENCIA'].dt.day_name()
df['DIA_OCORRENCIA'] = df['DIA_OCORRENCIA'].map(dias_da_semana)
df['DIA_OCORRENCIA'].head(10)

Unnamed: 0,DIA_OCORRENCIA
0,SEXTA-FEIRA
1,QUINTA-FEIRA
2,DOMINGO
3,SÁBADO
4,SÁBADO
5,SÁBADO
6,DOMINGO
7,SEGUNDA-FEIRA
8,QUINTA-FEIRA
9,SEGUNDA-FEIRA


## Data Hora Ocorrência

Foi criada uma nova coluna chamada DATA_HORA_OCORRENCIA que combina os dados de DATA_OCORRENCIA e HORA_OCORRENCIA, pois pode facilitar a análise de dados para responder uma das perguntas criadas. Facilita extrair as componentes da data, o cálculo de diferença de datas e também possibilita filtrar dados de maneira mais eficiente (podemos por exemplo filtrar por hora).

In [54]:
df['DATA_HORA_OCORRENCIA'] = pd.to_datetime(
    df['DATA_OCORRENCIA'].astype(str) + ' ' + df['HORA_OCORRENCIA'].astype(str),
    errors='coerce'
)

## Conversão DIA_OCORRENCIA e FAIXA_ETARIA

Como esses dois atributos (`DIA_OCORRENCIA` e `FAIXA_ETARIA`) foram criados após o tratamento, suas respectivas conversões precisam estar depois de suas declarações.

In [55]:
colunas = ['DIA_OCORRENCIA','FAIXA_ETARIA']  # Lista das colunas a converter

df[colunas] = df[colunas].astype('string').fillna('DESCONHECIDO')

### Dados convertidos

In [56]:
df.dtypes

Unnamed: 0,0
NUM_BO,int64
ANO_BO,int64
CODIGO_BOLETIM,string[python]
NATUREZA_APURADA,string[python]
DATA_OCORRENCIA,datetime64[ns]
HORA_OCORRENCIA,object
PERIODO_OCORRENCIA,object
CIDADE,string[python]
LOGRADOURO,string[python]
NUMERO_LOGRADOURO,float64


## Criação da categoria de natureza apurada


###Criação das máscaras para filtragem:

In [96]:
# Crimes contra a Pessoa
CrimesPessoa = [
    "PERTURBACAO DO TRABALHO",
    "HOMICIDIO DOLOSO",
    "HOMICIDIO SIMPLES (ART. 121)",
    "HOMICIDIO QUALIFICADO (ART. 121, §2O.)",
    "HOMICIDIO CULPOSO NA DIRECAO DE VEICULO AUTOMOTOR (ART. 302)",
    "LESAO CORPORAL (ART. 129)",
    "LESAO CORPORAL (ART 129 § 9º)",
    "LESAO CORPORAL CULPOSA NA DIRECAO DE VEICULO AUTOMOTOR (ART. 303)",
    "LESAO CORPORAL CULPOSA (ART. 129. §6O.)",
    "LESAO CORPORAL SEGUIDA DE MORTE (ART. 129, §3O.)",
    "AUTO LESAO",
    "ESTUPRO (ART. 213)",
    "A.I.-ESTUPRO (ART.213)",
    "ART. 213 - ESTUPRO",
    "ART. 215A - IMPORTUNACAO SEXUAL",
    "UTILIZAR-SE DE CRIANCA OU ADOLESCENTE EM CENA DE SEXO EXPLICITO (ART. 240)",
    "VIOLENCIA DOMESTICA",
    "VIOLENCIA PSICOLOGICA CONTRA A MULHER (ART. 147-B)",
    "AMEACA (ART. 147)",
    "A.I.-AMEACA (ART. 147)",
    "PERSEGUIR (ART. 147-A)",
    "SEQÜESTRO E CARCERE PRIVADO (ART. 148)",
    "OMISSAO DE SOCORRO (ART. 304)",
    "VIOLACAO DE DOMICILIO (ART. 150)",
    "ATROPELAMENTO",
    "FUGA CONSUMADA",
    "DESAPARECIMENTO DE PESSOA",
    "ABANDONAR IDOSO OU NAO PROVER SUAS NECESSIDADES ( ART.98)",
    "APROPRIAR-SE DE BENS DO IDOSO (ART. 102)",
    "VIAS DE FATO (ART. 21)",
    "DESCUMPRIMENTO DE MEDIDA PROTETIVA DE URGENCIA (ART. 24-A)",
    "A.I.-INJURIA REAL (ART. 140, §2O.)",
    "ESTUPRO DE VULNERAVEL (ART.217-A)",
    "A.I.-HOMICIDIO SIMPLES (ART. 121)",
    "A.I.-LESAO CORPORAL (ART. 129 §12)",
    "EVASAO MEDIANTE VIOLENCIA CONTRA A PESSOA (ART. 352)",
    "TORTURA (ART. 1º)",
    "PERIGO PARA A VIDA OU SAUDE DE OUTREM (ART. 132)",
    "ART. 216A - ASSEDIO SEXUAL",
    "88-PRATICAR, INDUZIR OU INCITAR DISCRIMINACAO DE PESSOA",
    "CONSTRANGIMENTO ILEGAL",
    "A.I. LESAO CORPORAL",
    "ABANDONO DE INCAPAZ (ART. 133)",
    "PRATICAR A DISCRIMINACAO",
    "V - DIVULGAR A CONDICAO DO PORTADOR DO HIV OU DE DOENTE DE AIDS, COM INTUITO",
    "A.I.-ESTUPRO (ART.213)	"
]
maskPessoa = df['NATUREZA_APURADA'].apply(lambda x: any(kw in str(x) for kw in CrimesPessoa))

# Crimes contra o Patrimônio
CrimesPatrimoniais = [
    # Furtos e variantes
    "FURTO",
    "FURTO (ART. 155) - INTERIOR DE VEICULO",
    "FURTO (ART. 155) - TRANSEUNTE",
    "FURTO (ART. 155) - OUTROS",
    "FURTO (ART. 155) - ESTABELECIMENTO COMERCIAL",
    "FURTO (ART. 155) - VEICULO",
    "FURTO QUALIFICADO (ART. 155, §4O.) - INTERIOR DE VEICULO",
    "FURTO QUALIFICADO (ART. 155, §4O.) - RESIDENCIA",
    "FURTO (ART. 155) - RESIDENCIA",
    "FURTO QUALIFICADO (ART. 155, §4O.) - ESTABELECIMENTO COMERCIAL",
    "FURTO (ART. 155) - APLICATIVO DE MOBILIDADE URBANA",
    "FURTO (ART. 155) - CONDOMINIO RESIDENCIAL",
    "A.I.-FURTO (ART. 155) - RESIDENCIA",
    "FURTO (ART. 155) - INTERIOR ESTABELECIMENTO",
    "FURTO QUALIFICADO (ART. 155, §4O.) - OUTROS",
    "FURTO QUALIFICADO (ART. 155, §4O.) - TRANSEUNTE",
    "FURTO (ART. 155) - INTERIOR TRANSPORTE COLETIVO",
    "FURTO QUALIFICADO (ART. 155, §4O.) - ESTABELECIMENTO ENSINO",
    "FURTO QUALIFICADO (ART. 155, §4O.) - CONDOMINIO RESIDENCIAL",
    "FURTO (ART. 155) - ESTABELECIMENTO-OUTROS",
    "FURTO (ART. 155) - CONDOMINIO COMERCIAL",
    "FURTO QUALIFICADO (ART. 155, §4O.) - INTERIOR ESTABELECIMENTO",
    # Roubos e variantes
    "LATROCINIO",
    "ROUBO (ART. 157)",
    "ROUBO (ART. 157) - VEICULO",
    "A.I.-FURTO (ART. 155) - TRANSEUNTE",
    "ROUBO (ART. 157) - RESIDENCIA",
    "ROUBO (ART. 157) - OUTROS",
    "ROUBO (ART. 157) - TRANSEUNTE",
    "ROUBO (ART. 157) - ESTABELECIMENTO COMERCIAL",
    "ROUBO (ART. 157) - CARGA",
    "ROUBO (ART. 157) - INTERIOR DE VEICULO",
    "ROUBO (ART. 157) - INTERIOR ESTABELECIMENTO",
    "ROUBO (ART. 157) - ESTABELECIMENTO-OUTROS",
    "ROUBO (ART. 157) - APLICATIVO DE MOBILIDADE URBANA",
    "ROUBO (ART. 157) - CONDOMINIO RESIDENCIAL",
    "ROUBO (ART. 157) - SAIDINHA DE BANCO",
    "A.I.-ROUBO (ART. 157) - TRANSEUNTE",
    "A.I.-ROUBO (ART. 157) - ESTABELECIMENTO COMERCIAL",
    "A.I.-ROUBO (ART. 157) - VEICULO",
    "A.I.-ROUBO (ART. 157) - INTERIOR ESTABELECIMENTO",
    "A.I.-ROUBO (ART. 157) - APLICATIVO DE MOBILIDADE URBANA",
    "A.I.-ROUBO (ART. 157) - CARGA",
    # Demais delitos patrimoniais
    "ESTELIONATO (ART. 171)",
    "APROPRIACAO INDEBITA (ART. 168)",
    "DANO (ART. 163)",
    "DANO QUALIFICADO (ART.163,PAR.UNICO, III)",
    "DANO QUALIFICADO (ART.163,PAR.UNICO, IV)",
    "A.I.-DANO (ART. 163)",
    "PERDA/EXTRAVIO",
    "MOEDA FALSA (ART. 289)",
    "COLISAO",
    "LOCALIZACAO/APREENSAO E ENTREGA DE VEICULO",
    "LOCALIZACAO/APREENSAO E ENTREGA DE OBJETO",
    "LOCALIZACAO/APREENSAO DE OBJETO",
    "FURTO (ART. 155) - SAIDINHA DE BANCO",
    "FURTO QUALIFICADO (ART. 155, §4O.) - SAIDINHA DE BANCO",
    "FURTO DE COISA COMUM (ART. 156) - OUTROS",
    "FURTO DE COISA COMUM (ART. 156) - TRANSEUNTE",
    "FURTO DE COISA COMUM (ART. 156) - RESIDENCIA",
    "FURTO DE COISA COMUM (ART. 156) - VEICULO",
    "FURTO DE COISA COMUM (ART. 156) - INTERIOR DE VEICULO",
    "FURTO DE COISA COMUM (ART. 156) - ESTABELECIMENTO COMERCIAL",
    "FURTO DE COISA COMUM (ART. 156) - CAIXA ELETRONICO",
    "FURTO DE COISA COMUM (ART. 156) - ESTABELECIMENTO-OUTROS",
    "FURTO DE COISA COMUM (ART. 156) - INTERIOR TRANSPORTE COLETIVO",
    "A.I.-FURTO QUALIFICADO (ART. 155, §4O.) - OUTROS",
    "A.I.-FURTO QUALIFICADO (ART. 155, §4O.) - INTERIOR ESTABELECIMENTO",
    "FURTO (ART. 155) - VEICULO COMPARTILHADO",
    "FURTO QUALIFICADO (ART. 155, §4O.) - CONDOMINIO COMERCIAL",
    "EXTORSAO",
    "EXTORSAO (ART. 158) - PESSOA",
    "A.I.-FURTO (ART. 155) - CARGA",
    "RECEPTACAO (ART. 180) - OUTROS",
    "RECEPTACAO (ART. 180) - VEICULO",
    "RECEPTACAO QUALIFICADA (ART. 180, §1O.) - VEICULO",
    "RECEPTACAO QUALIFICADA (ART. 180, §1O.) - CARGA",
    "RECEPTACAO CULPOSA (ART. 180, §3O.) - OUTROS",
    "SUPRESSAO DE DOCUMENTO (ART. 305)",
    "RETENCAO DE DOCUMENTO (ART. 3º)",
    "ALTERACAO DE LIMITES (ART. 161)",
    "CAPOTAMENTO",
    "ABALROAMENTO",
    "REPRODUCAO OU ADULTERACAO DE SELO OU PECA FILATELICA (ART. 303)",
    "FURTO (ART. 155) - JOALHERIA",
    "FURTO (ART. 155) - CARGA",
    "FURTO (ART. 155)",
    "A.I.-FURTO (ART. 155) - OUTROS",
    "DANO EM COISA DE VALOR ARTISTICO, ARQUEOLOGICO OU HISTORICO (ART. 165)"
]
maskPatrimonial = df['NATUREZA_APURADA'].apply(lambda x: any(kw in str(x) for kw in CrimesPatrimoniais))

# Crimes contra a Administração Pública
CrimesAdmin = [
    "CORRUPCAO ATIVA (ART. 333)",
    "ASSOCIACAO CRIMINOSA (ART. 288)",
    "FRAUDE PROCESSUAL (ART. 347)",
    "FALSIDADE IDEOLOGICA (ART. 299)",
    "FRAUDES E ABUSOS NA FUNDACAO OU ADMINISTRACAO DE SOCIEDADE POR ACOES (ART. 177)",
    "CAPUT CORROMPER OU FACILITAR A CORRUPCAO DE MENOR DE 18 ANOS (244B)",
    "A.I.-ART 2º - PROMOVER, CONSTITUIR, FINANCIAR OU INTEGRAR ORGANIZACAO CRIMINOSA",
    "ASSOCIAREM-SE DUAS OU MAIS PESSOAS - ARTS. 33, CAPUT E § 1O, E 34 (ART.35,CAPUT)",
    "FALSIFICACAO DE DOCUMENTO PUBLICO (ART. 297)",
    "A.I.-DIRIGIR SEM PERMISSAO OU HABILITACAO (ART. 309)",
    "EMBRIAGUEZ AO VOLANTE (ART. 306)",
    "A.I.-ADULTERACAO DE SINAL IDENTIFICADOR DE VEICULO AUTOMOTOR (ART. 311)",
    "FAVORECIMENTO PESSOAL (ART. 348)",
    "OUTRAS FRAUDES (ART. 176)",
    "ADULTERACAO DE SINAL IDENTIFICADOR DE VEICULO AUTOMOTOR (ART. 311)",
    "PERMITIR DIRECAO DE VEICULO AUTOMOTOR A PESSOA NAO HABILITADA (ART. 310)",
    "CORRUPCAO DE MENORES (ART. 218)",
    "USURPACAO DE FUNCAO PUBLICA (ART. 328)",
    "FRAUDES E ABUSOS NA FUNDACAO OU ADMINISTRACAO DE SOCIEDADE POR ACOES (ART. 177)",
    "A.I.-USO DE DOCUMENTO FALSO (ART. 304)",
    "A.I.-FALSA IDENTIDADE (ART. 307)",
    "COACAO NO CURSO DO PROCESSO",
    "RESISTENCIA (ART. 329)"
]
maskAdmin = df['NATUREZA_APURADA'].apply(lambda x: any(kw in str(x) for kw in CrimesAdmin))

# Crimes Ambientais
CrimesAmbientais = [
    "MATAR ESPECIMES DA FAUNA SILVESTRE (ART. 29)",
    "TOMBAMENTO",
    "PRATICAR ATO DE ABUSO A ANIMAIS (ART. 32)"
]
maskAmbientais = df['NATUREZA_APURADA'].apply(lambda x: any(kw in str(x) for kw in CrimesAmbientais))

# Crimes de Imprensa e Contra a Honra
CrimesImprensaHonra = [
    "CALUNIA (ART. 138)",
    "INJURIA (ART. 140)",
    "DIFAMACAO (ART. 139)",
    "DENUNCIACAO CALUNIOSA (ART. 339)",
    "COMUNICACAO FALSA DE CRIME OU CONTRAVENCAO (ART. 340)",
    "DESACATO (ART. 331)",
    "A.I.-INJURIA (ART. 140)",
    "DIVULGACAO DE CENA DE ESTUPRO E IMAGENS DE NUDEZ, SEXO OU PORNOGRAFIA(ART.218-C)",
    "USO ILEGITIMO DE UNIFORME OU DISTINTIVO (ART. 46)"
]
maskImprensaHonra = df['NATUREZA_APURADA'].apply(lambda x: any(kw in str(x) for kw in CrimesImprensaHonra))

# Crimes contra a Propriedade Imaterial
CrimesPropriedadeImaterial = [
    "FALSIFICACAO DE DOCUMENTO PARTICULAR OU FALSIFICACAO DE CARTAO",
    "USO DE DOCUMENTO FALSO (ART. 353)",
    "USO DE DOCUMENTO FALSO (ART. 304)",
    "FALSIFICACAO DE SELO OU SINAL PUBLICO (ART. 296)",
    "REPRODUCAO OU ADULTERACAO DE SELO OU PECA FILATELICA (ART. 303)"
]
maskPropriedadeImaterial = df['NATUREZA_APURADA'].apply(lambda x: any(kw in str(x) for kw in CrimesPropriedadeImaterial))

# Itens que não se encaixam claramente nas categorias acima
Outros = [
    "MORTE SUSPEITA",
    "OUTROS NAO CRIMINAL",
    "PENDENTE DE VALIDACAO",
    "INDEFERIDO",
    "ESTRITO CUMPRIMENTO DEVER LEGAL (ART. 23, III)",
    "LEGITIMA DEFESA (ART. 23, II)",
    "INVASAO DE DISPOSITIVO INFORMATICO",
    "DELITOS DE INFORMATICA",
    "FUGA DE LOCAL DE ACIDENTE (ART. 305)",
    "CAPTURA DE PROCURADO",
    "EXERCICIO ARBITRARIO DAS PROPRIAS RAZOES (ART. 345)",
    "MAUS-TRATOS (ART. 136)",
    "ESTADO DE NECESSIDADE (ART. 23, I)",
    "INVADIR OU ADENTRAR, CLANDESTINA OU ASTUCIOSAMENTE, OU A REVELIA DA... (ART.22)",
    "EXCESSO NA COBRANCA DE DIVIDAS (ART. 71)",
    "USURA PECUNIARIA OU REAL (ART. 4º)",
    "COMUNICACAO DE OBITO",
    "QUEDA ACIDENTAL",
    "ENCONTRO DE PESSOA",
    "RETER CARTAO MAGNETICO OU OUTRO DOCUMENTO (ART. 104)",
    "CHOQUE",
    "DROGAS PARA CONSUMO PESSOAL SEM AUTORIZACAO OU EM DESACORDO (ART.28,CAPUT)",
    "POSSE IRREGULAR DE ARMA DE FOGO DE USO PERMITIDO (ART.16)",
    "DROGAS SEM AUTORIZACAO OU EM DESACORDO (ART.33, CAPUT)",
    "AUTO-ACUSACAO FALSA (ART. 341)",
    "COMUNICACAO DE OBITO",
    "POSSE OU PORTE ILEGAL DE ARMA DE FOGO DE USO RESTRITO (ART. 16)",
    "DISPARO DE ARMA DE FOGO (ART. 15)",
    "TRAFEGAR EM VELOCIDADE INCOMPATIVEL (ART. 311)",
    "A.I.-DESACATO (ART. 331)",
    "FALSIFICACAO DE SELO OU SINAL PUBLICO (ART. 296)",
    "SUICIDIO TENTADO",
    "RECEPTACAO (ART. 180)",
    "ENCONTRO DE PESSOA",
    "A.I.-DROGAS PARA CONSUMO PESSOAL SEM AUTORIZACAO OU EM DESACORDO (ART.28,CAPUT)",
    "DISPARO DE ARMA DE FOGO (ART. 28)",
    "EXCESSO NA COBRANCA DE DIVIDAS (ART. 71)",
    "COMUNICACAO DE OBITO",
    "A.I.-CONSTRANGIMENTO ILEGAL (ART. 146)",
    "INDUZIR, INSTIGAR OU AUXILIAR ALGUEM AO USO INDEVIDO DE DROGA(ART.33,§2º)",
    "ABORTO PROVOCADO POR TERCEIRO SEM O CONSENTIMENTO DA GESTANTE (ART. 125)",
    "A.I.-SEQUESTRO E CARCERE PRIVADO (ART. 148)",
    "RECUSA DADOS SOBRE PROPRIA IDENTIDADE/QUALIFIC. (ART. 68)",
    "OMISSAO DE CAUTELA (ART. 13, CAPUT)",
    "A.I.-INCENDIO (ART. 250, CAPUT)",
    "DANO QUALIFICADO (ART.163,PAR.UNICO, II)",
    "EXTORSAO MEDIANTE SEQÜESTRO (ART. 159) - CAIXA ELETRONICO",
    "EXTORSAO MEDIANTE SEQÜESTRO (ART. 159) - PESSOA",
    "A.I.-CONSTRANGIMENTO ILEGAL (ART. 146)",
    "POSSE NAO JUSTIFICADA DE INSTR. DE EMPR. NO FURTO (ART. 25)",
    "CAPOTAMENTO",
    "COMUNICACAO DE OBITO",
    "A.I.-USO DE DOCUMENTO FALSO (ART. 304)",
    "A.I.-LESAO CORPORAL CULPOSA NA DIRECAO DE VEICULO AUTOMOTOR (ART. 303)",
    "RECEPTACAO CULPOSA (ART. 180, §3O.) - VEICULO",
    "DIRIGIR SEM PERMISSAO OU HABILITACAO (ART. 309)",
    "ENTREGA DE VEICULO",
    "ESTRITO CUMPRIMENTO DE DEVER LEGAL",
    "APROPRIACAO DE COISA HAVIDA POR ERRO",
    "PORTE DE ARMA",
    "ENTREGA DE OBJETO LOCALIZADO",
    "CUMPRIMENTO DE MANDADO DE BUSCA E APREENSAO",
    "POSSE IRREGULAR DE ARMA DE FOGO DE USO PERMITIDO",
    "LOCALIZACAO/APREENSAO DE VEICULO",
    "APREENSAO DE ADOLESCENTE",
    "FALTA DE HABILITACAO PARA DIRIGIR VEICULO (ART. 32)",
    "A.I.-DESOBEDIENCIA (ART. 330)",
    "ART. 308-PARTICIPAR, NA DIRECAO DE VEICULO AUTOMOTOR, EM VIA PUBLICA, DE CORRIDA",
    "APREENSAO DE ADOLESCENTE",
    "A.I.-QUADRILHA OU BANDO (ART. 288)",
    "ART 2º - PROMOVER, CONSTITUIR, FINANCIAR OU INTEGRAR ORGANIZACAO CRIMINOSA",
    "PORTE ILEGAL DE ARMA DE FOGO DE USO PERMITIDO (ART. 14)",
    "DESOBEDIENCIA (ART. 330)",
    "JOGO DE AZAR (ART. 50)",
    "DANO QUALIFICADO",
    "A.I.-DIRECAO PERIGOSA DE VEICULO NA VIA PUBLICA",
    "CUMPRIMENTO DE MANDADO DE PRISAO TEMPORARIA",
    "EVASAO/FUGA DE PACIENTE DE ESTABELECIMENTO HOSPITALAR CONSUMADA",
    "DIRECAO PERIGOSA DE VEICULO NA VIA PUBLICA (ART. 34)"
]
maskOutros = df['NATUREZA_APURADA'].apply(lambda x: any(kw in str(x) for kw in Outros))


###Criação e classificação da coluna para a categoria do crime

In [97]:
def classificar_crime(natureza):
    natureza = str(natureza)
    if any(kw in natureza for kw in CrimesPessoa):
        return 'Pessoa'
    elif any(kw in natureza for kw in CrimesPatrimoniais):
        return 'Patrimonial'
    elif any(kw in natureza for kw in CrimesAdmin):
        return 'Administração Pública'
    elif any(kw in natureza for kw in CrimesAmbientais):
        return 'Ambiental'
    elif any(kw in natureza for kw in CrimesImprensaHonra):
        return 'Imprensa / Honra'
    elif any(kw in natureza for kw in CrimesPropriedadeImaterial):
        return 'Propriedade Imaterial'
    elif any(kw in natureza for kw in Outros):
        return 'Outros'
    else:
        return 'Não classificado'

# Criar nova coluna com a categoria
df['CATEGORIA_CRIME'] = df['NATUREZA_APURADA'].apply(classificar_crime)


In [98]:
df['CATEGORIA_CRIME'].value_counts()

Unnamed: 0_level_0,count
CATEGORIA_CRIME,Unnamed: 1_level_1
Patrimonial,464177
Outros,33030
Pessoa,5271
Administração Pública,125
Imprensa / Honra,77
Ambiental,7
Propriedade Imaterial,2


In [99]:
df[df['CATEGORIA_CRIME'] == 'Não classificado'].head(100)

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO,CIDADE_numeric,CIDADE_VEICULO_numeric,codigo_ibge_x,nome_x,NOME_CIDADE,codigo_ibge_y,nome_y,ID_BO,FAIXA_ETARIA,DIA_OCORRENCIA,DATA_HORA_OCORRENCIA,CATEGORIA_CRIME


# Padronização de marcas de celular e veículo

In [None]:
def padronizar_marca_celular(marca):
    marca = str(marca).strip().upper()

    if any(palavra in marca for palavra in ['SAMSUNG', 'SANSUNG', 'SAMSUMG', 'GALAXY', 'M10', 'SAMSNG', 'SAMSSUNG', 'SANSUMG', 'SAMGUNG']):
        return 'SAMSUNG'
    elif any(palavra in marca for palavra in ['IPHONE', 'IFONE', 'APPLE', 'I PHONE 8']):
        return 'APPLE'
    elif any(palavra in marca for palavra in ['MOTOROLA', 'MOTO']):
        return 'MOTOROLA'
    elif any(palavra in marca for palavra in ['XIAOMI', 'REDMI', 'POCO', 'XIOMI', 'XAIOMI', 'XIOME', 'XAOMI']):
        return 'XIAOMI'
    elif 'ASUS' in marca or 'ZENFONE' in marca:
        return 'ASUS'
    elif 'LG' in marca:
        return 'LG'
    elif 'MULTILASER' in marca or 'LEYSER' in marca:
        return 'MULTILASER'
    elif marca in ['SMARTPHONE', 'CELULAR', 'OUTROS', '356714081167096']:
        return 'DESCONHECIDO'
    else:
        return marca

df['MARCA_CELULAR'] = df['MARCA_CELULAR'].apply(padronizar_marca_celular)

In [None]:
# Limpeza inicial para remover números/caracteres especiais
df['MARCA_VEICULO'] = df['MARCA_VEICULO'].str.replace(r'\d+', '', regex=True).str.strip().str.upper()

mapa_marcas = {}

marcas_variacoes = {
    # Marcas válidas (reconhecidas internacionalmente ou no Brasil)
    'VOLKSWAGEN': ['VW', 'VOLKSWAGEM', 'VOLKWAGEN', 'VOLKS', 'QUANTUM GL 1800'],
    'CHEVROLET': ['GM', 'CHEV', 'CHEVROLT', 'CHEVROLET CAMARO SS 6.2 V8'],
    'FIAT': ['FIAT UNO 1.6', 'IFIAT UNO MILLE EP'],
    'CITROEN': ['CITREN', 'CITROEN PICASSO II20GLXA'],
    'RENAULT': ['REANAULT', 'RENALT'],
    'HYUNDAI': ['HYUNDA', 'HYUNDAY'],
    'MERCEDES-BENZ': ['M.BENZ', 'M.B.', 'M. BENZ', 'MBENZ'],
    'TOYOTA': [
        'TOYOTA ETIOS SD XS', 'TOYOTA ETIOS SD XLS', 'TOYOTA ETIOS SD X',
        'TOYOTA ETIOS HB X', 'TOYOTA ETIOS HB XLS', 'TOYOTA ETIOS HB XS', 'TOYOTA ETIOS HB'
    ],
    'HONDA': ['H', 'R'],
    'NISSAN': ['NISAN', 'NISSAN KICKS SL 1.6 16V FLEX'],
    'FORD': ['FORD KA 1.0', 'FORD RANGER XLT 3.2'],
    'PEUGEOT': ['PEUGEOT 208 GRIFFE 1.6'],
    'BMW': ['BMW 320I SPORT'],
    'AUDI': ['AUDI A4 2.0 TFSI'],
    'VOLVO': ['VOLVO XC60 T8'],
    'SUZUKI': ['JTA-SUZUKI', 'JTA-SUZUKI GSX-S750 AZ'],
    'MITSUBISHI': ['MMC'],
    'YAMAHA': ['Y'],
    'KTM': ['KTM 390 DUKE'],
    'LAND ROVER': ['LR'],
    'IVECO': ['IVECOFIAT'],
    'CHRYSLER': ['CHRY'],
    'JEEP': ['JEEP RENEGADE SPORT 1.8'],
    'DODGE': ['DODGE RAM 2500'],
    'GMC': ['GMC SIERRA 1500'],
    'SCANIA': ['SCANIA R500'],

    # Marcas de motos ou nicho
    'HARLEY-DAVIDSON': ['HARLEY DAVIDSON', 'HARLEYDAVIDSON', 'H.DAVIDSON'],
    'KAWASAKI': ['KAWA'],
    'DAFRA': ['DAFRA 150'],
    'SHINERAY': ['SHINERAY XY 250'],

    # Categorias especiais (não são marcas)
    'DESCONHECIDO': ['XXXXXXX', 'IMP', 'IM', 'REB'],
    'FABRICACAO PROPRIA': ['SOUSA', 'SR.SILVA'],
    'MOTORHOME': ['MOTOR-CASA'],

    # Outros (marcas menos comuns/descontinuadas)
    'GURGEL': ['GURGEL BRASILIA'],
    'TROLLER': ['TROLLER T4'],
    'AGRALE': ['AGRALE MARRUÁ'],

    # Não-marcas ou erros (agrupados em "OUTROS")
    'OUTROS': [
        'MA', 'MR', 'M.A.', 'MO', 'HTA', 'MIA', 'BP', '5W', 'CENTERMARINE 1 B',
        'MEDVID', 'AUTO CROSS', 'SR', 'TRAXX', 'HOME CAR', 'ATMAN', 'HAOBAO',
        'COFAVE', 'SUNDOWN', 'SUNDOW', 'CALOI', 'KASINSKI', 'TITAN', 'BRAMONT',
        'ENGESA', 'MARCOPOLO', 'IVEL', 'RANDON', 'MV AGUSTA', 'BUEL', 'BUELL',
        'PIAGGIO', 'EFFA', 'DAELIM', 'FOTON', 'JTZ', 'JTA', 'TVS', 'AVA', 'IROS', 'DAF'
    ]
}

# Construção do dicionário final
mapa_marcas = {var: marca for marca, variacoes in marcas_variacoes.items() for var in variacoes}

df['MARCA_VEICULO']=df['MARCA_VEICULO'].replace(mapa_marcas)

# Análise exploratória dos dados

**Descrição**: Com os dados preparados e
entendidos, nesta etapa o grupo deve gerar **estatísticas descritivas, gráficos e
tabelas** para conhecer os dados. Todo conhecimento importante extraído deverá ser
documentado e discutido. Pensem fora da caixa e tentem extrair correlações não
óbvias entre os atributos e objetos. Nesta etapa, o objetivo é responder **parte das
perguntas** elaboradas.