# Relatório de Análise e Documentação do Código do Projeto SPSafe

---
Integrantes do grupo:
- | 5389 | Ana Luísa Moreira Rodrigues
- | 5377 | Lucas da Costa Moreira          
- | 5373 | Aléxia Karoline Augusta
- | 5798 | Daniel Martins de Abreu          

Projeto desenvolvido para a análise dos dados de criminalidade de São Paulo (SPSafe).

---

# Importação de Bibliotecas e Montagem do Ambiente

No início do código, são importadas as bibliotecas essenciais para a manipulação dos dados:  

In [189]:
import pandas as pd
import numpy as np

Além disso, o código utiliza o módulo `drive` do Google Colab para montar o Google Drive e acessar o arquivo CSV com os dados.

In [190]:
from google.colab import drive
drive.mount('/content/drive')
df= pd.read_csv("/content/drive/MyDrive/SPSafe_2022.csv", delimiter=";")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


  df= pd.read_csv("/content/drive/MyDrive/SPSafe_2022.csv", delimiter=";")


Foi feita uma análise de quais colunas e seus tipos de dados estão presentes no arquivo importado (aumentar essa descrição)

In [191]:
# Tipos de dados de cada coluna do dataframe
df.dtypes

Unnamed: 0,0
NUM_BO,float64
ANO_BO,int64
CODIGO_BOLETIM,object
NATUREZA_APURADA,object
DATA_OCORRENCIA,object
HORA_OCORRENCIA,object
PERIODO_OCORRENCIA,object
CIDADE,float64
LOGRADOURO,object
NUMERO_LOGRADOURO,float64


In [192]:
pd.set_option('display.max_colwidth', None) #definir a opção para mostrar todo o conteúdo das células
pd.set_option('display.max_rows', None) #definir a opção para mostrar todas as linhas
pd.set_option('display.max_columns', None)  # Exibir todas as colunas do DataFrame
df.head(4)

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO
0,21.0,2022,21/2022,HOMICIDIO DOLOSO,2021-12-31 00:00:00,15:40:00,A TARDE,,DA VEDACAO DA DIVULGACAO DOS DADOS RELATIVOS,,,,RESIDENCIA,,,DEL.POL.PLANTAO BIRIGUI,DEINTER 10 - ARACATUBA,DEL.SEC.ARACATUBA,DM - BIRIGUI,DEINTER 10,SEC ARACATUBA,VITIMA,FEMININO,55.0,1966-08-15,PARDA,,,,,,,,,,,,,,,2021-12-31 00:00:00,,,,,,,,,
1,312.0,2022,312/2022,HOMICIDIO DOLOSO,2022-01-20 00:00:00,07:00:00,PELA MANHA,,PRACA DA BANDEIRA,10.0,,,VIA PUBLICA,-23.550235,-46.639255,08º D.P. BRAS,DECAP,DEL.SEC.1º CENTRO,001 DP - SE,DECAP,1ª SEC,VITIMA,MASCULINO,34.0,1987-02-15,PARDA,DESEMPREGADO,,,,,,,,,,,,,,2022-01-20 09:45:00,,,,,,,,,
2,253.0,2022,253/2022,HOMICIDIO DOLOSO,2022-01-16 00:00:00,05:48:00,DE MADRUGADA,,RUA PRATES,536.0,,,VIA PUBLICA,-23.525989,-46.634852,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,21.0,2000-06-10,PARDA,,,,,,,,,,,,,,,2022-01-16 00:00:00,,,,,,,,,
3,305.0,2022,305/2022,HOMICIDIO DOLOSO,2022-01-22 00:00:00,19:50:00,,,RUA GUARANI,427.0,,,VIA PUBLICA,-23.528916,-46.633914,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,48.0,1974-01-06,PARDA,AUTONOMO(A),,,,,,,,,,,,,,2022-01-22 00:00:00,,,,,,,,,


# Significado e valores de cada coluna

Antes de tratar os dados, é necessário compreender o significado de cada uma das colunas do dataset original; especialmente aquelas que representam algum tipo de categoria ou classificação. Seguem breves explicações para cada uma das colunas, em ordem:

### Dados gerais do boletim de ocorrência

* **NUM BO**: Número do boletim de ocorrência  
* **ANO BO**: Ano do boletim de ocorrência  
* **CODIGO BOLETIM**: Junção do número de boletim com o ano do boletim separados por ‘/’  
* **NATUREZA APURADA**: Tipo de crime cometido  
* **DATA OCORRENCIA**: Data em que o crime ocorreu  
* **HORA OCORRENCIA**: Hora em que o crime ocorreu  
* **PERIODO OCORRENCIA**: Período do dia em que o crime ocorreu  
* **CIDADE**: Código da cidade em que o crime ocorreu, no formato IBGE  
* **LOGRADOURO**: Via em que o crime ocorreu  
* **NUMERO LOGRADOURO**: Número que identifica em uma via o local do crime  
* **BAIRRO**: Bairro em que o crime ocorreu  
* **UF**: Sigla da unidade federativa em que o crime ocorreu  
* **TIPO LOCAL**: Tipo de local em que o crime ocorreu  
* **LATITUDE**: Latitude do ponto em que o crime ocorreu  
* **LONGITUDE**: Longitude do ponto em que o crime ocorreu  
* **DELEGACIA ELABORACAO**: Delegacia em que o boletim de ocorrência foi elaborado  
* **DEPARTAMENTO ELABORACAO**: Departamento em que o boletim de ocorrência foi elaborado  
* **SECCIONAL ELABORACAO**: Seccional em que o boletim de ocorrência foi elaborado  
* **DELEGACIA CIRCUNSCRICAO**: Delegacia de circunscrição  
* **DEPARTAMENTO CIRCUNSCRICAO**: Departamento de circunscrição  
* **SECCIONAL CIRCUNSCRICAO**: Seccional de circunscrição  

### Dados sobre a pessoa envolvida na ocorrência  

* **TIPO PESSOA**: Indica se a pessoa é a vítima ou autora do crime  
* **SEXO PESSOA**: Gênero  
* **IDADE PESSOA**: Idade  
* **DATA NASCIMENTO PESSOA**: Data de nascimento  
* **COR PELE**: Cor de pele  
* **PROFISSAO**: Profissão  

### Dados sobre o veículo envolvido na ocorrência

* **PLACA VEICULO**: Placa do veículo  
* **UF VEICULO**: Unidade federativa do emplacamento  
* **CIDADE VEICULO**: Cidade do emplacamento  
* **COR VEICULO**: Cor do veículo  
* **MARCA VEICULO**: Marca do veículo  
* **MODELO VEICULO**: Modelo do veículo  
* **ANO FABRICACAO**: Ano de fabricação do veículo  
* **ANO MODELO**: Ano do modelo do veículo  
* **TIPO VEICULO**: Tipo de veículo envolvido  

### Dados sobre o telefone celular envolvido na ocorrência

* **MARCA CELULAR**: Marca do celular  
* **QUANT CELULAR**: Quantidade de celulares  

### Outras informações sobre o boletim de ocorrência  

* **BO INICIADO**: Data e hora em que o BO foi iniciado  
* **BO EMITIDO**: Data e hora em que o BO foi concluído  
* **DATA HORA ELABORACAO**: Data e hora de elaboração do BO  
* **DATA COMUNICACAO**: Data em que o BO foi comunicado à delegacia  
* **BO AUTORIA**: Responsável pela realização do BO  
* **FLAGRANTE**: Indica se se trata de uma situação de flagrante  
* **EXAME**: Responsável pelo exame de corpo  
* **SOLUCAO**: Tipo de solução dada ao crime  
* **ESPECIE**: Espécie de patrimônio envolvido no crime  
* **STATUS**: Status do crime  
* **FLAG VITIMA FATAL**: Indica se houve fatalidades  
* **DESDOBRAMENTO**: Desdobramento do caso

#  Ajustes e Conversões de Dados


Esta seção trata das transformações necessárias para garantir que os dados estejam no formato adequado para análise.

## Tratamento de Valores Nulos e Conversão de Tipos



### Conversão do NUM_BO e remoção de nulos

Foi feita a remoção de registros onde o campo **NUM_BO** é nulo e converte esse campo para inteiro.

In [193]:
# Mostra os dados com o número de BO nulo
df[df['NUM_BO'].isna()]

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO
250,,2022,AM2107/2022,HOMICIDIO DOLOSO,2022-02-28 00:00:00,02:20:00,DE MADRUGADA,,RUA CARDEAL ARCOVERDE,950.0,,,TEMPLO E AFINS,,,CORREGEDORIA - PLANTAO,CORREGEDORIA POLICIA CIVIL,DIVISAO CORREGEDORIA DA POLICIA CIVIL,014 DP - PINHEIROS,DECAP,3ª SEC,VITIMA,MASCULINO,20.0,1987-01-23,BRANCA,DESOCUPADO(A),,,,,,,,,,,,,,2022-02-28 00:00:00,,,,,,,,,
869,,2022,BF3900/2022,HOMICIDIO DOLOSO,2022-04-25 00:00:00,02:30:00,DE MADRUGADA,,RODOVIA SP 425,373.0,,,RODOVIA/ESTRADA,,,DEL.POL.PARAPUA,DEINTER 4 - BAURU,DEL.SEC.TUPA,DM - PARAPUA,DEINTER 4,SEC TUPA,VITIMA,MASCULINO,51.0,1971-05-11,BRANCA,,,,,,,,,,,,,,,2022-04-25 00:00:00,,,,,,,,,
2752,,2022,LH5061/2022,HOMICIDIO DOLOSO,2022-12-28 00:00:00,,EM HORA INCERTA,,DA VEDACAO DA DIVULGACAO DOS DADOS RELATIVOS,,,,RESIDENCIA,,,CORREGEDORIA - PLANTAO,CORREGEDORIA POLICIA CIVIL,DIVISAO CORREGEDORIA DA POLICIA CIVIL,034 DP - VILA SONIA,DECAP,3ª SEC,VITIMA,FEMININO,44.0,1978-05-10,BRANCA,NUTRICIONISTA,,,,,,,,,,,,,,2022-12-29 00:00:00,,,,,,,,,


In [194]:
# Remove os dados com o número do BO nulo (também possuíam muitas outras colunas nulas)
df = df.dropna(subset=['NUM_BO'])

In [229]:
# Converte a coluna NUM_BO para inteiro
df['NUM_BO'] = df['NUM_BO'].astype('int')


### Conversão de datas

O código utiliza `pd.to_datetime` para converter as colunas de data, devido as funções do próprio python que vão lidar melhor com esse tipo.

In [228]:
# Converte para datetime e transforma os valores nulos em NaT (Not a Time)
df['DATA_OCORRENCIA'] = pd.to_datetime(df['DATA_OCORRENCIA'], errors='coerce')
df['DATA_NASCIMENTO_PESSOA'] = pd.to_datetime(df['DATA_NASCIMENTO_PESSOA'], errors='coerce')
df['DATA_HORA_ELABORACAO'] = pd.to_datetime(df['DATA_HORA_ELABORACAO'], errors='coerce')
df['DATA_COMUNICACAO'] = pd.to_datetime(df['DATA_COMUNICACAO'], errors='coerce')

### Tratamento de Códigos de Cidade e Integração com Dados do IBGE

### Conversão de cidade e remoção de dados

O grupo percebeu que durante a leitura dos dados, a coluna `CIDADE` não continha o nome das cidades como mencionado no artigo e sim os códigos do [IBGE](https://www.ibge.gov.br/explica/codigos-dos-municipios.php) referentes as essas cidades. Dessa maneira, decidimos analisar se todos eles eram no estado de São Paulo.

A primeira divergência com poucas linhas atrbuídas foi uma cidade do Paraná, e por ter poucos dados atrelados a ela foi teve todas as suas linhas removidas.

In [197]:
# Remove cidade com o código do IBGE "4123824.0" que não se refere a São Paulo e possui poucos dados
df.drop(df[df['CIDADE'] == 4123824.0].index, inplace=True)

A segunda divergência foi um valor que não dizia respeito a nenhuma cidade, portanto os dados com a coluna `CIDADE` com o valor "-1.0" também foram removidos do dataset.

In [198]:
# Remove cidade com o código do IBGE "-1.0" que não se refere a São Paulo
df.drop(df[df['CIDADE'] == -1.0].index, inplace=True)

Notamos que existem 21.807 dados com o código do IBGE de uma cidade chamada "Santo André" na Paraíba. No entanto, também existe uma cidade chamada "Santo André" em São Paulo. Dessa forma, os 17 logradouros com o maior número de dados foram pesquisados manualmente com a intenção de verificar se pertencem a esse município em São Paulo e todos corresponderam.

| LOGRADOUROS PESQUISADOS                     | Quantidade |
|---------------------------------------------|------------|
| AVENIDA DOS ESTADOS                         | 570        |
| RUA ITAMBE                                  | 305        |
| AVENIDA INDUSTRIAL                          | 269        |
| RUA ORATORIO                                | 228        |
| AVENIDA DOM PEDRO I                         | 192        |
| AVENIDA DOM PEDRO II                        | 157        |
| AVENIDA CAPITAO MARIO TOLEDO DE CAMARGO     | 144        |
| ESTRADA DO PEDROSO                          | 141        |
| AVENIDA ITAMARATI                           | 132        |
| RUA CARIJOS                                 | 130        |
| RUA GENERAL GLICERIO                        | 124        |
| ESTRADA CATA PRETA                          | 117        |
| AVENIDA PEREIRA BARRETO                     | 114        |
| AVENIDA QUEIROS FILHO                       | 107        |
| AVENIDA QUEIROS DOS SANTOS                  | 103        |
| AVENIDA VALENTIM MAGALHAES                  | 100        |
| RUA CORONEL OLIVEIRA LIMA                   | 98         |

 Logo, a coluna referente a cidade de Paraíba (2513851) será alterada para o código do IBGE referente a cidade de São Paulo (3547809).

In [199]:
# Alterando a coluna 'CIDADE' de 2513851.0 para 3547809.0
df.loc[df["CIDADE"] == 2513851.0, "CIDADE"] = 3547809.0


### Conversão do código da cidade para cidade no IBGE


Foi feita a integração com um dataset externo com dados do IBGE permite que os códigos sejam convertidos em nomes, facilitando a interpretação das colunas `CIDADE` e `CIDADE_VEICULO`.  Durante essa conversão, nota-se que a coluna `CIDADE_VEICULO` possui dados que não se limitam ao município de São Paulo, mas pertencem também a outros estados.

In [224]:
#Converter de float para string
df['CIDADE'] = df['CIDADE'].astype('string')
df['CIDADE_VEICULO'] = df['CIDADE_VEICULO'].astype('string')

#Altera os valores nulos em CIDADE por "DESCONHECIDO"
df['CIDADE'] = df['CIDADE'].fillna('DESCONHECIDO')
df['CIDADE_VEICULO'] = df['CIDADE_VEICULO'].fillna('DESCONHECIDO')

In [201]:
#Converter a coluna 'CIDADE' para numérico; valores não conversíveis virão como NaN
df['CIDADE_numeric'] = pd.to_numeric(df['CIDADE'], errors='coerce')
df['CIDADE_VEICULO_numeric'] = pd.to_numeric(df['CIDADE_VEICULO'], errors='coerce')

#Carregar o dataframe do IBGE com os dados dos municípios
url = "https://raw.githubusercontent.com/kelvins/municipios-brasileiros/refs/heads/main/csv/municipios.csv"
df_ibge = pd.read_csv(url, delimiter=",", low_memory=False)

In [202]:
#Realizar o merge utilizando a coluna auxiliar 'CIDADE_numeric'
df = pd.merge(
    df,
    df_ibge[['codigo_ibge', 'nome']],
    left_on='CIDADE_numeric',
    right_on='codigo_ibge',
    how='left'
)
df['CIDADE'] = df['nome'].fillna('DESCONHECIDO')
df = df.drop(columns=['CIDADE_numeric', 'codigo_ibge', 'nome'])

df = pd.merge(
    df,
    df_ibge[['codigo_ibge', 'nome']],
    left_on='CIDADE_VEICULO_numeric',
    right_on='codigo_ibge',
    how='left'
)
df['CIDADE_VEICULO'] = df['nome'].fillna('DESCONHECIDO')
df = df.drop(columns=['CIDADE_VEICULO_numeric', 'codigo_ibge', 'nome'])

### Conversão Flagrante

In [203]:
# Converte a coluna para string e preenche os valores nulos com "DESCONHECIDO"
df['FLAGRANTE'] = df['FLAGRANTE'].astype('string').fillna('DESCONHECIDO')

### Conversão FLAG_VITIMA_FATAL

In [204]:
# Converte a coluna para string e preenche os valores nulos com "DESCONHECIDO"
df['FLAG_VITIMA_FATAL'] = df['FLAG_VITIMA_FATAL'].astype('string').fillna('DESCONHECIDO')

### Conversão de várias colunas para String

As colunas também tiveram preenchimento dos dados nulos (naN- not a Number) para a string "DESCONHECIDO", para melhor clareza. Segue abaixo lista de colunas convertidas para o tipo string:

* CODIGO_BOLETIM
* NATUREZA_APURADA
* PERIODO_OCORRENCIA
* LOGRADOURO
* BAIRRO
* UF
* TIPO_LOCAL
* DELEGACIA_ELABORACAO
* DEPARTAMENTO_ELABORACAO
* SECCIONAL_ELABORACAO
* DELEGACIA_CIRCUNSCRICAO
* DEPARTAMENTO_CIRCUNSCRICAO
* SECCIONAL_CIRCUNSCRICAO
* TIPO_PESSOA
* SEXO_PESSOA
* COR_PELE
* PROFISSAO
* PLACA_VEICULO
* UF_VEICULO
* MARCA_VEICULO
* MODELO_VEICULO
* TIPO_VEICULO
* MARCA_CELULAR
* BO_AUTORIA
* EXAME
* SOLUCAO
* ESPECIE
* STATUS
* DESDOBRAMENTO

In [205]:
colunas = ['CODIGO_BOLETIM', 'NATUREZA_APURADA', 'PERIODO_OCORRENCIA',
           'LOGRADOURO','BAIRRO','UF','TIPO_LOCAL','DELEGACIA_ELABORACAO',
           'DEPARTAMENTO_ELABORACAO','SECCIONAL_ELABORACAO','DELEGACIA_CIRCUNSCRICAO',
           'DEPARTAMENTO_CIRCUNSCRICAO','SECCIONAL_CIRCUNSCRICAO','TIPO_PESSOA',
           'SEXO_PESSOA','COR_PELE','PROFISSAO','PLACA_VEICULO',
           'UF_VEICULO','COR_VEICULO','MARCA_VEICULO','MODELO_VEICULO','TIPO_VEICULO',
           'MARCA_CELULAR','BO_AUTORIA','EXAME','SOLUCAO','ESPECIE',
           'STATUS','DESDOBRAMENTO']  # Lista das colunas a converter

df[colunas] = df[colunas].astype('string').fillna('DESCONHECIDO')

### Conversão BO_INICIADO e BO_EMITIDO

A conversão para datetime permite fazer cálculos e análises com maior facilidade, além de ser possível calcular a diferença entre duas datas diretamente. Além disso podemos facilmente extrair o ano, mês ou dia de uma data.

In [206]:
df['BO_INICIADO'] = pd.to_datetime(df['BO_INICIADO'], errors='coerce')

In [207]:
df['BO_EMITIDO'] = pd.to_datetime(df['BO_EMITIDO'], errors='coerce')

### Conversão PERIODO_OCORRENCIA

Realiza o tratamento da coluna `PERIODO_OCORRENCIA` para garantir que todos os valores estejam padronizados e em formato `string`:


In [226]:
df['PERIODO_OCORRENCIA'] = df['PERIODO_OCORRENCIA'].fillna('DESCONHECIDO').replace('EM HORA INCERTA', 'DESCONHECIDO').astype('string')

# Tratamento de Duplicatas

Observamos que muitos registros possuem o mesmo NUM_BO, mas não correspondem ao mesmo crime – provavelmente por conta de erros de digitação. Para identificar registros únicos, não podemos confiar apenas no campo NUM_BO. Assim, optamos por utilizar a combinação das seguintes colunas para diferenciar cada linha única:

- NUM_BO
- DATA_HORA_ELABORACAO
- DEPARTAMENTO_ELABORACAO
- DATA_NASCIMENTO_PESSOA
- NATUREZA_APURADA

A ideia é agrupar os dados por essas colunas e contar quantas vezes cada combinação ocorre. Identificamos que algumas combinações aparecem mais de uma vez, sendo registros idênticos, o que nos permite removê-los. Para os demais registros, incluímos um identificador específico para garantir que cada BO seja único

In [209]:
# Agrupar pelas colunas e contar as ocorrências
contagens = df.groupby(['NUM_BO','DATA_HORA_ELABORACAO', 'DEPARTAMENTO_ELABORACAO', 'DATA_NASCIMENTO_PESSOA', 'NATUREZA_APURADA']).size().reset_index(name='count')

# Filtrar somente as combinações que aparecem mais de uma vez
duplicados = contagens[contagens['count'] > 1]

print(duplicados['count'].sum())

1482


Exemplo de dado repetido 9 vezes

In [210]:
df[(df['NUM_BO'] == 6.0) &
   (df['DATA_HORA_ELABORACAO'] == '2022-03-01 17:24:57') &
   (df['DEPARTAMENTO_ELABORACAO'] == 'DESCONHECIDO') &
   (df['DATA_NASCIMENTO_PESSOA'] == '2002-06-01') &
   (df['NATUREZA_APURADA'] == 'HOMICIDIO SIMPLES (ART. 121)')]

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO
30198,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,0.0,0.0,DESCONHECIDO,APPLE,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
30199,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,0.0,0.0,DESCONHECIDO,SAMSUNG,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
30200,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DMG3872,SP,São Paulo,BRANCO,IMP,FIAT PALIO EX,2003.0,2003.0,AUTOMOVEL,APPLE,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
30201,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DMG3872,SP,São Paulo,BRANCO,IMP,FIAT PALIO EX,2003.0,2003.0,AUTOMOVEL,SAMSUNG,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
30202,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,FWP7D64,SP,São Paulo,BRANCO,VW,GOL 1.0L MC4,2021.0,2022.0,AUTOMOVEL,APPLE,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
30203,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,FWP7D64,SP,São Paulo,BRANCO,VW,GOL 1.0L MC4,2021.0,2022.0,AUTOMOVEL,SAMSUNG,1.0,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
674678,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,0.0,0.0,DESCONHECIDO,DESCONHECIDO,,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
674679,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,DMG3872,SP,São Paulo,BRANCO,IMP,FIAT PALIO EX,2003.0,2003.0,AUTOMOVEL,DESCONHECIDO,,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)
674680,6,2022,6/2022,HOMICIDIO SIMPLES (ART. 121),2022-03-01,00:30:00,A TARDE,DESCONHECIDO,RUA DOS PEDREIROS,59.0,CIDADE TIRADENTES,SP,VIA PUBLICA,-23.60437,-46.398959,44º D.P. GUAIANAZES,DESCONHECIDO,DESCONHECIDO,54º D.P. CID. TIRADENTES,DESCONHECIDO,DESCONHECIDO,AUTOR/VITIMA,MASCULINO,19.0,2002-06-01,DESCONHECIDO,DESCONHECIDO,FWP7D64,SP,São Paulo,BRANCO,VW,GOL 1.0L MC4,2021.0,2022.0,AUTOMOVEL,DESCONHECIDO,,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01 17:24:57,2022-03-01,CONHECIDA,SIM,DESCONHECIDO,BO PARA FLAGRANTE,TITULO I - PESSOA (ARTS. 121 A 154),CONSUMADO,SIM,MORTE DECORRENTE DE INTERVENCAO POLICIAL (RES. SSP 05 - 07/01/2013)


Eliminação de duplicadas

In [211]:
# Definindo as colunas que identificam unicamente cada registro
colunas = ['NUM_BO', 'DATA_HORA_ELABORACAO', 'DEPARTAMENTO_ELABORACAO', 'DATA_NASCIMENTO_PESSOA']

# Removendo as duplicatas com base nessas colunas, mantendo a primeira ocorrência
df = df.drop_duplicates(subset=colunas, keep='first')


Cria um idetificador unico do BO

In [212]:
# Resetar o índice para garantir que ele seja sequencial
df = df.reset_index(drop=True)

# Criar uma nova coluna 'ID_BO' que contém um identificador único para cada registro
df['ID_BO'] = df.index + 1

# Exibir as primeiras linhas do DataFrame para conferir
df.head()

Unnamed: 0,NUM_BO,ANO_BO,CODIGO_BOLETIM,NATUREZA_APURADA,DATA_OCORRENCIA,HORA_OCORRENCIA,PERIODO_OCORRENCIA,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,BAIRRO,UF,TIPO_LOCAL,LATITUDE,LONGITUDE,DELEGACIA_ELABORACAO,DEPARTAMENTO_ELABORACAO,SECCIONAL_ELABORACAO,DELEGACIA_CIRCUNSCRICAO,DEPARTAMENTO_CIRCUNSCRICAO,SECCIONAL_CIRCUNSCRICAO,TIPO_PESSOA,SEXO_PESSOA,IDADE_PESSOA,DATA_NASCIMENTO_PESSOA,COR_PELE,PROFISSAO,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,COR_VEICULO,MARCA_VEICULO,MODELO_VEICULO,ANO_FABRICACAO,ANO_MODELO,TIPO_VEICULO,MARCA_CELULAR,QUANT_CELULAR,BO_INICIADO,BO_EMITIDO,DATA_HORA_ELABORACAO,DATA_COMUNICACAO,BO_AUTORIA,FLAGRANTE,EXAME,SOLUCAO,ESPECIE,STATUS,FLAG_VITIMA_FATAL,DESDOBRAMENTO,ID_BO
0,21,2022,21/2022,HOMICIDIO DOLOSO,2021-12-31,15:40:00,A TARDE,DESCONHECIDO,DA VEDACAO DA DIVULGACAO DOS DADOS RELATIVOS,,DESCONHECIDO,DESCONHECIDO,RESIDENCIA,,,DEL.POL.PLANTAO BIRIGUI,DEINTER 10 - ARACATUBA,DEL.SEC.ARACATUBA,DM - BIRIGUI,DEINTER 10,SEC ARACATUBA,VITIMA,FEMININO,55.0,1966-08-15,PARDA,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2021-12-31 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,1
1,312,2022,312/2022,HOMICIDIO DOLOSO,2022-01-20,07:00:00,PELA MANHA,DESCONHECIDO,PRACA DA BANDEIRA,10.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.550235,-46.639255,08º D.P. BRAS,DECAP,DEL.SEC.1º CENTRO,001 DP - SE,DECAP,1ª SEC,VITIMA,MASCULINO,34.0,1987-02-15,PARDA,DESEMPREGADO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-20 09:45:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,2
2,253,2022,253/2022,HOMICIDIO DOLOSO,2022-01-16,05:48:00,DE MADRUGADA,DESCONHECIDO,RUA PRATES,536.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.525989,-46.634852,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,21.0,2000-06-10,PARDA,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-16 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,3
3,305,2022,305/2022,HOMICIDIO DOLOSO,2022-01-22,19:50:00,DESCONHECIDO,DESCONHECIDO,RUA GUARANI,427.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.528916,-46.633914,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,002 DP - BOM RETIRO,DECAP,1ª SEC,VITIMA,MASCULINO,48.0,1974-01-06,PARDA,AUTONOMO(A),DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-22 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,4
4,6,2022,6/2022,HOMICIDIO DOLOSO,2022-01-01,,DESCONHECIDO,DESCONHECIDO,PRACA DA REPUBLICA,9.0,DESCONHECIDO,DESCONHECIDO,VIA PUBLICA,-23.542956,-46.641287,02º D.P. BOM RETIRO,DECAP,DEL.SEC.1º CENTRO,003 DP - CAMPOS ELISIOS,DECAP,1ª SEC,VITIMA,MASCULINO,,NaT,PARDA,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,,,DESCONHECIDO,DESCONHECIDO,,NaT,NaT,2022-01-01 00:00:00,NaT,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,DESCONHECIDO,5


# Tratamento de Dados

### Espaço extras e em branco

Nesse trecho, foi feita a alteração de espaço extras e em branco em colunas do tipo object e string pela string "DESCONHECIDO", devido a uma melhor interpretação.

In [213]:
#Passo 1: Selecionar colunas de TEXTO (onde pode haver espaços em branco no lugar de dados ou NaN)
colunas_texto = df.select_dtypes(include=['object', 'string']).columns

#Passo 2: Substituir por DESCONHECIDO
for coluna in colunas_texto:
    df[coluna] = df[coluna].replace(r'^\s*$', 'DESCONHECIDO', regex=True)

#Passo 3: Remover espaços extras no inicio e final de strings para ficar mais "uniforme"
for coluna in colunas_texto:
    df[coluna] = df[coluna].str.strip()

### Deletando outlier de Idade

In [214]:
#Deletando possível outlier considerando a idade e também muitos valores nulos
df.drop(df[df['IDADE_PESSOA'] == 122.0].index, inplace=True)

### Estimativa do Período da Ocorrência

Uma função `atribuir_periodo` é definida para estimar o período do dia com base na hora da ocorrência. Essa função é aplicada para preencher valores nulos na coluna `PERIODO_OCORRENCIA`.

In [215]:
def atribuir_periodo(hora):
    """
    Função que recebe uma string de hora e retorna o período do dia.
    Caso a hora não seja válida, retorna 'EM HORA INCERTA'.
    """
    try:
        # Converte a string para um objeto datetime e extrai a hora
        hora_convertida = pd.to_datetime(hora, format="%H:%M:%S")
        hora_valor = hora_convertida.hour
    except Exception:
        # Se não conseguir converter, retorna NaN
        return pd.NA

    # Define os períodos com base na hora
    if 0 <= hora_valor < 6:
        return "DE MADRUGADA"
    elif 6 <= hora_valor < 12:
        return "PELA MANHA"
    elif 12 <= hora_valor < 18:
        return "A TARDE"
    elif 18 <= hora_valor <= 23:
        return "A NOITE"
    else:
        return "EM HORA INCERTA"

Aplica a função "atribuir_periodo" que passa como parâmetro a linha HORA_OCORRENCIA, o retorno é escrito na coluna PERIODO_OCORRENCIA se for um valor nulo, fazendo uma boa estimativa do possível período da ocorrência.

In [216]:
# Preenche somente os valores nulos de PERIODO_OCORRENCIA
df['PERIODO_OCORRENCIA'] = df.apply(
    lambda row: atribuir_periodo(row['HORA_OCORRENCIA']) if pd.isna(row['PERIODO_OCORRENCIA']) else row['PERIODO_OCORRENCIA'],
    axis=1)

# Criação de novos Atributos

## Faixa etária de idades

A criação do atributo `FAIXA_ETARIA` permite categorizar os indivíduos em "MENOR", "ADULTO" e "IDOSO" com base na idade, por meio da funçao faixa_etaria.

In [217]:
def faixa_etaria(idade):
    if idade < 18:
        return 'MENOR'
    elif idade < 60:
        return 'ADULTO'
    else:
        return 'IDOSO'

df['FAIXA_ETARIA'] = df['IDADE_PESSOA'].apply(faixa_etaria)
df['FAIXA_ETARIA'].value_counts()

Unnamed: 0_level_0,count
FAIXA_ETARIA,Unnamed: 1_level_1
IDOSO,486687
ADULTO,15358
MENOR,1295


In [218]:
# Verificar se há NaN na coluna 'DATA_OCORRENCIA'
nan_data_ocorrencia = df['DATA_OCORRENCIA'].isna()

# Exibir as linhas que contêm NaN na coluna 'DATA_OCORRENCIA'
#print(df[nan_data_ocorrencia])

df = df.dropna(subset=['DATA_OCORRENCIA'])


## Dia da semana

A conversão da data de ocorrência para o dia da semana e o mapeamento para nomes para ajudar na análise temporal dos dados, considerando que há uma pergunta criada que utilizará essa informação.

In [219]:
# Cria coluna do dia da semana:
dias_da_semana = {
    'Monday': 'SEGUNDA-FEIRA',
    'Tuesday': 'TERÇA-FEIRA',
    'Wednesday': 'QUARTA-FEIRA',
    'Thursday': 'QUINTA-FEIRA',
    'Friday': 'SEXTA-FEIRA',
    'Saturday': 'SÁBADO',
    'Sunday': 'DOMINGO'
}

df['DIA_OCORRENCIA'] = df['DATA_OCORRENCIA'].dt.day_name()
df['DIA_OCORRENCIA'] = df['DIA_OCORRENCIA'].map(dias_da_semana)
df['DIA_OCORRENCIA'].head(10)

Unnamed: 0,DIA_OCORRENCIA
0,SEXTA-FEIRA
1,QUINTA-FEIRA
2,DOMINGO
3,SÁBADO
4,SÁBADO
5,SÁBADO
6,DOMINGO
7,SEGUNDA-FEIRA
8,QUINTA-FEIRA
9,SEGUNDA-FEIRA


## Data Hora Ocorrência

Foi criada uma nova coluna chamada DATA_HORA_OCORRENCIA que combina os dados de DATA_OCORRENCIA e HORA_OCORRENCIA, pois pode facilitar a análise de dados para responder uma das perguntas criadas. Facilita extrair as componentes da data, o cálculo de diferença de datas e também possibilita filtrar dados de maneira mais eficiente (podemos por exemplo filtrar por hora).

In [221]:
df['DATA_HORA_OCORRENCIA'] = pd.to_datetime(
    df['DATA_OCORRENCIA'].astype(str) + ' ' + df['HORA_OCORRENCIA'].astype(str),
    errors='coerce'
)

## Conversão DIA_OCORRENCIA e FAIXA_ETARIA

Como esses dois atributos (`DIA_OCORRENCIA` e `FAIXA_ETARIA`) foram criados após o tratamento, suas respectivas conversões precisam estar depois de suas declarações.

In [222]:
colunas = ['DIA_OCORRENCIA','FAIXA_ETARIA']  # Lista das colunas a converter

df[colunas] = df[colunas].astype('string').fillna('DESCONHECIDO')

### Dados convertidos

In [227]:
df.dtypes

Unnamed: 0,0
NUM_BO,int64
ANO_BO,int64
CODIGO_BOLETIM,string[python]
NATUREZA_APURADA,string[python]
DATA_OCORRENCIA,datetime64[ns]
HORA_OCORRENCIA,object
PERIODO_OCORRENCIA,string[python]
CIDADE,string[python]
LOGRADOURO,string[python]
NUMERO_LOGRADOURO,float64
