# Limpeza dos dados
## Roubo de Celulares

Com os dados obtidos  e já compilados, o próximo passo é realizar a limpeza do dataset
Isso consiste em:
 - Separar a cidade de São Bernardo do Campo
 - Verificar valores nulos
 - Campos duplicados
 - Remover informações que não serão úteis
 - Acertar ou remover informações erradas

### Importar as bibliotecas

As bibliotecas que serão utilizadas são:
 - `Pandas` - Manipulação do dataset
 - `Matplotlib` - Visualização dos dados
 - `Seaborn`- Visualização dos dados
 - `Numpy` - habilita propriedades matemáticas

In [1]:
#importando as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os


### Carregar o dataset de roubo de celulares

Carregar o dataset, verificar suas dimensões e ter as primeiras impressões

In [2]:
path = 'data_cleaned/'

directory = os.path.join(path) # Diretório onde estão salvos os arquivos .xls
i=0 # Marcador criado para definir se é o primeiro arquivo ou não
counter=0 #Contador de arquivos lidos


for root,dirs,files in os.walk(directory): # root - Caminho lido | dirs - diretórios existentes dentro do caminho lido | files - arquivos existentes no caminho lido
    
    #Percorrer todos os arquivos um a um, e ler somente os arquivos com extensão .xls
    for file in files:
        if file.endswith("2020.csv"):
            dftemp = pd.read_csv(path+file, low_memory=False) # leitura do arquivo .xls ("corrompido")
            print(path+file)
            if i==0: # Condição IF para determinar se é a primeira leitura e copiar o dataset para a variável "df"
                df = dftemp.copy()
                i = 1
                del(dftemp) # Deletar a variável para não sobrecarregar a memória
                
            else: # Para os demais arquivos realizar a junção com o primeiro arquivo
                df = df.append(dftemp, ignore_index=True)
                del(dftemp) # Deletar a variável para não sobrecarregar a memória
                
            linhas = df.shape[0]
            counter = counter + 1
            
print("Linhas totais: ", linhas)
print('\nTotal de arquivos concatenados:', counter)
print('\nDimensões do dataset: \n\t- {} Linhas\n\t- {} Colunas'.format(df.shape[0],df.shape[1]))

data_cleaned/furto_veiculo2010_2020.csv
data_cleaned/roubo_celular2010_2020.csv
data_cleaned/roubo_veiculo2010_2020.csv
Linhas totais:  6258784

Total de arquivos concatenados: 3

Dimensões do dataset: 
	- 6258784 Linhas
	- 57 Colunas


In [3]:
print('{} Linhas\n{} Colunas'.format(df.shape[0],df.shape[1]))
df.head() # Mostra as 5 primeiras linhas do dataset

6258784 Linhas
57 Colunas


Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,DATACOMUNICACAO,DATAELABORACAO,...,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
0,2009,4329,4329/2009,31/12/2009 23:58:08,01/01/2010 00:01:48,31/12/2009,23:00,A NOITE,31/12/2009,31/12/2009 23:58:08,...,Branco,VW/GOL PLUS MI,1997.0,1997.0,AUTOMOVEL,,,0,0,1
1,2009,6595,6595/2009,31/12/2009 23:55:54,01/01/2010 00:02:38,31/12/2009,,A TARDE,31/12/2009,31/12/2009 23:55:54,...,Branco,VW/KOMBI,1974.0,1974.0,AUTOMOVEL,,,0,0,1
2,2010,1,1/2010,01/01/2010 00:05:13,01/01/2010 00:12:24,31/12/2009,19:40,A NOITE,31/12/2009,01/01/2010 00:05:13,...,Azul,FIAT/PALIO YOUNG,2000.0,2001.0,AUTOMOVEL,,,0,0,1
3,2010,1,1/2010,01/01/2010 00:48:15,01/01/2010 00:51:39,31/12/2009,23:50,A NOITE,01/01/2010,01/01/2010 00:48:15,...,Preta,HONDA/CG 125 FAN,2006.0,2006.0,MOTOCICLO,,,0,0,1
4,2010,1,1/2010,01/01/2010 00:58:51,01/01/2010 01:02:29,31/12/2009,22:30,A NOITE,01/01/2010,01/01/2010 00:58:51,...,Branco,IMP/FIAT UNO MILLE SX,1997.0,1998.0,AUTOMOVEL,,,0,0,1


### Verificar dados nulos e ausentes

É possivel ver que pelo menos 18 colunas possuem mais de 80% de dados ausentes, a grande maioria relacionado a dados pessoais.

Essas as quais podem ser diretamente removidas do dataset.

Abaixo a lista ordenada em % dos primeiros 35 mais ausentes

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6258784 entries, 0 to 6258783
Data columns (total 57 columns):
 #   Column                    Dtype  
---  ------                    -----  
 0   ANO_BO                    int64  
 1   NUM_BO                    int64  
 2   NUMERO_BOLETIM            object 
 3   BO_INICIADO               object 
 4   BO_EMITIDO                object 
 5   DATAOCORRENCIA            object 
 6   HORAOCORRENCIA            object 
 7   PERIDOOCORRENCIA          object 
 8   DATACOMUNICACAO           object 
 9   DATAELABORACAO            object 
 10  BO_AUTORIA                object 
 11  FLAGRANTE                 object 
 12  NUMERO_BOLETIM_PRINCIPAL  object 
 13  LOGRADOURO                object 
 14  NUMERO                    object 
 15  BAIRRO                    object 
 16  CIDADE                    object 
 17  UF                        object 
 18  LATITUDE                  object 
 19  LONGITUDE                 object 
 20  DESCRICAOLOCAL          

Renomear a coluna `PERIDOOCORRENCIA` para `PERIODOOCORRENCIA`

In [5]:
df.rename(columns={'PERIDOOCORRENCIA':'PERIODOOCORRENCIA'}, inplace = True)

In [6]:
nulos = df.isnull().sum()*100
nulos = nulos / len(df)
nulos.sort_values(ascending=False).head(35)

PARENTESCO                  100.000000
RELACIONAMENTO               99.999105
PROFISSAO                    99.898383
GRAUINSTRUCAO                99.894484
NACIONALIDADE                99.857161
ESTADOCIVIL                  99.847526
NATURALIDADE                 99.838131
DATANASCIMENTO               99.835479
IDADE                        99.830334
SEXO                         99.790183
VITIMAFATAL                  99.786236
TIPOPESSOA                   99.786236
NATUREZAVINCULADA            99.786220
CORCUTIS                     99.786220
TIPOVINCULO                  99.786204
DESDOBRAMENTO                94.816932
NUMERO_BOLETIM_PRINCIPAL     93.829744
EXAME                        83.911731
QUANT_CELULAR                65.123193
MARCA_CELULAR                57.909604
DESCR_MARCA_VEICULO          49.574726
PLACA_VEICULO                49.427684
CIDADE_VEICULO               49.354108
DESCR_TIPO_VEICULO           49.289766
UF_VEICULO                   49.211668
DESCR_COR_VEICULO        

### Remover colunas e dados indesejados

Primeiramente avaliar entre as colunas que tem mais que 70% dos dados ausentes o que é possível eliminar e criar uma lista com esses campos

In [7]:
nulos.index[nulos > 0.7]

Index(['HORAOCORRENCIA', 'NUMERO_BOLETIM_PRINCIPAL', 'LOGRADOURO', 'BAIRRO',
       'LATITUDE', 'LONGITUDE', 'EXAME', 'DESDOBRAMENTO', 'STATUS',
       'TIPOPESSOA', 'VITIMAFATAL', 'NATURALIDADE', 'NACIONALIDADE', 'SEXO',
       'DATANASCIMENTO', 'IDADE', 'ESTADOCIVIL', 'PROFISSAO', 'GRAUINSTRUCAO',
       'CORCUTIS', 'NATUREZAVINCULADA', 'TIPOVINCULO', 'RELACIONAMENTO',
       'PARENTESCO', 'PLACA_VEICULO', 'UF_VEICULO', 'CIDADE_VEICULO',
       'DESCR_COR_VEICULO', 'DESCR_MARCA_VEICULO', 'ANO_FABRICACAO',
       'ANO_MODELO', 'DESCR_TIPO_VEICULO', 'QUANT_CELULAR', 'MARCA_CELULAR'],
      dtype='object')

Os campos pessoais podem ser diretamente eliminados, para os demais campos será analisado a real necessidade

In [8]:
eliminar = ['PARENTESCO', 'RELACIONAMENTO', 'NACIONALIDADE', 'PROFISSAO',
       'GRAUINSTRUCAO', 'NATURALIDADE', 'DATANASCIMENTO', 'ESTADOCIVIL',
       'IDADE', 'NATUREZAVINCULADA', 'TIPOPESSOA', 'SEXO', 'CORCUTIS',
       'TIPOVINCULO']

In [9]:
df.drop(eliminar, axis=1, inplace=True)

In [10]:
len(df.columns)

43

### Analisando demais colunas

Usar comando abaixo para ajustar configurações de visualização do pandas para explorar os dados das colunas

In [11]:
pd.set_option('display.max_columns', 60) # Define limite de 60 colunas na visualização
#pd.set_option('display.max_seq_items', 30) # Define limite de linhas na visualização

Selecionar somente os campos onde há vitima fatal e contar.

De acordo com o site da SSP-SP, a referência de quantidade de Boletins de Ocorrência deve ser pelo Número do Boletim (NUMERO_BOLETIM).


In [12]:
vitimafatal = df[df['VITIMAFATAL'].isnull()==False]
total_vf = len(vitimafatal['NUMERO_BOLETIM'].unique())
print(total_vf, 'vitimas fatais de 2010 à 2020')

2100 vitimas fatais de 2010 à 2020


Neste caso, houve 2100 vitimas fatais entre 2010 e 2020,

Por esta razão os dados serão mantidos, apenas a coluna `'VITIMAFATAL'` não será removida.

O campo `'EXAME'`, `'RUBRICA'`, `'ESPECIE'`, `'DESDOBRAMENTO'`, possuem informações que não são relevantes para a ánalise, porém os demais dados devem ser mantidos, removendos apenas as colunas.


In [13]:
print("EXAME")
print(df.EXAME.unique()[:10],'\n')
print("RUBRICA")
print(df.RUBRICA.unique()[:10],'\n')
print("ESPECIE")
print(df.ESPECIE.unique()[:10],'\n')
print("DESDOBRAMENTO")
print(df.DESDOBRAMENTO.unique()[:10])


EXAME
[nan 'IC' 'IC-IML' 'IML' 'SVO'] 

RUBRICA
['Furto (art. 155) - VEICULO'
 'Furto qualificado (art. 155, §4o.) - RESIDENCIA'
 'Furto qualificado (art. 155, §4o.) - VEICULO'
 'Fuga de local de acidente (Art. 305)'
 'Localização/Apreensão e Entrega de veículo' 'Choque'
 'Entrega de veículo localizado/apreendido'
 'Localização/Apreensão de veículo' 'Ato Infracional'
 'Localização/Apreensão de objeto'] 

ESPECIE
['Título II - Patrimônio (arts. 155 a 183)'
 'L 9503/97 - Código de Trânsito Brasileiro' 'Localização e/ou Devolução'
 'Acidente de trânsito' 'Ato infracional' 'Captura procurado' 'Pessoa'
 'Título XI - Administração pública (arts. 312 a 359-H)'
 'Título VIII - Incolumidade pública (arts. 250 a 285)'
 'Outros - não criminal'] 

DESDOBRAMENTO
[nan '§4o. Se o crime é cometido:'
 'Possuir, deter, portar, adquirir, fornecer, receber, ter em depósito...'
 'caput. Subtrair coisa móvel alheia, mediante grave ameaça ou violência a pessoa'
 'Nas mesmas penas incorrem quem (Par. único)'


In [14]:
eliminar = ["EXAME", "RUBRICA", "ESPECIE", "DESDOBRAMENTO"]

df.drop(eliminar, axis=1, inplace=True)

In [15]:
df.shape

(6258784, 39)

## Analise de variáveis

In [16]:
df.columns

Index(['ANO_BO', 'NUM_BO', 'NUMERO_BOLETIM', 'BO_INICIADO', 'BO_EMITIDO',
       'DATAOCORRENCIA', 'HORAOCORRENCIA', 'PERIODOOCORRENCIA',
       'DATACOMUNICACAO', 'DATAELABORACAO', 'BO_AUTORIA', 'FLAGRANTE',
       'NUMERO_BOLETIM_PRINCIPAL', 'LOGRADOURO', 'NUMERO', 'BAIRRO', 'CIDADE',
       'UF', 'LATITUDE', 'LONGITUDE', 'DESCRICAOLOCAL', 'SOLUCAO',
       'DELEGACIA_NOME', 'DELEGACIA_CIRCUNSCRICAO', 'STATUS', 'VITIMAFATAL',
       'PLACA_VEICULO', 'UF_VEICULO', 'CIDADE_VEICULO', 'DESCR_COR_VEICULO',
       'DESCR_MARCA_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO',
       'DESCR_TIPO_VEICULO', 'QUANT_CELULAR', 'MARCA_CELULAR', 'ROUBO_C',
       'ROUBO_V', 'FURTO_V'],
      dtype='object')

In [17]:
df.tail()

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,DATACOMUNICACAO,DATAELABORACAO,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
6258779,2020,1441970,1441970/2020,30/09/2020 23:09:23,30/09/2020 23:07:52,30/09/2020,20:42,A NOITE,30/09/2020,30/09/2020 23:09:23,Desconhecida,Não,,RUA ANDRÉIA DA SILVA BARROS,347.0,JARDIM TERRAS DE SANTO ANTONIO,HORTOLANDIA,SP,-229062783537479,-471787835739918,Garagem ou abrigo de residência,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,01º D.P. HORTOLÂNDIA,Consumado,,,SP,,Preta,HONDA/CG 125 TITAN,,,MOTOCICLO,,,0,1,0
6258780,2020,1441970,1441970/2020,30/09/2020 23:09:23,30/09/2020 23:07:52,30/09/2020,20:42,A NOITE,30/09/2020,30/09/2020 23:09:23,Desconhecida,Não,,RUA ANDRÉIA DA SILVA BARROS,347.0,JARDIM TERRAS DE SANTO ANTONIO,HORTOLANDIA,SP,-229062783537479,-471787835739918,Garagem ou abrigo de residência,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,01º D.P. HORTOLÂNDIA,Consumado,,DPL1580,SP,CAMPINAS,Vermelho,YAMAHA/FZ25 FAZER,2019.0,,MOTOCICLO,,,0,1,0
6258781,2020,1440526,1440526/2020,30/09/2020 17:46:46,30/09/2020 23:08:45,30/09/2020,10:45,PELA MANHÃ,30/09/2020,30/09/2020 17:46:46,Desconhecida,Não,,AVENIDA RAIMUNDO PEREIRA DE MAGALHÃES,12495.0,JARDIM MARILU,S.PAULO,SP,-234307817,-467203606,Via pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,46º D.P. PERUS,Consumado,,EVI5936,SP,VALINHOS,Branco,I/IVECO DAILY 35S14GV,2011.0,,AUTOMOVEL,,,0,1,0
6258782,2020,1439915,1439915/2020,30/09/2020 16:25:49,30/09/2020 23:33:10,29/09/2020,11:20,PELA MANHÃ,30/09/2020,30/09/2020 16:25:49,Desconhecida,Não,,ESTRADA TURÍSTICA DO JARAGUÁ,700.0,VILA JARAGUÁ,S.PAULO,SP,-234880678,-467554815,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,DELEGACIA ELETRONICA,46º D.P. PERUS,Consumado,,FSK6835,SP,SÃO PAULO,Branco,I/M.BENZ 311CDISTREETC,2014.0,,AUTOMOVEL,,,0,1,0
6258783,2020,2624,2624/2020,30/09/2020 23:19:28,30/09/2020 23:37:33,30/09/2020,22:30,A NOITE,30/09/2020,30/09/2020 23:19:28,Desconhecida,Não,,RODOVIA SP 332,45.0,CRISTAL PARQUE,FRANCO DA ROCHA,SP,-232960414,-46777100127,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,DEL.POL.FRANCISCO MORATO,DEL.POL.FRANCO ROCHA,Consumado,,EFL8943,SP,CAJAMAR,Vermelho,HONDA/XRE 300,2010.0,2011.0,MOTOCICLO,,,0,1,0


In [18]:
df.dtypes

ANO_BO                        int64
NUM_BO                        int64
NUMERO_BOLETIM               object
BO_INICIADO                  object
BO_EMITIDO                   object
DATAOCORRENCIA               object
HORAOCORRENCIA               object
PERIODOOCORRENCIA            object
DATACOMUNICACAO              object
DATAELABORACAO               object
BO_AUTORIA                   object
FLAGRANTE                    object
NUMERO_BOLETIM_PRINCIPAL     object
LOGRADOURO                   object
NUMERO                       object
BAIRRO                       object
CIDADE                       object
UF                           object
LATITUDE                     object
LONGITUDE                    object
DESCRICAOLOCAL               object
SOLUCAO                      object
DELEGACIA_NOME               object
DELEGACIA_CIRCUNSCRICAO      object
STATUS                       object
VITIMAFATAL                  object
PLACA_VEICULO                object
UF_VEICULO                  

As colunas `'DATACOMUNICACAO'`, `'DATAELABORACAO'` acabam sendo redundantes já que temos a data e horario do inicio e fim do BO, por este motivo as mesmas serão removidas

In [19]:
df.drop(['DATACOMUNICACAO', 'DATAELABORACAO'], axis=1, inplace=True)

### Colunas que devem ser convertidas para datas / inteiros / categoricos

In [20]:
datas = ['BO_INICIADO', 'BO_EMITIDO',
       'DATAOCORRENCIA', 'HORAOCORRENCIA']
inteiros = ['NUMERO', 'ANO_FABRICACAO', 'ANO_MODELO', 'QUANT_CELULAR']

categoricos = ['PERIODOOCORRENCIA', 'BO_AUTORIA', 'FLAGRANTE',
       'DESCRICAOLOCAL', 'SOLUCAO', 'STATUS',
       'VITIMAFATAL', 'DESCR_COR_VEICULO',
       'DESCR_TIPO_VEICULO']


#### Variáveis Categóricas

In [21]:
df[categoricos] = df[categoricos].astype("category")

In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6258784 entries, 0 to 6258783
Data columns (total 37 columns):
 #   Column                    Dtype   
---  ------                    -----   
 0   ANO_BO                    int64   
 1   NUM_BO                    int64   
 2   NUMERO_BOLETIM            object  
 3   BO_INICIADO               object  
 4   BO_EMITIDO                object  
 5   DATAOCORRENCIA            object  
 6   HORAOCORRENCIA            object  
 7   PERIODOOCORRENCIA         category
 8   BO_AUTORIA                category
 9   FLAGRANTE                 category
 10  NUMERO_BOLETIM_PRINCIPAL  object  
 11  LOGRADOURO                object  
 12  NUMERO                    object  
 13  BAIRRO                    object  
 14  CIDADE                    object  
 15  UF                        object  
 16  LATITUDE                  object  
 17  LONGITUDE                 object  
 18  DESCRICAOLOCAL            category
 19  SOLUCAO                   category
 20  DE

#### Variáveis Númericas

In [23]:
df.select_dtypes(include=['integer', 'float']).columns

Index(['ANO_BO', 'NUM_BO', 'ANO_FABRICACAO', 'ANO_MODELO', 'ROUBO_C',
       'ROUBO_V', 'FURTO_V'],
      dtype='object')

Verificar se os valores de cada uma das colunas estão consistentes

##### ANO_BO

In [24]:
df['ANO_BO'].unique()

array([2009, 2010, 2011, 2012, 2017, 2013, 2016, 2014, 2015, 2018, 2019,
       2020], dtype=int64)

##### NUM_BO

In [25]:
df.loc[df['NUM_BO'] < 0]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V


##### NUMERO

In [26]:
df = df[(df['NUMERO'] != 'Título II - Patrimônio (arts. 155 a 183)') & (df['NUMERO'] != '96º D.P. MONÇÕES')]

In [27]:
for i in inteiros:
    print(i)
    df[i] = pd.to_numeric(df[i].replace(np.nan, 0), downcast='integer', errors='coerce')

NUMERO
ANO_FABRICACAO
ANO_MODELO
QUANT_CELULAR


Na coluna número é possivel ver que tem alguns números negativos, para isso vamos considerá-los como positivos

In [28]:
pd.set_option('display.float_format', lambda x: '%.0f' % x)

In [29]:
df['NUMERO'].describe()

count      6258782
mean         27959
std        5103881
min         -19739
25%              0
50%            100
75%            440
max     1998810785
Name: NUMERO, dtype: float64

In [30]:
len(df.loc[df['NUMERO'] < 0])

7

In [31]:
df['NUMERO'] = np.where((df['NUMERO'] < 0), abs(df['NUMERO']), df['NUMERO'])

In [32]:
df.loc[df['NUMERO'] < 0]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V


Também é possivel identificar diversos números muito maiores do que o encontrados normalmente em nossas ruas, mas fica impossivel saber qual seria a numeração correta

primeiramente será feito um filtro onde todos os números maiors do que 9 mil serão avaliados e contados

In [33]:
out_num = df['NUMERO'].loc[df['NUMERO'] > 9000].value_counts().sum()
out_num

77718

In [34]:
#20 primeiros registros com números maiores do que 9mil
df['NUMERO'].loc[df['NUMERO'] > 9000].value_counts().head(20)

99999    15463
9999      6957
10000     3818
12000     2192
15000     1743
11000     1496
11111     1252
13000     1004
22540      956
16000      932
14000      819
18000      668
20000      665
25000      653
17000      653
16741      645
10500      606
11500      555
9500       531
22000      469
Name: NUMERO, dtype: int64

In [35]:
out_num_p100 = out_num*100 / df.shape[0] 
print('{}% dos dados possuem número da rua maior do que 9 mil'.format(round(out_num_p100, 2)))

1.24% dos dados possuem número da rua maior do que 9 mil


Por ser uma quantia não tão significante, esses números considerados como número "1"


In [36]:
df['NUMERO'] = np.where((df['NUMERO'] > 9000), 1, df['NUMERO'])

Ao mesmo tempo existem mais de 1,73 milhão de registros com o número zero (27,64%), estes também serão passados para "1"

In [37]:
print(df['NUMERO'].loc[df['NUMERO'] == 0].value_counts().sum(), 'entradas com valor "zero"')
print(round(100*df['NUMERO'].loc[df['NUMERO'] == 0].value_counts().sum() / df.shape[0],2), '%')


1730148 entradas com valor "zero"
27.64 %


In [38]:
df['NUMERO'] = np.where((df['NUMERO'] == 0 ), 1, df['NUMERO'])

In [39]:
df['NUMERO'].describe()

count   6258782
mean        450
std         998
min           1
25%           1
50%         100
75%         402
max        9000
Name: NUMERO, dtype: float64

#####  ANO_FABRICACAO

Podemos verificar que há diversos anos de fabricação que não consistem com a realidade, uma vez que o primeiro automovel foi fabricado em 1886

Alguns deste valores como apenas "8" poderia representar "2008", outras como "95" poderiam ser "1995", mas como não tem como ter certeza, não podemos assumir isso logo de primeira.

O primeiro carro fabricado no Brasil foi no ano de 1956, pela Romi-sIetta


In [40]:
df['ANO_FABRICACAO'].unique()

array([1997, 1974, 2000, 2006,    0, 2008, 1994, 2007, 1989, 1985, 2002,
       2005, 1990, 1992, 1984, 1995, 1991, 1999, 2001, 2003, 1987, 2004,
       1996, 1988, 1983, 1993, 1982, 1998, 1975, 2009, 1979, 1976, 1986,
       1977, 1980, 1970, 1971, 1978, 1973, 1969, 1981, 1964, 1966, 1968,
       1972, 1967, 1965, 2010,  200,  198, 1098, 2101, 1962, 2011, 1961,
         84, 1081, 1963, 1957,    7,    4, 1952, 1959,   89,  209, 2099,
       1960, 1841,   91, 2088, 1958,   98,   10,  978, 1951, 1899,  201,
       1928, 2012,  985, 2066, 2013,   12, 2998,   95, 8989, 2207,   97,
       2911, 2021, 2014, 3013, 2912, 1190,  202, 9394,   87,  992, 1085,
       1948,  211,  708, 1112, 1013, 2104, 2103, 1898, 2015, 2913, 1093,
       1191, 1195,  193, 1910,  213, 1193, 1079, 1883, 1083, 1944, 1889,
        910, 1111,  997, 1515, 1414,  304, 1194,  607, 1415, 1011, 1940,
       1199, 2206, 1010,   73, 1945, 1213, 1088,   99, 1914,    6,   96,
       1947, 7998,  809,   93, 1884, 1903, 2016,  2


- Primeiro passo será separar todas as entradas menor que 1950 e maior que 2020
- Depois contar qual a quantidade e a porcentagem destas entradas em relação aos demais
- Analisar em detalhes alguns destes valores por amostragem

In [41]:
#seleciona os campos onde Ano de Fabricação é menor que 1950 e maior que 2020
ano_fab = df.query('ANO_FABRICACAO < 1950 or ANO_FABRICACAO > 2020')

#Seleciona os campos onde Ano de Fabricação é diferente de zero
ano_fab = ano_fab.loc[df.ANO_FABRICACAO != 0]
print(len(ano_fab), 'Entradas onde Ano de fabricação é menor que 1950, maior que 2020 e diferente de zero')
print('{}% do total de entradas'.format(round(len(ano_fab)*100 / df.shape[0],2)))

467 Entradas onde Ano de fabricação é menor que 1950, maior que 2020 e diferente de zero
0.01% do total de entradas


In [42]:
# seleciona 20 amostras aleatórias para uma avaliação mais detalhada
ano_fab[['ANO_BO', 'PLACA_VEICULO', 'DESCR_MARCA_VEICULO', 'DESCR_TIPO_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO']].sample(n=20, random_state=111)

Unnamed: 0,ANO_BO,PLACA_VEICULO,DESCR_MARCA_VEICULO,DESCR_TIPO_VEICULO,ANO_FABRICACAO,ANO_MODELO
265403,2012,CFJ8507,H/HONDA CG 125,MOTOCICLO,985,1985
5881117,2017,PZN3268,FIAT/FIAT UNO S,AUTOMOVEL,2107,2018
6232869,2020,LRF8342,I/BMW X5 M COMPETITION,AUTOMOVEL,13,0
4655453,2011,MFE2419,SR/RODOTECNICA SRT TQ2,SEMI-REBOQUE,207,2007
1921541,2011,AMJ8941,M.BENZ/LS 1634,CAMINHÃO TRATOR,5004,2004
1456835,2020,DYZ2042,H/HONDA 150,MOTOCICLO,200,0
1994237,2012,AQL1447,VW/25.370 CLM T 6X2,CAMINHÃO TRATOR,208,2008
2946306,2015,FMQ1566,FIAT/FIAT,AUTOMOVEL,213,214
2356315,2013,AWI7907,FIAT/MILLE ECONOMY,AUTOMOVEL,7907,2012
2356317,2013,AWI7907,FIAT/MILLE ECONOMY,AUTOMOVEL,7907,2012


Conforme observado na tabela acima se analisado o campo `DESCR_MARCA_VEICULO`, `ANO_FABRICACAO` e `ANO_MODELO`, a maioria dos casos está claro que foram erros de digitação e poderiam ser facilmente arrumados.

No entanto por se tratar apenas de 0,01% de todos os registros esses valores serão considerados como "0"

In [43]:
#seleciona a coluna ANO_FABRICACAO onde o index é igual do dataset "ano_fab" e define os valores como "0"
df['ANO_FABRICACAO'].loc[ano_fab.index] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [44]:
df['ANO_FABRICACAO'].unique()

array([1997, 1974, 2000, 2006,    0, 2008, 1994, 2007, 1989, 1985, 2002,
       2005, 1990, 1992, 1984, 1995, 1991, 1999, 2001, 2003, 1987, 2004,
       1996, 1988, 1983, 1993, 1982, 1998, 1975, 2009, 1979, 1976, 1986,
       1977, 1980, 1970, 1971, 1978, 1973, 1969, 1981, 1964, 1966, 1968,
       1972, 1967, 1965, 2010, 1962, 2011, 1961, 1963, 1957, 1952, 1959,
       1960, 1958, 1951, 2012, 2013, 2014, 2015, 2016, 1956, 2017, 1955,
       2018, 1954, 2019, 2020], dtype=int16)

#####  ANO_MODELO

Repetir os mesmos passos do `ANO_FABRICACAO` mas com `ANO_MODELO` até 2021

com o comando `df.ANO_MODELO.unique()` já é possivel identificar que há divergências nos valores 


In [45]:
df.ANO_MODELO.unique()

array([1997, 1974, 2001, 2006, 1998,    0, 2008, 2007, 1994, 1989, 1985,
       2002, 2005, 1990, 1992, 1984, 1996, 1991, 2000, 2009, 2003, 1987,
       1995, 2004, 1988, 1983, 1999, 1986, 1993, 1982, 1975, 1979, 1976,
       1977, 2010, 1980, 1971, 1978, 1973, 1969, 1981, 1964, 1966, 1968,
       1972,  125, 1600, 1970, 1967, 1965,  313, 5610, 2011, 1962, 4000,
       4013, 1218,  100, 1961,   84,   40, 1963, 1957,    8, 2020,    4,
       1952,  275, 1620, 1720, 1959, 1155,   89, 8140, 7630,  290, 1684,
       1634,  150, 1960, 2855,  500,    6,  250, 2012,   16, 5516,   91,
       3020,  580,  200,  285,  450, 1016, 1606, 1958,  400,   98, 1000,
       1951,  980, 1928, 9996,   10,    5, 2013, 2408,   12, 1111, 1518,
       2322,   97, 2207, 3514, 8150, 2208, 2066, 2014, 1780, 2913,   93,
       1190, 4283, 9394,  350, 1195,   88,   13, 3013,  815,    1, 9600,
       4600,  416,  292, 1948,  213,  112, 1013, 2015,  708,  750, 1112,
       1898,  265, 2103, 1093,  320, 1191, 2033, 19


- Primeiro passo será separar todas as entradas menor que 1950 e maior que 2021
- Depois contar qual a quantidade e a porcentagem destas entradas em relação aos demais
- Analisar em detalhes alguns destes valores por amostragem

In [46]:
#seleciona os campos onde Ano de Fabricação é menor que 1950 e maior que 2020
ano_mod = df.query('ANO_MODELO < 1950 or ANO_MODELO > 2021')

#Seleciona os campos onde Ano de Fabricação é diferente de zero
ano_mod = ano_mod.loc[df.ANO_MODELO != 0]
print(len(ano_mod), 'Entradas onde o ano do modelo é menor que 1950, maior que 2021 e diferente de zero')
print('{}% do total de entradas'.format(round(len(ano_mod)*100 / df.shape[0],2)))

1177 Entradas onde o ano do modelo é menor que 1950, maior que 2021 e diferente de zero
0.02% do total de entradas


In [47]:
# seleciona 20 amostras aleatórias para uma avaliação mais detalhada
ano_mod[['ANO_BO', 'PLACA_VEICULO', 'DESCR_MARCA_VEICULO', 'DESCR_TIPO_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO']].sample(n=20, random_state=111)

Unnamed: 0,ANO_BO,PLACA_VEICULO,DESCR_MARCA_VEICULO,DESCR_TIPO_VEICULO,ANO_FABRICACAO,ANO_MODELO
4755486,2011,MIJ9299,IMP/VOLVO,CAMINHÃO,2010,440
5480183,2015,,I/SHINERAY XY 50 Q,MOTONETA,2013,1014
2311407,2013,LLN9739,I/LR DISCOVERY 4 3.0 SE,AUTOMOVEL,2011,211
1667813,2010,BXC2856,REB/ANTONINI,SEMI-REBOQUE,1993,1933
2013088,2012,HJR9607,VW/24.250,CAMINHÃO,2011,2425
4970816,2013,NYR6395,SCANIA/P340 BAULER CAM,CAMINHÃO TRATOR,0,340
4574541,2010,MFX5294,VOLVO/FH 440 6X2T,TRATOR RODAS,2008,440
3618602,2017,,M.A./IMP TRATOR,TRATOR RODAS,0,6615
763734,2015,,M.A./MASSEY-FERGUSON,TRATOR RODAS,2000,275
5527478,2015,,I/SHINERAY XY 50 Q,CICLOMOTO,2015,50


Como já "corrigimos" toda a coluna "ANO_FABRICACAO", vamos considerar que para todas essas entradas divergente que:
```python
ANO_MODELO = ANO_FABRICACAO
```


In [48]:
ano_mod['ANO_MODELO'] = ano_mod['ANO_FABRICACAO']

In [49]:
#seleciona a coluna ANO_FABRICACAO onde o index é igual do dataset "ano_fab" e define os valores como "0"
df['ANO_MODELO'].loc[ano_mod.index] = ano_mod['ANO_MODELO']

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [50]:
df.ANO_MODELO.unique()

array([1997, 1974, 2001, 2006, 1998,    0, 2008, 2007, 1994, 1989, 1985,
       2002, 2005, 1990, 1992, 1984, 1996, 1991, 2000, 2009, 2003, 1987,
       1995, 2004, 1988, 1983, 1999, 1986, 1993, 1982, 1975, 1979, 1976,
       1977, 2010, 1980, 1971, 1978, 1973, 1969, 1981, 1964, 1966, 1968,
       1972, 1970, 1967, 1965, 2011, 1962, 1961, 1963, 1957, 2020, 1952,
       1959, 1960, 2012, 1958, 1951, 2013, 2014, 2015, 2016, 2017, 1956,
       2018, 1955, 2019, 1954, 2021], dtype=int16)

#####  QUANT_CELULAR

Como foi utilizado o comando 

```python
errors = 'coerce'
```
Os valores que estavam como inválidos passaram a ser considerados NaN, é possível verificar que apenas 7 entradas estavam com essa inconsistência, por este motivo as mesmas serão eliminadas



In [51]:
df.QUANT_CELULAR.isnull().sum()

7

In [52]:
df.dropna(subset = ['QUANT_CELULAR'], inplace=True)

Verificar as métricas estatisticas das quantidades de celulares roubados, apesar de aparecer alguns outliers, estes serão mantidos por poderem se tratar de roubo de carga

In [53]:
# resumo estatistico onde a quantidade de celular é diferente de zero
df.QUANT_CELULAR.loc[df.QUANT_CELULAR != 0].describe()

count    2181781
mean           8
std         9972
min            1
25%            1
50%            1
75%            1
max     14728864
Name: QUANT_CELULAR, dtype: float64

Conforme tabela acima, é possivel ver que 75% das ocorrências acontecem com o roubo de apenas 1 celular,

Para verificação de uma amostragem, será considerado apenas quantidades que estão além dos 8 sigmas (99,9994%)

In [54]:
print('99,9994% das quantidades estão abaixo de:', df.QUANT_CELULAR.loc[df.QUANT_CELULAR != 0].quantile(0.999994))

99,9994% das quantidades estão abaixo de: 5760.0


Apenas 12 entradas estão acima de 5760 unidades roubadas, e somente 2 entradas estão com valores discrepantes dos demais, portanto essas 2 entradas serão eliminadas

index:
 - 3411515
 - 3446741

In [55]:
df[['ANO_BO', 'NUM_BO', 'NUMERO_BOLETIM_PRINCIPAL', 'HORAOCORRENCIA', 'CIDADE', 'DESCRICAOLOCAL',
    'QUANT_CELULAR', 'MARCA_CELULAR']]\
.loc[df.QUANT_CELULAR > df.QUANT_CELULAR.loc[df.QUANT_CELULAR != 0].quantile(0.999994)]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM_PRINCIPAL,HORAOCORRENCIA,CIDADE,DESCRICAOLOCAL,QUANT_CELULAR,MARCA_CELULAR
2496432,2014,12152,,16:00,S.PAULO,Via pública,9413,ALCATEL
2508773,2014,14257,,15:00,S.BERNARDO DO CAMPO,Via pública,9675,MOTORLA
2620589,2014,4646,,22:20,S.PAULO,Residência,9860,MOTOROLA
2724402,2014,4850,,00:30,DIADEMA,Via pública,9579,
2898922,2015,1981,,06:15,DIADEMA,Via pública,9844,SANSUNG GALAXY DUO
2900938,2015,2031,1981/2015 - 30127,06:15,DIADEMA,Via pública,9844,SANSUNG GALAXY DUO
3285240,2016,1924,,18:30,S.PAULO,Comércio e serviços,9999,DIVERSAS
3411515,2017,1431,,01:30,FERRAZ DE VASCONCELOS,Via pública,168455,Samsung
3446741,2017,1984,,10:30,SUMARE,Via pública,14728864,Asus
3742202,2018,2900,,16:55,ARARAQUARA,Comércio e serviços,9999,


In [56]:
index_remove = df.loc[df['QUANT_CELULAR']> 100000].index
index_remove

Int64Index([3411515, 3446741], dtype='int64')

In [57]:
df.drop(index_remove, axis=0, inplace=True)

#### Datas

In [58]:
datas.append('PERIODOOCORRENCIA')

In [59]:
datas

['BO_INICIADO',
 'BO_EMITIDO',
 'DATAOCORRENCIA',
 'HORAOCORRENCIA',
 'PERIODOOCORRENCIA']

In [60]:
df[datas].sample(n=5)

Unnamed: 0,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA
4793239,20/11/2012 22:34:56,20/11/2012 23:05:11,20/11/2012,19:30,A NOITE
3210727,17/04/2016 13:03:35,17/04/2016 13:03:35,15/04/2016,22:30,A NOITE
2143119,13/09/2012 00:02:29,13/09/2012 02:20:54,12/09/2012,22:30,A NOITE
4558766,01/07/2010 09:02:01,01/07/2010 09:08:26,01/07/2010,05:00,DE MADRUGADA
449294,20/12/2013 23:36:33,20/12/2013 23:36:12,20/12/2013,23:15,EM HORA INCERTA


In [61]:
df['BO_INICIADO'] = pd.to_datetime(df['BO_INICIADO'], format='%d/%m/%Y %H:%M:%S')
df['BO_EMITIDO'] = pd.to_datetime(df['BO_EMITIDO'], format='%d/%m/%Y %H:%M:%S')

In [62]:
df[datas].sample(n=5)

Unnamed: 0,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA
360118,2012-06-15 14:39:39,2012-06-15 14:54:38,15/06/2012,10:20,PELA MANHÃ
1380603,2019-03-21 08:03:12,2019-03-21 08:28:23,21/03/2019,,DE MADRUGADA
601620,2014-12-20 12:42:09,2014-12-20 12:59:42,20/12/2014,10:10,PELA MANHÃ
4296349,2020-11-08 20:59:25,2020-11-08 21:16:38,23/10/2020,21:45,A NOITE
5243868,2014-03-24 16:32:59,2014-03-24 16:49:01,24/03/2014,15:06,A TARDE


In [63]:
df['PERIODOOCORRENCIA'].unique()

['A NOITE', 'A TARDE', 'DE MADRUGADA', 'PELA MANHÃ', 'EM HORA INCERTA']
Categories (5, object): ['A NOITE', 'A TARDE', 'DE MADRUGADA', 'PELA MANHÃ', 'EM HORA INCERTA']

In [64]:
df_datas = df.loc[df['PERIODOOCORRENCIA'] != 'EM HORA INCERTA']
df_datas.head()

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
0,2009,4329,4329/2009,2009-12-31 23:58:08,2010-01-01 00:01:48,31/12/2009,23:00,A NOITE,Desconhecida,Não,,AV ESTRELA DA NOITE,643,JD. MAIA,S.PAULO,SP,,,Via pública,BO PARA INVESTIGAÇÃO,59º D.P. JARDIM DOS IPES,59º D.P. JARDIM DOS IPES,Consumado,,CIO9192,SP,SUZANO,Branco,VW/GOL PLUS MI,1997,1997,AUTOMOVEL,0,,0,0,1
1,2009,6595,6595/2009,2009-12-31 23:55:54,2010-01-01 00:02:38,31/12/2009,,A TARDE,Desconhecida,Não,,RUA GERALDO MUZOLON,102,JD. PE. AUGUSTO SANI,JAU,SP,,,Via pública,BO PARA INVESTIGAÇÃO,DEL.SEC.JAÚ PLANTÃO,01º D.P. JAÚ,Consumado,,CQK4983,SP,CABRALIA PAULISTA,Branco,VW/KOMBI,1974,1974,AUTOMOVEL,0,,0,0,1
2,2010,1,1/2010,2010-01-01 00:05:13,2010-01-01 00:12:24,31/12/2009,19:40,A NOITE,Desconhecida,Não,,R MARIA GASTALDO CATELAN,60,PQ. SELETA,S.BERNARDO DO CAMPO,SP,,,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,03º D.P. S.BERNARDO DO CAMPO,06º D.P. S.BERNARDO DO CAMPO,Consumado,,DDW1129,SP,SAO BERNARDO DO CAMP,Azul,FIAT/PALIO YOUNG,2000,2001,AUTOMOVEL,0,,0,0,1
3,2010,1,1/2010,2010-01-01 00:48:15,2010-01-01 00:51:39,31/12/2009,23:50,A NOITE,Desconhecida,Não,,,1,BNH,RIO CLARO,SP,,,Residência,APRECIAÇÃO DO DELEGADO TITULAR,DEL.SEC.RIO CLARO PLANTÃO,03º D.P. RIO CLARO,Consumado,,KZW5136,SP,RIO CLARO,Preta,HONDA/CG 125 FAN,2006,2006,MOTOCICLO,0,,0,0,1
4,2010,1,1/2010,2010-01-01 00:58:51,2010-01-01 01:02:29,31/12/2009,22:30,A NOITE,Desconhecida,Não,,R COSTA DE LAVOS,75,JD NOVA CARRAO,S.PAULO,SP,,,Via pública,BO PARA INVESTIGAÇÃO,41º D.P. VILA RICA,41º D.P. VILA RICA,Consumado,,CLS4059,SP,SAO PAULO,Branco,IMP/FIAT UNO MILLE SX,1997,1998,AUTOMOVEL,0,,0,0,1


Verificar quantas entradas existem sem o registro da data de ocorrência, mas com horário conhecido

In [65]:
df_datas['DATAOCORRENCIA'].isnull().sum()

7

In [66]:
df_datas.loc[df_datas['DATAOCORRENCIA'].isnull()]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
4376360,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0
4376361,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0
6227941,2020,903,903/2020,2020-04-13 17:10:23,2020-04-13 18:05:12,,15:50,A TARDE,Desconhecida,Não,,RUA 15 DE NOVEMBRO,800,CENTRO,PIRASSUNUNGA,SP,-219957258847966,-474289556324068,Via pública,BO PARA REGISTRO,01º D.P. PIRASSUNUNGA,02º D.P. PIRASSUNUNGA,Consumado,,EGH0621,SP,PORTO FERREIRA,Branco,VW/GOL 1.0,2009,2010,AUTOMOVEL,0,,0,1,0
6227945,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
6227946,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
6227947,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
6227948,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0


In [67]:
ocorrencias_nulas = df_datas.loc[df_datas['DATAOCORRENCIA'].isnull()]
ocorrencias_nulas

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
4376360,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0
4376361,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0
6227941,2020,903,903/2020,2020-04-13 17:10:23,2020-04-13 18:05:12,,15:50,A TARDE,Desconhecida,Não,,RUA 15 DE NOVEMBRO,800,CENTRO,PIRASSUNUNGA,SP,-219957258847966,-474289556324068,Via pública,BO PARA REGISTRO,01º D.P. PIRASSUNUNGA,02º D.P. PIRASSUNUNGA,Consumado,,EGH0621,SP,PORTO FERREIRA,Branco,VW/GOL 1.0,2009,2010,AUTOMOVEL,0,,0,1,0
6227945,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
6227946,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
6227947,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
6227948,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0


In [68]:
ocorrencias_nulas['BO_INICIADO'].dt.strftime("%d/%m/%Y")

4376360    15/04/2020
4376361    15/04/2020
6227941    13/04/2020
6227945    13/04/2020
6227946    13/04/2020
6227947    13/04/2020
6227948    13/04/2020
Name: BO_INICIADO, dtype: object

In [69]:
ocorrencias_nulas.index

Int64Index([4376360, 4376361, 6227941, 6227945, 6227946, 6227947, 6227948], dtype='int64')

In [70]:
df['DATAOCORRENCIA'][ocorrencias_nulas.index]

4376360    NaN
4376361    NaN
6227941    NaN
6227945    NaN
6227946    NaN
6227947    NaN
6227948    NaN
Name: DATAOCORRENCIA, dtype: object

In [71]:
df['DATAOCORRENCIA'][ocorrencias_nulas.index] = ocorrencias_nulas['BO_INICIADO'].dt.strftime("%d/%m/%Y")
df.iloc[ocorrencias_nulas.index]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['DATAOCORRENCIA'][ocorrencias_nulas.index] = ocorrencias_nulas['BO_INICIADO'].dt.strftime("%d/%m/%Y")


Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
4376371,2020,580,580/2020,2020-04-15 17:18:14,2020-04-15 18:01:50,15/04/2020,10:00,PELA MANHÃ,Desconhecida,Não,,RODOVIA PRESIDENTE DUTRA (BR 116),133,AREA RURAL,CACAPAVA,SP,-231339389101186,-457493453491457,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,08º D.P. GUARULHOS,DEL.POL.CAÇAPAVA,Consumado,,QPD8748,MG,JANAUBA,Branco,VW/24.280 CRM 6X2,2018,2019,CAMINHÃO,1,Samsung,1,0,0
4376372,2020,476081,476081/2020,2020-04-15 18:04:00,2020-04-15 18:02:54,15/04/2020,14:30,A TARDE,Desconhecida,Não,,RUA PEDROSO DE CAMARGO,56,CHÁCARA SANTO ANTÔNIO (ZONA SUL),S.PAULO,SP,-236328118,-46701995,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,11º D.P. SANTO AMARO,Consumado,,,,,,,0,0,,0,SAMSUNG,1,0,0
6227952,2020,9,9/2020,2020-04-13 18:30:49,2020-04-13 18:36:35,09/04/2020,10:00,PELA MANHÃ,Desconhecida,Não,461624/2020 - 900020,RODOVIA FERNÃO DIAS,618,VILA MIRA,BRAGANCA PAULISTA,SP,-231004084,-465692661,Rodovia/Estrada,BO PARA ADENDO,DEL.SEC.BRAGANÇA PAULISTA,DEL.SEC.BRAGANÇA PAULISTA,Consumado,,PRE9912,GO,GOIÂNIA,Preta,REB/RANDON SR CA,2017,0,Não Informado,0,,0,1,0
6227956,2020,9,9/2020,2020-04-13 18:30:49,2020-04-13 18:36:35,09/04/2020,10:00,PELA MANHÃ,Desconhecida,Não,461624/2020 - 900020,RODOVIA FERNÃO DIAS,618,VILA MIRA,BRAGANCA PAULISTA,SP,-231004084,-465692661,Rodovia/Estrada,BO PARA ADENDO,DEL.SEC.BRAGANÇA PAULISTA,DEL.SEC.BRAGANÇA PAULISTA,Consumado,,PRE9912,GO,GOIÂNIA,Preta,REB/RANDON SR CA,2017,0,Não Informado,0,,0,1,0
6227957,2020,9,9/2020,2020-04-13 18:30:49,2020-04-13 18:36:35,09/04/2020,10:00,PELA MANHÃ,Desconhecida,Não,461624/2020 - 900020,RODOVIA FERNÃO DIAS,618,VILA MIRA,BRAGANCA PAULISTA,SP,-231004084,-465692661,Rodovia/Estrada,BO PARA ADENDO,DEL.SEC.BRAGANÇA PAULISTA,DEL.SEC.BRAGANÇA PAULISTA,Consumado,,PRF0272,GO,GOIÂNIA,Preta,REB/RANDON SR CA,2017,0,Não Informado,0,,0,1,0
6227958,2020,1367,1367/2020,2020-04-13 16:04:31,2020-04-13 18:59:37,13/04/2020,15:00,A TARDE,Conhecida,Sim,,RUA DAS AVELEIRAS,45,ITAQUERA,S.PAULO,SP,-235180565537814,-464534073906828,Via pública,BO PARA FLAGRANTE,64º D.P. CID.AE CARVALHO,64º D.P. CID.AE CARVALHO,Consumado,,,,,,,0,0,,0,,0,1,0
6227959,2020,1367,1367/2020,2020-04-13 16:04:31,2020-04-13 18:59:37,13/04/2020,15:00,A TARDE,Conhecida,Sim,,RUA DAS AVELEIRAS,45,ITAQUERA,S.PAULO,SP,-235180565537814,-464534073906828,Via pública,BO PARA FLAGRANTE,64º D.P. CID.AE CARVALHO,64º D.P. CID.AE CARVALHO,Consumado,,HFI8709,SP,S.PAULO,Branco,FIAT/FIORINO FLEX,2011,2012,CAMINHONETE,0,,0,1,0


In [72]:
df.loc[df['DATAOCORRENCIA'].isnull()]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
4379449,2020,1267,1267/2020,2020-04-23 11:26:01,2020-04-23 13:09:47,,,EM HORA INCERTA,Desconhecida,Não,,RUA da barra,52,PARELHEIROS,S.PAULO,SP,-237811257106842,-467138911386842,Via pública,BO PARA INVESTIGAÇÃO,25º D.P. PARELHEIROS,25º D.P. PARELHEIROS,Consumado,,,,,,,0,0,,1,POSITIVO,1,0,0


Por ter apenas uma entrada sem data e hora do ocorrência, a mesma será eliminada

In [73]:
df.dropna(subset=['DATAOCORRENCIA'], axis=0, inplace=True)

In [74]:
df['HORAOCORRENCIA'].isnull().sum()

976481

In [75]:
df['HORAOCORRENCIA'] = np.where(df['HORAOCORRENCIA'].isnull(), df['BO_INICIADO'].dt.strftime('%H:%M'), df['HORAOCORRENCIA'])

In [76]:
df['HORAOCORRENCIA'].isnull().sum()

0

In [77]:
df['DATA_HORA_OCORRENCIA'] = pd.to_datetime(df['DATAOCORRENCIA'] + ' ' + df['HORAOCORRENCIA'], format='%d/%m/%Y %H:%M', errors='coerce')

In [78]:
df['DATA_HORA_OCORRENCIA'].isnull().sum()

76

In [79]:
erros_data = df.loc[df['DATA_HORA_OCORRENCIA'].isnull()]
erros_data

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V,DATA_HORA_OCORRENCIA
40446,2010,561,561/2010,2010-02-01 21:20:46,2010-02-01 21:33:39,01/02/0210,03:30,DE MADRUGADA,Desconhecida,Não,,AV SAPOPEMBA,1,VILA RENATA,S.PAULO,SP,,,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,03º D.P. DIADEMA,70º D.P. VILA EMA,Consumado,,CHY4761,SP,DIADEMA,Cinza,FIAT/UNO CS,1989,1990,AUTOMOVEL,0,,0,0,1,NaT
51688,2010,1998,1998/2010,2010-03-08 01:54:35,2010-03-08 01:57:35,08/03/0210,00:30,DE MADRUGADA,Desconhecida,Não,,R GAL LECOR,100,VL ROSA,S.BERNARDO DO CAMPO,SP,,,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,03º D.P. S.BERNARDO DO CAMPO,03º D.P. S.BERNARDO DO CAMPO,Consumado,,BTU1742,SP,SAO PAULO,Bege,VW/KOMBI,1990,1990,CAMIONETA,0,,0,0,1,NaT
96374,2010,3748,3748/2010,2010-07-16 22:05:55,2010-07-16 22:09:05,16/07/0201,22:05,A NOITE,Desconhecida,Não,,R DAS LARANJEIRAS,257,JARDIM,S.ANDRE,SP,,,Via pública,BO PARA INVESTIGAÇÃO,04º D.P. SANTO ANDRÉ,04º D.P. SANTO ANDRÉ,Consumado,,ELC1783,SP,SAO PAULO,Prata,FIAT/UNO MILLE WAY ECON,2009,2010,AUTOMOVEL,0,,0,0,1,NaT
1197626,2018,1268807,1268807/2018,2018-10-02 18:28:56,2018-10-02 18:28:57,02/01/0201,14:00,A TARDE,Desconhecida,Não,,RUA RECIFE,130,GUAIAUNA,S.PAULO,SP,-235295287,-465510861,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,10º D.P. PENHA DE FRANCA,Consumado,,GAD6999,SP,SÃO BERNARDO DO CAMP,Branco,,2015,0,AUTOMOVEL,0,,0,0,1,NaT
1199414,2018,1287259,1287259/2018,2018-10-07 09:28:24,2018-10-07 09:28:57,24/09/1018,22:00,A NOITE,Desconhecida,Não,,RUA JACOBE,54,TRANQUILIDADE,GUARULHOS,SP,-23463946456,-465527904639999,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,05º D.P. GUARULHOS,Consumado,,FLM1153,SP,GUARULHOS,Preta,FIAT/IDEA ATTRACTIVE 1.4,2013,0,AUTOMOVEL,0,,0,0,1,NaT
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6098055,2019,154558,154558/2019,2019-02-04 15:30:49,2019-02-04 15:31:19,23/01/1019,12:50,A TARDE,Desconhecida,Não,,RUA DOUTOR AVELINO CHAVES,100,VILA LEOPOLDINA,S.PAULO,SP,-235355159432473,-467279349189247,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,91º D.P. CEASA,Consumado,,FSX7457,SP,SÃO PAULO,Preta,FORD/ECOSPORT TIT AT 2.0,2013,0,AUTOMOVEL,0,,0,1,0,NaT
6098173,2019,155807,155807/2019,2019-02-04 22:52:04,2019-02-04 22:52:15,23/01/1019,06:35,PELA MANHÃ,Desconhecida,Não,151314/2019 - 900020,RUA DAS MARGARIDAS,80,VILA NOVA MAUÁ,MAUA,SP,-236462428950176,-464521565589673,Veículo em movimento,BO PARA ADENDO,DELEGACIA ELETRONICA,01º DP MAUA-DR.ALFREDO GARBINO,Consumado,,EAN3117,SP,MAUÁ,Preta,FORD/FIESTA SEDAN1.6FLEX,2007,0,AUTOMOVEL,0,,0,1,0,NaT
6110900,2019,349376,349376/2019,2019-03-15 02:43:56,2019-03-15 02:44:39,02/03/1019,19:28,A NOITE,Desconhecida,Não,,RUA ANHANGAI,44,CAMPO GRANDE,S.PAULO,SP,-236884572369999,-4668297746075,Garagem ou abrigo de residência,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,99º D.P. CAMPO GRANDE,Consumado,,FDH5373,SP,SÃO PAULO,Prata,,2012,0,AUTOMOVEL,0,,0,1,0,NaT
6125040,2019,528591,528591/2019,2019-04-23 18:16:43,2019-04-23 18:16:15,10/04/1019,21:25,A NOITE,Desconhecida,Não,,RUA RAIMUNDO CORRÊA,178,VILA FEITAL,MAUA,SP,-236542931,-464206286,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,03º D.P. MAUA,Consumado,,DUI2113,SP,MAUÁ,Prata,PEUGEOT/206 14 PRESEN FX,2006,0,AUTOMOVEL,0,,0,1,0,NaT


In [80]:
df.drop(erros_data.index, inplace = True)

É possivel identificar 4885 registros incoerentes em relação ao ano registrado da ocorrência com o ano do BO emitido, no caso como é impossivel saber a data correta estes registros serão eliminados

In [81]:
df.DATA_HORA_OCORRENCIA.dt.year.unique()

array([2009, 2010, 1910, 2008, 2006, 1997, 1976, 2001, 2007, 1987, 2004,
       1983, 1985, 1986, 2005, 1980, 1998, 1973, 1990, 2000, 1974, 2003,
       2002, 1965, 1977, 1970, 1999, 1991, 1982, 1971, 1996, 1995, 1940,
       1988, 2011, 1972, 1994, 1993, 1979, 1989, 1981, 1978, 1966, 1963,
       1948, 1954, 1955, 1992, 2012, 1956, 1960, 1968, 1912, 1975, 1953,
       1961, 1952, 1984, 1942, 2013, 1962, 1967, 1950, 1969, 1949, 1946,
       1913, 1959, 2014, 1939, 1964, 1957, 1914, 2015, 1915, 2016, 2017,
       1917, 2018, 1918, 2019, 1919, 2020, 1800, 1930, 1830, 1825, 1921,
       1958, 1937, 1916, 1945, 1947, 1951], dtype=int64)

In [82]:
#Selecionar todos os registros com ano da ocorrência inferior a 2009
dt_incoerente = df.loc[df.DATA_HORA_OCORRENCIA.dt.year < 2009]
dt_incoerente

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V,DATA_HORA_OCORRENCIA
198,2010,1241,1241/2010,2010-01-02 15:04:21,2010-01-02 15:04:21,02/01/1910,15:04,PELA MANHÃ,Desconhecida,Não,,"RUA AUSONIA,",504,VILA MAZZEI,SÃO PAULO,SP,,,Via pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,39º D.P. VILA GUSTAVO,Consumado,,,,,,,0,0,,0,,0,0,1,1910-01-02 15:04:00
199,2010,1478,1478/2010,2010-01-02 18:14:42,2010-01-02 15:04:21,02/01/1910,18:14,PELA MANHÃ,Desconhecida,Não,,"RUA AUSONIA,",504,VILA MAZZEI,,SP,,,Via pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,39º D.P. VILA GUSTAVO,Consumado,,,,,,,0,0,,0,,0,0,1,1910-01-02 18:14:00
561,2010,12,12/2010,2010-01-04 14:28:12,2010-01-04 14:36:10,23/12/2008,14:28,A NOITE,Desconhecida,Não,12463/2009 - 110429,R JOAO MESQUITA,1,CENTRO,S.JOSE DO RIO PRETO,SP,,,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,01º D.P. S.JOSE DO RIO PRETO,01º D.P. S.JOSE DO RIO PRETO,,,,,,,,0,0,,0,,0,0,1,2008-12-23 14:28:00
562,2010,12,12/2010,2010-01-04 14:28:12,2010-01-04 14:36:10,23/12/2008,14:28,A NOITE,Desconhecida,Não,12463/2009 - 110429,R JOAO MESQUITA,1,CENTRO,S.JOSE DO RIO PRETO,SP,,,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,01º D.P. S.JOSE DO RIO PRETO,01º D.P. S.JOSE DO RIO PRETO,,,EBY3040,SP,SAO PAULO,Prata,VW/GOL 1.6 POWER GIV,2008,2009,AUTOMOVEL,0,,0,0,1,2008-12-23 14:28:00
563,2010,12,12/2010,2010-01-04 14:28:12,2010-01-04 14:36:10,23/12/2008,14:28,A NOITE,Desconhecida,Não,12463/2009 - 110429,R JOAO MESQUITA,1,CENTRO,S.JOSE DO RIO PRETO,SP,,,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,01º D.P. S.JOSE DO RIO PRETO,01º D.P. S.JOSE DO RIO PRETO,Consumado,,,,,,,0,0,,0,,0,0,1,2008-12-23 14:28:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6238185,2020,759506,759506/2020,2020-06-10 04:07:11,2020-06-10 04:09:57,09/06/1970,23:40,A NOITE,Desconhecida,Não,,ESTRADA VELHA DO JARAGUÁ,229,VILA JAGUARA,S.PAULO,SP,-234227801,-467869952,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,46º D.P. PERUS,Consumado,,GEF7826,SP,SÃO PAULO,Preta,CHEVROLET/COBALT 1.8 LTZ,2017,0,INEXIST.,0,,0,1,0,1970-06-09 23:40:00
6246284,2020,1027458,1027458/2020,2020-07-25 06:11:38,2020-07-25 23:21:08,27/06/1977,21:39,A NOITE,Desconhecida,Não,,RUA ANTONIO JOSE BENTES,454,CAPAO REDONDO,S.PAULO,SP,-236645684005454,-467919669462272,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,47º D.P. CAPAO REDONDO,Consumado,,QQP0017,MG,BELO HORIZONTE,Prata,HYUNDAI/HB20 1.0M UNIQUE,2019,0,AUTOMOVEL,0,,0,1,0,1977-06-27 21:39:00
6250727,2020,1187402,1187402/2020,2020-08-19 23:51:34,2020-08-19 23:51:41,19/08/1992,20:30,A NOITE,Desconhecida,Não,,RUA EPAMINONDAS RODRIGUES,20,PARQUE MARAJOARA,S.ANDRE,SP,-236704261142121,-464963229792282,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,03º D.P. SANTO ANDRÉ,Consumado,,,,,Preta,,0,0,MOTOCICLO,0,,0,1,0,1992-08-19 20:30:00
6250728,2020,1187402,1187402/2020,2020-08-19 23:51:34,2020-08-19 23:51:41,19/08/1992,20:30,A NOITE,Desconhecida,Não,,RUA EPAMINONDAS RODRIGUES,20,PARQUE MARAJOARA,S.ANDRE,SP,-236704261142121,-464963229792282,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,03º D.P. SANTO ANDRÉ,Consumado,,AQF1583,SP,SANTO ANDRÉ,Prata,,2008,0,MOTOCICLO,0,,0,1,0,1992-08-19 20:30:00


In [83]:
df.drop(dt_incoerente.index, axis=0, inplace=True)

In [84]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6253811 entries, 0 to 6258783
Data columns (total 38 columns):
 #   Column                    Dtype         
---  ------                    -----         
 0   ANO_BO                    int64         
 1   NUM_BO                    int64         
 2   NUMERO_BOLETIM            object        
 3   BO_INICIADO               datetime64[ns]
 4   BO_EMITIDO                datetime64[ns]
 5   DATAOCORRENCIA            object        
 6   HORAOCORRENCIA            object        
 7   PERIODOOCORRENCIA         category      
 8   BO_AUTORIA                category      
 9   FLAGRANTE                 category      
 10  NUMERO_BOLETIM_PRINCIPAL  object        
 11  LOGRADOURO                object        
 12  NUMERO                    int32         
 13  BAIRRO                    object        
 14  CIDADE                    object        
 15  UF                        object        
 16  LATITUDE                  object        
 17  LONGITUD

#### Reorganizar as colunas do dataset

In [85]:
df.columns.to_list()

['ANO_BO',
 'NUM_BO',
 'NUMERO_BOLETIM',
 'BO_INICIADO',
 'BO_EMITIDO',
 'DATAOCORRENCIA',
 'HORAOCORRENCIA',
 'PERIODOOCORRENCIA',
 'BO_AUTORIA',
 'FLAGRANTE',
 'NUMERO_BOLETIM_PRINCIPAL',
 'LOGRADOURO',
 'NUMERO',
 'BAIRRO',
 'CIDADE',
 'UF',
 'LATITUDE',
 'LONGITUDE',
 'DESCRICAOLOCAL',
 'SOLUCAO',
 'DELEGACIA_NOME',
 'DELEGACIA_CIRCUNSCRICAO',
 'STATUS',
 'VITIMAFATAL',
 'PLACA_VEICULO',
 'UF_VEICULO',
 'CIDADE_VEICULO',
 'DESCR_COR_VEICULO',
 'DESCR_MARCA_VEICULO',
 'ANO_FABRICACAO',
 'ANO_MODELO',
 'DESCR_TIPO_VEICULO',
 'QUANT_CELULAR',
 'MARCA_CELULAR',
 'ROUBO_C',
 'ROUBO_V',
 'FURTO_V',
 'DATA_HORA_OCORRENCIA']

In [86]:
df = df[['ANO_BO',
 'NUM_BO',
 'NUMERO_BOLETIM',
 'BO_INICIADO',
 'BO_EMITIDO',
 'DATA_HORA_OCORRENCIA',
 'DATAOCORRENCIA',
 'HORAOCORRENCIA',
 'PERIODOOCORRENCIA',
 'BO_AUTORIA',
 'FLAGRANTE',
 'NUMERO_BOLETIM_PRINCIPAL',
 'LOGRADOURO',
 'NUMERO',
 'BAIRRO',
 'CIDADE',
 'UF',
 'LATITUDE',
 'LONGITUDE',
 'DESCRICAOLOCAL',
 'SOLUCAO',
 'DELEGACIA_NOME',
 'DELEGACIA_CIRCUNSCRICAO',
 'STATUS',
 'VITIMAFATAL',
 'PLACA_VEICULO',
 'UF_VEICULO',
 'CIDADE_VEICULO',
 'DESCR_COR_VEICULO',
 'DESCR_MARCA_VEICULO',
 'ANO_FABRICACAO',
 'ANO_MODELO',
 'DESCR_TIPO_VEICULO',
 'QUANT_CELULAR',
 'MARCA_CELULAR',
 'ROUBO_C',
 'ROUBO_V',
 'FURTO_V']].copy()

In [87]:
df.sample()

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATA_HORA_OCORRENCIA,DATAOCORRENCIA,HORAOCORRENCIA,PERIODOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
931128,2016,3416,3416/2016,2016-12-31 19:05:12,2016-12-31 19:12:32,2016-12-31 19:05:00,31/12/2016,19:05,DE MADRUGADA,Desconhecida,Não,,RUA UM,1219,MORRO SANTA MARIA,SANTOS,SP,-239381108953088,-463566924452007,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,DEL.SEC.SANTOS,05º D.P. SANTOS,Consumado,,BIM7375,SP,SANTOS,Preta,IMP/FIAT UNO CSL 1.6,1992,1992,AUTOMOVEL,0,,0,0,1


In [88]:
df.shape

(6253811, 38)

#### Periodo Ocorrência 

É possivel perceber que a coluna `PERIODOOCORRENCIA` não condiz com o horário registrado

In [89]:
dfmad = df.loc[df.PERIODOOCORRENCIA == 'DE MADRUGADA']
dfman = df.loc[df.PERIODOOCORRENCIA == 'PELA MANHÃ']
dftar = df.loc[df.PERIODOOCORRENCIA == 'A TARDE']
dfnoi = df.loc[df.PERIODOOCORRENCIA == 'A NOITE']
dfinc = df.loc[df.PERIODOOCORRENCIA == 'EM HORA INCERTA']

df.PERIODOOCORRENCIA.value_counts()

A NOITE            2499783
PELA MANHÃ         1412263
A TARDE            1252392
DE MADRUGADA        936149
EM HORA INCERTA     153224
Name: PERIODOOCORRENCIA, dtype: int64

In [90]:
print('Madrugada: ', dfmad.DATA_HORA_OCORRENCIA.dt.hour.unique())
print('Manhã: ', dfman.DATA_HORA_OCORRENCIA.dt.hour.unique())
print('Tarde: ', dftar.DATA_HORA_OCORRENCIA.dt.hour.unique())
print('Noite: ', dfnoi.DATA_HORA_OCORRENCIA.dt.hour.unique())
print('Incerta: ', dfinc.DATA_HORA_OCORRENCIA.dt.hour.unique())

Madrugada:  [ 0  1  2  3  4  7  5 10 12 13 14 15 16 18  9 21 23  6 19 22  8 11 20 17]
Manhã:  [ 8  7  9 11 15 16 17  6 10 12 13 20 22 14 18 21  0 19  1 23  3  2  4  5]
Tarde:  [23 14 12 15 17 20 21 22 13  6 11 16 19  0 18 10  1  2  9  8  3  7  5  4]
Noite:  [23 19 22  1  2  8 18 20 21  0  6 10 16 11 15  3  9 12 13 14 17  7  4  5]
Incerta:  [17 20 23  5 12 13 22  0  2 10 11 14 21 18 19  1  9  3 15  4 16  8  7  6]


##### Padronização dos peridoos

Para isso será determinados alguns limites de horários para cada uma das categorias descritas acima

 - **Madrugada:** 0h às 5h
 - **Manhã:** 5h às 12h
 - **Tarde:** 12h às 18h
 - **Noite:** 18h às 24h
 - **Incerta:** Será mantido o registro original

In [91]:
df['PERIODOOCORRENCIA'] = np.where((df['DATA_HORA_OCORRENCIA'].dt.hour >= 0) & (df['DATA_HORA_OCORRENCIA'].dt.hour < 5),
                                  'MADRUGADA', df['PERIODOOCORRENCIA'])

df['PERIODOOCORRENCIA'] = np.where((df['DATA_HORA_OCORRENCIA'].dt.hour >= 5) & (df['DATA_HORA_OCORRENCIA'].dt.hour < 12),
                                  'MANHA', df['PERIODOOCORRENCIA'])

df['PERIODOOCORRENCIA'] = np.where((df['DATA_HORA_OCORRENCIA'].dt.hour >= 12) & (df['DATA_HORA_OCORRENCIA'].dt.hour < 18),
                                  'TARDE', df['PERIODOOCORRENCIA'])

df['PERIODOOCORRENCIA'] = np.where((df['DATA_HORA_OCORRENCIA'].dt.hour >= 18) & (df['DATA_HORA_OCORRENCIA'].dt.hour <= 23),
                                  'NOITE', df['PERIODOOCORRENCIA'])


In [92]:
df['PERIODOOCORRENCIA'].loc[dfinc.index] = 'EM HORA INCERTA'

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [93]:
df['PERIODOOCORRENCIA'].unique()

array(['NOITE', 'MADRUGADA', 'MANHA', 'TARDE', 'EM HORA INCERTA'],
      dtype=object)

In [94]:
df.PERIODOOCORRENCIA.value_counts()

NOITE              2441907
MANHA              1529095
TARDE              1448565
MADRUGADA           681020
EM HORA INCERTA     153224
Name: PERIODOOCORRENCIA, dtype: int64

## Salvar o arquivo em um  arquivo PARQUET

In [95]:
df.to_parquet('data_cleaned/ssp_cleaned.parquet', index=False)