# Limpeza dos dados
## Roubo de Celulares

Com os dados obtidos  e já compilados, o próximo passo é realizar a limpeza do dataset
Isso consiste em:
 - Separar a cidade de São Bernardo do Campo
 - Verificar valores nulos
 - Campos duplicados
 - Remover informações que não serão úteis
 - Acertar ou remover informações erradas

### Importar as bibliotecas

As bibliotecas que serão utilizadas são:
 - `Pandas` - Manipulação do dataset
 - `Matplotlib` - Visualização dos dados
 - `Seaborn`- Visualização dos dados
 - `Numpy` - habilita propriedades matemáticas

In [1]:
#importando as bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import os


### Carregar o dataset de roubo de celulares

Carregar o dataset, verificar suas dimensões e ter as primeiras impressões

In [2]:
path = 'data_cleaned/'

directory = os.path.join(path) # Diretório onde estão salvos os arquivos .xls
i=0 # Marcador criado para definir se é o primeiro arquivo ou não
counter=0 #Contador de arquivos lidos


for root,dirs,files in os.walk(directory): # root - Caminho lido | dirs - diretórios existentes dentro do caminho lido | files - arquivos existentes no caminho lido
    
    #Percorrer todos os arquivos um a um, e ler somente os arquivos com extensão .xls
    for file in files:
        if file.endswith("2020.csv"):
            dftemp = pd.read_csv(path+file, low_memory=False) # leitura do arquivo .xls ("corrompido")
            print(path+file)
            if i==0: # Condição IF para determinar se é a primeira leitura e copiar o dataset para a variável "df"
                df = dftemp.copy()
                i = 1
                del(dftemp) # Deletar a variável para não sobrecarregar a memória
                
            else: # Para os demais arquivos realizar a junção com o primeiro arquivo
                df = df.append(dftemp, ignore_index=True)
                del(dftemp) # Deletar a variável para não sobrecarregar a memória
                
            linhas = df.shape[0]
            counter = counter + 1
            
print("Linhas totais: ", linhas)
print('\nTotal de arquivos concatenados:', counter)
print('\nDimensões do dataset: \n\t- {} Linhas\n\t- {} Colunas'.format(df.shape[0],df.shape[1]))

data_cleaned/roubo_veiculo2010_2020.csv
data_cleaned/furto_veiculo2010_2020.csv
data_cleaned/roubo_celular2010_2020.csv
Linhas totais:  6258784

Total de arquivos concatenados: 3

Dimensões do dataset: 
	- 6258784 Linhas
	- 57 Colunas


In [3]:
print('{} Linhas\n{} Colunas'.format(df.shape[0],df.shape[1]))
df.head() # Mostra as 5 primeiras linhas do dataset

6258784 Linhas
57 Colunas


Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,DATACOMUNICACAO,DATAELABORACAO,...,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
0,2009,1777,1777/2009,31/12/2009 23:47:02,01/01/2010 00:02:23,31/12/2009,21:00,A NOITE,31/12/2009,31/12/2009 23:47:02,...,Cinza,FIAT/UNO MILLE EX,1999.0,1999.0,AUTOMOVEL,,,0,1,0
1,2010,1,1/2010,01/01/2010 00:01:56,01/01/2010 00:06:30,31/12/2009,23:30,A NOITE,31/12/2009,01/01/2010 00:01:56,...,Branco,GM/MERIVA MAXX,2008.0,2009.0,AUTOMOVEL,,,0,1,0
2,2009,15657,15657/2009,31/12/2009 23:37:53,01/01/2010 00:08:27,31/12/2009,22:30,A NOITE,31/12/2009,31/12/2009 23:37:53,...,Prata,FIAT/PALIO WK ADVEN FLEX,2007.0,2007.0,AUTOMOVEL,,,0,1,0
3,2009,6168,6168/2009,31/12/2009 23:56:36,01/01/2010 00:11:19,31/12/2009,22:15,A NOITE,31/12/2009,31/12/2009 23:56:36,...,Amarelo,HONDA/CBX 250 TWISTER,2008.0,2008.0,MOTOCICLO,,,0,1,0
4,2009,15059,15059/2009,01/01/2010 00:03:03,01/01/2010 00:17:20,31/12/2009,21:30,A NOITE,31/12/2009,01/01/2010 00:03:03,...,Verde,IMP/FIAT SIENA ELX,2001.0,2001.0,AUTOMOVEL,,,0,1,0


### Verificar dados nulos e ausentes

É possivel ver que pelo menos 18 colunas possuem mais de 80% de dados ausentes, a grande maioria relacionado a dados pessoais.

Essas as quais podem ser diretamente removidas do dataset.

Abaixo a lista ordenada em % dos primeiros 35 mais ausentes

In [4]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6258784 entries, 0 to 6258783
Data columns (total 57 columns):
 #   Column                    Dtype  
---  ------                    -----  
 0   ANO_BO                    int64  
 1   NUM_BO                    int64  
 2   NUMERO_BOLETIM            object 
 3   BO_INICIADO               object 
 4   BO_EMITIDO                object 
 5   DATAOCORRENCIA            object 
 6   HORAOCORRENCIA            object 
 7   PERIDOOCORRENCIA          object 
 8   DATACOMUNICACAO           object 
 9   DATAELABORACAO            object 
 10  BO_AUTORIA                object 
 11  FLAGRANTE                 object 
 12  NUMERO_BOLETIM_PRINCIPAL  object 
 13  LOGRADOURO                object 
 14  NUMERO                    object 
 15  BAIRRO                    object 
 16  CIDADE                    object 
 17  UF                        object 
 18  LATITUDE                  object 
 19  LONGITUDE                 object 
 20  DESCRICAOLOCAL          

In [5]:
nulos = df.isnull().sum()*100
nulos = nulos / len(df)
nulos.sort_values(ascending=False).head(35)

PARENTESCO                  100.000000
RELACIONAMENTO               99.999105
PROFISSAO                    99.898383
GRAUINSTRUCAO                99.894484
NACIONALIDADE                99.857161
ESTADOCIVIL                  99.847526
NATURALIDADE                 99.838131
DATANASCIMENTO               99.835479
IDADE                        99.830334
SEXO                         99.790183
VITIMAFATAL                  99.786236
TIPOPESSOA                   99.786236
NATUREZAVINCULADA            99.786220
CORCUTIS                     99.786220
TIPOVINCULO                  99.786204
DESDOBRAMENTO                94.816932
NUMERO_BOLETIM_PRINCIPAL     93.829744
EXAME                        83.911731
QUANT_CELULAR                65.123193
MARCA_CELULAR                57.909604
DESCR_MARCA_VEICULO          49.574726
PLACA_VEICULO                49.427684
CIDADE_VEICULO               49.354108
DESCR_TIPO_VEICULO           49.289766
UF_VEICULO                   49.211668
DESCR_COR_VEICULO        

### Remover colunas e dados indesejados

Primeiramente avaliar entre as colunas que tem mais que 70% dos dados ausentes o que é possível eliminar e criar uma lista com esses campos

In [6]:
nulos.index[nulos > 0.7]

Index(['HORAOCORRENCIA', 'NUMERO_BOLETIM_PRINCIPAL', 'LOGRADOURO', 'BAIRRO',
       'LATITUDE', 'LONGITUDE', 'EXAME', 'DESDOBRAMENTO', 'STATUS',
       'TIPOPESSOA', 'VITIMAFATAL', 'NATURALIDADE', 'NACIONALIDADE', 'SEXO',
       'DATANASCIMENTO', 'IDADE', 'ESTADOCIVIL', 'PROFISSAO', 'GRAUINSTRUCAO',
       'CORCUTIS', 'NATUREZAVINCULADA', 'TIPOVINCULO', 'RELACIONAMENTO',
       'PARENTESCO', 'PLACA_VEICULO', 'UF_VEICULO', 'CIDADE_VEICULO',
       'DESCR_COR_VEICULO', 'DESCR_MARCA_VEICULO', 'ANO_FABRICACAO',
       'ANO_MODELO', 'DESCR_TIPO_VEICULO', 'QUANT_CELULAR', 'MARCA_CELULAR'],
      dtype='object')

Os campos pessoais podem ser diretamente eliminados, para os demais campos será analisado a real necessidade

In [7]:
eliminar = ['PARENTESCO', 'RELACIONAMENTO', 'NACIONALIDADE', 'PROFISSAO',
       'GRAUINSTRUCAO', 'NATURALIDADE', 'DATANASCIMENTO', 'ESTADOCIVIL',
       'IDADE', 'NATUREZAVINCULADA', 'TIPOPESSOA', 'SEXO', 'CORCUTIS',
       'TIPOVINCULO']

In [8]:
df.drop(eliminar, axis=1, inplace=True)

In [9]:
len(df.columns)

43

### Analisando demais colunas

Usar comando abaixo para ajustar configurações de visualização do pandas para explorar os dados das colunas

In [10]:
pd.set_option('display.max_columns', 60) # Define limite de 60 colunas na visualização
#pd.set_option('display.max_seq_items', 30) # Define limite de linhas na visualização

Selecionar somente os campos onde há vitima fatal e contar.

De acordo com o site da SSP-SP, a referência de quantidade de Boletins de Ocorrência deve ser pelo Número do Boletim (NUMERO_BOLETIM).


In [11]:
vitimafatal = df[df['VITIMAFATAL'].isnull()==False]
total_vf = len(vitimafatal['NUMERO_BOLETIM'].unique())
print(total_vf, 'vitimas fatais de 2010 à 2020')

2100 vitimas fatais de 2010 à 2020


Neste caso, houve 2100 vitimas fatais entre 2010 e 2020,

Por esta razão os dados serão mantidos, apenas a coluna `'VITIMAFATAL'` não será removida.

O campo `'EXAME'`, `'RUBRICA'`, `'ESPECIE'`, `'DESDOBRAMENTO'`, possuem informações que não são relevantes para a ánalise, porém os demais dados devem ser mantidos, removendos apenas as colunas.


In [12]:
print("EXAME")
print(df.EXAME.unique()[:10],'\n')
print("RUBRICA")
print(df.RUBRICA.unique()[:10],'\n')
print("ESPECIE")
print(df.ESPECIE.unique()[:10],'\n')
print("DESDOBRAMENTO")
print(df.DESDOBRAMENTO.unique()[:10])


EXAME
[nan 'IML' 'IC-IML' 'IC' 'SVO'] 

RUBRICA
['Roubo (art. 157) - VEICULO' 'Localização/Apreensão e Entrega de veículo'
 'Homicídio simples (art. 121)' 'Ato Infracional' 'Perda/Extravio'
 'Roubo (art. 157) - RESIDENCIA'
 'Drogas para consumo pessoal sem autorização ou em desacordo (Art.28,caput)'
 'Roubo (art. 157) - CARGA' 'Localização/Apreensão de objeto'
 'Entrega de veículo localizado/apreendido'] 

ESPECIE
['Título II - Patrimônio (arts. 155 a 183)' 'Localização e/ou Devolução'
 'Título I - Pessoa (arts. 121 a 154)' 'Ato infracional' 'Perda/Extravio'
 'L 11343/06 - Entorpecentes'
 'Título XI - Administração pública (arts. 312 a 359-H)'
 'L 10826/03 - Estatuto do Desarmamento'
 'Título IX - Paz pública (arts. 286 a 288)' 'Captura procurado'] 

DESDOBRAMENTO
[nan
 '§1o. (...) logo depois de subtraída a coisa, emprega violência contra pessoa'
 'caput. Subtrair coisa móvel alheia, mediante grave ameaça ou violência a pessoa'
 '§3o. Se da violência resulta lesão corporal grave:'
 'N

In [13]:
eliminar = ["EXAME", "RUBRICA", "ESPECIE", "DESDOBRAMENTO"]

df.drop(eliminar, axis=1, inplace=True)

In [14]:
df.shape

(6258784, 39)

## Analise de variáveis

In [15]:
df.columns

Index(['ANO_BO', 'NUM_BO', 'NUMERO_BOLETIM', 'BO_INICIADO', 'BO_EMITIDO',
       'DATAOCORRENCIA', 'HORAOCORRENCIA', 'PERIDOOCORRENCIA',
       'DATACOMUNICACAO', 'DATAELABORACAO', 'BO_AUTORIA', 'FLAGRANTE',
       'NUMERO_BOLETIM_PRINCIPAL', 'LOGRADOURO', 'NUMERO', 'BAIRRO', 'CIDADE',
       'UF', 'LATITUDE', 'LONGITUDE', 'DESCRICAOLOCAL', 'SOLUCAO',
       'DELEGACIA_NOME', 'DELEGACIA_CIRCUNSCRICAO', 'STATUS', 'VITIMAFATAL',
       'PLACA_VEICULO', 'UF_VEICULO', 'CIDADE_VEICULO', 'DESCR_COR_VEICULO',
       'DESCR_MARCA_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO',
       'DESCR_TIPO_VEICULO', 'QUANT_CELULAR', 'MARCA_CELULAR', 'ROUBO_C',
       'ROUBO_V', 'FURTO_V'],
      dtype='object')

In [16]:
df.tail()

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,DATACOMUNICACAO,DATAELABORACAO,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
6258779,2020,1439915,1439915/2020,30/09/2020 16:25:49,30/09/2020 23:33:10,29/09/2020,11:20,PELA MANHÃ,30/09/2020,30/09/2020 16:25:49,Desconhecida,Não,,ESTRADA TURÍSTICA DO JARAGUÁ,700.0,VILA JARAGUÁ,S.PAULO,SP,-234880678,-467554815,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,DELEGACIA ELETRONICA,46º D.P. PERUS,Consumado,,FSK6835,SP,SÃO PAULO,Branco,I/M.BENZ 311CDISTREETC,2014.0,,AUTOMOVEL,,SAMSUNG,1,0,0
6258780,2020,1439915,1439915/2020,30/09/2020 16:25:49,30/09/2020 23:33:10,29/09/2020,11:20,PELA MANHÃ,30/09/2020,30/09/2020 16:25:49,Desconhecida,Não,,ESTRADA TURÍSTICA DO JARAGUÁ,700.0,VILA JARAGUÁ,S.PAULO,SP,-234880678,-467554815,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,DELEGACIA ELETRONICA,46º D.P. PERUS,Consumado,,FSK6835,SP,SÃO PAULO,Branco,I/M.BENZ 311CDISTREETC,2014.0,,AUTOMOVEL,1.0,SAMSUNG,1,0,0
6258781,2020,3773,3773/2020,30/09/2020 22:46:10,30/09/2020 23:40:05,30/09/2020,20:15,A NOITE,30/09/2020,30/09/2020 22:46:10,Desconhecida,Não,,AVENIDA MINISTRO OSVALDO ARANHA,163.0,RUDGE RAMOS,S.BERNARDO DO CAMPO,SP,-236600433584328,-46568749792791,Comércio e serviços,ENCAMINHAMENTO DP ÁREA DO FATO,01º DP MAUA-DR.ALFREDO GARBINO,02º D.P. S.BERNARDO DO CAMPO,Consumado,,,,,,,0.0,0.0,,1.0,SAMSUNG,1,0,0
6258782,2020,1890,1890/2020,30/09/2020 23:32:44,30/09/2020 23:50:39,30/09/2020,19:15,A NOITE,30/09/2020,30/09/2020 23:32:44,Desconhecida,Não,,AVENIDA SARGENTO GERALDO SANTANA,901.0,CAMPO GRANDE,S.PAULO,SP,-236634606583265,-466865585089183,Via pública,BO PARA INVESTIGAÇÃO,99º D.P. CAMPO GRANDE,99º D.P. CAMPO GRANDE,Consumado,,,,,,,0.0,0.0,,1.0,Samsung,1,0,0
6258783,2020,1436935,1436935/2020,30/09/2020 10:49:57,30/09/2020 23:57:26,14/08/2020,18:00,A NOITE,30/09/2020,30/09/2020 10:49:57,Desconhecida,Não,,AVENIDA SINIMBÚ,5.0,RECANTO DO SOL I,CAMPINAS,SP,-2296370955775,-47149075366,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,09º D.P. CAMPINAS,Consumado,,,,,,,0.0,0.0,,,MOTOROLA,1,0,0


In [17]:
df.dtypes

ANO_BO                        int64
NUM_BO                        int64
NUMERO_BOLETIM               object
BO_INICIADO                  object
BO_EMITIDO                   object
DATAOCORRENCIA               object
HORAOCORRENCIA               object
PERIDOOCORRENCIA             object
DATACOMUNICACAO              object
DATAELABORACAO               object
BO_AUTORIA                   object
FLAGRANTE                    object
NUMERO_BOLETIM_PRINCIPAL     object
LOGRADOURO                   object
NUMERO                       object
BAIRRO                       object
CIDADE                       object
UF                           object
LATITUDE                     object
LONGITUDE                    object
DESCRICAOLOCAL               object
SOLUCAO                      object
DELEGACIA_NOME               object
DELEGACIA_CIRCUNSCRICAO      object
STATUS                       object
VITIMAFATAL                  object
PLACA_VEICULO                object
UF_VEICULO                  

As colunas `'DATACOMUNICACAO'`, `'DATAELABORACAO'` acabam sendo redundantes já que temos a data e horario do inicio e fim do BO, por este motivo as mesmas serão removidas

In [18]:
df.drop(['DATACOMUNICACAO', 'DATAELABORACAO'], axis=1, inplace=True)

### Colunas que devem ser convertidas para datas / inteiros / categoricos

In [19]:
datas = ['BO_INICIADO', 'BO_EMITIDO',
       'DATAOCORRENCIA', 'HORAOCORRENCIA']
inteiros = ['NUMERO', 'ANO_FABRICACAO', 'ANO_MODELO', 'QUANT_CELULAR']

categoricos = ['PERIDOOCORRENCIA', 'BO_AUTORIA', 'FLAGRANTE',
       'DESCRICAOLOCAL', 'SOLUCAO', 'STATUS',
       'VITIMAFATAL', 'DESCR_COR_VEICULO',
       'DESCR_TIPO_VEICULO']


#### Variáveis Categóricas

In [20]:
df[categoricos] = df[categoricos].astype("category")

In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6258784 entries, 0 to 6258783
Data columns (total 37 columns):
 #   Column                    Dtype   
---  ------                    -----   
 0   ANO_BO                    int64   
 1   NUM_BO                    int64   
 2   NUMERO_BOLETIM            object  
 3   BO_INICIADO               object  
 4   BO_EMITIDO                object  
 5   DATAOCORRENCIA            object  
 6   HORAOCORRENCIA            object  
 7   PERIDOOCORRENCIA          category
 8   BO_AUTORIA                category
 9   FLAGRANTE                 category
 10  NUMERO_BOLETIM_PRINCIPAL  object  
 11  LOGRADOURO                object  
 12  NUMERO                    object  
 13  BAIRRO                    object  
 14  CIDADE                    object  
 15  UF                        object  
 16  LATITUDE                  object  
 17  LONGITUDE                 object  
 18  DESCRICAOLOCAL            category
 19  SOLUCAO                   category
 20  DE

#### Variáveis Númericas

In [22]:
df.select_dtypes(include=['integer', 'float']).columns

Index(['ANO_BO', 'NUM_BO', 'ANO_FABRICACAO', 'ANO_MODELO', 'ROUBO_C',
       'ROUBO_V', 'FURTO_V'],
      dtype='object')

Verificar se os valores de cada uma das colunas estão consistentes

##### ANO_BO

In [23]:
df['ANO_BO'].unique()

array([2009, 2010, 2011, 2012, 2013, 2014, 2015, 2016, 2017, 2018, 2019,
       2020])

##### NUM_BO

In [24]:
df.loc[df['NUM_BO'] < 0]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V


##### NUMERO

In [25]:
df = df[(df['NUMERO'] != 'Título II - Patrimônio (arts. 155 a 183)') & (df['NUMERO'] != '96º D.P. MONÇÕES')]

In [26]:
for i in inteiros:
    print(i)
    df[i] = pd.to_numeric(df[i].replace(np.nan, 0), downcast='integer', errors='coerce')

NUMERO
ANO_FABRICACAO
ANO_MODELO
QUANT_CELULAR


Na coluna número é possivel ver que tem alguns números negativos, para isso vamos considerá-los como positivos

In [27]:
pd.set_option('display.float_format', lambda x: '%.0f' % x)

In [28]:
df['NUMERO'].describe()

count      6258782
mean         27959
std        5103881
min         -19739
25%              0
50%            100
75%            440
max     1998810785
Name: NUMERO, dtype: float64

In [29]:
len(df.loc[df['NUMERO'] < 0])

7

In [30]:
df['NUMERO'] = np.where((df['NUMERO'] < 0), abs(df['NUMERO']), df['NUMERO'])

In [31]:
df.loc[df['NUMERO'] < 0]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V


Também é possivel identificar diversos números muito maiores do que o encontrados normalmente em nossas ruas, mas fica impossivel saber qual seria a numeração correta

primeiramente será feito um filtro onde todos os números maiors do que 9 mil serão avaliados e contados

In [32]:
out_num = df['NUMERO'].loc[df['NUMERO'] > 9000].value_counts().sum()
out_num

77718

In [33]:
#20 primeiros registros com números maiores do que 9mil
df['NUMERO'].loc[df['NUMERO'] > 9000].value_counts().head(20)

99999    15463
9999      6957
10000     3818
12000     2192
15000     1743
11000     1496
11111     1252
13000     1004
22540      956
16000      932
14000      819
18000      668
20000      665
25000      653
17000      653
16741      645
10500      606
11500      555
9500       531
22000      469
Name: NUMERO, dtype: int64

In [34]:
out_num_p100 = out_num*100 / df.shape[0] 
print('{}% dos dados possuem número da rua maior do que 9 mil'.format(round(out_num_p100, 2)))

1.24% dos dados possuem número da rua maior do que 9 mil


Por ser uma quantia não tão significante, esses números considerados como número "1"


In [35]:
df['NUMERO'] = np.where((df['NUMERO'] > 9000), 1, df['NUMERO'])

Ao mesmo tempo existem mais de 1,73 milhão de registros com o número zero (27,64%), estes também serão passados para "1"

In [36]:
print(df['NUMERO'].loc[df['NUMERO'] == 0].value_counts().sum(), 'entradas com valor "zero"')
print(round(100*df['NUMERO'].loc[df['NUMERO'] == 0].value_counts().sum() / df.shape[0],2), '%')


1730148 entradas com valor "zero"
27.64 %


In [37]:
df['NUMERO'] = np.where((df['NUMERO'] == 0 ), 1, df['NUMERO'])

In [38]:
df['NUMERO'].describe()

count   6258782
mean        450
std         998
min           1
25%           1
50%         100
75%         402
max        9000
Name: NUMERO, dtype: float64

#####  ANO_FABRICACAO

Podemos verificar que há diversos anos de fabricação que não consistem com a realidade, uma vez que o primeiro automovel foi fabricado em 1886

Alguns deste valores como apenas "8" poderia representar "2008", outras como "95" poderiam ser "1995", mas como não tem como ter certeza, não podemos assumir isso logo de primeira.

O primeiro carro fabricado no Brasil foi no ano de 1956, pela Romi-sIetta


In [39]:
df['ANO_FABRICACAO'].unique()

array([1999, 2008, 2007, 2001, 2006, 2002,    0, 2003, 1996, 2005, 2000,
       2009, 2004, 1997, 1987, 1995, 1998, 1986, 1992, 1993, 1994, 1989,
       1990, 1991, 1974, 1982, 1984, 1985, 1973, 1967, 1979, 1980, 1978,
       2208, 1988, 1971, 1972, 1975, 1981, 1966, 1983, 1977, 1976, 1969,
       1499, 1970, 2010,    9,   10, 1964, 1959,   98, 1968, 2099, 2011,
        205,   94, 1960, 1965,  199,  207,   95,  200, 2088,  203, 1020,
       2012, 2101,   84, 2209,   76,  712,  201, 2066, 2022,  204, 1963,
       5004, 1010,   91, 1961, 1005, 2207,   11,   97, 1962,  208,   12,
       1011,  209, 2015, 2013,  211, 2912,    2, 2112, 7907, 1013, 2014,
        607, 1367, 1314, 1914,  412, 2019, 2913, 3013, 1012,  910, 1112,
         13,  707, 1039, 1313, 1414,  213, 2016, 1212,  809,   16,  506,
       1944, 2017, 1415, 1617, 2107, 2018, 2106, 2020, 1952, 2021,    8,
         14,  198, 1098, 1081, 1957,    7,    4,   89, 1841, 1958,  978,
       1951, 1899, 1928,  985, 2998, 8989, 2911, 11


- Primeiro passo será separar todas as entradas menor que 1950 e maior que 2020
- Depois contar qual a quantidade e a porcentagem destas entradas em relação aos demais
- Analisar em detalhes alguns destes valores por amostragem

In [40]:
#seleciona os campos onde Ano de Fabricação é menor que 1950 e maior que 2020
ano_fab = df.query('ANO_FABRICACAO < 1950 or ANO_FABRICACAO > 2020')

#Seleciona os campos onde Ano de Fabricação é diferente de zero
ano_fab = ano_fab.loc[df.ANO_FABRICACAO != 0]
print(len(ano_fab), 'Entradas onde Ano de fabricação é menor que 1950, maior que 2020 e diferente de zero')
print('{}% do total de entradas'.format(round(len(ano_fab)*100 / df.shape[0],2)))

467 Entradas onde Ano de fabricação é menor que 1950, maior que 2020 e diferente de zero
0.01% do total de entradas


In [41]:
# seleciona 20 amostras aleatórias para uma avaliação mais detalhada
ano_fab[['ANO_BO', 'PLACA_VEICULO', 'DESCR_MARCA_VEICULO', 'DESCR_TIPO_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO']].sample(n=20, random_state=111)

Unnamed: 0,ANO_BO,PLACA_VEICULO,DESCR_MARCA_VEICULO,DESCR_TIPO_VEICULO,ANO_FABRICACAO,ANO_MODELO
45971,2010,KJS7088,HONDA/XR 250 TORNADO,MOTOCICLO,205,0
4464657,2014,EZL8012,I/KIA KM BETA BONGO,CAMINHÃO,1112,12
6251115,2020,FNN0116,VOLVO/VOLVO,CAMINHÃO TRATOR,14,2014
2818885,2016,COF0983,IMP/FORD ESCORT GL 16V F,AUTOMOVEL,998,998
2398565,2014,AWV6572,VW/GOL 1.0,AUTOMOVEL,2103,2013
2028703,2011,ASQ0669,FIAT/FIAT UNO S,AUTOMOVEL,201,2011
2441433,2014,00X5139,FORD/FIESTA FLEX,AUTOMOVEL,2912,2013
2535995,2015,FXD9934,I/FIAT SIENA EL 1.4 FLEX,AUTOMOVEL,1415,1415
2494501,2014,EIY9809,GM/CORSA HATCH PREMIUM,AUTOMOVEL,910,910
2503280,2014,FAJ7436,I/FORD FIESTA SE HA,AUTOMOVEL,201,2012


Conforme observado na tabela acima se analisado o campo `DESCR_MARCA_VEICULO`, `ANO_FABRICACAO` e `ANO_MODELO`, a maioria dos casos está claro que foram erros de digitação e poderiam ser facilmente arrumados.

No entanto por se tratar apenas de 0,01% de todos os registros esses valores serão considerados como "0"

In [42]:
#seleciona a coluna ANO_FABRICACAO onde o index é igual do dataset "ano_fab" e define os valores como "0"
df['ANO_FABRICACAO'].loc[ano_fab.index] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [43]:
df['ANO_FABRICACAO'].unique()

array([1999, 2008, 2007, 2001, 2006, 2002,    0, 2003, 1996, 2005, 2000,
       2009, 2004, 1997, 1987, 1995, 1998, 1986, 1992, 1993, 1994, 1989,
       1990, 1991, 1974, 1982, 1984, 1985, 1973, 1967, 1979, 1980, 1978,
       1988, 1971, 1972, 1975, 1981, 1966, 1983, 1977, 1976, 1969, 1970,
       2010, 1964, 1959, 1968, 2011, 1960, 1965, 2012, 1963, 1961, 1962,
       2015, 2013, 2014, 2019, 2016, 2017, 2018, 2020, 1952, 1957, 1958,
       1951, 1956, 1955, 1954], dtype=int16)

#####  ANO_MODELO

Repetir os mesmos passos do `ANO_FABRICACAO` mas com `ANO_MODELO` até 2021

com o comando `df.ANO_MODELO.unique()` já é possivel identificar que há divergências nos valores 


In [44]:
df.ANO_MODELO.unique()

array([1999, 2009, 2007, 2008, 2001, 2003,    0, 1997, 2006, 2005, 2010,
       2002, 2004, 1998, 1987, 2000, 1995, 1986, 1992, 1994, 1993, 1996,
       1989, 1990, 1975, 1982, 1984, 1985, 1973, 1967, 1979, 1980, 1978,
       1983, 1991, 1971, 1981, 1988, 1966, 1977, 1976, 1974, 1969,  250,
       1932, 1634, 1970, 2425, 2011,    9,   10,  915,  125, 1964, 1713,
       1959, 2014, 1972,   99, 2428,  440, 1968, 1180, 1955, 2422, 1113,
         12, 9150,  600,   94,  209, 2540,  113,  114, 1517, 1318,  380,
       1960, 2996, 1938, 4131, 1965,  416,  580,  420, 1242, 1933,  323,
        815,  112, 1620, 1000, 1720,   95, 1011, 1214, 1900,  275,  120,
       2012, 1418, 2066, 2537,  200,  285,   84, 2209,   50,   76,  300,
       2033, 2220, 1215, 1718,  710, 5310, 2911, 1830, 2044,  150, 2099,
        201, 1200, 1963, 1944,   91, 1961, 2208, 2013, 2423, 1613, 3804,
        400,   98, 2112, 1962, 2206,   65, 4283,  230, 2204,  413,  202,
        130, 1513,  315, 2429,  265,  124, 2913,  2


- Primeiro passo será separar todas as entradas menor que 1950 e maior que 2021
- Depois contar qual a quantidade e a porcentagem destas entradas em relação aos demais
- Analisar em detalhes alguns destes valores por amostragem

In [45]:
#seleciona os campos onde Ano de Fabricação é menor que 1950 e maior que 2020
ano_mod = df.query('ANO_MODELO < 1950 or ANO_MODELO > 2021')

#Seleciona os campos onde Ano de Fabricação é diferente de zero
ano_mod = ano_mod.loc[df.ANO_MODELO != 0]
print(len(ano_mod), 'Entradas onde o ano do modelo é menor que 1950, maior que 2021 e diferente de zero')
print('{}% do total de entradas'.format(round(len(ano_mod)*100 / df.shape[0],2)))

1177 Entradas onde o ano do modelo é menor que 1950, maior que 2021 e diferente de zero
0.02% do total de entradas


In [46]:
# seleciona 20 amostras aleatórias para uma avaliação mais detalhada
ano_mod[['ANO_BO', 'PLACA_VEICULO', 'DESCR_MARCA_VEICULO', 'DESCR_TIPO_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO']].sample(n=20, random_state=111)

Unnamed: 0,ANO_BO,PLACA_VEICULO,DESCR_MARCA_VEICULO,DESCR_TIPO_VEICULO,ANO_FABRICACAO,ANO_MODELO
2647403,2015,XXX0000,M.A./VALMET,TRATOR MISTO,1978,85
4159765,2013,0000000,M.A./CATERPILLAR,TRATOR RODAS,2001,924
1346726,2017,ENF8555,I/CHEVROLET AGILE LT,AUTOMOVEL,0,910
738991,2014,,MA/VALTRA A750,TRATOR RODAS,2014,750
1023090,2015,EHG5547,H/HONDA 150,MOTOCICLO,2010,150
3369104,2010,MOH5320,REB/RANDON SR CA,REBOQUE,0,99
2330805,2013,,IMP/FORD F150 S,TRATOR RODAS,1983,9600
1944428,2011,CIA7529,VW/GOL CL,AUTOMOVEL,1997,16
346602,2012,QSK0616,M.BENZ/L1113 TOPLINE,CAMINHÃO TRATOR,1973,1113
4219641,2014,GSW1004,I/MERCEDES,CAMINHÃO,2011,1620


Como já "corrigimos" toda a coluna "ANO_FABRICACAO", vamos considerar que para todas essas entradas divergente que:
```python
ANO_MODELO = ANO_FABRICACAO
```


In [47]:
ano_mod['ANO_MODELO'] = ano_mod['ANO_FABRICACAO']

In [48]:
#seleciona a coluna ANO_FABRICACAO onde o index é igual do dataset "ano_fab" e define os valores como "0"
df['ANO_MODELO'].loc[ano_mod.index] = ano_mod['ANO_MODELO']

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


In [49]:
df.ANO_MODELO.unique()

array([1999, 2009, 2007, 2008, 2001, 2003,    0, 1997, 2006, 2005, 2010,
       2002, 2004, 1998, 1987, 2000, 1995, 1986, 1992, 1994, 1993, 1996,
       1989, 1990, 1975, 1982, 1984, 1985, 1973, 1967, 1979, 1980, 1978,
       1983, 1991, 1971, 1981, 1988, 1966, 1977, 1976, 1974, 1969, 1970,
       2011, 1964, 1959, 2014, 1972, 1968, 1955, 1960, 1965, 2012, 1963,
       1961, 2013, 1962, 2015, 2016, 2017, 2018, 2020, 2019, 2021, 1952,
       1957, 1958, 1951, 1956, 1954], dtype=int16)

#####  QUANT_CELULAR

Como foi utilizado o comando 

```python
errors = 'coerce'
```
Os valores que estavam como inválidos passaram a ser considerados NaN, é possível verificar que apenas 7 entradas estavam com essa inconsistência, por este motivo as mesmas serão eliminadas



In [50]:
df.QUANT_CELULAR.isnull().sum()

7

In [51]:
df.dropna(subset = ['QUANT_CELULAR'], inplace=True)

Verificar as métricas estatisticas das quantidades de celulares roubados, apesar de aparecer alguns outliers, estes serão mantidos por poderem se tratar de roubo de carga

In [52]:
# resumo estatistico onde a quantidade de celular é diferente de zero
df.QUANT_CELULAR.loc[df.QUANT_CELULAR != 0].describe()

count    2181781
mean           8
std         9972
min            1
25%            1
50%            1
75%            1
max     14728864
Name: QUANT_CELULAR, dtype: float64

Conforme tabela acima, é possivel ver que 75% das ocorrências acontecem com o roubo de apenas 1 celular,

Para verificação de uma amostragem, será considerado apenas quantidades que estão além dos 8 sigmas (99,9994%)

In [53]:
print('99,9994% das quantidades estão abaixo de:', df.QUANT_CELULAR.loc[df.QUANT_CELULAR != 0].quantile(0.999994))

99,9994% das quantidades estão abaixo de: 5760.0


Apenas 12 entradas estão acima de 5760 unidades roubadas, e somente 2 entradas estão com valores discrepantes dos demais, portanto essas 2 entradas serão eliminadas

index:
 - 3411515
 - 3446741

In [54]:
df[['ANO_BO', 'NUM_BO', 'NUMERO_BOLETIM_PRINCIPAL', 'HORAOCORRENCIA', 'CIDADE', 'DESCRICAOLOCAL',
    'QUANT_CELULAR', 'MARCA_CELULAR']]\
.loc[df.QUANT_CELULAR > df.QUANT_CELULAR.loc[df.QUANT_CELULAR != 0].quantile(0.999994)]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM_PRINCIPAL,HORAOCORRENCIA,CIDADE,DESCRICAOLOCAL,QUANT_CELULAR,MARCA_CELULAR
4302319,2014,12152,,16:00,S.PAULO,Via pública,9413,ALCATEL
4314660,2014,14257,,15:00,S.BERNARDO DO CAMPO,Via pública,9675,MOTORLA
4426476,2014,4646,,22:20,S.PAULO,Residência,9860,MOTOROLA
4530289,2014,4850,,00:30,DIADEMA,Via pública,9579,
4704809,2015,1981,,06:15,DIADEMA,Via pública,9844,SANSUNG GALAXY DUO
4706825,2015,2031,1981/2015 - 30127,06:15,DIADEMA,Via pública,9844,SANSUNG GALAXY DUO
5091127,2016,1924,,18:30,S.PAULO,Comércio e serviços,9999,DIVERSAS
5217402,2017,1431,,01:30,FERRAZ DE VASCONCELOS,Via pública,168455,Samsung
5252628,2017,1984,,10:30,SUMARE,Via pública,14728864,Asus
5548089,2018,2900,,16:55,ARARAQUARA,Comércio e serviços,9999,


In [55]:
index_remove = df.loc[df['QUANT_CELULAR']> 100000].index
index_remove

Int64Index([5217402, 5252628], dtype='int64')

In [56]:
df.drop(index_remove, axis=0, inplace=True)

#### Datas

In [57]:
datas.append('PERIDOOCORRENCIA')

In [58]:
datas

['BO_INICIADO',
 'BO_EMITIDO',
 'DATAOCORRENCIA',
 'HORAOCORRENCIA',
 'PERIDOOCORRENCIA']

In [59]:
df[datas].sample(n=5)

Unnamed: 0,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA
5451655,26/07/2017 22:07:24,26/07/2017 22:33:43,26/07/2017,19:00,A NOITE
4038760,20/12/2013 03:33:34,20/12/2013 03:33:34,19/12/2013,,A NOITE
5192492,16/01/2017 08:59:05,16/01/2017 09:16:18,17/12/2016,11:30,PELA MANHÃ
664659,26/08/2013 20:49:36,27/08/2013 02:49:15,26/08/2013,18:30,A NOITE
1757079,08/02/2020 23:42:47,09/02/2020 00:06:06,08/02/2020,21:00,A NOITE


In [60]:
df['BO_INICIADO'] = pd.to_datetime(df['BO_INICIADO'], format='%d/%m/%Y %H:%M:%S')
df['BO_EMITIDO'] = pd.to_datetime(df['BO_EMITIDO'], format='%d/%m/%Y %H:%M:%S')

In [61]:
df[datas].sample(n=5)

Unnamed: 0,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA
5420864,2017-06-23 15:08:43,2017-06-23 15:45:01,16/06/2017,20:20,A NOITE
1517811,2018-03-02 15:21:39,2018-03-02 15:26:57,01/02/2018,,A NOITE
3534387,2010-09-30 22:08:17,2010-09-30 22:39:05,30/09/2010,20:20,A NOITE
5726456,2018-07-08 16:03:37,2018-07-08 16:15:24,07/07/2018,20:30,A NOITE
3356683,2010-01-30 09:30:58,2010-01-30 09:46:02,29/01/2010,23:00,A NOITE


In [62]:
df['PERIDOOCORRENCIA'].unique()

['A NOITE', 'DE MADRUGADA', 'PELA MANHÃ', 'A TARDE', 'EM HORA INCERTA']
Categories (5, object): ['A NOITE', 'DE MADRUGADA', 'PELA MANHÃ', 'A TARDE', 'EM HORA INCERTA']

In [63]:
df_datas = df.loc[df['PERIDOOCORRENCIA'] != 'EM HORA INCERTA']
df_datas.head()

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
0,2009,1777,1777/2009,2009-12-31 23:47:02,2010-01-01 00:02:23,31/12/2009,21:00,A NOITE,Desconhecida,Não,,KM 55 IMIGRANTES,1,,CUBATAO,SP,,,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,DEL.POL.CUBATÃO,03º D.P. CUBATÃO,Consumado,,COL8760,SP,SAO PAULO,Cinza,FIAT/UNO MILLE EX,1999,1999,AUTOMOVEL,0,,0,1,0
1,2010,1,1/2010,2010-01-01 00:01:56,2010-01-01 00:06:30,31/12/2009,23:30,A NOITE,Desconhecida,Não,,,1,JD. STA ADÉLIA,S.PAULO,SP,,,Via pública,BO PARA INVESTIGAÇÃO,69º D.P. TEOTONIO VILELA,69º D.P. TEOTONIO VILELA,Consumado,,EFW1311,SP,SAO PAULO,Branco,GM/MERIVA MAXX,2008,2009,AUTOMOVEL,0,,0,1,0
2,2009,15657,15657/2009,2009-12-31 23:37:53,2010-01-01 00:08:27,31/12/2009,22:30,A NOITE,Desconhecida,Não,,AV CARLOS GRIMALDI,10,31 DE MARÇO,CAMPINAS,SP,,,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,04º D.P. CAMPINAS,04º D.P. CAMPINAS,Consumado,,DZK4423,SP,CAMPINAS,Prata,FIAT/PALIO WK ADVEN FLEX,2007,2007,AUTOMOVEL,0,,0,1,0
3,2009,6168,6168/2009,2009-12-31 23:56:36,2010-01-01 00:11:19,31/12/2009,22:15,A NOITE,Desconhecida,Não,,AV PIRAPORINHA,1,PIRAPORINHA,DIADEMA,SP,,,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,03º D.P. DIADEMA,03º D.P. DIADEMA,Consumado,,ECS7846,SP,DIADEMA,Amarelo,HONDA/CBX 250 TWISTER,2008,2008,MOTOCICLO,0,,0,1,0
4,2009,15059,15059/2009,2010-01-01 00:03:03,2010-01-01 00:17:20,31/12/2009,21:30,A NOITE,Desconhecida,Não,,AV PIRAPORINHA,200,PIRAPORINHA,DIADEMA,SP,,,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. S.B.C-DR OMAR CASSIM,02º D.P. DIADEMA,Consumado,,DDW8049,SP,SAO BERNARDO DO CAMP,Verde,IMP/FIAT SIENA ELX,2001,2001,AUTOMOVEL,0,,0,1,0


Verificar quantas entradas existem sem o registro da data de ocorrência, mas com horário conhecido

In [64]:
df_datas['DATAOCORRENCIA'].isnull().sum()

7

In [65]:
df_datas.loc[df_datas['DATAOCORRENCIA'].isnull()]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
1775044,2020,903,903/2020,2020-04-13 17:10:23,2020-04-13 18:05:12,,15:50,A TARDE,Desconhecida,Não,,RUA 15 DE NOVEMBRO,800,CENTRO,PIRASSUNUNGA,SP,-219957258847966,-474289556324068,Via pública,BO PARA REGISTRO,01º D.P. PIRASSUNUNGA,02º D.P. PIRASSUNUNGA,Consumado,,EGH0621,SP,PORTO FERREIRA,Branco,VW/GOL 1.0,2009,2010,AUTOMOVEL,0,,0,1,0
1775048,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
1775049,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
1775050,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
1775051,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
6182247,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0
6182248,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0


In [66]:
ocorrencias_nulas = df_datas.loc[df_datas['DATAOCORRENCIA'].isnull()]
ocorrencias_nulas

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
1775044,2020,903,903/2020,2020-04-13 17:10:23,2020-04-13 18:05:12,,15:50,A TARDE,Desconhecida,Não,,RUA 15 DE NOVEMBRO,800,CENTRO,PIRASSUNUNGA,SP,-219957258847966,-474289556324068,Via pública,BO PARA REGISTRO,01º D.P. PIRASSUNUNGA,02º D.P. PIRASSUNUNGA,Consumado,,EGH0621,SP,PORTO FERREIRA,Branco,VW/GOL 1.0,2009,2010,AUTOMOVEL,0,,0,1,0
1775048,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
1775049,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
1775050,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
1775051,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
6182247,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0
6182248,2020,2050,2050/2020,2020-04-15 17:06:21,2020-04-15 17:42:54,,21:00,A NOITE,Desconhecida,Não,,RUA DESIDERIO JORGE,195,VL NATAL,MOGI DAS CRUZES,SP,-235292832390769,-461823883556923,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. MOGI DAS CRUZES,01º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,1,Samsung,1,0,0


In [67]:
ocorrencias_nulas['BO_INICIADO'].dt.strftime("%d/%m/%Y")

1775044    13/04/2020
1775048    13/04/2020
1775049    13/04/2020
1775050    13/04/2020
1775051    13/04/2020
6182247    15/04/2020
6182248    15/04/2020
Name: BO_INICIADO, dtype: object

In [68]:
ocorrencias_nulas.index

Int64Index([1775044, 1775048, 1775049, 1775050, 1775051, 6182247, 6182248], dtype='int64')

In [69]:
df['DATAOCORRENCIA'][ocorrencias_nulas.index]

1775044    NaN
1775048    NaN
1775049    NaN
1775050    NaN
1775051    NaN
6182247    NaN
6182248    NaN
Name: DATAOCORRENCIA, dtype: object

In [70]:
df['DATAOCORRENCIA'][ocorrencias_nulas.index] = ocorrencias_nulas['BO_INICIADO'].dt.strftime("%d/%m/%Y")
df.iloc[ocorrencias_nulas.index]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df['DATAOCORRENCIA'][ocorrencias_nulas.index] = ocorrencias_nulas['BO_INICIADO'].dt.strftime("%d/%m/%Y")


Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
1775044,2020,903,903/2020,2020-04-13 17:10:23,2020-04-13 18:05:12,13/04/2020,15:50,A TARDE,Desconhecida,Não,,RUA 15 DE NOVEMBRO,800,CENTRO,PIRASSUNUNGA,SP,-219957258847966,-474289556324068,Via pública,BO PARA REGISTRO,01º D.P. PIRASSUNUNGA,02º D.P. PIRASSUNUNGA,Consumado,,EGH0621,SP,PORTO FERREIRA,Branco,VW/GOL 1.0,2009,2010,AUTOMOVEL,0,,0,1,0
1775048,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,13/04/2020,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
1775049,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,13/04/2020,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
1775050,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,13/04/2020,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,,,,,,0,0,,0,,0,1,0
1775051,2020,1236,1236/2020,2020-04-13 17:17:32,2020-04-13 18:24:58,13/04/2020,12:16,A TARDE,Desconhecida,Não,,RUA valmir alves dos santos,202,VILA CENTRO,FERRAZ DE VASCONCELOS,SP,-23543419231,-46363991412,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,DEL.POL.FERRAZ DE VASCONCELOS,DEL.POL.FERRAZ DE VASCONCELOS,Consumado,,CPZ1483,SP,ITAPECERICA DA SERR,Branco,FIAT/FIORINO IE,2000,2000,CAMINHONETE,0,,0,1,0
6182258,2020,580,580/2020,2020-04-15 17:18:14,2020-04-15 18:01:50,15/04/2020,10:00,PELA MANHÃ,Desconhecida,Não,,RODOVIA PRESIDENTE DUTRA (BR 116),133,AREA RURAL,CACAPAVA,SP,-231339389101186,-457493453491457,Via pública,ENCAMINHAMENTO DP ÁREA DO FATO,08º D.P. GUARULHOS,DEL.POL.CAÇAPAVA,Consumado,,QPD8748,MG,JANAUBA,Branco,VW/24.280 CRM 6X2,2018,2019,CAMINHÃO,1,Samsung,1,0,0
6182259,2020,476081,476081/2020,2020-04-15 18:04:00,2020-04-15 18:02:54,15/04/2020,14:30,A TARDE,Desconhecida,Não,,RUA PEDROSO DE CAMARGO,56,CHÁCARA SANTO ANTÔNIO (ZONA SUL),S.PAULO,SP,-236328118,-46701995,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,11º D.P. SANTO AMARO,Consumado,,,,,,,0,0,,0,SAMSUNG,1,0,0


In [71]:
df.loc[df['DATAOCORRENCIA'].isnull()]

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
6185336,2020,1267,1267/2020,2020-04-23 11:26:01,2020-04-23 13:09:47,,,EM HORA INCERTA,Desconhecida,Não,,RUA da barra,52,PARELHEIROS,S.PAULO,SP,-237811257106842,-467138911386842,Via pública,BO PARA INVESTIGAÇÃO,25º D.P. PARELHEIROS,25º D.P. PARELHEIROS,Consumado,,,,,,,0,0,,1,POSITIVO,1,0,0


Por ter apenas uma entrada sem data e hora do ocorrência, a mesma será eliminada

In [73]:
df.dropna(subset=['DATAOCORRENCIA'], axis=0, inplace=True)

In [74]:
df['HORAOCORRENCIA'].isnull().sum()

976481

In [75]:
df['HORAOCORRENCIA'] = np.where(df['HORAOCORRENCIA'].isnull(), df['BO_INICIADO'].dt.strftime('%H:%M'), df['HORAOCORRENCIA'])

In [76]:
df['HORAOCORRENCIA'].isnull().sum()

0

In [77]:
df['DATA_HORA_OCORRENCIA'] = pd.to_datetime(df['DATAOCORRENCIA'] + ' ' + df['HORAOCORRENCIA'], format='%d/%m/%Y %H:%M', errors='coerce')

In [78]:
df['DATA_HORA_OCORRENCIA'].isnull().sum()

76

In [79]:
erros_data = df.loc[df['DATA_HORA_OCORRENCIA'].isnull()]
erros_data

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V,DATA_HORA_OCORRENCIA
4602,2010,160,160/2010,2010-01-15 14:58:57,2010-01-15 15:58:42,14/01/0201,22:00,A NOITE,Desconhecida,Não,,R AUGUSTO DE ALMEIDA BATISTA,1,JD. SÃO MARCOS,EMBU,SP,,,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,01º D.P. EMBU DAS ARTES,01º D.P. EMBU DAS ARTES,Consumado,,DPZ1802,SP,EMBU,Vermelho,HONDA/CG 150 TITAN KS,2006,2006,MOTOCICLO,0,,0,1,0,NaT
51549,2010,380,380/2010,2010-02-12 18:04:40,2010-02-12 18:27:03,08/02/0201,23:30,A NOITE,Desconhecida,Não,,R ICARAIMA,197,JD MONTE CARMELO,GUARULHOS,SP,,,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,06º D.P. GUARULHOS,06º D.P. GUARULHOS,Consumado,,DTN6018,SP,GUARULHOS,Prata,HONDA/CG 150 TITAN KS,2006,2007,MOTOCICLO,0,,0,1,0,NaT
57453,2010,1349,1349/2010,2010-02-28 12:56:20,2010-02-28 13:23:48,28/02/1010,03:30,DE MADRUGADA,Desconhecida,Não,,AV ARMANDO BEI,1,BONSUCESSO,GUARULHOS,SP,,,Via pública,APRECIAÇÃO DO DELEGADO TITULAR,07º D.P. GUARULHOS,07º D.P. GUARULHOS,Consumado,,BME3316,SP,GUARULHOS,Preta,VW/PARATI GL 1.8,1992,1993,AUTOMOVEL,0,,0,1,0,NaT
1644985,2019,151314,151314/2019,2019-02-04 07:28:56,2019-02-04 07:29:25,23/01/1019,06:35,PELA MANHÃ,Desconhecida,Não,,RUA DAS MARGARIDAS,80,VILA NOVA MAUÁ,MAUA,SP,-236462428950176,-464521565589673,Veículo em movimento,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,01º DP MAUA-DR.ALFREDO GARBINO,Consumado,,EAN3117,SP,MAUÁ,Preta,,0,0,AUTOMOVEL,0,,0,1,0,NaT
1645158,2019,154558,154558/2019,2019-02-04 15:30:49,2019-02-04 15:31:19,23/01/1019,12:50,A TARDE,Desconhecida,Não,,RUA DOUTOR AVELINO CHAVES,100,VILA LEOPOLDINA,S.PAULO,SP,-235355159432473,-467279349189247,Via Pública,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,91º D.P. CEASA,Consumado,,FSX7457,SP,SÃO PAULO,Preta,FORD/ECOSPORT TIT AT 2.0,2013,0,AUTOMOVEL,0,,0,1,0,NaT
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
6139770,2020,176821,176821/2020,2020-02-10 09:47:52,2020-02-10 09:49:19,28/12/1009,22:20,A NOITE,Desconhecida,Não,,RUA CATARINA CARRERA MARCATTO,862,JD SÃO PEDRO,MOGI DAS CRUZES,SP,-2350317748,-461478334019999,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,03º D.P. MOGI DAS CRUZES,Consumado,,,,,,,0,0,,0,ASUS,1,0,0,NaT
6152765,2020,256216,256216/2020,2020-02-25 21:09:30,2020-02-25 21:08:46,23/01/0202,17:30,A TARDE,Desconhecida,Não,,RUA CORONEL XAVIER DE TOLEDO,93,REPUBLICA,S.PAULO,SP,-235466362116022,-466392938745415,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,03º D.P. CAMPOS ELISEOS,Consumado,,,,,,,0,0,,0,APPLE,1,0,0,NaT
6196781,2020,660185,660185/2020,2020-05-22 21:00:43,2020-05-22 21:31:51,21/05/0202,23:00,A NOITE,Desconhecida,Não,,PRAÇA DOUTOR JOÃO MENDES 62,62,CENTRO,S.PAULO,SP,-235520220328889,-466343926644444,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,DEL.SEC.1ª CENTRO,Consumado,,,,,,,0,0,,0,MOTOROLA,1,0,0,NaT
6206718,2020,804896,804896/2020,2020-06-17 20:28:22,2020-06-17 21:13:57,11/06/0620,19:10,A NOITE,Desconhecida,Não,,RUA AMADEU GAMBERINI,156,SAO MIGUEL,S.PAULO,SP,-234947834852735,-464416599244295,Via Pública,BO PARA REGISTRO,DELEGACIA ELETRONICA,22º D.P. SAO MIGUEL PTA,Consumado,,,,,,,0,0,,0,MOTOROLA,1,0,0,NaT


In [80]:
df.drop(erros_data.index, inplace = True)

In [82]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 6258696 entries, 0 to 6258783
Data columns (total 38 columns):
 #   Column                    Dtype         
---  ------                    -----         
 0   ANO_BO                    int64         
 1   NUM_BO                    int64         
 2   NUMERO_BOLETIM            object        
 3   BO_INICIADO               datetime64[ns]
 4   BO_EMITIDO                datetime64[ns]
 5   DATAOCORRENCIA            object        
 6   HORAOCORRENCIA            object        
 7   PERIDOOCORRENCIA          category      
 8   BO_AUTORIA                category      
 9   FLAGRANTE                 category      
 10  NUMERO_BOLETIM_PRINCIPAL  object        
 11  LOGRADOURO                object        
 12  NUMERO                    int32         
 13  BAIRRO                    object        
 14  CIDADE                    object        
 15  UF                        object        
 16  LATITUDE                  object        
 17  LONGITUD

#### Reorganizar as colunas do dataset

In [83]:
df.columns.to_list()

['ANO_BO',
 'NUM_BO',
 'NUMERO_BOLETIM',
 'BO_INICIADO',
 'BO_EMITIDO',
 'DATAOCORRENCIA',
 'HORAOCORRENCIA',
 'PERIDOOCORRENCIA',
 'BO_AUTORIA',
 'FLAGRANTE',
 'NUMERO_BOLETIM_PRINCIPAL',
 'LOGRADOURO',
 'NUMERO',
 'BAIRRO',
 'CIDADE',
 'UF',
 'LATITUDE',
 'LONGITUDE',
 'DESCRICAOLOCAL',
 'SOLUCAO',
 'DELEGACIA_NOME',
 'DELEGACIA_CIRCUNSCRICAO',
 'STATUS',
 'VITIMAFATAL',
 'PLACA_VEICULO',
 'UF_VEICULO',
 'CIDADE_VEICULO',
 'DESCR_COR_VEICULO',
 'DESCR_MARCA_VEICULO',
 'ANO_FABRICACAO',
 'ANO_MODELO',
 'DESCR_TIPO_VEICULO',
 'QUANT_CELULAR',
 'MARCA_CELULAR',
 'ROUBO_C',
 'ROUBO_V',
 'FURTO_V',
 'DATA_HORA_OCORRENCIA']

In [84]:
df = df[['ANO_BO',
 'NUM_BO',
 'NUMERO_BOLETIM',
 'BO_INICIADO',
 'BO_EMITIDO',
 'DATA_HORA_OCORRENCIA',
 'DATAOCORRENCIA',
 'HORAOCORRENCIA',
 'PERIDOOCORRENCIA',
 'BO_AUTORIA',
 'FLAGRANTE',
 'NUMERO_BOLETIM_PRINCIPAL',
 'LOGRADOURO',
 'NUMERO',
 'BAIRRO',
 'CIDADE',
 'UF',
 'LATITUDE',
 'LONGITUDE',
 'DESCRICAOLOCAL',
 'SOLUCAO',
 'DELEGACIA_NOME',
 'DELEGACIA_CIRCUNSCRICAO',
 'STATUS',
 'VITIMAFATAL',
 'PLACA_VEICULO',
 'UF_VEICULO',
 'CIDADE_VEICULO',
 'DESCR_COR_VEICULO',
 'DESCR_MARCA_VEICULO',
 'ANO_FABRICACAO',
 'ANO_MODELO',
 'DESCR_TIPO_VEICULO',
 'QUANT_CELULAR',
 'MARCA_CELULAR',
 'ROUBO_C',
 'ROUBO_V',
 'FURTO_V']].copy()

In [85]:
df.sample()

Unnamed: 0,ANO_BO,NUM_BO,NUMERO_BOLETIM,BO_INICIADO,BO_EMITIDO,DATA_HORA_OCORRENCIA,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,BO_AUTORIA,FLAGRANTE,NUMERO_BOLETIM_PRINCIPAL,LOGRADOURO,NUMERO,BAIRRO,CIDADE,UF,LATITUDE,LONGITUDE,DESCRICAOLOCAL,SOLUCAO,DELEGACIA_NOME,DELEGACIA_CIRCUNSCRICAO,STATUS,VITIMAFATAL,PLACA_VEICULO,UF_VEICULO,CIDADE_VEICULO,DESCR_COR_VEICULO,DESCR_MARCA_VEICULO,ANO_FABRICACAO,ANO_MODELO,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,ROUBO_C,ROUBO_V,FURTO_V
1654852,2019,298944,298944/2019,2019-03-05 23:47:55,2019-03-05 23:48:23,2019-03-05 15:45:00,05/03/2019,15:45,A TARDE,Desconhecida,Não,,AVENIDA AYRTON SENNA DA SILVA,1368,VILA SANTA CECILIA,MAUA,SP,-236496403,-464703731,Veículo em movimento,BO PARA INVESTIGAÇÃO,DELEGACIA ELETRONICA,01º DP MAUA-DR.ALFREDO GARBINO,Consumado,,,,,Preta,,0,0,MOTOCICLO,0,,0,1,0


In [86]:
df.shape

(6258696, 38)

## Salvar o arquivo em um  arquivo PARQUET

In [87]:
df.to_parquet('data_cleaned/ssp_cleaned.parquet', index=False)