# Prevendo roubo de celulares em SP

## Baixando biblioteca necessária
`pip install xlwt`

`conda install xlwt`

## Importando bibliotecas Pandas e Numpy

In [1]:
import pandas as pd
import numpy as np

## Abrindo arquivo XLS disponível no SSP-SP

### Os arquivos possuem um erro, sendo impossível abrir o arquivo
*XLRDError: Unsupported format, or corrupt file: Expected BOF record; found b'A\x00N\x00O\x00_\x00'*

A solução foi encontrada nesse artigo do [Medium](https://medium.com/@jerilkuriakose/recover-corrupt-excel-file-xls-or-xlsx-using-python-2eea6bb07aae)

#### Apenas para resolver o problema de formato
Você pode até salvar o arquivo como .csv, mas a leitura pode informar algum erro

In [None]:
from __future__ import unicode_literals
# Used to save the file as excel workbook
# Need to install this library
from xlwt import Workbook
# Used to open to corrupt excel file
import io

filename = 'datasets/DadosBO_2020_8.xls'
# Opening the file using 'utf-16' encoding
file = io.open(filename, "r", encoding="utf-16-le")
data = file.readlines()

# Creating a workbook object
xldoc = Workbook()
# Adding a sheet to the workbook object
sheet = xldoc.add_sheet("Sheet1", cell_overwrite_ok=True)
# Iterating and saving the data to sheet
for i, row in enumerate(data):
    # Two things are done here
    # Removeing the '\n' which comes while reading the file using io.open
    # Getting the values after splitting using '\t'
    for j, val in enumerate(row.replace('\n', '').split('\t')):
        sheet.write(i, j, val)
    
# Saving the file as an excel file
xldoc.save('datasets/file.xls')

#### Converter xls para csv

In [None]:
import xlrd
import csv

def xls_to_csv():
    wb = xlrd.open_workbook('datasets/file.xls')
    sh = wb.sheet_by_name('Sheet1')
    with open('dataset.csv', 'w') as f:
        wr = csv.writer(f, quoting=csv.QUOTE_ALL)

        for rownum in range(sh.nrows):
            wr.writerow(sh.row_values(rownum))
#https://stackoverflow.com/questions/9884353/xls-to-csv-converter
xls_to_csv()

## Carregando o dataset

In [2]:
#dataset = pd.read_excel("DadosBO_2020_7.xls", engine='xlrd')
from datetime import datetime
dateparse = lambda x: datetime.strptime(x, '%d/%m/%Y')

columns = ['ANO_BO', 'NUM_BO', 'DATAOCORRENCIA', 'HORAOCORRENCIA', 'PERIDOOCORRENCIA', 'DATACOMUNICACAO', 'BO_AUTORIA', 'FLAGRANTE', 'LOGRADOURO', 'NUMERO', 'BAIRRO', 'CIDADE', 'UF', 'LATITUDE', 'LONGITUDE', 'DESCRICAOLOCAL', 'DESCR_TIPO_VEICULO', 'SOLUCAO', 'DELEGACIA_NOME', 'DELEGACIA_CIRCUNSCRICAO', 'ESPECIE', 'RUBRICA', 'DESDOBRAMENTO', 'STATUS', 'QUANT_CELULAR', 'MARCA_CELULAR']

#column_dates = ['DATAOCORRENCIA', 'DATACOMUNICACAO']
column_dates = ['DATACOMUNICACAO']

dtypes = {
    'ANO_BO': np.int32,
    'NUM_BO': np.int64,
    'QUANT_CELULAR': pd.Int16Dtype(),
    'LATITUDE': np.float32,
    'LONGITUDE': np.float32 
}

dataset = pd.read_excel("datasets/file.xls", usecols=columns, dtype=dtypes, parse_dates=column_dates, date_parser=dateparse, thousands=',')

In [None]:
dataset

#### Antes da eliminação das duplicatas

In [3]:
before_drop = dataset.shape[0]
print("Quantidade de tuplas: ",dataset.shape[0])

Quantidade de tuplas:  13532


#### Eliminando duplicatas de acordo com [Metodologia](https://drive.google.com/file/d/1_CBHVulHPzLzRyCNpxGXSECVDV-u21QH/view)

In [4]:
dataset.drop_duplicates(subset=['DELEGACIA_NOME', 'ANO_BO', 'NUM_BO'], inplace=True)
dataset.reset_index(drop=True,inplace=True)

In [5]:
dataset['HORARIOOCORRENCIA'] = pd.to_datetime(dataset.DATAOCORRENCIA + ' ' + dataset.HORAOCORRENCIA)

In [6]:
dataset['DATAOCORRENCIA'] = pd.to_datetime(dataset['DATAOCORRENCIA'], format='%d/%m/%Y')

#### Após remoção das duplicatas

In [7]:
after_drop = dataset.shape[0]
print("Quantidade de tuplas: ",dataset.shape[0])

Quantidade de tuplas:  11071


#### Percentual de redução no dataset:

In [8]:
print("Redução de: ", 100-(after_drop/before_drop)*100)

Redução de:  18.18652083949158


#### Maioria das ocorrências não são flagrante

In [9]:
print('Quantidade de ocorrências que é flagrante: ',dataset[dataset["FLAGRANTE"]=="Sim"].shape[0])

Quantidade de ocorrências que é flagrante:  115


In [10]:
dataset.dtypes

ANO_BO                              int32
NUM_BO                              int64
DATAOCORRENCIA             datetime64[ns]
HORAOCORRENCIA                     object
PERIDOOCORRENCIA                   object
DATACOMUNICACAO            datetime64[ns]
BO_AUTORIA                         object
FLAGRANTE                          object
LOGRADOURO                         object
NUMERO                            float64
BAIRRO                             object
CIDADE                             object
UF                                 object
LATITUDE                          float32
LONGITUDE                         float32
DESCRICAOLOCAL                     object
SOLUCAO                            object
DELEGACIA_NOME                     object
DELEGACIA_CIRCUNSCRICAO            object
ESPECIE                            object
RUBRICA                            object
DESDOBRAMENTO                      object
STATUS                             object
DESCR_TIPO_VEICULO                

#### Converter coluna com horario da ocorrencia para segundos

In [11]:
dataset['timestamp_ocorrencia'] = dataset['HORARIOOCORRENCIA'].dt.hour*3600 + dataset['HORARIOOCORRENCIA'].dt.minute*60 + dataset['HORARIOOCORRENCIA'].dt.second

#### Horário médio de ocorrência de crimes por turno(manhã, tarde, noite, madrugada)

In [12]:
import datetime
manha = dataset[dataset['PERIDOOCORRENCIA']=="PELA MANHÃ"]['timestamp_ocorrencia'].mean()
str(datetime.timedelta(seconds=manha))

'8:35:17.313975'

In [13]:
tarde = dataset[dataset['PERIDOOCORRENCIA']=="A TARDE"]['timestamp_ocorrencia'].mean()
str(datetime.timedelta(seconds=tarde))

'15:03:48.471616'

In [14]:
noite = dataset[dataset['PERIDOOCORRENCIA']=="A NOITE"]['timestamp_ocorrencia'].mean()
str(datetime.timedelta(seconds=noite))

'20:38:43.968711'

In [15]:
madrugada = dataset[dataset['PERIDOOCORRENCIA']=="DE MADRUGADA"]['timestamp_ocorrencia'].mean()
str(datetime.timedelta(seconds=madrugada))

'3:33:57.629630'

In [16]:
len(dataset['timestamp_ocorrencia'].unique())

756

#### Top 5 horários com maior incidência de crimes por turno

In [17]:
dataset[dataset['PERIDOOCORRENCIA']=="A NOITE"].nlargest(5, "timestamp_ocorrencia")

Unnamed: 0,ANO_BO,NUM_BO,DATAOCORRENCIA,HORAOCORRENCIA,PERIDOOCORRENCIA,DATACOMUNICACAO,BO_AUTORIA,FLAGRANTE,LOGRADOURO,NUMERO,...,DELEGACIA_CIRCUNSCRICAO,ESPECIE,RUBRICA,DESDOBRAMENTO,STATUS,DESCR_TIPO_VEICULO,QUANT_CELULAR,MARCA_CELULAR,HORARIOOCORRENCIA,timestamp_ocorrencia
10407,2020,1245501,2020-08-29,23:59,A NOITE,2020-08-30,Desconhecida,Não,RUA CONSELHEIRO BROTERO,77.0,...,77º D.P. SANTA CECILIA,Título II - Patrimônio (arts. 155 a 183),Roubo (art. 157) - OUTROS,,Consumado,,,XIAOMI,2020-08-29 23:59:00,86340.0
5933,2020,1170326,2020-08-16,23:58,A NOITE,2020-08-17,Desconhecida,Não,RUA GLICERIO ALMEIDA MACIEL,454.0,...,80º D.P. VILA JOANIZA,Título II - Patrimônio (arts. 155 a 183),Roubo (art. 157) - OUTROS,,Consumado,,,SAMSUNG,2020-08-16 23:58:00,86280.0
6187,2020,1174912,2020-08-16,23:58,A NOITE,2020-08-18,Desconhecida,Não,RUA GLICERIO ALMEIDA MACIEL,454.0,...,80º D.P. VILA JOANIZA,Título II - Patrimônio (arts. 155 a 183),Roubo (art. 157) - OUTROS,,Consumado,,,SAMSUNG,2020-08-16 23:58:00,86280.0
7161,2020,1191237,2020-08-19,23:58,A NOITE,2020-08-20,Desconhecida,Não,RUA FLÓRIDA,114.0,...,01º D.P. EMBU DAS ARTES,Título II - Patrimônio (arts. 155 a 183),Roubo (art. 157) - OUTROS,,Consumado,,,MOTOROLA,2020-08-19 23:58:00,86280.0
169,2020,1070915,2020-07-14,23:55,A NOITE,2020-08-01,Desconhecida,Não,RUA TAUBATE,1030.0,...,31º D.P. VILA CARRAO,Título II - Patrimônio (arts. 155 a 183),Roubo (art. 157) - TRANSEUNTE,,Consumado,,,SAMSUNG,2020-07-14 23:55:00,86100.0


#### Média de dias para comunicar a policia sobre o roubo

In [18]:
dataset['DATAOCORRENCIA'] = dataset['DATAOCORRENCIA'].astype('datetime64')
dataset['DATACOMUNICACAO'] = dataset['DATACOMUNICACAO'].astype('datetime64')

In [19]:
dias = (dataset['DATACOMUNICACAO'] - dataset['DATAOCORRENCIA'])/ np.timedelta64(1, 'D')

In [20]:
somatorio = 0
for item in dias:
    if item < 180:
        somatorio = somatorio + item

In [21]:
somatorio = somatorio/len(dias)
print("Em media uma vitima abre um BO em: ",somatorio)

Em media uma vitima abre um BO em:  2.6479089513142444


In [22]:
dias.nlargest(1)

9203    18264.0
dtype: float64

### Análise gráfica dos dados

#### Capturando nome das colunas importantes no dataset

In [None]:
string_gerada=""
for item in dataset.columns:
    string_gerada += "'"+item+"'"+", "
string_gerada

In [None]:
drop_c = ['ANO_BO', 'NUM_BO', 'BO_INICIADO', 'BO_EMITIDO', 'DATAOCORRENCIA', 'HORAOCORRENCIA', 'PERIDOOCORRENCIA', 'DATACOMUNICACAO', 'DATAELABORACAO', 'BO_AUTORIA', 'FLAGRANTE', 'LOGRADOURO', 'NUMERO', 'BAIRRO', 'CIDADE', 'UF', 'LATITUDE', 'LONGITUDE', 'DESCRICAOLOCAL', 'SOLUCAO', 'DELEGACIA_NOME', 'DELEGACIA_CIRCUNSCRICAO', 'ESPECIE', 'RUBRICA', 'DESDOBRAMENTO', 'STATUS', 'QUANT_CELULAR', 'MARCA_CELULAR']

In [None]:
string_gerada=[]
for item in dataset.columns:
    string_gerada.append(item)
string_gerada

In [None]:
columns = ['NUMERO_BOLETIM', 'NUMERO_BOLETIM_PRINCIPAL', 'EXAME', 'NOMEPESSOA', 'TIPOPESSOA', 'VITIMAFATAL', 'RG', 'RG_UF', 'NATURALIDADE', 'NACIONALIDADE', 'SEXO', 'DATANASCIMENTO', 'IDADE', 'ESTADOCIVIL', 'PROFISSAO', 'GRAUINSTRUCAO', 'CORCUTIS', 'NATUREZAVINCULADA', 'TIPOVINCULO', 'RELACIONAMENTO', 'PARENTESCO', 'PLACA_VEICULO', 'UF_VEICULO', 'CIDADE_VEICULO', 'DESCR_COR_VEICULO', 'DESCR_MARCA_VEICULO', 'ANO_FABRICACAO', 'ANO_MODELO', 'DESCR_TIPO_VEICULO']

https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_excel.html
