## Importando bibliotecas

In [40]:
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd

## Lendo dataset

In [None]:
dataset = pd.read_csv('./crime-data-in-brazil/BO_2016.csv', low_memory=False)
dataset.head()

In [42]:
print(dataset.count())

dados_validos_desdobramento = dataset['DESDOBRAMENTO'].count()/dataset['NUM_BO'].count()
print( '\n%.2f%% de dados válidos' % (dados_validos_desdobramento*100) )

NUM_BO                    774662
ANO_BO                    774662
ID_DELEGACIA              774662
NOME_DEPARTAMENTO         774662
NOME_SECCIONAL            774662
DELEGACIA                 774662
NOME_DEPARTAMENTO_CIRC    774662
NOME_SECCIONAL_CIRC       774662
NOME_DELEGACIA_CIRC       774662
ANO                       774662
MES                       774662
FLAG_STATUS               774662
RUBRICA                   774662
DESDOBRAMENTO              30092
CONDUTA                   658523
LATITUDE                  731960
LONGITUDE                 731959
CIDADE                    774662
LOGRADOURO                774660
NUMERO_LOGRADOURO         774337
FLAG_STATUS.1             774662
Unnamed: 21                   24
dtype: int64

3.88% de dados válidos


In [65]:
print(dataset['CONDUTA'].value_counts(dropna=False))
print("\n")
print(dataset['RUBRICA'].value_counts(dropna=False))

TRANSEUNTE                      241358
VEICULO                         141668
NaN                             116139
OUTROS                           80976
INTERIOR TRANSPORTE COLETIVO     47025
INTERIOR DE VEICULO              46668
INTERIOR ESTABELECIMENTO         33176
RESIDENCIA                       25809
ESTABELECIMENTO COMERCIAL        19737
CARGA                             9847
ESTABELECIMENTO-OUTROS            4017
ESTABELECIMENTO ENSINO            2765
ESTABELECIMENTO BANCARIO          1929
COLETIVO                          1467
Saidinha de Banco                  874
CONDOMINIO RESIDENCIAL             761
Caixa Eletrônico                   324
CONDOMINIO COMERCIAL               107
JOALHERIA                           15
Name: CONDUTA, dtype: int64


Roubo (art. 157)                                                             316548
Furto (art. 155)                                                             287524
Furto qualificado (art. 155, §4o.)                           

DESDOBRAMENTO possui uma quantidade muito pequena de dados válidos comparados ao dataset completo


## Selecionando colunas de interesse

In [71]:
df = dataset[['ANO','MES', 'RUBRICA', 'LATITUDE', 'LONGITUDE']]
df.head()

Unnamed: 0,ANO,MES,RUBRICA,LATITUDE,LONGITUDE
0,2016,7,Furto (art. 155),-23.564984,-46.652035
1,2016,5,Roubo (art. 157),-23.542476,-46.641928
2,2016,10,Drogas sem autorização ou em desacordo (Art.33...,-23.542183,-46.640599
3,2016,3,Roubo (art. 157),-23.609275,-46.455087
4,2016,12,Lesão corporal (art. 129),-23.573928,-46.620693


## Checando valores NaN

In [72]:
# print(df.isna().sum())
# taxa_nan = (df['CONDUTA'].isna().sum() / df['CONDUTA'].count())*100
# print('Nan %.2f%%' % taxa_nan )

In [73]:
df.dropna(how='any',inplace=True)
print('NaN removed')
df.isna().sum()

df.count()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """Entry point for launching an IPython kernel.


NaN removed


ANO          731959
MES          731959
RUBRICA      731959
LATITUDE     731959
LONGITUDE    731959
dtype: int64

## Analisando as categorias de conduta

In [74]:
# df['CONDUTA'].value_counts()

## Analisando as categorias de Rubrica (CRIME)

In [75]:
df['RUBRICA'].value_counts()

Roubo (art. 157)                                                             301586
Furto (art. 155)                                                             277888
Furto qualificado (art. 155, §4o.)                                            45654
Lesão corporal (art. 129)                                                     38267
Lesão corporal culposa na direção de veículo automotor (Art. 303)             26271
Lesão corporal (art 129 § 9º)                                                 11541
Drogas sem autorização ou em desacordo (Art.33, caput)                         9281
A.I.-Drogas sem autorização ou em desacordo (Art.33, caput)                    3840
A.I.-Roubo (art. 157)                                                          3521
Homicídio simples (art. 121)                                                   2864
A.I.-Lesão corporal (art. 129)                                                 2468
Estupro de vulneravel (art.217-A)                                           

In [76]:
df_cat = df.copy()

# categories = {'Roubo (art. 157)':'Roubo',
#               'Furto (art. 155)': 'Furto',
#               'Furto qualificado (art. 155, §4o.)': 'Furto',
#               'A.I.-Roubo (art. 157)': 'Roubo',
#               'A.I.-Furto (art. 155)': 'Furto',
#               'A.I.-Furto qualificado (art. 155, §4o.)': 'Furto',
#               'Furto de coisa comum (art. 156)': 'Furto',
#               'A.I.-Furto de coisa comum (art. 156)': 'Furto'
#              }

def read_categories(value):
    result = value.split('(')[-1].split(')')[0] # pegando apenas dentro de ()
    result = result.replace(' ', '') # removendo espaços em branco
    result = result.replace('.', '') # removendo ponto
    result = result.lower() # padrão caixa baixa
    result = result.replace('art', '') # removendo art
    result = result.replace(',', '') # removendo vírgula
    result = result.replace('o', '') # removendo caracteres indesejados
    result = result.replace('º', '') # removendo caracteres indesejados
    
    return result

df_cat['RUBRICA'] = df['RUBRICA'].map(read_categories)

print(df_cat['RUBRICA'].value_counts())
print('\n\n')
print(df_cat.head())

157        305107
155        278971
155§4       46353
129         40735
303         26463
33caput     13121
129§9       11648
121          2913
217-a        2421
213          1232
129§6        1204
302           747
121§2         599
129§1         139
33§3          110
156            73
121§3          43
12             28
129§2          18
16             16
129§3          12
33§2            6
Name: RUBRICA, dtype: int64



    ANO  MES  RUBRICA   LATITUDE  LONGITUDE
0  2016    7      155 -23.564984 -46.652035
1  2016    5      157 -23.542476 -46.641928
2  2016   10  33caput -23.542183 -46.640599
3  2016    3      157 -23.609275 -46.455087
4  2016   12      129 -23.573928 -46.620693
