# Crimes 2016
Análise Exploratória
____

In [70]:
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
from scipy import stats
import seaborn as sns
sns.set()

pd.set_option("display.precision", 3)
pd.set_option("display.max_columns",200)

In [4]:
df = pd.read_csv("crimes_2016.csv")

Inicialmente, usamos `df.shape` para descobrir o número de linhas e colunas da Tabela Crimes_2016

In [4]:
df.shape

(50000, 21)

Nota-se que a Tabela tem 50000 linhas e 21 colunas. Para descobrir as colunas disponibilizadas usamos `df.columns`:

In [5]:
df.columns

Index(['NUM_BO', 'ANO_BO', 'ID_DELEGACIA', 'NOME_DEPARTAMENTO',
       'NOME_SECCIONAL', 'DELEGACIA', 'NOME_DEPARTAMENTO_CIRC',
       'NOME_SECCIONAL_CIRC', 'NOME_DELEGACIA_CIRC', 'ANO', 'MES',
       'FLAG_STATUS', 'RUBRICA', 'DESDOBRAMENTO', 'CONDUTA', 'LATITUDE',
       'LONGITUDE', 'CIDADE', 'LOGRADOURO', 'NUMERO_LOGRADOURO',
       'FLAG_STATUS.1'],
      dtype='object')

Usamos `df.head()` para ver uma amostra da tabela:

In [5]:
df.head()

Unnamed: 0,NUM_BO,ANO_BO,ID_DELEGACIA,NOME_DEPARTAMENTO,NOME_SECCIONAL,DELEGACIA,NOME_DEPARTAMENTO_CIRC,NOME_SECCIONAL_CIRC,NOME_DELEGACIA_CIRC,ANO,...,FLAG_STATUS,RUBRICA,DESDOBRAMENTO,CONDUTA,LATITUDE,LONGITUDE,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,FLAG_STATUS.1
0,10957,2016,20249,DECAP,DEL.SEC.8º SAO MATEUS,49º D.P. SAO MATEUS,DECAP,DEL.SEC.8º SAO MATEUS,49º D.P. SAO MATEUS,2016,...,C,A.I.-Furto (art. 155),,RESIDENCIA,-23.594489,-46.482766,S.PAULO,RUA ANDRE DE ALMEIDA,1260,C
1,1672,2016,20230,DECAP,DEL.SEC.5º LESTE,30º D.P. TATUAPE,DECAP,DEL.SEC.5º LESTE,30º D.P. TATUAPE,2016,...,C,Roubo (art. 157),,TRANSEUNTE,-23.542544,-46.561665,S.PAULO,RUA MONTE SERRAT,500,C
2,211,2016,10376,DECAP,DEL.SEC.3º OESTE,09ª DEL.DEF.MUL. OESTE,DECAP,DEL.SEC.3º OESTE,87º D.P. V. P. BARRETO,2016,...,C,Lesão corporal (art 129 § 9º),,,-23.481277,-46.718199,S.PAULO,AVENIDA COMENDADOR FEIZ ZARZUR,100,C
3,4438,2016,10323,DECAP,DEL.SEC.3º OESTE,23º D.P. PERDIZES,DECAP,DEL.SEC.3º OESTE,23º D.P. PERDIZES,2016,...,C,Lesão corporal (art. 129),,,-23.531843,-46.664163,S.PAULO,AVENIDA FRANCISCO MATARAZZO,1028,C
4,676155,2016,900020,DIPOL - DEPTO DE INTELIGENCIA,DELEGACIA ELETRONICA,DELEGACIA ELETRONICA,DECAP,DEL.SEC.1º CENTRO,04º D.P. CONSOLAÇÃO,2016,...,C,Furto (art. 155),,TRANSEUNTE,-23.553752,-46.658809,S.PAULO,RUA BELA CINTRA,670,C


In [7]:
df.DESDOBRAMENTO.isnull().value_counts()

True     48101
False     1899
Name: DESDOBRAMENTO, dtype: int64

Percebemos que muitos dos campos da coluna "DESDOBRAMENTO" são nulos, por isso resolvemos preencher esses valores para tratar melhor os dados:

In [9]:
df.replace(np.nan, 'Não se aplica', inplace=True)

In [None]:
df.head()

Unnamed: 0,NUM_BO,ANO_BO,ID_DELEGACIA,NOME_DEPARTAMENTO,NOME_SECCIONAL,DELEGACIA,NOME_DEPARTAMENTO_CIRC,NOME_SECCIONAL_CIRC,NOME_DELEGACIA_CIRC,ANO,...,FLAG_STATUS,RUBRICA,DESDOBRAMENTO,CONDUTA,LATITUDE,LONGITUDE,CIDADE,LOGRADOURO,NUMERO_LOGRADOURO,FLAG_STATUS.1
0,10957,2016,20249,DECAP,DEL.SEC.8º SAO MATEUS,49º D.P. SAO MATEUS,DECAP,DEL.SEC.8º SAO MATEUS,49º D.P. SAO MATEUS,2016,...,C,A.I.-Furto (art. 155),Não se aplica,RESIDENCIA,-23.5945,-46.4828,S.PAULO,RUA ANDRE DE ALMEIDA,1260,C
1,1672,2016,20230,DECAP,DEL.SEC.5º LESTE,30º D.P. TATUAPE,DECAP,DEL.SEC.5º LESTE,30º D.P. TATUAPE,2016,...,C,Roubo (art. 157),Não se aplica,TRANSEUNTE,-23.5425,-46.5617,S.PAULO,RUA MONTE SERRAT,500,C
2,211,2016,10376,DECAP,DEL.SEC.3º OESTE,09ª DEL.DEF.MUL. OESTE,DECAP,DEL.SEC.3º OESTE,87º D.P. V. P. BARRETO,2016,...,C,Lesão corporal (art 129 § 9º),Não se aplica,Não se aplica,-23.4813,-46.7182,S.PAULO,AVENIDA COMENDADOR FEIZ ZARZUR,100,C
3,4438,2016,10323,DECAP,DEL.SEC.3º OESTE,23º D.P. PERDIZES,DECAP,DEL.SEC.3º OESTE,23º D.P. PERDIZES,2016,...,C,Lesão corporal (art. 129),Não se aplica,Não se aplica,-23.5318,-46.6642,S.PAULO,AVENIDA FRANCISCO MATARAZZO,1028,C
4,676155,2016,900020,DIPOL - DEPTO DE INTELIGENCIA,DELEGACIA ELETRONICA,DELEGACIA ELETRONICA,DECAP,DEL.SEC.1º CENTRO,04º D.P. CONSOLAÇÃO,2016,...,C,Furto (art. 155),Não se aplica,TRANSEUNTE,-23.5538,-46.6588,S.PAULO,RUA BELA CINTRA,670,C


Notamos que os elementos da coluna "CIDADE" e "LOGRADOURO" estavam com problemas para leitura pois continham espaços no preenchimento do csv. Para resolver este problema utilizamos:

In [59]:
df["CIDADE"] = df["CIDADE"].str.strip()

In [67]:
df["LOGRADOURO"] = df["LOGRADOURO"].str.strip()

## ANÁLISE 1

Para iniciar a análise buscamos saber o número de casos registrados em cada cidade. Para isso utilizamos o comando `value_counts`, que mostra o número de vezes que cada elemento aparece na tabela. 

In [7]:
df.CIDADE.value_counts()

S.PAULO                                     33168
GUARULHOS                                    2255
S.BERNARDO DO CAMPO                          1811
S.ANDRE                                      1799
OSASCO                                       1736
DIADEMA                                      1120
MAUA                                          871
CARAPICUIBA                                   704
MOGI DAS CRUZES                               615
ITAQUAQUECETUBA                               557
SUZANO                                        472
BARUERI                                       466
TABOAO DA SERRA                               436
COTIA                                         397
FERRAZ DE VASCONCELOS                         305
ITAPECERICA DA SERRA                          295
ITAPEVI                                       292
EMBU                                          291
S.CAETANO DO SUL                              275
POA                                           232


Descobrimos que São Paulo é a cidade com maior número de casos registrados, com 33168 casos registrados em 2016.

</div>
<div class="alert alert-block alert-info">
Nesta Análise bucaremos encontrar a localização considerada mais "perigosa" ou com o maior número de crimes, dentro da cidade com o maior número de casos registrados,no caso São Paulo, e também qual 'tipo' de crime mais comum neste local, o que pode servir futuramente como um "alarme" a população

Primeiro usamos um df.loc em que as linhas correspondem aos crimes registrados em São Paulo e a coluna a LOGRADOUROS:

In [65]:
df.loc[df.CIDADE=="S.PAULO","LOGRADOURO"].value_counts()

AVENIDA PAULISTA                            330
RUA AUGUSTA                                 194
AVENIDA SAPOPEMBA                           148
AVENIDA CRUZEIRO DO SUL                     144
RUA DA CONSOLACAO                           135
                                           ... 
RUA FREDERICO VON MARTIUS                     1
RUA CANORI                                    1
RUA MANUEL DA SILVEIRA                        1
AV. PADRE ANTÔNIO JOSÉ DOS SANTOS             1
RUA BENTO VIEIRA                              1
Name: LOGRADOURO, Length: 12985, dtype: int64

Descobrimos que a Avenida Paulista é o Logradouro com o maior número de casos em São Paulo.

In [68]:
df.loc[df.LOGRADOURO=="AVENIDA PAULISTA","RUBRICA"].value_counts()

Furto (art. 155)                                                     272
Roubo (art. 157)                                                      34
Furto qualificado (art. 155, §4o.)                                    16
Lesão corporal (art. 129)                                              7
Lesão corporal culposa na direção de veículo automotor (Art. 303)      4
Lesão corporal culposa (art. 129. §6o.)                                1
Name: RUBRICA, dtype: int64

A maioria dos casos registrados na Paulista são de Furtos.

In [69]:
df.loc[(df.LOGRADOURO=="AVENIDA PAULISTA") & (df.RUBRICA=="Furto (art. 155)"),"CONDUTA"].value_counts()

TRANSEUNTE                      184
INTERIOR TRANSPORTE COLETIVO     32
INTERIOR ESTABELECIMENTO         26
OUTROS                           26
INTERIOR DE VEICULO               2
ESTABELECIMENTO COMERCIAL         1
VEICULO                           1
Name: CONDUTA, dtype: int64

Os furtos são realizados a maioria das vezes de maneira Transeunte, no qual a pessoa está andando e muitas vezes, nem percebe, por isso devemos alarmar a população a ficar mais atenta na região da Paullista

Para concluir esta análise, adicionamos uma visão do maps na Avenida Paulista em que os pontos Azuis representam os locais com crimes registrados:

In [74]:
from bokeh.io import output_file, output_notebook, show,reset_output
from bokeh.models import ColumnDataSource, GMapOptions
from bokeh.plotting import gmap
from bokeh.plotting import figure, show, output_file
from bokeh.tile_providers import CARTODBPOSITRON



In [76]:
lat_lon = df[['LATITUDE', 'LONGITUDE']]

In [85]:
reset_output()
output_notebook()
map_options = GMapOptions(lat=-23.562581, lng=-46.6544, map_type="roadmap", zoom=17)
p = gmap("AIzaSyABImLmhfoQUZOgzz0UThAc8QwXCN3tn1k", map_options, title="Área de Mais risco")
source = ColumnDataSource(
    data=dict(lat=lat_lon['LATITUDE'],
              lon=lat_lon['LONGITUDE'])
)
p.circle(x="lon", y="lat", size=3, fill_color="blue", fill_alpha=0.8, source=source)
show(p)

## ANÁLISE 2

Agora, para uma análise mais profunda, optamos por comparar os meses e o índice de criminalidade de cada um, para ver se o período do ano tem influência sobre o "tipo" de crime realizado. Também buscamos entender a relação entre RUBRICA e CONDUTA.

Para descobrirmos os meses com maior e menor índice de criminalidade utilizamos `.value_counts()`:

In [66]:
df.MES.value_counts()

3     4421
10    4387
7     4244
9     4226
11    4184
5     4176
2     4154
4     4150
12    4076
8     4031
1     3991
6     3960
Name: MES, dtype: int64

O mês de março registrou o maior número de casos e junho o menor. Vamos analisar cada um abaixo:

### Março

Para descobrir o 'tipo' de crime mais frequente em março utilizamos `.value_counts()` juntamente com um `df.loc[]`, nos quais as linhas representam os crimes registrados em março e a coluna desejada é RUBRICA:

In [69]:
df.loc[df.MES==3,"RUBRICA"].value_counts()

Roubo (art. 157)                                                     1828
Furto (art. 155)                                                     1618
Lesão corporal (art. 129)                                             283
Furto qualificado (art. 155, §4o.)                                    258
Lesão corporal culposa na direção de veículo automotor (Art. 303)     151
Lesão corporal (art 129 § 9º)                                          86
Drogas sem autorização ou em desacordo (Art.33, caput)                 68
A.I.-Drogas sem autorização ou em desacordo (Art.33, caput)            36
A.I.-Lesão corporal (art. 129)                                         22
A.I.-Roubo (art. 157)                                                  20
Homicídio simples (art. 121)                                           16
Lesão corporal culposa (art. 129. §6o.)                                 8
A.I.-Furto qualificado (art. 155, §4o.)                                 6
A.I.-Furto (art. 155)                 

Os crimes mais frequentes foram Roubo, Furto e Lesão Corporal, de qual maneira eles mais acontecem? 

Para responder esta pergunta usamos `df.loc` nos quais as linhas dizem respeito aos crimes registrados em março  que sejam Roubo, Furto ou Lesão Corporal juntamente com `value_counts`:

Para Roubo:

In [14]:
df.loc[(df.MES==3) & (df.RUBRICA=="Roubo (art. 157)"),"CONDUTA"].value_counts()

TRANSEUNTE                      1071
VEICULO                          354
OUTROS                           116
INTERIOR DE VEICULO              110
ESTABELECIMENTO COMERCIAL         43
CARGA                             32
INTERIOR ESTABELECIMENTO          31
RESIDENCIA                        30
INTERIOR TRANSPORTE COLETIVO      22
Saidinha de Banco                  8
ESTABELECIMENTO-OUTROS             5
COLETIVO                           3
ESTABELECIMENTO BANCARIO           2
ESTABELECIMENTO ENSINO             1
Name: CONDUTA, dtype: int64

A Conduta 'Transeunte' é disparadamente a maior conduta de Roubos em março

Para Furto:

In [15]:
df.loc[(df.MES==3) & (df.RUBRICA=="Furto (art. 155)"),"CONDUTA"].value_counts()

VEICULO                         425
OUTROS                          324
TRANSEUNTE                      297
INTERIOR TRANSPORTE COLETIVO    216
INTERIOR ESTABELECIMENTO        138
INTERIOR DE VEICULO             102
RESIDENCIA                       61
ESTABELECIMENTO COMERCIAL        27
ESTABELECIMENTO-OUTROS           13
ESTABELECIMENTO ENSINO            8
ESTABELECIMENTO BANCARIO          3
CARGA                             3
CONDOMINIO RESIDENCIAL            1
Name: CONDUTA, dtype: int64

Em março, a maior conduta para Furto é veiculo 

Para Lesão Corporal:

In [16]:
df.loc[(df.MES==3) & (df.RUBRICA=="Lesão corporal (art. 129)"),"CONDUTA"].value_counts()

Não se aplica    283
Name: CONDUTA, dtype: int64

Condutas não se aplicam a RUBRICA Lesão Corporal.

### Junho

Para descobrir o 'tipo' de crime mais frequente em junho utilizamos `.value_counts()` juntamente com um `df.loc[]`, nos quais as linhas representam os crimes registrados em junho e a coluna desejada é RUBRICA:

In [77]:
df.loc[df.MES==6,"RUBRICA"].value_counts()

Roubo (art. 157)                                                     1578
Furto (art. 155)                                                     1528
Furto qualificado (art. 155, §4o.)                                    235
Lesão corporal (art. 129)                                             195
Lesão corporal culposa na direção de veículo automotor (Art. 303)     179
Drogas sem autorização ou em desacordo (Art.33, caput)                 74
Lesão corporal (art 129 § 9º)                                          57
A.I.-Drogas sem autorização ou em desacordo (Art.33, caput)            36
Homicídio simples (art. 121)                                           19
A.I.-Roubo (art. 157)                                                  17
A.I.-Lesão corporal (art. 129)                                         15
Lesão corporal culposa (art. 129. §6o.)                                 8
A.I.-Furto (art. 155)                                                   7
A.I.-Furto qualificado (art. 155, §4o.

Roubo, Furto e Furto qualificado são as ocorrências de mais frequência no mês de junho. De que maneira acontecem?

Para descobrir isso, usamos `df.loc` nos quais as linhas dizem respeito aos crimes registrados em março que sejam Roubo, Furto ou Furto qualificado juntamente com `value_counts`:

Roubo:

In [79]:
df.loc[(df.MES==6) & (df.RUBRICA=="Roubo (art. 157)"),"CONDUTA"].value_counts()

TRANSEUNTE                      894
VEICULO                         322
INTERIOR DE VEICULO             101
OUTROS                           86
CARGA                            51
ESTABELECIMENTO COMERCIAL        48
INTERIOR ESTABELECIMENTO         24
RESIDENCIA                       24
INTERIOR TRANSPORTE COLETIVO     22
Saidinha de Banco                 4
ESTABELECIMENTO-OUTROS            2
Name: CONDUTA, dtype: int64

Em junho, Roubos aconteceram mais na conduta TRANSEUNTE

Furto:

In [18]:
df.loc[(df.MES==6) & (df.RUBRICA=="Furto (art. 155)"),"CONDUTA"].value_counts()

VEICULO                         438
TRANSEUNTE                      296
OUTROS                          262
INTERIOR TRANSPORTE COLETIVO    223
INTERIOR ESTABELECIMENTO        150
INTERIOR DE VEICULO              60
ESTABELECIMENTO COMERCIAL        39
RESIDENCIA                       36
ESTABELECIMENTO ENSINO            9
ESTABELECIMENTO-OUTROS            6
COLETIVO                          3
CARGA                             2
CONDOMINIO RESIDENCIAL            2
ESTABELECIMENTO BANCARIO          1
Caixa Eletrônico                  1
Name: CONDUTA, dtype: int64

Em junho, a maioira dos furtos estão relacionados a conduta VEÍCULO

Furto qualificado:

In [19]:
df.loc[(df.MES==6) & (df.RUBRICA=="Furto qualificado (art. 155, §4o.)"),"CONDUTA"].value_counts()

RESIDENCIA                      58
OUTROS                          41
INTERIOR DE VEICULO             39
ESTABELECIMENTO COMERCIAL       21
INTERIOR ESTABELECIMENTO        17
TRANSEUNTE                      14
ESTABELECIMENTO-OUTROS          11
VEICULO                         10
ESTABELECIMENTO BANCARIO         9
ESTABELECIMENTO ENSINO           6
INTERIOR TRANSPORTE COLETIVO     4
CONDOMINIO RESIDENCIAL           3
CARGA                            1
Caixa Eletrônico                 1
Name: CONDUTA, dtype: int64

Em junho, furtos estão mais relacionados a conduta residência.

<div class="alert alert-block alert-success">
<b>Conclusão:</b>
Nota-se que os tipos de crimes não têm uma relação direta com os meses ou períodos do ano, por conta de apresentarem variações muito pequenas. 
No entanto, a partir dos testes acima inferimos que existe uma relação direta entre "RUBRICA"e a "CONDUTA", ou seja, entre o 'tipo' do crime e o 'local'/'circunstância' que o qualifica, uma vez que tanto em março quanto em junho obtivemos resultados iguais para estas relações.
</div>

## ANÁLISE 3

Nesta Análise vamos separar os crimes em Consumados e Tentativas, e descobrir se os crimes não consumados apresentam algum padrão.

In [105]:
df.FLAG_STATUS.value_counts()

C    49857
T      143
Name: FLAG_STATUS, dtype: int64

Dos 50000 casos registrados, 143 não foram consumados,ou seja, foram considerados apenas "Tentativas"

Existe algum padrão nos casos não consumados? Que tipos de crime são?

In [106]:
df.loc[df.FLAG_STATUS=="T","RUBRICA"]

72                 Homicídio simples (art. 121)
634                Homicídio simples (art. 121)
1345     Homicídio qualificado (art. 121, §2o.)
1662               Homicídio simples (art. 121)
1763               Homicídio simples (art. 121)
                          ...                  
49051              Homicídio simples (art. 121)
49340              Homicídio simples (art. 121)
49727              Homicídio simples (art. 121)
49777              Homicídio simples (art. 121)
49937    Homicídio qualificado (art. 121, §2o.)
Name: RUBRICA, Length: 143, dtype: object

In [108]:
df.loc[df.FLAG_STATUS=="T","RUBRICA"].value_counts()

Homicídio simples (art. 121)                                   108
Homicídio qualificado (art. 121, §2o.)                          30
A.I.-Homicídio simples (art. 121)                                2
A.I.-Drogas sem autorização ou em desacordo (Art.33, caput)      2
Drogas sem autorização ou em desacordo (Art.33, caput)           1
Name: RUBRICA, dtype: int64

A Grande maioria dos casos não consumados são Homicídios

In [89]:
df.loc[(df.FLAG_STATUS=="T") & (df.RUBRICA=="Homicídio simples (art. 121)"),"DESDOBRAMENTO"].value_counts()

Não se aplica                                                          106
Morte decorrente de intervenção policial (RES. SSP 05 - 07/01/2013)      2
Name: DESDOBRAMENTO, dtype: int64

In [91]:
df.loc[(df.FLAG_STATUS=="T") & (df.RUBRICA=="Homicídio qualificado (art. 121, §2o.)"),"DESDOBRAMENTO"].value_counts()

VI-Feminicídio-contra a mulher por razões da condição de sexo feminino              9
II - por motivo fútil                                                               9
Não se aplica                                                                       5
III - com emprego de meio insidioso ou cruel, ou de que resulte perigo comum        3
Contra autoridade ou agente descrito nos arts. 142 e 144 da Constituição Federal    2
IV - à traição ou mediante dissimulação ou outro recurso                            1
V - para assegurar a execução/ocultação/impunidade/vantagem de outro crime          1
Name: DESDOBRAMENTO, dtype: int64

<div class="alert alert-block alert-success">
Após essa análise concluimos que a maioria dos casos considerados Tentativa (que não foram consumados) são Homicídios e que apresentam diversos desdobramentos.
</div>
