<a href="https://colab.research.google.com/github/Lucasllops/Crimes-Rio-de-Janeiro/blob/main/An%C3%A1lise_de_crimes_no_estado_do_Rio_de_Janeiro.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de dados estatísticos de violência no estado do Rio de Janeiro

O **Rio de Janeiro** é um grande estado brasileiro que se localiza na região sudeste do país, segundo o IBGE a estimativa de população para o ano de 2021 era de **17 milhões de habitantes**, sendo o terceiro maior estado brasileiro atrás de São Paulo e Minas Gerais.

Dono de belas praias e muitos pontos turisticos, tais como o pão de açucar e o cristo redentor, o estado leva fama por ser um dos que possuem maior **índice de criminalidade** do país, em consideração a tal afirmação resolvemos análisar os dados de criminalidade disponibilizados pelo instituto de segurança pública em seu [portal](http://www.ispdados.rj.gov.br/) de dados abertos para o estado do Rio de Janeiro. Os dados apresentam de forma mensal os números de diversos tipos de crimes, no periodo de **janeiro de 1991 à abril de 2022**.

Tentaremos através de *transformações nos dados*, análisar tendências e padrões ao longo dos anos, assim como plotaremos gráficos para melhor visualização de como os dados estão organizados afim de tirarmos algumas **conclusões ao final da análise**.

#Análise inicial

Importação das bibliotecas a serem usadas, visualização inicial dos dados, verificação de quais variáves serão trabalhadas bem como seus tipos.

In [1]:
#importar a biblioteca pandas
import pandas as pd
import numpy as np

In [2]:
#importando a base de dados
df = pd.read_csv('/content/drive/MyDrive/dados/DOMensalEstadoDesde1991.csv', sep=';')

In [3]:
#verificar a quantidade de linhas e variáveis o dataframe possui
df.shape

(376, 56)

In [4]:
#verificar as primeiras linhas do dataframe
df.head()

Unnamed: 0,ano,mes,hom_doloso,lesao_corp_morte,latrocinio,cvli,hom_por_interv_policial,letalidade_violenta,tentat_hom,lesao_corp_dolosa,...,cmp,cmba,ameaca,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,registro_ocorrencias,fase
0,1991,1,657,,15,,,672,162,3051,...,,,,,217,,,,,3
1,1991,2,732,,17,,,749,175,3421,...,,,,,209,,,,,3
2,1991,3,713,,25,,,738,216,3613,...,,,,,188,,,,,3
3,1991,4,634,,20,,,654,200,3211,...,,,,,140,,,,,3
4,1991,5,650,,20,,,670,146,3051,...,,,,,78,,,,,3


### **Q1. Quais as variáveis presentes no dataframe e seus tipos ?**

In [5]:
#tipo de cada variável.
df.dtypes

ano                            int64
mes                            int64
hom_doloso                     int64
lesao_corp_morte              object
latrocinio                     int64
cvli                          object
hom_por_interv_policial       object
letalidade_violenta            int64
tentat_hom                     int64
lesao_corp_dolosa              int64
estupro                       object
hom_culposo                   object
lesao_corp_culposa            object
roubo_transeunte               int64
roubo_celular                 object
roubo_em_coletivo              int64
roubo_rua                      int64
roubo_veiculo                  int64
roubo_carga                    int64
roubo_comercio                 int64
roubo_residencia               int64
roubo_banco                    int64
roubo_cx_eletronico           object
roubo_conducao_saque          object
roubo_apos_saque              object
roubo_bicicleta               object
outros_roubos                  int64
t

## Diciónario de Variáveis

* **ano** - Ano em que o dado foi coletado.
* **mes** - Mês em que o dado foi coletado.
* **hom_doloso** - Número de homicídios dolosos (casos em que há intensão de matar).
* **lesao_corp_morte** - Número de lesões corporais seguidas de morte (agressão física que causa morte).
* **latrocinio** - Número de latrocinios (roubo seguido de morte).
* **cvli** - Número de crimes violentos.
* **hom_por_interv_policial** - homicídio por intervenção policial.
* **letalidade_violenta** - É uma junção das variáveis anteriores.
* **tentat_hom** - Número de tentativas de homicídios.
* **lesao_corp_dolosa** - Lesão corporal intencional.
* **estupro** - Número de casos de estupro.
* **hom_culposo** - Número de homicídios em que não houve intensão de matar.
* **lesao_corp_culposa** - Número de casos de lesão corporal sem intensão.
* **roubo_transeunte** - Número de roubos à pessoas que estão se deslocando e são abordadas.
* **roubo_celular** - Número de roubos de celulares.
* **roubo_em_coletivo** - Número de roubos que acontem em transportes coletivos.
* **roubo_rua** - Número de roubo que acontem em ruas.
* **roubo_veiculo** - Número de roubo de veículos.
* **roubo_carga** - Número de roubos de cargas.
* **roubo_comercio** - Número de roubos à estabelicimentos comerciais.
* **roubo_residencia** - Número de roubos à residencias.
* **roubo_banco** - Número de roubos à bancos.
* **roubo_cx_eletronico** - Número de casos à caixas eletrônicos. 
* **roubo_conducao_saque** - Número de roubos em que o individuo leva a pessoa para sacar dinheiro no caixa.
* **roubo_apos_saque** - Número de roubos em que a vitima foi roubada após sacar dinheiro.
* **roubo_bicicleta** - Número de roubos de bicicleta.
* **outros_roubos** - Número de tipos diversos de roubo.
* **total_roubos** - Número total de roubos.
* **furto_veiculos** - Número de furtos à veículos.
* **furto_transeunte** - Número de furtos à transeuntes
* **furto_coletivo** - Número de furtos que ocorrem em coletivos.
* **furto_celular** - Número de furtos à celulares.
* **furto_bicicleta** - Número de furtos à bicicletas.
* **outros_furtos** - Número de furtos diversos.
* **total_furtos** - Número total de furtos.
* **sequestro** - Número de sequestros.
* **extorsao** - Número de sequestros.
* **sequestro_relampago** - Número de sequestros relâmpagos.
* **estelionato** - Número de casos de estelionato.
* **apreensao_drogas** - Número de apreensões de drogas.
* **posse_drogas** - Número de casos de posse de drogas.
* **trafico_drogas** - Número de casos de tráfico de drogas.
* **apreensao_drogas_sem_autor** - Número de casos de apreensão de drogas onde não se encontra o dono.
* **recuperacao_veiculos** - Número de vezes que veículos foram recuperados.
* **apf** - Prisão em flagrante.
* **aaapai** - Auto de apreensão de adolescente por ato infracional. 
* **cmp** - Não consegui identificar.
* **cmba** - Não consegui identificar.
* **ameaca** - Número de casos resgistrados de ameaças 
* **pessoas_desaparecidas** - Número de ocorrências de pessoas desaparecidas.
* **encontro_cadaver** - Número de vezes em que cadaveres foram encontrados.
* **encontro_ossada** - Número de vezes em que ossadas foram encontradas.
* **pol_militares_mortos_serv** - Número de policiais militares mortos em serviço.
* **pol_civis_mortos_serv** - Número de policiais civis mortos em serviço.
* **registro_ocorrencias** - Número de registro de ocorrências.
* **fase** - Não consegui identificar.

### **Q2. Qual a quantidade de dados nulos ?**

Para se fazer uma boa análise é **necessario que a base de dados seja integra**, e que possa fornercer dados sulficientes para a análise, por isso verificaremos a quantidade em porcentagem de dados que estão faltando em cada coluna, para que dependendo dessa quantidade possamos seguir a melhor rota de **transformação para dados nulos**.

In [6]:
df.isna().sum() / df.shape[0] 

ano                           0.0
mes                           0.0
hom_doloso                    0.0
lesao_corp_morte              0.0
latrocinio                    0.0
cvli                          0.0
hom_por_interv_policial       0.0
letalidade_violenta           0.0
tentat_hom                    0.0
lesao_corp_dolosa             0.0
estupro                       0.0
hom_culposo                   0.0
lesao_corp_culposa            0.0
roubo_transeunte              0.0
roubo_celular                 0.0
roubo_em_coletivo             0.0
roubo_rua                     0.0
roubo_veiculo                 0.0
roubo_carga                   0.0
roubo_comercio                0.0
roubo_residencia              0.0
roubo_banco                   0.0
roubo_cx_eletronico           0.0
roubo_conducao_saque          0.0
roubo_apos_saque              0.0
roubo_bicicleta               0.0
outros_roubos                 0.0
total_roubos                  0.0
furto_veiculos                0.0
furto_transeun

No resultado do código acima verificamos que não há nenhum dado ausente, mas observando os valores impressos quando usamos o método head(), vemos que algumas colunas não possuem valor, logo sabemos que há algo errado com essa base de dados. 

In [7]:
(df == ' ').head()

Unnamed: 0,ano,mes,hom_doloso,lesao_corp_morte,latrocinio,cvli,hom_por_interv_policial,letalidade_violenta,tentat_hom,lesao_corp_dolosa,...,cmp,cmba,ameaca,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,registro_ocorrencias,fase
0,False,False,False,True,False,True,True,False,False,False,...,True,True,True,True,False,True,True,True,True,False
1,False,False,False,True,False,True,True,False,False,False,...,True,True,True,True,False,True,True,True,True,False
2,False,False,False,True,False,True,True,False,False,False,...,True,True,True,True,False,True,True,True,True,False
3,False,False,False,True,False,True,True,False,False,False,...,True,True,True,True,False,True,True,True,True,False
4,False,False,False,True,False,True,True,False,False,False,...,True,True,True,True,False,True,True,True,True,False


Vemos que as entradas nulas não estão usando o valor padrão NaN, mas sim uma string com um espaço, além da **quantidade de valores ausenter ser significativa**, desse modo é necessario fazer uma mudança nesses valores.

In [8]:
#no codigo abaixo usamos o metodo loc para selecionar as colunas que possuem o valor de uma string com espaço, e mudamos esse valor para null
for i in df.columns:
  df.loc[df[i] == ' ', i] = np.nan

In [10]:
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

furto_bicicleta               0.734043
roubo_bicicleta               0.734043
cmp                           0.478723
cmba                          0.478723
posse_drogas                  0.478723
trafico_drogas                0.478723
apreensao_drogas_sem_autor    0.478723
apf                           0.478723
aaapai                        0.478723
sequestro_relampago           0.382979
furto_celular                 0.382979
furto_coletivo                0.382979
estelionato                   0.382979
roubo_apos_saque              0.382979
roubo_conducao_saque          0.382979
roubo_cx_eletronico           0.382979
extorsao                      0.382979
pol_militares_mortos_serv     0.382979
pol_civis_mortos_serv         0.382979
estupro                       0.382979
encontro_ossada               0.351064
pessoas_desaparecidas         0.351064
roubo_celular                 0.287234
registro_ocorrencias          0.255319
lesao_corp_morte              0.255319
cvli                     

Agora sim sabemos quantos valores nulos existem e podemos fazer alguma transformação neles, vamos primeiro obter algumas **medidas estatísticas** de cada variável.

### **Q3. Quais as medidas estatísticas e como os dados estão distribuidos ?**

In [11]:
df.describe()

Unnamed: 0,ano,mes,hom_doloso,latrocinio,letalidade_violenta,tentat_hom,lesao_corp_dolosa,roubo_transeunte,roubo_em_coletivo,roubo_rua,...,outros_roubos,total_roubos,furto_veiculos,furto_transeunte,outros_furtos,total_furtos,apreensao_drogas,recuperacao_veiculos,encontro_cadaver,fase
count,376.0,376.0,376.0,376.0,376.0,376.0,376.0,376.0,376.0,376.0,...,376.0,376.0,376.0,376.0,376.0,376.0,376.0,376.0,376.0,376.0
mean,2006.170213,6.457447,485.824468,14.986702,563.162234,320.672872,5404.047872,3454.462766,670.398936,4843.345745,...,1218.62766,9504.337766,1632.460106,1474.545213,6000.582447,10408.50266,1131.739362,1730.851064,62.922872,2.989362
std,9.058787,3.464609,125.528647,6.121205,113.047684,123.343712,1493.471047,2373.689385,294.889964,3119.198088,...,770.034119,4439.788703,316.773793,950.165259,1901.257696,3595.455251,647.321473,649.778509,35.224793,0.102729
min,1991.0,1.0,229.0,2.0,297.0,122.0,2350.0,688.0,281.0,1086.0,...,81.0,3261.0,904.0,255.0,2322.0,4691.0,80.0,729.0,0.0,2.0
25%,1998.0,3.0,382.75,11.0,481.0,204.0,4060.75,1079.5,439.75,1683.5,...,828.75,5401.75,1389.5,734.5,4170.75,6770.0,753.75,1189.5,38.0,3.0
50%,2006.0,6.0,490.5,14.0,576.0,324.0,5641.5,3298.5,602.0,4703.0,...,1167.0,9304.5,1593.5,1033.5,6515.5,10335.0,1006.0,1705.0,55.5,3.0
75%,2014.0,9.0,572.0,19.0,642.0,398.0,6515.0,5354.25,797.5,6868.75,...,1621.5,11542.0,1819.5,2247.0,7535.25,13797.5,1736.5,2169.0,84.25,3.0
max,2022.0,12.0,831.0,36.0,848.0,645.0,9050.0,9669.0,1628.0,13833.0,...,3661.0,23203.0,2630.0,5368.0,9880.0,18003.0,2543.0,3695.0,217.0,3.0
