# Analisando a Violência no Rio de Janeiro


<img src="rio_de_janeiro.png"  width=80%>

O Rio de Janeiro é um município brasileiro situado no sudeste do Brasil, sendo capital de um estado honônimo. É o maior destino turístico internacional no país, bem como em toda a América Latina, e atrai o interesse por sua beleza natural e tradições culturais. É, também, considerada a cidade brasileira mais conhecida no exterior, agindo como um espelho do Brasil aos demais países, o que pode afetar negativamente, visto que o estado possui uma das maiores taxas de homicídio por 100 mil habitantes do país, cerca de 38,4% em 2017, superando a média brasileira de 31,6% no mesmo período (Cerqueira e Bueno, 2019). Diante desse cenário, a resposta das autoridades públicas se dá no combate ao crime organizado, cujos atores típicos são os traficantes de drogas ilícitas que residem, em sua maioria, nas comunidades periféricas, denominadas “favelas” (Burgos et al., 2011; Cunha e Mello, 2011; Leite, 2014). Já no município, a taxa de letalidade foi de 14,89 por 100 mil habitantes em 2020, de acordo com o Instituto de Segurança Pública.

<i>"Não seria correto enfatizar uma inevitável decadência contemporânea. Desde a fundação da cidade pelos portugueses, as crônica e as correspondências da época sempre mesclaram o encantamento suscitado pela exuberância do lugar e o desagrado provocado por um serviço insuficiente de limpeza urbana e pelas condições sanitárias lamentáveis. No Rio de Janeiro, a ordem e a desordem parecem caminhar juntas." </i> (Enders, Armelle, 2015).

O objetivo desse projeto, portanto, é a partir de um conjunto de dados sobre os indíces de violência no Rio de Janeiro, incentivados pelo governo do estado pelo meio do portal <a href= "http://www.ispdados.rj.gov.br/">ISPDados</a>, buscar padrões e correlações nos indicadores estatísticos fornecidos e chegar à uma conclusão do exposto.








## Obtenção dos Dados

Os dados foram obtidos pelo Instituto de Segurança Pública, que conta com um portal de dados abertos, o ISPDados, citado previamente. 


<p font size="11">
<i >"O Instituto de Segurança Pública (ISP), é uma autarquia vinculada diretamente à Secretaria de Estado de Planejamento e Gestão. Com 21 anos de existência, o ISP conta com grande conhecimento acumulado no desenvolvimento de metodologias de análise de dados relativos à Segurança Pública. Sua missão é produzir informações e disseminar pesquisas e análises com vistas a influenciar e subsidiar a implementação de políticas públicas de segurança e assegurar a participação social na construção dessas políticas." </i>(ISP - Instituto de Segurança Pública).</p>

A iniciativa foi feita como forma de assegurar transparência e as informações podem ser conferidas no <a href="http://www.isp.rj.gov.br/dadosoficiais.asp">link do instituto</a>. Já o csv tratado está disponível no seguinte <a href="https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/violencia_rio.csv">github</a>

### Importando os dados

In [2]:
import pandas as pd
df = pd.read_csv("violencia_rio.csv")

## Análise Inicial dos Dados

Para realizar a análise de forma efetiva, é importante entender os principais componentes do dataset a ser trabalhado. Portanto, iremos responder algumas questões que nos trarão o vislumbre inicial da informação.

* 1. Qual o tamanho do seu DataFrame?
* 2. Extrair e imprimir os nomes das colunas.
* 3. Quais os tipos das variáveis.
* 4. Visualizar as 5 primeiras linhas.
* 5. Identifique a porcentagem de valores ausentes das colunas.


In [4]:
# 1. Qual o tamanho do seu DataFrame
df.shape

(344, 56)

In [5]:
# 2. Extrair e imprimir os nomes das colunas.
df.columns

Index(['vano', 'mes', 'hom_doloso', 'lesao_corp_morte', 'latrocinio',
       'hom_por_interv_policial', 'tentat_hom', 'lesao_corp_dolosa', 'estupro',
       'hom_culposo', 'lesao_corp_culposa', 'roubo_comercio',
       'roubo_residencia', 'roubo_veiculo', 'roubo_carga', 'roubo_transeunte',
       'roubo_em_coletivo', 'roubo_banco', 'roubo_cx_eletronico',
       'roubo_celular', 'roubo_conducao_saque', 'roubo_apos_saque',
       'roubo_bicicleta', 'outros_roubos', 'total_roubos', 'furto_veiculos',
       'furto_transeunte', 'furto_coletivo', 'furto_celular',
       'furto_bicicleta', 'outros_furtos', 'total_furtos', 'sequestro',
       'extorsao', 'sequestro_relampago', 'estelionato', 'apreensao_drogas',
       'posse_drogas', 'trafico_drogas', 'apreensao_drogas_sem_autor',
       'recuperacao_veiculos', 'apf', 'aaapai', 'cmp', 'cmba', 'ameaca',
       'pessoas_desaparecidas', 'encontro_cadaver', 'encontro_ossada',
       'pol_militares_mortos_serv', 'pol_civis_mortos_serv',
       'ind

In [7]:
# 3. Quais os tipos das variáveis.
df.dtypes

vano                            int64
mes                             int64
hom_doloso                      int64
lesao_corp_morte              float64
latrocinio                      int64
hom_por_interv_policial       float64
tentat_hom                      int64
lesao_corp_dolosa               int64
estupro                       float64
hom_culposo                   float64
lesao_corp_culposa            float64
roubo_comercio                  int64
roubo_residencia                int64
roubo_veiculo                   int64
roubo_carga                     int64
roubo_transeunte                int64
roubo_em_coletivo               int64
roubo_banco                     int64
roubo_cx_eletronico           float64
roubo_celular                 float64
roubo_conducao_saque          float64
roubo_apos_saque              float64
roubo_bicicleta               float64
outros_roubos                   int64
total_roubos                    int64
furto_veiculos                  int64
furto_transe

In [8]:
# 4. Visualizar as 5 primeiras linhas.
df.head()

Unnamed: 0,vano,mes,hom_doloso,lesao_corp_morte,latrocinio,hom_por_interv_policial,tentat_hom,lesao_corp_dolosa,estupro,hom_culposo,...,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,indicador_letalidade,indicador_roubo_rua,indicador_roubo_veic,registro_ocorrencias,fase
0,1991,1,657,,15,,162,3051,,,...,,217,,,,672,1348,1174,,3
1,1991,2,732,,17,,175,3421,,,...,,209,,,,749,1395,1097,,3
2,1991,3,713,,25,,216,3613,,,...,,188,,,,738,1385,1265,,3
3,1991,4,634,,20,,200,3211,,,...,,140,,,,654,1540,1415,,3
4,1991,5,650,,20,,146,3051,,,...,,78,,,,670,1266,1449,,3


In [46]:
# 5. Identifique a porcentagem de valores ausentes das colunas.

round((df.isnull().sum()/df.shape[0]) * 100, 2).sort_values(ascending=True)           
                                    

vano                           0.00
indicador_roubo_veic           0.00
indicador_roubo_rua            0.00
indicador_letalidade           0.00
encontro_cadaver               0.00
recuperacao_veiculos           0.00
apreensao_drogas               0.00
total_furtos                   0.00
outros_furtos                  0.00
furto_transeunte               0.00
furto_veiculos                 0.00
total_roubos                   0.00
outros_roubos                  0.00
roubo_banco                    0.00
roubo_em_coletivo              0.00
fase                           0.00
roubo_carga                    0.00
roubo_veiculo                  0.00
mes                            0.00
roubo_transeunte               0.00
hom_doloso                     0.00
lesao_corp_dolosa              0.00
latrocinio                     0.00
roubo_residencia               0.00
roubo_comercio                 0.00
tentat_hom                     0.00
hom_culposo                   24.42
hom_por_interv_policial     

À partir da primeira explanação, podemos observar que o dataset possui 56 colunas e 344 registro, também é notório que alguns indicadores de violência possuem um índice alto de nulidade, como é o quaso do furto e roubo de bicicletas, com 80%, e alguns que se mantém com metade dos indíces nulos, como é possível observar previamente. Enquanto outros são reportados diariamente não possuindo valores nulos desde a coleta, como é o caso de homícidio doloso, latrocínicio, tentativa de homicídio, dentre outros.


## Informações Estatísticas da Violência no Rio de Janeiro

Iremos observar agora algumas informações estatísticas dos dados coletados.

* 1. Imprima o resumo estatístico do seu DataFrame
* 2. Encontre as médias das seguintes colunas:
  * `roubo_veiculo`
  * `furto_veiculos`
  * `recuperacao_veiculos`
* 3. Calcule qual a porcentagem de carros recuperados em relação aos carros roubados + carros furtados:
  * $\frac{\text{recuperacao_veiculos}}{\text{roubo_veiculo} + \text{furto_veiculos}}$
* 4. Encontre os valores máximos, mínimos, média e desvio padrão da coluna `hom_doloso`
* 5. Encontre os valores máximos, mínimos, média e desvio padrão da coluna `hom_culposo`

### Crimes relacionados a veículos

In [25]:
# 1. Imprima o resumo estatístico do seu DataFrame (`describe`)
df.describe()

Unnamed: 0,vano,mes,hom_doloso,lesao_corp_morte,latrocinio,hom_por_interv_policial,tentat_hom,lesao_corp_dolosa,estupro,hom_culposo,...,pessoas_desaparecidas,encontro_cadaver,encontro_ossada,pol_militares_mortos_serv,pol_civis_mortos_serv,indicador_letalidade,indicador_roubo_rua,indicador_roubo_veic,registro_ocorrencias,fase
count,344.0,344.0,344.0,248.0,344.0,260.0,344.0,344.0,200.0,260.0,...,212.0,344.0,212.0,200.0,200.0,344.0,344.0,344.0,248.0,344.0
mean,2004.837209,6.453488,504.555233,4.334677,15.668605,71.9,318.267442,5492.799419,369.945,212.119231,...,435.132075,66.261628,3.301887,2.085,0.34,577.69186,4734.738372,2448.697674,53794.16129,2.994186
std,8.289036,3.447759,113.774481,2.755357,5.861427,36.48882,127.606645,1514.220579,94.392434,54.2347,...,65.353516,34.464519,2.192922,1.761616,0.63752,104.973929,3204.054864,789.689559,11039.051992,0.076138
min,1991.0,1.0,272.0,0.0,2.0,10.0,122.0,2350.0,188.0,111.0,...,236.0,0.0,0.0,0.0,0.0,334.0,1086.0,1097.0,30621.0,2.0
25%,1998.0,3.0,413.75,2.0,11.0,41.75,200.0,4067.0,282.0,176.0,...,390.0,42.0,2.0,1.0,0.0,500.0,1557.0,1889.75,45374.5,3.0
50%,2005.0,6.0,507.0,4.0,15.0,70.0,318.5,5830.5,384.0,203.0,...,427.0,60.5,3.0,2.0,0.0,590.0,4190.0,2322.0,54926.5,3.0
75%,2012.0,9.0,577.25,6.0,19.0,96.25,398.25,6582.5,441.25,236.25,...,481.5,87.0,4.0,3.0,1.0,649.0,6872.75,2778.0,63292.5,3.0
max,2019.0,12.0,831.0,21.0,36.0,194.0,645.0,9050.0,561.0,449.0,...,628.0,217.0,13.0,10.0,3.0,848.0,13833.0,5358.0,75403.0,3.0


In [41]:
# 2. Encontre as médias das seguintes colunas:
# `roubo_veiculo`
round(df.roubo_veiculo.mean())

2449

In [42]:
# `furto_veiculos`
round(df.furto_veiculos.mean())

1675

In [43]:
# `recuperacao_veiculos
round(df.recuperacao_veiculos.mean())

1772

In [45]:
# 3. Calcule qual a porcentagem de carros recuperados em relação aos carros roubados + carros furtados:
round(df.recuperacao_veiculos.sum()/(df.roubo_veiculo.sum() + df.furto_veiculos.sum()) * 100, 2)

42.98

Podemos observar que a porcentagem de carros recuperados em relação aos roubados e furtados é de aproximadamente 43%.

### Crimes contra a vida

In [47]:
# 4. Encontre os valores máximos, mínimos, média e desvio padrão da coluna `hom_doloso`
# valor máximo
df.hom_doloso.max()

831

In [48]:
#valor mínimo
df.hom_doloso.min()

272

In [54]:
# média de homicídios dolosos
df.hom_doloso.mean()

504.55523255813955

In [None]:
# Desvio padrão do homicídio doloso
df.hom_doloso.std()

In [49]:
# 5. Encontre os valores máximos, mínimos, média e desvio padrão da coluna `hom_culposo`
#valor máximo
df.hom_culposo.max()

449.0

In [50]:
#valor mínimo
df.hom_culposo.min()

111.0

In [55]:
# média de homicídios culposos
df.hom_culposo.mean()

212.11923076923077

In [52]:
# Desvio padrão do homiício culposo
df.hom_culposo.std()

54.234700308499114

Podemos observar que ambos possuem um desvio padrão alto, o que é um indicativo dos dados não serem constantes e diferirem em seus valores, sendo o homícidio doloso com uma taxa maior de dispersão.

## Visualização de Dados

Breve contextualização...

Plote e comente os seguintes gráficos:

* Histograma de `hom_doloso`
* Gráfico de linhas para a variável `roubo_em_coletivo`
