<a href="https://colab.research.google.com/github/charlesamoedo/Data-Science/blob/master/Viol%C3%AAncia_Contra_Mulher_Manaus_CAmoedo.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#### **Data Science na Prática 2.0**
* Charles Amoêdo [with [sigmoidal.ai](https://sigmoidal.ai), 2020]


---

**Instruções para o Projeto**

* Você deve importar o pandas e importar a base de dados da Polícia Militar do Rio de Janeiro sobre a violência
  * O arquivo `csv` se encontra no endereço abaixo:
    * https://raw.githubusercontent.com/carlosfab/dsnp2/master/datasets/violencia_rio.csv
  * Este arquivo `csv` foi pré-processado minimamente por mim, para focar nos pontos aprendidos neste Módulo
  * Este é o site oficial, do Governo do Estado do Rio de Janeiro:
    * http://www.ispdados.rj.gov.br/estatistica.html
  * Um *dashboard* interativo e visual pode ser encontrado no site abaixo:
    * http://www.ispvisualizacao.rj.gov.br/index.html
  * Você está livre para apagar, alterar e acrescentar o que quiser!
  * Se você sentiu dificuldade, não se preocupe! Disponibilizei a minha própria solução para servir de guia, porém tente fazer a sua por você mesmo inicialmente.
    * Se sentir perdido é normal, mas acredite: O seu cérebro vai começar a adquirir uma capacidade nova de pensar em hipóteses e questionar dados.
  
  
---
  

# Analisando a Violência Doméstica Contra Muleres em Manaus - Amazonas

Neste notebook faremos sobre violência doméstica cometidas contra mulheres na capital do estado do Amazonas (Manaus) em 2020.

## Obtenção dos Dados


Os dados foram obtidos no [portal da SSP-AM](http://www.ssp.am.gov.br/ssp-dados/), através de arquivo PDF, depois convertido para .csv.

Nesse *dataset* constam mínimas informações sobre o tema (infelizmente), pois assim como as demais Secretarias de Estado no Amazonas, não há uma boa política que tornem realmente os dados transperentes para sociede, normalmente são incompletos, isso torna o trabalho de analise dados muito limitado, mais ainda, em 21/07/2020 data que estou criando esta análise, só estão diponíveis os dados até março de 2020, diante disto, vamos ver o que conseguimos gerar de informação.

### Importando os dados

1) Para gerar o *DataFrame* foi convertido o [arquivo PDF baixando no portal da SSP-AM ](http://www.ssp.am.gov.br/wp-content/uploads/2020/07/Viol%C3%AAncia-dom%C3%A9stica-Manaus-2020.pdf) 

2) Para converter o arquivo em excel utilizamos o site https://www.freepdfconvert.com/ 

3) Salvamos os dados em .csv

Importe os dados, usando `df = pd.read_csv("endereço_do_csv")`

In [24]:
# Importar Pandas  e criar data frame

import pandas as pd

# importar arquivo para dataFrame
df = pd.read_csv("https://raw.githubusercontent.com/charlesamoedo/Data-Science/master/datasets/ViolMulherManaus.csv")

#Exibir 5 primeiras linhas do DF
df.head(10)

Unnamed: 0,NATUREZA,JAN,FEV,MAR,ABR,MAI,JUN,JUL,AGO,SET,OUT,NOV,DEZ,TOTAL
0,INJÚRIA,713,698,536,183,,,,,,,,,2130
1,AMEAÇA,638,597,500,181,,,,,,,,,1916
2,LESÃO CORPORAL,205,254,254,173,,,,,,,,,886
3,VIAS DE FATO,232,244,178,83,,,,,,,,,737
4,PERTURBAÇÃO TRANQUILID,198,204,164,36,,,,,,,,,602
5,DANO,38,36,16,13,,,,,,,,,103
6,DIFAMAÇÃO,24,30,32,5,,,,,,,,,91
7,VIOLAÇÃO DE DOMICÍLIO,25,19,12,7,,,,,,,,,63
8,FURTO,16,15,7,6,,,,,,,,,44
9,ROUBO,7,5,8,0,,,,,,,,,20


## Análise Inicial dos Dados

Os dados são referentes às ocorrências de violências domésticas, registradas na Capital do Estado do Amazonas (Manaus), no período de Janeiro a Abril de 2020, sendo o que está disponível até hoje 21.07.20  no portal da SSP-AM.  

* Qual o tamanho do seu DataFrame (`shape`)
* Extrair e imprimir os nomes das colunas (`columns`)
* Quais os tipos das variáveis (`dtypes`)
* Visualizar as 5 primeiras linhas (`head`)
* Identifique a porcentagem de valores ausentes das colunas


In [None]:
# Tamnho do DataFrame
df.shape

In [23]:
# Nome das colunas "Variáveis"
df.columns

Index(['NATUREZA', 'JAN', 'FEV', 'MAR', 'ABR', 'MAI', 'JUN', 'JUL', 'AGO',
       'SET', 'OUT', 'NOV', 'DEZ', 'TOTAL'],
      dtype='object')

In [None]:
df.dtypes

In [None]:
df.head(5)

In [None]:
# ordenar em ordem decrescente as variáveis por seus valores ausentes
(df.isnull().sum() / df.shape[0]).sort_values(ascending=False)

## Informações Estatísticas da Violência

Breve contextualização...

Descreva e execute as seguintes etapas:

* Imprima o resumo estatístico do seu DataFrame (`describe`)
* Encontre as médias por NATUREZA:
 
  Calcule qual a porcentagem de carros recuperados em relação aos carros roubados + carros furtados:
  * $\frac{\text{recuperacao_veiculos}}{\text{roubo_veiculo} + \text{furto_veiculos}}$
* Encontre os valores máximos (`max`) e mínimos (`min`) da coluna `hom_doloso`


In [22]:
#Resumo estatístico do dataFrame
df.describe()

Unnamed: 0,JAN,FEV,MAR,ABR,MAI,JUN,JUL,AGO,SET,OUT,NOV,DEZ,TOTAL
count,26.0,26.0,26.0,26.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,26.0
mean,82.192308,82.038462,67.076923,27.0,,,,,,,,,258.307692
std,187.397763,182.997591,147.659588,58.557322,,,,,,,,,572.375525
min,0.0,0.0,0.0,0.0,,,,,,,,,2.0
25%,1.5,1.25,2.0,0.0,,,,,,,,,5.25
50%,4.5,3.5,4.5,1.5,,,,,,,,,13.0
75%,24.75,27.25,15.0,6.75,,,,,,,,,84.0
max,713.0,698.0,536.0,183.0,,,,,,,,,2130.0


In [None]:
#Média por Natureza


## Visualização de Dados

Breve contextualização...

Plote e comente os seguintes gráficos:

* Histograma de `hom_doloso`
* Gráfico de linhas para a variável `roubo_em_coletivo`


## Conclusão

Escreva suas conclusões e análises sobre os indicadores de violência do Rio de Janeiro...