# Exploratory Data Analysis

## Gravidade de cada tipo de crime:

Como foi feita a classificação da gravidade de cada crime, utilizando as [guidelines da ICCS](https://ec.europa.eu/eurostat/documents/3859598/8305054/KS-GQ-17-010-EN-N.pdf/feefb266-becc-441c-8283-3f9f74b29156) (International Classification of Crime for Statistical Purposes) para paises que usem o ESS (European Statistical System), como é o caso da União Europeia.

Esta classificação também tem em conta não só o número de ocorrências dos crimes, como a sua gravidade, sendo que ambos têm peso na relevância de um crime.

Sendo os Estados Unidos um país ocidental, pensamos que não é errado assumir que a sua classificação de crimes seja algo próxima com a da União Europeia.

#### Tipos mais relevantes de crime:
1. Homicídio (Homicide)
2. Agressão (Assault)
3. Rapto (Kidnapping)
4. Tráfico Humano (Human Trafficking)
5. Crime de cariz sexual com ofensa à integridade física (Sexual assault) 
6. Crime de cariz sexual sem ofensa à integridade física (Sexual offense)
7. Roubo com violência (Robbery)
8. Roubo sem violência (Theft)
9. Roubo de automóvel (Motor vehicle theft)
10. Assalto a propriedade (Burglary)
11. Dano a propriedade (Criminal damage)
12. Posse de drogas para venda ou consumo pessoal ou não pessoal (Narcotics)
13. Posse de bebidas alcoólicas ilícitas (Liquor law violation)
14. Atos contra a ordem pública (Public peace violation)
15. Atos contra a ordem pública, invasão de propriedade (Criminal trespass)
16. Distúrbios públicos violentos (Battery)
17. Prostituição (Prostitution)
18. Atentado à liberadade (Stalking)
19. Intimidação, atentado à liberdade de expressão (Intimidation)
20. Atos contra regulamentos comerciais ou de receita pública (Deceptive practice)
21. Atos contra regulamentos de apostas (Gambling)
22. Obstrução à justiça (Interference with public officer)
23. Posse ou venda ilegal de armas (Weapons violation)
24. Ato contra o ambiente (Arson)

*Classificação feita através do ICCS como indicado no parágrafo anterior.*

##### Diferença entre os diferentes tipos de *theft*:
* Robbery: Ameaça de uso de força com intenção de roubar.
* Assault: Uso de força ou ofensa à integridade fisica de uma pessoa com intenção de roubar.
* Burglary: Entrada forçada ou ilegal em propriedade privada ou alheia com intenção de roubar.
* Theft: Roubo sem ameaça ou uso de força.


#### Limitações desta classificação:
* Não tem em conta a descrição de cada crime.
* A sua descrição pode conter informações que tornem o crime mais relevante. Por exemplo, arson contra propriedade seria *nivel 5*, enquanto arson contra a natureza seria de *nivel 10*.
* Campos como o **OFFENSE INVOLVING CHILDREN** e **OTHER OFFENSE** não estão classificados porque dependem só da sua descrição para saber a relevância.


## Função *Safety*:
A partir desta classificação de crimes, foi elaborada uma função *Safety* de modo a definir o quão seguro é um distrito de chicago fornecendo um índice de segurança.

$Safety_t(district) = \Sigma^n_{j = 1}\alpha_jx_j$

Onde:
* t indica o ano que se quer avaliar
* district indica o distrito de chicago a avaliar
* n é o número de crimes distintos existentes no distrito com pelo menos uma ocorrência
* $\alpha_j$ representa o peso do crime $x_j$

Nesta função será necessário definir:
* Pesos para cada crime tendo em conta a escala de relevância dos mesmos.
* Uma *threshold* que permita definir se um distrito é ou não seguro.

Como definir os pesos e a *threshold*:
* Os pesos deverão ser definidos tendo em conta a escala de relevância da ICCS, realçando não só a quantidade de ocorrências dos mesmo, como o transtorno que estes causam para a segurança da população e estabilidade do país.
* O rácio crimes/arrests pode ser um fator interessante para medir os pesos, já que nos dá uma ideia do que é que a policia/sociedade/governo dá importância, em termos de tomar medidas contra.
* A *threshold* fazendo uma média dos valores de segurança de todos os distritos. Poderá ser feita uma média por ano (dificil implementação), ou agrupar e criar uma threshold geral para qualquer ano (Pode ser imprecisa visto que o nº de crimes em chicago diminui ao longo dos anos).
* Pode haver mais do que uma *threshold*, pode ser dividido em crime muito relevante, crime relevante e crime pouco relevante.

### Definição de pesos:

...


## Perguntas relevantes (hipóteses formuladas):

#### Relacionadas com a **primeira** sample:
* Quais são os tipos de crimes principais que ocorrem em chicago? Qual a percentagem de ocorrência de cada um? Quais são os que mais acontecem e quais são os mais irrelevantes?
* Qual a percentagem de pessoas que comete crimes e é detida pelo crime que cometeu?
* Qual a percentagem de pessoas que cometem roubos são detidas? E homicídios? etc. Como é que esta percentagem se relaciona com a percetagem de detenções gerais?
* Como varia a criminalidade de chicago ao longo dos anos? (2001 a 2017)
* Será que os crimes são reportados mais vezes quando são relacionados com propriedade privada? Domestic/Arrest ratio para Criminal Damage e Criminal Trespass.
* Qual o distrito mais seguro de chicago? Utilizando a função $Safety_t(district)$. 
* Quais os distritos que virão uma maior diminuição de crime? Será que são considerados seguros em 2017? Como eram considerados quando o seu indice de segurança atingiu o mínimo?
* Quais os distritos que virão um maior aumento de crime? Será que são considerados perigosos em 2017? Como eram considerados quando o seu indice de segurança atingiu o máximo?
* Quais as alturas do ano em que o crime aumenta?

#### Relacionadas com a **segunda** sample:
* Como é que os crimes aumentam ou diminuem conforme os distritos de chicago? Com recurso a gradiante de cores.
* Qual o tipo de crime que ocorre mais em cada distrito? Filtrar por crimes mais relevantes.
* Quais as beats que estão sobrecarregadas (têm mais crimes do que a média) para o ano 2017? Caso esteja sobrecarregada pode ser representada por um ponto vermelho no mapa, se não estiver sobrecarregada será um ponto vermelho. Pode ser útil para a polícia perceber quais são as zonas mais problemáticas que podem precisar de mais um carro da policia para ser controladas.



### Algumas ideias de EDA:
* Wordcloud dos diferentes tipos de crime

#### Partes principais do trabalho:
* Função safety
* Overload de beats


# Links úteis:
* [Tutorial de **shiny**](https://shiny.rstudio.com/tutorial/)
* [Livro sobre markdown **Rmd**](https://bookdown.org/yihui/rmarkdown/interactive-documents.html)
* [Mais um tuturial sobre markdown em **Rmd**](https://holtzy.github.io/Pimp-my-rmd/)
* [Exemplo de **jupyter** notebook bastante complete com shiny](https://www.kaggle.com/raenish/time-series-on-air-quality "Kaggle: Air quality time series")
* [Mapas interativos com **shiny** e **leaflet**](https://rstudio.github.io/leaflet/shiny.html)
* [Utilização de butões em **shiny**](https://shiny.rstudio.com/articles/action-buttons.html)
* [Guia para usar **leaflet** para criar mapas interativos](https://rstudio.github.io/leaflet/)
* ggstatsplot, biblioteca para mostrar estatisticas de gráficos