<a href="https://colab.research.google.com/github/brennoliveira/trabalho-pratico-2-ML/blob/main/code/tp_clusterizacao_dados_criminais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Dados Criminais

O objetivo dessa tarefa é construir um mapa do crime no Brasil a partir de dados abertos. O trabalho pode ser feito em dupla ou individual. Cada dupla ou pessoa deve fazer uma análise e pré-processamento dos dados para que possam construir um mapa do crime do Brasil. Além disso, vocês devem aplicar algoritmos de de clusterização para agrupar cidades de acordo com o nível de criminalidade (como o exemplo dos Estados Unidos que apresentei em sala de aula).

A base que vocês devem utilizar está disponível neste link:

http://dados.mj.gov.br/dataset/sistema-nacional-de-estatisticas-de-seguranca-publica

A base contém dados de crimes cometidos nos estados brasileiros. Na página vocês vão encontrar os dados por estado e por município. No entanto, para esse trabalho vamos usar apenas a base de estados. O nome do arquivo é `indicadoressegurancapublicauf.xlxs` e pode ser acessados no link acima onde tem **Dados Nacionais de Segurança Pública - UF**. No link também tem o arquivo **Dicionário de Dados - UF** que explica a tabela que vocês vão trabalhar. Além disso, o link contém outras informações relacionadas ao tema. Importante a leitura para ajudar na análise de vocês. 

O trabalho deve conter as seguintes tarefas

* pré-processamento e análise dos dados;
* aplicação dos algoritmos de clusterização e análise dos resultados;
* visualização dos resultados da análise e da clusterização. 

Para as etapas 1 e 3 vocês podem usar qualquer ferramenta: excel, power bi .... Para a etapa 2, utilizem os algoritmos de clusterização apresentados em sala de aula através da biblioteca **scikit-learn**. No material de aula mostro como construir uma tabela com os dados da clusterização. Essa saída pode ser usada nas ferramentas que vocês escolherem. Na etapa de clusterização vocês devem gerar o cluster e fazer a análise dos resultados. Variem parâmetros relacionados aos algoritmos de cluster para encontrar o melhor agrupamento. Essa análise deve ser feita também utilizando as métricas de avaliação não-supervisionadas vistas em sala de aula.

A seguir mostro como fazer a leitura do arquivo.

Bom trabalho ;) 

In [2]:
# Imports necessários
import pandas as pd

## Carregando a base do Excel 

O arquivo de entrar é um `.xlsx` que possui duas planilhas. A primeira com as ocorrências criminais e a segunda com o número de vítimas de diferentes registros criminais. Cada planilha foi salva em um DataFrame distinto. Vocês devem analisar a melhor forma de utilizar esses dados durante a etapa de pré-processamento ;) 

In [6]:
data_ocorrencias = pd.read_excel("../data/indicadoressegurancapublicauf.xlsx",sheet_name='Ocorrências')
data_ocorrencias

Unnamed: 0,UF,Tipo Crime,Ano,Mês,Ocorrências
0,Acre,Estupro,2022,janeiro,31
1,Acre,Furto de veículo,2022,janeiro,50
2,Acre,Homicídio doloso,2022,janeiro,9
3,Acre,Lesão corporal seguida de morte,2022,janeiro,0
4,Acre,Roubo a instituição financeira,2022,janeiro,0
...,...,...,...,...,...
20441,Tocantins,Roubo a instituição financeira,2015,dezembro,6
20442,Tocantins,Roubo de carga,2015,dezembro,1
20443,Tocantins,Roubo de veículo,2015,dezembro,55
20444,Tocantins,Roubo seguido de morte (latrocínio),2015,dezembro,2


In [7]:
data_vitimas = pd.read_excel("../data/indicadoressegurancapublicauf.xlsx",sheet_name='Vítimas')
data_vitimas

Unnamed: 0,UF,Tipo Crime,Ano,Mês,Sexo da Vítima,Vítimas
0,Acre,Homicídio doloso,2022,janeiro,Feminino,1
1,Acre,Homicídio doloso,2022,janeiro,Masculino,8
2,Acre,Homicídio doloso,2022,janeiro,Sexo NI,0
3,Acre,Lesão corporal seguida de morte,2022,janeiro,Feminino,0
4,Acre,Lesão corporal seguida de morte,2022,janeiro,Masculino,0
...,...,...,...,...,...,...
17430,Tocantins,Roubo seguido de morte (latrocínio),2015,junho,Masculino,1
17431,Tocantins,Roubo seguido de morte (latrocínio),2015,julho,Masculino,1
17432,Tocantins,Roubo seguido de morte (latrocínio),2015,agosto,Masculino,1
17433,Tocantins,Roubo seguido de morte (latrocínio),2015,outubro,Masculino,2


In [8]:
data_ocorrencias = pd.get_dummies(data_ocorrencias, columns=['Tipo Crime', 'Ano', 'Mês'])
data_ocorrencias

Unnamed: 0,UF,Ocorrências,Tipo Crime_Estupro,Tipo Crime_Furto de veículo,Tipo Crime_Homicídio doloso,Tipo Crime_Lesão corporal seguida de morte,Tipo Crime_Roubo a instituição financeira,Tipo Crime_Roubo de carga,Tipo Crime_Roubo de veículo,Tipo Crime_Roubo seguido de morte (latrocínio),...,Mês_dezembro,Mês_fevereiro,Mês_janeiro,Mês_julho,Mês_junho,Mês_maio,Mês_março,Mês_novembro,Mês_outubro,Mês_setembro
0,Acre,31,1,0,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
1,Acre,50,0,1,0,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
2,Acre,9,0,0,1,0,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
3,Acre,0,0,0,0,1,0,0,0,0,...,0,0,1,0,0,0,0,0,0,0
4,Acre,0,0,0,0,0,1,0,0,0,...,0,0,1,0,0,0,0,0,0,0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
20441,Tocantins,6,0,0,0,0,1,0,0,0,...,1,0,0,0,0,0,0,0,0,0
20442,Tocantins,1,0,0,0,0,0,1,0,0,...,1,0,0,0,0,0,0,0,0,0
20443,Tocantins,55,0,0,0,0,0,0,1,0,...,1,0,0,0,0,0,0,0,0,0
20444,Tocantins,2,0,0,0,0,0,0,0,1,...,1,0,0,0,0,0,0,0,0,0
