<a href="https://colab.research.google.com/github/brennoliveira/trabalho-pratico-2-ML/blob/main/C%C3%B3pia_de_tp_clusterizacao_dados_criminais.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Análise de Dados Criminais

O objetivo dessa tarefa é construir um mapa do crime no Brasil a partir de dados abertos. O trabalho pode ser feito em dupla ou individual. Cada dupla ou pessoa deve fazer uma análise e pré-processamento dos dados para que possam construir um mapa do crime do Brasil. Além disso, vocês devem aplicar algoritmos de de clusterização para agrupar cidades de acordo com o nível de criminalidade (como o exemplo dos Estados Unidos que apresentei em sala de aula).

A base que vocês devem utilizar está disponível neste link:

http://dados.mj.gov.br/dataset/sistema-nacional-de-estatisticas-de-seguranca-publica

A base contém dados de crimes cometidos nos estados brasileiros. Na página vocês vão encontrar os dados por estado e por município. No entanto, para esse trabalho vamos usar apenas a base de estados. O nome do arquivo é `indicadoressegurancapublicauf.xlxs` e pode ser acessados no link acima onde tem **Dados Nacionais de Segurança Pública - UF**. No link também tem o arquivo **Dicionário de Dados - UF** que explica a tabela que vocês vão trabalhar. Além disso, o link contém outras informações relacionadas ao tema. Importante a leitura para ajudar na análise de vocês. 

O trabalho deve conter as seguintes tarefas

* pré-processamento e análise dos dados;
* aplicação dos algoritmos de clusterização e análise dos resultados;
* visualização dos resultados da análise e da clusterização. 

Para as etapas 1 e 3 vocês podem usar qualquer ferramenta: excel, power bi .... Para a etapa 2, utilizem os algoritmos de clusterização apresentados em sala de aula através da biblioteca **scikit-learn**. No material de aula mostro como construir uma tabela com os dados da clusterização. Essa saída pode ser usada nas ferramentas que vocês escolherem. Na etapa de clusterização vocês devem gerar o cluster e fazer a análise dos resultados. Variem parâmetros relacionados aos algoritmos de cluster para encontrar o melhor agrupamento. Essa análise deve ser feita também utilizando as métricas de avaliação não-supervisionadas vistas em sala de aula.

A seguir mostro como fazer a leitura do arquivo.

Bom trabalho ;) 

In [2]:
# Imports necessários
import pandas as pd

## Carregando a base do Excel 

O arquivo de entrar é um `.xlsx` que possui duas planilhas. A primeira com as ocorrências criminais e a segunda com o número de vítimas de diferentes registros criminais. Cada planilha foi salva em um DataFrame distinto. Vocês devem analisar a melhor forma de utilizar esses dados durante a etapa de pré-processamento ;) 

In [67]:
# abrindo datasets
data_ocorrencias = pd.read_excel("indicadoressegurancapublicauf.xlsx", sheet_name='Ocorrências')
data_vitimas = pd.read_excel("indicadoressegurancapublicauf.xlsx",sheet_name='Vítimas')

In [68]:
# alterando noma da coluna
data_ocorrencias.columns = data_ocorrencias.columns.str.replace('Tipo Crime', 'Tipo_Crime')

In [69]:
# agrupando por UF e Tipo_Crime
ocorrencias_por_crime = data_ocorrencias.groupby(['UF','Tipo_Crime']).sum()
ocorrencias_por_crime

# data_ocorrencias.query("UF == 'Acre' and Tipo_Crime == 'Estupro'").sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,Ano,Ocorrências
UF,Tipo_Crime,Unnamed: 2_level_1,Unnamed: 3_level_1
Acre,Estupro,171534,1525
Acre,Furto de veículo,171534,2769
Acre,Homicídio doloso,171534,1971
Acre,Lesão corporal seguida de morte,167496,8
Acre,Roubo a instituição financeira,169515,13
...,...,...,...
Tocantins,Roubo a instituição financeira,171534,93
Tocantins,Roubo de carga,131126,41
Tocantins,Roubo de veículo,171534,5160
Tocantins,Roubo seguido de morte (latrocínio),171534,94


In [70]:
# listando os estados
estados = list(data_ocorrencias.UF.unique())
estados

['Acre',
 'Amapá',
 'Amazonas',
 'Bahia',
 'Ceará',
 'Distrito Federal',
 'Espírito Santo',
 'Goiás',
 'Maranhão',
 'Mato Grosso',
 'Mato Grosso do Sul',
 'Minas Gerais',
 'Pará',
 'Paraíba',
 'Paraná',
 'Pernambuco',
 'Piauí',
 'Rio Grande do Norte',
 'Rio Grande do Sul',
 'Rondônia',
 'Roraima',
 'Santa Catarina',
 'São Paulo',
 'Sergipe',
 'Tocantins',
 'Alagoas',
 'Rio de Janeiro']

In [71]:
# criando novo DataFrame com a soma das ocorrências de cada tipo de crime
matriz = []

for uf in estados:
  linha = [uf]
  for i in range(9):
    df = ocorrencias_por_crime.query(f"UF == '{uf}'")
    # print(df.Ocorrências[0])
    linha.append(df.Ocorrências[i])
  matriz.append(linha)
matriz = pd.DataFrame(matriz, columns=['UF','Tipo_Crime_Estupro',	'Tipo_Crime_Furto_de_veículo',	'Tipo_Crime_Homicídio_doloso'	,'Tipo_Crime_Lesão_corporal_seguida_de_morte'	,'Tipo_Crime_Roubo_a_instituição_financeira',	'Tipo_Crime_Roubo_de_carga',	'Tipo_Crime_Roubo_de_veículo',	'Tipo_Crime_Roubo_seguido_de_morte_(latrocínio)',	'Tipo_Crime_Tentativa_de_homicídio'	 ])
matriz

Unnamed: 0,UF,Tipo_Crime_Estupro,Tipo_Crime_Furto_de_veículo,Tipo_Crime_Homicídio_doloso,Tipo_Crime_Lesão_corporal_seguida_de_morte,Tipo_Crime_Roubo_a_instituição_financeira,Tipo_Crime_Roubo_de_carga,Tipo_Crime_Roubo_de_veículo,Tipo_Crime_Roubo_seguido_de_morte_(latrocínio),Tipo_Crime_Tentativa_de_homicídio
0,Acre,1525,2769,1971,8,13,8,5118,88,725
1,Amapá,2451,4229,1817,117,66,43,2303,140,1507
2,Amazonas,5945,16137,7776,167,97,78,20753,445,1960
3,Bahia,20205,36069,37985,595,147,2304,89754,1103,17640
4,Ceará,11589,32146,24965,220,248,1244,62155,417,8863
5,Distrito Federal,4497,37503,3101,40,20,317,27072,227,5505
6,Espírito Santo,4803,31191,8249,96,170,547,28801,279,16871
7,Goiás,4512,65622,13850,274,300,2530,56441,513,14674
8,Maranhão,8633,18128,12726,182,422,312,27166,650,7265
9,Mato Grosso,11275,18533,6489,152,82,448,15554,302,8805


In [72]:
# merge com DF_vítimas para add coluna Vítimas
del data_vitimas["Ano"]
del data_vitimas["Mês"]
df_vit = data_vitimas.groupby(['UF'])
df_vit = df_vit.agg('sum')

df = matriz.merge(df_vit, how='inner', on='UF')
df

Unnamed: 0,UF,Tipo_Crime_Estupro,Tipo_Crime_Furto_de_veículo,Tipo_Crime_Homicídio_doloso,Tipo_Crime_Lesão_corporal_seguida_de_morte,Tipo_Crime_Roubo_a_instituição_financeira,Tipo_Crime_Roubo_de_carga,Tipo_Crime_Roubo_de_veículo,Tipo_Crime_Roubo_seguido_de_morte_(latrocínio),Tipo_Crime_Tentativa_de_homicídio,Vítimas
0,Acre,1525,2769,1971,8,13,8,5118,88,725,1993
1,Amapá,2451,4229,1817,117,66,43,2303,140,1507,2132
2,Amazonas,5945,16137,7776,167,97,78,20753,445,1960,8684
3,Bahia,20205,36069,37985,595,147,2304,89754,1103,17640,41903
4,Ceará,11589,32146,24965,220,248,1244,62155,417,8863,26890
5,Distrito Federal,4497,37503,3101,40,20,317,27072,227,5505,3767
6,Espírito Santo,4803,31191,8249,96,170,547,28801,279,16871,8697
7,Goiás,4512,65622,13850,274,300,2530,56441,513,14674,14831
8,Maranhão,8633,18128,12726,182,422,312,27166,650,7265,13565
9,Mato Grosso,11275,18533,6489,152,82,448,15554,302,8805,7003


In [66]:
# abrindo datasets
data_ocorrencias = pd.read_excel("indicadoressegurancapublicauf.xlsx", sheet_name='Ocorrências')
data_vitimas = pd.read_excel("indicadoressegurancapublicauf.xlsx",sheet_name='Vítimas')

# alterando noma da coluna
data_ocorrencias.columns = data_ocorrencias.columns.str.replace('Tipo Crime', 'Tipo_Crime')

# agrupando por UF e Tipo_Crime
ocorrencias_por_crime = data_ocorrencias.groupby(['UF','Tipo_Crime']).sum()
ocorrencias_por_crime

# data_ocorrencias.query("UF == 'Acre' and Tipo_Crime == 'Estupro'").sum()

# listando os estados
estados = list(data_ocorrencias.UF.unique())
estados

# criando novo DataFrame com a soma das ocorrências de cada tipo de crime
matriz = []

for uf in estados:
  linha = [uf]
  for i in range(9):
    df = ocorrencias_por_crime.query(f"UF == '{uf}'")
    # print(df.Ocorrências[0])
    linha.append(df.Ocorrências[i])
  matriz.append(linha)
matriz = pd.DataFrame(matriz, columns=['UF','Tipo_Crime_Estupro',	'Tipo_Crime_Furto_de_veículo',	'Tipo_Crime_Homicídio_doloso'	,'Tipo_Crime_Lesão_corporal_seguida_de_morte'	,'Tipo_Crime_Roubo_a_instituição_financeira',	'Tipo_Crime_Roubo_de_carga',	'Tipo_Crime_Roubo_de_veículo',	'Tipo_Crime_Roubo_seguido_de_morte_(latrocínio)',	'Tipo_Crime_Tentativa_de_homicídio'	 ])
matriz

# merge com DF_vítimas para add coluna Vítimas
del data_vitimas["Ano"]
del data_vitimas["Mês"]
df_vit = data_vitimas.groupby(['UF'])
df_vit = df_vit.agg('sum')

df = matriz.merge(df_vit, how='inner', on='UF')
df
# for i, obj in ocorrencias_por_crime.iterrows():
#   print(type(obj))


Unnamed: 0,UF,Tipo_Crime_Estupro,Tipo_Crime_Furto_de_veículo,Tipo_Crime_Homicídio_doloso,Tipo_Crime_Lesão_corporal_seguida_de_morte,Tipo_Crime_Roubo_a_instituição_financeira,Tipo_Crime_Roubo_de_carga,Tipo_Crime_Roubo_de_veículo,Tipo_Crime_Roubo_seguido_de_morte_(latrocínio),Tipo_Crime_Tentativa_de_homicídio,Vítimas
0,Acre,1525,2769,1971,8,13,8,5118,88,725,1993
1,Amapá,2451,4229,1817,117,66,43,2303,140,1507,2132
2,Amazonas,5945,16137,7776,167,97,78,20753,445,1960,8684
3,Bahia,20205,36069,37985,595,147,2304,89754,1103,17640,41903
4,Ceará,11589,32146,24965,220,248,1244,62155,417,8863,26890
5,Distrito Federal,4497,37503,3101,40,20,317,27072,227,5505,3767
6,Espírito Santo,4803,31191,8249,96,170,547,28801,279,16871,8697
7,Goiás,4512,65622,13850,274,300,2530,56441,513,14674,14831
8,Maranhão,8633,18128,12726,182,422,312,27166,650,7265,13565
9,Mato Grosso,11275,18533,6489,152,82,448,15554,302,8805,7003


In [73]:
# Análise - variáveis quantitativas x quantitativas

In [None]:
# Análise - variáveis quantitativas x qualitativa

In [None]:
# Análise - variáveis qualitativa x qualitativa