# Limpeza e exploração dos dados indicativos de crimes do Rio Grande do Sul entre 2002 e 2012

Os dados foram obtidos em formato csv do site da secretaria de segurança pública do RS (http://www.ssp.rs.gov.br/?model=conteudo&menu=196&pg=1)

Foram obtidos 12 arquivos, um para cada ano entre 2002 e 2012

In [134]:
import pandas as pd
import os
import matplotlib.pyplot as plt
import numpy as np

%pylab inline 

pd.options.mode.chained_assignment = None  # default='warn'

Populating the interactive namespace from numpy and matplotlib


In [47]:
datapath = "/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto"

data_sources = {}
for i in range(2002, 2013):
    data_sources[i] = os.path.join(datapath,"{0}.csv".format(i))

In [48]:
data_sources

{2002: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2002.csv',
 2003: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2003.csv',
 2004: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2004.csv',
 2005: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2005.csv',
 2006: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2006.csv',
 2007: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2007.csv',
 2008: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2008.csv',
 2009: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2009.csv',
 2010: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2010.csv',
 2011: '/home/machado/documents/mestrado - FGV/Visualizacao da Informacao/Projeto/2011.csv',
 2012: '/home/machado/documents/mestrado - FGV/Visualizacao da Informa

Leitura e concatenação dos 12 datasets

In [49]:
df_csv = {}
frames = []
for i in range(2002, 2013):
    df_csv[i] = pd.read_csv(data_sources[i], encoding = "ISO-8859-1", sep=";")
    df_csv[i].columns = ["MUNICIPIO","DATA","FATO","QTDE"]
    frames.append(df_csv[i])    

indicativos = pd.concat(frames)

In [50]:
indicativos.head()

Unnamed: 0,MUNICIPIO,DATA,FATO,QTDE
0,ACEGUA,2002-04,Furtos,1
1,ACEGUA,2002-07,Furtos,1
2,ACEGUA,2002-09,Furtos,1
3,ACEGUA,2002-12,Furtos,2
4,AGUA SANTA,2002-01,Furtos,1


Somente duas linhas estão com dados incompletos

In [51]:
municipio_nan = np.where(indicativos['MUNICIPIO'].isnull())[0]
data_nan = np.where(indicativos['DATA'].isnull())[0]
fato_nan = np.where(indicativos['FATO'].isnull())[0]
qtde_nan = np.where(indicativos['QTDE'].isnull())[0]

municipio_nan, data_nan, fato_nan, qtde_nan

(array([186136, 186137]),
 array([186136, 186137]),
 array([186136, 186137]),
 array([], dtype=int64))

Remocao das linhas com dados incompletos

In [52]:
indicativos = indicativos[indicativos.MUNICIPIO.notnull()]

Criacao das colunas ANO e MES a partir da coluna DATA.

In [69]:
indicativos['ANO'] = indicativos.apply(lambda row: pd.to_datetime(row['DATA']).year,axis=1)
indicativos['MES'] = indicativos.apply(lambda row: pd.to_datetime(row['DATA']).month,axis=1)


In [70]:
indicativos.head()

Unnamed: 0,MUNICIPIO,DATA,FATO,QTDE,ANO,MES
0,ACEGUA,2002-04,Furtos,1,2002,4
1,ACEGUA,2002-07,Furtos,1,2002,7
2,ACEGUA,2002-09,Furtos,1,2002,9
3,ACEGUA,2002-12,Furtos,2,2002,12
4,AGUA SANTA,2002-01,Furtos,1,2002,1


Abaixo, o agrupamento exibe 497 municipios, o que mostra que o dataset contem todos os municipios do Rio Grande do Sul.

fonte: http://www.ibge.gov.br/estadosat/perfil.php?sigla=rs

In [112]:
df_municipios = indicativos.groupby(['MUNICIPIO'])
df_municipios.count()

Unnamed: 0_level_0,DATA,FATO,QTDE,ANO,MES
MUNICIPIO,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
ACEGUA,186,186,186,186,186
AGUA SANTA,192,192,192,192,192
AGUDO,412,412,412,412,412
AJURICABA,276,276,276,276,276
ALECRIM,249,249,249,249,249
ALEGRETE,943,943,943,943,943
ALEGRIA,197,197,197,197,197
ALMIRANTE TAMANDARE DO SUL,133,133,133,133,133
ALPESTRE,294,294,294,294,294
ALTO ALEGRE,110,110,110,110,110


In [114]:
indicativos.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 186136 entries, 0 to 24441
Data columns (total 6 columns):
MUNICIPIO    186136 non-null object
DATA         186136 non-null object
FATO         186136 non-null object
QTDE         186136 non-null int64
ANO          186136 non-null int64
MES          186136 non-null int64
dtypes: int64(3), object(3)
memory usage: 9.9+ MB


Discretizando os dados

In [116]:
indicativos.FATO.unique()

array(['Furtos', 'Furto de veículo', 'Estelionato', 'Roubo de veículo',
       'Homicídio', 'Roubos', 'Entorpecentes - Tráfico',
       'Entorpecentes - Posse', 'Extorsão', 'Latrocínio',
       'Extorsão mediante sequestro', 'Delitos relacionados à corrupçao',
       'Delitos relacionados a armas e muniçoes', 'Homicidio', 'Outros',
       'Delitos Relacionados à Armas e Munições', 'Furto de Veículo',
       'Homicídio Doloso', 'Delitos Relacionados à Corrupção',
       'Roubo de Veículo', 'Extorsão Mediante Sequestro',
       'Homicídio Doloso de Trânsito'], dtype=object)

In [None]:
crimes = ['furto', 'estelionato', 'roubo', 'homicidio', 'trafico de drogas', 'posse de drogas', 'extorsão']


In [139]:
indicativos.FATO[indicativos.FATO ==  'Furtos'] = 'furto'
indicativos.FATO[indicativos.FATO ==  'Furto de veículo'] = 'furto'
indicativos.FATO[indicativos.FATO ==  'Furto de Veículo'] = 'furto'

indicativos.FATO[indicativos.FATO ==  'Estelionato'] = 'estelionato'

indicativos.FATO[indicativos.FATO ==  'Roubo de veículo'] = 'roubo'
indicativos.FATO[indicativos.FATO ==  'Roubo de Veículo'] = 'roubo'
indicativos.FATO[indicativos.FATO ==  'Roubos'] = 'roubo'

indicativos.FATO[indicativos.FATO ==  'Homicídio'] = 'homicidio'
indicativos.FATO[indicativos.FATO ==  'Homicídio Doloso de Trânsito'] = 'homicidio'
indicativos.FATO[indicativos.FATO ==  'Homicídio Doloso'] = 'homicidio'
indicativos.FATO[indicativos.FATO ==  'Homicidio'] = 'homicidio'

indicativos.FATO[indicativos.FATO ==  'Entorpecentes - Tráfico'] = 'trafico de drogas'

indicativos.FATO[indicativos.FATO ==  'Entorpecentes - Posse'] = 'posse de drogas'

indicativos.FATO[indicativos.FATO ==  'Extorsão'] = 'extorsão'
indicativos.FATO[indicativos.FATO ==  'Extorsão Mediante Sequestro'] = 'extorsão'
indicativos.FATO[indicativos.FATO ==  'Extorsão mediante sequestro'] = 'extorsão'

indicativos.FATO[indicativos.FATO ==  'Latrocínio'] = 'latrocinio'

In [140]:
indicativos = indicativos[indicativos.FATO != 'Delitos relacionados à corrupçao' && indicativos.FATO != 'Delitos relacionados a armas e muniçoes' && 'Delitos relacionados a armas e muniçoes']

array(['furto', 'estelionato', 'roubo', 'homicidio', 'trafico de drogas',
       'posse de drogas', 'extorsão', 'latrocinio',
       'Delitos relacionados à corrupçao',
       'Delitos relacionados a armas e muniçoes', 'Outros',
       'Delitos Relacionados à Armas e Munições',
       'Delitos Relacionados à Corrupção'], dtype=object)