# Raspagem de dados da SSP/SP com Python, Selenium e Pandas 

## Criação do DataFrame de Produtividade Policial de Piracicaba/SP (2010 a 2021)

### José Eduardo de Souza Pimentel - 23 dez. 2021

In [1]:
import selenium
from selenium import webdriver
from selenium.webdriver.support.ui import Select

import time

import pandas as pd

In [2]:
sel_anos = ['2010', '2011', '2012', '2013', '2014', '2015', '2016', '2017', '2018', '2019', '2020', '2021']

sel_municipio = 'Piracicaba'

sel_delegacias = ['01 DP  - Piracicaba', '02 DP  - Piracicaba', '03 DP  - Piracicaba', '04 DP  - Piracicaba',
                  '05 DP  - Piracicaba', '06 DP  - Piracicaba', '07 DP  - Piracicaba', '1ª DIG', '2ª DISE',
                  '3ª DP Homicídios', 'DDM - Piracicaba', 'DIG - Piracicaba', 'DISE - Piracicaba', 'OUTRAS ESPECIALIZADAS']

In [3]:
navegador = webdriver.Chrome()
navegador.get('https://www.ssp.sp.gov.br/Estatistica/Pesquisa.aspx')

In [4]:
municipios = navegador.find_element_by_id('conteudo_ddlMunicipios')
Select(municipios).select_by_visible_text(sel_municipio)
time.sleep(0.5)

In [5]:
lista_resultados =[]
for ano in sel_anos:
    for delegacia in sel_delegacias:
        print (f'Pesquisando... ano: {ano} - DP: {delegacia}')
        try:
            anos = navegador.find_element_by_id('conteudo_ddlAnos')
            Select(anos).select_by_value(ano)
            time.sleep(0.5)    
            delegacias = navegador.find_element_by_id('conteudo_ddlDelegacias')
            Select(delegacias).select_by_visible_text(delegacia)
            time.sleep(0.5)
            resultado = navegador.find_element_by_xpath('//*[@id="conteudo_repAnos_divGrid_0"]')
            time.sleep(0.5)
            html = resultado.get_attribute('innerHTML')
            lista_df = pd.read_html(html, thousands='.') # lista de dataframes
            df = lista_df[0]
            df['Ano'] = ano
            df['Delegacia'] = delegacia
            lista_resultados.append(df)
        except:
            print (f'Erro em {ano}/{delegacia}')

Pesquisando... ano: 2010 - DP: 01 DP  - Piracicaba
Pesquisando... ano: 2010 - DP: 02 DP  - Piracicaba
Pesquisando... ano: 2010 - DP: 03 DP  - Piracicaba
Pesquisando... ano: 2010 - DP: 04 DP  - Piracicaba
Pesquisando... ano: 2010 - DP: 05 DP  - Piracicaba
Pesquisando... ano: 2010 - DP: 06 DP  - Piracicaba
Pesquisando... ano: 2010 - DP: 07 DP  - Piracicaba
Pesquisando... ano: 2010 - DP: 1ª DIG
Erro em 2010/1ª DIG
Pesquisando... ano: 2010 - DP: 2ª DISE
Erro em 2010/2ª DISE
Pesquisando... ano: 2010 - DP: 3ª DP Homicídios
Erro em 2010/3ª DP Homicídios
Pesquisando... ano: 2010 - DP: DDM - Piracicaba
Pesquisando... ano: 2010 - DP: DIG - Piracicaba
Pesquisando... ano: 2010 - DP: DISE - Piracicaba
Pesquisando... ano: 2010 - DP: OUTRAS ESPECIALIZADAS
Pesquisando... ano: 2011 - DP: 01 DP  - Piracicaba
Pesquisando... ano: 2011 - DP: 02 DP  - Piracicaba
Pesquisando... ano: 2011 - DP: 03 DP  - Piracicaba
Pesquisando... ano: 2011 - DP: 04 DP  - Piracicaba
Pesquisando... ano: 2011 - DP: 05 DP  - Pirac

Pesquisando... ano: 2021 - DP: 02 DP  - Piracicaba
Pesquisando... ano: 2021 - DP: 03 DP  - Piracicaba
Pesquisando... ano: 2021 - DP: 04 DP  - Piracicaba
Pesquisando... ano: 2021 - DP: 05 DP  - Piracicaba
Pesquisando... ano: 2021 - DP: 06 DP  - Piracicaba
Pesquisando... ano: 2021 - DP: 07 DP  - Piracicaba
Pesquisando... ano: 2021 - DP: 1ª DIG
Pesquisando... ano: 2021 - DP: 2ª DISE
Pesquisando... ano: 2021 - DP: 3ª DP Homicídios
Pesquisando... ano: 2021 - DP: DDM - Piracicaba
Pesquisando... ano: 2021 - DP: DIG - Piracicaba
Pesquisando... ano: 2021 - DP: DISE - Piracicaba
Pesquisando... ano: 2021 - DP: OUTRAS ESPECIALIZADAS


In [6]:
lista_resultados

[                                        Natureza  Jan  Fev  Mar  Abr  Mai  \
 0          OCORRÊNCIAS DE PORTE DE ENTORPECENTES    0    1    0    0    0   
 1        OCORRÊNCIAS DE TRÁFICO DE ENTORPECENTES    0    0    0    0    0   
 2   OCORRÊNCIAS DE APREENSÃO DE ENTORPECENTES(1)    0    0    0    0    0   
 3            OCORRÊNCIAS DE PORTE ILEGAL DE ARMA    0    1    1    1    1   
 4                Nº DE ARMAS DE FOGO APREENDIDAS    0    2    1    2    1   
 5                      Nº DE FLAGRANTES LAVRADOS    5   12   13   10    9   
 6      Nº DE INFRATORES APREENDIDOS EM FLAGRANTE    0    0    0    0    0   
 7       Nº DE INFRATORES APREENDIDOS POR MANDADO    0    0    0    0    0   
 8              Nº DE PESSOAS PRESAS EM FLAGRANTE    7   16   17   12   11   
 9               Nº DE PESSOAS PRESAS POR MANDADO    4    0    1    3    5   
 10                       Nº DE PRISÕES EFETUADAS    9   12   14   13   14   
 11                    Nº DE VEÍCULOS RECUPERADOS    3    3    2

In [7]:
len (lista_resultados)

138

In [8]:
total = pd.concat(lista_resultados)

In [9]:
total = total[['Ano', 'Delegacia','Natureza', 'Jan', 'Fev', 'Mar', 'Abr', 'Mai', 'Jun', 'Jul', 'Ago',
       'Set', 'Out', 'Nov', 'Dez', 'Total']]
total.reset_index(drop=True, inplace=True)

In [10]:
display(total)

Unnamed: 0,Ano,Delegacia,Natureza,Jan,Fev,Mar,Abr,Mai,Jun,Jul,Ago,Set,Out,Nov,Dez,Total
0,2010,01 DP - Piracicaba,OCORRÊNCIAS DE PORTE DE ENTORPECENTES,0,1,0,0,0,0,0,0,0,0,0,0.0,1
1,2010,01 DP - Piracicaba,OCORRÊNCIAS DE TRÁFICO DE ENTORPECENTES,0,0,0,0,0,0,0,0,0,0,0,0.0,0
2,2010,01 DP - Piracicaba,OCORRÊNCIAS DE APREENSÃO DE ENTORPECENTES(1),0,0,0,0,0,0,0,0,0,0,0,0.0,0
3,2010,01 DP - Piracicaba,OCORRÊNCIAS DE PORTE ILEGAL DE ARMA,0,1,1,1,1,0,0,2,1,1,0,0.0,8
4,2010,01 DP - Piracicaba,Nº DE ARMAS DE FOGO APREENDIDAS,0,2,1,2,1,0,0,3,2,1,1,1.0,14
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1789,2021,OUTRAS ESPECIALIZADAS,Nº DE PESSOAS PRESAS EM FLAGRANTE,11,15,13,16,25,23,18,13,21,26,19,,200
1790,2021,OUTRAS ESPECIALIZADAS,Nº DE PESSOAS PRESAS POR MANDADO,4,19,7,4,8,17,10,13,9,7,5,,103
1791,2021,OUTRAS ESPECIALIZADAS,Nº DE PRISÕES EFETUADAS,15,33,20,20,30,40,26,26,24,33,24,,291
1792,2021,OUTRAS ESPECIALIZADAS,Nº DE VEÍCULOS RECUPERADOS,0,0,1,6,3,0,6,1,3,0,0,,20


In [11]:
total.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1794 entries, 0 to 1793
Data columns (total 16 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   Ano        1794 non-null   object 
 1   Delegacia  1794 non-null   object 
 2   Natureza   1794 non-null   object 
 3   Jan        1794 non-null   int64  
 4   Fev        1794 non-null   int64  
 5   Mar        1794 non-null   int64  
 6   Abr        1794 non-null   int64  
 7   Mai        1794 non-null   int64  
 8   Jun        1794 non-null   int64  
 9   Jul        1794 non-null   int64  
 10  Ago        1794 non-null   int64  
 11  Set        1794 non-null   int64  
 12  Out        1794 non-null   int64  
 13  Nov        1794 non-null   int64  
 14  Dez        1612 non-null   float64
 15  Total      1794 non-null   int64  
dtypes: float64(1), int64(12), object(3)
memory usage: 224.4+ KB


In [12]:
total.to_csv('produtividade_policial_piracicaba_2010_2021.csv')