In [1]:
import numpy as np
import pandas as pd
from datetime import datetime
import re

In [2]:
from bs4 import BeautifulSoup
from selenium import webdriver
options = webdriver.ChromeOptions()
options.add_argument('headless')
options.add_argument('window-size=1920x1080')
driver = webdriver.Chrome(chrome_options=options)

In [3]:
data = datetime.now()
data

datetime.datetime(2019, 3, 8, 11, 13, 26, 366316)

In [4]:
writer = pd.ExcelWriter('SAP_{}-{}-{}.xlsx'.format(data.day,data.month,data.year), engine='xlsxwriter')

# CPP

In [5]:
driver.get("http://www.sap.sp.gov.br/uni-prisionais/cpp.html")

In [6]:
page = BeautifulSoup(driver.page_source, 'html.parser')

In [7]:
# Setor onde se localizam os dados

cpp = page.find_all('div', class_ = 'f-out')

In [8]:
# Criando o dicionário da base de dados

bd_dic = {}

In [9]:
# Criando a variável dos nomes

bd_dic['NOME'] = []

In [10]:
# Extraindo o nome dos presídios e colocando no dicionário

for penitenciária in list(tag for tag in cpp):
    bd_dic['NOME'].append(penitenciária.find('h3').get_text().strip())
    
bd_dic['NOME']

['CPP I "Dr. Alberto Brocchieri" de Bauru',
 'CPP II "Dr. Eduardo de Oliveira Vianna" de Bauru',
 'CPP "Professor Ataliba Nogueira" de Campinas',
 'CPP de Franco da Rocha',
 'CPP de Hortolândia',
 'CPP "Dr Rubens Aleixo Sendin" de Mongaguá',
 'CPP de Pacaembu',
 'CPP "Dr Javert de Andrade" de São José do Rio Preto',
 'CPP Feminino "Dra. Marina Marigo Cardoso de Oliveira" de Butantan',
 'CPP Feminino de São Miguel Paulista',
 'CPP "Dr Edgar Magalhães Noronha" de Tremembé',
 'CPP de Valparaíso',
 'CPP III "Prof. Noé Azevedo" de Bauru',
 'CPP de Jardinópolis',
 'CPP de Porto Feliz']

In [11]:
# Criando a variável das Coordenadorias

bd_dic['COO'] = []

In [12]:
# Extraindo o nome das coordenadorias e colocando no dicionário

for penitenciária in  [tag for tag in cpp]:
    bd_dic['COO'].append(penitenciária.find('h4').get_text().strip())

bd_dic['COO']

['Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Região Central',
 'Coordenadoria do Vale do Paraíba e Litoral',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria do Vale do Paraíba e Litoral',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central']

In [13]:
bd_dic['CAP'] = []

for penitenciária in [tag for tag in cpp]:
    m = re.search(r"Capacidade:.+\>(\d+).+População", str(penitenciária))
    bd_dic['CAP'].append(m.group(1))
    
bd_dic['CAP']

['1710',
 '1706',
 '2058',
 '1738',
 '1125',
 '1640',
 '686',
 '1079',
 '1028',
 '152',
 '2672',
 '691',
 '1124',
 '1080',
 '1080']

In [14]:
bd_dic['POP'] = []

for penitenciária in [tag for tag in cpp]:
    m = re.search(r"População:.+\>(\d+)\<br\/\>", str(penitenciária))
    bd_dic['POP'].append(m.group(1))
    
bd_dic['POP']

['2528',
 '2611',
 '2314',
 '2289',
 '1932',
 '2811',
 '1719',
 '1956',
 '1008',
 '149',
 '3016',
 '1805',
 '488',
 '1782',
 '1856']

In [15]:
bd = pd.DataFrame(bd_dic, index=np.array(range(1,len(cpp)+1)), columns = ['NOME', 'COO', 'CAP', 'POP'])

In [16]:
bd.to_excel(writer, 'CPP')

# CDP

In [17]:
driver.get("http://www.sap.sp.gov.br/uni-prisionais/cdp.html")

In [18]:
page = BeautifulSoup(driver.page_source, 'html.parser')

In [19]:
# Setor onde se localizam os dados

cdp = page.find_all('div', class_ = 'f-out')

In [20]:
len(cdp)

44

In [21]:
# Criando o dicionário da base de dados

bd_dic = {}

In [22]:
# Criando a variável dos nomes

bd_dic['NOME'] = []

In [23]:
# Extraindo o nome dos presídios e colocando no dicionário

for penitenciária in list(tag for tag in cdp):
    bd_dic['NOME'].append(penitenciária.find('h3').get_text().strip())
    
bd_dic['NOME']

['CDP "AEVP Renato Gonçalves Rodrigues" de Americana',
 'CDP "ASP Francisco Carlos Caneschi" de Bauru',
 'CDP "Tácio Aparecido Santana"  de Caiuá',
 'CDP de Campinas',
 'CDP "Dr. José Eduardo Mariz de Oliveira" de Caraguatatuba',
 'CDP de Diadema',
 'CDP Feminino de Franco da Rocha',
 'CDP I "ASP Giovani Martins Rodrigues" de Guarulhos',
 'CDP II de Guarulhos',
 'CDP de Hortolândia',
 'CDP "ASP Nilton Celestino" de Itapecerica da Serra',
 'CDP "Marcos Antônio Alves Bezerra" de Jundiaí',
 'CDP de Mauá',
 'CDP de Mogi das Cruzes',
 'CDP I "ASP Ederson Vieira de Jesus" de Osasco',
 'CDP II "ASP Vanda Rita Brito do Rego" de Osasco',
 'CDP "Nelson Furlan" de Piracicaba',
 'CDP "ASP Charles Demitre Teixeira" de Praia Grande',
 'CDP de Ribeirão Preto',
 'CDP de Santo André',
 'CDP "Dr. Calixto Antonio" de São Bernardo do Campo',
 'CDP de São José do Rio Preto',
 'CDP de São José dos Campos',
 'CDP I "ASP Vicente Luzan da Silva" de Pinheiros',
 'CDP II "ASP Willians Nogueira Benjamin" de Pinhe

In [24]:
# Criando a variável das Coordenadorias

bd_dic['COO'] = []

In [25]:
# Extraindo o nome das coordenadorias e colocando no dicionário

for penitenciária in  [tag for tag in cdp]:
    bd_dic['COO'].append(penitenciária.find('h4').get_text().strip())

bd_dic['COO']

['Coordenadoria da Região Central',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Central',
 'Coordenadoria do Vale do Paraíba e Litoral',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Região Central',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Região Central',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria do Vale do Paraíba e Litoral',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Região Central',
 'Coordenadoria do Vale do Paraíba e Litoral',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Região Oeste',
 'Coordenadoria do Vale do Paraíba e Litoral',
 'Coordena

In [26]:
bd_dic['CAP'] = []

In [27]:
for penitenciária in [tag for tag in cdp]:
    try:
        m = re.search(r'Capacidade:.+\>(\d+).+População', str(penitenciária))
        bd_dic['CAP'].append(m.group(1))
    except:
        bd_dic['CAP'].append(np.nan)
bd_dic['CAP']

['640',
 '844',
 '844',
 '822',
 '847',
 '613',
 '1008',
 '844',
 '841',
 '844',
 '845',
 '847',
 '626',
 '844',
 '833',
 '833',
 '514',
 '564',
 '586',
 '534',
 '844',
 '844',
 '525',
 '521',
 '793',
 '572',
 '566',
 '822',
 '853',
 '844',
 '842',
 '856',
 '707',
 '844',
 '844',
 '847',
 '847',
 '847',
 '847',
 '847',
 '847',
 '847',
 '823',
 '822']

In [28]:
bd_dic['POP'] = []

In [29]:
for penitenciária in [tag for tag in cdp]:
    try:
        m = re.search(r'População:.+\>(\d+)\<', str(penitenciária))
        bd_dic['POP'].append(m.group(1))
    except:
        bd_dic['POP'].append(np.nan)
bd_dic['POP']

['1394',
 '1287',
 '861',
 '1390',
 '1361',
 '1467',
 '946',
 '1698',
 '1407',
 '1454',
 '1099',
 '1595',
 '1333',
 '1577',
 '1619',
 '1633',
 '1222',
 '1227',
 '766',
 '1247',
 '1644',
 '952',
 '879',
 '1610',
 '1529',
 '1678',
 '420',
 '1576',
 '1425',
 '1615',
 '1624',
 '263',
 '1388',
 '1369',
 '1506',
 '1102',
 '1121',
 '1051',
 '1483',
 '778',
 '879',
 '1159',
 '1289',
 '876']

In [30]:
bd_dic['APP_CAP'] = []

In [31]:
for penitenciária in [tag for tag in cdp]:
    try:
        m = re.findall(r'Capacidade:.+\>(\d+).+População', str(penitenciária))
        bd_dic['APP_CAP'].append(m[1])
    except:
        bd_dic['APP_CAP'].append(np.nan)
bd_dic['APP_CAP']

[nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '6',
 nan,
 nan,
 nan,
 nan,
 nan,
 '60',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '110',
 '110',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan]

In [32]:
bd_dic['APP_POP'] = []

In [33]:
for penitenciária in [tag for tag in cdp]:
    try:
        m = re.findall(r'População:.+\>(\d+)\<', str(penitenciária))
        bd_dic['APP_POP'].append(m[1])
    except:
        bd_dic['APP_POP'].append(np.nan)
bd_dic['APP_POP']

[nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '4',
 nan,
 nan,
 nan,
 nan,
 nan,
 '49',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '355',
 '293',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan]

In [34]:
bd = pd.DataFrame(bd_dic, index=np.array(range(1,len(cdp)+1)), columns = ['NOME', 'COO', 'CAP', 'POP', 'APP_CAP', 'APP_POP'])

In [35]:
bd.to_excel(writer, 'CDP')

# CR

In [64]:
driver.get("http://www.sap.sp.gov.br/uni-prisionais/cr.html#")

In [65]:
page = BeautifulSoup(driver.page_source, 'html.parser')

In [66]:
# Setor onde se localizam os dados

cr = page.find_all('div', class_ = 'f-out')

In [67]:
len(cr)

22

In [68]:
cr[14]

<div class="f-out" id="dados-uni61">
<h3>CR de Ourinhos</h3>
<h4>Coordenadoria da Região Noroeste</h4>
<p class="dados">
<span class="cor-dados">Endereço: </span>	Av. Jacinto Ferreira de Sá, 21 - Centro <br/>
<span class="cor-dados">CEP: </span> 19911-720 - Ourinhos  - SP<br/>
<span class="cor-dados">E-mail: </span><a class="inline" href="mailto:crourinhos@sap.sp.gov.br">crourinhos@sap.sp.gov.br</a> <br/>
<span class="cor-dados">Fone: </span>(14) 3324-6605  <span class="cor-dados">Fax: </span>(14) 3325-1896
                <span class="cor-ult"><script type="text/javascript">document.write(data);</script><b>População prisional</b> - data: 20/nov</span><span class="cor-dados"><br/> 
               Capacidade: </span> <script type="text/javascript">document.write(capcrouri);</script>83   <span class="cor-dados">População: </span> <script type="text/javascript">document.write(crouri);</script>65<br/>
<span class="cor-ala">Anexo de regime semiaberto</span> <br/>
<span class="cor-dados"> Ca

In [69]:
# Criando o dicionário da base de dados

bd_dic = {}

In [70]:
# Criando a variável dos nomes

bd_dic['NOME'] = []

In [71]:
# Extraindo o nome dos presídios e colocando no dicionário

for penitenciária in list(tag for tag in cr):
    bd_dic['NOME'].append(penitenciária.find('h3').get_text().strip())
    
bd_dic['NOME']

['CR de Araçatuba',
 'CR de Araraquara',
 'CR Feminino de Araraquara',
 'CR de Atibaia',
 'CR "Dr. Mauro de Macedo" de Avaré',
 'CR de Birigui',
 'CR de Bragança Paulista',
 'CR de Itapetininga',
 'CR "Dr. João Eduardo Franco Perlati" de Jaú',
 'CR de Limeira',
 'CR "Dr. Manoel Carlos Muniz" de Lins',
 'CR de Marília',
 'CR de Mococa',
 'CR "Prefeito João Missaglia" de Mogi Mirim',
 'CR de Ourinhos',
 'CR Feminino "Carlos Sidnes de Souza Cantarelli" de Piracicaba',
 'CR de Presidente Prudente',
 'CR Feminino de  Rio Claro',
 'CR "Dr. Luis Gonzaga de Arruda Campos" de  Rio Claro',
 'CR Feminino de São José do Rio Preto',
 'CR Feminino  de São José dos Campos',
 'CR de Sumaré']

In [72]:
# Criando a variável das Coordenadorias

bd_dic['COO'] = []

In [73]:
# Extraindo o nome das coordenadorias e colocando no dicionário

for penitenciária in  [tag for tag in cr]:
    bd_dic['COO'].append(penitenciária.find('h4').get_text().strip())

bd_dic['COO']

['Coordenadoria da Região Oeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Oeste',
 'Coordenadoria do Vale do Paraíba e Litoral',
 'Coordenadoria da Região Central']

In [74]:
bd_dic['CAP'] = []

In [75]:
for penitenciária in [tag for tag in cr]:
    try:
        m = re.search(r'data:.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP'].append(m.group(1))
    except:
        bd_dic['CAP'].append(np.nan)
        
bd_dic['CAP']

['142',
 '146',
 '64',
 '204',
 '179',
 '153',
 '187',
 '214',
 '179',
 '144',
 '179',
 '214',
 '214',
 nan,
 '83',
 '129',
 '142',
 '80',
 '146',
 '142',
 '108',
 nan]

In [76]:
bd_dic['POP'] = []

In [77]:
for penitenciária in [tag for tag in cr]:
    try:
        m = re.search(r'data:.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP'].append(m.group(1))
    except:
        bd_dic['POP'].append(np.nan)
bd_dic['POP']

['127',
 '90',
 '65',
 '203',
 '144',
 '144',
 '180',
 '239',
 '143',
 '151',
 '160',
 '208',
 '201',
 nan,
 '65',
 '125',
 '124',
 '64',
 '138',
 '130',
 '98',
 nan]

In [78]:
bd_dic['ARSA_CAP'] = []

In [79]:
for penitenciária in [tag for tag in cr]:
    try:
        m = re.search(r'Anexo de regime semiaberto.+\s.+Capacidade.+>(\d+).+População', str(penitenciária))
        bd_dic['ARSA_CAP'].append(m.group(1))
    except:
        bd_dic['ARSA_CAP'].append(np.nan)
bd_dic['ARSA_CAP']

['72',
 '70',
 '32',
 nan,
 '35',
 '72',
 '72',
 nan,
 '35',
 '70',
 '35',
 nan,
 nan,
 '214',
 '40',
 nan,
 '72',
 '40',
 '70',
 '54',
 '75',
 '223']

In [80]:
bd_dic['ARSA_POP'] = []

In [81]:
for penitenciária in [tag for tag in cr]:
    try:
        m = re.search(r'Anexo de regime semiaberto.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['ARSA_POP'].append(m.group(1))
    except:
        bd_dic['ARSA_POP'].append(np.nan)
bd_dic['ARSA_POP']

['68',
 '126',
 '35',
 nan,
 '79',
 '94',
 '80',
 nan,
 '72',
 '61',
 '55',
 nan,
 nan,
 '215',
 '67',
 nan,
 '79',
 '52',
 '84',
 '59',
 '75',
 '237']

In [82]:
bd = pd.DataFrame(bd_dic, index=np.array(range(1,len(cr)+1)), columns = ['NOME', 'COO', 'CAP', 'POP', 'ARSA_CAP', 'ARSA_POP'])

In [83]:
bd.to_excel(writer, 'CR')

# RDD

In [84]:
driver.get("http://www.sap.sp.gov.br/uni-prisionais/usm.html#")

In [85]:
page = BeautifulSoup(driver.page_source, 'html.parser')

In [86]:
# Setor onde se localizam os dados

rdd = page.find_all('div', class_ = 'f-out')

In [87]:
len(rdd)

1

In [88]:
rdd[0]

<div class="f-out" id="dados-uni46">
<h3>Centro de Readaptação Penitenciária "Dr. José Ismael Pedrosa" de Presidente Bernardes<br/> (M e F)</h3>
<h4>Coordenadoria da Região Oeste</h4>
<p class="dados">
<span class="cor-dados">Endereço:</span>	Rod. Raposo Tavares, km 586<br/>
<span class="cor-dados">CEP: </span> 19300-000 - Caixa Postal 81 - Presidente Bernardes - SP<br/>
<span class="cor-dados">E-mail: </span><a class="inline" href="mailto:lcorlando@sp.gov.br">lcorlando@sp.gov.br</a> <br/>
<span class="cor-dados">Fone: </span>(18) 3262-6669  <span class="cor-dados">Fax: </span> (18) 3262-6669 r 110<br/>
<span class="cor-ult"><script type="text/javascript">document.write(data);</script><b>População prisional</b> - data: 20/nov</span><br/>
<span class="cor-ala">Masculino</span> <br/>
<span class="cor-dados">Capacidade: </span> <script type="text/javascript">document.write(capcrppber);</script>145   <span class="cor-dados">População: </span> <script type="text/javascript">document.write(c

In [89]:
# Criando o dicionário da base de dados

bd_dic = {}

In [90]:
# Criando a variável dos nomes

bd_dic['NOME'] = []

In [91]:
# Extraindo o nome dos presídios e colocando no dicionário

for penitenciária in list(tag for tag in rdd):
    bd_dic['NOME'].append(penitenciária.find('h3').get_text().strip())
    
bd_dic['NOME']

['Centro de Readaptação Penitenciária "Dr. José Ismael Pedrosa" de Presidente Bernardes (M e F)']

In [92]:
# Criando a variável das Coordenadorias

bd_dic['COO'] = []

In [93]:
# Extraindo o nome das coordenadorias e colocando no dicionário

for penitenciária in  [tag for tag in rdd]:
    bd_dic['COO'].append(penitenciária.find('h4').get_text().strip())

bd_dic['COO']

['Coordenadoria da Região Oeste']

In [94]:
bd_dic['CAP_M'] = []

In [95]:
for penitenciária in [tag for tag in rdd]:
    m = re.search(r'Masculino.+\n.+\>(\d+).+População', str(penitenciária))
    bd_dic['CAP_M'].append(m.group(1))
bd_dic['CAP_M']

['145']

In [96]:
bd_dic['POP_M'] = []

In [97]:
for penitenciária in [tag for tag in rdd]:
    m = re.search(r'Masculino.+\n.+Capacidade:.+\>(\d+)', str(penitenciária))
    bd_dic['POP_M'].append(m.group(1))
    
bd_dic['POP_M']

['84']

In [98]:
bd_dic['CAP_F'] = []

In [99]:
for penitenciária in [tag for tag in rdd]:
    m = re.search(r'Feminino.+\n.+\>(\d+).+População', str(penitenciária))
    bd_dic['CAP_F'].append(m.group(1))
bd_dic['CAP_F']

['40']

In [100]:
bd_dic['POP_F'] = []

In [101]:
for penitenciária in [tag for tag in rdd]:
    m = re.search(r'Feminino.+\n.+Capacidade:.+\>(\d+)', str(penitenciária))
    bd_dic['POP_F'].append(m.group(1))
    
bd_dic['POP_F']

['1']

In [102]:
bd = pd.DataFrame(bd_dic, index=np.array(range(1,len(rdd)+1)), columns = ['NOME', 'COO', 'CAP_M', 'POP_M', 'CAP_F', 'POP_F'])
len(bd)

1

In [103]:
bd.to_excel(writer, 'RDD')

# PEN

In [104]:
driver.get("http://www.sap.sp.gov.br/uni-prisionais/pen.html#")

In [105]:
page = BeautifulSoup(driver.page_source, 'html.parser')

In [106]:
# Setor onde se localizam os dados

pen = page.find_all('div', class_ = 'f-out')

In [107]:
len(pen)

86

In [108]:
pen[36]

<div class="f-out" id="dados-uni107">
<h3>	Penit. de Lucélia</h3>
<h4>Coordenadoria da Região Oeste</h4>
<p class="dados">
<span class="cor-dados">Endereço: </span>Estrada Vicinal Paschoal Milton Lentini Km 12 - Bairro União<br/>
<span class="cor-dados">CEP: </span> 17780-000 - Caixa Postal 91  - Lucélia - SP<br/>
<span class="cor-dados">E-mail: </span><a class="inline" href="mailto:penitenciaria@penitlucelia.sap.sp.gov.br">penitenciaria@penitlucelia.sap.sp.gov.br</a> <br/>
<span class="cor-dados">Fone: </span>(18) 3551-3000  <span class="cor-dados">Fax: </span>(18) 3551-3309<br/>
<span class="cor-ult"><script type="text/javascript">document.write(data);</script><b>População prisional</b> - data: 20/nov</span><br/>
<span class="cor-dados">Capacidade: </span> <script type="text/javascript">document.write(cappenluci);</script>1440   <span class="cor-dados">População: </span> <script type="text/javascript">document.write(penluci);</script>0<br/>
<span class="cor-ala">Ala de Progressão Pen

In [109]:
# Criando o dicionário da base de dados

bd_dic = {}

In [110]:
# Criando a variável dos nomes

bd_dic['NOME'] = []

In [111]:
# Extraindo o nome dos presídios e colocando no dicionário

for penitenciária in list(tag for tag in pen):
    bd_dic['NOME'].append(penitenciária.find('h3').get_text().strip())
    
bd_dic['NOME']

['Penit. "Valentim Alves da Silva" de Álvaro de Carvalho',
 'Penit. de Andradina',
 'Penit. "Dr. Sebastião Martins Silveira" de Araraquara',
 'Penit. de Assis',
 'Penit. de Avanhandava',
 'Penit. I "Dr. Paulo Luciano Campos" de Avaré',
 'Penit. II "Nelson Marcondes do Amaral" de Avaré',
 'Penit. I "Rodrigo dos Santos Freitas" de Balbinos',
 'Penit. II "Gilmar Monteiro de Souza" de Balbinos',
 'Penit. Feminina de Campinas',
 'Penit. "Joaquim de Sylos Cintra" de Casa Branca',
 'Penit. "Asp Adriano Aparecido de Pieri" de Dracena',
 'Penit. de Flórida Paulista',
 'Penit. de Franca',
 'Penit. I "Mário Moura Albuquerque" de Franco da Rocha',
 'Penit. II "Nilton Silva" de Franco da Rocha',
 'Penit. III  "José Aparecido Ribeiro" de Franco da Rocha',
 'Penit. "Osiris Souza e Silva" de Getulina',
 'Penit. I "Nelson Vieira" de Guareí',
 'Penit. II de Guareí',
 'Penit. I "José Parada Neto" de Guarulhos',
 'Penit. II "Desembargador Adriano Marrey" de Guarulhos',
 'Penit. II "Odete Leite de Campos C

In [112]:
# Criando a variável das Coordenadorias

bd_dic['COO'] = []

In [113]:
# Extraindo o nome das coordenadorias e colocando no dicionário

for penitenciária in  [tag for tag in pen]:
    bd_dic['COO'].append(penitenciária.find('h4').get_text().strip())

bd_dic['COO']

['Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Oeste',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Central',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Capital e Grande São Paulo',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Central',
 'Coordenadoria da Região Noroeste',
 'Coordenadoria da Região Central',
 '

In [114]:
bd_dic['CAP'] = []

In [115]:
for penitenciária in [tag for tag in pen]:
    m = re.search(r'data:.+\s+.+Capacidade:.+>(\d+).+População', str(penitenciária))
    bd_dic['CAP'].append(m.group(1))

bd_dic['CAP']

['873',
 '875',
 '1061',
 '829',
 '844',
 '882',
 '918',
 '844',
 '844',
 '556',
 '926',
 '844',
 '844',
 '847',
 '914',
 '921',
 '1018',
 '857',
 '844',
 '844',
 '881',
 '1268',
 '855',
 '700',
 '1269',
 '1286',
 '844',
 '1294',
 '839',
 '834',
 '316',
 '1280',
 '873',
 '844',
 '844',
 '844',
 '1440',
 '844',
 '622',
 '872',
 '1244',
 '1247',
 '844',
 '873',
 '844',
 '550',
 '1310',
 '844',
 '844',
 '844',
 '1247',
 '696',
 '781',
 '1280',
 '844',
 '844',
 '865',
 '303',
 '865',
 '606',
 '938',
 '2696',
 '345',
 '862',
 '853',
 '856',
 '281',
 '757',
 '227',
 '796',
 '1258',
 '408',
 '844',
 '718',
 '873',
 '718',
 '847',
 '847',
 '847',
 '847',
 '847',
 '741',
 '847',
 '847',
 '734',
 '744']

In [116]:
bd_dic['POP'] = []

In [117]:
for penitenciária in [tag for tag in pen]:
    m = re.search(r'data:.+\s+.+População.+>(\d+)', str(penitenciária))
    bd_dic['POP'].append(m.group(1))

bd_dic['POP']

['1613',
 '1343',
 '1034',
 '492',
 '1449',
 '406',
 '1140',
 '1435',
 '1786',
 '458',
 '1802',
 '1600',
 '1924',
 '1961',
 '1953',
 '1847',
 '1860',
 '1815',
 '1794',
 '1952',
 '2281',
 '2070',
 '1673',
 '1455',
 '2220',
 '2213',
 '1986',
 '1076',
 '1797',
 '1783',
 '772',
 '2389',
 '2148',
 '2040',
 '2099',
 '2130',
 '0',
 '1814',
 '1323',
 '2126',
 '2299',
 '2231',
 '1825',
 '2134',
 '1556',
 '1255',
 '2036',
 '1890',
 '1872',
 '1920',
 '2222',
 '1312',
 '833',
 '801',
 '1310',
 '1611',
 '1910',
 '78',
 '1808',
 '513',
 '1583',
 '2029',
 '544',
 '1566',
 '1901',
 '1899',
 '678',
 '2053',
 '276',
 '643',
 '1879',
 '367',
 '1861',
 '681',
 '1919',
 '641',
 '1802',
 '1855',
 '1702',
 '1666',
 '1544',
 '655',
 '1733',
 '1741',
 '560',
 '677']

In [118]:
bd_dic['TIPO_A'] = []

In [119]:
for penitenciária in [tag for tag in pen]:
    try:
        m = re.search(r'cor-ala.+>(.+)<\/', str(penitenciária))
        bd_dic['TIPO_A'].append(m.group(1))
    except:
        bd_dic['TIPO_A'].append(np.nan)
bd_dic['TIPO_A']

['Ala de Progressão Penitenciária',
 nan,
 'Ala de Progressão Penitenciária',
 'Anexo de Detenção Provisória',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 'Ala de Progressão Penitenciária',
 nan,
 nan,
 nan,
 'Ala de Progressão Penitenciária',
 nan,
 nan,
 nan,
 nan,
 nan,
 'Anexo de regime semiaberto',
 nan,
 nan,
 nan,
 'Ala de Progressão Penitenciária',
 'Anexo de Detenção Provisória',
 nan,
 'Ala de Progressão Penitenciária',
 'Ala de Progressão Penitenciária',
 'Ala de Progressão Penitenciária',
 'Anexo de regime semiaberto',
 'Ala de Progressão Penitenciária',
 nan,
 nan,
 nan,
 nan,
 'Ala de Progressão Penitenciária',
 nan,
 'Anexo de regime semiaberto',
 nan,
 'Anexo de regime semiaberto',
 nan,
 nan,
 nan,
 nan,
 nan,
 'Ala de Progressão Penitenciária',
 nan,
 'Ala de Progressão Penitenciária',
 nan,
 'Ala de Progressão Penitenciária',
 'Anexo de regime semiaberto',
 'Ala de Progressão Penitenciária',
 nan,
 nan,
 nan,
 'Ala de Progressão Penitenciária',
 'Ala de Progressão Penitenci

In [120]:
bd_dic['CAP_A'] = []

In [121]:
for penitenciária in [tag for tag in pen]:
    try:
        m = re.search(r'cor-ala.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP_A'].append(m.group(1))
    except:
        bd_dic['CAP_A'].append(np.nan)
bd_dic['CAP_A']

['222',
 nan,
 '496',
 '288',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '108',
 nan,
 nan,
 nan,
 nan,
 nan,
 '254',
 nan,
 nan,
 nan,
 '342',
 '344',
 nan,
 '324',
 '204',
 '204',
 '222',
 '108',
 nan,
 nan,
 nan,
 nan,
 '110',
 nan,
 '570',
 nan,
 '516',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '204',
 nan,
 '204',
 '247',
 '112',
 nan,
 nan,
 nan,
 '108',
 '102',
 nan,
 nan,
 nan,
 nan,
 '582',
 '204',
 nan,
 nan,
 '291',
 '178',
 '78',
 '112',
 '204',
 '200',
 nan,
 '72',
 nan,
 '108',
 nan,
 nan,
 nan,
 nan,
 nan,
 '108',
 nan,
 nan,
 '108',
 '108']

In [122]:
bd_dic['POP_A'] = []

In [123]:
for penitenciária in [tag for tag in pen]:
    try:
        m = re.search(r'cor-ala.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_A'].append(m.group(1))
    except:
        bd_dic['POP_A'].append(np.nan)
bd_dic['POP_A']

['226',
 nan,
 '612',
 '279',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '279',
 nan,
 nan,
 nan,
 nan,
 nan,
 '324',
 nan,
 nan,
 nan,
 '573',
 '342',
 nan,
 '230',
 '262',
 '227',
 '242',
 '267',
 nan,
 nan,
 nan,
 nan,
 '111',
 nan,
 '564',
 nan,
 '789',
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 nan,
 '30',
 nan,
 '217',
 '655',
 '102',
 nan,
 nan,
 nan,
 '158',
 '54',
 nan,
 nan,
 nan,
 nan,
 '815',
 '224',
 nan,
 nan,
 '466',
 '329',
 '84',
 '156',
 '194',
 '144',
 nan,
 '97',
 nan,
 '161',
 nan,
 nan,
 nan,
 nan,
 nan,
 '192',
 nan,
 nan,
 '168',
 '157']

In [124]:
bd = pd.DataFrame(bd_dic, index=np.array(range(1,len(pen)+1)), columns = ['NOME', 'COO', 'CAP', 'POP', 'TIPO_A', 'CAP_A', 'POP_A'])
len(bd)

86

In [125]:
bd.to_excel(writer, 'PEN')

# HOS

In [126]:
driver.get("http://www.sap.sp.gov.br/uni-prisionais/hos.html#")

In [127]:
page = BeautifulSoup(driver.page_source, 'html.parser')

In [128]:
# Setor onde se localizam os dados

hos = page.find_all('div', class_ = 'f-out')

In [129]:
len(hos)

4

In [130]:
hos[2]

<div class="f-out" id="dados-uni148">
<h3>Centro Hospitalar do Sistema Penitenciário <br/>(M e F)</h3>
<h4>Secretaria de Estado de Saúde - Irmandade da Santa Casa de Misericórdia SP</h4>
<p class="dados">
<span class="cor-dados">Endereço: </span>Rua Don José Mauricio, 15 - Carandiru<br/>
<span class="cor-dados">CEP: </span> 02028-000 - São Paulo  - SP<br/>
<span class="cor-dados">E-mail: </span><a class="inline" href="mailto:dg_chsp@sap.sp.gov.br">dg_chsp@sap.sp.gov.br</a> <br/>
<span class="cor-dados">Fone: </span>(11) 3581-3700   <span class="cor-dados">Fax: </span>(11) 3581-3700<br/>
<!--        <span class="cor-ult"><script type="text/javascript">document.write(data);</script></span><br /> 
        <span class="cor-ala">Hospital Masculino</span>	<br />                 
      <span class="cor-dados">Capacidade: </span> 272 &nbsp; <span class="cor-dados">População: </span> <script type="text/javascript">document.write(cschcar);</script><br />             
                            

In [131]:
# Criando o dicionário da base de dados

bd_dic = {}

In [132]:
# Criando a variável dos nomes

bd_dic['NOME'] = []

In [133]:
# Extraindo o nome dos presídios e colocando no dicionário

for penitenciária in list(tag for tag in hos):
    bd_dic['NOME'].append(penitenciária.find('h3').get_text().strip())
    
bd_dic['NOME']

['Hospital de Custódia e Tratamento Psiquiátrico "Professor André Teixeira Lima" I (M e F)',
 'Hospital de Custódia e Tratamento Psiquiátrico II de Franco da Rocha (M e F)',
 'Centro Hospitalar do Sistema Penitenciário (M e F)',
 'Hospital de Custódia e Tratamento Psiquiátrico "Dr. Arnaldo Amado Ferreira" de Taubaté']

In [134]:
# Criando a variável das Coordenadorias

bd_dic['COO'] = []

In [135]:
# Extraindo o nome das coordenadorias e colocando no dicionário

for penitenciária in  [tag for tag in hos]:
    bd_dic['COO'].append(penitenciária.find('h4').get_text().strip())

bd_dic['COO']

['Coordenadoria de Saúde',
 'Coordenadoria de Saúde',
 'Secretaria de Estado de Saúde - Irmandade da Santa Casa de Misericórdia SP',
 'Coordenadoria de Saúde']

In [136]:
bd_dic['CAP'] = []

In [137]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'População prisional.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP'].append(m.group(1))
    except:
        bd_dic['CAP'].append(np.nan)
bd_dic['CAP']

[nan, nan, nan, '244']

In [138]:
bd_dic['POP'] = []

In [139]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'População prisional.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP'].append(m.group(1))
    except:
        bd_dic['POP'].append(np.nan)

bd_dic['POP']

[nan, nan, nan, '253']

In [140]:
bd_dic['CAP_M'] = []

In [141]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Hospital Masculino.+\s.+Capacidade:.+\s(\d+).+População', str(penitenciária))
        bd_dic['CAP_M'].append(m.group(1))
    except:
        bd_dic['CAP_M'].append(np.nan)
bd_dic['CAP_M']

[nan, nan, '272', nan]

In [142]:
bd_dic['POP_M'] = []

In [143]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Masculino.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_M'].append(m.group(1))
    except:
        bd_dic['POP_M'].append(np.nan)

bd_dic['POP_M']

['0', nan, nan, nan]

In [144]:
bd_dic['CAP_F'] = []

In [145]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Hospital Feminino.+\s.+Capacidade:.+\s(\d+).+População', str(penitenciária))
        bd_dic['CAP_F'].append(m.group(1))
    except:
        bd_dic['CAP_F'].append(np.nan)
bd_dic['CAP_F']

[nan, nan, '91', nan]

In [146]:
bd_dic['POP_F'] = []

In [147]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Feminino.+\s.+População.+>\s(\d+)', str(penitenciária))
        bd_dic['POP_F'].append(m.group(1))
    except:
        bd_dic['POP_F'].append(np.nan)

bd_dic['POP_F']

[nan, nan, nan, nan]

In [148]:
bd_dic['CAP_TPF'] = []

In [149]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Feminino.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP_TPF'].append(m.group(1))
    except:
        bd_dic['CAP_TPF'].append(np.nan)
bd_dic['CAP_TPF']

['80', '22', nan, nan]

In [150]:
bd_dic['POP_TPF'] = []

In [151]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Feminino.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_TPF'].append(m.group(1))
    except:
        bd_dic['POP_TPF'].append(np.nan)

bd_dic['POP_TPF']

['76', '21', nan, nan]

In [152]:
bd_dic['CAP_TPM'] = []

In [153]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Masculino.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP_TPM'].append(m.group(1))
    except:
        bd_dic['CAP_TPM'].append(np.nan)
bd_dic['CAP_TPM']

['454', nan, nan, nan]

In [154]:
bd_dic['POP_TPM'] = []

In [155]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Masculino.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_TPM'].append(m.group(1))
    except:
        bd_dic['POP_TPM'].append(np.nan)

bd_dic['POP_TPM']

['0', nan, nan, nan]

In [156]:
bd_dic['CAP_TPF'] = []

In [157]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Feminino.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP_TPF'].append(m.group(1))
    except:
        bd_dic['CAP_TPF'].append(np.nan)
bd_dic['CAP_TPF']

['80', '22', nan, nan]

In [158]:
bd_dic['POP_TPF'] = []

In [159]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Feminino.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_TPF'].append(m.group(1))
    except:
        bd_dic['POP_TPF'].append(np.nan)

bd_dic['POP_TPF']

['76', '21', nan, nan]

In [160]:
bd_dic['CAP_TPM'] = []

In [161]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Masculino.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP_TPM'].append(m.group(1))
    except:
        bd_dic['CAP_TPM'].append(np.nan)
bd_dic['CAP_TPM']

['454', nan, nan, nan]

In [162]:
bd_dic['POP_TPM'] = []

In [163]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Masculino.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_TPM'].append(m.group(1))
    except:
        bd_dic['POP_TPM'].append(np.nan)

bd_dic['POP_TPM']

['0', nan, nan, nan]

In [164]:
bd_dic['CAP_TPF'] = []

In [165]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Feminino.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP_TPF'].append(m.group(1))
    except:
        bd_dic['CAP_TPF'].append(np.nan)
bd_dic['CAP_TPF']

['80', '22', nan, nan]

In [166]:
bd_dic['POP_TPF'] = []

In [167]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Feminino.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_TPF'].append(m.group(1))
    except:
        bd_dic['POP_TPF'].append(np.nan)

bd_dic['POP_TPF']

['76', '21', nan, nan]

In [168]:
bd_dic['CAP_ADM'] = []

In [169]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Ala Desinternação Masculina.+\s.+Capacidade:.+>(\d+).+População', str(penitenciária))
        bd_dic['CAP_ADM'].append(m.group(1))
    except:
        bd_dic['CAP_ADM'].append(np.nan)
bd_dic['CAP_ADM']

['110', '188', nan, nan]

In [170]:
bd_dic['POP_ADM'] = []

In [171]:
for penitenciária in [tag for tag in hos]:
    try:
        m = re.search(r'Tratamento Psiquiátrico - Ala Desinternação Masculina.+\s.+População.+>(\d+)', str(penitenciária))
        bd_dic['POP_ADM'].append(m.group(1))
    except:
        bd_dic['POP_ADM'].append(np.nan)

bd_dic['POP_ADM']

['198', '193', nan, nan]

In [172]:
bd_dic.keys()

dict_keys(['NOME', 'COO', 'CAP', 'POP', 'CAP_M', 'POP_M', 'CAP_F', 'POP_F', 'CAP_TPF', 'POP_TPF', 'CAP_TPM', 'POP_TPM', 'CAP_ADM', 'POP_ADM'])

In [173]:
bd = pd.DataFrame(bd_dic, index=np.array(range(1,len(hos)+1)), columns = bd_dic.keys())
len(bd)

4

In [174]:
bd.to_excel(writer, 'HOS')

# #

# Fechamento

In [147]:
writer.save()