### Coleta de endereço de delegacias

Dados obtidos do site www.guiamais.com.br,

Endereços de delegacias da cidade de São Bernardo do Campo


## Importação das bibliotecas

 - `pandas` - Manipulação de Dataframe
 - `BeautifulSoup` - Manipulação de dados HTML
 - `urlopen` - Carregamento da URL

In [1]:
# importar bibliotecas
import pandas as pd
from bs4 import BeautifulSoup
from urllib.request import urlopen

In [2]:
# carregar site
url = 'https://www.guiamais.com.br/sao-bernardo-do-campo-sp/informacao-e-utilidade-publica/delegacias-de-policia'
html = urlopen(url)

In [3]:
# ler a url aberta no BeautifulSoup
bs = BeautifulSoup(html, 'lxml')


## Localizar alvo no HTML

Os nomes das delegacias estão na classe `aTitle`, e os endereços se localizam na div `address`

In [4]:
# localiza os nomes e os endereços
nomes = bs.select('.aTitle')
enderecos = bs.select('div address')

#Extrai os somes e endereços
nomes_del = []
for nome in nomes:
    nomes_del.append(nome.find('a').text[13:])
    
end_del = []
for endereco in enderecos:
    end_del.append(endereco.find('span').text[15:])

Foram obtidos 20 nomes e 20 endereços

In [5]:
print(len(nomes_del), 'Nomes de delegacias')
print(len(end_del), 'Endereços de delegacias')


20 Nomes de delegacias
20 Endereços de delegacias


Como eram apenas 2 páginas de delegacias, foi feito manualmente o carregamento da segunda URL e posteriormente os dados foram incluidos no mesmo dataframe

In [6]:
# carregar site (Página 2)
url2 = 'https://www.guiamais.com.br/sao-bernardo-do-campo-sp/informacao-e-utilidade-publica/delegacias-de-policia?page=2'
html2 = urlopen(url2)

# ler a url aberta no BeautifulSoup
bs2 = BeautifulSoup(html2, 'lxml')

In [7]:
# localiza os nomes e os endereços
nomes = bs.select('.aTitle')
enderecos = bs.select('div address')

#Extrai os somes e endereços
for nome in nomes:
    nomes_del.append(nome.find('a').text[13:]) 

for endereco in enderecos:
    end_del.append(endereco.find('span').text[15:])

Ao checar, foram incluidos 20 nomes e 20 endereços, totalizando 40 / 40 respectivamente

In [8]:
print(len(nomes_del), 'Nomes de delegacias')
print(len(end_del), 'Endereços de delegacias')


40 Nomes de delegacias
40 Endereços de delegacias


## Visualização dos dados obtidos

Abaixo é possível ver as 5 primeiras entradas dos nomes e endereços

In [9]:
nomes_del[:5], end_del[:5]

(['CLUBE DIRETORES LOJISTAS SÃO BERNARDO CAMPO DISTRITOS',
  'GUARDA MUNICIPAL',
  '18ª DELEGACIA DE SERVIÇO MILITAR',
  'POLÍCIA CIVIL DO ESTADO DE SÃO PAULO',
  'POLÍCIA MILITAR DO ESTADO DE SÃO PAULO'],
 ['R Java, 267, Jardim do Mar - São Bernardo do Campo, SP',
  'Av Redenção, 100, Jardim do Mar - São Bernardo do Campo, SP',
  'R Arthur Corradi, 17, Centro - São Bernardo do Campo, SP',
  'R José Meza Mendonça, 40, Jardim do Mar - São Bernardo do Campo, SP',
  'R Ana Russo Vestri, 141, Rio Grande - São Bernardo do Campo, SP'])

## Transformar as 2 listas em um DataFrame

In [10]:
df = pd.DataFrame({
    'NOME': nomes_del,
    'ENDERECO': end_del
})

df.head()

Unnamed: 0,NOME,ENDERECO
0,CLUBE DIRETORES LOJISTAS SÃO BERNARDO CAMPO DI...,"R Java, 267, Jardim do Mar - São Bernardo do C..."
1,GUARDA MUNICIPAL,"Av Redenção, 100, Jardim do Mar - São Bernardo..."
2,18ª DELEGACIA DE SERVIÇO MILITAR,"R Arthur Corradi, 17, Centro - São Bernardo do..."
3,POLÍCIA CIVIL DO ESTADO DE SÃO PAULO,"R José Meza Mendonça, 40, Jardim do Mar - São ..."
4,POLÍCIA MILITAR DO ESTADO DE SÃO PAULO,"R Ana Russo Vestri, 141, Rio Grande - São Bern..."


In [11]:
# Verificar as dimensões do DF
df.shape

(40, 2)

## Salvar em arquivo

Salvar o DF em um arquivo `.csv`

In [12]:
df.to_csv('data\delegacias\end_delegacias.csv', index=False)