# Crawler de Coleta Alvarás SP
- Carlos Magno Barbosa
- Data: 2024
- Estado: Em construção/Funcional. 

**Mini-Curso**: Crawler para coletar alvarás da cidade de São Paulo. Esse curso explora o conceito de dados abertos.

**Motivação**: Cidades são organismos complexos "vivos" que se adaptam ao longo dos anos para atender às necessidades dos seus moradores. Um dos modos de se detectar essa mudança natural das cidades é por meio dos alvarás, permissões da prefeitura para a construção e adaptação de imóveis na cidade. Desse modo, esse mini-curso apresenta uma breve abordagem para a construção de um crawler para coletar dados abertos de alvarás disponibilizados publicamente pela prefeitura de São Paulo.


Links de Interesse: https://www.prefeitura.sp.gov.br/cidade/secretarias/licenciamento/servicos/index.php?p=3334

## Ambiente de Execução


Este mini-curso foi construído com foco em execução no ambiente Linux, no entanto, a sua execução também pode ser realizada em um ambiente Windows com algumas adaptações.


## Notebook
Como estamos executando esse código em um notebook, é necessário ter o Jupyter Notebook instalado, além de algumas outras dependências.



## Pré-work - Instalação de dependências

Nessa etapa iremos instalar as dependências necessarias para execução do código.

*  Dependências:
   *  - Python 3.9 > superior
   *  - JupyterLab ou JupyterNotebook
   *  - requests
   *  - beautifulsoup4


### Instalação do Python

O primeiro requisito e ter o python instalado, você pode baixar ele no link a seguir:

> https://www.python.org/downloads/

### Criação de um ambiente virtual:

Exemplo no Ubuntu:
> python3 -m venv env_crawler_sp

Ativando o ambiente:
> source env_crawler_sp/bin/activate

## Bibliotecas


Bibliotecas podem ser interpretadas como soluções criadas por outros desenvolvedores que resolvem um `problema` em específico. Por meio dessa solução, utilizamos abordagens já ``testadas e maduras`` para resolução de um problema, garantindo o reúso e evitando a reinvenção da roda. Mas um ponto de atenção é verificar se a biblioteca utilizada é atualizada e possui código aberto que permite a sua checagem. Para o contexto desse trabalho, precisamos de duas bibliotecas que não são nativas do Python.
Elas podem ser instaladas pelo gerenciador de pacotes pip.


- `Requests`: é uma biblioteca utilizada para obter os dados da página da prefeitura de SP.

> pip install requests


- `BeautifulSoup` é utilizada para manipulação e extração dos dados retornados pela biblioteca requests.


> pip install beautifulsoup4

In [1]:
# Importando bibliotecas
import requests
from bs4 import BeautifulSoup

In [2]:
from pathlib import Path

In [28]:
def create_dir(path_to_file):
    """
    Create a directory if does not exists.
    """
    path = Path(path_to_file)
    path.mkdir(parents=True, exist_ok=True)


def _save_file(name, content):
    """
    Save content file to disk.
    """
    with open(name, 'wb') as arq_file:
        arq_file.write(content)

def save_multiple_files(dict_content):
    """Save files to disk."""

    for file_name in dict_content:
        _save_file(file_name, dict_content[file_name])

def get_table_data(tables, path_to_save):
    """
    Extract table data and return a dict with data.
    """
    dict_tables = {}
    for table in tables:
        # recupera cabeçalho da table
        for th in table.find_all("th"):
            link = th.a.get('href')
            if 'https' not in link:
                continue
            print('Link:', link)
            try:
                content = requests.get(th.a.get('href'))
                # prepara o nome do arquivo
                name_to_save = f"{path_to_save}/{th.text}.xlsx"
                dict_tables[name_to_save] = content.content
            except Exception as error:
                print(f'Error: {error}')
    return dict_tables

In [7]:
URL_ALVARAS = "https://www.prefeitura.sp.gov.br/cidade/secretarias/licenciamento/servicos/index.php?p=3334"

In [5]:
# Cria pasta para salvar os dados
FOLDER = 'alvaras'
create_dir(FOLDER)

In [8]:
URL_ALVARAS

'https://www.prefeitura.sp.gov.br/cidade/secretarias/licenciamento/servicos/index.php?p=3334'

In [9]:
# Realiza a requisição para a pagina de alvaras de SP.
response = requests.get(URL_ALVARAS)

In [10]:
# Gera a árvore DOM para permitir interagir nos dados de modo fácil.
soup = BeautifulSoup(response.text, 'html.parser')

In [26]:
tables = soup.find_all("table")
dict_files = get_table_data(tables=tables, path_to_save=FOLDER)

Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamento/Ano_2023_SISSEL.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamento/ANUAL - 2022.xlsx
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamentos/anual_2021_ate_dezembro.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamentos/Anual2020_ate_dezembro.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamentos/Anual2019.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamentos/Anual_2018.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamentos/Anual_2017_dezembro.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/anual_2016.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamento/2015 - anual.xls
Link: https://www.prefeitura.sp.gov.br/cidade/secretarias/upload/licenciamento/2014 - anual.xls
Link: https://www.prefei

In [27]:
save_multiple_files(dict_files)