# Uso de dados para otimizar a alocação de recursos públicos destinados ao saneamento básico de Goiás

### AUTOR: ADENILSON SILVA

Para controle do fluxo de atividades do projeto, a consultoria utilizou o trello. O painel criado [aqui](https://trello.com/b/RIgkWLxE/projeto-uso-de-dados-para-otimizar-a-aloca%C3%A7%C3%A3o-de-recursos-p%C3%BAblicos-destinados-ao-saneamento-b%C3%A1sico-de-goi%C3%A1s).

# EXTRAÇÃO DE DADOS

A seguir, é apresentado o código utilizado pela consultoria para a extração dos dados do projeto.

####  1 - Importando bibliotecas e criando funções

In [1]:
from bs4 import BeautifulSoup  # Usada para fazer a análise do HTML
from selenium import webdriver  # Usada para automatizar a interação com um navegador
from webdriver_manager.chrome import ChromeDriverManager  # Usada para gerenciar o driver do Chrome 
from selenium.webdriver.chrome.service import Service  # Usada para configurar o serviço do Chrome
from selenium.webdriver.common.by import By  # Usada para localizar elementos na página
from selenium.webdriver.common.keys import Keys  # Usada para enviar teclas especiais, como Enter
import requests  # Usada para fazer requisições HTTP
import time  # Usada para adicionar pausas entre as ações
import pandas as pd  # Usada para trabalhar com dados em formato de tabela (DataFrame)
import os  # Importa o módulo 'os' para lidar com operações do sistema de arquivos

In [2]:
def iniciando_navegador(url):
    """
    Inicializa e retorna uma instância do navegador Google Chrome.
    
    Parâmetros:
    url (str): A URL que será aberta no navegador.
    
    Retorna:
    selenium.webdriver.Chrome: Uma instância do navegador Chrome aberta na URL especificada.
    
    Dependências:
    - selenium
    - webdriver_manager
    
    Exemplo de uso:
    ```python
    navegador = iniciando_navegador("https://www.google.com")
    ```
    """
    servico = Service(ChromeDriverManager().install())
    navegador = webdriver.Chrome(service=servico)
    
    navegador.get(url)
    navegador.maximize_window()
    
    return navegador


#### 2 -  Iniciando o navegador Chrome para a coleta de dados relativos ao sanemanto dos municípios do estado de Goiás

In [3]:
try:
    url = "http://app4.mdr.gov.br/serieHistorica/#?"
    navegador = iniciando_navegador(url)
    tempo_espera = 3

except WebDriverException as e:
   print("Ocorreu um erro ao iniciar o navegador:", e)

**Observação:** 

Considerando que o SNIS opera por meio de método POST, a coleta foi realizada mediante a utilização das bibliotecas Python _selenium_ e _beautifulsoup4_. 

#### 3 - Acessando, com o Selenium, a página que apresenta os dados  relativos ao sanemanto dos municípios do estado de Goiás

In [4]:
# Script para navegar até a pagína com os dados
time.sleep(tempo_espera)

navegador.find_element(By.XPATH, 
                       "//*[@id='"'menu-item-ae'"']/i").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'oculto'"']/li[3]/a").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_filtros'"']/fieldset[1]/p[1]/button").click() 
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'multiselect_menu_ano_ref'"']/div/ul/li[1]/a/span[2]").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_filtros'"']/fieldset[1]/p[1]/button").click() 
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_filtros'"']/fieldset[1]/p[3]/button/span[2]").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'ui-multiselect-cod_srv-option-1'"']").click()
navegador.find_element(By.XPATH, 
                       "//*[@id='"'ui-multiselect-cod_srv-option-2'"']").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_filtros'"']/fieldset[1]/p[3]/button/span[2]").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_filtros'"']/fieldset[2]/p[2]/button").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'ui-multiselect-sgl_est-option-8'"']").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_filtros'"']/fieldset[2]/p[2]/button").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_filtros'"']/fieldset[3]/p/button").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'multiselect_menu_cod_mun'"']/div/ul/li[1]/a/span[2]").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'menufiltrosinternos'"']/ul/li[2]/a").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_colunas'"']/p[1]/button").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'ui-multiselect-cod_fam_info-option-0'"']").click()
navegador.find_element(By.XPATH, 
                       "//*[@id='"'ui-multiselect-cod_fam_info-option-3'"']").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'frm_colunas'"']/p[1]/button").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       '//*[@id="frm_colunas"]/p[2]/button').click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       '//*[@id="multiselect_menu_fk_glossario"]/div/ul/li[2]/a/span[2]').click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       '//*[@id="ui-multiselect-fk_glossario-option-21"]').click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       '//*[@id="ui-multiselect-fk_glossario-option-22"]').click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       '//*[@id="multiselect_menu_fk_glossario"]/div/ul/li[3]/a/span').click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
                       "//*[@id='"'bt_gerar'"']").click()
time.sleep(tempo_espera)
navegador.find_element(By.XPATH, 
    "//*[@id='"'div_pager-busca-personalizada_center'"']/table/tbody/tr/td[8]/select").\
    send_keys("100")
time.sleep(tempo_espera)
navegador.find_element(By.XPATH,
    '//*[@id="div_pager-busca-personalizada_center"]/table/tbody/tr/td[4]/input').click()
time.sleep(tempo_espera)

#### 4 - Coletando, com o BeautifulSoup (e com o auxílio do Selenium),  os dados relativos ao sanemanto dos municípios do estado de Goiás

In [5]:
# Criando um objeto BeautifulSoup para analisar o código-fonte da página atual no navegador
soup = BeautifulSoup(navegador.page_source, "html.parser")

# Encontrando a linha de cabeçalho da tabela usando o atributo 'class'
cabecalho = soup.find('tr', {'class': 'ui-jqgrid-labels jqg-third-row-header'})

# Extraindo o texto das células no cabeçalho da tabela
cabecalho_texto = [cell.get_text(strip=True) for cell in cabecalho.find_all('th')]

# Encontrando o número de páginas na paginação
numero_paginas = \
    int(navegador.find_element(By.XPATH,'//*[@id="sp_1_div_pager-busca-personalizada"]').text)

# Criando o DataFrame "df_municipios_saneamento" vazio
df_municipios_saneamento = pd.DataFrame()

# Loop para iterar através das páginas e coletar os dados
for _ in range(numero_paginas):
    # Criando um novo objeto BeautifulSoup com o código-fonte atual da página
    soup = BeautifulSoup(navegador.page_source, "html.parser")
    
    # Lendo a tabela de dados usando pandas e pulando a primeira linha (skiprows=[0])
    df_municipios_saneamento_local = \
        pd.read_html((((str(soup.find('table', {'class': 'ui-jqgrid-btable'}))).\
                       replace('.', '')).replace(',', '.')),\
                        skiprows=[0],)[0]
    
    # Concatenando o DataFrame local no DataFrame preliminar
    df_municipios_saneamento = pd.concat([df_municipios_saneamento, df_municipios_saneamento_local], 
                                         ignore_index=True)
    
    # Clicando no botão "Próxima página" para navegar para a próxima página de resultados
    navegador.find_element(By.XPATH, 
                           '//*[@id="next_div_pager-busca-personalizada"]/span').click()
    
    # Esperando por um curto período de tempo (tempo_espera) para a página carregar completamente
    time.sleep(tempo_espera)

# Definindo os nomes das colunas no DataFrame "df_municipios_saneamento" com os valores do cabeçalho
df_municipios_saneamento.columns = cabecalho_texto

# Fechando o navegador após a conclusão da coleta de dados
navegador.quit()

#### 5 - Salvando o DataFrame com os dados relativos ao sanemanto dos municípios do estado de Goiás

In [6]:
# Verificamdo se a pasta "dados_GO/dado_bruto" já existe
if not os.path.exists('dados_GO/A - dado_bruto'):
    # Se não existir, cria a pasta
    os.makedirs('dados_GO/A - dado_bruto')

#Salvando o arquivo CSV no diretório "dados_GO/dado_bruto"
df_municipios_saneamento.to_csv('dados_GO/A - dado_bruto/df_municipios_saneamento.csv', 
                                index=False, sep=';')

#### 6 -  Coletando, com o BeautifulSoup, a listagem de todos os municípios do estado de Goiás

Observação sobre a coleta dos dados: A coleta foi realizada mediante a utilização da biblioteca Python beautifulsoup4. Estes dados serão utilizados unicamente para atualizar a base de análise descritiva e de análise preditiva; ou seja, para manter na base de dados o atual código municipal utilizado pelo IBGE (código IBGE7).

In [7]:
# Fazendo uma requisição HTTP para a página
url = 'https://www.ibge.gov.br/explica/codigos-dos-municipios.php#GO'

try:
    response = requests.get(url)
    response.raise_for_status()  # Lança exceção se a resposta não for bem-sucedida
except requests.RequestException as e:
    print(f'Erro ao acessar a página: {e}')
    exit(1)

# Criando um objeto Beautiful Soup com o conteúdo da página
soup = BeautifulSoup(response.content, 'html.parser')

# Encontrando a tabela desejada
table = soup.find_all('table')[9]

try:
    # Convertendo a tabela em um DataFrame
    df_municipios_listagem = pd.read_html(str(table))[0]
    soup = None
    print('A tabela com os municípios de Goiás foi encontrada e seus dados ' 
          'foram armazenados na variável "df_municipios_listagem"')
except ValueError:
    print('Nenhuma tabela encontrada na página.')

A tabela com os municípios de Goiás foi encontrada e seus dados foram armazenados na variável "df_municipios_listagem"


#### 7 -  Salvando o DataFrame com a listagem de todos os municípios do estado de Goiás

In [8]:
# Verificando se a pasta "dados_GO/dado_bruto" já existe
if not os.path.exists('dados_GO/A - dado_bruto'):
    # Se não existir, cria a pasta
    os.makedirs('dados_GO/A - dado_bruto')

#Salvando o arquivo CSV no diretório "dados_GO/dado_bruto"
df_municipios_listagem.to_csv('dados_GO/A - dado_bruto/df_municipios_listagem.csv', 
                              index=False, sep=';')

Observação:

Os dados relativos ao número de habitantes dos municípios do estado de Goiás foram encaminhados por meio de arquivo .csv pelo IMB.

### Dados sobre versão
- Python: 3.11.4
- beautifulsoup4==4.10.0
- selenium==4.11.2
- webdriver_manager==4.0.2
- requests==2.26.0
- pandas==1.3.4