## Extração dos ID's e URL das fotos dos Vereadores

In [1]:
%pip install requests 
%pip install bs4
%pip install unidecode

Collecting requests
  Downloading requests-2.28.2-py3-none-any.whl (62 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m62.8/62.8 kB[0m [31m2.5 MB/s[0m eta [36m0:00:00[0m
Collecting charset-normalizer<4,>=2
  Downloading charset_normalizer-3.0.1-cp39-cp39-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (198 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m198.8/198.8 kB[0m [31m9.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting urllib3<1.27,>=1.21.1
  Downloading urllib3-1.26.14-py2.py3-none-any.whl (140 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m140.6/140.6 kB[0m [31m12.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting certifi>=2017.4.17
  Downloading certifi-2022.12.7-py3-none-any.whl (155 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m155.3/155.3 kB[0m [31m13.2 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: charset-normalizer, urllib3, certifi, requests
Successfull

In [2]:
import requests
from bs4 import BeautifulSoup
import re
import json
from unidecode import unidecode


vereadores = []

for vereador_id in range(1, 200):
    url = f'http://www.camarasorocaba.sp.gov.br/vereador.html?id={vereador_id}'
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    try:
        nome_vereador = soup.find('div', {'class': 'page-header'}).find('h1').text
        print(f'Vereador {vereador_id}: {nome_vereador}')
        vereador_dict = {
            "nome": nome_vereador,
            "id": vereador_id,
            "imagem_url": f"http://syslegis.camarasorocaba.sp.gov.br:8383/syslegis/vereador/getConteudo/{vereador_id}"
        }
        vereadores.append(vereador_dict)
    except AttributeError:
        print(f'Erro ao obter o nome do vereador {vereador_id}')

with open('../dados/vereadores/vereadores.json', 'w', encoding='utf-8') as f:
    json.dump(vereadores, f, ensure_ascii=False, indent=4)

Erro ao obter o nome do vereador 1
Vereador 2: Anselmo Rolim Neto
Vereador 3: Benedito de Jesus Oleriano
Vereador 4: Carlos Cezar da Silva
Vereador 5: Emílio Souza de Oliveira
Vereador 6: Francisco França da Silva
Vereador 7: Francisco Moko Yabiku
Vereador 8: Gervino Cláudio Gonçalves
Vereador 9: Irineu Donizeti de Toledo
Vereador 10: Izídio de Brito Correia
Vereador 11: João Donizeti Silvestre
Vereador 12: José Antonio Caldini Crespo
Vereador 13: José Francisco Martinez
Vereador 14: José Geraldo Reis Viana
Vereador 15: Luis Santos Pereira Filho
Vereador 16: Mário Marte Marinho Júnior
Vereador 17: Paulo Francisco Mendes
Vereador 18: Rozendo de Oliveira
Vereador 19: Antonio Carlos Silvano
Vereador 20: Claudemir José Justi
Vereador 21: Vitor Francisco da Silva
Vereador 22: Rodrigo Maganhato
Vereador 23: Fernando Alves Lisboa Dini
Vereador 24: Valdecir Moreira da Silva
Vereador 25: José Apolo da Silva
Vereador 26: Maurício Rodrigues da Silva
Vereador 27: Jessé Loures de Moraes
Vereador 28

## Extração dos ID's do Ano de cada pagina de relatorio. 

In [3]:
import json, requests
from bs4 import BeautifulSoup
from pathlib import Path


LINKS_FILE_PATH = '../dados/relatorios/links.json'

def extract_year_data(existing_data):
    print('Carregando dados')
    url = 'http://www.camarasorocaba.sp.gov.br/arquivos_publicos.html?id=5e3f0dc905d7040f28b44e0e'
    response = requests.get(url)
    soup = BeautifulSoup(response.text, 'html.parser')

    table = soup.find('table', {'class': 'table table-striped'})
    for year in table.find_all('a'):
        year_str = year.contents[2].strip()

        # Verificar se já existe um dicionário para este ano
        year_exists = False
        if existing_data:
            for data in existing_data:
                if data['year'] == year_str:
                    year_exists = True
                    break

        if not year_exists:
            existing_data.append({'url_id': year.get('href'), 'year': year_str, 'processed': False, 'extracted': False, 'months': []})
        else:
            print(f"Já existe um dicionário para o ano {year_str}. Ignorando.")


try:
    links_file_path = Path(LINKS_FILE_PATH)
    with links_file_path.open("r+", encoding="utf8") as f:
        data = json.load(f)

    print('extraindo')
    extract_year_data(data)

    with links_file_path.open("w", encoding="utf8") as f:
        json.dump(data, f, ensure_ascii=False, indent=4)
except Exception as e:
    print(f"Erro ao ler arquivo JSON: {str(e)}")
    data = []

extraindo
Carregando dados
Já existe um dicionário para o ano 2022. Ignorando.
Já existe um dicionário para o ano 2021. Ignorando.
Já existe um dicionário para o ano 2020. Ignorando.
Já existe um dicionário para o ano 2019. Ignorando.
Já existe um dicionário para o ano 2018. Ignorando.
Já existe um dicionário para o ano 2017. Ignorando.
Já existe um dicionário para o ano 2016. Ignorando.
Já existe um dicionário para o ano 2015. Ignorando.
Já existe um dicionário para o ano 2014. Ignorando.
Já existe um dicionário para o ano 2013. Ignorando.
Já existe um dicionário para o ano 2012. Ignorando.
Já existe um dicionário para o ano 2011. Ignorando.
Já existe um dicionário para o ano 2010. Ignorando.
Já existe um dicionário para o ano 2009. Ignorando.
Já existe um dicionário para o ano 2008. Ignorando.
Já existe um dicionário para o ano 2007. Ignorando.
Já existe um dicionário para o ano 2006. Ignorando.
Já existe um dicionário para o ano 2005. Ignorando.


## Extração dos ID's do relatório de cada mês do ano.

In [4]:
import json
from pathlib import Path
import requests
from bs4 import BeautifulSoup

BASE_URL = 'http://www.camarasorocaba.sp.gov.br/arquivos_publicos.html'
LINKS_FILE_PATH = '../dados/relatorios/links.json'

def scrape_monthly_reports(year_data, base_url):
    if year_data["extracted"] == False:
        response = requests.get(f"{base_url}{year_data['url_id']}")
        soup = BeautifulSoup(response.text, 'html.parser')
        table = soup.find('table', {'class': 'table table-striped'})
        for link in table.find_all('a'):
            url_id = link.get('href')
            month = link.contents[2].strip()
            exists_month = False
            for m in year_data['months']:
                if m["month"] == month:
                    exists_month = True
                    break

            if not exists_month:

                new_month = {
                    "url_id":  url_id,
                    "month": month,
                    "processed": False,
                    "extracted": False,
                    "report_path": "",
                    "file_extension": ""
                }
                year_data['months'].append(new_month)

try:
    links_file_path = Path(LINKS_FILE_PATH)
    with links_file_path.open("r+", encoding="utf8") as f:
        dados = json.load(f)
except Exception as e:
    print(f"Erro ao ler arquivo JSON: {str(e)}")
    dados = []

for year_data in dados:

    scrape_monthly_reports(year_data, BASE_URL)

    with links_file_path.open("w", encoding="utf8") as f:
        json.dump(dados, f, ensure_ascii=False, indent=4)
