In [8]:
# Cell 1: Imports e configuração
from seleniumbase import Driver
from urllib.parse import urljoin, urlparse
import time

# Cell 2: Inicializa o driver
driver = Driver(browser="chrome", headless=False, headed=True)

# Cell 3: Navega para o site
BASE_URL = "https://www.camara.leg.br/"
driver.open(BASE_URL)

# Cell 4: Coleta links
links = driver.find_elements("a")
urls = []

for link in links:
    try:
        href = link.get_attribute("href")
        if href and href.startswith("http"):
            full_url = urljoin(BASE_URL, href)
            urls.append(full_url)
    except:
        continue

# Remove duplicatas
unique_urls = list(set(urls))
print(f"Total de URLs únicos: {len(unique_urls)}")

# Mostra os primeiros 10
for url in unique_urls[:10]:
    print(url)

# Cell 5: Fecha o driver quando terminar
# driver.quit()

Total de URLs únicos: 30
https://www.camara.leg.br/assuntos/direitos-humanos
https://www.camara.leg.br/#mm-5
https://www.camara.leg.br/assuntos/consumidor
https://www.camara.leg.br/#mm-2
https://www2.camara.leg.br/english
https://www.camara.leg.br/assuntos/cidades-e-transportes
https://www.camara.leg.br/assuntos/relacoes-exteriores
https://www.camara.leg.br/assuntos/economia
https://www.camara.leg.br/assuntos/agropecuaria
https://www.camara.leg.br/#mm-6


In [9]:
# urls that include /assuntos/
assuntos_urls = [url for url in unique_urls if "/assuntos/" in url]
print(f"Total de URLs com '/assuntos/': {len(assuntos_urls)}")
for url in assuntos_urls:
    print(url)

Total de URLs com '/assuntos/': 13
https://www.camara.leg.br/assuntos/direitos-humanos
https://www.camara.leg.br/assuntos/consumidor
https://www.camara.leg.br/assuntos/cidades-e-transportes
https://www.camara.leg.br/assuntos/relacoes-exteriores
https://www.camara.leg.br/assuntos/economia
https://www.camara.leg.br/assuntos/agropecuaria
https://www.camara.leg.br/assuntos/educacao-cultura-e-esportes
https://www.camara.leg.br/assuntos/seguranca
https://www.camara.leg.br/assuntos/trabalho-previdencia-e-assistencia
https://www.camara.leg.br/assuntos/politica-e-administracao-publica
https://www.camara.leg.br/assuntos/meio-ambiente-e-energia
https://www.camara.leg.br/assuntos/ciencia-tecnologia-e-comunicacoes
https://www.camara.leg.br/assuntos/saude


In [6]:
assuntos = [
    "agropecuaria",
    "cidades-e-transportes",
    "ciencia-tecnologia-e-comunicacoes",
    "consumidor",
    "coronavirus",
    "direitos-humanos",
    "economia",
    "educacao-cultura-e-esportes",
    "meio-ambiente-e-energia",
    "politica-e-administracao-publica",
    "reforma-da-previdencia",
    "relacoes-exteriores",
    "saude",
    "seguranca",
    "trabalho-previdencia-e-assistencia",
]

In [10]:
BASE_URL

'https://www.camara.leg.br/'

In [None]:
# open agropecuaria assunto page
driver = Driver(browser="chrome", headless=False, headed=True)

driver.open("https://www.camara.leg.br/assuntos/agropecuaria")

[]

In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(driver.get_page_source(), "html.parser")

In [14]:
soup

<html class="js js flexbox supports cssfilters inputtypes-search inputtypes-tel inputtypes-url inputtypes-email no-inputtypes-datetime inputtypes-date inputtypes-month inputtypes-week inputtypes-time inputtypes-datetime-local inputtypes-number inputtypes-range inputtypes-color" lang="pt-br"><!--<![endif]--><head>
<meta charset="utf-8"/>
<meta content="width=device-width, initial-scale=1, shrink-to-fit=no" name="viewport"/>
<meta content="ie=edge" http-equiv="x-ua-compatible"/>
<meta content="bxxobfdomarwwsu1tu7b9wv9oy0gw2" name="facebook-domain-verification"/>
<title>
      Agropecuária - Portal da Câmara dos Deputados
  </title>
<meta content="Notícias, propostas, enquetes, discursos, reuniões das comissões" name="description"/>
<meta content="#00a300" name="msapplication-TileColor"/>
<meta content="https://www.camara.leg.br/tema/mstile-144x144.png" name="msapplication-TileImage"/>
<meta content="#009e49" name="theme-color"/>
<meta content="Câmara – Agropecuária" itemprop="name"/>
<me

In [None]:
# pegar
# - principais notícias (homepage)

In [None]:
soup.find_all("div", class_="lista-proposicoes")

In [None]:
# api pra servir o agente via mcp fastapi
# vai ter um crawler de rotina embutido pra pegar as legislações / notícias mais recentes ou mais relevantes
# também ter como pegar as notícias e identificar o link da proposta de lei
# ter uma forma de visitar a página do projeto de lei e extrair as informações para que possamos passar pro usuário

In [None]:
# documentação sobre a camara dos deputados e e-cidadão
# 1, https://www.camara.leg.br/servicos-ao-cidadao
#    - caso o usuário se interesse em algum desses serviços, podemos enviar esse link
# 2, https://www12.senado.leg.br/institucional/ouvidoria
#    - o usuário também pode querer contatar o senado federal, o link é esse
# 3, ideia legislativa pagina principal: https://www12.senado.leg.br/ecidadania/principalideia
#    - caso o usuário queira propor uma ideia legislativa, esse é o link
# 4, oficina legislativa: https://www12.senado.leg.br/ecidadania/oficinalegislativa
#    - parecido com a ideia legislativa, mas caso o usuário tenha um interesse escolar em participar de uma oficina legislativa


In [None]:
# api para servir os dados abertos da camara dos deputados, 
# fazer por mcp e fazer uma estruturação inicial a partir do swagger
# https://dadosabertos.camara.leg.br/swagger/api.html?tab=api