Skip to content

Commit

Permalink
Update scraper.rb
Browse files Browse the repository at this point in the history
  • Loading branch information
BfB-Schenefeld committed Apr 22, 2024
1 parent 7ea5272 commit fdd7774
Showing 1 changed file with 17 additions and 6 deletions.
23 changes: 17 additions & 6 deletions scraper.rb
Original file line number Diff line number Diff line change
Expand Up @@ -33,15 +33,25 @@ def scrape_top_details(top_url)

# Extraktion der Vorlagen-Betreffs, wenn vorhanden
vorlagen_betreff_element = document.at_css('span#vobetreff a')
if vorlagen_betreff_element
vorlagen_betreff_text = vorlagen_betreff_element.text.strip
vorlagen_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlagen_betreff_element['href']}"
puts "Vorlagen-Betreff gefunden: #{vorlagen_betreff_text}, Vorlagen-URL: #{vorlagen_url}"
[vorlagen_betreff_text, vorlagen_url]
vorlagen_betreff_text, vorlagen_url = if vorlagen_betreff_element
[vorlagen_betreff_element.text.strip, "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlagen_betreff_element['href']}"]
else
puts "Keine Vorlage vorhanden."
["-", "-"]
end
puts "Vorlagen-Betreff: #{vorlagen_betreff_text}, Vorlagen-URL: #{vorlagen_url}"

# Extraktion des TOP-Sammel-PDFs, wenn vorhanden
sammel_pdf_link = document.at_css('a.doclink.pdf')
sammel_pdf_url = sammel_pdf_link ? sammel_pdf_link['href'] : "-"
puts "Sammel-PDF URL: #{sammel_pdf_url}"

# Extraktion von Anlagen-PDFs, wenn vorhanden
anlagen_pdf_links = document.css('a.attlink.pdf').map do |link|
link['href']
end
puts "Anlagen-PDF URLs: #{anlagen_pdf_links.join(', ')}"

[vorlagen_betreff_text, vorlagen_url, sammel_pdf_url, anlagen_pdf_links]
end

# Beispiel-URL für eine TOP-Seite
Expand All @@ -58,3 +68,4 @@ def scrape_top_details(top_url)




0 comments on commit fdd7774

Please sign in to comment.