Skip to content

Commit

Permalink
Update scraper.rb
Browse files Browse the repository at this point in the history
  • Loading branch information
BfB-Schenefeld committed Apr 22, 2024
1 parent 7bb2175 commit 5098310
Showing 1 changed file with 4 additions and 4 deletions.
8 changes: 4 additions & 4 deletions scraper.rb
Original file line number Diff line number Diff line change
Expand Up @@ -31,8 +31,9 @@ def scrape_top_details(top_url)
puts "Zugriff auf TOP-Seite: #{top_url}"
document = Nokogiri::HTML(open(top_url))

# Extraktion der kompletten Hauptinhalte
main_content = document.at_css('#mainContent').text.strip.gsub(/\s+/, ' ')
# Extraktion des Hauptinhalts ohne doppelte Überschriften
main_content_elements = document.css('#mainContent div.expandedDiv, #mainContent div.expandedTitle')
main_content = main_content_elements.map { |element| element.text.strip }.join(" ").gsub(/\s+/, ' ')
puts "Hauptinhalt: #{main_content}"

# Extraktion der Vorlagen-Betreffs, wenn vorhanden
Expand All @@ -41,10 +42,8 @@ def scrape_top_details(top_url)
vorlagen_betreff_text = vorlagen_betreff_element.text.strip
vorlagen_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlagen_betreff_element['href']}"
puts "Vorlagen-Betreff gefunden: #{vorlagen_betreff_text}, Vorlagen-URL: #{vorlagen_url}"
[vorlagen_betreff_text, vorlagen_url]
else
puts "Keine Vorlage vorhanden."
["-", "-"]
end

# Rückgabe des Hauptinhalts und weiterer Details
Expand All @@ -68,3 +67,4 @@ def scrape_top_details(top_url)




0 comments on commit 5098310

Please sign in to comment.