Skip to content

Commit

Permalink
Update scraper.rb
Browse files Browse the repository at this point in the history
  • Loading branch information
BfB-Schenefeld committed Apr 22, 2024
1 parent a53e9d4 commit 2396508
Showing 1 changed file with 51 additions and 23 deletions.
74 changes: 51 additions & 23 deletions scraper.rb
Original file line number Diff line number Diff line change
Expand Up @@ -25,49 +25,77 @@
# called "data".
require 'open-uri'
require 'nokogiri'
require 'date'

# Methode zur Extraktion und Formatierung des Datums
def extract_and_format_date(dow, dom, month, year)
dom = dom.to_s.rjust(2, '0')
month = month.to_s.rjust(2, '0')
dow_translation = {
'Mo' => 'Mon', 'Di' => 'Tue', 'Mi' => 'Wed',
'Do' => 'Thu', 'Fr' => 'Fri', 'Sa' => 'Sat', 'So' => 'Sun'
}
dow_en = dow_translation[dow]
date_str = "#{dow_en}, #{dom} #{Date::MONTHNAMES[month.to_i]} #{year}"
begin
date = Date.parse(date_str)
german_days = {'Mon' => 'Mo.', 'Tue' => 'Di.', 'Wed' => 'Mi.', 'Thu' => 'Do.', 'Fri' => 'Fr.', 'Sat' => 'Sa.', 'Sun' => 'So.'}
"#{german_days[date.strftime('%a')]} #{date.strftime('%d.%m.%Y')}"
rescue ArgumentError
'Invalid date'
end
end

# Ebene 1: Kalenderdaten scrapen
# Methode zum Scrapen der Kalenderdaten (Ebene 1)
def scrape_calendar_data(year, month)
url = "https://www.sitzungsdienst-schenefeld.de/bi/si010_r.asp?MM=#{month}&YY=#{year}"
puts "Zugriff auf Kalenderseite: #{url}"
document = Nokogiri::HTML(open(url))

document.css('tr:not(.emptyRow)').each do |row|
title_element = row.at_css('.textCol a')
if title_element
event_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{title_element['href']}"
scrape_event_details(event_url) # Ebene 2 aufrufen
end
dow = row.at_css('.dow').text.strip
dom = row.at_css('.dom').text.strip
time = row.at_css('.time div').text.strip
title = row.at_css('.textCol a').text.strip
event_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{row.at_css('.textCol a')['href']}"
room = row.at_css('.raum div').text.strip
formatted_date = extract_and_format_date(dow, dom, month, year)

puts "Datum: #{formatted_date}, Zeit: #{time}, Titel: #{title}, URL: #{event_url}, Raum: #{room}"
scrape_event_details(event_url) # Aufruf von Ebene 2
end
end

# Ebene 2: Details einer Sitzungswebseite scrapen
# Funktion zum Scrapen von Details einer Sitzungswebseite (Ebene 2)
def scrape_event_details(event_url)
puts "Zugriff auf Sitzungsseite: #{event_url}"
document = Nokogiri::HTML(open(event_url))

document.css('tr').each do |row|
top_link = row.at_css('td.tobetreff div a')
if top_link
top_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{top_link['href']}"
scrape_top_details(top_url) # Ebene 3 aufrufen
index_number = row.css('td.tonr a').text.strip rescue ''
betreff = row.css('td.tobetreff div a').text.strip rescue row.css('td.tobetreff div').text.strip
top_url = row.at_css('td.tobetreff div a') ? "https://www.sitzungsdienst-schenefeld.de/bi/#{row.at_css('td.tobetreff div a')['href']}" : "-"
vorlage_link = row.at_css('td.tovonr a')
vorlage_text = vorlage_link ? vorlage_link.text.strip : "-"
vorlage_url = vorlage_link ? "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlage_link['href']}" : "-"

if !index_number.empty? && !betreff.empty?
puts "Gefunden: #{index_number}, Betreff: #{betreff}, TOP-URL: #{top_url}, Vorlage: #{vorlage_text}, Vorlage URL: #{vorlage_url}"
scrape_top_details(top_url) if top_url != "-"
scrape_vorlagen_details(vorlage_url) if vorlage_url != "-"
end
end
end

# Ebene 3: Details einer TOP-Seite scrapen
# Funktion zum Scrapen von Details einer TOP-Seite (Ebene 3)
def scrape_top_details(top_url)
puts "Zugriff auf TOP-Seite: #{top_url}"
document = Nokogiri::HTML(open(top_url))

vorlagen_link = document.at_css('span#vobetreff a')
if vorlagen_link
vorlagen_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlagen_link['href']}"
scrape_vorlagen_details(vorlagen_url) # Ebene 4 aufrufen
end
main_content = document.at_css('#mainContent').text.gsub(/\s+/, ' ').strip
puts "TOP-Protokolltext: #{main_content}"
end

# Ebene 4: Details einer Vorlagenseite scrapen
# Funktion, um Details von der Ebene-4-Seite (Vorlagenseite) zu scrapen
def scrape_vorlagen_details(vorlagen_url)
puts "Zugriff auf Vorlagenseite: #{vorlagen_url}"
document = Nokogiri::HTML(open(vorlagen_url))
Expand All @@ -93,8 +121,7 @@ def scrape_vorlagen_details(vorlagen_url)
puts "Vorlagen-Sammel-PDF-URL: #{sammel_pdf_url}"
end


# Starte den Prozess
# Testaufruf für März 2024
scrape_calendar_data('2024', '3')


Expand Down Expand Up @@ -123,5 +150,6 @@ def scrape_vorlagen_details(vorlagen_url)






0 comments on commit 2396508

Please sign in to comment.