Update scraper.rb

BfB-Schenefeld · Apr 22, 2024 · f8239bc · f8239bc
1 parent a135b7f
commit f8239bc
Showing 1 changed file with 65 additions and 23 deletions.
diff --git a/scraper.rb b/scraper.rb
@@ -25,36 +25,78 @@
 # called "data".
 require 'open-uri'
 require 'nokogiri'
+require 'date'
+
+# Methode zur Extraktion und Formatierung des Datums
+def extract_and_format_date(dow, dom, month, year)
+  dom = dom.to_s.rjust(2, '0')
+  month = month.to_s.rjust(2, '0')
+  dow_translation = {'Mo' => 'Mon', 'Di' => 'Tue', 'Mi' => 'Wed', 'Do' => 'Thu', 'Fr' => 'Fri', 'Sa' => 'Sat', 'So' => 'Sun'}
+  dow_en = dow_translation[dow]
+  date_str = "#{dow_en}, #{dom} #{Date::MONTHNAMES[month.to_i]} #{year}"
+  date = Date.parse(date_str)
+  german_days = { 'Mon' => 'Mo.', 'Tue' => 'Di.', 'Wed' => 'Mi.', 'Thu' => 'Do.', 'Fri' => 'Fr.', 'Sat' => 'Sa.', 'Sun' => 'So.' }
+  "#{german_days[date.strftime('%a')]} #{date.strftime('%d.%m.%Y')}"
+rescue ArgumentError
+  'Invalid date'
+end
+
+# Methode zum Scrapen der Kalenderdaten (Ebene 1)
+def scrape_calendar_data(year, month)
+  url = "https://www.sitzungsdienst-schenefeld.de/bi/si010_r.asp?MM=#{month}&YY=#{year}"
+  document = Nokogiri::HTML(open(url))
+  document.css('tr:not(.emptyRow)').each do |row|
+    dow = row.at_css('.dow').text
+    dom = row.at_css('.dom').text
+    time = row.at_css('.time div').text
+    title = row.at_css('.textCol a').text
+    event_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{row.at_css('.textCol a')['href']}"
+    room = row.at_css('.raum div').text
+    formatted_date = extract_and_format_date(dow, dom, month, year)
+    puts "Datum: #{formatted_date}, Zeit: #{time}, Titel: #{title}, URL: #{event_url}, Raum: #{room}"
+    scrape_event_details(event_url)  # Aufruf von Ebene 2
+  end
+end
+
+# Ebene 2: Sitzungswebseite
+def scrape_event_details(event_url)
+  document = Nokogiri::HTML(open(event_url))
+  document.css('tr').each do |row|
+    index_number = row.at_css('td.tonr a').text.strip rescue ''
+    betreff = row.at_css('td.tobetreff div a').text.strip rescue row.at_css('td.tobetreff div').text.strip
+    top_url = row.at_css('td.tobetreff div a')['href'] rescue "-"
+    vorlage_link = row.at_css('td.tovonr a')
+    vorlage_text = vorlage_link ? vorlage_link.text.strip : "-"
+    vorlage_url = vorlage_link ? "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlage_link['href']}" : "-"
+    puts "Gefunden: #{index_number}, Betreff: #{betreff}, TOP-URL: #{top_url}, Vorlage: #{vorlage_text}, Vorlage URL: #{vorlage_url}"
+    scrape_top_details(top_url) if top_url != "-"
+  end
+end
+
+# Ebene 3: TOP-Seite
+def scrape_top_details(top_url)
+  document = Nokogiri::HTML(open(top_url))
+  top_protokolltext = document.at_css('#mainContent').text.strip.gsub(/\s+/, ' ')
+  puts "TOP-Protokolltext: #{top_protokolltext}"
+  vorlagen_link = document.at_css('span#vobetreff a')
+  if vorlagen_link
+    vorlagen_url = "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlagen_link['href']}"
+    scrape_vorlagen_details(vorlagen_url)
+  end
+end
 
-# Funktion, um Details von der Ebene-4-Seite (Vorlagenseite) zu scrapen
+# Ebene 4: Vorlagenseite
 def scrape_vorlagen_details(vorlagen_url)
-  puts "Zugriff auf Vorlagenseite: #{vorlagen_url}"
   document = Nokogiri::HTML(open(vorlagen_url))
-
-  # Extrahieren der Vorlagenbezeichnung
-  vorlagenbezeichnung_element = document.at_css('#header h1.title')
-  vorlagenbezeichnung = vorlagenbezeichnung_element ? vorlagenbezeichnung_element.text.strip : "Keine Vorlagenbezeichnung gefunden"
+  vorlagenbezeichnung = document.at_css('#header h1.title').text.strip
+  vorlagenprotokolltext = document.at_css('#mainContent').text.gsub(/\s+/, ' ').strip
   puts "Vorlagenbezeichnung: #{vorlagenbezeichnung}"
-
-  # Extrahieren des gesamten Texts von mainContent
-  vorlagenprotokolltext_element = document.at_css('#mainContent')
-  vorlagenprotokolltext = vorlagenprotokolltext_element ? vorlagenprotokolltext_element.text.gsub(/\s+/, ' ').strip : "Kein Text im Hauptinhalt gefunden"
   puts "Vorlagenprotokolltext: #{vorlagenprotokolltext}"
-
-  # Extrahieren der Vorlagen-PDF-URL
-  vorlagen_pdf_link = document.at_css('a.doclink.pdf')
-  vorlagen_pdf_url = vorlagen_pdf_link ? "https://www.sitzungsdienst-schenefeld.de/bi/#{vorlagen_pdf_link['href']}" : "Keine Vorlagen-PDF-URL gefunden"
-  puts "Vorlagen-PDF-URL: #{vorlagen_pdf_url}"
-
-  # Extrahieren der Vorlagen-Sammel-PDF-URL
-  sammel_pdf_link = document.xpath("//a[contains(@data-simpletooltip-text, 'Vorlage-Sammeldokument')]").first
-  sammel_pdf_url = sammel_pdf_link ? "https://www.sitzungsdienst-schenefeld.de/bi/#{sammel_pdf_link['href']}" : "Keine Vorlagen-Sammel-PDF-URL gefunden"
-  puts "Vorlagen-Sammel-PDF-URL: #{sammel_pdf_url}"
 end
 
-# Beispiel-URL für die Funktion
-vorlagen_url = 'https://www.sitzungsdienst-schenefeld.de/bi/vo020_r.asp?VOLFDNR=4918'
-scrape_vorlagen_details(vorlagen_url)
+# Startpunkt
+scrape_calendar_data(2024, 3)
+