Implementierung einer Dokumenten-Pipeline für Nachrichtenartikel
Zur grafischen Einführung bitte unsere Präsentation anschauen.
=> Hier ein Überblick über die Virtuelle Maschine und die laufenden Dienste.
Aufgaben:
- regelmäßig neue Artikel von News-Seiten “scrapen”, bestimmte Merkmale erfassen und in eine Datenbank schreiben.
aktuell:
Technologien:
- Scrapy
- mongoDB
- Kibana (mit Elasticsearch)
geschrieben in Python
Technologien:
Aufgaben:
- die gescrapten Artikel analysieren
aktuell:
- Lesezeit
- relevanteste Wörter bzw. Objekte (nach Tf-Idf)
- Lemmas
- Zuordnung eines oder mehrerer Departments
geschrieben in Scala
- Dokumentenbasierte NoSQL Datenbank
- Basiert quasi auf JSON-Dokumenten
- unser zentraler Datenspeicher, hält die Daten der Scraper und der UIMA-Pipeline
- Auf JSON basierende Suchmaschine
- nutzt JSON für Anfragen und Antworten
- Teil des Elastic Stacks
- Stellt die Suchfunktion bereit
Aufgaben:
- Zeitungsartikel nach außen sichtbar machen
- Analytics aggregieren
- Elasticsearch-Abfragen (suchen, filtern und aggregieren)
- GET-Anfragen bearbeiten
- Antwort mit JSON-Daten
geschrieben in Scala mit der Akka-Library
mit ReactJS geschrieben
- 2011 innerhalb von Facebook entwickelt
- Komponenten
- State und Props
- Virtual DOM
und folgenden Libraries: