Skip to content

I-News-Pipeline-HTW-Berlin/wiki

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 

Repository files navigation

iNews-Pipeline

Implementierung einer Dokumenten-Pipeline für Nachrichtenartikel

alt text

Zur grafischen Einführung bitte unsere Präsentation anschauen.

=> Hier ein Überblick über die Virtuelle Maschine und die laufenden Dienste.

1. Crawler

Aufgaben:

  • regelmäßig neue Artikel von News-Seiten “scrapen”, bestimmte Merkmale erfassen und in eine Datenbank schreiben.

aktuell:

Technologien:

geschrieben in Python

2. UIMA

Technologien:

Aufgaben:

  • die gescrapten Artikel analysieren

aktuell:

  • Lesezeit
  • relevanteste Wörter bzw. Objekte (nach Tf-Idf)
  • Lemmas
  • Zuordnung eines oder mehrerer Departments

geschrieben in Scala

3. mongoDB

  • Dokumentenbasierte NoSQL Datenbank
  • Basiert quasi auf JSON-Dokumenten
  • unser zentraler Datenspeicher, hält die Daten der Scraper und der UIMA-Pipeline

4. ElasticSearch

  • Auf JSON basierende Suchmaschine
  • nutzt JSON für Anfragen und Antworten
  • Teil des Elastic Stacks
  • Stellt die Suchfunktion bereit

5. HTTP-API

Aufgaben:

  • Zeitungsartikel nach außen sichtbar machen
  • Analytics aggregieren
  • Elasticsearch-Abfragen (suchen, filtern und aggregieren)
  • GET-Anfragen bearbeiten
  • Antwort mit JSON-Daten

geschrieben in Scala mit der Akka-Library

6. Frontend

mit ReactJS geschrieben

  • 2011 innerhalb von Facebook entwickelt
  • Komponenten
  • State und Props
  • Virtual DOM

und folgenden Libraries:

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published