Skip to content
New issue

Have a question about this project? Sign up for a free GitHub account to open an issue and contact its maintainers and the community.

By clicking “Sign up for GitHub”, you agree to our terms of service and privacy statement. We’ll occasionally send you account related emails.

Already on GitHub? Sign in to your account

Kriterium: Seite bietet relevante Inhalte #50

Open
marians opened this issue Jun 6, 2018 · 2 comments
Open

Kriterium: Seite bietet relevante Inhalte #50

marians opened this issue Jun 6, 2018 · 2 comments
Labels
komponente:spider Der Spider sammelt Daten über Websites kriterien Betrifft die Prüfkriterien, nach denen Sites bewertet werden

Comments

@marians
Copy link
Member

marians commented Jun 6, 2018

Aktuell bekommt eine Seite wie https://gruene-ml.de/wordpress/strasslach/ die Höchstpunktzahl, obwohl sie keinerlei relevanten Inhalt enthält.

Wir sollten ein grundlegendes Kriterium im Sinne von "Seite enthält relevante Inhalte" einführen. Hierzu würde es reichen, die reinen Textmenge auf einer Seite zu messen. Im Vergleich unter allen Sites sollte ermittelbar sein, was ein typischer Wert und was ein Mindestwert sein dürfte.

@marians marians added the kriterien Betrifft die Prüfkriterien, nach denen Sites bewertet werden label Jun 6, 2018
@marians marians added this to To do in default-project Oct 29, 2018
@marians
Copy link
Member Author

marians commented Oct 30, 2018

Noch ein Beispiel: http://www.xn--grne-burbach-elb.de/

image

@marians
Copy link
Member Author

marians commented Nov 5, 2018

Ein relativ einfacher Ansatz wäre:

  • Text der Startseite extrahieren
  • In tokens zerlegen
  • Stoppwörter entfernen
  • Resultat speichern und zählen
  • Schwellenwert festlegen, ab dem es einen Punkt gibt

Das würde auch weitere Möglichkeiten der Auswertung eröffnen (z. B: TF-IDF)

@marians marians moved this from To do to Neue Kriterien in default-project Nov 5, 2018
@marians marians added the komponente:spider Der Spider sammelt Daten über Websites label Nov 5, 2018
Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment
Labels
komponente:spider Der Spider sammelt Daten über Websites kriterien Betrifft die Prüfkriterien, nach denen Sites bewertet werden
Projects
Status: Neue Kriterien
default-project
  
Neue Kriterien
Development

No branches or pull requests

1 participant