Skip to content
This repository has been archived by the owner on Feb 15, 2023. It is now read-only.

Latest commit

 

History

History
62 lines (36 loc) · 1.36 KB

README.md

File metadata and controls

62 lines (36 loc) · 1.36 KB

Unmaintained

Da der Vorschlag nun umgesetzt wird, schließe ich weitere Entwicklungen hier aus.

ft:pedia Volltextsuche

Vorschlag für eine alternative Volltextsuche über die ft:pedia Ausgaben basierend auf Xapian.

Installation

Das Repository bringt außer der Volltext-Datenbank und dem Xapian Modul alles mit.

Die Xapian-Bindings lassen sich wie folgt installieren:

pip install sphinx xapian-bindings

Anschließend läßt sich die Volltext-Datenbank mit

python fulltext.py

erzeugen und die Weboberfläche mit

python ftpediasearch.py

aufrufen.

Die Adresse "http://127.0.0.1:8080/" kann anschließend im Browser aufgerufen werden.

Grundsätzliches Vorgehen

Zunächst müssen die PDF-Dateien in Textdateien umgewandelt werden. Das Script make_texts.py nimmt an, dass die PDFs in dem Verzeichnis ./ftpedia_data/ liegen und legt die Resultate in ./ftpedia_txt/ ab.

Das vorgenannte Script fulltext.py übernimmt das Erstellen der Datenbank sowie die Suche. ftpediasearch.py dient lediglich der Demonstration.

Quellen

ft:pedia

ft:pedia Volltextsuche

CSV-Datei