In [1]:
from IPython.core.display import HTML, display
display(HTML('<style>.container { width:100%; !important } </style>'))

# Beispiel-Implementierung: Lokale Suchmaschine

## Ziel der Beispiel-Implementierung
Im Folgenden wird eine Anwendung der zuvor theoretisch diskutierten Inhalte vorgestellt. Dabei soll eine lokale Suchmaschine entwickelt werden, welche in der Lage ist, pdf-Dateien auf einem lokalen Computer-System zu parsen, in einen invertierten Index aufzunehmen sowie Suchanfragen eines Benutzers sinnvoll zu beantworten. <br>
Zur Relevanz-Bestimmung der Dokumente wird das TF-IDF-Maß, welches bereits vorgestellt wurde, genutzt. Um den Index zu speichern, wird die von Python mitgelieferte Datenstruktur "dictionary", welche im Grunde eine Hashmap ist, genutzt.
Weiter werden einige Bibliotheken eingesetzt, welche einige Vorarbeit leisten und damit den Code der Beispiel-Implementierung auf das Wesentliche beschränken. So soll die grundlegende Arbeitsweise eines Information Retrieval-Systems dargelegt werden.

## Genutzte Bibliotheken
Bevor mit der eigentlichen Implementierung der lokalen Suchmaschine begonnen werden kann, müssen einige Bibliotheken eingebunden werden. Darunter fallen Apache Tika, das Math-Modul von Python, os (um auf die Directories zugreifen zu können), python-magic, regular expressions (re) (und noch weitere, bei Bedarf einfügen!). <br>

### Tika
Tika liefert eine Parser, mit dessen Hilfe der Text aus - unter anderem - pdf-Dateien extrahiert werden kann.
Mit dem Aufruf _parser.from_\__file(file)_ kann eine pdf-Datei in reinen Text umgewandelt werden. Die Funktion liefert ein Dictionary zurück, welches einen Key _content_ besitzt, über den auf den Inhalt der pdf-Datei zugegriffen werden kann.

### python-magic
Mittels python-magic ist es möglich, unabhängig von der Dateiendung, den Typ einer Datei zu ermitteln. Dies hat den Vorteil, dass die Suchmaschine sowohl unter Windows, als auch unter Unix-Systemen, alle pdf-Dateien finden kann, da unter Unix die Dateiendung keine garantierten Rückschlüsse auf den Typ der Datei zulässt.

### nltk
Die Bibliothek nltk (natural language toolkit) wird verwendet, um die Eingabetexte der Dokumente und die Eingaben des Nutzers zu normalisieren. Zudem wird Stemming mithilfe von nltk durchgeführt, um Wörter auf ihren Wortstamm zurückzuführen. In den unteren Methoden wird näheres über die genutzten Operationen erläutert.


In [2]:
from tika import parser
import magic
import math
import os
import string
import platform
import re
import operator
from nltk.tokenize import RegexpTokenizer

## Die Document-Klasse
Das Speichern er für das Retrieval wichtigen Informationen, geschieht mittels einer Document-Klasse. Diese Klasse hält alle Attribute, die wichtig sind, um das TF-IDF-Maß berechnen zu können. Diese Attribute sind:
- url
- length
- id

Die Variable _url_ ist ein String und enthält den Pfad zum Dokument, welches durch das entsprechende Document-Objekt repräsentiert wird. _length_ ist ein Integer und beinhaltet die Anzahl der Wörter, die in dem Dokument vorkommen und _id_ ist die eindeutige Dokumenten-ID, zu der weiter unten noch genaueres gesagt wird.

In [3]:
class Document:
    def __init__(self, url, length, id, textList):
        self.url = url
        self.length = length
        self.id = id
        self.score = 0.
        self.textList = textList

## Der Index
Nachdem die benötigten Bibliotheken bekannt sind, kann der Index implementiert werden. Bevor dieser jedoch aufgebaut werden kann, sind einige Vorarbeiten nötig, die durch die vorgestellten Bibliotheken gestützt werden.
Der Index wird im Folgenden als Klasse implementiert. Diese beinhaltet die folgenden Methoden, die in den folgenden Abschnitten genauer diskutiert werden:
- buildIndex()
- retrieve()
- calcTFIDF()

Weiter werden die folgenden Member-Variablen benötigt:
- hashmap
- fileCount
- docHashmap

Die Member-Variable _hashmap_ ordnet allen Termen eine Menge von eindeutigen Dokumenten-IDs zu, in denen sie vorkommen. Im Dictionary _docHashmap_ werden die Dokuemnten-IDs als Key genutzt, um eine Zurodnung von Dokumenten-IDs auf Document-Objekte zu ermöglichen. Die Variable _fileCount_ ist ein Integer und wird für jedes gefundene Dokument um _1_ hochgezählt. Damit ist diese Variable qualifiziert als eindeutige Dokumenten-ID zu fungieren, wofür sie genutzt wird.


In [4]:
class Index:
    hashmap = {} #dictionary
    fileCount = 0 #integer, Gesamtzahl aller gefunden Dateien
    docHashmap = {}

## buildIndex
Die Methode _buildIndex_ baut - wie der Name bereits vermuten lässt - den Index auf. Dabei dient ein Dictionary als Basis-Datenstruktur.

Der erste Schritt stellt das Iterieren über alle Directories dar. Gestartet wird bei Linux-Systemen im Root-Directory, unter Windows-Systemen muss über jede Partition iteriert werden. Als nächstes wird über alle Dateien in den Verzeichnissen iteriert. Für jede Datei wird durch python-magic ermittelt, ob es sich um ein pdf-Dokument handelt. Ist ein Dokument vom Typ _pdf_, wird mithilfe von tika der Text aus dem pdf-Dokument extrahiert. 

Für jede entdeckte pdf-Datei wird ein Zähler erhöht, welcher eine eindeutige Dokumenten-ID darstellt. Anschlißend wird mittels der Hilfsmethode _\__processText_ der Text der pdf-Dateien normalisiert. Diese Methode wird weiter unten genauer betrachtet.

Die letzten Schritte beinhalten das Anlegen eines neuen Dokumenten-Objekts, welches in das Dictionary _docHashmap_ eingefügt wird. Zudem wird die Dokumenten-ID mithilfe der Hilfsmethode  _\__addToIndex_ dem Dictionary _hasmap_ hinzugefügt, welches den eigentlichen Index enthält.

In [5]:
def buildIndex(self):
    
    startDirectories = self._getStartDirectories()
    #startDirectories = [Userdefined path]
    mime = magic.Magic(mime=True)
    
    for directory in startDirectories:
        for root, _, files in os.walk(directory):
            for file in files:
                
                path = os.path.abspath(os.path.join(root, file))
                
                try:
                    if mime.from_file(path) == "application/pdf":

                        fileData = parser.from_file(path)
                        rawText = fileData['content']
                        self.fileCount += 1
                    
                        processedText = self._preprocessText(rawText)
                        document = Document(path, len(processedText), self.fileCount, processedText)
                        self.docHashmap.update({self.fileCount : document})
                        self._addToIndex(self.fileCount, processedText)
                except:
                    continue
                    
    return

Index.buildIndex = buildIndex

### Hilfsmethoden
In diesem Abschnitt werden die genutzten Hilfsmethoden kurz vorgestellt. Diese werden jedoch nicht in der Tiefe behandelt, wie die drei Haupt-Methoden behandelt werden. 

#### _getStartDirectories
Die Methode _\__getSartDirectories_ liefert eine Liste zurück, welche abhängig vom Betriebssystem, auf dem die Suchmaschine läuft, die Start-Verzeichnisse zurückgibt, in denen nach pdf-Dateien gesucht werden soll. Falls das zugrunde liegende Betriebssystem ein Linux-basiertes System ist, wird die Liste __["/"]__ zurückgegeben, falls ein Windows-System zugrundeliegt, wird die Liste aller Partitionen zurückgegeben.

In [6]:
def _getStartDirectories(self):
    start = []
    
    if platform.system() == "Linux":
        start.append("/")
    elif platform.system() == "Windows":
        start = ['%s:\\' % d for d in string.ascii_uppercase if os.path.exists('%s:' % d)]
    else:
        raise EnvironmentError
        
    return start

Index._getStartDirectories = _getStartDirectories

#### _addToIndex

Diese Methode bekommt als Argumente eine Liste von Termen, die in einem pdf-Dokument vorkommen. Zudem wird eine eindeutige Dokumenten-ID übergeben.

Für jeden Term in _terms_ wird versucht, eine Menge mit Dokumenten-IDs aus dem Index zu holen. Existiert bereits eine Menge, wird kein Fehler geworfen.

Schlägt der Versuch, die Menge für den Term _term_ aus dem Dictionary zu holen, fehl, existiert noch keine Menge. In diesem Fall wird eine neue Menge erstellt und für den Term _term_ ein Eintrag im Dictionary hinzugefügt, der auf die neu erstellte Menge referenziert.

In [7]:
def _addToIndex(self, documentID, terms):
    for term in terms:
        try:
            docs = self.hashmap[term]
            docs.add(documentID)
            self.hashmap.update({term : docs})
        except KeyError:
            docs = {documentID}
            self.hashmap.update({term : docs})
    
Index._addToIndex = _addToIndex

#### _preprocessText
Diese Methode dient der Vorverarbeitung der Texte, die in den pdf-Dokumenten stehen. Hierfür wird der Text eines PDF-Dokumentes an den Parametet _text_ übergeben. Als erster Schritt wird der gesamte Text in Lower-Case (Kleinschreibung) gesetzt, damit später bei der Suche die Groß- bzw. Kleinschreibung irrelevant ist. Das Ergebnis wird in der Variable _lowerText_ gespeichert.
Im nächsten Schritt werden alle Zahlen aus _lowerText_ entfernt und in _prepText_ gespeichert, da Zahlen für die Textsuche nicht von Bedeutung sind.

Als nächstes wird mithilfe der Klasse _RegexpTokenizer_, die durch die nltk-Bibliothek zur Verfügung gestellt wird, der String _prepText_ in eine Liste von Tokens aufgespalten. Was als Token gewertet wird, wird mithilfe einer _regular expression_ definiert, im Deutschen regulärer Ausdruck genannt. Dieser reguläre Ausdruck wird dem Konstruktor der _RegexpTokenizer_-Klasse in Form eines raw Strings übergeben. Ein raw String ist ein String welcher mit einem _r_ am Anfang gekennzeichnet ist und ein Backslash (\\) als ein Literal behandelt und nicht als Escape-Zeichen. Dies ist bei regulären Ausdrücken nützlich, da in diesen viel mit Backslashes gearbeitet wird.

Im Folgenden wird der raw String näher betrachtet, um zu verstehen, was als ein Token gewertet wird. Der erste Teil des regulären Ausdrucks _[a-zA-Z]+-\$_ definiert alle Buchstabenketten mit einen oder mehreren Elementen, die mit einem Miuszeichen bzw. Bindestrich enden, als Token. Die eckigen Klammern werden bei regulären Ausdrücken genutzt um eine Zeichenauswahl zu definieren. Das bedeutet das ein Zeichen aus dieser Auswahl Das Pluszeichen hinter diesen Klammern sagt aus, das ein oder mehr als ein Zeichen dieser Gruppe erwartet wird. Das Dollarzeichen definiert das Ende eines Wortes, in unserem Fall Tokens, und bezieht sich auf das vorangehende Zeichen, also den Bindestrich. So bedeutet _-$_, dass das Wort auf einem Bindestrich endet. Das Oderzeichen (|) verknüpft diesen regulären Ausdruck mit dem zweiten.
Der zweite reguläre Ausdruck _\w+_ definiert alle alphanumerischen Zeichenketten mit einem oder mehreren Elementen als Token. 
Mithilfe der _tokenize_-Methode wird die _regular expression_ auf den übergebenen String angewendet. Jeder Substring des mitgegebenen Arguments, der die _regular expression_ erfüllt, wird einer Liste angefügt.

Der Bindestrich ist wichtig, da mit dessen Hilfe, alle Wörter gefunden werden können, die im Text aufgrund eines Zeilenumbruchs getrennt wurden. In der for-SChleife werden die Wörter auf die Eigenschaft, mit einem Bindestrich zu enden, geprüft und gegebenenfalls zusammengesetzt. Dazu wird der Bindestrich aus dem Wort entfernt (_word[-1]_) und mit dem nächsten word in der Tokenliste verknüpft

Diese Methode ist jedoch nicht immer korrekt, denn es kann auch folgender Fall eintreten: Eine Zeile endet mit z.B. Damen-, die nächste Zeile geht mit z.B. und Herrenschuhe weiter. In diesem Fall ist der Bindestrich gewollt, der Algorithmus fügt jedoch die Wörter _Damen_ und _und_ zu einem Wort zusammen. Da dieser Fall jedoch sehr selten auftritt, wird in Kauf genommen, dass ab und zu die Wörter falsch zusammengefügt werden.

In [8]:
def _preprocessText(self, text):
    
    lowerText = text.lower()
    
    prepText = re.sub(r'\d+', '', lowerText)
            
    tokenizer = RegexpTokenizer(r'[a-zA-Z]+-$|\w+')
    tokenList = tokenizer.tokenize(prepText)
    
    for token in tokenList:
        if token[-1] == '-':
            
            index = tokenList.index(token)
            compositeWord = token[:-1]+tokenList[index+1]
            tokenList[index] = compositeWord
            del tokenList[index+1]
            
    return result
    
Index._preprocessText = _preprocessText

# retrieve
Die retrieve-Methode dient der Suche. Die Idee dabei ist, dass der Nutzer ein oder mehrere Schlagworte eingeben kann, auf deren Basis die am besten passenden Dokumente zurückgeliefert werden. Auch die Schlagworte werden den gleichen Normalisierungs-Prozess durchlaufen wie die Texte der Dokumente.

Zunächst wird der Such-String des Nutzers mittels der bereits bekannten Methode _\__preprocessText_ normalisiert. Im zweiten Schritt wird eine leere Menge angelegt, in der die Dokumenten-IDs, die zu den Termen gefunden werden, gespeichert. Mithilfe der for-Schleife wird über _processedStrings_ iteriert. Für jedes Wort wird versucht, die Menge aller Dokumenten-IDs zu dem Term _word_ aus dem Index zu beschaffen. Existiert die Menge zu dem Term _word_, wird die Vereinigung der bereits in der Menge _result_ stehenden Dokumenten-IDs und der mit dem Term _word_ gefundenen Dokumenten-IDs gebildet. Existiert der Term _word_ nicht als Key im Index, wird beim nächsten Term der Liste _processedStrings_ fortgefahren.

In [9]:
def retrieve(self, searchString):
    # pre-processing
    processedStrings = self._preprocessText(searchString)
    result = set()
    df = {}
    helpDict = {}
    resultList = []
    
    for word in processedStrings:
        try:
            documents = set(self.hashmap[word])
            df[word] = len(documents)
            result = result.union(documents)
        except KeyError:
            continue
    
    for document in result:
        doc = ind.docHashmap[document]
        doc.tf_idf(processedStrings,df)
        helpDict[doc.id] = doc.score
        
    sortedDict = sorted(helpDict.items(), key=operator.itemgetter(1))
    
    for key,_ in sortedDict:
        resultList.append(ind.docHashmap[key].url)
        
    return resultList[::-1]

Index.retrieve = retrieve

In [10]:
ind = Index()
ind.buildIndex()

2019-03-29 10:31:36,958 [MainThread  ] [WARNI]  Failed to see startup log message; retrying...
2019-03-29 11:41:13,520 [MainThread  ] [WARNI]  Tika server returned status: 422
2019-03-29 11:41:13,656 [MainThread  ] [WARNI]  Tika server returned status: 422
2019-03-29 11:41:13,916 [MainThread  ] [WARNI]  Tika server returned status: 422


# TF-IDF
Die tf_idf-Methode wird in die Dokumentenklasse implementiert Für die Berechnung des TF-IDF-Maßes werden folgende Werte benötigt:

- die Terme, welche gesucht werden bzw. in die Query eingegeben wurden
- für jeden Term die Anzahl der Vorkommnisse im Dokument
- für jeden Term die Anzahl der Dokumente, welche für den einen Term gefunden wurden (Document Frequency)
- die Anzahl der Dokumente in der Kollektion
- d

In [11]:
def tf_idf(self, termList, df):
    tfDict = {}
    for term in termList:
        tfDict[term] = 0
    
    ind = Index()
        
    for term in self.textList:
        if term in termList:
            tfDict[term] = tfDict[term]+1

    for key, value in df.items():
        idf = math.log((ind.fileCount+1/value+1),10)
        tfDict[key] = tfDict[key]*idf
    
    self.score = sum(tfDict.values())

Document.tf_idf = tf_idf

In [41]:
resultSet = ind.retrieve("Python Stroetmann")
if resultSet:
    for elem in resultSet:
        if elem.split('.')[1] != 'dat':
            print(elem)

C:\Program Files (x86)\MySQL\MySQL Documentation 5.7\refman-5.7-en.a4.pdf
C:\Program Files (x86)\MySQL\MySQL Documentation 5.7\refman-5.7-en.pdf
C:\Users\marle\OneDrive\Studium\Wissenbasierte Systeme\artificial-intelligence.pdf
C:\Users\marle\AppData\Local\Programs\MiKTeX 2.9\doc\latex\listings\lstdrvrs.pdf
C:\Program Files\Setlx\tutorial.pdf
C:\Users\marle\AppData\Local\Programs\MiKTeX 2.9\doc\asymptote\asymptote.pdf
C:\Users\marle\OneDrive\Studium\Algorithmen\algorithms.pdf
C:\Uni\Studium\Logik\algorithms.pdf
C:\Users\marle\OneDrive\Studium\Logik\algorithms.pdf
C:\Uni\Studium\Praxisbericht_2\Monitoring-LAPTOP-2NADN4MG-2.pdf
C:\Users\marle\OneDrive\Studium\Praxisbericht_2\Monitoring-LAPTOP-2NADN4MG-2.pdf
C:\Users\marle\OneDrive\Studium\Wissensmanagement\artificial-intelligence.pdf
C:\Uni\Studium\Wissensmanagement\artificial-intelligence.pdf
C:\Github\Information-Retrieval\Latex\main.pdf
C:\Users\marle\OneDrive\Studium\Praxisbericht_2\Monitoring.pdf
C:\Uni\Studium\Statistik\statistik.p

# Probleme

- er findet *.dat-Dateien
- Kontext der Wörter nicht einbezogen
- kein Stemming bisher
- Queries mit einem Buchstaben finden viele Dokumente (vor allem Formeln etc.) -> durch Stemming gelöst, falls nicht gewollt

- Index.build() braucht sehr lange -> parallelisieren?
- Index muss jedes Mal neu aufgebaut werden -> via Pickle, JSON oder XML speichern und ziehen bei Start des Programms
- RAM Auslastung ist durch das abspeichern der Dokumenteninhalte sehr hoch, beschleunigt aber auch die retrievve-Funktion

# Verbesserungen

- zwei Mengen bilden -> einmal Schnitt und einmal Vereinigung\Schnitt -> Dokumente im Schnitt höher ranken
- Kontext (2 Wörter links, 2 Wörter rechts neben Wort x) speichern ?
- RAM Auslastung verringern, indem nur die Texte von den schon gesuchten Dokumente in dem Document-Objekt gespeichert werden