# Erkläre eine Robotik Konferenz... mit AI!

## Storyboard

<div style="text-align: justify">
    Für uns ist es immens wichtig, über die aktuellen Tätigkeiten anderer Forschungseinrichtungen informiert zu sein. In Österreich gibt es eine Plattform wo Forschungseinrichtungen die Ergebnisse ihrer Arbeit im Bereich Robotik und AI präsentieren können - diese Plattform ist der <a href="https://roboticsworkshop.at">Austrian Robotics Workshop</a>. Dort werden jedes Jahr zwischen 30 und 50 Paper vorgestellt, welche auf zwei bis sechs Seiten die wissenschaftlichen Ergebnisse präsentieren. Wir wollen diese Publikationen verwenden, um einen Überblick über den Stand der Wissenschaft in der österreichischen Szene zu gewinnen. Aber wie kann man mit so viel Text umgehen?
    <br /><br />
    
    Um große Mengen an Text effizient zu erfassen, arbeiten wir mit Natural Language Processing und Regular Expressions (siehe die AIAV Videos zu <a href="https://www.youtube.com/watch?v=B-weR5ngYIU&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=24">Sprachverarbeitung</a>, <a href="https://www.youtube.com/watch?v=XCu1srONTMc&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=16
">Textverarbeitung 1</a> und <a href="https://www.youtube.com/watch?v=wvRb1dWjzyQ&list=PLfJEPw9Zb0EPLEZZlNCQc9F3F7RWG6EsK&index=21">Textverarbeitung 2</a>). Natural Language Processing (NLP) ist eine Mischung aus künstlicher Intelligenz und Linguistik. Das Ziel von NLP ist es Statistik zu verwenden, um große Mengen an Text zu analysieren [1]. Probleme die dabei von NLP addresiert werden sind vor allem maschinelle Übersetzung, Einholen von Informationen, Textkategorisierung und Datenextahierung aus Text [2].
    <br /><br />
    
    Aber wie wendet man NLP in der Praxis an? Neben kompletten Toolkits, wie z.B. dem <a href="https://www.nltk.org/">Python Natural Langugae Toolkit</a>, können sogennante <a href="https://docs.python.org/3/howto/regex.html">Regular Expressions (RegEx)</a> verwendet werden. Regular Expressions sind in mehreren Programmiersprachen verfügbar - hier wurden sie innerhalb von Python mittels des <a href="https://docs.python.org/3/library/re.html">re Moduls</a> verwendet. RegEx können als eigene kleine Programmiersprache gesehen werden. Sie erlauben es, effizient nach Mustern in einem Text zu suchen. Dabei wird das Muster mittels sogenannter Matching Characters spezifiziert. 
    <br /><br />
    
    <a href="https://docs.python.org/3/howto/regex.html">Das Python Regular Expressions HOWTO</a> beschreibt die genaue Funktionalität der Matching Characters im Detail. Die Grundidee ist es, auf effiziente Weise ein Muster vorzugeben, welches im Text gefunden werden kann. RegEx erlauben es in ihrer einfachsten Form, aufeinanderfolgende Charaktere im Text zu finden. RegEx sind in den folgenden Absätzen und genauer erklärt. 
    <br /><br />
    
    In ihrer grundlegensten Form können RegEx bestimmte Wörter in einem Text finden. Im folgenden Beispiel setzen wir eine RegEx zur Suche des Wortes 'uns' ein.
    </div>

In [20]:
# Wir importieren das re Modul zum Testen der Regular Expressions und definieren einen Beispieltext.
import re

text = "Das richtige Verwenden von AI erlaubt es uns, Probleme flexibel und nachvollziehbar zu lösen. \
Wenn wir Probleme haben, wenden wir uns an die AIAV Wissensdrehscheibe."

# Die Regular Expression wird als 'uns' definiert. 
# Die Suchfunktion sucht dann nach dem ersten Vorkommen der RegEx im Text.
expression = 'uns'

# Die Suchfunktion liefert uns den gefundenen Text und seine Position
print(re.search(re.compile(expression), text))

<re.Match object; span=(41, 44), match='uns'>


<div style="text-align: justify">
Wollen wir nun alle Vorkimnisse der RegEx finden, können wir anstatt re.search() re.findall() verwenden. Im Beispieltext kommt 'uns' zwei mal vor.
    </div>

In [10]:
print(re.findall(re.compile(expression), text))

['uns', 'uns']


<div style="text-align: justify">
Neben Buchstaben und Zahlen können auch Sonderzeichen in Regular Expressions verwendet werden. Während die meisten Zeichen einfach nur mit sich selbst matchen, bieten einige Sonderzeichen, die sogenannten Matching Characters, extra Funktionalität für den Ausdruck einer Regular Expression. So ist es möglich, bestimmte Gruppen an Charakteren von der Suche auszuschließen oder nach sich wiederholenden Sequenzen zu suchen. Beispiele für Matching Charaktere und ihre Funktionen sind in Tabelle 1 zusammengefasst.
    </div>

  _Tabelle 1: Zusammenfassung der wichtigsten Matching Charaktere:_
  
  | Symbol  | Funktion                                                 |
  | ------- | --------------------------------------------------------:|
  | ^       | Negiert den vorhergehenden Teil der Expression           |
  | \*      | Spezifiziert 0 oder mehr Wiederholungen                  |
  | \+      | Spezifiziert 1 oder mehr Wiederholungen                  |
  | ?       | Spezifiziert mindestens 0 und maximal 1 Wiederholungen   |
  | {m,n}   | Spezifiziert mindestens m und maximal n Wiederholungen   |
  | \[ \]   | Definieren eine Klasse von Ziffern                       |
  | \       | Definiert ein set von Ziffern oder macht aus einem Metacharakter eine normale Ziffer                            |
  | ()      | Definiert eine Gruppe                                    |  

### Praktische Implementierung

<div style="text-align: justify">    
    Für den praktischen Usecase wurden Regular Expressions zusammen mit anderen Textverarbeitungsmethoden zur Klassifizierung der Veröffentlichungen vom <a href="https://roboticsworkshop.at">Austrian Robotics Workshop (ARW)</a> verwendet. Wir wollen die Veröffentlichungen den vom Workshop angegebenen Themengebieten zuordnen um uns einen Überblick über aktuelle Forschungstrends zu verschaffen. Da es in der Formatvorlage des ARW keine händisch angegebenen Schlagwörter gibt, müssen wir zunächst potentiell wichtige Wörter aus den Texten ermitteln. Anhand dieser Schlagwörter werden die Texte dann den Themengebieten zugeordnet.
    <br /><br />
    
    Der Ablauf dafür ist wie folgt: Zunächst wird der rohe Text aus den Artikeln importiert. Da nicht alle Teile des rohen Textes für die Schlagwörter Interessant sind, wird der Text zunächst mittels RegEx formatiert. Das Literaturverzeichnis wird entfernt, indem die Überschrift "REFERENCES" im Text gesucht und alle folgenden Charaktere weggelassen werden. Dannach werden Textformatierende Charaktere (wie z.B. "\n" für neue Zeilen) und Zitationen (bestehend aus einer Zahl in eckigen Klammern) entfernt. Kapitelüberschriften und Zahlen im Text werden ebenfalls mittels Regular Expressions gesucht und entfernt. Idealerweise erhalten wir so einen Text, welcher nur Wörter aus dem Fließtext des Artikels und Satzzeichen beinhaltet.
    <br /><br />
    
    Nun wird der Text in Sätze aufgeteilt. Das passiert anhand der immer noch im Text vorhandenen Satzzeichen. Die Sätze werden wiederum in Token aufgeteilt. Diese Token stellen Schlagwort Kandidaten dar. Die Aufteilung in Kandidaten erfolgt wiederum anhand der Satzzeichen (Satzende heißt auch Abschluss des aktuellen Kandidaten) und auf Basis einer Stoppliste. Die Stoppliste ist eine Liste aus Wörtern welche die Kandidaten voneinander trennen. Solche Stopplisten können automatisch generiert werden und sind innerhalb der gleichen Sprache für verschiedene Anwendungsgebiete unterschiedlich [3].
    <br /><br />
    
    Nach der Generierung der Kandidaten wird jeder Kandidat bewertet. Dafür wird gezählt, wie oft jedes Wort im Text vorkommt (Wortgrad) und in wie vielen Sätzen es vorkommt (Wortfequenz). Aus diesen beiden Metriken wird jeder Schlagwort Kandidat nummerisch bewertet (Wortgrad/Wortfrequenz). Dadurch ergibt sich eine nach ihrer Wichtigkeit sortierte Liste an potentiellen Schlüsselwörtern.
    </div>

<img src="images/Abbildung1Ablauf.png" alt="Drawing" style="width: 600px;"/>

_Abbildung 1: Damit wir uns über die Veröffentlichungen des Austrian Robotics Workshops einen Überblick verschaffen können, wollen wir die Themen der Publikationen automatisch ermitteln. Dafür wird der Text aus jeder Publikation zuerst geladen und formatiert. Stoppwörter teilen den Text dann in Phrasen auf. Diese Phrasen werden gezählt und anhand der Anzahl, wie oft sie im Text (Wortgrad) und in wievielen Sätzen die vorkommen (Wortfrequenz), bewertet. Die Phrasen mit der besten Bewertung werden dann zur Klassifizierung verwendet._

<div style="text-align: justify">  
    Diese Extrahierung wird nun für alle Publikationen des <a href="roboticsworkshop.at">Austrian Robotics Workshops</a> durchgeführt (siehe Abbildung 1). Die Schlagwörter werden dabei für alle Publikationen aus einem Jahr gruppiert. Jedes Paper wird anschließend anhand seiner automatisch generierten Schlagwörter innnerhalb der Themengebiete in Tabelle 2 klassifiziert. Die Themengebiete spiegeln die auf <a href="roboticsworkshop.at">roboticsworkshop.at</a> angegebenen Themengebiete für den Austrian Robotics Workshop wieder. Für jedes Themengebiet wurde eine Liste an Schlagwörtern mittels <a href="https://ads.google.com/intl/de_at/home/tools/keyword-planner/">Google Keyword Planner</a> ermittelt und händisch überarbeitet. RegEx wurde hier wiederum verwendet, um zu überprüfen, welche Schlagwörter aus welchen Publikationen mit den Schlagwörtern in Tabelle 2 übereinstimmen.
    </div>

  | Themengebiet            | Schlagwörter                                                 |
  |:----------------------- | ------------------------------------------------------------:|
  | RobotSensingPerception  | sensor, filter, sensing, vision, camera |
  | MachineLearningAI       | machine learning, artificial intelligence agent, feature, classification, network |
  | RobotModelling          | model estimation, pose, kinematic, structure |
  | SoftwareDesign          | software middleware, simulation, communication, verification |
  | MobileAndServiceRobots  | mobile, plan, rescue, ontology, constraint |
  | HumanRobotInteraction   | human user, interact, safe, workspace |
  | EducationalRobots       | education, show, demonstrate, workshop, school |

  _Tabelle 2: Regular Expressions ordnen die Paper anhand ihrer Schlagworte verschiedenen Themengebieten zu. Dazu wurde zu jedem Thema eine Liste von Schlagworten basieren auf dem Google Keyword Planner erstellt._

<div style="text-align: justify">  
    Die Ergebnisse der einzelnen Klassifikationen werden pro Jahr aufsummiert und der prozentuale Anteil jedes Themas für das jeweilige Jahr wird berechnet. Letzendlich werden diese Anteile, wie in Abbildung 2 gezeigt, als Balkendiagramm dargestellt.
    </div>

<img src="images/Abbildung2Resultate.png" alt="Drawing" style="width: 1200px;"/>

_Abbildung 2: Die Veröffentlichungen des Austrian Robotics Workshops wurden mittels Regular Expressions auf Schlagwörter untersucht. Diese extrahierten Schlagwörter erlauben es uns, die Paper anhand ihres Themengebiets zu klassifizieren um einen Überblick über aktuelle Trends in der Forschung in Österreich zu erlangen._

## Fazit
Regular Expressions erlauben es uns, Natural Language Processing schnell und effizient zu betreiben. Dadurch das RegEx so optimiert sind, können Untersuchungen von großen Mengen Text lokal, ohne viel Rechenleistung durchgeführt werden.

Die Themenbereiche der Veröffentlichungen zeigen einen klaren Trend zur Verwendung von Künstlicher Intelligenz in Robotik. Besonders im Jahr 2018, dem einzigen Jahr zwischen 2016 und 2020, in dem der Austrian Robotics Workshop nicht zusammen mit einer anderen Konferenz abgehalten wurde, fällt der Anteil an Publikationen mit Fokus auf AI sehr hoch aus. Dies zeigt uns, dass AI in der österreichischen Forschung an Robotik Anwendung findet.

### Quellen

[1] Nadkarni, P.M., Ohno-Machado, L. and Chapman, W.W., 2011. Natural language processing: an introduction. Journal of the American Medical Informatics Association, 18(5), pp.544-551.

[2] Russell, S. and Norvig, P., 2002. Artificial intelligence: a modern approach.

[3] Rose, S., Engel, D., Cramer, N. and Cowley, W., 2010. Automatic keyword extraction from individual documents. Text mining: applications and theory, 1, pp.1-20.

<P style="page-break-before: always">

## Codedokumentation

Die Implementierung des Usecases wurde in <a href="python.org">Python 3</a> durchgeführt und verwendet das <a href="https://github.com/chrismattmann/tika-python">Tika-Python Modul</a> zum Einlesen der Pdf Dateien und das <a href="https://www.nltk.org/">Python Natural Langugae Toolkit</a> für das Aufspalten der Texte in Sätze und Wörter. <a href="https://numpy.org/">Numpy</a> und <a href="https://matplotlib.org/">Matplotlib</a> ermöglichen dabei eine anschauliche Visualisierung der Ergebnisse.

Zunächst werden alle benötigten Module installiert und geladen. Mittels des Natural Language Toolkits wird die neueste Version des Tokenizers, einer Klasse zum Aufspalten des Textes in Sätze, heruntergeladen.


Danach wird die _phraseStorage_ Klasse implementiert. Diese Klasse wird verwendet, um jeden Schlagwort Kandidaten, sowie die Anzahl seiner Vorkomnisse im Text und in jedem Satz festzuhalten. 

In [None]:
import sys
!{sys.executable} -m apt install default-jre
!{sys.executable} -m pip install nltk tika matplotlib

import nltk
import re
from tika import parser

from os import listdir
from os.path import isfile, join

import numpy as np

# Download des englischen Tokenisers, zum Aufschlüsseln nach Sätzen
nltk.download('punkt')
tokenizer = nltk.data.load('tokenizers/punkt/english.pickle')

# Festlegung der trennenden Satzzeichen und Import der Stoppwörter aus stopwords.py
punctuation = ['.', ',', '-', ';', '(', ')', '%', '=', '’', '&']
from stopwords import stopwords

In [1]:
# Einführung einer Hilfsklasse um das Zählen der Kandidaten zu vereinfachen
class phraseStorage():
    def __init__(self):
        """ Klassenkonstruktor """
        self.phrases = []
        self.count = []
        self.scentenceCount = []
        self.score = []
    def getPhraseStats(self, phrase):
        """ Gibt die aktuellen Zählstände einer Phrase zurück """
        c = 0
        s = 0
        if phrase in self.phrases:
            c = self.count[self.phrases.index(phrase)] 
            s = self.scentenceCount[self.phrases.index(phrase)]
        return phrase, c, s
    def removeExtraSpaces(self, phrase):
        """ Entfernt extra Leerzeichen """
        phrase = re.sub(' {2,2}', '', phrase.strip())
        return phrase
    def add(self, phrases):
        """ Fügt eine oder mehrere Phrasen den bekannten Phrasen hinzu """
        if (not isinstance(phrases, list)): phrases = [phrases]
        for phrase in phrases:
            if phrase == '': continue
            elif phrase in self.phrases:
                # Ist eine Phrase bereits bekannt, wird gezählt, wie oft sie vorkommt
                self.count[self.phrases.index(phrase)] += 1
            else:
                # Ist sie nicht bekannt, wird ein neuer Eintrag angelegt
                self.phrases.append(self.removeExtraSpaces(phrase))
                self.count.append(1)
                self.scentenceCount.append(0)
                self.score.append(0.0)
    def addBatch(self, phrases, counts):
        """ Fügt eine oder mehrere Phrasen mit Zählstand hinzu """
        if (not isinstance(phrases, list)): phrases = [phrases]
        if (not isinstance(counts, list)): counts = [counts]
        for phrase, count in zip(phrases, counts):
            if phrase in self.phrases:
                # Ist eine Phrase bereits bekannt, wird gezählt, wie oft sie vorkommt
                self.count[self.phrases.index(phrase)] += count
            else:
                # Ist sie nicht bekannt, wird ein neuer Eintrag angelegt
                self.phrases.append(self.removeExtraSpaces(phrase))
                self.count.append(count)
                self.scentenceCount.append(0)
                self.score.append(0.0)
    def updateScentenceCount(self, phrases):
        """ Update des sekundären Zählstands der Phrase """
        if (not isinstance(phrases, list)): phrases = [phrases]
        # Heausfiltern von mehrmals vorkommenden Wörtern eines Satzes
        uniquePhrases = []
        for phrase in phrases:
            if phrase not in uniquePhrases:
                uniquePhrases.append(phrase)
        # Update des Zählstandes
        for phrase in uniquePhrases:
            if phrase not in self.phrases:
                self.add(phrase)
            self.scentenceCount[self.phrases.index(phrase)] += 1
    def updateScore(self):
        for i, _ in enumerate(self.phrases):
            self.score[i] = self.count[i]/self.scentenceCount[i]

Die _generateKeywords_ Funktion verwendet RegEx, um aus dem rohen Text aus den Paper, Schlagwörter zu extrahieren. Dazu wird der Text folgendermaßen formatiert:

- Weglassen des Literaturverzeichnisses
- Weglassen der Newline Charakter "\n"
- Weglassen der Kapitelüberschriften
- Weglassen von Zitationen
- Weglassen der "Abstract" Überschrift
- Weglassen von Zahlen
- Weglassen von Sonderzeichen
- Weglassen von i.e. und e.g.

Der verbleibende wird Text mittels des Tokenizers aus dem Python Natural Language Processing Toolkit in Sätze gespalten. Die Sätze werden wiederum mittes Stoppwörtern in Phrasen gespalten. Diese resultierenden Phrasen sind Kandidaten für Schlagwörter.

Die oben implementierte _phraseStorage_ Klasse zählt wie oft eine Phrase im gesamten Text (Wortgrad) und in jedem Satz (Wortfrequenz) vorkommt. Diese Information wird anschließend verwendet, um jede Phrase anhand von Wortgrad/Wortfrequenz zu bewerten. Die Phrasen werden anhand der Bewertung sortiert und die Funktion gibt die angegebene Anzahl an Schlagwörtern mit der höchsten Bewertung zurück. 

In [None]:
def generateKeywords(data, keywordAmount):
    """ Generiert keywordAmount Keywords aus einem Text (data, als String) """
    # Nutzung von Regular Expressions, um unerwünschte Teile aus dem Text zu entfernen
    # Weglassen der Literatur
    i = re.compile('REFERENCES', flags=re.IGNORECASE)
    ret = re.search(i, data)
    if ret is not None:  data = data [0:ret.span()[0]]
    # Weglassen der Newline Charakter
    i = re.compile('-\\n')
    data = re.sub(i, '', data)
    i = re.compile('\\n')
    data = re.sub(i, ' ', data)
    # Weglassen von Kapitelüberschriften
    # Kapitelüberschrift = Römische Zahl + '. ' + großgeschriebener Titel
    i = re.compile('[IVX]+[.][ ]([A-Z]+[ ])+')
    data = re.sub(i, '', data)
    # Weglassen von Zitationen
    # Zitation = '[' + Zahl + ']'
    i = re.compile('\[[0-9]+\]')
    data = re.sub(i, '', data)
    # Weglassen des 'Abstract' Keywords am Anfang der IEEE Vorlage
    #data = re.sub('abstract.', '', data, flags=re.IGNORECASE)
    ret = re.search('abstract', data, flags=re.IGNORECASE)
    if ret is not None: data = data[ret.span()[1]:]
    # Weglassen von Sonderzeichen
    i = re.compile('[^A-Za-z0-9\s,.()]')
    data = re.sub(i, '', data)
    # Weglassen von Zahlen
    # Zahl = Leerzeichen/Klammer Auf + kein oder ein Vorzeichen + Zahl + kein oder ein Punkt + Zahl + Leerzeichen/Klammer Zu
    i = re.compile('\s+[(]*[-+±]*\d+[.,]*\d*[)]*\s+')
    data = re.sub(i, '', data)
    # Spezialfall = Zahl am Satzende
    i = re.compile('\s+[(]*[-+±]*\d+[.,]*\d*[)]*[.]')
    data = re.sub(i, '', data)
    # Weglassen von i.e. und e.g.
    i = re.compile('e\.g\.')
    data = re.sub(i, '', data)
    i = re.compile('i\.e\.')
    data = re.sub(i, '', data)
    # Erzeugung der Keyword Kandidaten
    localStorage = phraseStorage()      # Speicher für Kandidaten eines Satzes
    globalStorage = phraseStorage()     # Globaler Speicher für alle Kandidaten
    # Aufschlüsselung nach Sätzen anhand des Tokenisers
    scentences = tokenizer.tokenize(data.lower())
    buf = []
    # Iteration über alle Sätze
    for scentence in scentences:
        # Iteration über alle Sätze
        words = nltk.word_tokenize(scentence)
        # Iteration über alle Wörter im Satz
        for word in words:
            # Überprüfung, ob das aktuelle Wort in der Stoplist ist
            if (word in stopwords) or (word in punctuation):
                if buf == []:
                    # Überspringe die aktuelle Phrase, falls sie leer ist
                    pass
                else:
                    # aktuelle Phrase wird den bekannten Phrasen hinzugefügt
                    localStorage.add(' '.join(buf))
                    buf = []
            else:
                # Aktuelles Wort wird der Phrase hinzugefügt
                if buf != []:
                    buf.append(' ')
                buf.append(word)
        # Satzende schließt immer die laufende Phrase ab
        localStorage.add(' '.join(buf))
        buf = []
        # LocalStorage wird am Satzende ausgelesen
        # Inhalt wird in globalStorage gespeichert
        # Und localStorage wird zurückgesetzt
        globalStorage.addBatch(localStorage.phrases, localStorage.count)
        globalStorage.updateScentenceCount(localStorage.phrases)
        localStorage = phraseStorage()
    # Berechnung der Scores
    globalStorage.updateScore()
    # Ausgabe der Kandidaten basierend auf ihren Scores
    result = []
    keywordMinLen = 3
    # Gernerierung der Keywords anhand davon, wie oft sie vorkommen
    # Reihung der Keywords anhand der Scores
    tmp = [x for _, x in sorted(zip(globalStorage.count, globalStorage.phrases), reverse=True)]
    keywords = []
    for phrase in tmp:
        if len(phrase) < keywordMinLen: continue
        elif len(keywords) >= keywordAmount: break
        else: keywords.append(phrase)
    for phrase in [x for _, x in sorted(zip(globalStorage.score, globalStorage.phrases), reverse=True)]:
        if phrase in keywords: result.append(phrase)
    return result

Die _getTitle_ Funktion sucht mittels RegEX im Text nach dem Titel und gibt diesen zurück. Deser ist in der Formatvorlage des Austrian Robotics Workshops von mehreren Zeilenumbrüchen umgeben. Falls ein einzeiliger Titel vorliegt, wird nach dem muster "\n\nTITEL\n\n" gesucht, während bei mehrzeiligen Titeln nach "\n\nZEILE1\nZEILE2\n\n" gesucht wird.

In [None]:
def getTitle(data):
    """ Ermittelt den Titel einer Publikation """
    # Es wird nach den "\n" am Anfang der Formatvorlage gesucht
    i = re.compile('(\\n)*.*(\\n)?.*')
    ret = re.match(i, data)
    if ret is not None:
        span = ret.span()
        data = data[span[0]:span[1]]
    # Test, ob ein Zeilenumbruch im Titel ist
    # Wenn ja, wird er durch ein Leerzeichen ersetzt
    i = re.compile('.\\n.')
    idx = re.search(i, data)
    if idx is not None:
        idx = idx.span()
        data = data[:idx[0]+1] + ' ' + data[idx[1]-1:]
    # Weglassen der Zeilenumbrüche im resultierenden Titel
    i = re.compile('(\\n)*')
    return re.sub(i, '', data)

Die _analyseYear_ Funktion versucht alle Dateien in einem Verzeichnis einzulesen und mittels der oben vorgestellten Methode zu verarbeiten. Dazu wird der Inhalt jeder Datei geladen, der Titel wird aus dem Text extrahiert und gespeichert und Schlagwörter werden aus dem Text generiert und gespeichert.

In [None]:
def analyseYear(mypath, numKeywords):
    """ Ermittelt die Titel und Keywords aller Publikationen in einem Verzeichnis """
    # Ermittlung alles Dateien im pdfs Verzeichnis
    files = [f for f in listdir(mypath) if isfile(join(mypath, f))]
    # Iteration über alle Dateien im Verzeichnis
    # Schlagwörter und Titel jeder Publikation werden gespeichert
    totalKeywords = []
    titles = []
    for filename in files:
        # Formatierung des Dateinamens
        filename = '{}/{}'.format(mypath, filename)
        # Laden des Inhalts der Datei
        raw = parser.from_file(filename)
        data = raw['content']
        # Weglassen von "D ra  ft" (in den Formatvorlagen eingebettet)
        i = re.compile('D\s{0,3}ra\s{0,3}ft')
        data = re.sub(i, '', data)
        # Ermittlung von Schlagwörtern und Titel der Publikation
        titles.append(getTitle(data))
        tmp = generateKeywords(data, numKeywords)
        totalKeywords.append(tmp)
    return totalKeywords, titles

Anschließend werden Regular Expressions zur Klassifizierung der ermittelten Schlagwörter definiert. Dazu werden zunächst die Themen zugehörige Schlüsselwörter händisch festgelegt. Die Themengebiete representieren dabei die Themengebiete die auf der Webseite des [Austrian Robotics Workshops](https://www.roboticsworkshop.at/) angegeben sind. Die entsprechenden Schlagwörter zu den Themen wurden mittels [Google Keyword Planner](https://ads.google.com/intl/de_at/home/tools/keyword-planner/) ermittelt und händisch überarbeitet.

In [1]:
# Definition der klassifizierung der publikationen
# Die klassifizierung basiert darauf, ob die spezifizierten schlagwärter in den texten gefunden wurden
classes = [
    'RobotSensingPerception',
    'MachineLearningAI',
    'RobotModelling',
    'SoftwareDesign',
    'MobileAndServiceRobots',
    'HumanRobotInteraction',
    'EducationalRobots'
]

classKeywords = [
    ['sensor', 'filter', 'sensing', 'vision', 'camera'],
    ['machine learning', 'artificial intelligence', 'agent', 'feature', 'classification', 'network'],
    ['model', 'estimation', 'pose', 'kinematic', 'structure'],
    ['software', 'middleware', 'simulation', 'communication', 'verification'],
    ['mobile', 'plan', 'rescue', 'ontology', 'constraint'],
    ['human', 'user', 'interact', 'safe', 'workspace'],
    ['education', 'show', 'demonstrate', 'workshop', 'school']
]

# Generierung der regular expressions zum absuchen der schlagwörter
regexes = []
for c in classKeywords:
    regexes.append('\\b(?:' + '|'.join(c) + ')\\b')

Die _getClassificationScores_ Funktion sucht mittels RegEx nach den definierten Schlagwörtern der Themengebiete in den ermittelten Schlafwörtern aus den Publikationen. Dabei wird gespeichert, wie viele Übereinstimmungen es mit den Schlagwörtern eines bestimmten Themas gibt. Gibt es zu einer Publikation keine Übereinstimmung, wird diese übersprungen. Die prozentuale Übereinstimmung aller überprüften Paper wird zurückgegeben.

In [None]:
def getClassificationScores(totalKeywords, regexes):    
    scores = []
    for phrases in totalKeywords:
        text = ' '.join(phrases)
        classScore = [0 for i in range(len(classes))]
        for i, expression in enumerate(regexes):
            classScore[i] += len(re.findall(re.compile(expression), text))
        scores.append(classScore)
    scoreSum = [np.sum(score) for score in scores]
    print('{} out of {} papers could not be classified'.format(scoreSum.count(0), len(scoreSum)))
    return scores

Die Klassifizierung wird nun für alle Jahre (alle Publikationen aus einem Jahr sind in einem eigenen Verzeichnis) durchgeführt.

In [None]:
paths = ['./pdfs/ARW2016', './pdfs/ARW2017', './pdfs/ARW2018', './pdfs/ARW2019', './pdfs/ARW2020']
scores = []
totalKeywords = []
titles = []
for mypath in paths:
    tmpKeywords, tmpTitle = analyseYear(mypath, 40)
    totalKeywords.append(tmpKeywords)
    titles.append(tmpTitle)
    scores.append(getClassificationScores(tmpKeywords, regexes))

Abschließend werden die ermittelten Ergebnisse mittels [Matplotlib](https://matplotlib.org/) visualisert.

In [None]:
# Import von Matplotlib zur Visualisierung
from matplotlib import rcParams
rcParams['font.size'] = 18
import matplotlib.pyplot as plt

# Formatierung der Platzhalter für Balkendiagram von jedem Jahr
plots = len(scores)
classArrange = np.arange(0, len(classes))
fig, ax = plt.subplots(1,plots)
fig.suptitle('Automatisch ermittelte Themen der Paper des Austrian Robotics Workshops')

# Definition der Beschriftungen und Farben
years = ['ARW 2016', 'ARW 2017', 'ARW 2018', 'ARW 2019', 'ARW 2020']
plotColors = ['navy', 'mediumpurple', 'navy', 'mediumpurple', 'navy', 'mediumpurple', 'navy']
textColors = ['black', 'gray', 'black', 'gray', 'black', 'gray', 'black']

# Iteration über alle Jahre und Einzeichnen der Balken und Beschriftungen
for i in range(plots):
    scoreSum = [np.sum(score) for score in scores[i]]
    values = np.array([0.0 for j in range(len(classes))])
    for j in range(len(scoreSum)):
        if scoreSum[j] != 0: values += np.array(scores[i][j])/scoreSum[j]
        else: continue
    nonZeroEntries = len(scoreSum) - scoreSum.count(0)
    values /= nonZeroEntries/100
    values = np.round(values, 0)
    ax[i].set_xlim([-1, 7])
    ax[i].set_ylim([0, 45])
    ax[i].bar(classArrange,values, zorder=3, color=plotColors, width=0.6)
    ax[i].grid(True, zorder=0)
    ax[i].set_xticks(classArrange)
    for j, c in enumerate(classes):
        ax[i].annotate(c, (j+0.2,0), rotation=45, horizontalalignment='right', verticalalignment='top', color=textColors[j])
    ax[i].set_xticklabels([' ' for _ in classArrange])
    ax[i].set_title(years[i], fontsize=22)

# Anpassung der Achsenbeschriftung Puffers um die Grafik
ax[0].set_ylabel('Anteil jedes Themas in den Papern [%]', fontsize=20)
plt.gcf().subplots_adjust(bottom=0.4)

# Anzeigen der Grafik
plt.show()