In [1]:
import pandas as pd
import requests
import os
import json

# Data Collection

First, we get the data from the API. As the API is not yet published, both the API-Url and the query to get information on edition-software need to be specified in your .env file. (consult the README for more information)

In [2]:
%load_ext dotenv
%dotenv

In [3]:
# get api_url and query
api_url = os.environ['API_URL']
query = os.environ['QUERY']

# get data from api
api_response = requests.get(api_url + query)

Now that we got the data from the API, we can load it into a dataframe to prepare it to be used as a knowledge base for rag. 

In [4]:
edition_software_info = json.loads(api_response.text)
edition_software_info = pd.DataFrame(edition_software_info)
edition_software_info.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21 entries, 0 to 20
Data columns (total 14 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   id                21 non-null     object
 1   slug              21 non-null     object
 2   brand_name        21 non-null     object
 3   concept_doi       0 non-null      object
 4   description       18 non-null     object
 5   description_url   3 non-null      object
 6   description_type  21 non-null     object
 7   get_started_url   20 non-null     object
 8   image_id          13 non-null     object
 9   is_published      21 non-null     bool  
 10  short_statement   21 non-null     object
 11  created_at        21 non-null     object
 12  updated_at        21 non-null     object
 13  closed_source     21 non-null     bool  
dtypes: bool(2), object(12)
memory usage: 2.1+ KB


A brief inspection allows us to formulate some initial tasks and questions for this experiment.

- **Preprocessing:** As we can see, not a single entry contains a associated concept_doi. We might consider dropping the column.
- **Impact of using short descriptions only:** Three entries are missing the in depth description. We can assume that rag won't be too useful for these entries. 
- **Impact of additional information:** Only three have a description-url. Down the road, we need to evaluate, if adding info from this source improves the performance of the rag-system.

# Preprocessing

Both the `description` and `short_statement` columns seem to be of particular interest for the task at hand. To asses necessary preprocessing step, we'll need to take a closer look.

In [5]:
descriptions = edition_software_info[["description", "short_statement"]]
with pd.option_context('display.max_colwidth', None):
    display(descriptions.head())

Unnamed: 0,description,short_statement
0,"# Erkennen, Transkribieren und Durchsuchen von historischen Dokumenten mitttels KI\n\n- Trainieren von spezifischen Texterkennungsmodellen, die in der Lage sind, handschriftliche, maschinengeschriebene oder gedruckte Dokumente zu erkennen.\n\n- KI-gestützte Erkennung von handgeschriebenem Text, Layout-Analyse und Strukturerkennung.\n\n- Manuelles Transkribieren im Transkriptionseditor\nKI-gestützten Erkennung mittels öffentlicher oder selbst trainierter KI-Modelle\n\n- Durchsuchen von Dokumenten mit erweiterten Suchoptionen, wie z. B. dem Tool zum Aufspüren von Schlüsselwörtern.\n\n\n- Gemeinsames Arbeiten an Dokumenten, Organisation in Sammlungen\n\n- Teilen von Dokumenten durch eine read&search Website oder Export als PDF oder ALTO (XML).\n\n- Alle Transkribus-Inhalte, d.h. hochgeladene Bilder, erkannte Texte, trainierte Erkennungsmodelle und eingegebene Metadaten, werden innerhalb der EU gehostet und sind GDPR konform.","Transkribus ist eine umfassende Plattform für die Digitalisierung, Texterkennung mithilfe Künstlicher Intelligenz, Transkription und das Durchsuchen von historischen Dokumenten."
1,"autodone is a service for the automated, time-controlled publication of status updates on any Mastodon instance. The codebase is developed under a free license by the Department of Digital Humanities at the University of Cologne and is open to all interested users.\n\nSpecial features of the service include the ability to upload content in tabular format (tsv files) and the ability to publish posts as a thread. In addition to these basic functionalities, more features will be developed in the future.\n\nautodone replaces autoChirp, which offered the same functionality for Twitter before the Twitter API and Twitter itself was massively restricted regarding free and ethical usage.\n\n(quoted from: https://autodone.idh.uni-koeln.de/about, 19.04.2024)\n\n--- \n## Official Site:\n[https://autodone.idh.uni-koeln.de/](https://autodone.idh.uni-koeln.de/)\n\n---\n## Usage Instructions\n[https://autodone.idh.uni-koeln.de/usage](https://autodone.idh.uni-koeln.de/usage)\n","Autodone is a service for the automated, time-controlled publication of status updates on any Mastodon instance. The codebase is developed under a free license by the Department of Digital Humanities at the University of Cologne and is open to all interested users."
2,"[CollateX](http://collatex.net/) is a software to\n\n 1. read **multiple (≥ 2) versions of a text**, splitting each version into parts (tokens) to be compared,\n 1. **identify similarities of and differences between the versions** (including moved/transposed segments) by aligning tokens, and\n 1. output the alignment results in a **variety of formats for further processing**, for instance\n 1. to support **the production of a critical apparatus** or the stemmatical analysis of a text's genesis.\n\nIt resembles software used to compute differences between files (e.g. [diff](http://en.wikipedia.org/wiki/Diff)) or tools for [sequence alignment](http://en.wikipedia.org/wiki/Sequence_alignment) which are commonly used in Bioinformatics. While CollateX shares some of the techniques and algorithms with those tools, it mainly aims for a flexible and configurable approach to the problem of finding similarities and differences in texts, sometimes trading computational soundness or complexity for the user's ability to influence results.\n\nAs such it is primarily designed for use cases in disciplines like [Philology](http://en.wikipedia.org/wiki/Philology) or – more specifically – the field of [Textual Criticism](http://en.wikipedia.org/wiki/Textual_criticism) where the assessment of findings is based on interpretation and therefore can be supported by computational means but is not necessarily computable.\n\nPlease go to <http://collatex.net/> for further information.","CollateX is a software to (a.) read multiple versions of a text, (b.) identify differences by aligning tokens, and (c.) output the alignment results for further processing, for instance (d.) to support the production of a critical apparatus or the stemmatical analysis of a text's genesis."
3,"Der Mathematiker Donald E. Knuth entwickelte Ende der Siebziger Jahre ein Textsatzprogramm, um seine Bücher schöner setzen zu können. Das so entstandene TeX-System verbreitete sich recht schnell, erforderte aber eine intensive Einarbeitung in die zugehörige Programmiersprache.\n\nMit LaTeX 2e, dem Anfang der Neunziger Jahre entwickelten Makropaket","LaTeX (gesprochen “Lah-tech” oder “Lay-tech”), ist eine Textsatz*sprache* und ein *Programm* für die Erstellung qualitativ hochwertiger Druckausgaben. Ursprünglich entwickelt für mathematischen Textsatz wird es heute für alle Arten von wissenschaftlichen Texten und auch darüber hinaus eingesetzt."
4,,The Research Software Directory is a content management system that is tailored to research software.


As we can see, the `description` column contains some formatting artefacts like `\n` and markdown syntax like `**` and `#`. Let's clean them up.

In [27]:
pattern = r'#+|\*+|\\n'
edition_software_info["description"] = edition_software_info["description"].str.replace(pattern, '', regex=True)

with pd.option_context('display.max_colwidth', None):
    display(edition_software_info[["description", "short_statement"]])

  pattern = '#+|\*+|\\n'


Unnamed: 0,description,short_statement
0,"Erkennen, Transkribieren und Durchsuchen von historischen Dokumenten mitttels KI- Trainieren von spezifischen Texterkennungsmodellen, die in der Lage sind, handschriftliche, maschinengeschriebene oder gedruckte Dokumente zu erkennen.- KI-gestützte Erkennung von handgeschriebenem Text, Layout-Analyse und Strukturerkennung.- Manuelles Transkribieren im TranskriptionseditorKI-gestützten Erkennung mittels öffentlicher oder selbst trainierter KI-Modelle- Durchsuchen von Dokumenten mit erweiterten Suchoptionen, wie z. B. dem Tool zum Aufspüren von Schlüsselwörtern.- Gemeinsames Arbeiten an Dokumenten, Organisation in Sammlungen- Teilen von Dokumenten durch eine read&search Website oder Export als PDF oder ALTO (XML).- Alle Transkribus-Inhalte, d.h. hochgeladene Bilder, erkannte Texte, trainierte Erkennungsmodelle und eingegebene Metadaten, werden innerhalb der EU gehostet und sind GDPR konform.","Transkribus ist eine umfassende Plattform für die Digitalisierung, Texterkennung mithilfe Künstlicher Intelligenz, Transkription und das Durchsuchen von historischen Dokumenten."
1,"autodone is a service for the automated, time-controlled publication of status updates on any Mastodon instance. The codebase is developed under a free license by the Department of Digital Humanities at the University of Cologne and is open to all interested users.Special features of the service include the ability to upload content in tabular format (tsv files) and the ability to publish posts as a thread. In addition to these basic functionalities, more features will be developed in the future.autodone replaces autoChirp, which offered the same functionality for Twitter before the Twitter API and Twitter itself was massively restricted regarding free and ethical usage.(quoted from: https://autodone.idh.uni-koeln.de/about, 19.04.2024)--- Official Site:[https://autodone.idh.uni-koeln.de/](https://autodone.idh.uni-koeln.de/)--- Usage Instructions[https://autodone.idh.uni-koeln.de/usage](https://autodone.idh.uni-koeln.de/usage)","Autodone is a service for the automated, time-controlled publication of status updates on any Mastodon instance. The codebase is developed under a free license by the Department of Digital Humanities at the University of Cologne and is open to all interested users."
2,"[CollateX](http://collatex.net/) is a software to 1. read multiple (≥ 2) versions of a text, splitting each version into parts (tokens) to be compared, 1. identify similarities of and differences between the versions (including moved/transposed segments) by aligning tokens, and 1. output the alignment results in a variety of formats for further processing, for instance 1. to support the production of a critical apparatus or the stemmatical analysis of a text's genesis.It resembles software used to compute differences between files (e.g. [diff](http://en.wikipedia.org/wiki/Diff)) or tools for [sequence alignment](http://en.wikipedia.org/wiki/Sequence_alignment) which are commonly used in Bioinformatics. While CollateX shares some of the techniques and algorithms with those tools, it mainly aims for a flexible and configurable approach to the problem of finding similarities and differences in texts, sometimes trading computational soundness or complexity for the user's ability to influence results.As such it is primarily designed for use cases in disciplines like [Philology](http://en.wikipedia.org/wiki/Philology) or – more specifically – the field of [Textual Criticism](http://en.wikipedia.org/wiki/Textual_criticism) where the assessment of findings is based on interpretation and therefore can be supported by computational means but is not necessarily computable.Please go to <http://collatex.net/> for further information.","CollateX is a software to (a.) read multiple versions of a text, (b.) identify differences by aligning tokens, and (c.) output the alignment results for further processing, for instance (d.) to support the production of a critical apparatus or the stemmatical analysis of a text's genesis."
3,"Der Mathematiker Donald E. Knuth entwickelte Ende der Siebziger Jahre ein Textsatzprogramm, um seine Bücher schöner setzen zu können. Das so entstandene TeX-System verbreitete sich recht schnell, erforderte aber eine intensive Einarbeitung in die zugehörige Programmiersprache.Mit LaTeX 2e, dem Anfang der Neunziger Jahre entwickelten Makropaket","LaTeX (gesprochen “Lah-tech” oder “Lay-tech”), ist eine Textsatz*sprache* und ein *Programm* für die Erstellung qualitativ hochwertiger Druckausgaben. Ursprünglich entwickelt für mathematischen Textsatz wird es heute für alle Arten von wissenschaftlichen Texten und auch darüber hinaus eingesetzt."
4,,The Research Software Directory is a content management system that is tailored to research software.
5,,"Tesseract ist eine Software zur Texterkennung. Mehr als 100 Sprachen und Sprachvarianten werden unterstützt, zudem verschiedene Schriften / Schriftsysteme: lateinische Antiqua, Fraktur, Devanagari (indische Schrift), chinesische, arabische, griechische, hebräische, kyrillische Schrift."
6,"EVT (Edition Visualization Technology) is a software for creating and browsing digital editions of manuscripts based on text encoded according to the [TEI XML](http://www.tei-c.org/) schemas and Guidelines. This tool was born as part of the [Digital Vercelli Book](http://vbd.humnet.unipi.it/) project in order to allow the creation of a digital edition of the Vercelli Book, a parchment codex of the late tenth century, now preserved in the Archivio e Biblioteca Capitolare of Vercelli and regarded as one of the four most important manuscripts of the Anglo-Saxon period as regards the transmission of poetic texts in the Old English language. To ensure that it will be working on all the most recent web browsers, and for as long as possible on the World Wide Web itself, EVT is built on open and standard web technologies such as HTML, CSS and JavaScript. Specific features, such as the magnifying lens, are entrusted to jQuery plug-ins, again chosen among the open source and best supported ones to reduce the risk of future incompatibilities. The general architecture of the software, in any case, is modular, so that any component which may cause trouble or turn out to be not completely up to the task can be replaced easily.","A light-weight, open source tool specifically designed to create digital editions from XML-encoded texts, freeing the scholar from the burden of web programming and enabling the final user to browse, explore and study digital editions by means of a user-friendly interface."
7,"Der Classical Text Editor (CTE) wird auf Initiative der [Österreichischen Akademie der Wissenschaften](https://www.oeaw.ac.at/oesterreichische-akademie-der-wissenschaften) und des Editionsprojekts [Corpus Scriptorum Ecclesiasticorum Latinorum (CSEL)](http://csel.at/) seit 1997 entwickelt.Für die Nutzung des CTE muss eine [Lizenz erworben](https://sites.fastspring.com/stefanhagel/product/cte) werden, da das Projekt keine öffentliche Förderung erhält. Perspektivisch wird eine Veröffentlichung gemäß der Opensource-Lizenz [EUPL-1.2](https://opensource.org/licenses/EUPL-1.2) angestrebt.Der CTE schließt für den Bereich der kritischen Ausgaben die Lücke zwischen klassischen Textverarbeitungsprogrammen (Open Office Writer, Microsoft Word u.a.) auf der einen und Textsatzprogrammen (TeX, TUSTEP Satz) auf der anderen Seite.Autor:innen können mit Hilfe einer graphischen Oberfläche Publikationen erstellen und gleichzeitig die gerade für kritische Ausgaben nötigen typographischen Anforderungen umsetzen. Neben umfangreichen Funktionen im Bereich kritischer Editionen (verschiedene Layouts, beliebig viele Apparate, Varianten etc.) gehören daher auch die Unterstützung von Unicode, komplexen Skripten sowie die Einbindung verschiedener Referenzsysteme zum Funktionsumfang des CTE.Das Ergebnis kann sowohl für die Drucklegung im PDF-Format als auch für eine elektronische Fassung als HTML- oder XML-Publikation exportiert werden. Umgekehrt können Texte in verschiedenen Formaten importiert werden. Eine detaillierte Auflistung aller Feature des CTE findet man unter https://cte.oeaw.ac.at/?id0=features.",Der CTE ist ein Spezialwerkzeug für die Erstellung einer kritischen Ausgabe bzw. eines Texts mit Kommentar oder Übersetzung. Er dient der einfachen Erzeugung einer druckfertigen PDF- oder elektronischen Ausgabe.
8,"In vielen Editionsprojekten wird die Datenbanklösung [eXist-db]() eingesetzt. Die darin enthaltenen TEI-konformen Daten sollen i.d.R. zu einem bestimmten Zeitpunkt oder auch fortlaufend aufbereitet und in gedruckter oder digitaler Form ausgegeben werden.Für diese Transformation bietet der TEI Publisher einen komfortable und gleichzeitig mächtigen Weg. Der kann direkt über den eXist-db Marktplatz installiert werden.Um die gewünschte Ausgabe zu erhalten, wird durch Einstellungen mittels grafischer Benutzeroberfläche allen TEI-Elementen das gewünschte Aussehen zugeordnet. Es muss also nicht auf XSLT-Anweisungen zurückgegriffen werden.Die TEI-Daten können gemäß „Single Source Publishing“-Ansatz in verschiedene Ausgabeformate überführt werden. Neben dem klassischen PDF-Format bzw. ePUB und HTML können auch wichtige Zwischenstufen wie XSL-FO oder [LaTeX]() erzeugt werden. Seit Version 8 beherrscht der TEI Publisher außerdem die Ausgabe nach Print CSS. Die so erstellen Dateien sind auf verschiedenen Geräten und Plattformen nutzbar und bringen für verschiedene Endgeräte jeweils passgenaue Funktionen mit. Für die Entwicklung von Ausgabemodulen in Projekten, die auf eXist-db aufbauen, erlaubt der TEI Publisher eine schlanke und effiziente Umsetzung, die automatisch von den zahlreichen Verbesserungen aus der Community profitiert.","Der TEI Publisher ist eine eXist-db Applikation, die es ermöglicht, TEI-Daten in verschiedene Ausgabeformate zu überführen (z.B. HTML, XSL-FO, LaTeX, Print CSS, ePUB). Dabei kann das Aussehen der einzelnen TEI-Elemente über eine grafische Oberfläche konfiguriert werden."
9,"Benutzerfreundliches ArbeitenAls zentrale Softwarekomponente der Arbeitsumgebung wird Oxygen XML Author eingesetzt. Die Bearbeiter arbeiten im Oxygen XML Author nicht in einer Codeansicht, sondern in einer benutzerfreundlichen, Word-artigen »Autorenansicht«, die über Cascading Stylesheets (CSS) gestaltet wird. Dem Bearbeiter stehen dabei mehrere Ansichten zur Auswahl, so dass per Mausklick die für den Arbeitsschritt geeigneteste ausgewählt werden kann. Außerdem kann der Endanwender über eine eigene Werkzeugleiste per Knopfdruck Auszeichnungen vornehmen. So können z.B. in Manuskripten Streichungen markiert oder Sachanmerkungen eingegeben werden. Auch Personen- oder Ortsnamen können mit der entsprechenden TEI-Auszeichnung versehen und gleichzeitig über eine komfortable Auswahlliste mit dem jeweiligen Eintrag im zentralen Personen- bzw. Ortsregister verknüpft werden. Der gesamte Text kann dadurch einfach und schnell mit TEI-konformen XML ausgezeichnet werden. Kollaboratives ArbeitenDie digitale Arbeitsumgebung nutzt die freie XML-Datenbank existdb als zentrales Repositorium für die XML-Dokumente. Die Datenbank ist auf einem Server installiert und online zugänglich. Dadurch können alle Projektmitarbeiter auf ein und denselben Datenbestand zugreifen und zusammenarbeiten. Um die Einrichtung und Konfiguration zu vereinfachen, wurde das Modul ediarum.DB entwickelt. WebsiteNeben dem eigentlichen Eingabewerkzeug in Oxygen XML Author, wird für die Forschungsvorhaben auch jeweils eine Website auf Basis von eXist, XQuery und XSLT erstellt. In ihr kann von den Wissenschaftlern der aktuelle Datenbestand leicht durchblättert bzw. durchsucht werden. Die Website kann - je nach Bedarf - nur den Bearbeitern zugänglich oder der gesamten Öffentlichkeit zugänglich gemacht werden. Beispiele für mit ediarum erstellte digitale Editionen finden Sie in der Rubrik Referenzen.Um den Prozess der Website-Entwicklung zu vereinfachen ist derzeit das Modul ediarum.WEB in Entwicklung. Anpassung an projektspezifische AnforderungenZiel von ediarum ist es, einen Kern an Funktionen bereitzustellen, der über verschiedene Projekte (und auch Insttitutionen hinweg) entwickelt und eingesetzt werden kann. Dadurch wird der Aufwand für alle Editionsvorhaben, die ediarum einsetzen, verringert. Der ganz überwiegende Teil der Funktionen kann auch für Editionen gleichen Typs (z.B. neugermanistische Editionen) tatsächlich projektübergreifend entwickelt werden.Allerdings gibt es i.d.R. immer einen - wenn auch sehr überschaubaren - Teil an Funktionen, die aufgrund des spezifischen Editions- oder Forschungskonzept, ergänzt werden müssen. Das ist in ediarum ohne Weiteres möglich. Dadurch kann zwischen notwendiger Standardisierung und ebenso notwendiger Orientierung an Forschungsfragen eine Brücke geschlagen werden.","ediarum is a digital working environment consisting of several software components that allows scholars to edit transcriptions of manuscripts and prints in TEI-compliant XML, to provide them with a text and subject apparatus as well as indexes, and to publish them on the web and in print."
