# Erklärbare KI

## `Einbindung von externen Wissensbasen`

## Inhaltsverzeichnis



1. Beschreibung der Methode
2. Beispiele
3. Praktische Umsetzung

### Beschreibung der Methode

+ Grundlegend: Vorhandensein einer Wissensbasis
+ Erster Schritt: Wissensbasis wird während des Trainings genutzt, um das Modell zu erstellen
+ Zweiter Schritt: Vom KI-Modell getroffene Entscheidungen mit konkreten Einträgen in der Wissensbasis begründen zu können

### Allgemeines

+ Die Ausgabe der KI ist eine Entscheidung und zusätzlich eine Erklärung der Entscheidung
+ Methode ist auf alle Klassifikationsverfahren anwendbar
+ Funktioniert am besten für Klassifikationsprobleme, bei denen Texte als Inputs verwenden werden


### Vorteile
+ Leicht nachvollziehbar 
+ Kombination mehrerer Wissensbasen möglich
+ Erhöht Vertrauen
+ Hilft bei der Frage nach der  Verantwortlichkeit

### Nachteile

+ Abhängig von Qualität der Wissensbasis
+ Aufbau der Wissensbasis zeitaufwendig


### Beispiele

+ Medizinische Anwendung
    + anhand von Symptomen Krankheit vorhersagen und anschließend Vorhersage mit Publikationen unterstützen
+ Home-Automation
+ Bilderkennung
+ Juristische Entscheidungsfindung
+ Empfehlungsdienste (Tourismus)

## Praktische Umsetzung
Mittels Retrieval-augmented generation (RAG) und auf Basis von [Leun23] und Llama 2

In [1]:
import pickle
from tabulate import tabulate
import pandas as pd
from studysearch.run import run as run_studysearch

## 2. Einlesen neuer Textdaten [Chas22]

![](assets/rag_indexing-8160f90a90a33253d0154659cf7d453f.png)

Zum Einlesen neuer Dokumente wird das Skript `build_db.py` [Leun23] ausgeführt. Es ließt die vorhandenen Dokumente, teil den Text in sog. chunks ein und speichert die vektorisierten Textdaten mithilfe von [JoDJ19] in eine .faiss-Datei.

In [None]:
!python dp_build.py

## 2. Anfrage an das LLM [Chas22]

![](assets/rag_retrieval_generation-1046a4668d6bb08786ef73c56d4f228a.png)

In [None]:
resp = run_studysearch(input="Worum geht es in dem Studiengang Digitale Technologien?")

In [None]:
pickle.dump(resp, open("./resp.pkl", "wb"))

### 2.2 Import einer zuvor gesicherten Antwort

In [2]:
resp = pickle.load(open("resp.pkl", "rb"))

In [3]:
resp

{'query': 'Worum geht es in dem Studiengang Digitale Technologien?',
 'result': 'The study program "Digitale Technologien (praxisintegriert)" focuses on the practical application of digital technologies in various fields, such as software development, data analytics, cybersecurity, and more. The course aims to provide students with a comprehensive understanding of the theoretical foundations of digital technologies and their practical applications in real-world scenarios.',
 'source_documents': [Document(page_content='Digitale Technologien (praxisintegriert) B.Eng.  \n9 Stellenwert der Note für die Endnote:  \ngemäß BRPO  \n10 Modulbeauftragte/r:  \nProf. Dr. rer. oec. Pascal Reusch  \n11 Sonstige Informationen:  \n \n12 Sprache:  \ndeutsch', metadata={'source': 'data/Studiengangsprüfungsordnung und Modulhandbuch Bachelor Digitale Technologien praxisintegriert Version 18.pdf', 'page': 34}),
  Document(page_content='Digitale Technologien (praxisintegriert) B.Eng.  \n9 Stellenwert der No

## 3. Ausgabe

### 3.1 Definition einer Formatierungsfunktion

Um die Ausgabe der Antwort des LLM an die Jupyter Notebook-Umgebung anzupassen, wird die Funktion `display_response(resp_dict: dict)` definiert. Diese wandelt die Antwort in Form eines `dict` in HTML-Code um.

In [2]:
def display_response(resp_dict: dict) -> str:
    """Render response in HTML using pandas and tabulate.

    Args:
        resp_dict (dict): The raw response dict eiher unpickled or from the LLM

    Returns:
        str: tabulate-generated HTML code
    """
    resp_dict = resp_dict.copy()
    resp_dict["source_documents"] = [src.metadata['source'] for src in resp_dict["source_documents"]]
    resp_df = pd.DataFrame(resp_dict).rename(columns={"query": "Query", "result": "Result", "source_documents": "Source Documents"})
    for i in range(1, len(resp_dict["source_documents"])):
        resp_df.loc[i, "Query"] = ""
        resp_df.loc[i, "Result"] = ""
    resp_df.drop_duplicates(subset=["Source Documents"], inplace=True, keep="first")
    return tabulate(resp_df, tablefmt="html", headers="keys", showindex=False)

### 3.2 Ausgabe der Antwort

Als Ergebnis erhält man neben der Antwort des LLM auch die Quell-Dokumente, die das Modell zum Finden der Antwort verwendet hat:

In [5]:
display_response(resp)

Query,Result,Source Documents
Worum geht es in dem Studiengang Digitale Technologien?,"The study program ""Digitale Technologien (praxisintegriert)"" focuses on the practical application of digital technologies in various fields, such as software development, data analytics, cybersecurity, and more. The course aims to provide students with a comprehensive understanding of the theoretical foundations of digital technologies and their practical applications in real-world scenarios.",data/Studiengangsprüfungsordnung und Modulhandbuch Bachelor Digitale Technologien praxisintegriert Version 18.pdf


## Beispiele

In [6]:
display_response(run_studysearch(input="Worum geht es in dem Studiengang Digitale Technologien?"))

Query,Result,Source Documents
Worum geht es in dem Studiengang Digitale Technologien?,"The study program ""Digitale Technologien (praxisintegriert)"" focuses on the practical application of digital technologies in various fields, such as software development, data analytics, cybersecurity, and more. The course aims to provide students with a comprehensive understanding of the theoretical foundations of digital technologies and their practical applications in real-world scenarios.",data/Studiengangsprüfungsordnung und Modulhandbuch Bachelor Digitale Technologien praxisintegriert Version 18.pdf


In [4]:
display_response(run_studysearch(input="Worum geht es in dem Modul Qualitätssicherung für KI-Systeme aus dem Studiengang Digitale Technologien?"))

  from .autonotebook import tqdm as notebook_tqdm


Query,Result,Source Documents
Worum geht es in dem Modul Qualitätssicherung für KI-Systeme aus dem Studiengang Digitale Technologien?,"In the module Quality Assurance for AI Systems, students learn about the importance of quality assurance in the development and deployment of AI systems. They will understand how to identify and mitigate potential risks associated with AI systems, such as bias, security, and privacy concerns. Additionally, they will learn how to design and implement quality control processes for AI systems, including testing, validation, and verification methods. The module will also cover the ethical considerations of AI system development and deployment, and how to ensure that AI systems are aligned with societal values and norms.",data/Studiengangsprüfungsordnung und Modulhandbuch Bachelor Wirtschaftsingenieurwesen praxisintegriert Version 18.pdf
,,data/Studiengangsprüfungsordnung und Modulhandbuch Bachelor Mechatronik_Automatisierung praxisintegriert Version 18.pdf


In [5]:
display_response(run_studysearch(input="What is the topic of the lecture Qualitaetssicherung für KI-Systeme from the course of study Digitale Technologien?"))

Query,Result,Source Documents
What is the topic of the lecture Qualitaetssicherung für KI-Systeme from the course of study Digitale Technologien?,The topic of the lecture Qualitaetssicherung für KI-Systeme from the course of study Digitale Technologien is ensuring quality in AI systems.,data/Studiengangsprüfungsordnung für den Masterstudiengang Forschungsmaster Data Science.pdf
,,data/Studiengangsprüfungsordnung und Modulhandbuch Bachelor Angewandte Hebammenwissenschaft Version 2022.pdf


In [6]:
display_response(run_studysearch(input="When I did my Bachlor's in Digitale Technologien, which master's degree can you recommend?"))

Query,Result,Source Documents
"When I did my Bachlor's in Digitale Technologien, which master's degree can you recommend?","Based on your background in Digital Technologies, I would recommend considering the Master's program in Informatik or Wirtschaftsinformatik at Fachhochschule Bielefeld. Both of these programs align with your previous studies and can provide you with further knowledge and skills in the field of computer science and business informatics.",data/Studiengangsprüfungsordnung für den Masterstudiengang Forschungsmaster Data Science.pdf
,,data/Studiengangsprüfungsordnung für den weiterbildenden Masterstudiengang Digitale Technologien.pdf


In [None]:
resp = run_studysearch(input="When I did my Bachelor's in Digitale Technologien, which master's degree of other universities can you recommend?")

In [4]:
display_response(resp)

Query,Result,Source Documents
"When I did my Bachlor's in Digitale Technologien, which master's degree of other universities can you recommend?","Based on your background in Digital Technologies, you may be interested in pursuing a Master's degree in related fields such as: 1. Informatics or Computer Science at other universities that offer strong programs in this area. 2. Data Science or Data Analytics, which can provide you with advanced skills in data analysis and interpretation. 3. Information Systems or Management Information Systems, which can help you develop a deeper understanding of how technology can be used to support business operations. 4. Cybersecurity, which can provide you with the knowledge and skills needed to protect digital systems and networks from threats. 5. Digital Media or Interaction Design, which can help you create innovative digital products and services that meet user needs. Please note that these are just suggestions based on your background in Digital Technologies, and ities, and other universities, and theologies, and ities, and ities, and ities, and ities, and ities, and you may have not all other universities, and ities, and ities, and that may be sure if you should consult with no further research. Other universities, and ities, and ities, and theologies, and it",data/Studiengangsprüfungsordnung für den weiterbildenden Masterstudiengang Digitale Technologien.pdf
,,data/Studiengangsprüfungsordnung für den Masterstudiengang Forschungsmaster Data Science.pdf


In [None]:
resp = run_studysearch(input="What can you tell me about the course of studies Finance and Information Management?")

In [8]:
display_response(resp)

Query,Result,Source Documents
What can you tell me about the course of studies Finance and Information Management?,"The course of studies Finance and Information Management (FIM) is a master's program offered by the Technical University of Munich (TUM) and the University of Bayreuth (UniBayreuth). The program is designed to provide students with a comprehensive education in finance and information management, including topics such as financial markets, investment analysis, risk management, and data analytics. The course of studies consists of several modules, including: * 48 credits in the core area of ""Finance and Information Management"" over two semesters (1./2. Semester) * 30 credits in elective modules from the core area over three semesters (3. Semester) * A master's thesis worth 30 credits in the fourth semester (4. Semester) The program is designed to be completed in four semesters, with a total of 12480 credits 90 credits 12480 credits 12480 credits 12480 credits 12480 credits 12480 credits 1248",data/Finance_and_Information_Management_Gem._MA_LF_2_AS_121222.pdf


# Literatur

+ [APMB21]: van Aken, Betty ; Papaioannou, Jens-Michalis ; Mayrdorfer, Manuel ; Budde, Klemens ; Gers, Felix A. ; Löser, Alexander: Clinical Outcome Prediction from Admission Notes using Self-Supervised Knowledge Integration, arXiv (2021). — arXiv:2102.04110

+ [Chas22]  Chase, Harrison: LangChain. URL: https://github.com/langchain-ai/langchain
  

+ [HBPK17]: Holzinger, Andreas ; Biemann, Chris ; Pattichis, Constantinos S. ; Kell, Douglas B.: What do we need to build explainable AI systems for the medical domain?, arXiv (2017). — arXiv:1712.09923

+ [JoDJ19]: Johnson, Jeff ; Douze, Matthijs ; Jégou, Hervé: Billion-scale similarity search with GPUs. In: IEEE Transactions on Big Data Bd. 7, IEEE (2019), Nr. 3, S. 535–547. URL: https://github.com/facebookresearch/faiss

+ [KGEW22]: Kraus, Dr. Thomas ; Ganschow, Lene ; Eisenträger, Marlene ; Wischmann, Dr. Steffen: EXPLAINABLE AI: Requirements, Use Cases and Solutions, Bundesministerium für Wirtschaft und Klimaschutz (Hrsg.).

+ [Leun23]: Leung, Kenneth: Running Llama 2 and other Open-Source LLMs on CPU Inference Locally for Document Q&A. URL: https://github.com/kennethleungty/Llama-2-Open-Source-LLM-CPU-Inference
