# Chatwolf

Das Projekt "Chatwolf" versucht die Möglichkeiten von Services, die generative künstliche Intelligenz (KI) einer breiten Öffentlichkeit zur Verfügung stellt, in den Prozess der quantitativen Inhaltsanalyse einzubinden, und niederschwellig und kostengünstig nutzbar zu machen.

![Chatwolf Bild](./chatwolf_round_small.png)

1. [Hintergrund](#Hintergrund)
2. [Workflow](#Workflow)
3. [Umsetzung I](#Umsetzung-der-Schritte-1-bis-5)
4. [Umsetzung II](#Umsetzung-der-Schritte-7-bis-9)
5. [Umsetzung III](#Umsetzung-der-Schritte-10-und-11)
6. [Abschlussbemerkungen](#Abschlussbemerkungen)
7. [Literatur](#Literatur)


## Hintergrund
In einem laufenden Projekt im Arbeitsbereich Pädagogische Psychologie des Instituts für Psychologie der Universität Graz, im Rahmen dessen mehrere Masterarbeiten betreut werden, werden verschiedene Aspekte von Interaktionen zwischen Tutor:innen und Lernenden betrachtet. Dabei werden drei Formen der Interaktion miteinander verglichen: 1) maschinelle:r Tutor:in schreibt (chatGPT-4 mit angepassten Instruktionen), 2) menschliche:r Tutor:in schreibt, 3) menschliche:r Tutor:in spricht. Bei den Lernenden handelt es sich dabei immer um Proband:innen. Mit den Mitteln quantitativer Inhaltsanalyse wird u.a. der Grad der sozialen Präsenz zwischen diesen verschiedenen Bedingungen verglichen. Unter sozialer Präsenz versteht man das Ausmaß, in dem ein:e Kommunikationspartner:in in der medienvermittelten Kommunikation als reale Person wahrgenommen wird (Gunawardena, 1995).

Inhaltsanalyse größerer Datenmengen ist aufwändig und nimmt viel Zeit in Anspruch. Zur Unterstützung existieren verschiedene Softwarelösungen, die sich in Grad der Unterstützung, Bedienungskomfort und v.a. Kosten stark unterscheiden. Generative KI, im speziellen Large Language Modelle (LLMs), eignen sich gut für die Verarbeitung und Zusammenfassung von Text (Törneberg, 2023). Der Einsatz von generativer KI für die Inhaltsanalyse im Bereich psychologischer und soziologischer Forschung wurde auch bereits in kleinem Rahmen getestet und dokumentiert (z.B. Morgan, 2023). Erste eigene Erfahrungen haben gezeigt, dass die Entwicklung von Instruktionen für die Inhaltsanalyse mit chatGPT-4 zwar schnell scheinbar brauchbare Ergebnisse liefert, diese aber nicht zuverlässig reproduzierbar sind. Insbesondere wird Textmaterial bei mehrmaligem Durchlauf unter Verwendung identischer Instruktionen in unterschiedliche Kodiereinheiten zerlegt. Es ist zwar davon auszugehen, dass sich das mit kommenden Versionen der entsprechenden LLMs verbessern wird. Im Moment ist diese Herangehensweise jedoch nicht für einen großteils automatischen Ablauf geeignet.

Daher wurde ein Workflow entwickelt, mit dem überprüft werden soll, in wie weit aktuelle LLMs zur Unterstützung der Inhaltsanalyse eingesetzt werden können.

## Workflow
1. Input: Chat-Protokolle (DOCX)
2. Konvertierung ins Markdown-Format
3. Aufteilen in Anteil Tutor:in und Lernende:r
4. Syntax-Analyse: Aufteilen in Kodiereinheiten
5. Output: Kodiereinheiten (Markdown-Datei)
6. Manuelle Überprüfung der Output-Dateien
7. Input: Übergabe der Kodiereinheiten an chatGPT
8. Kodierung durch chatGPT
9. Output: Ergebnisse der Kodierung (CSV)
10. Mehrmalige Wiederholung der Kodierung (7 bis 9)
11. Analyse der Reliabilität (Übereinstimmungsmaße)
12. Analyse der Validität anhand von menschlichen Kodierer:innen

Die Schritte 1 bis 5 werden in Form eines Python-Programmes umgesetzt. Bei dem verwendeten Textmaterial handelt es sich um Chat-Protokolle von Dialogen zwischen Tutor:innen und Lernenden. Es kommen u.a. Python-Module zum Konvertieren zwischen Dateiformaten (Schritt 2) und zum Verarbeiten natürlicher Sprache (Schritt 4) zum Einsatz. Die dafür verwendeten Module sind `pypandoc`und `spaCy`.

In Schritt 6 erfolgt die manuelle Überprüfung und evtl. Anpassung der zuvor generierten Dateien.

Die Schritte 7 bis 9 finden mit Unterstützung von chatGPT statt. In Schritt 7 wird die Liste der Kodiereinheiten (Tutor:in und Lernende:r getrennt) in Form einer zuvor generierten strukturierten Textdatei im Markdown-Format an chatGPT übergeben. In Schritt 8 werden die Kodiereinheiten im Hinblick auf soziale Präsenz beurteilt. Dazu wird ein Kodierschema für menschliche Kodierer:innen entwickelt, auf dessen Basis wiederum detaillierte Instruktionen für chatGPT entwickelt werden. Die Instruktionen für chatGPT folgen dabei den Prinzipien von Structured Prompting (Mollick, 2023; Brand, 2023) und Chain-of-Thought Prompting (Wei et al., 2023). In Schritt 9 werden die  Ergebnisse der Kodierung in Form einer Textdatei im CSV-Format gesichert.

Anschließend (Schritt 10) werden die Schritte 7 bis 9 mehrmals wiederholt. Dabei ist es wichtig, dass diese Wiederholungen jeweils in einer neuen Instanz von chatGPT stattfinden, damit vorangegangene Eingaben und Ergebnisse, die sich noch im Kontext-Fenster befinden, die neuen Ergebnisse nicht kontaminieren.

Schritt 11 wird in Form eines Python-Programmes umgesetzt. Dabei werden die Ergebnisse der mehrfach durchgeführten Kodierungsprozesse an den selben Ausgangsdaten auf Übereinstimmung geprüft. Da hier in jedem Datensatz alle Kodiereinheiten kodiert werden, kann ein Signifikanztest durchgeführt werden, der auf eine Abweichung von Null (= zufällige Übereinstimmung) prüft. Damit kann eine statistische Aussage getroffen werden, wie zuverlässig die wiederholten Kodierungen von chatGPT unter Anwendung der entwickelten Instruktionen sind.

In Schritt 12 wird die Qualität der für Schritt 8 entwickelten Instruktionen evaluiert, indem das Ergebnis der Kodierung durch chatGPT unter Anwendung der entwickelten Instruktionen mit dem Ergebnis der Kodierung durch menschliche Kodierer:innen unter Anwendung des entwickelten Kodierungsschemas verglichen wird (Interraterreliabilität; Bortz & Döring, 2006). Dafür kann z.B. das Python-Modul `scipy.stats.kendalltau` eingesetzt werden. Bei bedeutsamen Abweichungen müssen Kodieranweisungen und Instruktionen überarbeitet werden.

## Umsetzung der Schritte 1 bis 5<a name="umsetzung_i" />
### 0. Vorbereitungen

In [None]:
# Dependencies installieren
#!pip install pypandoc spacy pyperclip pingouin
#!spacy download de_core_news_md

import os, re, pypandoc, spacy, pyperclip
import pandas as pd

demo = True    # Demo-Durchlauf
demo_file = 0  # Welche Datei soll im Demo-Durchlauf verwendet werden?

# Soll spacy dependency parse oder statistical sentence segmenter verwenden?
# Dependency parse ist besser bei Texten wie Nachrichten, Zeitungsartikel etc.
# Statistical sentence segmenter ist besser bei unklarer Punktuation.
# nlp.enable_pipe wird beim import von spacy auf "None" gesetzt.
segmenter = True
if segmenter: 
  nlp = spacy.load('de_core_news_md', exclude=["parser"])
  nlp.enable_pipe("senter")
else:
  nlp = spacy.load('de_core_news_md')

### 1. Input: Dateien im DOCX-Format (Chat-Protokolle)

In [None]:
def get_docx_filenames():
  cwd = os.getcwd()
  file_names = os.listdir(cwd)
  docx_files = []
  for file_name in file_names:
    if file_name.endswith('.docx'):
      docx_path = os.path.join(cwd, file_name)
      docx_files.append(docx_path)
  return docx_files

if (demo):
  docx_files = get_docx_filenames()
  print(docx_files)

### 2. Konvertierung ins Markdown-Format (und Textbereinigung)

In [None]:
def convert_docx_to_md(docx_path):
  md_path = re.sub(r'\.docx$', '.md', docx_path)
  md_text = pypandoc.convert_file(docx_path, 'md', extra_args=['--wrap=none'])
  # Entfernen der User-Icons
  md_text = re.sub(r'\!\[User\]\(media.+', '', md_text)
  # Bezeichnungen für User:in und Tutor:in anpassen
  # Unter Windows wird das Zeilenende mit $ nicht korrekt erkannt,
  # daher muss $ unter Windows in den folgenden RegEx weg gelassen werden.
  #md_text = re.sub(r'^\*\*Sie\*\*$', '# User', md_text, flags=re.MULTILINE)
  #md_text = re.sub(r'^\*\*You\*\*$', '# User', md_text, flags=re.MULTILINE)
  #md_text = re.sub(r'^\*\*LernenGPT\*\*$', '# Tutor', md_text, flags=re.MULTILINE)
  #md_text = re.sub(r'^\\\[\d\d\:\d\d\\\] Testung Paedpsy$', '# User', md_text, flags=re.MULTILINE)
  #md_text = re.sub(r'^\\\[\d\d\:\d\d\\\]\s\w+.*,\s\w+(.\(Extern\))?$', '# Tutor', md_text, flags=re.MULTILINE)
  md_text = re.sub(r'^\*\*Sie\*\*', '# User', md_text, flags=re.MULTILINE)
  md_text = re.sub(r'^\*\*You\*\*', '# User', md_text, flags=re.MULTILINE)
  md_text = re.sub(r'^\*\*LernenGPT\*\*', '# Tutor', md_text, flags=re.MULTILINE)
  md_text = re.sub(r'^\\\[\d\d\:\d\d\\\] Testung Paedpsy', '# User', md_text, flags=re.MULTILINE)
  md_text = re.sub(r'^\\\[\d\d\:\d\d\\\]\s\w+.*,\s\w+(.\(Extern\))?', '# Tutor', md_text, flags=re.MULTILINE)
  # Entfernen von Emote-Grafiken und anderen Grafiken: ![😄](media/image7.png){width="0...in" height="0...in"}
  md_text = re.sub(r'!\[(.)\]\(media.+png\)\{width.+height.+in\"\}', r'\1', md_text)
  md_text = re.sub(r'!\[\]\(media.+[(png)(jpeg)(wmf)]\)(\{width.+height.+in\"\})?', '', md_text)
  # Ersetzen geschützter Leerzeichen: \xa0
  md_text = md_text.replace(u'\xa0', u' ')
  # Gendern mit : macht evtl Probleme bei Erkennung von Satzgrenzen.
  #md_text = re.sub(r'(\w):in', r'\1in', md_text)
  return md_text

if (demo):
  md_text = convert_docx_to_md(docx_files[demo_file])
  print(md_text)

### 3. Aufteilen der Chat-Protokolle in Tutor:in und Lernende:r

In [None]:
def split_speakers(md_text):
  tmp = []
  first_speaker = ""
  current_speaker = ""
  speakers = {
    "User": [],
    "Tutor": []
  }

  # Erste:n Sprecher:in festhalten
  for line in md_text.splitlines():
    if line == "# User":
      first_speaker = "User"
      break
    elif line == "# Tutor":
      first_speaker = "Tutor"
      break
  # Aufteilen der Datei in Anteile von User und Tutor
  for line in md_text.splitlines():
    if line == "# User":
      current_speaker = "User"
    elif line == "# Tutor":
      current_speaker = "Tutor"
    elif (line and current_speaker in speakers):
      speakers[current_speaker].append(line)
  return speakers, first_speaker

if (demo):
  speakers, first_speaker = split_speakers(md_text)
  print(first_speaker)
  print(speakers)

### 4. Syntax-Analyse: Aufteilen in Kodiereinheiten

In [None]:
def split_props(speakers):
  props = {
    "User": [],
    "Tutor": []
  }
  for actor in ["User", "Tutor"]:
    for x in speakers[actor]:
      doc = nlp(x)
      for sentence in doc.sents:
        props[actor].append(sentence.text.strip())
  return props

if (demo):
  props = split_props(speakers)
  print(props)

### 5. Output: Textdatei (Markdown) mit Kodiereinheiten

In [None]:
def save_text(md_text, props, path):
  path = os.path.splitext(path)[0]
  # Gesamte Konversation speichern
  md_path = path + '.md'
  with open(md_path, 'w', encoding="utf-8") as file:
    file.write(md_text)
  # User- und Tutor-Seite der Konversation speichern
  for actor in ["User", "Tutor"]:
    props_path = path + '_' + actor + '.md'
    with open(props_path, 'w', encoding="utf-8") as file:
      for x in props[actor]:
        file.write(x)
        file.write("\n")
  print(f'Processed {path}.docx')

if demo:
  save_text(md_text, props, docx_files[demo_file])

### Optional: Gesamtdurchlauf der Schritte 1 bis 5

In [None]:
# Gesamtdurchlauf der Schritte 1 bis 5
docx_files = get_docx_filenames()
for file_name in docx_files:
  md_text = convert_docx_to_md(file_name)
  speakers, first_speaker = split_speakers(md_text)
  props = split_props(speakers)
  save_text(md_text, props, file_name)

### Optional: Verzeichnis aufräumen
**CAVE: Alle Dateien im aktuellen Verzeichnis mit der Endung `.md` werden gelöscht!**

In [None]:
# Verzeichnis aufräumen
# ACHTUNG: Alle Dateien mit Endung .md werden gelöscht!
cwd = os.getcwd()
print(cwd)
file_names = os.listdir(cwd)
for file_name in file_names:
  if file_name.endswith('.md'):
    os.remove(file_name)

## 6. Manuelle Überprüfung der Output-Dateien
Die generierten Output-Dateien müssen manuell überprüft und evtl. korrigiert werden. Die deutschsprachigen Trainingsdaten für das verwendete Modul `spacy` wurden v.a. anhand von deutschspachigen Zeitungsartikeln gewonnen. Die Chats entsprechen aber bei weitem nicht dieser Qualität, weshalb manuell nachgebessert werden muss.

Um ein Überschreiben der korrigierten Dateien zu vermeiden, wird empfohlen, diese unter neuem Namen oder in einem neuen Verzeichnis zu sichern.

## Umsetzung der Schritte 7 bis 9
*Die Schritte 7 bis 9 werden in ChatGPT durchgeführt.*

### 7. Input: Übergabe der Liste von Kodiereinheiten an chatGPT
Dazu wurde ein Custom GPT erstellt, das unter dem folgenden Link zu erreichen ist: **[Custom GPT: Content-Analysis](https://chatgpt.com/g/g-tURb8JB2t-content-analysis)**

Die Instruktionen für dieses Custom GPT sind im Anschluss angeführt und können auch als Prompt ausgeführt werden.

```
# Custom GPT - Instructions

## Task
Process the uploaded markdown file and evaluate each line for social presence, then present the results in a table.

## Role: Text Analyst
- Analyze text based on social presence indicators.
- Evaluate the emotional and interpersonal engagement in the text.
- Apply consistent scoring throughout the analysis.

## Audience: Scientist
- Wants to assess social presence in a document.
- Prefers clear and structured output.
- Expects accurate and reliable analysis.
- Their research and career depend on the results!

## Create
A table with two columns: 1) Social Presence Rating and 2) Unit of analysis (as per input).

### Create Rules
- Take a deep breath before you begin!
- Think step by step!
- Rate each line of the input material either 0 (low social presence) or 1 (high social presence).
- Create a markdown table with two columns: "Rating" and "Unit".

### Create Example
  | Rating | Unit |
  | --- | --- |
  | 0 | Vielleicht mit Beistrich? |
  | 1 | Danke dir |
  | 0 | zeig es mir! | 0 |
  | 1 | 😄 |
  | 1 | like 1 |

## Intent
Help the user assess social presence in the text by providing unit-by-unit ratings.

### Intent Rules
- Focus on interpersonal connection and emotional tone.
- Deliver the result in an easy-to-use format.
- Make sure the results are reliable and can be reproduced.

## Material
- Textfile in markdown format.
- Each line of the input file represents a single unit of analysis.
```

In ChatGPT kann nun eine der neu erstellten Dateien (XXX_User.md) hochgeladen werden. 

### 8. Kodierung in Bezug auf soziale Präsenz

Für die Kodierung kann das folgende Prompt ausgeführt werden:

`Rate the social presence for each unit of analysis in the uploaded file according to your instructions.`

Der Text wird beim Ausführen des nächsten Code-Blocks in die Zwischenablage kopiert.

In [None]:
pyperclip.copy("Rate the social presence for each unit of analysis in the uploaded file according to your instructions.")

### 9. Output: Textdatei (CSV) mit den Resultaten der Kodierung
Die Ergebnisse werden von ChatGPT in Form einer CSV-Datei zum Download bereit gestellt. Eventuell muss die Erstellung der CSV-Datei explizit angefordert werden.

Allerdings hat chatGPT immer wieder versucht, die CSV-Dateien auf unterschiedliche Art und Weise zu erstellen. Manchmal mit Erfolg, öfter leider ohne, da benötigte Python-Module nicht installiert waren, oder das generierte Skript zu Fehlern geführt hat. Daher wurden die Custom Instructions für chatGPT (Schritt 6) abgeändert, sodass nur noch ein Output in Form einer Markdown-Tabelle verlangt wurde.

## Umsetzung der Schritte 10 und 11

### 10. Mehrmalige Wiederholung von Schritt 6 bis 8

### 11. Analyse der Reliabilität (Berechnen von Übereinstimmungsmaßen)

In [None]:
ndx = None
ndxs = []

def get_csv_filenames():
  cwd = os.getcwd()
  cwd = cwd + "/User"
  file_names = os.listdir(cwd)
  csv_files = []
  for file_name in file_names:
    if file_name.endswith('.csv'):
      csv_path = os.path.join(cwd, file_name)
      csv_files.append(csv_path)
  return csv_files

def interrater_reliability(file_path):
  df = pd.read_csv(file_path, usecols=range(5))
  # Übereinstimmung:
  # 0|1 = perfekte Übereinstimmung
  # 0.5 = perfekter Zufall
  ndx = df.mean(axis=1).mean(axis=0)
  # Nach der Transformation:
  # 1 = perfekte Übereinstimmung
  # 0 = perfekter Zufall
  ndx = round(abs((ndx - 0.5)) * 2, 3)
  return(ndx)

csv_files = get_csv_filenames()
for csv_file in csv_files:
  ndx = interrater_reliability(csv_file)
  ndxs.append(ndx)
ndxtot = round(sum(ndxs) / len(ndxs), 3)

filename = os.getcwd() + "/User/ubereinstimmung.txt"
with open(filename, 'w') as file:
  file.write(";".join(map(str, ndxs)) + "\n")
  file.write(str(ndxtot) + "\n")

if (demo):
  csv_files = get_csv_filenames()
  print(csv_files)
  ndx = interrater_reliability(csv_files[0])
  #print(df)
  print("Übereinstimmungsindex: " + str(ndx))

## To-do

### 12. Analyse der Validität anhand von menschlichen Kodierer:innen

## Abschlussbemerkungen
Bei den vorliegenden Ausgangsdaten handelt es sich um Protokolle von geschriebenen oder gesprochenen Unterhaltungen von Studierenden der Universität Graz. Damit handelt es sich um persönliche Daten, und es muss sichergestellt werden, dass diese ordnungsgemäß gehandhabt und geschützt werden, um die Privatsphäre der Betroffenen zu wahren. Das beinhaltet die Pseudonymisierung von personenbezogenen Daten, bevor sie in die Analyse eingehen, sowie strenge Zugriffskontrollen, um sicherzustellen, dass nur autorisierte Personen Zugriff auf die Daten haben.

Des Weiteren ist die Transparenz der Datenverarbeitung ein wichtiger Punkt, damit die Proband:innen überhaupt in der Lage sind, eine informierte Zustimmung zur Verarbeitung ihrer Daten zu geben.

Darüber hinaus werden geringfügige Änderungen an den LLMs oft ohne Wissen der Benutzer:innen durchgeführt, oder ohne dass Nutzer:innen darauf Einfluss haben (z.B. Bugfixes, Veränderungen der Größe des Kontext-Fensters oder der maximalen Anzahl von Nachrichten pro Zeiteinheit bei starker Auslastung). Bereits geringfügige Änderungen können jedoch in komplexen Systemen gravierende Auswirkungen nach sich ziehen. So könnte es auch auf diese Art zu Änderungen in den Kodierungen kommen.

Weiters sollte jedes KI-generierte Output kritisch betrachtet werden, da LLMs dafür bekannt sind, dass sie halluzinieren (z.B. Tonmoy et al., 2024).

Aus all diesen Gründen müssen die Ergebnisse der KI-gestützen Analyse regelmäßig evaluiert werden, um eventuelle Beeinflussungen von Forschungsergebnissen frühzeitig zu erkennen und einer Kompromittierung der wissenschaftlichen Integrität vorzubeugen.

# Literatur
* Bortz, J., & Döring, N. (2006). *Forschungsmethoden und Evaluation für Human- und Sozialwissenschaftler.* Springer.
* Brand, St. (2023). Meet TRACI – *User’s Guide to the TRACI Prompt Framework for ChatGPT.* Blur Factor New Media. https://structuredprompt.com/free-traci-users-guide-white-paper/
* Mayring (2014). *Qualitative Content Analysis. Theoretical Foundation, Basic Procedures and Software Solution.* Author. http://nbn-resolving.de/urn:nbn:de:0168-ssoar-395173
* Gunawardena, C. (1995). Social presence theory and implications for interaction collaborative learning in computer conferences. *International Journal of Educational Telecommunications, 1,* 147-166. Retrieved April 28, 2024 from https://www.learntechlib.org/primary/p/15156/
* Mollick, E. (2023, November 01). *Working with AI: Two paths to prompting.* One Useful Thing. https://www.oneusefulthing.org/p/working-with-ai-two-paths-to-prompting
* Morgan, D. (2023). Exploring the Use of Artificial Intelligence for Qualitative Data Analysis: The Case of ChatGPT. *International Journal of Qualitative Methods, 22,* 1-10. https://doi.org/10.1177/16094069231211248
* Tonmoy, T., Zaman, M., Jain, V., Rani, A., Rawte, V., Chadha, A., Das, A. (2024). *A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models.* arXiv. https://doi.org/10.48550/arXiv.2401.01313
* Törnberg, P. (2023). *How to use Large Language Models for Text Analysis.* arXiv. https://doi.org/10.48550/arXiv.2307.13106
* Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Qu., & Zhou, D. (2023), *Chain-of-Thought Prompting Elicits Reasoning in Large Language Models.* arXiv. https://doi.org/10.48550/arXiv.2201.11903