# 1. Business Understanding

### 1.1 Geschäftlicher Hintergrund

In der modernen digitalen Ära sind soziale Medien wie Twitter zu primären Kanälen für Kunden geworden, um Meinungen zu äußern, Feedback zu geben und Bedenken zu Produkten und Dienstleistungen zu teilen. Dies erzeugt einen massiven, kontinuierlichen Strom unstrukturierter Textdaten.

Während moderne Deep-Learning-Modelle (wie BERT) in der Lage sind, diese Daten mit hoher Präzision zu klassifizieren, leiden sie unter dem **"Black-Box"-Problem**. Für Unternehmen ist es oft nicht nachvollziehbar, *warum* ein Modell eine bestimmte Entscheidung getroffen hat. Diese mangelnde Transparenz hemmt den Einsatz solcher KI-Systeme in kritischen Geschäftsprozessen, da Vertrauen, Nachvollziehbarkeit und die Möglichkeit zur Fehleranalyse fehlen.
</VSCode.Cell>
<VSCode.Cell id="#VSC-d4b8f05f" language="markdown">
### 1.2 Geschäftliches Problem

Das Kernproblem ist nicht mehr nur die Klassifikation von Sentiment an sich, sondern die **fehlende Erklärbarkeit (Explainability)** komplexer Transformer-Modelle.

Ohne transparente Erklärungen stehen Stakeholder vor folgenden Herausforderungen:
- **Mangelndes Vertrauen:** Warum wurde dieser Tweet als "negativ" markiert? War es Sarkasmus oder ein echtes Problem?
- **Schwierige Fehleranalyse:** Wenn das Modell falsch liegt, woran lag es? Hat es auf irrelevante Wörter (z.B. Namen) reagiert?
- **Compliance & Audit:** In vielen regulierten Bereichen muss nachweisbar sein, wie Entscheidungen zustande kommen.

Es besteht die Notwendigkeit, nicht nur ein leistungsfähiges Modell zu entwickeln, sondern auch Methoden zu evaluieren, die Licht in die "Black Box" bringen.
</VSCode.Cell>
<VSCode.Cell id="#VSC-f8b87207" language="markdown">
### 1.3 Geschäftsziele

Um dieses Problem zu adressieren, zielt dieses Projekt auf die Entwicklung einer erklärbaren Sentiment-Analyse-Lösung ab.

1.  **Primäres Ziel (Modellierung):** Entwicklung eines hochpräzisen Sentiment-Modells basierend auf **BERTweet**, das Tweets aus dem Sentiment140-Datensatz zuverlässig klassifiziert.
2.  **Primäres Ziel (Evaluation XAI):** Vergleich und Evaluation von zwei führenden XAI-Methoden (**SHAP** und **Captum/Integrated Gradients**) hinsichtlich ihrer Eignung für den produktiven Einsatz.
    - Welche Methode liefert treuherzigere (faithful) Erklärungen?
    - Welche Methode ist robuster gegenüber leichten Textänderungen?
    - Welche Methode ist effizient genug für den Echtzeit-Einsatz?
3.  **Sekundäres Ziel:** Ableitung einer Deployment-Strategie, die Qualität und Geschwindigkeit ausbalanciert.
</VSCode.Cell>
<VSCode.Cell id="#VSC-d3664a15" language="markdown">
### 1.4 Erfolgskriterien

Der Erfolg des Projekts wird anhand quantitativer und qualitativer Kriterien gemessen:

- **Modell-Performance:** Das BERTweet-Modell muss eine Accuracy von **> 85%** auf dem Testdatensatz erreichen.
- **XAI-Evaluation:**
    - **Faithfulness:** Die durch die XAI-Methoden identifizierten "wichtigen" Wörter müssen nachweislich den größten Einfluss auf die Modellentscheidung haben (gemessen durch Perturbation/Deletion Tests).
    - **Performance:** Es muss klar quantifiziert werden, wie viel Rechenzeit die Erklärungen im Vergleich zur reinen Inferenz kosten.
    - **Empfehlung:** Am Ende muss eine klare Empfehlung stehen, welche Methode (oder Kombination) für welches Szenario (Batch vs. Real-time) geeignet ist.
</VSCode.Cell>
<VSCode.Cell id="#VSC-33c64e9b" language="markdown">
### 1.5 Projektplan

Dieses Projekt folgt dem Cross-Industry Standard Process for Data Mining (CRISP-DM). Jeder Schritt ist in einem separaten Notebook dokumentiert:

1.  **Business Understanding (Dieses Notebook):** Definition der Ziele und des Fokus auf Explainable AI (XAI).
2.  **Data Understanding:** Explorative Analyse des Sentiment140-Datensatzes.
3.  **Data Preparation:** Bereinigung und Vorbereitung der Daten für das BERT-Training.
4.  **Modeling:** Fine-Tuning von BERTweet und Training des Klassifikators.
5.  **Evaluation:** Umfassende Evaluation des Modells UND der XAI-Methoden (SHAP vs. Captum).
6.  **Deployment:** Theoretisches Konzept für die Produktivsetzung einer erklärbaren KI-Architektur.