# Übung zu Kapitel 4.4 - Aspekte der Datenqualität

*Eine Übung zum Buch "[Basiswissen KI-Testen - Qualität von und mit KI-basierten Systemen](https://dpunkt.de/produkt/basiswissen-ki-testen/)", ISBN 978-3-86490-947-4*

In dieser Übung geht es darum, die Auswirkungen fehlender Datenqualität zu verstehen und richtig zuordnen zu können. Wenn ein KI-basiertes System mit einem Datensatz trainiert wird, gibt es verschiedene Fehlerquellen, die zu Qualitätsproblemen im Modell führen können. Die Grundlagen zu dieser Aufgabe findest du in Abschnitt 4.4 des Buches.

## Ausgangssituation

In einer **Checkliste**, mit der verschiedene **Fehlerquellen** in einem Datensatz aufgedeckt werden können, sind die verschiedenen Qualitätsaspekte und deren möglichen **Auswirkungen** auf ein KI-basiertes System durcheinandergeraten. Es ist nur noch eine Liste mit den Checkpunkten (Fragen nach Qualitätsaspekten) und eine Liste mit Auswirkungen vorhanden.

## Aufgabe

**Ordne die Checklisten-Fragen zu den verschiedenen Datenqualitätsaspekten den möglichen Auswirkungen - wenn der jeweilige Aspekt nicht erfüllt ist - zu.**

*Achtung:* Einem Qualitätsaspekt sind zwei Auswirkungen zuzuordnen.

<div style="margin-left:1cm;float:left;width:60%"><table>
    <thead>
        <tr>
            <th colspan="2" style="text-align:center;background-color:#f0f0f0"><b>Qualitätsaspekt &ndash; Checkliste</b></th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td style="width:fit-content;vertical-align:top;">(1)</td>
            <td>Wurden irrelevante Daten/Merkmale aus den Trainingsdaten entfernt?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(2)</td>
            <td>Sind die im Training verwendeten Daten so aufbereitet, dass Angreifer keine sensiblen Daten aus dem Modell ableiten oder zurückgewinnen können?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(3)</td>
            <td>Ist eine passende Datenvorverarbeitung für die Trainingsdaten durchgeführt worden?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(4)</td>
            <td>Sind meine Daten vollständig und sind alle relevanten Informationen im Datensatz vorhanden?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(5)</td>
            <td>Sind im Datensatz alle Szenarien/Fälle/Kategorien ausgewogen repräsentiert?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(6)</td>
            <td>Sind die Daten korrekt und aktuell?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(7)</td>
            <td>Spiegeln die Daten wider, was die KI lernen soll, oder sind die Daten durch den Zeitpunkt, den Ort oder die Umstände unfair und nicht für das Training repräsentativ?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(8)</td>
            <td>Werden dieselben Vorverarbeitungsschritte für die Trainingsdaten auch für den Test und den Betrieb angewendet?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(9)</td>
            <td>Hat der Datensatz eine ausreichende Variation in den Daten, sodass das zu erlernende Muster für das KI-basierte System erlernbar ist?</td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(10)</td>
            <td>Sind redundante Daten aus dem Datensatz entfernt?</td>
        </tr>
    </tbody>
</table></div>
<div style="float:right;width:30%"><table>
    <thead>
        <tr>
            <th colspan="2" style="text-align:center;background-color:#f0f0f0"><b>Auswirkung</b></th>
        </tr>
    </thead>
    <tbody>
        <tr><td>(a)</td><td>Verminderte Genauigkeit</td></tr>
        <tr><td>(b)</td><td>Modell mit Bias</td></tr>
        <tr><td>(c)</td><td>Kompromittiertes Modell</td></tr>
    </tbody>
</table>
</div>


Prüfe, ob deine Zuordnung richtig ist, indem du die **Nummer des Qualitätsaspektes** und den **Buchstaben der Auswirkung in Anführungzeichen** in die Python-Funktion unten an den mit `...` gekennzeichneten Stellen eingibst.

In [None]:
from lib.aufgaben import antwort
antwort(qualitätsaspekt=..., auswirkung="...")   # gibt hier deine Antwort ein und schließe mit Strg-ENTER ab.

## Lösungen

<table>
    <thead>
        <tr>
            <th colspan="2" style="text-align:center;background-color:#f0f0f0"><b>Qualitätsaspekt &ndash; Checkliste</b></th>
        </tr>
    </thead>
    <tbody>
        <tr>
            <td style="width:fit-content;vertical-align:top;">(1)</td>
            <td>Wurden irrelevante Daten/Merkmale aus den Trainingsdaten entfernt?
                <br/><br/>
                Wenn nicht, kann das als Folge <b>(a) Verminderte Genauigkeit</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(2)</td>
            <td>Sind die im Training verwendeten Daten so aufbereitet, dass Angreifer keine sensiblen Daten aus dem Modell ableiten oder zurückgewinnen können?
                <br/><br/>
                Wenn nicht, kann das als Folge ein <b>(c) Kompromittiertes Modell</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(3)</td>
            <td>Ist eine passende Datenvorverarbeitung für die Trainingsdaten durchgeführt worden?
                <br/><br/>
                Wenn nicht, kann das als Folge <b>(a) Verminderte Genauigkeit</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(4)</td>
            <td>Sind meine Daten vollständig und sind alle relevanten Informationen im Datensatz vorhanden?
                <br/><br/>
                Wenn nicht, kann das als Folge <b>(a) Verminderte Genauigkeit</b> oder ein <b>(b) Modell mit Bias</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(5)</td>
            <td>Sind im Datensatz alle Szenarien/Fälle/Kategorien ausgewogen repräsentiert?
                <br/><br/>
                Wenn nicht, kann das als Folge ein <b>(b) Modell mit Bias</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(6)</td>
            <td>Sind die Daten korrekt und aktuell?
                <br/><br/>
                Wenn nicht, kann das als Folge <b>(a) Verminderte Genauigkeit</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(7)</td>
            <td>Spiegeln die Daten wider, was die KI lernen soll, oder sind die Daten durch den Zeitpunkt, den Ort oder die Umstände unfair und nicht für das Training repräsentativ?
                <br/><br/>
                Wenn nicht, kann das als Folge ein <b>(b) Modell mit Bias</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(8)</td>
            <td>Werden dieselben Vorverarbeitungsschritte für die Trainingsdaten auch für den Test und den Betrieb angewendet?
                <br/><br/>
                Wenn nicht, kann das als Folge <b>(a) Verminderte Genauigkeit</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(9)</td>
            <td>Hat der Datensatz eine ausreichende Variation in den Daten, sodass das zu erlernende Muster für das KI-basierte System erlernbar ist?
                <br/><br/>
                Wenn nicht, kann das als Folge ein <b>(b) Modell mit Bias</b> haben.
                <em></em></td>
        </tr>
        <tr>
            <td style="vertical-align:top;">(10)</td>
            <td>Sind redundante Daten aus dem Datensatz entfernt?
                <br/><br/>
                Wenn nicht, kann das als Folge ein <b>(b) Modell mit Bias</b> haben.
                <em></em></td>
        </tr>
    </tbody>
</table>