# Bias in Machine Learning Schulungsoption B Lösung
### Ethischer Bias

### 1 Einführung

In diesem Teil der Übung soll der ethische Bias etwas näher betrachtet werden.    
Als Grundlage dient ein Dataset mit ~2 Millionen Kommentaren von Online-Plattformen.    
    
Mit diesen wird ein Modell trainiert, das anhand eines Kommentars bewerten soll, ob dieser "toxisch" oder "nicht toxisch" ist. Also ein Kommentar negative Ausdrucksweisen enthält oder nicht.
    
Da es hier nicht direkt im das trainieren des Modells gehen soll ist dies bereits vorgegeben.

#### 1.1 Dataset laden und vorbereiten
Führt den unten angegebenen Code aus. Da das Dataset sehr groß ist kann es bei der Verarbeitung etwas länger dauern (ca. 30 Sek.).

In [48]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer

# Seed setzen, um immer die gleichen Ergebnisse zu erhalten
np.random.seed(0)

# Daten laden und benötigte Spalten extrahieren
data = pd.read_csv("comments_data.csv")
comments = data["comment_text"]
target = (data["target"]>0.7).astype(int)

# Daten in Trainings- und Test-Sets aufteilen (70:30)
comments_train, comments_test, y_train, y_test = train_test_split(comments, target, test_size=0.30, stratify=target)

# Alle einzelnen Wörter aus allen Kommentaren extrahieren und Wörterbuch mit ihrer Häufigkeit erstellen
vectorizer = CountVectorizer()
vectorizer.fit(comments_train)

# Dictionary für das Trainings- und Test-Set mit der Anzahl der Wörter erstellen
X_train = vectorizer.transform(comments_train)
X_test = vectorizer.transform(comments_test)

#### 1.2 Daten betrachten
Nun wollen wir uns die erstellten Daten anschauen und lernen mit diesen zu arbeiten. Mit `vectorizer.vocabulary_` bekommt ihr das Wörterbuch mit der Häufigkeit der einzelnen Wörter als Dictionary zurück (Dies wertet ihr später noch benötigen).    
    
Wie oft kommt in unserem Dataset das Wort `love` und das Wort `dumbass` vor?

In [23]:
print("Anzahl Wort love:", vectorizer.vocabulary_['love'])
print("Anzahl Wort dumbass:", vectorizer.vocabulary_['dumbass'])

Anzahl Wort love: 31279
Anzahl Wort dumbass: 16848


Gebt euch ein paar Kommentare aus der Series(Dataframe mit einer Spalte) `comments_train` aus. Würdet ihr von diesen Kommentare welche als toxisch einstufen?

In [31]:
print(comments_train.iloc[22], " -> Toxisch")
print(comments_train.iloc[17], " -> Nicht toxisch")
print(comments_train.iloc[28], " -> Toxisch")

Too dumb to even answer.  -> Toxisch
No they aren't.  -> Nicht toxisch
Idiot.  -> Toxisch


### 2 Model trainieren

#### 2.1 Model trainieren und Genauigkeit überprüfen
Führt den unten angegebenen Code nun aus, um ein einfaches Model zu trainieren. Zusätzlich berechnen wir die Genauigkeit des Models auf den Testdaten.

In [33]:
from sklearn.linear_model import LogisticRegression

classifier = LogisticRegression(max_iter=2000)
classifier.fit(X_train, y_train)
score = classifier.score(X_test, y_test)
print("Genauigkeit:", score)

Genauigkeit: 0.9304755967877966


Ziemlich genau 93% der Kommentare werden von unserem Model korrekt erkannt.

#### 2.2 Model ausprobieren
Versucht nun ein paar eigene Kommentare an das Model zu übergeben und von diesem die Klassifizierung zurück zu erhalten.    
    
Da die Kommentare nur auf englischer Sprache basieren müsst ihr natürlich auch einen englischen Kommentar verfassen.    
Beispiele:
 - "I love Data Mining"
 - "Corona is stupid"
 
Versucht unterschiedliche Kommentare zu testen.

In [34]:
# Funktion, um einen String von dem Modell zu Klassifizieren (Hier nichts verändern)
def classify_string(string, investigate=False):
    prediction = classifier.predict(vectorizer.transform([string]))[0]
    if prediction == 0:
        print("NICHT TOXISCH:", string)
    else:
        print("TOXISCH:", string)

In [36]:
mein_kommentar = "<Hier euer Kommentar>"
mein_kommentar = "Corona is stupid"

In [37]:
classify_string(mein_kommentar)

TOXISCH: Corona is stupid


### 3 Genauere Betrachtung des Modells

Nachdem ihr das Modell nun etwas getestet habt, betrachten wir das Modell einmal etwas näher, um zu verstehen wie das Modell Entscheidungen trifft.    
    
Das Modell fügt jedem der einzelnen Wörter in den Kommentaren einen Koeffizienten hinzu. Dieser sagt aus, ob ein entsprechendes Wort toxisch oder eben nicht toxisch ist. Desto höher der Koeffizient ist, desto mehr nimmt das Modell an, dass der Kommentar negativ behaftet ist.    
Ihr sollt nun ein Dataframe erstellen, das die Wörter mit den höchsten Koeffizienten anzeigt.

Benötigte Objekte:
 - `vectorizer.vocabulary_`: Gibt alle Wörter und ihre Häufigkeit als Dictionary zurück(Dies kennt ihr bereits). Wir benötigen nur die Wörter-Spalte alphabetisch sortiert als Liste.
 - `classifier.coef_`: Gibt ein mehrdimensionales Array bestehend aus den Koeffizienten zurück. Wir benötigen nur das erste Array.    
     
Erstellt nun ein Dataframe mit zwei Spalten: Einmal Spalte "Wort" mit den Wörtern und einmal die Spalte "Koeffizient" mit den entsprechenden Werten.    
    
**Hilfestellungen für die Wörter-Spalte:** 
  - <dict>.keys() gibt nur die Keys aus einem Dictionary zurück
  - list() wandelt die Keys in eine Liste um
  - sorted() sortiert die Liste alphabetisch (Damit die Einträge in der Liste zu den Koeffizienten passen muss diese so sortiert werden)


In [38]:
# Spalte für die Wörter und Spalte für die Koeffizienten erstellen
words = sorted(list(vectorizer.vocabulary_.keys()))
coeffs = classifier.coef_[0]
# Dataframe erstellen
df = pd.DataFrame({"Wort": words, "Koeffizient": coeffs})

Sortiert nun das Dataframe absteigend nach der Spalte Koeffizient und lasst euch die ersten 15 Datensätze anzeigen.    
**Tipp:** Die Funktion `sort_values()`von pandas kann euch dabei helfen: [Dokumentation](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [40]:
# Dataframe nach Koeffizient absteigend sortieren
df_sorted = df.sort_values(by='Koeffizient', ascending=False)

# Erste 15 Datensätze des sortierten Dataframes ausgeben
df_sorted.head(15)

Unnamed: 0,Wort,Koeffizient
49789,stupid,9.278404
25847,idiot,8.605696
25858,idiots,8.602204
49802,stupidity,7.553492
25850,idiotic,7.00525
38317,pathetic,6.554432
12907,crap,6.49013
16844,dumb,6.359553
34211,moron,6.332492
20745,fools,6.278988


Schaut euch die Wörter an. Gibt es Wörter die überraschend sind? Sind bei euch welche dabei, die nicht dabei sein sollten?

### 4 Bias finden

#### 4.1 Kommentare genauer analysieren
Wir wollen nun versuchen einen Bias in unserem Modell zu finden. Versucht dafür als erstes den Kommentar "I have a christian friend" zu klassifizieren.    
Nutzt dafür wieder die Methode `classify_string()`

In [41]:
kommentar = "I have a christian friend"

classify_string(kommentar)


NICHT TOXISCH: I have a christian friend


Lasst euch nun die Koeffizienten der einzelnen Wörter in dem Kommentar ausgeben. Dafür könnt ihr euer zuvor erstelltes Dataframe mit der Liste aller Wörter und ihren Koeffizienten nutzen.    
    
**Hilfestellungen:**
 - `<string>.split()`: Teilt einen String in eine Liste der einzelnen Wörter (Trennung bei den Leerzeichen)
 - Um den Eintrag im Dataframe zu finden gibt es verschiedene Möglichkeiten: `<df>.<spalte>.isin(<liste der Wörter>)` gibt euch eine series zurück bei der der Index in jedem Datensatz einen boolschen Wert beinhaltet und True bzw. False ist, je nachdem ob das Wort in dem Satz vorkommt. Dies könnt ihr auf das Dataset anwenden um die Koeffizienten anzeigen zu lassen

In [42]:
df_sorted[df_sorted.Wort.isin(kommentar.split())]

Unnamed: 0,Wort,Koeffizient
10293,christian,-0.040827
24049,have,-0.072302
21256,friend,-0.131335


Versucht als nächstes den Kommentar "I have a muslim friend" auf die gleiche Weise zu bewerten.

In [46]:
kommentar2 = "I have a muslim friend"

classify_string(kommentar2)
df_sorted[df_sorted.Wort.isin(kommentar2.split())]

TOXISCH: I have a muslim friend


Unnamed: 0,Wort,Koeffizient
34692,muslim,1.768562
24049,have,-0.072302
21256,friend,-0.131335


Testet dieses Vorgehen nun mit weiteren Kommentaren. Beispielweise könnt ihr "I have a white/black friend" testen, aber versucht euch gerne etwas eigenes zu überlegen.

#### 4.2 Bias identifizieren
Nun wollen wir bewerten was wir gerade herausgefunden haben.
  
##### Wie klassifiziert das Modell eure Kommentare?    

**Antwort** "I have a muslim friend" wird als toxisch markiert während "I have a christian friend" nicht als toxisch markiert wurde. 

##### Konntet ihr einen potenziellen Bias in dem Model finden? 

**Antwort:** Keiner dieser Kommentare sollte als toxisch markiert werden, aber das Modell idetifiziert fälschlicherweise einen Kommentar als toxisch. Das ist ein Zeichen von einem Bias. Das Modell ist gegenüber dem Schlüsselwort `muslim` voreingenommen, während das gleiche mit dem Wort `christian` nicht passiert. Ebenso für `black/white`.

##### Stellt eine Vermutung an wieso das Model einen Bias aufweist.    

**Antwort:**    
Da die Daten mit denen das Modell trainiert wurde auf Kommentaren aus Online-Plattformen basieren ist es vorstellbar, dass auf diesen Plattformen Kommentare, die sich auf den Islam beziehen von bestimmten Personengruppen verfasst werden die schlecht und abwertend über diese Glaubensrichtung reden, während dies beim christlichen Glauben weniger der Fall ist.     
Das gleiche scheint auch bei der Hautfarbe der Fall zu sein.    
    
Da diese Wörter häufiger zusammen mit anderen negativen Begriffen in einem Kommentar aufgetaucht sind, hat das Modell von den Kommentaren unbeabsichtigt gelernt selbst auch diskriminierende Bewertungen zu machen und bestimmte Vorurteile bzw. Voreingenommenheit zu übernehmen.

##### Um welche Art von Bias könnte es sich handeln?

**Antwort:**    
Prejudice Bias (Voreingenommenheit): Die zum Trainieren des Systems verwendeten Daten spiegeln vorhandene Vorurteile, Stereotypen und/oder fehlerhafte gesellschaftliche Annahmen wider, wodurch dieselben Vorurteile aus der realen Welt in das maschinelle Lernen selbst einfließen.