# <font color='darkblue'>Modul 2: Datenvorbereitung bis zum train-test-split - Was macht Schokolade lecker?</font>  &nbsp; <font size='6'>&#x1F36B;</font>

<hr style="border:1px solid gray"> </hr>

In diesem Notebook wird mit einem Datensatz, welcher in einem späteren Modul zur Klassifikation verwendet werden soll, noch einmal das Bereinigen und Darstellen von Daten geübt. Außerdem wird die Bedeutungen der Parameter von `train_test_split()` erforscht. 

## <font color='darkblue'>Inhalt</font>

1. [Datenvorbereitung mit Schokolade](#kap1)  
    1.1 [Datensatz einbinden und erforschen](#kap11)  
    1.2 [Datensatz bereinigen und vorbereiten](#kap12)  
    &emsp; &ensp;1.2.1 [One-Hot-Encoding](#kap121)
     
   
2. [Train-test-split](#kap2)     


3. [Fazit](#kap3)

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>1.  Datenvorbereitung mit Schokolade</font> <a name="kap1"></a>

### <font color='darkblue'>1.1  Datensatz einbinden und erforschen</font> <a name="kap11"></a>

In diesem Beispiel soll ein Datensatz mit Merkmalen von Schokoladenriegeln untersucht werden, der ursprünglich auf <a href="http://flavorsofcacao.com/chocolate_database.html">Flavors of Cacao</a> veröffentlicht wurde, aber auch über <a href="https://www.kaggle.com/andrewmvd/chocolate-ratings">Kaggle</a> heruntergeladen werden kann. Mit ihm soll im vierten Modul ein Modell zur Bewertung des Geschmacks von Schokoladenriegeln anhand verschiedener Merkmale erstellt werden. 

Die Grundlage des Datensatzes ist eine Untersuchung, für die in den Jahren 2012 bis 2020 2530 verschiedene Schokoladenriegel in ihrem Geschmack bewertet wurden. Dabei wurden unter anderem charakteristische Eigenschaften der Riegel angegeben. 

Zunächst werden die benötigten Bibliotheken eingebunden, sowie der Datensatz eingelesen und ein Überblick angezeigt.

In [None]:
import numpy as np 
import pandas as pd 
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
df = pd.read_csv('M2_Uebung_Schokolade.csv')
df.info()

In [None]:
df.head()

Der Datensatz enthält Informationen zur Herstellung, Zusammensetzung und Geschmacksbewertung von Schokoladenriegeln. Die Merkmale werden in der nachfolgenden Tabelle erläutert.

<table align='left'>
    <thead>
        <tr>
          <th style="text-align:left">Spaltenname</th>
          <th style="text-align:left">Bedeutung</th>
          <th style="text-align:left">Weitere Informationen</th>
        </tr>
    </thead>
    <tr>
    <td style="text-align:left">Company</td>
    <td style="text-align:left">Hersteller</td>
    <td style="text-align:left">-</td>
    </tr>
    <tr>
    <td style="text-align:left">Company Location</td>
    <td style="text-align:left">Herstellungsort</td>
    <td style="text-align:left">Im Datensatz sind nur Riegel enthalten, die in den USA oder Kanada produziert wurden.</td>
    </tr>
    <tr>
    <td style="text-align:left">Review Date</td>
    <td style="text-align:left">Jahr der Bewertung</td>
    <td style="text-align:left">-</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">Country of Bean Origin</td>
    <td style="text-align:left; vertical-align: top">Herkunftsland der verwendeten Kakaobohne</td>
    <td style="text-align:left; vertical-align: top">-</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">Specific Bean Origin or Bar Name</td>
    <td style="text-align:left; vertical-align: top">Name der verwendeten Bohne /<br>Name des Riegels</td>
    <td style="text-align:left; vertical-align: top">-</td>
    </tr>
    <tr>
    <td style="text-align:left">Cocoa Percent</td>
    <td style="text-align:left">Kakaoanteil</td>
    <td style="text-align:left">[%]</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">Ingredients</td>
    <td style="text-align:left; vertical-align: top">Verwendete Zutaten</td>
    <td style="text-align:left; vertical-align: top">Die vorangestellte Zahl gibt die Anzahl der verwendeten Zutaten an. Bedeutung der Buchstaben: <br>B = Bohnen, S = Zucker, S* = Andere Süßungsmittel als weißer Rohr- / Rübenzucker, <br> C = Kakaobutter, V = Vanille, L = Lecithin, Sa = Salz</td>
    </tr>
    <tr>
    <td style="text-align:left">Most Memorable Characteristics</td>
    <td style="text-align:left">Einprägsamste Merkmale</td>
    <td style="text-align:left">-</td>
    </tr>
    <tr>
    <td style="text-align:left; vertical-align: top">Rating</td>
    <td style="text-align:left; vertical-align: top">Bewertung</td>
    <td style="text-align:left; vertical-align: top">3 = sehr empfehlenswert <br>2 = empfehlenswert <br>1 = enttäuschend</td>
    </tr>
</table>

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

Um sich einen Überblick über die Daten zu schaffen, wenden Sie die Methode `describe()` auf die Variable `df` an und plotten Sie anschließend ein Histogramm aller Daten.
    
Tipp: Übungsmaterial Modul 1.
</div>

In [None]:
# Wenden Sie die Methode describe() an

In [None]:
# Plotten Sie die Histogramme aller Daten

Aus der ersten Erforschung des Datensatzes geht hervor, dass es bezüglich des Merkmals `Ingredients` einige NaN Einträge gibt. Diese müssen entfernt werden. Außerdem liegen viele der Merkmale, obwohl Zahl-codiert, als `object` vor. Auch die Merkmale `Ingredients` und `Most Memorable Characteristics` liegen in einer Form vor, die so noch nicht bearbeitet werden kann. Diese Probleme werden nachfolgend behoben.  

### <font color='darkblue'>1.2  Datensatz bereinigen und vorbereiten</font> <a name="kap12"></a>

Zunächst werden die NaN Einträge gelöscht: 

In [None]:
df = df.dropna()

Wegen der Prozentzeichen wurde das Merkmal `Cocoa Percent` als `objekt`  eingelesen.

In [None]:
df['Cocoa Percent']

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

Bei dem Merkmal Cacao Percent wird nun zuerst das Prozentzeichen gelöscht. Wandeln Sie dann die Spalte in ein float um. Die Ausgabe der dritten Zelle zeigt dann, ob Ihr Vorgehen funktioniert hat. 
    
Tipp: Nutzen Sie die Funktion `pd.to_numeric()` für diese Spalte.
</div>

In [None]:
df['Cocoa Percent']=df['Cocoa Percent'].str.replace('%','')

In [None]:
# Wandeln Sie df['Cocoa Percent'] in einen float um

In [None]:
# Hat sich der Datentyp in der Ausgabe verändert?
df['Cocoa Percent']

<hr style="border:1px solid lightgrey"> </hr>

### <font color='darkblue'>1.2.1 One-Hot-Encoding</font> <a name="kap121"></a>

Die Verarbeitung der Merkmale `Ingredients` und `Most Memorable Characteristics` sind etwas aufwändiger. Hierbei soll der Inhalt der Spalte in viele Spalten zu je einem Inhalt aufgeteilt werden. Beispielsweise werden aus den Ausprägungen `rich cocoa, fatty, bready` der Spalte `Most Memorable Characteristics` drei Spalten `rich cocoa`, `fatty` und `bready` jeweils mit Ausprägung 1. Für jede Ausprägung in `Most Memorable Characteristics` entsteht so eine neue Spalte. Dieses Vorgehen nennt man One-Hot-Encoding.    

Das Vorgehen wird nachfolgend für `Most Memorable Characteristics` gezeigt und danach auf die `Ingredients` übertragen. Das Vorgehen besteht aus vier Schritten: 

**Schritt 1:** In `char_dict` werden alle möglichen Ausprägungen der Spalte gesammelt und gleichzeitig gespeichert, wie oft sie vorkommen.

In [None]:
char_dict = {}
for index, row in df.iterrows():    # für jede Zeile
    chars = row["Most Memorable Characteristics"].split(",") # Spalte die Eigenschaften nach jedem Komma ab und schreibe sie in chars
    for c in chars:   # für jede Eigenschaft in chars
        if c.strip().lower() in char_dict.keys(): # wenn die Eigenschaft schon vorhanden
            char_dict[c.strip().lower()] += 1     # zähle einen herauf
        else:                                     # wenn die Eigenschaft noch nicht vorhanden
            char_dict[c.strip().lower()] = 1      # füge es hinzu und setze die Anzahl auf 1
            
print(char_dict)

<div class="alert alert-block alert-info">
&#128204; <b>Anmerkung:</b>  

In diesem Code wurden einige string-Methoden benutzt, die Sie sich gerne, beispielweise mit der Dokumentation, noch einmal genauer anschauen können (`strip`, `lower`und `split`).

**Schritt 2:** Mit dem Befehl

```python
char_dict = { k: v for k, v in char_dict.items() if v >= n }
```

können Sie die Eigenschaften auswählen, die öfter als `n` Mal erwähnt werden. Da es, wie oben angezeigt, seeeehr viele unterschiedliche `Most Memorable Characteristics` gibt, werden nur diejenigen ausgewählt, die mindestens 20 Erwähnungen im Datensatz haben. 

In [None]:
char_dict = { k: v for k, v in char_dict.items() if v >= 20 }
print(char_dict)

**Schritt 3:** Die noch nur im Dictionary enthaltenen `Most Memorable Characteristics` werden nun als neue Spalten/Merkmale in  die Variable `df_copy` eingefügt.

In [None]:
df_copy = df.copy()   

zeroes = []
for index, row in df.iterrows():
    zeroes.append(0)

for k in char_dict.keys():  # für jede key, d.h. für jede Eigenschaft, wird eine Spalte mit Nullen eingefügt
    df_copy[k] = zeroes 

for index, row in df.iterrows():
    chars = row["Most Memorable Characteristics"].split(",")
    for c in chars:
        if c.strip().lower() in char_dict.keys():
            df_copy.loc[index,c.strip().lower()] = 1

df_copy.head()

**Schritt 4:** Die ursprüngliche Spalte `Most Memorable Characteristics` wird gelöscht.

In [None]:
df_copy = df_copy.drop("Most Memorable Characteristics", axis=1)
df_copy.head()

Jede Eigenschaft hat nun eine eigene Spalte bekommen. Es sind nun 74 Spalten.

Für eine Übertragung auf das Merkmal `Ingredients` muss zunächst die vorgestellte Anzahl der `Ingredients` von den tatsächlichen `Ingredients` getrennt werden. Dies passiert mit dem nachfolgenden Befehl: 

In [None]:
df_copy[['Number of Ingredients', 'Ingredients']] = df_copy['Ingredients'].str.split('-', expand=True)
df_copy['Number of Ingredients'] = pd.to_numeric(df_copy['Number of Ingredients']) 

In [None]:
df_copy.head()

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

Wandeln Sie mit Hilfe des vorhergehenden Beispiels und der vorgegebenen Bausteine das neue Merkmal `Ingredients` in mehrere Merkmale um (bspw. `Salz`). Beachten Sie dabei, dass Schritt 2 in diesem Fall nicht nötig ist. 
  
</div>

In [None]:
# Schritt 1: 

In [None]:
# Schritt 3: 

In [None]:
# Schritt 4:

Der so veränderte Datensatz sollte nun 81 Spalten haben. Der Datensatz ist nun für die Modellierung in Modul 4 vorbereitet und wird als csv Datei gespeichert:

<div class="alert alert-block alert-info">
&#128204; <b>Anmerkung:</b>  Die folgende Zelle sollte von Ihnen nicht ausgeführt werden, da Sie nicht lokal auf Ihrem Computer arbeiten. Die entstandene Datei steht Ihnen in Modul 4 dennoch zur Verfügung. 

In [None]:
# df_copy.to_csv(f"M4_Uebung_Schokolade_bereinigt.csv", index=False)

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>2. Train-test-split</font> <a name="kap2"></a>

Für die weitere Erfoschung sind nur noch einige Merkmale interessant und zwar `Cocoa Percent`, `Rating` und `Number of Ingredients`. Für den weiteren Verlauf wird `df` auf diese drei Merkmale eingeschränkt: 

In [None]:
df = df_copy[['Cocoa Percent','Rating','Number of Ingredients']]

Es folgen nun nach Einbindung des benötigten Moduls einige Aufgaben zur Erforschung der Eingabeparameter von `train_test_split()`. Eine zusammenfassende Erläuterung zu den Parametern (und damit die Antworten auf die gestellten Fragen) folgen im Fazit.   

Zunächst wird der Datensatz dafür auf 10% seiner Größe eingeschränkt, um die folgenden Phänomene besser zu beobachten. Auch hierfür lässt sich die Funktion `train_test_split()` von scikit-learn verwenden. Im folgenden Befehlt wird die Trainingsmenge, die nur 10% der Daten enthalten wird, einfach wieder `df` genannt. Die Testmenge `raus` wird nicht mehr weiter betrachtet.  

In [None]:
from sklearn.model_selection import train_test_split
df, raus = train_test_split(df, test_size=0.9, random_state=42)

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

Ergänzen Sie die Variablen, sodass die folgende Zelle einen Scatterplot Kakaoanteil gegen Anzahl der Inhaltsstoffe, eingefärbt nach Rating, ausgibt. 
    
</div>

In [None]:
# scatter = plt.scatter(#, #, c=#,marker='o') 
plt.title('Kakaoanteil, Anzahl der Inhaltsstoffe und Rating der Schokoriegel') 
plt.xlabel('Kakaoanteil') 
plt.ylabel('Anzahl der Inhaltsstoffe') 
plt.legend(*scatter.legend_elements())
plt.show;

Nun folgen die Aufgaben zur Funktion `train_test_split()`.

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

In den folgenden beiden Zellen sehen Sie die Aufteilung einmal mit einem `test_size` Parameter von 0.1 und einmal mit 0.4. Im Anschluss folgt die Ausgabe des oben geforderten Plots (Hier Überprüfung: Stimmt die Syntax von Ihrem Plot?) bezüglich der entstandenen Trainingsmenge. Was beobachten Sie? 
    
</div>

In [None]:
train, test = train_test_split(df, test_size=0.1, random_state=42, stratify=df['Rating'])
scatter = plt.scatter(train['Cocoa Percent'],train['Number of Ingredients'], c=train['Rating'],marker='o')
plt.title('Kakaoanteil, Anzahl der Inhaltsstoffe und Rating der Schokoriegel') 
plt.xlabel('Kakaoanteil') 
plt.ylabel('Anzahl der Inhaltsstoffe') 
plt.legend(*scatter.legend_elements())
plt.show;

In [None]:
train, test = train_test_split(df, test_size=0.4, random_state=42, stratify=df['Rating'])
scatter = plt.scatter(train['Cocoa Percent'],train['Number of Ingredients'], c=train['Rating'],marker='o')
plt.title('Kakaoanteil, Anzahl der Inhaltsstoffe und Rating der Schokoriegel') 
plt.xlabel('Kakaoanteil') 
plt.ylabel('Anzahl der Inhaltsstoffe') 
plt.legend(*scatter.legend_elements())
plt.show;

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

In den folgenden beiden Zellen sehen Sie die Aufteilung einmal mit einem `random_state` Parameter und einmal ohne. Im Anschluss folgt die Ausgabe der ersten 10 Einträge der Trainingsdaten. Führen Sie die Zellen mehrfach aus. Was beobachten Sie? 
    
</div>

In [None]:
train, test = train_test_split(df, test_size=0.3, random_state=42, stratify=df['Rating'])
train.head(10)

In [None]:
train, test = train_test_split(df, test_size=0.3, stratify=df['Rating'])
train.head(10)

<div class="alert alert-block alert-success">
&#128187; <b>Arbeitsauftrag:</b> 

In den folgenden beiden Zellen sehen Sie die Aufteilung einmal mit einem `stratify` Parameter auf das Merkmal `clarity` und einmal ohne. Im Anschluss folgt die Ausgabe des oben geforderten Plots bezüglich der entstandenen Testmenge in beiden Fällen **ohne** stratify. Führen Sie beide Zellen mehrfach aus. Was beobachten Sie? 
    
</div>

In [None]:
train, test = train_test_split(df, test_size=0.3, stratify=df['Rating'])
scatter = plt.scatter(test['Cocoa Percent'],test['Number of Ingredients'], c=test['Rating'],marker='o')
plt.title('Kakaoanteil, Anzahl der Inhaltsstoffe und Rating der Schokoriegel') 
plt.xlabel('Kakaoanteil') 
plt.ylabel('Anzahl der Inhaltsstoffe') 
plt.legend(*scatter.legend_elements())
plt.show;

In [None]:
train, test = train_test_split(df, test_size=0.3)
scatter = plt.scatter(test['Cocoa Percent'],test['Number of Ingredients'], c=test['Rating'],marker='o')
plt.title('Kakaoanteil, Anzahl der Inhaltsstoffe und Rating der Schokoriegel') 
plt.xlabel('Kakaoanteil') 
plt.ylabel('Anzahl der Inhaltsstoffe') 
plt.legend(*scatter.legend_elements())
plt.show;

<hr style="border:1px solid gray"> </hr>

## <font color='darkblue'>3. Fazit</font> <a name="kap3"></a>

Dieses Notebook hat
- einige Schritte des Datenverständnisses und der Datenvorbereitung wiederholt. 
- die Umformatierung ungünstig formatierter Merkmale mit vielen Informationen in viele Merkmale gezeigt (One-Hot-Encoding).
- die Bedeutung der Parameter von train_test_split erläutert und zwar:
    - `test_size` kontrolliert die Größe der jeweiligen Testmenge (und damit auch der Trainingsmenge).
    - `random_state` sorgt dafür, dass sich das "zufällige Auswählen" reproduzieren lässt: es wird immer die zu dem jeweiligen Parameter gehörende zufällige Menge ausgewählt.
    - `stratify` sorgt dafür, dass die Verteilung eines bestimmten Merkmals immer beibehalten wird. So sind in einer ausgewählten Teilmenge beispielsweise immer alle vorher vorhandenen Klassen weiterhin vertreten.