# IDS Challenge
## 02 Data Science: Arbeitsanweisungen und Hinweise

Aufgabe in diesem Teilprojekt ist die Konzeption und das Training eines Data-Science-Modells zur 
**Prognose des Energieverbrauchs** der Roboter bei der Durchführung von Aufträgen (z.B. Abholung einer Probe an einer Maschine).

Hierzu ist ein **Datensatz** vorhanden, der tatsächlich gemessene Energieverbräuche bereits durchgeführter Aufträge enthält.
Diesen Datensatz sollen Sie analysieren, (vor-)verarbeiten und nutzen, um ein Prognosemodell für künftige Aufträge zu erstellen.
Dabei wird die Verwendung entsprechender Python-Bibliotheken wie *pandas* und *scikit-learn* empfohlen.

Keine Angst, Sie müssen bei der Lösung der Aufgabe nicht bei Null anfangen. 
In Ihrem Vorgänger-Team war Ananya für Data Science zuständig.
Sie hatte, damals noch auf einer etwas anderen Datengrundlage, bereits begonnen, Datenanalysen durchzuführen und mit verschiedenen Modellen und Modell-Konfigurationen zu experimentieren.
Aus dieser Quelle stehen Ihnen im Notebook `blueprint.ipynb` einige **Code-Schnipsel** zur Verfügung, die Sie wiederverwenden und weiterentwickeln können.

Implementieren Sie Ihre Lösungen in das bereits vorhandene Jupyter Notebook `abgabe_tp2_data_science.ipynb`. 
Danach laden Sie das Jupyter Notebook mit Ihren Lösungen in ILIAS hoch.  

### Repository-Übersicht

Hier erhalten Sie eine Übersicht über die Dateien zu dieser Teilaufgabe. 

```bash
├───prediction_blueprint
│   ├───blueprint.ipynb
│   ├───blueprint_data_assessment.csv
│   ├───blueprint_data_train.csv
└───production_dataset
│   ├───robot_energy_data_train.csv
├───abgabe_tp2_data_science.ipynb
├───README.ipynb
```

### Datensatz

Den für Ihr Prognosemodell relevanten Datensatz finden Sie unter
`production_dataset/robot_energy_data_train.csv`.

Hier sind Daten zu durchgeführten Aufträgen und dem dabei gemessenen Energieverbrauch enthalten.
Ihr Ziel ist es also, ein Data-Science-Modell zu entwickeln, welches den Energieverbrauch basierend auf gegebenen Auftrags-Charakteristika möglichst präzise vorhersagen kann.

Der Datensatz verfügt über eine Reihe von Spalten, die es kritisch zu begutachten gilt.
Nicht alle Spalten sind zwingend relevant für den Energieverbrauch bei der Auftragsdurchführung.
Weiterhin können die Daten mancher Spalten ggf. nicht in der vorliegenden Form verarbeitet werden,
sondern müssen zunächst passend vorverarbeitet (transformiert) werden.

Eine minimale Dokumentation zu den Spalten des Datensatzes ist vorhanden:

| Spaltenname           | Datentyp | Beschreibung                                                                                                                                                                                                                                                                                                     |
|-----------------------|----------|------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| **Robot**             | str      | Die Bezeichnung des Roboters, der den Auftrag durchgeführt hat.                                                                                                                                                                                                                                                  |
| **Distance [m]**      | float    | Zurückzulegende Distanz in Metern.                                                                                                                                                                                                                                                                               |
| **Levels**            | int      | Stockwerksdifferenz zwischen Start- und Zielpunkt (mit Vorzeichen).                                                                                                                                                                                                                                              |
| **Cargo [kg]**        | float    | Gewicht zusätzlicher Beladung des Roboters bei Auftragsdurchführung in kg.                                                                                                                                                                                                                                       |
| **Elevation [m]**     | int      | Höhenunterschied zwischen Start- und Zielpunkt in Metern.                                                                                                                                                                                                                                                        |
| **Battery Level**     | float    | Batteriestand des Roboters bei Beginn der Auftragsdurchführung in %. Laut Herstellerangaben der Roboter kann es bei Batterieständen von unter 10% zu einem erhöhten Energieverbrauch kommen.                                                                                                                     | 
| **Time of Day [h]**   | float    | Tageszeit der Auftragsdurchführung, konkret: Zeit in Stunden seit Mitternacht (bei Auftragsbeginn). Kann relevant sein, da zwischen 9:00 und 17:00 Uhr erhöhter Arbeitsbetrieb durch die Logistik-Mitarbeiter herrscht und die Bewegung des Roboters durch notwendige Ausweich-Maneuver beeinflusst werden kann. |
| **Battery Error**     | bool     | Zeigt an, ob es bei der Auftragsdurchführung zu einem Batterie-Problem kam (bspw. vollständige Entleerung).                                                                                                                                                                                                      |
| ***Energy [kJ]***     | float    | Bei der Auftragsdurchführung verbrauchte Energie in Kilojoule. Vorhersage-Ziel.                                                                                                                                                                                                                                  |

Schauen Sie sich die Daten genau an und entscheiden Sie, basierend auf Beschreibung, Statistiken, Visualisierungen und Problemverständnis, 
welche der Spalten in welcher Form in das Prognosemodell einfließen sollen.

In manchen Fällen kann es Sinn machen, die Daten einer Spalte nicht in der vorliegenden Rohform in das Modell zu geben, sondern zunächst eine Vorverarbeitung durchzuführen.

Vielleicht finden Sie auch im Blueprint-Notebook (Beschreibung folgt) ein paar hilfreiche Hinweise.

Der CTO Ihres Unternehmens lässt Ihnen außerdem mitteilen, dass ein Teil des Datensatzes vorab abgespalten wurde.
Er wird diesen abgespaltenen "Assessment"-Teil der Daten unter Verschluss halten und bei Projektabschluss nutzen, 
um Ihr Prognose-Modell auf seine Güte hin überprüfen zu können. 

### Data-Science Aufgabenstellung und Blaupause

Wie bereits beschreiben besteht die zentrale Aufgabe dieses Teilprojekts in der **Erstellung eines Prognosemodells zur Vorhersage des Energieverbrauchs** der Roboter für einzelne Aufträge.

Das Jupyter Notebook unter `prediction_blueprint/blueprint.ipynb` enthält die von Ananya aus dem Vorgänger-Team begonnen Arbeiten zur Energieverbrauchs-Vorhersage.
Zum Zeitpunkt der Erstellung dieses Blaupausen-Notebooks war der vorliegende Datensatz mit Produktiv-Daten zum Energieverbrauch der Roboter noch nicht verfügbar.
Daher wird im Blueprint-Notebook ein ähnlicher, jedoch anderer Datensatz mit teilweise anderen Merkmalen betrachtet, 
welcher sich im gleichen Ordner wie das Notebook befindet (`blueprint_data_{train/assessment}.csv`).

Die bei der Bearbeitung der Aufgabenstellung durchzuführenden Schritte,
welche auch im Blueprint-Notebook durchgeführt werden, sind die folgenden:

1. Datenanalyse
2. Datenbereinigung
3. Feature Engineering
4. Datensatz-Splitting
5. Modell-Training und -Test
6. Evaluation und Kapselung der Ergebnisse

Orientieren Sie sich bei der Implementierung Ihres Prognose-Modells gerne zunächst an dieser Blaupause.
Beachten Sie jedoch, dass es einige Unterschiede zwischen dem darin verwendeten und dem aktuellen Datensatz gibt und prüfen Sie genau, welche Code-Teile übernommen werden können und wo Anpassungen oder weitere/andere Schritte notwendig sind.

*Hinweis:* Das Blueprint-Notebook beinhaltet nicht unbedingt alle Experimente, die von der ehemaligen Projektbesetzung durchgeführt wurden.
Ananya hat sehr viele verschiedene Varianten ausprobiert und viel mit dem Daten/Features experimentiert bevor eine gut funktionierende Variante gefunden wurde.
Scheuen Sie sich also nicht, viel zu experimentieren - selten wird eine geeignete Data-Science-Lösung gleich im ersten Anlauf gefunden!

### Anforderungen aufgrund der neuen Datengrundlagen

Wie bereits beschrieben wurde die exemplarische Modellkonfiguration in der Blaupause auf einem älteren vorläufigen Datensatz durchgeführt. 

Im nun vorliegenden, aktuelleren Datensatz sind Energieverbräuche zwei verschiedener Robotertypen (R1, R2) enthalten.
Beide Roboter sind von der Bauart grundlegend unterschiedlich und haben abweichende Eigenschaften (Größe & Form, Bewegungsgeschwindigkeiten, maximale Zusatzlast,...).
Daher ist anzunehmen, dass die Parameter der eingesetzten Machine-Learning-Modelle je nach Robotertyp möglicherweise sehr unterschiedlich gewählt werden müssen.
Somit ist es zwingend erforderlich, den Datensatz in zwei Teildatensätze aufzuteilen und separate Modelle für die beiden Robotertypen zu trainieren und zu evaluieren.

Es müssen mindestens **drei verschiedene Modelltpyen** trainiert werden, dabei müssen mindestens ein Parameterbasiertes Modell (z.B. Lineare Regression) sowie ein Baum-basiertes Modell (z.B. Decision Tree) enthalten sein.

Insgesamt soll jeder Modelltyp mindestens dreimal, d.h. auf den **verschiedenen Datengrundlagen** trainiert werden:
* Auf dem Gesamtdatensatz
* Auf den Daten für Roboter *R1*
* Auf den Daten für Roboter *R2* 

*Hinweis:* Um Redundanz zu vermeiden und Ihren Code und Ihr Notebook übersichtlich zu gestalten, verwenden Sie Funktionen!

Geben Sie für alle trainierten Modelle **geeignete Fehlermetriken** an.
Achten Sie dabei darauf, dass solche Fehlermetriken nur dann aussagekräftig sind, wenn Sie auf Daten berechnet werden, die nicht bereits im Modelltraining verwendet wurden.

**Entscheiden Sie sich für eines der Modelle, das Sie für den Produktiv-Einsatz vorschlagen wollen** - begründen Sie Ihre Entscheidung!
Das gewählte Modell soll abschließend auf dem bisher vorgehaltenen **Assessment-Datensatz evaluiert** werden.
Geben Sie die quantitativen Ergebnisse (aussagekräftige Fehlermetriken) an.

### Abnahmekriterien

* Jupyter-Notebook `abgabe_tp2_data_science.ipynb` mit Darstellung des Lösungswegs (Datenanalyse, Datenvorverarbeitung, Modell-Training, Evaluation)
* Visualisierung der wichtigsten Datenzusammenhänge (mit *seaborn* oder *matplotlib*)
* Modell-Trainings und -Evaluationen für die verschiedenen Teil-, sowie den Gesamtdatensatz (siehe oben). Es sind für alle Fälle geeignete Fehler-Metriken zu berechnen und anzugeben.
* Vorschlag eines Scikit-Learn Prognose-Modells, welches den Performanz-Anforderungen des CEO entspricht (Funktion zur Evaluation eines ungesehenen Datensatzes!)
* Nachvollziehbare Begründungen der durchgeführten Datenverarbeitungen und der gewählten Modellkonfiguration (textuell im Jupyter Notebook)
* Ansprechende Präsentation des Vorgehens und der Ergebnisse im Vortrag (insgesamt 10 Minuten)