# Datenverarbeitung in Python mit Pandas
Pandas ist eins der wichtigsten Python Pakete, zur Datenverarbeitung. Das Pandas Paket stellt Methoden zur Verfügung, um Daten aus Dateien oder Datenbanken einzulesen, zu bearbeiten und zu transformieren und deskriptive Statistiken oder Visualisierungen der Daten zu erstellen. Oftmals findet ein Großteil des Pre-Processings vor einem Machine Learning Model als in Pandas statt.

Pandas ist auf Basis von Numpy entwickelt worden, das mit dem `NDArray` einen Datentyp für mehrdimensionale Arrays zur Verfügung stellt (daher auch der Name). Numpy stellt entsprechenden Methoden für Matrix-Multiplikation und Ähnliches zur Verfügung, die unter anderem von Pandas und Machine Learning Algorithmen verwendet werden. Numpy ist zu großen Teilen in C implementiert, wodurch große Datenmengen sehr schnell verarbeitet werden können.


### Inhalt dieses Notebooks
Dieses Notebook vermittelt die wichtigsten Funktionen aus dem Pandas Paket. Die einzelnen Kapitel bauen dabei aufeinander auf und beginnen nach der Installation mit den Grundlagen. Nachfolgend werden Methoden zur Datenmanipulation und -transformation vorgestellt und im vierten Teil anhand von konkreten Anwendungsbeispielen genutzt.
1. Vorbereitende Schritte (Pakete installieren und importieren)
2. Pandas Grundlagen (Daten einlesen, abrufen und abspeichern)
3. Data Engineering (Daten manipulieren und bearbeiten)
4. Anwendungsbeispiele

### Verwendete Daten
Die Daten aus diesem Notebook stammen aus der Lehre an der Leuphana Universität Lüneburg und sind Teil der begleitenden Case-Study aus der Veranstaltung _Business Analytics_ im Wintersemester 2021/22. Die Daten stehen über die LG4ML Plattform über die Links zu Beginn von Abschnitt 3 zum Download zur Verfügung. Alternativ können die CSV-Dateien direkt über die entsprechenden Links von Pandas geladen werden.

## 1. Vorbereitende Schritte
### 1.1 Pakete installieren
Bevor mit Pandas gearbeitet werden kann, muss die Bibliothek erst in den Python Interpreter installiert werden. Generell können Pakete über den Befehl `pip install paketname` installiert werden - falls Anaconda zur Python Verwaltung verwendet wird, ist auch `conda install paketname` möglich. Nach erfolgreicher Installation der Pakete kann mit dem Import fortgefahren werden.

In [1]:
# Install the required packages (if not already done before)
!pip install numpy
!pip install pandas
!pip install sqlalchemy
!pip install mysqlclient

Collecting mysqlclient
  Downloading mysqlclient-2.1.0-cp39-cp39-win_amd64.whl (180 kB)
Installing collected packages: mysqlclient
Successfully installed mysqlclient-2.1.0


### 1.2 Pakete importieren
Nach erfolgreicher Installation können die Pakete in die Laufzeit des Jupyter Notebooks integriert bzw. importiert werden. Im Data Science Bereich haben sich mit der einige Aliasse für die wichtigsten Pakete durchgesetzt und etabliert, daher empfiehlt es sich diese zu beachten. Pandas wird dabei als _pd_, Numpy als _np_ und das Pyplot Paket als _plt_ importiert.
 Beachten Sie, dass der Import bei jeden Neustart des Notebooks durchgeführt werden muss, da die Laufzeitumgebung zurückgesetzt wird. Neben den eigentlichen Imports empfielt es sich, einige Parameter anzupassen. Dazu zählen unter anderem die Anzahl angezeigter Reihen von Pandas oder auch inline Plots von Matplotlib.

In [2]:
# Import the packages
import pathlib
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

# Optional adjustments of the default settings
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 500)
%matplotlib inline

## 2. Pandas Grundlagen
Die grundlegenden und auch wichtigsten Datentypen in Pandas sind `Series` und `DataFrame`. Die Series steht dabei im Prinzip für eine Spalte mit einer Bezeichnung. Aus mehreren Spalten bzw. Series ergibt sich dann eine Tabelle - der DataFrame.
Series und DataFrame sind sich in Bezug auf die Operationen sehr ähnlich, wie beispielsweise Löschen/Füllen fehlender Werte oder auch der Berechnung von Mittelwert und Standardabweichung - natürlich gibt es aber auch Unterschiede. Beispielsweise können DataFrames im Gegensatz zur Series über eine oder mehrere Spalte/n miteinander verknüpft werden (ähnlich zu einem SQL Join), um Informationen miteinander zu kombinieren. Zudem haben DataFrames natürlich andere Methoden zum Zugriff auf die Daten, da es sich um eine zwei dimensionale Datenstruktur handelt.
Die nachfolgenden Blöcke zeigen die Grundlagen von Pandas:
1. DataFrame aus einem Dictionary erstellen
2. DataFrame aus einer CSV-Datei einlesen
3. SQL-Tabelle in DataFrame einlesen
4. Beschreibende Methoden ausführen
5. Auf Spalten, Zeilen und Zellen zugreifen
6. Zeilen nach Bedingungen auswählen
7. DataFrame als CSV-Datei abspeichern

### 2.1 DataFrame aus Dictionary erstellen
Generell gibt es verschiedene Möglichkeiten, einen DataFrame zu erstellen. Pandas ist in der Lage, aus nahezu allen zweidimensionalen Strukturen in Python einen DataFrame zu extrahieren bzw. zu erstellen. Dazu zählen unter anderem Numpy-Arrays und verschachtelte Listen. Eine weitere Möglichkeit bieten Dictionaries, bei denen hinter den Schlüsseln eine Liste an Daten folgt (wichtig: Listen müssen gleich lang sein!). Die Schlüssel werden automatisch als Spalten-Namen verwendet, falls über das Schlüsselwort `columns` keine anderen Namen definiert werden.

**Verwendung:** Erstellen eines DataFrames aus bestehenden Daten oder auf Basis von neuen Daten, wie bspw. in einem Dictionary.

**Wichtige Keywords:** *data* - Daten, die der DataFrame enthalten soll | *columns* - Namen der Spalten als Liste | *index* - Indexbezeichnungen als Liste, werden sonst automatisch generiert

**Pandas Dokumentation:**  [DataFrame](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.html)

In [3]:
# Create DataFrame
institutes_df = pd.DataFrame(data={'Institut': ['Bildungswissenschaft', 'Bewegung und Sport', 'Kultur', 'Politikwissenschaft',
                                                'Ethik', 'Ökologie', 'Marketing', 'Wirtschaftsinformatik'],
                                   'Fakultät': ['Bildung', 'Bildung', 'Kulturwissenschaften', 'Kulturwissenschaften',
                                                'Nachhaltigkeit', 'Nachhaltigkeit', 'Wirtschaft', 'Wirtschaft']})
# Display DataFrame
institutes_df

Unnamed: 0,Institut,Fakultät
0,Bildungswissenschaft,Bildung
1,Bewegung und Sport,Bildung
2,Kultur,Kulturwissenschaften
3,Politikwissenschaft,Kulturwissenschaften
4,Ethik,Nachhaltigkeit
5,Ökologie,Nachhaltigkeit
6,Marketing,Wirtschaft
7,Wirtschaftsinformatik,Wirtschaft


### 2.2 CSV-Datei in DataFrame einlesen
Pandas bietet die Möglichkeit, CSV-Dateien direkt in einen DataFrame einzulesen. CSV-Dateien sind im Data Science Bereich ein beliebtes Format, um Daten abzuspeichern und miteinander auszutauschen. Bspw. bietet es sich an, Daten nach bestimmten Schritten abzuspeichern. Anschließend können diese Daten dann direkt wieder eingelesen werden, ohne dass alle vorherigen Schritte erneut durchgeführt werden müssen. Mit der `head()` Methode können die ersten Zeilen des DataFrames angezeigt werden (Anzahl kann durch Parameter beim Funktionsaufruf festgelegt werden, Standardwert ist 5).

**Verwendung:** Erstellen eines DataFrames aus dem Inhalt einer CSV-Datei.

**Wichtige Keywords:** *path* - Pfad zur Datei | *separator* - Trennzeichen zwischen einzelnen Werten | *decimal* - Dezimalzeichen bei numerischen Werten | *index_col* - Die angegebene Spalte wird als Index verwendet

**Pandas Dokumentation:**  [read_csv()](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)

In [4]:
# Set url and load file
csv_url = 'https://lg4ml.org/wp-content/uploads/2021/11/Kundendaten.csv'
customer_df = pd.read_csv(csv_url)
customer_df.head(10)

Unnamed: 0,Vorname,Nachname,Adresse,PLZ,Ort,Branche,Bedarf,Kunden_ID
0,Ada,Rurumodemeiner,Hölderlinstrasse 131,36320,Kirtorf,Tagungszentrum,>100,T0001
1,Alida,Mäsaferemeiner,Amselweg 173,99718,Großenehrich,Unternehmen,30-50,T0002
2,Aline,Hartmann,Poststrasse 33,9599,Freiberg,Unternehmen,50-70,T0003
3,Gertrud,Ravugateson,Nelkenstrasse 129,9623,Frauenstein,Café,50-70,T0004
4,Cilly,Meyer,Hohe Strasse 147,38440,Wolfsburg,Bäckerei,30-50,T0005
5,Slobodan,Suliba,Tulpenstrasse 10,27211,Bassum,Bäckerei,50-70,T0006
6,Slavica,Kowuvadehein,Am Anger 16,56288,Kastellaun,Hotel,70-100,T0007
7,Antoinette,Vusidimüller,Steinweg 282,72280,Dornstetten,Unternehmen,30-50,T0008
8,Aldo,Kötimau,Brunnenweg 281,2826,Görlitz,Unternehmen,30-50,T0009
9,Bernhard,Setigaustein,Höhenweg 262,72639,Neuffen,Unternehmen,30-50,T0010


### 2.3 SQL-Tabelle in DataFrame einlesen
Pandas ist in der Lage, bestehende SQL-Tabellen direkt in einen DataFrame zu laden und dabei entsprechende Spaltenbezeichnungen zu übernehmen. Ebenfalls können die Ergebnisse von Queries auf der Datenbank eingelesen werden. Die jeweiligen Methoden benötigen dabei jeweils eine Datenbank-Verbindung in Form einer URI im Textformat oder ein SQL-Alchemy Connection-Objekt. Die URI besteht dabei aus den folgenden Elementen:
1. _dbtype_ - Art der Datenbank, z.B. mysql
2. _user_ - Benutzername, mit dem die Anmeldung am Server erfolgen soll
3. _passwort_ - Passwort des Nutzers (falls gesetzt)
4. _host_ - Hostbezeichnung oder IP-Adresse
5. _port_ - Port der Datenbank, z.B. meist 3306 bei MySQL
6. _datenbank_ - Datenbank oder Schema, das für die Abfragen verwendet werden soll

**Verwendung:** Erstellen eines DataFrames aus einer SQL-Tabelle.

**Wichtige Keywords:** *table_name* - Name der Tabelle, die gelesen werden soll | *con* - Datenbankverbindung

**Pandas Dokumentation:**  [read_sql_table()](https://pandas.pydata.org/docs/reference/api/pandas.read_sql_table.html)

In [13]:
# Create database connection and load table
db_connection = create_engine('mysql://user:password@host:port/database').connect()
table_df = pd.read_sql_table(table_name='Umsatz', con=db_connection)
table_df

Unnamed: 0,Maschinen_ID,Kunden_ID,Maschinen_Typ,Datum,Ersatzdatum
0,1,T0001,ECAM 45.766.B Eletta Cappuccino,2010-01-01,2013-11-13
1,2,T0011,PicoBaristo Deluxe SM5573/10,2010-01-02,2013-12-02
2,4,T0005,Z8,2010-01-02,2014-02-28
3,5,T0006,EA 8160,2010-01-03,2014-02-12
4,6,T0004,EA 8160,2010-01-04,2014-03-04
...,...,...,...,...,...
10099,12599,T0181,PicoBaristo Deluxe SM5573/10,2020-12-30,NaT
10100,12600,T0388,EA 8160,2020-12-30,NaT
10101,12601,H0251,EA 8160,2020-12-30,NaT
10102,12602,T1104,Caffeo Barista TS Smart,2020-12-30,NaT


### 2.4 Beschreibende Methoden ausführen
Sobald man auf neue teils unbekannte Daten trifft, sollte man sich zunächst einen kurzen Überblick verschaffen. Aber auch wenn man vermeintlich die Daten bereits kennt, schadet es nicht zu überprüfen, ob beim Einlesen alles funktioniert hat und nicht etwa Datentypen falsch erkannt wurden. DataFrame Objekte haben eine Reihe von Methoden, die Informationen über den DataFrame selbst, die Datentypen der einzelnen Spalten, fehlende Werte und mehr ausgeben.

**Verwendung:** Überblick verschaffen über einen DataFrame und seine Daten.

**Wichtige Methoden:** *info()* - Übersicht über Spalten, Datentypen und fehlende Werte | *shape* - Anzahl an Reihen und Spalten | *describe()* - Deskriptive Statistik numerischer Spalten | *value_counts()* - Wird auf einer Spalte/Series angewendet und gibt Häufigkeit der Werte an

In [5]:
# Display general information (dtypes, non-null count, column names)
customer_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4999 entries, 0 to 4998
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Vorname    4999 non-null   object
 1   Nachname   4999 non-null   object
 2   Adresse    4999 non-null   object
 3   PLZ        4999 non-null   int64 
 4   Ort        4999 non-null   object
 5   Branche    4999 non-null   object
 6   Bedarf     4999 non-null   object
 7   Kunden_ID  4999 non-null   object
dtypes: int64(1), object(7)
memory usage: 312.6+ KB


In [6]:
# Get shape of dataframe
print(customer_df.shape)

(4999, 8)


In [7]:
# Descriptive statistics of numerical columns (in this case PLZ is not a real numerical value)
customer_df.describe()

Unnamed: 0,PLZ
count,4999.0
mean,50978.063213
std,30467.052044
min,1067.0
25%,24399.0
50%,52531.0
75%,77709.0
max,99994.0


In [8]:
# Check value counts within one column
customer_df['Branche'].value_counts()

Unternehmen       2119
Tagungszentrum    1117
Bäckerei          1068
Hotel              453
Café               242
Name: Branche, dtype: int64

### 2.5 Zugriff auf Spalten, Zeilen und Zellen
Wenn DataFrames erstmal erstellt wurden, muss für die Analyse und Verarbeitung der Daten auf die Spalten, Zeilen und Zellen zugeriffen werden. DataFrames bieten dabei verschiedene Methoden an, um auf die Daten zuzugreifen und diese zu aktualisieren. Je nach Methode können dabei jeweils nur einzelne Werte oder eine Auswahl von Werten aktualisert werden. Die wichtigsten Methoden für den Zugriff sind `loc[]`, `iloc[]` und `at[]`.

**Verwendung:** Zugreifen und Aktualieren von Zeilen und Spalten.

**Pandas Dokumentation:**  [loc](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.loc.html) | [iloc](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.iloc.html) | [at](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.at.html)

In [9]:
# Access first rows of postal code column
customer_df['PLZ'].head(10)

0    36320
1    99718
2     9599
3     9623
4    38440
5    27211
6    56288
7    72280
8     2826
9    72639
Name: PLZ, dtype: int64

In [10]:
# Access row of customer with index 555
customer_df.loc[555]

Vorname                Eitel
Nachname           Taveduson
Adresse        Buchenweg 196
PLZ                    99947
Ort          Bad Langensalza
Branche          Unternehmen
Bedarf                 30-50
Kunden_ID              T0556
Name: 555, dtype: object

In [11]:
# Access rows of customers with indices 123, 456, and 789. Furthermore just use Kunden_ID and Bedarf as columns
customer_df.loc[[123, 456, 789], ['Kunden_ID', 'Bedarf']]

Unnamed: 0,Kunden_ID,Bedarf
123,T0124,70-100
456,T0457,30-50
789,T0790,>100


In [12]:
# Access the firstname of customer 100
customer_df.at[100, 'Vorname']

'Karl-Werner'

In [13]:
# Aufgabe: Lassen Sie sich Vorname und Nachname der Kunden mit den Indices zwischen 999 und 1010 anzeigen.
customer_df.loc[999:1010, ['Vorname', 'Nachname']]

Unnamed: 0,Vorname,Nachname
999,Franz-Xaver,Rösovoreweiner
1000,Gretl,Huvavadeweiner
1001,Marie-Theres,Dälogatehein
1002,Jacob,Sitevadestein
1003,Wanda,Schmidt
1004,Domenico,Lawisegehein
1005,Beatrix,Vivovadestein
1006,Cemal,Zituduson
1007,Veronica,Cösewede
1008,Veronika,Mayer


### 2.6 Zeilen nach Bedingungen auswählen
In vielen Fällen sind nicht alle Zeilen oder Spalten für die Analyse relevant oder es soll explizit nur ein Subset der Daten betrachtet werden. Daher gibt es verschiedene Möglichkeiten, Zeilen und Spalten in einem DataFrame zu filtern bzw. auszuwählen. Bspw. ist das Management daran interessiert, aus welchen Bereichen von Deutschland die Bäckerei Kunden kommen. Dementsprechend sollen nur Zeilen ausgewählt werden, die in der Spalte Branche _Bäckerei_ stehen haben. Zusätzlich sollen an Spalten nur die Kunden-ID und die PLZ angezeigt werden.
Einzelne Bedingungen, nach denen Zeilen ausgewählt werden sollen, können mit den logischen Operatoren `and` und `or` verknüpft werden.

**Verwendung:** Auswählen von Subsets aus dem DataFrame nach bestimmten Bedingungen.

**Pandas Dokumentation:**  [Selecting Subsets](https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html)



In [14]:
# Access all rows of bakeries
customer_df.loc[customer_df['Branche']=='Bäckerei']

Unnamed: 0,Vorname,Nachname,Adresse,PLZ,Ort,Branche,Bedarf,Kunden_ID
4,Cilly,Meyer,Hohe Strasse 147,38440,Wolfsburg,Bäckerei,30-50,T0005
5,Slobodan,Suliba,Tulpenstrasse 10,27211,Bassum,Bäckerei,50-70,T0006
17,Cord,Bälamaumeiner,Schlehenweg 295,49832,Freren,Bäckerei,50-70,T0018
19,Zenon,Rälivademüller,Seestrasse 280,48653,Coesfeld,Bäckerei,10-20,T0020
21,Ekkehart,Movifi,Mühlweg 65,55268,Nieder-Olm,Bäckerei,30-50,T0022
...,...,...,...,...,...,...,...,...
4980,Hans,Pevuflodehein,Weststrasse 78a,78234,Engen,Bäckerei,30-50,H0435
4983,Karolina,Hodewade,Bachstrasse 153,73033,Göppingen,Bäckerei,30-50,H0438
4988,Erica,Vatabede,Tannenweg 119,89250,Senden,Bäckerei,50-70,H0443
4989,Denis,Schulze,Steinstrasse 68,91074,Herzogenaurach,Bäckerei,10-20,H0444


### 2.7 DataFrame als CSV-Datei abspeichern
Wie bereits erwähnt ist es sinnvoll, Zwischenergebnisse stellenweise abzuspeichern, um bei späterer Bearbeitung nicht alle vorheringen Schritte erneut ausführen zu müssen. Daher können DataFrames als CSV-Dateien gesichert werden. Je nachdem wie der DataFrame gesichert wird (bspw. mit Index oder ohne), müssen beim Einlesen entsprechende Paramter innerhalb der Methode `read_csv()` gesetzt werden.

**Verwendung:** Abspeichern eines DataFrames in eine CSV-Datei.

**Wichtige Keywords:** *path* - Pfad, an dem die CSV-Datei gespeichert werden soll | *index* - Boolean, ob der Index mit gesichert werden soll | *sep* - Trennzeichen zwischen den Werten einer Zeile | *decimal* - Dezimalzeichen bei numerischen Werten

**Pandas Dokumentation:**  [to_csv()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.to_csv.html)

In [15]:
# Select all bakery customers from customers
bakery_customers = customer_df[customer_df['Branche']=='Bäckerei']
# Save dataframe as csv without the index
save_path = pathlib.Path('Bakery_Customers.csv')
bakery_customers.to_csv(save_path, index=False)

## 3. Data Engineering
Auf Basis der grundlegenden Konzepte aus dem vorherigen Abschnitt dieses Jupyter Notebooks können nachfolgend die wichtigsten Methoden aus dem Bereich des Data Engineerings vorgestellt und erläutert werden. Unter Data Engineering versteht man ganz allgemein die Verarbeitung von Daten, um bspw. Rohdaten für Machine Learning Modelle vorzubereiten. Das Data Engineering hat also die Aufgabe bzw. das Ziel, die vorliegenden Daten auf relevante Informationen zu filtern und in eine nutzbare Form zu bringen. Zum Beispiel könnten relevante Daten in verschiedenen Tabellen in einer Datenbank vorliegen und müssen vor der Nutzung integriert und aneinander angepasst werden.

Die nachfolgenden Blöcke erklären die folgenden Themen:
1. Zeilen nach Attributen sortieren
2. Werte eines DataFrames aktualisieren
3. Duplikate entfernen
4. Fehlende Werte behandeln
5. DataFrames zusammenfügen
6. Spalten auf Basis anderer Spalten füllen
7. Pivot-Tabellen erstellen
8. Spalten zu Zeilen umwandeln

### Weitere Daten einlesen
Für die Beispiele und Methoden in diesem Abschnitt werden mehrere DataFrames mit zueinander in Bezug stehenden Daten benötigt. Diese Daten werden nachfolgend von der LG4ML Seite geladen, daher ist eine Internetverbindung erforderlich (alternativ über die Links CSV-Dateien lokal speichern und Link durch Pfad zur Datei ersetzen).

In [16]:
# Read in more data for following examples (internet connection required)
kunden_df = pd.read_csv('https://lg4ml.org/wp-content/uploads/2021/11/Kundendaten.csv')
maschinen_df = pd.read_csv('https://lg4ml.org/wp-content/uploads/2021/11/machines.csv')
teile_df = pd.read_csv('https://lg4ml.org/wp-content/uploads/2021/11/parts_with_time.csv')
umsatz_df = pd.read_csv('https://lg4ml.org/wp-content/uploads/2021/11/umsatz.csv')
event_df = pd.read_csv('https://lg4ml.org/wp-content/uploads/2021/11/event.csv')
zustand_df = pd.read_csv('https://lg4ml.org/wp-content/uploads/2021/11/zustand.csv')

In [17]:
# Print out some basic information for each table (column names, dtypes, missing values)
for df in [kunden_df, maschinen_df, teile_df, umsatz_df, event_df, zustand_df]:
    print(df.info())
    print()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4999 entries, 0 to 4998
Data columns (total 8 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   Vorname    4999 non-null   object
 1   Nachname   4999 non-null   object
 2   Adresse    4999 non-null   object
 3   PLZ        4999 non-null   int64 
 4   Ort        4999 non-null   object
 5   Branche    4999 non-null   object
 6   Bedarf     4999 non-null   object
 7   Kunden_ID  4999 non-null   object
dtypes: int64(1), object(7)
memory usage: 312.6+ KB
None

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7 entries, 0 to 6
Data columns (total 14 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   Name                            7 non-null      object 
 1   Preis                           7 non-null      float64
 2   Wasserbehälter-Volumen          7 non-null      float64
 3   Wasserbehälter entnehmbar       7 n

### 3.1 Zeilen nach Attributen sortieren
In einigen Fällen ist es für weitere Schritte notwendig, Daten nach einem oder mehreren Attributen bzw. Spalten zu sortieren. Im ersten Beispiel werden die Kaffeemaschinen absteigend nach Preis sortiert, im zweiten Beispiel werden Umsätze der Kaffee-AG nach Kunden-ID und Datum geordnet. Die Methode `sort_values()` lässt dabei den Index des DataFrames in seiner ursprünglichen Form, womit wie in den Beispielen erkennbar der Index durcheinander gebracht wird.

**Verwendung:** Sortieren der Zeilen eines DataFrames nach einer oder mehrerer Spalten.

**Wichtige Keywords:** *by* - Spalte/n, nach der/denen sortiert werden soll | *axis* - Angabe, ob Zeilen oder Spalten sortiert werden sollen (default 0) | *ascencing* - Aufsteigend oder Absteigend sortieren | *inplace* - Wenn True wird DataFrame direkt geändert, sonst wird neues Objekt zurückgegeben

**Pandas Dokumentation:**  [sort_values()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.sort_values.html)

In [18]:
# Sort machines in descending order by price
maschinen_df.sort_values(by='Preis', ascending=False)

Unnamed: 0,Name,Preis,Wasserbehälter-Volumen,Wasserbehälter entnehmbar,Automatischer Milchaufschäumer,Milchbehälter abnehmbar,Für Kaffeepulver geeignet,Kaffeeausgabe verstellbar,Brühgruppe herausnehmbar,Energiespar-Modus,Pumpendruck,Produktmaße (BxHxT),Frischmilch,TassenXTag
3,ECAM 45.766.B Eletta Cappuccino,5240.89,5.7,0,1,0,0,0,1,1,15 bar,"26,0 x 36,0 x 47,1 cm",1,110
4,EA 8160,4867.56,5.4,1,0,0,1,1,0,1,15 bar,"28,7 x 48,3 x 38,1 cm",1,70
0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
2,ECAM 656.55.MS PrimaDonna Elite,3978.74,6.0,1,1,0,0,1,1,1,15 bar,"26,0 x 47,0 x 26,0 cm",1,35
6,PicoBaristo Deluxe SM5573/10,3950.09,5.4,1,1,0,1,1,1,0,15 bar,"22,1 x 34,0 x 43,0 cm",0,35
1,EQ.9 plus s500 TI9555X1DE,3400.16,6.9,1,1,0,1,0,0,1,19 bar,"31,6 x 39,2 x 47,0 cm",0,10
5,Caffeo Barista TS Smart,2022.72,5.4,1,0,1,1,0,0,1,15 bar,"25,9 x 37,2 x 46,7 cm",1,20


In [19]:
# Sort sales by customer id and date
umsatz_df.sort_values(by=['Kunden_ID', 'Datum']).head(25)

Unnamed: 0,Maschinen_ID,Kunden_ID,Maschinen_Typ,Datum,Ersatzdatum
4253,3698,B0001,Z8,2016-07-01,2019-06-06
7802,10602,B0001,Z8,2019-06-06,
7967,5448,B0002,PicoBaristo Deluxe SM5573/10,2019-07-15,
7968,5449,B0003,Caffeo Barista TS Smart,2019-07-15,
1439,1775,B0004,PicoBaristo Deluxe SM5573/10,2013-01-14,2016-11-17
4644,8106,B0004,PicoBaristo Deluxe SM5573/10,2016-11-17,
7973,5450,B0005,ECAM 45.766.B Eletta Cappuccino,2019-07-16,
4277,3717,B0006,EA 8160,2016-07-11,2020-01-31
8724,11405,B0006,EA 8160,2020-01-31,
1443,1779,B0007,PicoBaristo Deluxe SM5573/10,2013-01-16,2017-10-08


### 3.2 Werte eines DataFrames aktualisieren
Falls Änderungen an den Werten eines DataFrames vorgenommen werden müssen, kann dazu die Update-Funktion verwendet werden. Kleinere Anpassungen sind auch mit den oben genannten Methoden zum Zugriff auf die Werte möglich, falls jedoch große Teile der Daten aktualisiert werden sollen bietet sich die Update-Funktion an. Ein zweiter DataFrame mit den neuen Werten wird dabei wie eine Schablone auf den bestehenden DataFrame gelegt und füllt fehlende Werte auf und überschreibt bestehende Werte, falls der overwrite-Parameter gesetzt ist. Über Spaltennamen und Index ermittelt Pandas automatisch, welche Daten womit aktualisert werden sollen.

**Verwendung:** Aktualisieren der Werte von einzelnen Zellen oder ganzen Spalten/Zeilen.

**Wichtige Keywords:** *other* - DataFrame oder Series mit den neuen Daten | *overwrite* - Option, ob bestehende Werte überschrieben werden sollen

**Pandas Dokumentation:**  [update()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.update.html)

In [20]:
# Set new properties for coffee machines
new_properties = pd.DataFrame(data={'Preis': [4850.99, pd.NA, pd.NA, 4999.99, 4750.00, 1950.00, 4050.49], 'TassenXTag': [pd.NA, 15, 30, 120, pd.NA, 25, 50]})
# Copy machine df to keep the original data
updated_machines_df = maschinen_df.copy(deep=True)
# Apply updated values and show the results
updated_machines_df.update(new_properties, overwrite=True)
updated_machines_df

Unnamed: 0,Name,Preis,Wasserbehälter-Volumen,Wasserbehälter entnehmbar,Automatischer Milchaufschäumer,Milchbehälter abnehmbar,Für Kaffeepulver geeignet,Kaffeeausgabe verstellbar,Brühgruppe herausnehmbar,Energiespar-Modus,Pumpendruck,Produktmaße (BxHxT),Frischmilch,TassenXTag
0,Z8,4850.99,7.2,0,1,0,1,1,1,0,15 bar,,1,42
1,EQ.9 plus s500 TI9555X1DE,3400.16,6.9,1,1,0,1,0,0,1,19 bar,"31,6 x 39,2 x 47,0 cm",0,15
2,ECAM 656.55.MS PrimaDonna Elite,3978.74,6.0,1,1,0,0,1,1,1,15 bar,"26,0 x 47,0 x 26,0 cm",1,30
3,ECAM 45.766.B Eletta Cappuccino,4999.99,5.7,0,1,0,0,0,1,1,15 bar,"26,0 x 36,0 x 47,1 cm",1,120
4,EA 8160,4750.0,5.4,1,0,0,1,1,0,1,15 bar,"28,7 x 48,3 x 38,1 cm",1,70
5,Caffeo Barista TS Smart,1950.0,5.4,1,0,1,1,0,0,1,15 bar,"25,9 x 37,2 x 46,7 cm",1,25
6,PicoBaristo Deluxe SM5573/10,4050.49,5.4,1,1,0,1,1,1,0,15 bar,"22,1 x 34,0 x 43,0 cm",0,50


### 3.3 Duplikate entfernen
Gerade für die Nutzung von Machine Learning Algorithmen, aber auch für andere Schritte im Data Engineering ist es erforderlich, Duplikate aus den Daten zu entfernen. In den meisten Fällen bedeutet das, Zeilen mit den gleichen Werten aus den Daten zu entfernen und lediglich eine zu behalten. Über das Attribut `subset` kann dabei festgelegt werden, in welchen Spalten die Daten die gleichen Werte aufweisen sollen, um als Duplikat zu gelten.

**Verwendung:** Löschen von Duplikation innerhalb der Daten.

**Wichtige Keywords:** *subset* - Subset an Spalten, das für die Überprüfung gleicher Werte genutzt wird | *keep* - Angabe, was von den Duplikation behaltenw werden soll | *inplace* - Wenn True wird DataFrame direkt geändert, sonst wird neues Objekt zurückgegeben

**Pandas Dokumentation:**  [drop_duplicates()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.drop_duplicates.html)

In [21]:
# Get the first event for every machine ID
event_df.drop_duplicates(subset=['Maschinen_ID'], keep='first')

Unnamed: 0,Maschinen_ID,Datum,Eventtyp,Personalkosten,Tassen
0,13,2010-01-13,Ersatz,13.5,
1,23,2010-01-20,Reparatur,13.5,
2,14,2010-01-21,Reparatur,13.5,
3,46,2010-02-01,Ersatz,13.5,
4,56,2010-02-06,Reparatur,13.5,
...,...,...,...,...,...
91394,11955,2020-12-29,Wartung,13.5,7162.0
91396,12147,2020-12-29,Reparatur,13.5,
91397,12348,2020-12-29,Reparatur,13.5,
91416,5984,2020-12-30,Wartung,13.5,7145.0


In [22]:
# Aufgabe: Lassen Sie sich die letzte Maschine jedes Kunden anzeigen.
umsatz_df.drop_duplicates(subset=['Kunden_ID'], keep='last')

Unnamed: 0,Maschinen_ID,Kunden_ID,Maschinen_Typ,Datum,Ersatzdatum
3990,3538,C0079,EA 8160,2016-03-18,
4011,3549,C0042,Z8,2016-03-25,
4023,3559,C0059,ECAM 45.766.B Eletta Cappuccino,2016-03-31,
4040,7703,T0852,EA 8160,2016-04-07,
4044,3571,C0081,PicoBaristo Deluxe SM5573/10,2016-04-09,
...,...,...,...,...,...
10099,12600,T0388,EA 8160,2020-12-30,
10100,12601,H0251,EA 8160,2020-12-30,
10101,12602,T1104,Caffeo Barista TS Smart,2020-12-30,
10102,12603,B0122,EA 8160,2020-12-30,


### 3.4 Fehlende Werte behandeln
Ähnlich wie Duplikate stellen sind auch fehlende Werte ein Problem, das beim Data Engineering und mit Bezug zum Machine Learning ebenfalls beim Feature Engineering beachtet werden muss. Durch die `dropna()` Methode werden alle Zeilen (bzw. bei _axis=1_ Spalten) mit fehlenden Werten in mindestens einer Spalte aus dem DataFrame entfernt. Je nach Anzahl der fehlenden Werte kann es dabei passieren, dass sehr viele Zeilen entfernt werden und der Datensatz nicht mehr groß genug ist, um gute Machine Learning Modelle zu trainieren. Eine Alternative stellt die `fillna()` Methode dar, die fehlende Werte füllt statt sie zu löschen. So können bspw. wie im zweiten Beispiel im Falle fehlender Werte der Median der jeweiligen Spalte eingesetzt werden (natürlich gehen auch Mittelwert oder ähnliche Kennzahlen). Eine beliebte Möglichkeit sind auch sogenannte Imputer, die auf Basis der anderen Daten einen Wert abschätzen (z.B. KNN-Imputer aus Sklearn).

**Verwendung:** Löschen von Zeilen mit fehlenden Werten oder Füllen auf Basis vorhandener Werte.

**Wichtige Keywords:** *value* - Wert, der für fehlende Werte eingesetzt werden soll | *axis* - Angabe, ob Zeilen- oder Spaltenweise vorgegangen werden sollen (default 0) | *inplace* - Wenn True wird DataFrame direkt geändert, sonst wird neues Objekt zurückgegeben

**Pandas Dokumentation:**  [dropna()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.dropna.html) | [fillna()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.fillna.html)

In [23]:
# Drop rows with missing values
event_df.dropna(axis=0).head(25)

Unnamed: 0,Maschinen_ID,Datum,Eventtyp,Personalkosten,Tassen
54,1,2010-06-30,Wartung,13.5,19596.0
56,2,2010-07-01,Wartung,13.5,2595.0
57,4,2010-07-01,Wartung,13.5,7321.0
58,5,2010-07-02,Wartung,13.5,10742.0
59,6,2010-07-03,Wartung,13.5,10533.0
60,8,2010-07-03,Wartung,13.5,7046.0
62,10,2010-07-04,Wartung,13.5,10508.0
63,11,2010-07-04,Wartung,13.5,7045.0
64,12,2010-07-04,Wartung,13.5,2668.0
65,13,2010-07-06,Wartung,13.5,7021.0


In [25]:
# Fill missing values with the median of the column
teile_df.fillna(value=teile_df.median())

Unnamed: 0,Teil_Typ,Maschinen_Typ,Ersatzkosten,Wartungskosten,Reparaturkosten,WartungsabstandMonate,Wartung_Zeitaufwand,Reparatur_Zeitaufwand,Ersatz_Zeitaufwand
0,Brüheinheit,Z8,1521.03,132.33,313.06,12.0,12.0,20.0,30.0
1,Brühventil,Z8,84.18,8.24,34.49,6.0,2.0,5.0,10.0
2,Milchsystem,Z8,742.4,59.33,209.7,6.0,8.0,14.0,17.0
3,Schläuche,Z8,68.42,5.34,7.36,6.0,6.0,8.0,15.0
4,Pumpe,Z8,516.96,6.11,179.41,12.0,10.0,18.0,26.0
5,Dichtungsringe,Z8,11.53,0.74,3.98,6.0,3.0,7.0,10.0
6,Mühle,Z8,675.27,9.68,234.17,18.0,4.0,7.0,11.0
7,Displays,Z8,1002.38,94.69,478.64,6.0,0.0,2.0,5.0
8,Gehäuse,Z8,1699.11,88.67,633.31,6.0,0.0,4.0,12.0
9,Kaffeeausgabe,Z8,264.71,10.98,64.54,18.0,2.0,7.0,11.0


### 3.5 DataFrames zusammenfügen
Ein wichtiger Teil im Data Engineering besteht daraus, Daten aus verschiedenen Tabellen miteinander zu kombinieren und zusammengehörige Zeilen zu finden. Die Methode `merge()` eines DataFrames ist dabei vergleichbar mit einem Join in SQL und fügt die Spalten der DataFrames auf Basis passender Attribute in einer oder mehrerer Spalten zusammen. Im ersten Beispiel wird die Zustandstabelle (Informationen über betroffene Teile bei einem Event) mit der Event Tabelle gemergt, um entsprechende Informationen zum Event mit denen zum Teil zu kombinieren. Im zweiten Beispiel hat die Spalte, die zum Mergen verwendet werden soll, in beiden DataFrames unterschiedliche Namen. Statt dem _on_ Paramter werden die Parameter _left_on_ und _right_on_ gesetzt, um die jeweiligen Namen der Spalte zu benennen.

**Verwendung:** Spalten von DataFrames zusammenfügen auf Basis gemeinsamer Attribute.

**Wichtige Keywords:** *right* - Zweiter DataFrame zum Verketten | *how* - Angabe, wie die Spalten verbunden werden sollen | *on* - Spalte/n zum Identifizieren zusammengehöriger Zeilen | *suffixes* - Suffixes für Spalten, falls gleiche Spaltenbezeichnungen vorliegen

**Pandas Dokumentation:**  [merge()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.merge.html)

In [26]:
# Merge tables with same column names in each table
zustand_df.merge(right=event_df, how='left', on=['Maschinen_ID', 'Datum']).head(50)

Unnamed: 0,Teil_Typ,Maschinen_ID,Datum,Fall,Teil_Alter,Eventtyp,Personalkosten,Tassen
0,Mühle,13,2010-01-13,Ersatz,6,Ersatz,13.5,
1,Milchsystem,23,2010-01-20,Reparatur,6,Reparatur,13.5,
2,Mühle,14,2010-01-21,Reparatur,14,Reparatur,13.5,
3,Schläuche,46,2010-02-01,Ersatz,4,Ersatz,13.5,
4,Schläuche,56,2010-02-06,Reparatur,3,Reparatur,13.5,
5,Kaffeeausgabe,78,2010-02-17,Ersatz,1,Ersatz,13.5,
6,Brüheinheit,78,2010-02-18,Reparatur,2,Reparatur,13.5,
7,Pumpe,78,2010-02-23,Reparatur,7,Reparatur,13.5,
8,Milchsystem,40,2010-02-27,Reparatur,33,Reparatur,13.5,
9,Dichtungsringe,91,2010-03-10,Reparatur,6,Reparatur,13.5,


In [27]:
# Merge tables with different column names in each table
teile_df.merge(right=maschinen_df, how='left', left_on='Maschinen_Typ', right_on='Name')

Unnamed: 0,Teil_Typ,Maschinen_Typ,Ersatzkosten,Wartungskosten,Reparaturkosten,WartungsabstandMonate,Wartung_Zeitaufwand,Reparatur_Zeitaufwand,Ersatz_Zeitaufwand,Name,Preis,Wasserbehälter-Volumen,Wasserbehälter entnehmbar,Automatischer Milchaufschäumer,Milchbehälter abnehmbar,Für Kaffeepulver geeignet,Kaffeeausgabe verstellbar,Brühgruppe herausnehmbar,Energiespar-Modus,Pumpendruck,Produktmaße (BxHxT),Frischmilch,TassenXTag
0,Brüheinheit,Z8,1521.03,132.33,313.06,12.0,12.0,20.0,30.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
1,Brühventil,Z8,84.18,8.24,34.49,6.0,2.0,5.0,10.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
2,Milchsystem,Z8,742.4,59.33,209.7,6.0,8.0,14.0,17.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
3,Schläuche,Z8,68.42,5.34,7.36,6.0,6.0,8.0,15.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
4,Pumpe,Z8,516.96,6.11,179.41,12.0,10.0,18.0,26.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
5,Dichtungsringe,Z8,11.53,0.74,3.98,6.0,3.0,7.0,10.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
6,Mühle,Z8,675.27,9.68,234.17,18.0,4.0,7.0,11.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
7,Displays,Z8,1002.38,94.69,478.64,,0.0,2.0,5.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
8,Gehäuse,Z8,1699.11,88.67,633.31,,0.0,4.0,12.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42
9,Kaffeeausgabe,Z8,264.71,10.98,64.54,18.0,2.0,7.0,11.0,Z8,4764.05,7.2,0,1,0,1,1,1,0,15 bar,,1,42


### 3.6 Spalten auf Basis anderer Spalten füllen
In bestimmten Fällen ist es erforderlich, bei der Berechnung einer neuen Spalte Werte in Abhängigkeit von den Werten einer anderen Spalte zu füllen. Zum Beispiel muss bei der Berechnung der Kosten einer Maschine auf den Maschinentyp zugegriffen werden, der jeweils in einer Spalte vorliegt. Im Beispiel im Code soll eine neue Spalte hinzugefügt werden, die über die Nutzung einer Maschine informiert (Aktiv falls Maschine noch genutzt wird, sonst Inaktiv). Entsprechend wird mit Hilfe der `np.where()` Funktion geschaut, ob kein Ersatzdatum vorliegt und die Werte entsprechend gesetzt.

**Verwendung:** Neue Werte in Abhängigkeit vom Wert einer Spalte auswählen.

**Dokumentation:** [numpy.where()](https://numpy.org/doc/stable/reference/generated/numpy.where.html) | [DataFrame.where](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.where.html)


In [28]:
# Create copy to keep the original data
new_umsatz_df = umsatz_df.copy(deep=True)
new_umsatz_df['Nutzung'] = np.where(new_umsatz_df['Ersatzdatum'].isna(), 'Aktiv', 'Inaktiv')
new_umsatz_df.sort_values(by=['Kunden_ID', 'Datum'])

Unnamed: 0,Maschinen_ID,Kunden_ID,Maschinen_Typ,Datum,Ersatzdatum,Nutzung
4253,3698,B0001,Z8,2016-07-01,2019-06-06,Inaktiv
7802,10602,B0001,Z8,2019-06-06,,Aktiv
7967,5448,B0002,PicoBaristo Deluxe SM5573/10,2019-07-15,,Aktiv
7968,5449,B0003,Caffeo Barista TS Smart,2019-07-15,,Aktiv
1439,1775,B0004,PicoBaristo Deluxe SM5573/10,2013-01-14,2016-11-17,Inaktiv
...,...,...,...,...,...,...
3936,3510,U2117,Caffeo Barista TS Smart,2016-02-28,2020-05-23,Inaktiv
9192,11795,U2117,Caffeo Barista TS Smart,2020-05-23,,Aktiv
7694,5328,U2118,ECAM 656.55.MS PrimaDonna Elite,2019-05-13,,Aktiv
3937,3511,U2119,ECAM 656.55.MS PrimaDonna Elite,2016-02-28,2019-09-24,Inaktiv


### 3.7 Pivot-Tabellen erstellen
Pivot-Tabellen sind ein wichtiges Werkzeug, um bestimmte Daten aus einem DataFrame zu aggregieren und zu extrahieren. Die Pivot-Funktion eines DataFrames gruppiert die Zeilen nach den angegebenen Index Spalten, und aggregiert über die Werte einer weitere Spalte. Im Zuge dessen werden die Werte einer Spalte zu den Spalten des resultierenden DataFrames umgewandelt. Beispielsweise könnte die Qualitätssicherung daran interessiert sein, wie häufig bei den einzelnen Teiltypen Ersatz, Reparatur und Wartung notwendig sind, um mögliche Probleme festzumachen. Die untenstehende Pivot Funktion zählt dazu (Aggregationsfunktion count) die Maschinen-IDs (values) der verschiedenen Fälle und splittet dabei nach Teiltyp auf.

**Verwendung:** Daten durch die ausgewählte Funktion über den gesetzten Index aggregieren.

**Wichtige Keywords:** *values* - Spalte mit den Werten für die Aggregation | *index* - Spalten zum Gruppieren der Zeilen | *columns* - Spalte, dessen Werte als neue Spalten verwendet werden | *aggfunc* - Aggregationsfunktion (z.B. count oder sum)

**Pandas Dokumentation:**  [pivot_table()](https://pandas.pydata.org/docs/reference/api/pandas.pivot_table.html)

In [29]:
# Count event types per part type
zustand_df.pivot_table(values='Maschinen_ID', index='Fall', columns='Teil_Typ', aggfunc='count')

Teil_Typ,Brüheinheit,Brühventil,Dichtungsringe,Displays,Gehäuse,Kaffeeausgabe,Milchaufschäumer,Milchsystem,Mühle,Pumpe,Schläuche
Fall,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Ersatz,483.0,1059.0,996.0,224.0,159.0,1082.0,207.0,895.0,681.0,889.0,973.0
Reparatur,5488.0,4257.0,4002.0,1917.0,1971.0,4358.0,869.0,5419.0,3907.0,4145.0,4254.0
Wartung,22368.0,49934.0,49989.0,,,13507.0,5517.0,44034.0,13109.0,22548.0,49936.0


### 3.8 Spalten zu Zeilen umwandeln
Ähnlich zur Pivot-Tabelle können durch die `unstack()` Funktion Werte einer Spalte zu Spalten umgewandelt werden. Dazu wird zunächst der Index des DataFrames neu gesetzt, um die Zeilen zu gruppieren. Anschließend wird die Spalte mit den Werten ausgewählt und geunstackt. Das gleiche Ergebnis kann ebenfalls mit einer Pivot-Tabelle erreicht werden, indem die entsprechenden Spalten für Index und Werte gesetzt und die Summen-Aggregierungsfunktion verwendet wird. Die beiden Codes unten erzeugen die gleiche Ausgabe: Das Teilalter jedes Teils zum Zeitpunkt einer Wartung.

**Verwendung:** Werte einer Spalte unstacken auf Basis des gesetzten Index.

**Pandas Dokumentation:**  [unstack()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.unstack.html)

In [30]:
# Merge tables and unstack the part age. Last column of index will turn into columns
zustand_df.merge(right=event_df, how='left', on=['Maschinen_ID', 'Datum']).set_index(keys=['Maschinen_ID', 'Datum', 'Teil_Typ']).Teil_Alter.unstack()


Unnamed: 0_level_0,Teil_Typ,Brüheinheit,Brühventil,Dichtungsringe,Displays,Gehäuse,Kaffeeausgabe,Milchaufschäumer,Milchsystem,Mühle,Pumpe,Schläuche
Maschinen_ID,Datum,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,2010-06-30,,180.0,180.0,,,,,180.0,,,180.0
1,2010-07-28,,,208.0,,,,,,,,
1,2010-10-08,,,,,,280.0,,,,,
1,2010-12-27,360.0,360.0,360.0,,,,,360.0,,360.0,360.0
1,2011-06-25,,540.0,540.0,,,540.0,,540.0,540.0,,540.0
...,...,...,...,...,...,...,...,...,...,...,...,...
12423,2020-11-26,,,,,,13.0,,,,,
12433,2020-11-16,,,,,1.0,,,,,,
12440,2020-11-21,,5.0,,,,,,,,,
12456,2020-12-28,,,,,,,,,,36.0,


In [31]:
# This pivot table does the same thing as the unstack method above
zustand_df.merge(right=event_df, how='left', on=['Maschinen_ID', 'Datum']).pivot_table(values='Teil_Alter', index=['Maschinen_ID', 'Datum'], columns='Teil_Typ', aggfunc='sum')

Unnamed: 0_level_0,Teil_Typ,Brüheinheit,Brühventil,Dichtungsringe,Displays,Gehäuse,Kaffeeausgabe,Milchaufschäumer,Milchsystem,Mühle,Pumpe,Schläuche
Maschinen_ID,Datum,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
1,2010-06-30,,180.0,180.0,,,,,180.0,,,180.0
1,2010-07-28,,,208.0,,,,,,,,
1,2010-10-08,,,,,,280.0,,,,,
1,2010-12-27,360.0,360.0,360.0,,,,,360.0,,360.0,360.0
1,2011-06-25,,540.0,540.0,,,540.0,,540.0,540.0,,540.0
...,...,...,...,...,...,...,...,...,...,...,...,...
12423,2020-11-26,,,,,,13.0,,,,,
12433,2020-11-16,,,,,1.0,,,,,,
12440,2020-11-21,,5.0,,,,,,,,,
12456,2020-12-28,,,,,,,,,,36.0,


## 4. Anwendungsbeispiele
In diesem Teil des Noteboks haben Sie die Möglichkeit, die verschiedenen Möglichkeiten der Datenverarbeitung mit Pandas an konkreten Fragestellungen zu den vorliegenden Daten zu vertiefen. Es kann wie meistens in der Programmierung vorkommen, dass mehrere Wege ans Ziel führen - es gibt also nicht nur eine richtige Lösung!


### 4.1 Kunde & Maschinen-Typ
Das Management ist daran interessiert, wann die Kunden der Kaffee-AG jeweils ihre erste Maschine bekommen haben und welcher Maschinen-Typ das jeweils ist. Überlegen Sie sich, in welchen Tabellen / DataFrames die benötigten Daten zu finden sind und wie Sie diese miteinander kombinieren können.

**Zieldaten:** Kunden-ID, Vorname, Nachname, Maschinen-Typ, Datum

**Erweiterung:** Das Management möchte die oben beschriebenen Daten von Kunden haben, die bereits mehr als drei Kaffeemaschinen bekommen haben.

In [32]:
# First part
umsatz_df.drop_duplicates(subset=['Kunden_ID'], keep='first').merge(right=kunden_df, how='right', on='Kunden_ID')[['Kunden_ID', 'Vorname', 'Nachname', 'Maschinen_Typ', 'Datum']]

Unnamed: 0,Kunden_ID,Vorname,Nachname,Maschinen_Typ,Datum
0,T0001,Ada,Rurumodemeiner,ECAM 45.766.B Eletta Cappuccino,2010-01-01
1,T0002,Alida,Mäsaferemeiner,EA 8160,2010-01-05
2,T0003,Aline,Hartmann,EA 8160,2010-01-08
3,T0004,Gertrud,Ravugateson,EA 8160,2010-01-04
4,T0005,Cilly,Meyer,Z8,2010-01-02
...,...,...,...,...,...
4994,H0449,Alfred,Hasabamüller,EA 8160,2018-08-05
4995,H0450,Cord,Wolf,EA 8160,2020-12-29
4996,H0451,Herbert,Milofoson,EA 8160,2018-08-25
4997,H0452,Marita,Tosafumeiner,Caffeo Barista TS Smart,2018-08-26


In [33]:
# Get customers with more than three coffee machines
customer_machine_counts = umsatz_df.groupby(by='Kunden_ID').count()
relevant_customer_ids = customer_machine_counts[customer_machine_counts['Maschinen_ID']>3].index
# Select the rows from the sales df and do the same as for the first part
umsatz_df[umsatz_df['Kunden_ID'].isin(relevant_customer_ids)].drop_duplicates(subset=['Kunden_ID'], keep='first').merge(right=kunden_df, how='left', on='Kunden_ID')[['Kunden_ID', 'Vorname', 'Nachname', 'Maschinen_Typ', 'Datum']]

Unnamed: 0,Kunden_ID,Vorname,Nachname,Maschinen_Typ,Datum
0,T0001,Ada,Rurumodemeiner,ECAM 45.766.B Eletta Cappuccino,2010-01-01
1,T0011,Rosita,Fedobedemüller,PicoBaristo Deluxe SM5573/10,2010-01-02
2,T0006,Slobodan,Suliba,EA 8160,2010-01-03
3,T0002,Alida,Mäsaferemeiner,EA 8160,2010-01-05
4,T0020,Zenon,Rälivademüller,PicoBaristo Deluxe SM5573/10,2010-01-05
5,T0030,Eckehard,Schmidt,PicoBaristo Deluxe SM5573/10,2010-01-10
6,T0108,Francesco,Jüsegau,EA 8160,2010-01-18
7,T0027,Kathleen,Muwemattmeiner,ECAM 656.55.MS PrimaDonna Elite,2010-01-18
8,T0045,Harald,Soteda,ECAM 45.766.B Eletta Cappuccino,2010-01-18
9,T0047,John,Tüsulatemeiner,Z8,2010-01-23


### 4.2 Kosten je Maschinentyp je Teiltyp
Um in Zukunft die Ausgaben besser kalkulieren zu können und eventuell besonders anfällige Maschinen ausmachen zu können, haben Ihre Kollegen aus der Buchhaltung Sie nach ein paar Zahlen gefragt. Die Buchhaltung wüsste gerne, wie hoch die Ausgaben für den Ersatz von Teilen für jeden Maschinentyp je Teiltyp sind seit der ersten Vermietung der Kaffee-AG.

**Zieldaten:** Summierte Kosten je Maschinentyp und Teiltyp bei Ersatz

**Hinweis:** Überlegen Sie zunächst, welche Tabellen miteinander kombiniert werden müssen, um alle relevanten Informationen zusammenzufügen.

In [34]:
# Merge tables to get all relevant data
relevant_data = zustand_df.merge(right=umsatz_df, how='left', on='Maschinen_ID', suffixes=('_event', '_umsatz')).merge(right=teile_df, how='left', on=['Teil_Typ', 'Maschinen_Typ'])
# Filter for replacement events
relevant_data = relevant_data[relevant_data['Fall']=='Ersatz']
# Create pivot table
relevant_data.pivot_table(values='Ersatzkosten', index='Maschinen_Typ', columns='Teil_Typ', aggfunc='sum')

Teil_Typ,Brüheinheit,Brühventil,Dichtungsringe,Displays,Gehäuse,Kaffeeausgabe,Milchaufschäumer,Milchsystem,Mühle,Pumpe,Schläuche
Maschinen_Typ,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
Caffeo Barista TS Smart,20049.81,6123.78,201.91,,12799.44,14213.21,4984.56,,18259.92,19369.68,4797.1
EA 8160,275463.9,32854.94,5380.16,79695.56,99875.97,79933.5,,264943.74,192742.5,157046.0,32022.96
ECAM 45.766.B Eletta Cappuccino,109360.75,11368.5,5572.26,33122.35,41233.72,39501.76,,95029.26,85179.12,65400.0,13159.44
ECAM 656.55.MS PrimaDonna Elite,61370.05,4763.01,2928.0,21016.0,25341.66,21240.96,,60271.12,43069.27,34547.82,3159.5
EQ.9 plus s500 TI9555X1DE,44090.34,4723.52,876.24,30289.57,10753.47,9286.48,,41290.32,,16656.64,3627.65
PicoBaristo Deluxe SM5573/10,23535.3,4897.1,3886.77,7480.35,7014.7,9897.66,,38701.0,27543.36,19004.64,6216.21
Z8,144497.85,14226.42,1994.69,47111.86,50973.3,48441.93,,118784.0,96563.61,87883.2,11631.4


### 4.3 Ersatz Events pro Teil und Maschinentyp
Die Qualitätssicherung ist daran interessiert, wie sich die Anzahl der ausgetauschten Teile seit Beginn der Kaffee-AG entwickelt haben und hat sich daher an Sie gewendet. Stellen Sie die Zahlen der einzelnen Jahre von 2010 bis 2020 gruppiert nach Teiltyp und Maschinentyp zusammen.

**Zieldaten:** Teiltyp, Maschinentyp, 2010, ... , 2020

In [35]:
# Merge tables to get all relevant data
relevant_data = zustand_df.merge(right=umsatz_df, how='left', on='Maschinen_ID', suffixes=('_event', '_umsatz')).merge(right=teile_df, how='left', on=['Teil_Typ', 'Maschinen_Typ'])
# Filter for replacement events
relevant_data = relevant_data[relevant_data['Fall']=='Ersatz']
# Add new column with the year of the event
relevant_data['year_event'] = relevant_data['Datum_event'].map(arg=lambda x: int(x.split('-')[0]))
# Create pivot table
relevant_data.pivot_table(values='Maschinen_ID', index=['Teil_Typ', 'Maschinen_Typ'], columns='year_event', aggfunc='count').fillna(0)

Unnamed: 0_level_0,year_event,2010,2011,2012,2013,2014,2015,2016,2017,2018,2019,2020
Teil_Typ,Maschinen_Typ,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1
Brüheinheit,Caffeo Barista TS Smart,0.0,1.0,1.0,1.0,2.0,3.0,6.0,4.0,5.0,2.0,8.0
Brüheinheit,EA 8160,3.0,4.0,7.0,11.0,15.0,15.0,25.0,16.0,18.0,26.0,38.0
Brüheinheit,ECAM 45.766.B Eletta Cappuccino,0.0,3.0,3.0,4.0,3.0,7.0,9.0,5.0,10.0,15.0,8.0
Brüheinheit,ECAM 656.55.MS PrimaDonna Elite,0.0,1.0,3.0,1.0,3.0,4.0,6.0,7.0,10.0,8.0,6.0
Brüheinheit,EQ.9 plus s500 TI9555X1DE,1.0,2.0,1.0,3.0,6.0,2.0,4.0,6.0,3.0,6.0,8.0
Brüheinheit,PicoBaristo Deluxe SM5573/10,1.0,1.0,1.0,0.0,1.0,4.0,2.0,3.0,2.0,3.0,1.0
Brüheinheit,Z8,0.0,6.0,9.0,4.0,11.0,12.0,4.0,12.0,8.0,13.0,16.0
Brühventil,Caffeo Barista TS Smart,0.0,1.0,2.0,7.0,13.0,12.0,10.0,13.0,19.0,17.0,23.0
Brühventil,EA 8160,0.0,6.0,7.0,18.0,32.0,49.0,37.0,56.0,48.0,55.0,81.0
Brühventil,ECAM 45.766.B Eletta Cappuccino,0.0,1.0,2.0,5.0,6.0,15.0,22.0,14.0,28.0,36.0,21.0
