# 4.1 Datenstruktur DataFrame

Bisher haben wir uns mit Datenreihen beschäftigt, sozusagen eindimensionalen
Arrays. Das Modul Pandas stellt zur Verwaltung von Datenreihen die Datenstruktur
Series zur Verfügung. In diesem Kapitel lernen wir die Datenstruktur
**DataFrame** kennen, die die Verwaltung von tabellarischen Daten ermöglicht,
also sozusagen zweidimensionalen Arrays.

## Lernziele

```{admonition} Lernziele
:class: goals
* Sie kennen die Datenstruktur **DataFrame**.
* Sie kennen das **csv-Dateiformat**.
* Sie können eine csv-Datei mit **read_csv()** einlesen.
* Sie können die ersten Zeilen eines DataFrames mit **.head()** anzeigen lassen.
* Sie konnen mit **.info()** sich einen Überblick über die importierten Daten
  verschaffen.
* Sie können mit **.describe()** die statistischen Kennzahlen ermitteln.
```

## Was ist ein DataFrame?

Bei Auswertung von Messungen ist der häufigste Fall der, dass Daten in Form
einer Tabelle vorliegen. Ein DataFrame-Objekt entspricht einer Tabelle, wie man
sie beispielsweise von Excel, LibreOffice oder Numbers kennt. Sowohl Zeile als
auch Spalten sind indiziert. Typischerweise werden die Daten in der Tabelle
zeilenweise angeordnet. Damit ist gemeint, dass jede Zeile einen Datensatz
darstellt und die Spalten die Eigenschaften speichern.

Ein DataFrame kann direkt über mehrere Pandas-Series-Objekte oder verschachtelte
Listen erzeugt werden. Da es in der Praxis nur selten vorkommt und nur für sehr
kleine Datenmengen praktikabel ist, Daten händisch zu erfassen, fokussieren wir
gleich auf die Erzeugung von DataFrame-Objekten aus einer Datei.

## Import von Tabellen mit .read_csv()

Tabellen liegen werden oft in dem Dateiformat abgespeichert, das die jeweilige
Tabellenkalkulationssoftware Excel, Numbers oder LibreOffice Calc als Standard
eingestellt hat. Wir betrachten in dieser Vorlesung Tabellen, die in einem
offenen Standardformat vorliegen und damit unabhängig von der verwendeten
Software und dem verwendeten Betriebssystem sind.

Das **Dateiformat CSV** speichert Daten zeilenweise ab. Dabei steht CSV für
"comma separated value". Die Trennung der Spalten erfolgt durch ein
Trennzeichen, normalerweise durch das Komma. Im deutschsprachigen Raum wird
gelegentlich ein Semikolon verwendet, weil im deutschprachigen Raum das Komma
als Dezimaltrennzeichen verwendet wird.

Um Tabellen im csv-Format einzulesen, bietet Pandas eine eigene Funktion namens
`read_csv` an (siehe [Dokumentation →
read_csv](https://pandas.pydata.org/docs/reference/api/pandas.read_csv.html)).
Wird diese Funktion verwendet, um die Daten zu importieren, so wird automatisch
ein DataFrame-Objekt erzeugt. Beim Aufruf der Funktion wird mindestens der
Dateiname übergeben. Zusäztliche Optionen können über optionale Argumente
eingestellt werden. Beispielweise könnte auch das Semikolon als Trennzeichen
eingestellt werden.

Am besten sehen wir uns die Funktionsweise von `read_csv` an einem Beispiel an.
Sollten Sie mit einem lokalen Jupyter Notebook arbeiten, laden Sie bitte die
Datei {download}`Download autoscout24_xxs.csv
<https://gramschs.github.io/book_ml4ing/data/autoscout24_xxs.csv>` herunter und
speichern Sie sie in denselben Ordner, in dem auch dieses Jupyter Notebook
liegt. Alternativ können Sie die csv-Datei auch über die URL importieren, wie es
in der folgenden Code-Zelle gemacht wird. Die csv-Datei enthält die Angaben zu
10 Autos, die auf [Autoscout24](https://www.autoscout24.de) zum Verkauf
angeboten wurden.

Führen Sie dann anschließend die folgende Code-Zelle aus.

In [1]:
import pandas as pd

url = 'https://gramschs.github.io/book_ml4ing/data/autoscout24_xxs.csv'
tabelle = pd.read_csv(url)

Es erscheint keine Fehlermeldung, aber den Inhalt der geladenen Datei sehen wir
trotzdem nicht. Dazu verwenden wir die Methode `.head()`.

## Anzeige der ersten Zeilen mit .head()

Probieren wir einfachmal aus, was die Anwendung der Methode `.head()` bewirkt.

In [2]:
tabelle.head()

Unnamed: 0,ID,Marke,Modell,Farbe,Erstzulassung,Jahr,Preis (Euro),Leistung (kW),Leistung (PS),Getriebe,Kraftstoff,Verbrauch (l/100 km),Verbrauch (g/km),Kilometerstand (km),Bemerkungen
0,Audi Nr. 1,Audi,Audi A4,silber,08/1997,1997,1999,66,90,Schaltgetriebe,Diesel,5.4,146,231000,1.9 TDI / AHK / Tüv neu
1,Audi Nr. 2,Audi,Audi A1,weiß,05/2023,2023,35990,81,110,Automatik,Benzin,6.1,138,2500,S line 30 TFSI 81(110) kW(PS) S tr
2,Audi Nr. 3,Audi,Audi A3,blau,11/2018,2018,17850,85,116,Automatik,Benzin,6.6,150,127800,Sportback sport 30 TFSI PDC SHZ XENON
3,BMW Nr. 1,BMW,BMW X3,blau,04/2018,2018,46830,294,400,Automatik,Diesel,5.9,154,117433,M550 d xDrive AHK+HUD+360+SOFT+SITZKLIMA+NAV-PRO
4,BMW Nr. 2,BMW,BMW X2,gold,07/2020,2020,27443,103,140,Schaltgetriebe,Benzin,5.5,125,19895,sDrive18i Advantage LED.Navi.RüKamera.ParkAss


Die Methode `.head()` zeigt uns die ersten fünf Zeilen der Tabelle an. Wenn wir
beispielsweise die ersten 10 Zeilen anzeigen lassen wollen, so verwenden wir die
Methode .head() mit dem Argument 10, also `.head(10)`:

In [3]:
tabelle.head(10)

Unnamed: 0,ID,Marke,Modell,Farbe,Erstzulassung,Jahr,Preis (Euro),Leistung (kW),Leistung (PS),Getriebe,Kraftstoff,Verbrauch (l/100 km),Verbrauch (g/km),Kilometerstand (km),Bemerkungen
0,Audi Nr. 1,Audi,Audi A4,silber,08/1997,1997,1999,66,90,Schaltgetriebe,Diesel,5.4,146,231000,1.9 TDI / AHK / Tüv neu
1,Audi Nr. 2,Audi,Audi A1,weiß,05/2023,2023,35990,81,110,Automatik,Benzin,6.1,138,2500,S line 30 TFSI 81(110) kW(PS) S tr
2,Audi Nr. 3,Audi,Audi A3,blau,11/2018,2018,17850,85,116,Automatik,Benzin,6.6,150,127800,Sportback sport 30 TFSI PDC SHZ XENON
3,BMW Nr. 1,BMW,BMW X3,blau,04/2018,2018,46830,294,400,Automatik,Diesel,5.9,154,117433,M550 d xDrive AHK+HUD+360+SOFT+SITZKLIMA+NAV-PRO
4,BMW Nr. 2,BMW,BMW X2,gold,07/2020,2020,27443,103,140,Schaltgetriebe,Benzin,5.5,125,19895,sDrive18i Advantage LED.Navi.RüKamera.ParkAss
5,Citroen Nr. 1,Citroen,C3,beige,03/2021,2021,14240,60,82,Schaltgetriebe,Benzin,4.2,97,57070,Feel PureTech 83 + LED + PDC + DAB + BLUETOOTH
6,Citroen Nr. 2,Citroen,Citroen Berlingo,blau,07/2020,2020,19950,75,102,Schaltgetriebe,Diesel,4.1,107,81700,HDI 100 Live M Navi Klima PDC
7,Citroen Nr. 3,Citroen,Citroen Berlingo,blau,12/2019,2019,15950,75,102,Schaltgetriebe,Diesel,4.1,108,98832,Live M/1 Hand/Klima/Tempomat/PDC
8,Citroen Nr. 4,Citroen,Citroen Berlingo,schwarz,01/2021,2021,21990,96,131,Schaltgetriebe,Diesel,4.4,116,8500,"Club XL Kasten Blue-HDI 130 *Mwst.,Navi,DAB,Temp."
9,Citroen Nr. 5,Citroen,Citroen C1,silber,03/2021,2021,12450,53,72,Schaltgetriebe,Benzin,3.7,85,15200,VTi 72 Shine+KAMERA+SHZ+APP+DAB+KLIMA+BT


Offensichtlich wurde beim Import der Daten wieder ein impliziter Index 0, 1, 2,
usw. gesetzt. Das ist nicht weiter verwunderlich, denn Pandas kann nicht wissen,
welche Spalte wir als Index vorgesehen haben. Und manchmal ist ein automatisch
erzeugter impliziter Index auch nicht schlecht. In diesem Fall würden wir aber
gerne als Zeilenindex die Auto-IDs verwenden. Daher modifizieren wir den Befehl
read_csv mit dem optionalen Argument `index_col=`. Die Namen stehen in der 1.
Spalte, was in Python-Zählweise einer 0 entspricht.

In [4]:
tabelle = pd.read_csv('autoscout24_xxs.csv', index_col=0)
tabelle.head(10)

Unnamed: 0_level_0,Marke,Modell,Farbe,Erstzulassung,Jahr,Preis (Euro),Leistung (kW),Leistung (PS),Getriebe,Kraftstoff,Verbrauch (l/100 km),Verbrauch (g/km),Kilometerstand (km),Bemerkungen
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Audi Nr. 1,Audi,Audi A4,silber,08/1997,1997,1999,66,90,Schaltgetriebe,Diesel,5.4,146,231000,1.9 TDI / AHK / Tüv neu
Audi Nr. 2,Audi,Audi A1,weiß,05/2023,2023,35990,81,110,Automatik,Benzin,6.1,138,2500,S line 30 TFSI 81(110) kW(PS) S tr
Audi Nr. 3,Audi,Audi A3,blau,11/2018,2018,17850,85,116,Automatik,Benzin,6.6,150,127800,Sportback sport 30 TFSI PDC SHZ XENON
BMW Nr. 1,BMW,BMW X3,blau,04/2018,2018,46830,294,400,Automatik,Diesel,5.9,154,117433,M550 d xDrive AHK+HUD+360+SOFT+SITZKLIMA+NAV-PRO
BMW Nr. 2,BMW,BMW X2,gold,07/2020,2020,27443,103,140,Schaltgetriebe,Benzin,5.5,125,19895,sDrive18i Advantage LED.Navi.RüKamera.ParkAss
Citroen Nr. 1,Citroen,C3,beige,03/2021,2021,14240,60,82,Schaltgetriebe,Benzin,4.2,97,57070,Feel PureTech 83 + LED + PDC + DAB + BLUETOOTH
Citroen Nr. 2,Citroen,Citroen Berlingo,blau,07/2020,2020,19950,75,102,Schaltgetriebe,Diesel,4.1,107,81700,HDI 100 Live M Navi Klima PDC
Citroen Nr. 3,Citroen,Citroen Berlingo,blau,12/2019,2019,15950,75,102,Schaltgetriebe,Diesel,4.1,108,98832,Live M/1 Hand/Klima/Tempomat/PDC
Citroen Nr. 4,Citroen,Citroen Berlingo,schwarz,01/2021,2021,21990,96,131,Schaltgetriebe,Diesel,4.4,116,8500,"Club XL Kasten Blue-HDI 130 *Mwst.,Navi,DAB,Temp."
Citroen Nr. 5,Citroen,Citroen C1,silber,03/2021,2021,12450,53,72,Schaltgetriebe,Benzin,3.7,85,15200,VTi 72 Shine+KAMERA+SHZ+APP+DAB+KLIMA+BT


## Übersicht verschaffen mit .info()

Das obige Beispiel zeigt uns zwar nun die ersten 10 Zeilen des importierten
Datensatzes, aber wie viele Daten insgesamt enthalten sind, können wir mit der
`.head()`-Methode nicht erfassen. Dafür stellt Pandas die Methode `.info()` zur
Verfügung. Probieren wir es einfach aus.

In [5]:
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, Audi Nr. 1 to Citroen Nr. 5
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Marke                 10 non-null     object 
 1   Modell                10 non-null     object 
 2   Farbe                 10 non-null     object 
 3   Erstzulassung         10 non-null     object 
 4   Jahr                  10 non-null     int64  
 5   Preis (Euro)          10 non-null     int64  
 6   Leistung (kW)         10 non-null     int64  
 7   Leistung (PS)         10 non-null     int64  
 8   Getriebe              10 non-null     object 
 9   Kraftstoff            10 non-null     object 
 10  Verbrauch (l/100 km)  10 non-null     float64
 11  Verbrauch (g/km)      10 non-null     int64  
 12  Kilometerstand (km)   10 non-null     int64  
 13  Bemerkungen           10 non-null     object 
dtypes: float64(1), int64(6), object(7)
memory usage: 1.2+ KB


Mit `.info()` erhalten wir eine Übersicht, wie viele Spalten es gibt und auch
die Spaltenüberschriften werden aufgelistet.

Weiterhin entnehmen wir der Ausgabe von `.info()`, dass in jeder Spalte 10
Einträge sind, die 'non-null' sind. Damit ist gemeint, dass diese Zellen beim
Import nicht leer waren. Zudem wird bei jeder Spalte noch der Datentyp
angegeben. Für die Marke oder das Modell, die als Strings gespeichert sind, wird
der allgemeine Datentyp 'object' angegeben. Beim Jahr oder dem Preis wurden
korrektweise Integer erkannt. Der Verbrauch (Liter pro 100 Kilometer) wird als
Float gespeichert.

## Statistische Kennzahlen mit .describe()

So wie die Methode `.info()` uns einen schnellen Überblick über die Daten eines
DataFrame-Objektes gibt, so liefert die Methode `.describe()` eine schnelle
Übersicht über statistische Kennzahlen.

In [6]:
tabelle.describe()

Unnamed: 0,Jahr,Preis (Euro),Leistung (kW),Leistung (PS),Verbrauch (l/100 km),Verbrauch (g/km),Kilometerstand (km)
count,10.0,10.0,10.0,10.0,10.0,10.0,10.0
mean,2017.8,21469.2,98.8,134.5,5.0,122.6,75993.0
std,7.465476,12686.587246,70.275332,95.586203,1.01653,23.796358,71600.728696
min,1997.0,1999.0,53.0,72.0,3.7,85.0,2500.0
25%,2018.25,14667.5,68.25,93.0,4.125,107.25,16373.75
50%,2020.0,18900.0,78.0,106.0,4.9,120.5,69385.0
75%,2021.0,26079.75,93.25,127.25,5.8,144.0,112782.75
max,2023.0,46830.0,294.0,400.0,6.6,154.0,231000.0


Da es sich eingebürgert hat, Daten zeilenweise abzuspeichern und die Eigenschaft
pro einzelnem Datensatz in den Spalten zu speichern, wertet `.describe()` jede
Spalte für sich aus. Für jede Eigenschaft werden dann die statistischen
Kennzahlen

* count
* mean
* std
* min
* max
* Quantile 25 %, 50 % und 75 %
* max

ausgegeben.

Die Bedeutung der Kennzahlen wird in der
[Dokumentation → describe()](https://pandas.pydata.org/docs/reference/api/pandas.DataFrame.describe.html)
erläutert. Sie entsprechen den statistischen Kennzahlen, die die Methode
.describe() für Series-Objekte liefert. Pandas hat hier auch auf den Datentyp
reagiert. Nur für numerische Werte (Integer oder Float) wurden die statistischen
Kennzahlen ermittelt.

## Zusammenfassung und Ausblick

Mit Hilfe der Datenstruktur DataFrame können tabellarische Daten verwaltet
werden. In den nächsten Kapiteln werden wir uns damit beschäftigen, auf einzelne
Spalten oder Zeilen zuzugreifen und die Datenpunkte als sogenannten Scatterplot
zu visualisieren.