# 4.2 Arbeiten mit Tabellendaten

In Tabellenkalkulationssoftware ist es möglich, einzelne Zeilen oder Spalten zu
bearbeiten. Pandas mit seiner Dantestruktur DataFrame bietet diese Möglichkeit
ebenfalls. Wie auf einzelne Spalten und Zeilen zugegriffen wird und wie die
Daten bearbeitet werden können, zeigt dieses Kapitel.

## Lernziele

```{admonition} Lernziele
:class: goals
* Sie können mit eckigen Klammern **[]** und dem Spaltenindex auf eine ganze
  Spalte zugreifen.
* Sie können mit **.loc[]** und dem Zeilenindex auf eine ganze Zeile zugreifen.
* Sie können mit **.loc[zeileindex, spaltenindex]** auf eine einzelne Zelle der
  Tabelle zugreifen.
* Sie können mehrere unzusammenhängende Zeilen/Spalten mittels Liste auswählen.
* Sie können zusammenhängende Bereich mittels **Slicing** auswählen.
* Sie können eine Tabelle um eine Zeile oder Spalte erweitern.
```

## Zugriff auf Spalten

Bei einer Liste oder der Pandas-Datenstruktur Series haben wir auf ein einzelnes
Element zugegriffen, indem wir eckige Klammern benutzt haben. Bei Tabellen und
damit auch DataFrames ist es üblich, dass die Eigenschaften in den Spalten
stehen und in den Zeilen die einzelnen Datensätze. Mit den eckigen Klammern und
dem Indexnamen greifen wir diesmal also nicht nur ein Element heraus, sondern
gleich eine ganze Spalte.

Falls Sie aus dem vorherigen Kapitel den Datensatz {download}`Download
autoscout24_xxs.csv
<https://gramschs.github.io/book_ml4ing/data/autoscout24_xxs.csv>` noch geladen
haben, können Sie sich mit `.info()` die Spaltenüberschriften, also den Index,
direkt anzeigen lassen. Ansonsten importieren Sie zuerst Pandas mit seiner
üblichen Abkürzung pd und laden den Datensatz.

In [1]:
import pandas as pd
tabelle = pd.read_csv('autoscout24_xxs.csv', index_col=0)
tabelle.info()

<class 'pandas.core.frame.DataFrame'>
Index: 10 entries, Audi Nr. 1 to Citroen Nr. 5
Data columns (total 14 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   Marke                 10 non-null     object 
 1   Modell                10 non-null     object 
 2   Farbe                 10 non-null     object 
 3   Erstzulassung         10 non-null     object 
 4   Jahr                  10 non-null     int64  
 5   Preis (Euro)          10 non-null     int64  
 6   Leistung (kW)         10 non-null     int64  
 7   Leistung (PS)         10 non-null     int64  
 8   Getriebe              10 non-null     object 
 9   Kraftstoff            10 non-null     object 
 10  Verbrauch (l/100 km)  10 non-null     float64
 11  Verbrauch (g/km)      10 non-null     int64  
 12  Kilometerstand (km)   10 non-null     int64  
 13  Bemerkungen           10 non-null     object 
dtypes: float64(1), int64(6), object(7)
memory usage: 1.2+ KB


Die Farbe der 10 Autos können wir folgendermaßen aus der Tabelle auswählen:

In [2]:
farbe = tabelle['Farbe']

Was steckt jetzt in der Variable `farbe`? Ermitteln wir zunächst, welchen
Datentyp das Objekt hat, das in `farbe` gespeichert ist.

In [3]:
type(farbe)

pandas.core.series.Series

Es ist ein Series-Objekt mit dem Namen Farbe, also dem Spaltenindex. Das neu
erzeugte Series-Objekt kann also beispielsweise mit `.head()` angezeigt werden.

In [4]:
farbe.head()

ID
Audi Nr. 1    silber
Audi Nr. 2      weiß
Audi Nr. 3      blau
BMW Nr. 1       blau
BMW Nr. 2       gold
Name: Farbe, dtype: object

Ein DataFrame besteht aus Series-Objekten.

## Zugriff auf Zeilen

Natürlich kann es auch Gründe geben, sich einen einzelnen Datensatz mit allen
Eigenschaften herauszugreifen. Oder anders ausgedrückt, vielleicht möchte man in
der Tabelle eine einzelne Zeile auswählen. Dazu gibt es das Attribut `.loc`.
Danach werden wieder eckige Klammern benutzt, wobei diesmal der Zeilenindex
verwendet wird.

Der folgende Code-Schnippsel speichert die Zeile des 4. Autos (= BMW Nr. 1) in
der Variable `viertes_auto` ab. Wir ermitteln gleich den Datentyp dazu.

In [5]:
viertes_auto = tabelle.loc['BMW Nr. 1']
type(viertes_auto)

pandas.core.series.Series

Auch eine einzelne Zeile ist eine Series-Datenstruktur, die wir mit den
Series-Methoden weiter bearbeiten können. Der Name des Series-Objektes ist
diesmal der alte Zeilenindex. Wir lassen den Datensatz mit `.head()` anzeigen.

In [6]:
viertes_auto.head()

Marke                BMW
Modell            BMW X3
Farbe               blau
Erstzulassung    04/2018
Jahr                2018
Name: BMW Nr. 1, dtype: object

## Zugriff auf Zellen

Es kann auch vorkommen, dass man gezielt auf eine einzelne Zelle zugreifen
möchte. Auch dazu benutzen wir das Attribut `.loc[]`. Für eine einzelne Zelle
müssen wir angeben, in welcher Zeile und in welcher Spalte sich diese Zelle
befindet. Das Attribut `.loc[]` ermöglicht auch zwei Angaben, also Zeile und
Spalte, indem beide Werte durch ein Komma getrennt werden.

Wollen wir beispielsweise wissen, wann der Audi Nr. 3 zum zugelassen wurde, so
gehen wir folgendermaßen vor:

In [7]:
erstzulassung_audi3 = tabelle.loc['Audi Nr. 3', 'Erstzulassung']
type(erstzulassung_audi3)

str

Jetzt erhalten wir keine Series-Datenstruktur zurück, sondern den Datentyp des
Elements in dieser Zelle. In unserem Beispiel ist die Erstzulassung als String
gespeichert, den wir mit der print()-Funktion ausgeben lassen können:

In [8]:
print(erstzulassung_audi3 )

11/2018


Wir Menschen können diesen String natürlich interpretieren und sehen, dass der
Audi Nr. 3 im November 2018 zum ersten Mal zugelassen wurde. Für Python ist es
an dieser Stelle aber nicht möglich, eine korrekte Interpretation des Strings zu
bieten.

## Mehrere Zeilen oder Spalten

Sollen mehrere Zeilen oder Spalten gleichzeitig ausgewählt werden, so werden die
entsprechenden Indizes als eine Liste in die eckigen Klammern gesetzt.

Der folgende Code wählt sowohl die Erstzulassung als auch den Preis aus.

In [9]:
mehrere_spalten = tabelle[ ['Erstzulassung', 'Preis (Euro)'] ]
mehrere_spalten.head()

Unnamed: 0_level_0,Erstzulassung,Preis (Euro)
ID,Unnamed: 1_level_1,Unnamed: 2_level_1
Audi Nr. 1,08/1997,1999
Audi Nr. 2,05/2023,35990
Audi Nr. 3,11/2018,17850
BMW Nr. 1,04/2018,46830
BMW Nr. 2,07/2020,27443


Wenn die Spalten oder Zeilen nacheinander kommen, also zusammenhängend sind,
brauchen wir nicht alle Indizes in die Liste schreiben. Dann genügt es, den
ersten Index und den letzten Index zu nehmen und dazwischen einen Doppelpunkt zu
setzen. Diese Art, Zeilen oder Spalten auszuwählen, wird in der Informatik als
**Slicing** bezeichnet. Alle Autos der Marke Citroën werden also folgendermaßen
extrahiert:

In [10]:
citroens = tabelle.loc[ 'Citroen Nr. 1' : 'Citroen Nr. 5'] 
citroens.head()

Unnamed: 0_level_0,Marke,Modell,Farbe,Erstzulassung,Jahr,Preis (Euro),Leistung (kW),Leistung (PS),Getriebe,Kraftstoff,Verbrauch (l/100 km),Verbrauch (g/km),Kilometerstand (km),Bemerkungen
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1
Citroen Nr. 1,Citroen,C3,beige,03/2021,2021,14240,60,82,Schaltgetriebe,Benzin,4.2,97,57070,Feel PureTech 83 + LED + PDC + DAB + BLUETOOTH
Citroen Nr. 2,Citroen,Citroen Berlingo,blau,07/2020,2020,19950,75,102,Schaltgetriebe,Diesel,4.1,107,81700,HDI 100 Live M Navi Klima PDC
Citroen Nr. 3,Citroen,Citroen Berlingo,blau,12/2019,2019,15950,75,102,Schaltgetriebe,Diesel,4.1,108,98832,Live M/1 Hand/Klima/Tempomat/PDC
Citroen Nr. 4,Citroen,Citroen Berlingo,schwarz,01/2021,2021,21990,96,131,Schaltgetriebe,Diesel,4.4,116,8500,"Club XL Kasten Blue-HDI 130 *Mwst.,Navi,DAB,Temp."
Citroen Nr. 5,Citroen,Citroen C1,silber,03/2021,2021,12450,53,72,Schaltgetriebe,Benzin,3.7,85,15200,VTi 72 Shine+KAMERA+SHZ+APP+DAB+KLIMA+BT


Jetzt kann beispielsweise der mittlere Verkaufspreis aller Citroëns
folgendermaßen ermittelt werden:

In [11]:
mittelwert = citroens['Preis (Euro)'].mean()
print(f'Der mittlere Verkaufspreis der Citroens ist {mittelwert:.2f} EUR.')

Der mittlere Verkaufspreis der Citroens ist 16916.00 EUR.


Beim Slicing können wir den Angangsindex oder den Endindex oder sogar beides
weglassen. Wenn wir den Anfangsindex weglassen, fängt Pandas bei der ersten
Zeile/Spalte an. Lassen wir den Endindex weg, geht der Slice automatisch bis zum
Ende.

## Neue Spalte oder Zeile einfügen

Eine neue Spalte einzufügen, funktioniert recht einfach. Dazu wird ein neuer
Spaltenindex erzeugt.

In [12]:
tabelle['Verbrauch pro Leistung'] = tabelle['Verbrauch (l/100 km)'] / tabelle['Leistung (PS)']
tabelle.head(10)

Unnamed: 0_level_0,Marke,Modell,Farbe,Erstzulassung,Jahr,Preis (Euro),Leistung (kW),Leistung (PS),Getriebe,Kraftstoff,Verbrauch (l/100 km),Verbrauch (g/km),Kilometerstand (km),Bemerkungen,Verbrauch pro Leistung
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Audi Nr. 1,Audi,Audi A4,silber,08/1997,1997,1999,66,90,Schaltgetriebe,Diesel,5.4,146,231000,1.9 TDI / AHK / Tüv neu,0.06
Audi Nr. 2,Audi,Audi A1,weiß,05/2023,2023,35990,81,110,Automatik,Benzin,6.1,138,2500,S line 30 TFSI 81(110) kW(PS) S tr,0.055455
Audi Nr. 3,Audi,Audi A3,blau,11/2018,2018,17850,85,116,Automatik,Benzin,6.6,150,127800,Sportback sport 30 TFSI PDC SHZ XENON,0.056897
BMW Nr. 1,BMW,BMW X3,blau,04/2018,2018,46830,294,400,Automatik,Diesel,5.9,154,117433,M550 d xDrive AHK+HUD+360+SOFT+SITZKLIMA+NAV-PRO,0.01475
BMW Nr. 2,BMW,BMW X2,gold,07/2020,2020,27443,103,140,Schaltgetriebe,Benzin,5.5,125,19895,sDrive18i Advantage LED.Navi.RüKamera.ParkAss,0.039286
Citroen Nr. 1,Citroen,C3,beige,03/2021,2021,14240,60,82,Schaltgetriebe,Benzin,4.2,97,57070,Feel PureTech 83 + LED + PDC + DAB + BLUETOOTH,0.05122
Citroen Nr. 2,Citroen,Citroen Berlingo,blau,07/2020,2020,19950,75,102,Schaltgetriebe,Diesel,4.1,107,81700,HDI 100 Live M Navi Klima PDC,0.040196
Citroen Nr. 3,Citroen,Citroen Berlingo,blau,12/2019,2019,15950,75,102,Schaltgetriebe,Diesel,4.1,108,98832,Live M/1 Hand/Klima/Tempomat/PDC,0.040196
Citroen Nr. 4,Citroen,Citroen Berlingo,schwarz,01/2021,2021,21990,96,131,Schaltgetriebe,Diesel,4.4,116,8500,"Club XL Kasten Blue-HDI 130 *Mwst.,Navi,DAB,Temp.",0.033588
Citroen Nr. 5,Citroen,Citroen C1,silber,03/2021,2021,12450,53,72,Schaltgetriebe,Benzin,3.7,85,15200,VTi 72 Shine+KAMERA+SHZ+APP+DAB+KLIMA+BT,0.051389


Nach demselben Prinzip können wir einen neuen Datensatz aufnehmen und eine neue
Zeile einfügen. Da wir uns auf die Zeilen beziehen, verwenden wir wieder
`loc[]`.

In [13]:
tabelle.loc['Dacia Nr. 1'] = ['dacia', 'Dacia Duster', 'orange', '03/2023', 2023, 25749, 84, 114, 'Schaltgetriebe', 'Diesel', 5.3, 140, 5.0, 'Journey Blue dCi 115 4x4', 5.3/114] 
tabelle.head(11)

Unnamed: 0_level_0,Marke,Modell,Farbe,Erstzulassung,Jahr,Preis (Euro),Leistung (kW),Leistung (PS),Getriebe,Kraftstoff,Verbrauch (l/100 km),Verbrauch (g/km),Kilometerstand (km),Bemerkungen,Verbrauch pro Leistung
ID,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
Audi Nr. 1,Audi,Audi A4,silber,08/1997,1997,1999,66,90,Schaltgetriebe,Diesel,5.4,146,231000.0,1.9 TDI / AHK / Tüv neu,0.06
Audi Nr. 2,Audi,Audi A1,weiß,05/2023,2023,35990,81,110,Automatik,Benzin,6.1,138,2500.0,S line 30 TFSI 81(110) kW(PS) S tr,0.055455
Audi Nr. 3,Audi,Audi A3,blau,11/2018,2018,17850,85,116,Automatik,Benzin,6.6,150,127800.0,Sportback sport 30 TFSI PDC SHZ XENON,0.056897
BMW Nr. 1,BMW,BMW X3,blau,04/2018,2018,46830,294,400,Automatik,Diesel,5.9,154,117433.0,M550 d xDrive AHK+HUD+360+SOFT+SITZKLIMA+NAV-PRO,0.01475
BMW Nr. 2,BMW,BMW X2,gold,07/2020,2020,27443,103,140,Schaltgetriebe,Benzin,5.5,125,19895.0,sDrive18i Advantage LED.Navi.RüKamera.ParkAss,0.039286
Citroen Nr. 1,Citroen,C3,beige,03/2021,2021,14240,60,82,Schaltgetriebe,Benzin,4.2,97,57070.0,Feel PureTech 83 + LED + PDC + DAB + BLUETOOTH,0.05122
Citroen Nr. 2,Citroen,Citroen Berlingo,blau,07/2020,2020,19950,75,102,Schaltgetriebe,Diesel,4.1,107,81700.0,HDI 100 Live M Navi Klima PDC,0.040196
Citroen Nr. 3,Citroen,Citroen Berlingo,blau,12/2019,2019,15950,75,102,Schaltgetriebe,Diesel,4.1,108,98832.0,Live M/1 Hand/Klima/Tempomat/PDC,0.040196
Citroen Nr. 4,Citroen,Citroen Berlingo,schwarz,01/2021,2021,21990,96,131,Schaltgetriebe,Diesel,4.4,116,8500.0,"Club XL Kasten Blue-HDI 130 *Mwst.,Navi,DAB,Temp.",0.033588
Citroen Nr. 5,Citroen,Citroen C1,silber,03/2021,2021,12450,53,72,Schaltgetriebe,Benzin,3.7,85,15200.0,VTi 72 Shine+KAMERA+SHZ+APP+DAB+KLIMA+BT,0.051389


```{admonition} Warnung
:class: warning 
Das oben beschriebene Prinzip, eine neue Spalte oder eine neue Zeile einzufügen,
indem ein neuer Spalten- oder Zeilenindex hinzugefügt wird, funktioniert nur,
wenn die neuen Daten das richtige Format haben. Im Zweifelsfall sollte die
Erweiterung eines DataFrames mit
[concat](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.concat.html?highlight=concat#pandas.concat)
durchgeführt werden.
```

## Zusammenfassung und Ausblick

In diesem Kapitel haben wir uns damit beschäftigt, wie tabellarische Daten
verwaltet werden. Im nächsten Kapitel geht es darum, diese zu visualisieren.