# Pandas Grundlagen

## Was ist pandas?
Pandas ist eine der mächtigsten Bibliotheken für Python. Sie erlaubt es uns Daten sehr einfach zu strukturieren und zu analysiseren. Außerdem bietet es viele nützliche Funktionen, um bspw. "ungünstige" Datensätze zu bereinigen, oder statistische Grundfunktionalitäten auf einen Datensatz anzuwenden.\
Dieses Tutorial basiert im Wesentlichen auf:
- https://levelup.gitconnected.com/pandas-basics-cheat-sheet-2023-python-for-data-science-b59fb7786b4d
- https://www.w3schools.com/python/pandas/pandas_intro.asp

In [1]:
import pandas as pd

## Unser Obststand

Nehmen wir einmal an, dass wir einen Obststand haben. Dort werden Äpfel und Birnen angeboten. In unserem DataFrame wollen wir für jede Frucht eine eigene Spalte haben. Außerdem wollen wir eine neue Zeile für jede Kundenbestellung haben.

<table>
  <thead>
    <tr>
      <th>Äpfel</th>
      <th>Birnen</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td>4</td>
      <td>0</td>
    </tr>
    <tr>
      <td>2</td>
      <td>2</td>
    </tr>
    <tr>
      <td>0</td>
      <td>8</td>
    </tr>
    <tr>
      <td>3</td>
      <td>0</td>
    </tr>
  </tbody>
</table>

In [2]:
data = {'äpfel': [4, 2, 0, 3], 'birnen': [0, 2, 8, 0]}

In [3]:
bestellungen = pd.DataFrame(data)
bestellungen.head()

Unnamed: 0,äpfel,birnen
0,4,0
1,2,2
2,0,8
3,3,0


#### Erklärung zum Index
Jedes (Schlüssel, Wert) Element in den Daten (data) entspricht einer Spalte im resultierenden DataFrame.

Der Index dieses DataFrames wurde uns bei der Erstellung als die Zahlen 0-3 gegeben. Alternativ können wir unsere eigenen Indizes erstellen, wenn wir den DataFrame initialisieren. Hier ein Beispiel, in dem wir Kundennamen als Index nehmen:

In [5]:
bestellungen = pd.DataFrame(data, index=['Hans', 'Sabine', 'Wolfgang', 'Anette'])
bestellungen.head()

Unnamed: 0,äpfel,birnen
Hans,4,0
Sabine,2,2
Wolfgang,0,8
Anette,3,0


#### Externe Daten laden

In [6]:
df = pd.read_csv('bestellungen.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,Äpfel,Birnen
0,Hans,4,0
1,Sabine,2,2
2,Wolfgang,0,8
3,Anette,3,0


Wir stellen fest, dass die Namen irgendwie komisch aussehen. Das liegt daran, dass, wenn wir diese als Indexspalte verwenden wollen, sie auch angeben müssen.

In [7]:
df = pd.read_csv('bestellungen.csv', index_col=0)
df.head()

Unnamed: 0,Äpfel,Birnen
Hans,4,0
Sabine,2,2
Wolfgang,0,8
Anette,3,0


_In den meisten Fällen hat man jedoch keine solche Indexspalte, weswegen man sich oft nicht darum kümmern muss._

### Die wichtigsten DataFrame-Operationen

In [11]:
# die ersten Zeilen geben wir mit head() aus, standardmäßig sind das 5
df.head(2)

Unnamed: 0,Äpfel,Birnen
Hans,4,0
Sabine,2,2


In [10]:
# die letzten (auch standardmäßig 5) Zeilen geben wir mit tail() aus
df.tail(2)

Unnamed: 0,Äpfel,Birnen
Wolfgang,0,8
Anette,3,0


In [13]:
# shape gibt uns ein Tuple mit den (Zeilen, Spalten) in unserem Dataframe
df.shape

(4, 2)

In [14]:
# überprüfen, ob wir Duplikate haben, indem wir diese droppen
df_temp = df.drop_duplicates()
df_temp.shape == df.shape

True

**Wichtig**: Die meisten solcher Funktionen, wie `drop_duplicates()`, `append()`, usw. geben Kopien des ursprünglichen DataFrames zurück. Das immer im Hinterkopf behalten. Vermeiden können wir das, indem wir das Argument `inplace=True` übergeben.

In [15]:
df.drop_duplicates(inplace=True)

In [16]:
# Spaltennamen anzeigen
df.columns

Index(['Äpfel', 'Birnen'], dtype='object')

In [17]:
# Spalten umbenennen
df.rename(columns={"Äpfel": "Tomaten"}, inplace=True)
df

Unnamed: 0,Tomaten,Birnen
Hans,4,0
Sabine,2,2
Wolfgang,0,8
Anette,3,0


In [20]:
# Für das folgende Beispiel füge ich eine neue Zeile zum Dataframe hinzu. Diese enthält einen leeren Eintrag.
df.loc["Peter"] = [5, pd.NA]
df

Unnamed: 0,Tomaten,Birnen
Hans,4,0.0
Sabine,2,2.0
Wolfgang,0,8.0
Anette,3,0.0
Peter,5,


In [21]:
# herausfinden, ob eine Spalte fehlende Einträge hat (das ist manchmal wichtig)
df.isnull()

Unnamed: 0,Tomaten,Birnen
Hans,False,False
Sabine,False,False
Wolfgang,False,False
Anette,False,False
Peter,False,True


In [22]:
# isnull() ist nicht besonders hilfreich, wenn wir viele Daten haben
df.isnull().sum() # ... ist da schon nützlicher

Tomaten    0
Birnen     1
dtype: int64

Wir sehen also, dass in der Spalte Birnen eine Nullzeile vorhanden ist.

In [24]:
# entfernen von Nullzeilen
df = df.dropna()
df

Unnamed: 0,Tomaten,Birnen
Hans,4,0
Sabine,2,2
Wolfgang,0,8
Anette,3,0


Diese Operation löscht jede Zeile mit mindestens einem Nullwert, aber sie gibt einen neuen DataFrame zurück, ohne den ursprünglichen zu verändern.

Du kannst auch `inplace=True` in dieser Methode angeben.

#### Daten aus dem DataFrame extrahieren

In [27]:
birnen_spalte = df["Birnen"]
print(birnen_spalte)
print(type(birnen_spalte))

Hans        0
Sabine      2
Wolfgang    8
Anette      0
Name: Birnen, dtype: object
<class 'pandas.core.series.Series'>


Obiger Code-Zeilen werden eine _Series_ zurückgeben. Um eine Spalte als DataFrame zu extrahieren, musst du eine Liste von Spaltennamen übergeben. In unserem Fall ist das nur eine einzelne Spalte:

In [28]:
birnen_spalte = df[["Birnen"]]
print(birnen_spalte)
print(type(birnen_spalte))

         Birnen
Hans          0
Sabine        2
Wolfgang      8
Anette        0
<class 'pandas.core.frame.DataFrame'>


Nach Zeilen extrahieren können wir mit:<br>
1. `.loc` - lokalisiert nach Name
2. `.iloc` - sucht nach numerischem Index

In [29]:
hans = df.loc["Hans"]
hans

Tomaten    4
Birnen     0
Name: Hans, dtype: object

In [30]:
sabine = df.iloc[1]
sabine

Tomaten    2
Birnen     2
Name: Sabine, dtype: object

In [31]:
# auch slicing ist hier möglich
erste_drei = df.iloc[:3]
erste_drei

Unnamed: 0,Tomaten,Birnen
Hans,4,0
Sabine,2,2
Wolfgang,0,8


In [32]:
# Auswahl mit Bedingung
mit_bedingung = (df["Tomaten"] > 1)
print(mit_bedingung)

Hans         True
Sabine       True
Wolfgang    False
Anette       True
Name: Tomaten, dtype: bool


Ähnlich wie `isnull()` gibt uns das nur eine Tabelle mit `True` und `False` zurück ... nicht so praktisch. Wir wollen aber die False-Fälle herausfiltern:

In [33]:
# vorstellen/sagen kann man sich das wie folgt: Dataframe an der Stelle/den Stellen
# wo der Dataframe in der Spalte "Tomaten" größer als 1 ist
mit_bedingung = df[df["Tomaten"] > 1]
print(mit_bedingung)

        Tomaten Birnen
Hans          4      0
Sabine        2      2
Anette        3      0


In [35]:
# kombinieren von Bedingungen
neue_bedingung = df[(df["Tomaten"] == 2) & (df["Birnen"] == 2)]
neue_bedingung

Unnamed: 0,Tomaten,Birnen
Sabine,2,2


_Ein logisches ODER kann man mit dem | Operator nutzen._

### Mehr Daten: eigener Datensatz
Wir schauen uns nun den Studentendatensatz beispielhaft an.

In [59]:
data = pd.read_csv('Übungen/studenten_datensatz.csv', delimiter=';')
data.head()

Unnamed: 0,Name,Vorname,Matrikelnummer,Studienfach,Abschluss,Lieblingsfarbe,Abschlussnote,Alter
0,Peterson,Peter,72940,Literaturgeschichte,Bachelor,lila,1.3,23
1,Hanson,Hans,97294,Politikwissenschaften,Bachelor,rot,2.7,34
2,Johannson,Johann,15384,Biochemie,Master,gelb,1.6,26
3,Maxson,Max,68536,Mathematik,Bachelor,rot,1.9,21
4,Peterson,Stefanie,57284,Erziehungswissenschaften,Bachelor,blau,2.1,24


In [46]:
# deskriptive Statistiken zu unserem Dataframe
data.describe()

Unnamed: 0,Matrikelnummer,Abschlussnote,Alter
count,11.0,11.0,11.0
mean,65662.454545,1.990909,25.545455
std,23814.782654,0.697789,4.344275
min,15384.0,1.2,19.0
25%,61293.0,1.4,23.0
50%,68536.0,1.9,25.0
75%,74420.5,2.55,27.5
max,97294.0,3.1,34.0


In [40]:
# Leerzeilen prüfen
data.isna().sum()

Name              0
Vorname           0
Matrikelnummer    0
Studienfach       0
Abschluss         0
Lieblingsfarbe    0
Abschlussnote     0
Alter             0
dtype: int64

In [48]:
# Mittelwert der Noten
data["Abschlussnote"].mean()

1.9909090909090905

In [41]:
schlechte_note = data[data["Abschlussnote"] >= 2.5]
schlechte_note

Unnamed: 0,Name,Vorname,Matrikelnummer,Studienfach,Abschluss,Lieblingsfarbe,Abschlussnote,Alter
1,Hanson,Hans,97294,Politikwissenschaften,Bachelor,rot,2.7,34
7,Gustavson,Gustav,33847,Politikwissenschaften,Bachelor,gelb,3.1,27
10,Lustig,Peter,73948,Biochemie,Master,gruen,2.9,25


#### Anwenden von Funktionen

In [51]:
def bewertungen(note):
    if note <= 1.5:
        return "sehr gut"
    elif note <= 2.5:
        return "gut"
    else:
        return "verbesserungswürdig"

In [60]:
data_temp = data.copy()
data_temp["Abschlussnote"] = data["Abschlussnote"].apply(bewertungen)
data_temp

Unnamed: 0,Name,Vorname,Matrikelnummer,Studienfach,Abschluss,Lieblingsfarbe,Abschlussnote,Alter
0,Peterson,Peter,72940,Literaturgeschichte,Bachelor,lila,sehr gut,23
1,Hanson,Hans,97294,Politikwissenschaften,Bachelor,rot,verbesserungswürdig,34
2,Johannson,Johann,15384,Biochemie,Master,gelb,gut,26
3,Maxson,Max,68536,Mathematik,Bachelor,rot,gut,21
4,Peterson,Stefanie,57284,Erziehungswissenschaften,Bachelor,blau,gut,24
5,Müller,Franziska,74893,Biochemie,Bachelor,gruen,sehr gut,23
6,Schmitt,Hannelore,65302,Romanistik,Master,orange,sehr gut,28
7,Gustavson,Gustav,33847,Politikwissenschaften,Bachelor,gelb,verbesserungswürdig,27
8,Meyer,Andrea,94623,Literaturgeschichte,Bachelor,rot,gut,31
9,Brohm,Annalena,68236,Agrarwirtschaft,Master,gruen,sehr gut,19


In [61]:
# auch hier können wir mit der anonymen lambda Funktion arbeiten
data_temp = data.copy()
data_temp["Abschlussnote"] = data["Abschlussnote"].apply(lambda x: "gut" if x <= 2.0 else "naja")
data_temp

Unnamed: 0,Name,Vorname,Matrikelnummer,Studienfach,Abschluss,Lieblingsfarbe,Abschlussnote,Alter
0,Peterson,Peter,72940,Literaturgeschichte,Bachelor,lila,gut,23
1,Hanson,Hans,97294,Politikwissenschaften,Bachelor,rot,naja,34
2,Johannson,Johann,15384,Biochemie,Master,gelb,gut,26
3,Maxson,Max,68536,Mathematik,Bachelor,rot,gut,21
4,Peterson,Stefanie,57284,Erziehungswissenschaften,Bachelor,blau,naja,24
5,Müller,Franziska,74893,Biochemie,Bachelor,gruen,gut,23
6,Schmitt,Hannelore,65302,Romanistik,Master,orange,gut,28
7,Gustavson,Gustav,33847,Politikwissenschaften,Bachelor,gelb,naja,27
8,Meyer,Andrea,94623,Literaturgeschichte,Bachelor,rot,naja,31
9,Brohm,Annalena,68236,Agrarwirtschaft,Master,gruen,gut,19


### Weitere nützliche Operationen

In [62]:
# aus einer Spalte alle einzigartigen Werte erhalten
data["Studienfach"].unique()

array(['Literaturgeschichte', 'Politikwissenschaften', 'Biochemie',
       'Mathematik', 'Erziehungswissenschaften', 'Romanistik',
       'Agrarwirtschaft'], dtype=object)

### Gruppieren von Daten
Das Gruppieren von Daten ist manchmal sehr nützlich für verschiedene Dinge. Allerdings wird hier ein `GroupBy` Objekt erstellt, was nicht viele Informationen für uns bereithält bis wir ihm sagen, was es tun soll. Aus diesem Grund kombinieren wir `groupby` oft mit Funktionen wie `sum()`, `mean()`, `count()`, usw. Hier sind ein paar Beispiele:

In [64]:
data.groupby(["Studienfach"]).count()

Unnamed: 0_level_0,Name,Vorname,Matrikelnummer,Abschluss,Lieblingsfarbe,Abschlussnote,Alter
Studienfach,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
Agrarwirtschaft,1,1,1,1,1,1,1
Biochemie,3,3,3,3,3,3,3
Erziehungswissenschaften,1,1,1,1,1,1,1
Literaturgeschichte,2,2,2,2,2,2,2
Mathematik,1,1,1,1,1,1,1
Politikwissenschaften,2,2,2,2,2,2,2
Romanistik,1,1,1,1,1,1,1


In [66]:
data.groupby("Studienfach")["Abschlussnote"].mean()

Studienfach
Agrarwirtschaft             1.20
Biochemie                   1.90
Erziehungswissenschaften    2.10
Literaturgeschichte         1.85
Mathematik                  1.90
Politikwissenschaften       2.90
Romanistik                  1.50
Name: Abschlussnote, dtype: float64

In [69]:
data.groupby(["Lieblingsfarbe", "Studienfach"], as_index=False).count()

Unnamed: 0,Lieblingsfarbe,Studienfach,Name,Vorname,Matrikelnummer,Abschluss,Abschlussnote,Alter
0,blau,Erziehungswissenschaften,1,1,1,1,1,1
1,gelb,Biochemie,1,1,1,1,1,1
2,gelb,Politikwissenschaften,1,1,1,1,1,1
3,gruen,Agrarwirtschaft,1,1,1,1,1,1
4,gruen,Biochemie,2,2,2,2,2,2
5,lila,Literaturgeschichte,1,1,1,1,1,1
6,orange,Romanistik,1,1,1,1,1,1
7,rot,Literaturgeschichte,1,1,1,1,1,1
8,rot,Mathematik,1,1,1,1,1,1
9,rot,Politikwissenschaften,1,1,1,1,1,1
