In [1]:
import pandas as pd
import numpy as np

# Erstellen eines Dataframes

In [2]:
# Ein Dictionary mit fiktiven Beispieldaten wird definiert.
auto_daten = {
  "hersteller": ["BMW", "Volvo", "Ford"],
  "gewicht": [1500, 1700, 1400]
}

# Aus diesem Dictionary wird nun ein pandas DataFrame erstellt.
autos = pd.DataFrame(auto_daten)

# Mit "display(df)" kannst du DataFrames schön leserlich ausgeben.
display(autos)

print("\n")

# Von diesem DatFrame kann man sich die Spaltennamen, die Anzahl der Zeilen und
# den Index (also die Nummerierung im DataFrame) ausgeben lassen.
spalten_namen = list(autos.columns)
print("Spaltennamen:", spalten_namen)
anzahl_reihen = len(autos)
print("Anzahl Reihen:", anzahl_reihen)
indizierung = list(autos.index)
print("Indizierung:", indizierung)

Unnamed: 0,hersteller,gewicht
0,BMW,1500
1,Volvo,1700
2,Ford,1400




Spaltennamen: ['hersteller', 'gewicht']
Anzahl Reihen: 3
Indizierung: [0, 1, 2]


# Transponieren

In [3]:
import pandas as pd
import numpy as np

# Ein mehrstufiges Dictionary mit fiktiven Beispieldaten wird definiert.
pflanzen_daten = {
  0: {"name": "Rose", "wasserverbrauch": 2.6, "farbe": "rot"},
  1: {"name": "Tulpe", "wasserverbrauch": 4.2, "farbe": "orange"},
  2: {"name": "Orchidee", "wasserverbrauch": 3.1, "farbe": "violett"},
  3: {"name": "Lilie", "wasserverbrauch": 2.9, "farbe": "weiss"},
  4: {"name": "Veilchen", "wasserverbrauch": 3.6, "farbe": "blau"}
}

# Man kann auch aus diesem mehrstufigen Dictionary ein DataFrame machen.
pflanzen = pd.DataFrame(pflanzen_daten)
display(pflanzen)

print("\n")

# Wenn man aus einem solchen Dictionary ein pandas DataFrame macht, werden die
# Zahlen im höchsten Level als Spaltenbezeichnungen verwendet. Das ist aber in
# diesem Fall nicht gewünscht, daher wird das DataFrame mit dem Attribut ".T"
# "um 90° gedreht" (transponiert).
pflanzen = pflanzen.T
display(pflanzen)

Unnamed: 0,0,1,2,3,4
name,Rose,Tulpe,Orchidee,Lilie,Veilchen
wasserverbrauch,2.6,4.2,3.1,2.9,3.6
farbe,rot,orange,violett,weiss,blau






Unnamed: 0,name,wasserverbrauch,farbe
0,Rose,2.6,rot
1,Tulpe,4.2,orange
2,Orchidee,3.1,violett
3,Lilie,2.9,weiss
4,Veilchen,3.6,blau


# Daten aus Dateien einlesen

In [4]:
import pandas as pd
import numpy as np
from io import StringIO

# Eine Tabelle mit fiktiven Beispieldaten im CSV-Format wird definiert.
strassen_daten = """
typ,höchstgeschwindigkeit,anzahl_spuren
Autobahn,120,3
Bundesstraße,100,2
Landstraße,70,1
Spielstraße,5,1"""

# Daraus wird ein DataFrame erstellt. Der Aufruf "StringIO(strassen_daten)"
# packt die CSV-Daten in eine In-Memory-Datei ein, sodass sie wie aus einer
# normalen Datei gelesen werden können. Wenn du pandas in einer lokalen
# Installation verwendest, musst du das nicht machen. Dann gibst du stattdessen
# einfach den Dateipfad oder eine URL einer CSV-Datei an, die dann von pandas
# geladen wird.
strassen = pd.read_csv(StringIO(strassen_daten), delimiter=",")
display(strassen)

print("\n")

# Man kann auch Spalten zu DataFrames hinzufügen, was ähnlich wie bei
# gewöhnlichen Python-Dictionaries funktioniert.
strassen["belag"] = ["Asphalt", "Asphalt", "Asphalt", "Kopfsteinpflaster"]
display(strassen)

Unnamed: 0,typ,höchstgeschwindigkeit,anzahl_spuren
0,Autobahn,120,3
1,Bundesstraße,100,2
2,Landstraße,70,1
3,Spielstraße,5,1






Unnamed: 0,typ,höchstgeschwindigkeit,anzahl_spuren,belag
0,Autobahn,120,3,Asphalt
1,Bundesstraße,100,2,Asphalt
2,Landstraße,70,1,Asphalt
3,Spielstraße,5,1,Kopfsteinpflaster


# Zugriff auf einzelne Werte

In [5]:
import pandas as pd
import numpy as np

# Definiere ein paar Beispielwerte.
daten = [
  [1, 7, 2],
  [6, 5, 3],
  [2, 4, 9]
]

# Erstelle wieder daraus ein DataFrame.
df = pd.DataFrame(daten, columns=["x", "y", "z"], index=["a", "b", "c"])
display(df)

print("\n")

# Einzelne Werte kannst du aus einem DataFrame herausholen, indem du zunächst
# die Spalte herausholst.
spalte_x = df["x"]
print("Spalte x:\n")
display(spalte_x)

print("\n")

# Aus einer Spalte kannst du dann mit dem Index einen Wert herausholen. In
# diesem Fall ist der Index a, b, c. Allerdings sind DataFrames im Normalfall
# mit 0, 1, 2, etc. indiziert, so dass du die Elemente in Spalten wie bei einer
# Python-Liste indizieren kannst.
wert_x_b = spalte_x["b"]
print("Wert in Spalte x am Index b:\n")
display(wert_x_b)

print("\n")

# Du kannst auch einen rechteckigen Ausschnitt aus dem DataFrame herausholen.
# Dazu musst du in einer Liste die Spalten angeben, die aus dem DataFrame
# herausgeholt werden sollen (df[["x", "y"]]). Aus diesen Spalten holst du mit
# dem Attribut "loc" die entsprechenden Reihen heraus, indem du die gewünschten
# Indices in einer Liste angibst ([["b", "c"]]). Beachte wieder: Wenn keine
# manuelle Indizierung beim Instanziieren des DataFrames vegeben wurde, wird die
# Standard-Indizierung 0, 1, 2, ... verwendet.
rechteckiger_ausschnitt = df[["x", "y"]].loc[["b", "c"]]
print("Werte in Spalten x bis y an Indices b bis c:\n")
display(rechteckiger_ausschnitt)

Unnamed: 0,x,y,z
a,1,7,2
b,6,5,3
c,2,4,9




Spalte x:



a    1
b    6
c    2
Name: x, dtype: int64



Wert in Spalte x am Index b:



6



Werte in Spalten x bis y an Indices b bis c:



Unnamed: 0,x,y
b,6,5
c,2,4


# DataFrame bereinigen

In [6]:
import pandas as pd
import numpy as np

# Definiere ein paar Beispielwerte. Jedoch fehlen jetzt einige Werte ("None").
# Außerdem sind die Datentypen jetzt nicht mehr einheitlich (Ganzzahlen,
# Kommazahlen, Zeichenketten).
daten = [
  [1,    7.1,  2   ],
  [None, "5",  None],
  [1,    7.1,  2   ],
  [2.0,  None, "9" ]
]

# Erstelle wieder daraus ein DataFrame.
df = pd.DataFrame(daten, columns=["x", "y", "z"])
print("Originaldaten:")
display(df)

print("\n")

# Das wollen wir jetzt aufräumen und dabei die Daten bereinigen. Zunächst
# konvertieren wir alle Werte in Kommazahlen. Wichtig ist dabei, dass das
# DataFrame keine Zeichenketten enthält, die nicht umwandelbar sind! Man kann
# ein DataFrame auch in Ganzzahlen, Zeichenketten, Bytewerten oder
# Datumsangaben konvertieren.
df_kommazahlen = df.astype("float")
print("Alle Daten in Kommazahlen umgewandelt:")
display(df_kommazahlen)

print("\n")

# Jedoch enthält das DataFrame noch fehlende Werte. Man kann nun alle Zeilen
# entfernen, die fehlende Werte enthalten. Dann bleibt allerdings nicht mehr
# viel übrig.
df_fehlende_entfernt = df_kommazahlen.dropna()
print("Alle Zeilen mit fehlenden Werten entfernt:")
display(df_fehlende_entfernt)

print("\n")

# Man kann auch einen Standardwert für fehlende Daten vergeben.
df_standardwerte = df_kommazahlen.fillna(3.333)
print("Alle fehlenden Daten durch Standardwerte ersetzt:")
display(df_standardwerte)

print("\n")

# Auch können doppelte Reihen entfernt werden.
df_duplikate_entfernt = df_kommazahlen.drop_duplicates()
print("Alle doppelten Reihen entfernt:")
display(df_duplikate_entfernt)

Originaldaten:


Unnamed: 0,x,y,z
0,1.0,7.1,2.0
1,,5.0,
2,1.0,7.1,2.0
3,2.0,,9.0




Alle Daten in Kommazahlen umgewandelt:


Unnamed: 0,x,y,z
0,1.0,7.1,2.0
1,,5.0,
2,1.0,7.1,2.0
3,2.0,,9.0




Alle Zeilen mit fehlenden Werten entfernt:


Unnamed: 0,x,y,z
0,1.0,7.1,2.0
2,1.0,7.1,2.0




Alle fehlenden Daten durch Standardwerte ersetzt:


Unnamed: 0,x,y,z
0,1.0,7.1,2.0
1,3.333,5.0,3.333
2,1.0,7.1,2.0
3,2.0,3.333,9.0




Alle doppelten Reihen entfernt:


Unnamed: 0,x,y,z
0,1.0,7.1,2.0
1,,5.0,
3,2.0,,9.0


# Zusammenfassende Werte berechnen

In [7]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

# Man kann mit Pandas auch zusammenfassende Werte der Daten berechnen.

# Definiere eine Funktion, die Beispieldaten generieren kann.
def beispiel_daten(anzahl_spalten=15, anzahl_reihen=40, faktor=100):
  np.random.seed(42)
  anzahl_spalten = 3
  faktor = 1
  spalten = ["spalte_" + str(i) for i in range(anzahl_spalten)]
  daten = []
  for y in range(anzahl_reihen):
    reihe = np.random.randint(0, 15, size=anzahl_spalten) + np.array([
            (-0.3) ** x * y ** 1.25 for x in range(anzahl_spalten)]) * faktor
    daten.append(reihe)
  return np.array(spalten), np.array(daten)

# Erzeuge Beispieldaten.
spalten, daten = beispiel_daten()

# Erstelle wieder daraus ein DataFrame.
df = pd.DataFrame(daten, columns=spalten)

# Berechne die Summe der Werte.
daten_summen = df.sum()
print("Die Summen der Spalten:")
display(daten_summen)

print("\n")

# Berechne zusammenfassende Werte der Daten, z. B. den Durchschnittswert jeder
# Spalte.
daten_mittelwerte = df.mean()
print("Die Mittelwerte der Spalten:")
display(daten_mittelwerte)

Die Summen der Spalten:


spalte_0    2047.265486
spalte_1    -260.479646
spalte_2     487.443894
dtype: float64



Die Mittelwerte der Spalten:


spalte_0    51.181637
spalte_1    -6.511991
spalte_2    12.186097
dtype: float64

In [8]:
import pandas as pd
import numpy as np

# Ein mehrstufiges Dictionary mit fiktiven Beispieldaten wird definiert.
pflanzen_daten = {
  0: {"name": "Rose", "wasserverbrauch": 2.6, "farbe": "rot"},
  1: {"name": "Tulpe", "wasserverbrauch": 4.2, "farbe": "orange"},
  2: {"name": "Orchidee", "wasserverbrauch": 3.1, "farbe": "violett"},
  3: {"name": "Lilie", "wasserverbrauch": 2.9, "farbe": "weiss"},
  4: {"name": "Veilchen", "wasserverbrauch": 3.6, "farbe": "blau"}
}

# Man kann auch aus diesem mehrstufigen Dictionary ein DataFrame machen.
pflanzen = pd.DataFrame(pflanzen_daten)
display(pflanzen)

print("\n")

# Wenn man aus einem solchen Dictionary ein pandas DataFrame macht, werden die
# Zahlen im höchsten Level als Spaltenbezeichnungen verwendet. Das ist aber in
# diesem Fall nicht gewünscht, daher wird das DataFrame mit dem Attribut ".T"
# "um 90° gedreht" (transponiert).
pflanzen = pflanzen.T
display(pflanzen)

Unnamed: 0,0,1,2,3,4
name,Rose,Tulpe,Orchidee,Lilie,Veilchen
wasserverbrauch,2.6,4.2,3.1,2.9,3.6
farbe,rot,orange,violett,weiss,blau






Unnamed: 0,name,wasserverbrauch,farbe
0,Rose,2.6,rot
1,Tulpe,4.2,orange
2,Orchidee,3.1,violett
3,Lilie,2.9,weiss
4,Veilchen,3.6,blau
