In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Umgang mit fehlenden Werten 
### Fehlende Werte filtern
NaN - not a number

NA - not available

Null - Wert nicht vorhanden


In [32]:
# Fehlende Werte filtern

data = pd.DataFrame([[1., 6.5, 3.], [1., np.nan, np.nan],
                     [np.nan, np.nan, np.nan], [np.nan, 6.5, 3.]])
print(data)
print('\n')

# Boolsches Array mit True falls der Wert fehlt
print('Boolsches Array mit True falls der Wert fehlt:')
print(data.isna())
print('\n')


     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
2  NaN  NaN  NaN
3  NaN  6.5  3.0


Boolsches Array mit True falls der Wert fehlt:
       0      1      2
0  False  False  False
1  False   True   True
2   True   True   True
3   True  False  False




In [30]:
# Zeilen mit fehlenden Werte werden gelöscht
print('Zeilen mit fehlenden Werte werden gelöscht:')
print(data.dropna())
print('\n')

Zeilen mit fehlenden Werte werden gelöscht:
     0    1    2
0  1.0  6.5  3.0




In [31]:
# Es werden nur Zeilen gelöscht, wenn alle Werte fehlen
print('Es werden nur Zeilen gelöscht, wenn alle Werte fehlen:')
print(data.dropna(how="all"))

Es werden nur Zeilen gelöscht, wenn alle Werte fehlen:
     0    1    2
0  1.0  6.5  3.0
1  1.0  NaN  NaN
3  NaN  6.5  3.0


In [29]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4 entries, 0 to 3
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   0       2 non-null      float64
 1   1       2 non-null      float64
 2   2       2 non-null      float64
dtypes: float64(3)
memory usage: 228.0 bytes


In [33]:
# Daten generieren
df = pd.DataFrame(np.random.standard_normal((7, 3)))
df.iloc[:4, 1] = np.nan
df.iloc[:2, 2] = np.nan
print(df)


          0         1         2
0  1.214540       NaN       NaN
1 -0.525812       NaN       NaN
2  1.682327       NaN -2.494639
3  0.405219       NaN -0.982945
4  2.140453 -0.254124 -1.155720
5  0.369568 -0.622579 -1.181503
6  1.990679  0.457817 -0.545329


In [34]:
# Zeilen mit fehlenden Werten löschen
print('\n Zeilen mit fehlenden Werten löschen')
print(df.dropna())


 Zeilen mit fehlenden Werten löschen
          0         1         2
4  2.140453 -0.254124 -1.155720
5  0.369568 -0.622579 -1.181503
6  1.990679  0.457817 -0.545329


In [35]:
# Zeilen mit mindestens 2 fehlenden Werten löschen
print('\n Zeilen mit mindestens 2 fehlenden Werten löschen')
print(df.dropna(thresh=2))



 Zeilen mit mindestens 2 fehlenden Werten löschen
          0         1         2
2  1.682327       NaN -2.494639
3  0.405219       NaN -0.982945
4  2.140453 -0.254124 -1.155720
5  0.369568 -0.622579 -1.181503
6  1.990679  0.457817 -0.545329


In [40]:
# Spalten mit fehlenden Werten löschen
data[4] = np.nan
print(data)

data.dropna(axis="columns", how="all")

     0    1    2   4
0  1.0  6.5  3.0 NaN
1  1.0  NaN  NaN NaN
2  NaN  NaN  NaN NaN
3  NaN  6.5  3.0 NaN


Unnamed: 0,0,1,2
0,1.0,6.5,3.0
1,1.0,,
2,,,
3,,6.5,3.0


### Fehlende Werte ersetzen

In [37]:
# Fehlende Werte mit 0 füllen
print('\n Fehlende Werte mit 0 füllen')
print(df.fillna(0))


 Fehlende Werte mit 0 füllen
          0         1         2
0  1.214540  0.000000  0.000000
1 -0.525812  0.000000  0.000000
2  1.682327  0.000000 -2.494639
3  0.405219  0.000000 -0.982945
4  2.140453 -0.254124 -1.155720
5  0.369568 -0.622579 -1.181503
6  1.990679  0.457817 -0.545329


In [41]:
# Fehlende Werte in Spalte 1 mit 0.5 ersetzen und in Spalte 2 mit 0, {}: Dictionary
print(df.fillna({1: 0.5, 2: 0}))

          0         1         2
0  1.214540  0.500000  0.000000
1 -0.525812  0.500000  0.000000
2  1.682327  0.500000 -2.494639
3  0.405219  0.500000 -0.982945
4  2.140453 -0.254124 -1.155720
5  0.369568 -0.622579 -1.181503
6  1.990679  0.457817 -0.545329


In [43]:
# Datensatz erstellen
df = pd.DataFrame(np.random.standard_normal((6, 3)))
df.iloc[2:, 1] = np.nan # ab Zeile 2 und Spalte 1 mit NaN füllen
df.iloc[4:, 2] = np.nan # ab Zeile 4 und Spalte 2 mit NaN füllen
df

Unnamed: 0,0,1,2
0,-0.885969,0.39707,-0.891313
1,0.470108,2.501539,0.337818
2,-1.04861,,-0.266877
3,0.221928,,0.24224
4,-0.124028,,
5,0.229132,,


In [46]:
# NaN auffüllen mit dem letzten nicht-fehlenden Wert
print(df.fillna(method="ffill"))

          0         1         2
0 -0.885969  0.397070 -0.891313
1  0.470108  2.501539  0.337818
2 -1.048610  2.501539 -0.266877
3  0.221928  2.501539  0.242240
4 -0.124028  2.501539  0.242240
5  0.229132  2.501539  0.242240


In [45]:
# forward fill maximal 2 Werte nach dem letzten nicht-fehlenden
print(df.fillna(method="ffill", limit=2))

          0         1         2
0 -0.885969  0.397070 -0.891313
1  0.470108  2.501539  0.337818
2 -1.048610  2.501539 -0.266877
3  0.221928  2.501539  0.242240
4 -0.124028       NaN  0.242240
5  0.229132       NaN  0.242240


In [48]:
# NaN auffüllen mit dem letzten nicht-fehlenden Wert
data = pd.Series([1., np.nan, 3.5, np.nan, 7])
print(data)
data.fillna(data.mean())

0    1.0
1    NaN
2    3.5
3    NaN
4    7.0
dtype: float64


0    1.000000
1    3.833333
2    3.500000
3    3.833333
4    7.000000
dtype: float64

In [50]:
# Datensatz erstellen
df = pd.DataFrame(np.random.standard_normal((6, 3)))
df.iloc[2:, 1] = np.nan # ab Zeile 2 und Spalte 1 mit NaN füllen
df.iloc[4:, 2] = np.nan # ab Zeile 4 und Spalte 2 mit NaN füllen
print(df)
print('\n')
# Fehlende Werte mit dem Mittelwert je Spalte füllen
print(df.fillna(df.mean()))

          0         1         2
0 -0.821088  0.014446  0.446344
1  0.618975  1.455347 -0.803030
2 -1.224025       NaN -0.353214
3  0.479440       NaN -0.228746
4  1.274927       NaN       NaN
5  0.606180       NaN       NaN


          0         1         2
0 -0.821088  0.014446  0.446344
1  0.618975  1.455347 -0.803030
2 -1.224025  0.734896 -0.353214
3  0.479440  0.734896 -0.228746
4  1.274927  0.734896 -0.234661
5  0.606180  0.734896 -0.234661


## Duplikate entfernen

In [52]:
data = pd.DataFrame({"k1": ["one", "two"] * 3 + ["two"],
                     "k2": [1, 1, 2, 3, 3, 4, 4]})
print(data)
data.duplicated()


    k1  k2
0  one   1
1  two   1
2  one   2
3  two   3
4  one   3
5  two   4
6  two   4


0    False
1    False
2    False
3    False
4    False
5    False
6     True
dtype: bool

In [54]:
# Duplikate Löschen
# Die erste beobachtete Wertkombination wird behalten (Index 5)
data.drop_duplicates()

Unnamed: 0,k1,k2
0,one,1
1,two,1
2,one,2
3,two,3
4,one,3
5,two,4


In [60]:
data["v1"] = range(7)
print(data, '\n')
print('Löschen von Duplikaten anhand Spalte k1')
print(data.drop_duplicates(subset=["k1"]), '\n') 
print('Löschen von Duplikaten anhand Splate k1 und k2, der zuletzt vorkommende Wert soll behalten werden')
print(data.drop_duplicates(subset=["k1", "k2"], keep="last")) 

    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
5  two   4   5
6  two   4   6 

Löschen von Duplikaten anhand Spalte k1
    k1  k2  v1
0  one   1   0
1  two   1   1 

Löschen von Duplikaten anhand Splate k1 und k2, der zuletzt vorkommende Wert soll behalten werden
    k1  k2  v1
0  one   1   0
1  two   1   1
2  one   2   2
3  two   3   3
4  one   3   4
6  two   4   6


## Transformation durch Mappings

In [61]:
data = pd.DataFrame({"food": ["bacon", "pulled pork", "bacon",
                              "pastrami", "corned beef", "bacon",
                              "pastrami", "honey ham", "nova lox"],
                     "ounces": [4, 3, 12, 6, 7.5, 8, 3, 5, 6]})
data

Unnamed: 0,food,ounces
0,bacon,4.0
1,pulled pork,3.0
2,bacon,12.0
3,pastrami,6.0
4,corned beef,7.5
5,bacon,8.0
6,pastrami,3.0
7,honey ham,5.0
8,nova lox,6.0


In [62]:
# Jedem Fleischprodukt wird die Tierart zugeordnet
meat_to_animal = {
  "bacon": "pig",
  "pulled pork": "pig",
  "pastrami": "cow",
  "corned beef": "cow",
  "honey ham": "pig",
  "nova lox": "salmon"
}

# Die Tierart wird dem Dataframe als neue Spalte zugeordnet
data["animal"] = data["food"].map(meat_to_animal)
data

Unnamed: 0,food,ounces,animal
0,bacon,4.0,pig
1,pulled pork,3.0,pig
2,bacon,12.0,pig
3,pastrami,6.0,cow
4,corned beef,7.5,cow
5,bacon,8.0,pig
6,pastrami,3.0,cow
7,honey ham,5.0,pig
8,nova lox,6.0,salmon


## Werte ersetzen

In [70]:
# Beispieldatensatz erstellen
data = pd.Series([1., -999., 2., -999., -1000., 3.])
print(data, '\n')

# -999 kann für fehlende Daten stehen, Pandas kann besser mit NaN umgehen
# -999 durch NaN ersetzen
print(data.replace(-999, np.nan))

0       1.0
1    -999.0
2       2.0
3    -999.0
4   -1000.0
5       3.0
dtype: float64 

0       1.0
1       NaN
2       2.0
3       NaN
4   -1000.0
5       3.0
dtype: float64


In [72]:
# -999 und -1000 durch NaN ersetzen
print(data.replace([-999, -1000], np.nan), '\n')

# -999 und -1000 durch verschiedene Werte ersetzen
print(data.replace([-999, -1000], [np.nan, 0]))

0    1.0
1    NaN
2    2.0
3    NaN
4    NaN
5    3.0
dtype: float64 

0    1.0
1    NaN
2    2.0
3    NaN
4    0.0
5    3.0
dtype: float64


## String-Manipulation

In [73]:
# Zerlegen eines Strings mit , als Separator
val = "a,b,  guido"
val.split(",")

['a', 'b', '  guido']

In [74]:
# Split in Kombination mit Strip zur Entfernung von Whitespaces (und Zeilenumbrüche)
pieces = [x.strip() for x in val.split(",")]
pieces

['a', 'b', 'guido']

In [77]:
first, second, third = pieces

# Kombination der Strings mit "::" durch +
print(first + "::" + second + "::" + third)

# Alternativ und vorzuziehen
print("::".join(pieces))

a::b::guido
a::b::guido


In [78]:
# Auffinden von Teilstrings
"guido" in val

True

## Regex - Regular Expressions
Ziel: komplexe String Muster in Texten finden 

regex: Muster, das im Text gesucht werden soll

In [79]:
import re

In [87]:
# regex für eines oder mehrere Whitespaces \s+
# \s Space
# + ein oder mehrere Male aufgetreten
text = "foo    bar\t baz  \tqux"
re.split(r"\s+", text) # r"abc" - raw string

['foo', 'bar', 'baz', 'qux']

In [89]:
# Falls das regex häufiger verwendet werden soll
regex = re.compile(r"\s+")
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [86]:
# r"abc" - raw string
print("Hallo \n wie \n geht´s")
print(r"Hallo \n wie \n geht´s")

Hallo 
 wie 
 geht´s
Hallo \n wie \n geht´s


In [81]:
regex = re.compile(r"\s+")
regex.split(text)

['foo', 'bar', 'baz', 'qux']

In [90]:
# Liste aller Muster die zum regex passen
regex.findall(text)

['    ', '\t ', '  \t']

In [92]:
# regex für Emailadressen
text = """Dave dave@google.com
Steve steve@gmail.com
Rob rob@gmail.com
Ryan ryan@yahoo.com"""
pattern = r"[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}"

# re.IGNORECASE makes the regex case insensitive
# compile für Laufzeitoptimierung
regex = re.compile(pattern, flags=re.IGNORECASE)

In [93]:
regex.findall(text)

['dave@google.com', 'steve@gmail.com', 'rob@gmail.com', 'ryan@yahoo.com']