# Manipulation von Zeichenketten

pandas bietet die Möglichkeit, String- und reguläre Ausdrücke prägnant auf ganze Arrays von Daten anzuwenden.

## String-Objekt-Methoden

In vielen String-Munging- und Skripting-Anwendungen sind die eingebauten String-Methoden ausreichend. Zum Beispiel kann eine durch Komma getrennte Zeichenkette mit [split](https://docs.python.org/3/library/stdtypes.html#str.split) in Teile zerlegt werden:

In [1]:
books = """Jupyter tutorial, PyViz tutorial, Python basics,
Jupyter tutorial, Python basics"""

chunks = books.split(',')

print(chunks)

['Jupyter tutorial', ' PyViz tutorial', ' Python basics', '\nJupyter tutorial', ' Python basics']


`split` wird oft mit [str.strip](https://docs.python.org/3/library/stdtypes.html#str.strip) kombiniert, um Leerzeichen und Zeilenumbrüche zu entfernen:

In [2]:
chunks = [x.strip() for x in books.split(',')]

chunks

['Jupyter tutorial',
 'PyViz tutorial',
 'Python basics',
 'Jupyter tutorial',
 'Python basics']

Eine schnelle Methode zur Übergabe einer Liste oder eines Tupels an eine Zeichenkette ist die [str.join](https://docs.python.org/3/library/stdtypes.html#str.join)-Methode:

In [3]:
';'.join(chunks)

'Jupyter tutorial;PyViz tutorial;Python basics;Jupyter tutorial;Python basics'

Mit der Verwendung des Python-Schlüsselworts `in` kann einfach überprüft werden, ob eine bestimmte Zeichenkette vorhanden ist:

In [4]:
'Python basics' in chunks

True

Mit [str.count](https://docs.python.org/3/library/stdtypes.html#str.count) lässt sich die Anzahl der Zeichenketten ermitteln:

In [5]:
books.count('Python basics')

2

Mit der [str.replace](https://docs.python.org/3/library/stdtypes.html#str.replace)-Methode lässt sich das Vorkommen eines Musters durch ein anderes ersetzen. Sie wird häufig auch zum Löschen von Mustern verwendet, indem eine leere Zeichenkette übergeben wird:

In [6]:
books.replace(', ', ';')

'Jupyter tutorial;PyViz tutorial;Python basics,\nJupyter tutorial;Python basics'

In [7]:
books.replace('\n', '')

'Jupyter tutorial, PyViz tutorial, Python basics,Jupyter tutorial, Python basics'

In Python eingebaute String-Methoden:

Methode | Beschreibung
:------ | :-----------
`count` | gibt die Anzahl der sich nicht überschneidenden Vorkommen der Zeichenkette zurück.
`endswith` | gibt `True` zurück, wenn die Zeichenkette mit dem Suffix endet
`startswith` | gibt `True` zurück, wenn die Zeichenkette mit dem Präfix beginnt
`join` | verwendet die Zeichenkette als Begrenzer für die Verkettung einer Folge anderer Zeichenketten
`index` | gibt die Position des ersten Zeichens in der Zeichenkette zurück, wenn es in der Zeichenkette gefunden wurde; löst einen `ValueError` aus, wenn es nicht gefunden wurde
`find` | gibt die Position des ersten Zeichens des ersten Vorkommens der Teilzeichenkette in der Zeichenkette zurück; wie `index`, gibt aber `-1` zurück, wenn nichts gefunden wurde
`rfind` | Rückgabe der Position des ersten Zeichens des letzten Vorkommens der Teilzeichenkette in der Zeichenkette; gibt `-1` zurück, wenn nichts gefunden wurde
`replace` | ersetzt Vorkommen einer Zeichenkette durch eine andere Zeichenkette
`strip`, `rstrip`, `lstrip` | schneiden Leerzeichen ab, einschließlich Zeilenumbrüchen
`split ` |zerlegt eine Zeichenkette in eine Liste von Teilzeichenketten unter Verwendung des übergebenen Trennzeichens
`lower` | konvertiert alphabetische Zeichen in Kleinbuchstaben
`upper` | konvertiert alphabetische Zeichen in Großbuchstaben
`casefold` | konvertiert Zeichen in Kleinbuchstaben und konvertiert alle regionsspezifischen variablen Zeichenkombinationen in eine gemeinsame vergleichbare Form
`ljust`, `rjust` | linksbündig bzw. rechtsbündig; füllt die gegenüberliegende Seite der Zeichenkette mit Leerzeichen (oder einem anderen Füllzeichen) auf, um eine Zeichenkette mit einer Mindestbreite zu erhalten

## Reguläre Ausdrücke

Reguläre Ausdrücke, auch *regex* genannt, bieten eine flexible Möglichkeit, (oft komplexere) Zeichenkettenmuster im Text zu suchen oder abzugleichen. Das in Python eingebaute Modul [re](https://docs.python.org/3/library/re.html) ist für die Anwendung regulärer Ausdrücke auf Zeichenketten zuständig. Die Funktionen des `re`-Moduls lassen sich in drei Kategorien einteilen: Mustervergleich, Ersetzung und Aufteilung. Diese sind natürlich alle miteinander verwandt; ein Regex beschreibt ein Muster, das im Text gefunden werden soll und das dann für viele Zwecke verwendet werden kann.

> **Siehe auch:**
> 
> * [Reguläre Ausdrücke](../ipython/unix-shell/regex.ipynb)

Betrachten wir ein einfaches Beispiel: Angenommen, wir wollen eine kommaseparierte Zeichenkette aufteilen:

In [8]:
import re

re.split(',', books)

['Jupyter tutorial',
 ' PyViz tutorial',
 ' Python basics',
 '\nJupyter tutorial',
 ' Python basics']

Wenn ihr `re.split(',', books)` aufruft, wird der reguläre Ausdruck zunächst kompiliert und dann seine Split-Methode für den übergebenen Text aufgerufen. Ihr könnt den Regex selbst mit `re.compile` kompilieren und so ein wiederverwendbares Regex-Objekt bilden:

In [9]:
regex = re.compile(',')

regex.split(books)

['Jupyter tutorial',
 ' PyViz tutorial',
 ' Python basics',
 '\nJupyter tutorial',
 ' Python basics']

Wenn ihr stattdessen eine Liste aller Muster erhalten möchtet, die der Regex entsprechen, könnt ihr die [re.findall](https://docs.python.org/3/library/re.html#re.findall)-Methode verwenden:

In [10]:
regex.findall(books)

[',', ',', ',', ',']

> **Hinweis:**
> 
> Um unerwünschtes Escaping mit `\` in einem regulären Ausdruck zu vermeiden, verwendet rohe String-Literale wie `r'C:\PATH\TO\FILE'` anstelle des entsprechenden `'C:\\PATH\\TO\\FILE'`.

Das Erstellen eines Regex-Objekts mit `re.compile` ist sehr empfehlenswert, wenn ihr beabsichtigt, denselben Ausdruck auf viele Zeichenketten anzuwenden; dies spart auch CPU-Zyklen.

`match` und `search` sind eng mit `findall` verwandt. Während `findall` alle Übereinstimmungen in einer Zeichenkette zurückgibt, gibt `search` nur die erste Übereinstimmung und `match` nur Übereinstimmungen am Anfang der Zeichenkette zurück. Als weniger triviales Beispiel betrachten wir einen Textblock und einen regulären Ausdruck, der die meisten E-Mail-Adressen identifizieren kann:

In [11]:
addresses = """Veit <veit@cusy.io>
Veit Schiele <veit.schiele@cusy.io>
cusy GmbH <info@cusy.io>
"""

In [12]:
pattern = r'[A-Z0-9._%+-]+@[A-Z0-9.-]+\.[A-Z]{2,4}'
regex = re.compile(pattern, flags=re.IGNORECASE)

`re.IGNORECASE` ignoriert die Groß- und Kleinschreibung im Regex.

Die Verwendung von `findall` für den Text ergibt eine Liste der E-Mail-Adressen:

In [13]:
regex.findall(addresses)

['veit@cusy.io', 'veit.schiele@cusy.io', 'info@cusy.io']

`search` gibt ein spezielles `match`-Objekt für die erste E-Mail-Adresse im Text zurück. Für die vorangehende Regex kann das `match`-Objekt nur die Anfangs- und Endposition des Musters in der Zeichenfolge angeben:

In [14]:
first = regex.search(addresses)

first

<re.Match object; span=(6, 18), match='veit@cusy.io'>

In [15]:
addresses[first.start():first.end()]

'veit@cusy.io'

`regex.match` gibt `None` zurück, da das Muster nur dann passt, wenn es am Anfang der Zeichenkette steht:

In [16]:
print(regex.match(addresses))

None


Entsprechend gibt `sub` eine neue Zeichenkette zurück, in der alle Vorkommen des Musters durch die neue Zeichenkette ersetzt sind:

In [17]:
print(regex.sub('…', addresses))

Veit <…>
Veit Schiele <…>
cusy GmbH <…>



Angenommen, ihr möchtet E-Mail-Adressen finden und gleichzeitig jede Adresse in ihre drei Komponenten aufteilen: Personenname, Domänenname und Domänensuffix. Dazu setzt ihr Klammern um die zu segmentierenden Teile des Musters:

In [18]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'
regex = re.compile(pattern, flags=re.IGNORECASE)

In [19]:
match = regex.match('veit@cusy.io')

match.groups()

('veit', 'cusy', 'io')

`findall` gibt eine Liste von Tupeln zurück, wenn das Muster Gruppen enthält:

In [20]:
regex.findall(addresses)

[('veit', 'cusy', 'io'),
 ('veit.schiele', 'cusy', 'io'),
 ('info', 'cusy', 'io')]

`sub` hat auch Zugang zu den Gruppen in jeder Übereinstimmung mit speziellen Symbolen. So steht `\1` für die erste übereinstimmende Gruppe, `\2` für die zweite und so weiter:

In [21]:
print(regex.sub(r'Username: \1, Domain: \2, Suffix: \3', addresses))

Veit <Username: veit, Domain: cusy, Suffix: io>
Veit Schiele <Username: veit.schiele, Domain: cusy, Suffix: io>
cusy GmbH <Username: info, Domain: cusy, Suffix: io>



Die folgende Tabelle enthält einen kurzen Überblick über Methoden für reguläre Ausdrücke:

Methode | Beschreibung
:------ | :-----------
`findall` | gibt alle sich nicht überschneidenden übereinstimmenden Muster in einer Zeichenkette als Liste zurück
`finditer` | wie `findall`, gibt aber einen Iterator zurück
`match` | entspricht dem Muster am Anfang der Zeichenkette und segmentiert optional die Musterkomponenten in Gruppen; wenn das Muster übereinstimmt, wird ein `match`-Objekt zurückgegeben, andernfalls keines
`search` | durchsucht die Zeichenkette nach Übereinstimmungen mit dem Muster; gibt in diesem Fall ein `match`-Objekt zurück; im Gegensatz zu `match` kann die Übereinstimmung an einer beliebigen Stelle der Zeichenkette und nicht nur am Anfang stehen
`split` | zerlegt die Zeichenkette bei jedem Auftreten des Musters in Teile
`sub`, `subn` | ersetzt alle (`sub`) oder die ersten `n` Vorkommen (`subn`) des Musters in der Zeichenkette durch einen Ersetzungsausdruck; verwendet die Symbole `\1`, `\2`, …, um auf die Elemente der Übereinstimmungsgruppe in der Ersetzungszeichenkette zu verweisen

## Vektorisierte String-Funktionen in pandas

Das Aufräumen eines unübersichtlichen Datensatzes für die Analyse erfordert oft eine Menge an String-Manipulationen. Erschwerend kommt hinzu, dass eine Spalte, die Strings enthält, manchmal fehlende Daten enthält:

In [22]:
import pandas as pd
import numpy as np

addresses = {'Veit': np.nan, 'Veit Schiele': 'veit.schiele@cusy.io',
             'cusy GmbH': 'info@cusy.io'}
addresses = pd.Series(addresses)

addresses

Veit                             NaN
Veit Schiele    veit.schiele@cusy.io
cusy GmbH               info@cusy.io
dtype: object

In [23]:
addresses.isna()

Veit             True
Veit Schiele    False
cusy GmbH       False
dtype: bool

Ihr könnt Methoden für Zeichenketten und reguläre Ausdrücke auf jeden Wert anwenden (durch Übergabe eines Lambdas oder einer anderen Funktion), indem ihr `data.map` verwendet, aber dies schlägt bei `NA`-Werten fehl. Um dies zu bewältigen, verfügt `Series` über array-orientierte Methoden für String-Operationen, die `NA`-Werte überspringen und weiterleiten. Auf diese wird über das `str`-Attribut von `Series` zugegriffen; zum Beispiel könnten wir mit `str.contains` prüfen, ob jede E-Mail-Adresse `veit` enthält:

In [24]:
addresses.str.contains('veit')

Veit              NaN
Veit Schiele     True
cusy GmbH       False
dtype: object

Reguläre Ausdrücke können ebenfalls verwendet werden, zusammen mit Optionen wie `IGNORECASE`:

In [25]:
pattern = r'([A-Z0-9._%+-]+)@([A-Z0-9.-]+)\.([A-Z]{2,4})'

addresses.str.findall(pattern, flags=re.IGNORECASE)

Veit                                   NaN
Veit Schiele    [(veit.schiele, cusy, io)]
cusy GmbH               [(info, cusy, io)]
dtype: object

Es gibt mehrere Möglichkeiten, ein vektorisiertes Element abzurufen. Entweder verwendet ihr `str.get` oder den Index von `str`:

In [26]:
matches = addresses.str.findall(pattern, flags=re.IGNORECASE).str[0]

matches

Veit                                 NaN
Veit Schiele    (veit.schiele, cusy, io)
cusy GmbH               (info, cusy, io)
dtype: object

In [27]:
matches.str.get(1)

Veit             NaN
Veit Schiele    cusy
cusy GmbH       cusy
dtype: object

In ähnlicher Weise könnt ihr mit dieser Syntax auch Zeichenketten zerschneiden:

In [28]:
addresses.str[:5]

Veit              NaN
Veit Schiele    veit.
cusy GmbH       info@
dtype: object

Die [pandas.Series.str.extract](https://pandas.pydata.org/docs/reference/api/pandas.Series.str.extract.html)-Methode gibt die erfassten Gruppen eines regulären Ausdrucks als DataFrame zurück:

In [29]:
addresses.str.extract(pattern, flags=re.IGNORECASE)

Unnamed: 0,0,1,2
Veit,,,
Veit Schiele,veit.schiele,cusy,io
cusy GmbH,info,cusy,io


Weitere vektorisierten Pandas-String-Methoden:

Methode | Beschreibung
:------ | :-----------
`cat` | verknüpft Zeichenketten elementweise mit optionalem Trennzeichen
`contains` | gibt ein boolesches Array zurück, wenn jede Zeichenkette ein Muster/Regex enthält
`count` | zählt Vorkommen des Musters
`extract` | verwendet einen regulären Ausdruck mit Gruppen, um eine oder mehrere Zeichenketten aus einer Reihe von Zeichenketten zu extrahieren; das Ergebnis ist ein DataFrame mit einer Spalte pro Gruppe
`endswith` | Äquivalent zu `x.endswith(pattern)` für jedes Element
`startswith` | Äquivalent zu `x.startswith(pattern)` für jedes Element
`findall` | berechnet Liste aller Vorkommen von Muster/Regex für jede Zeichenkette
`get` | Index in jedem Element (`i`-tes Element abrufen)
`isalnum` | Äquivalent zu eingebautem `str.alnum`
`isalpha` | Entspricht dem eingebauten `str.isalpha`
`isdecimal` | Äquivalent zu eingebautem `str.isdecimal`
`isdigit` | Gleichwertig zu eingebautem `str.isdigit`
`islower` | Gleichwertig zu eingebautem `str.islower`
`isnumeric` | Gleichwertig zu eingebautem `str.isnumeric`
`isupper` | Äquivalent zur eingebauten `str.isupper`
`join` | verbindet Zeichenketten in jedem Element der Serie mit dem übergebenen Trennzeichen
`len` | berechnet die Länge jeder Zeichenkette
`lower`, `upper` | konvertiert Groß- und Kleinschreibung; entspricht `x.lower()` oder `x.upper()` für jedes Element
`match` | verwendet `re.match` mit dem übergebenen regulären Ausdruck für jedes Element, wobei `True` oder `False` zurückgegeben wird, wenn es übereinstimmt.
`extract` | erfasst Gruppenelemente (falls vorhanden) nach Index aus jeder Zeichenkette
`pad` | fügt Leerzeichen auf der linken, rechten oder beiden Seiten von Zeichenketten ein
`center` | Äquivalent zu `pad(side='both')`
`repeat` | Doppelte Werte (z.B. `s.str.repeat(3)` entspricht `x * 3` für jede Zeichenkette)
`replace` | ersetzt Muster/Regex durch eine andere Zeichenfolge
`slice` | schneidet jede Zeichenkette in der Serie auf
`split` | teilt Zeichenketten anhand von Begrenzungszeichen oder regulären Ausdrücken
`strip` | schneidet Leerzeichen auf beiden Seiten ab, einschließlich Zeilenumbrüchen
`rstrip` | schneidet Leerzeichen auf der rechten Seite ab
`lstrip` | schneidet Leerzeichen auf der linken Seite ab