# 05-Arbeiten mit Text
Arbeiten mit Text stellt für Datenanalyse immer eine besondere Herausforderung dar. Deshalb bietet Pandas eine ganzes Set an Funktionen um Texte in DataFrames zu bearbeiten oder zu analysieren. 

## Importieren der Daten

In [None]:
import pandas as pd

In [None]:
df_namen = pd.read_csv('../src/vorname_nachname.csv', sep=';')
df_namen.head()

## Auffüllen fehlender Daten
Wollen wir herausfinden, welche Datensätze von fehlenden Werte betroffen sind so können wir mit ``df.info()`` uns eine Übersicht über die Lage verschaffen. 

In [None]:
df_namen.info()

Möchten wir diese Daten nun aus dem DataFrame herausfiltern benutzen wir ``.isna()`` als Filter.

In [None]:
df_namen[df_namen['title'].isna()]

Zum Ausfüllen fehlender Daten (durch NaN gekennzeichnet) können wir die Funktion `.fillna()` einer Series benutzen. 

In [None]:
# Ausfüllen fehlender Titel mit einem leeren String
df_namen['title'] = df_namen['title'].fillna('')
df_namen

## Text formatieren
* Leerzeichen entfernen mit - `.str.strip()`
* Nur Großbuchstaben (Upper Case) - `.str.upper()`
* Nur Kleinbuchstaben (Lower Case) - `.str.lower()`
* Nur den Ersten Buchstaben groß schreiben (Capital) - `.str.capitalize()`
* Texte immer Pascal Case schreiben (Title) - `.str.title()`

In [None]:
# Problem: Führende und Nachfolgende Leerzeichen
df_namen['vorname']

In [None]:
df_namen['vorname'] = df_namen['vorname'].str.strip()
df_namen['vorname']

In [None]:
df_namen['vorname'].str.upper()

In [None]:
df_namen['vorname'].str.lower()

In [None]:
df_namen['nachname'] = df_namen['nachname'].str.capitalize()
df_namen['nachname']

In [None]:
df_namen['title'] = df_namen['title'].str.title()
df_namen['title']

## Trennen und Verbinden

### Verbinden
Mit `+` oder `.str.cat()`

In [None]:
df_namen['vorname'] + df_namen['nachname']

In [None]:
df_namen['vorname'] + ' ' + df_namen['nachname']

In [None]:
df_namen['vorname'].str.cat(df_namen['nachname'], sep=' ')

In [None]:
# Für die weitere Arbeit im Dataframe speichern wir uns die Kombination aus Vorname und Nachname in einer neuen Spalte/Series
df_namen['name'] = df_namen['vorname'].str.cat(df_namen['nachname'], sep=' ')
df_namen.head()

### Trennen
Mit `.str.split()`

In [None]:
df_namen['name'].str.split(' ', expand=True)

In [None]:
# Zugriff erfolgt einzelnd
df_namen['vorname_split'] = df_namen['name'].str.split(' ', expand=True)[0]
df_namen['nachname_split'] = df_namen['name'].str.split(' ', expand=True)[1]
df_namen.head()

In [None]:
df_namen['name'].str.split(' ', expand=True)

In [None]:
# Alternativ, schöner und schneller.
df_namen[['vorname_split', 'nachname_split']] = df_namen['name'].str.split(' ', expand=True)
df_namen

## Suchen und Ersetzen

### Suchen
Mit `.str.contains()` und `.str.startswith()`

In [None]:
df_namen['title'].str.contains('Dr.')

In [None]:
df_namen[df_namen['title'].str.contains('Dr.')]

In [None]:
df_namen['nachname'].str.startswith('S')

In [None]:
df_namen[df_namen['nachname'].str.startswith('Sa')]

### Ersetzen
Mit `.str.replace()`

In [None]:
df_namen['title'] = df_namen['title'].str.replace('Med.', '')
df_namen

# Tipps und Tricks
* User Guide zum Arbeiten mit Text: https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html
* User Guide zur Behandlung fehlender Daten :https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data