# 05-Arbeiten mit Text
Arbeiten mit Text stellt für Datenanalyse immer eine besondere Herausforderung dar. Deshalb bietet Pandas eine ganzes Set an Funktionen um Texte in DataFrames zu bearbeiten oder zu analysieren. 

## Importieren der Daten

In [29]:
import pandas as pd

In [30]:
df_namen = pd.read_csv('../src/vorname_nachname_clean.csv', sep=';')
df_namen.head()

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname
0,0,dr.,Mozelle,hellier
1,1,prof. dr.,Quentin,shreenan
2,2,dr.,Emory,stienham
3,3,,Nils,ricks
4,4,,Jean,ayscough


## Auffüllen fehlender Daten
Zum Ausfüllen fehlender Daten (durch NaN) gekennzeichnet können wir die Funktion `.fillna()` einer Series benutzen.

In [31]:
# Ausfüllen fehlender Titel mit einem leeren String
df_namen = df_namen.fillna('')
df_namen.head()

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname
0,0,dr.,Mozelle,hellier
1,1,prof. dr.,Quentin,shreenan
2,2,dr.,Emory,stienham
3,3,,Nils,ricks
4,4,,Jean,ayscough


## Text formatieren
* Leerzeichen entfernen mit - `.str.strip()`
* Nur Großbuchstaben (Upper Case) - `.str.upper()`
* Nur Kleinbuchstaben (Lower Case) - `.str.lower()`
* Nur den Ersten Buchstaben groß schreiben (Capital) - `.str.capitalize()`
* Texte immer Pascal Case schreiben (Title) - `.str.title()`

In [32]:
df_namen['vorname'].str.strip()

0      Mozelle
1      Quentin
2        Emory
3         Nils
4         Jean
5      Brander
6        Debee
7    Doloritas
8         Nils
9     Joscelin
Name: vorname, dtype: object

In [33]:
df_namen['vorname'].str.upper()

0      MOZELLE
1      QUENTIN
2        EMORY
3         NILS
4         JEAN
5      BRANDER
6        DEBEE
7    DOLORITAS
8         NILS
9     JOSCELIN
Name: vorname, dtype: object

In [34]:
df_namen['vorname'].str.lower()

0      mozelle
1      quentin
2        emory
3         nils
4         jean
5      brander
6        debee
7    doloritas
8         nils
9     joscelin
Name: vorname, dtype: object

In [35]:
df_namen['nachname'].str.capitalize()

0        Hellier
1       Shreenan
2       Stienham
3          Ricks
4       Ayscough
5      Santorini
6    Vasilischev
7          Moden
8       Macourek
9         Savege
Name: nachname, dtype: object

In [36]:
df_namen['title'].str.title()

0          Dr.
1    Prof. Dr.
2          Dr.
3             
4             
5             
6         Med.
7             
8     Dr. Med.
9             
Name: title, dtype: object

## Trennen und Verbinden

### Verbinden
Mit `+` oder `.str.cat()`

In [37]:
df_namen['vorname'] + df_namen['nachname']

0      Mozellehellier
1     Quentinshreenan
2       Emorystienham
3           Nilsricks
4        Jeanayscough
5    Brandersantorini
6    Debeevasilischev
7      Doloritasmoden
8        Nilsmacourek
9      Joscelinsavege
dtype: object

In [38]:
df_namen['vorname'] + ' ' + df_namen['nachname']

0      Mozelle hellier
1     Quentin shreenan
2       Emory stienham
3           Nils ricks
4        Jean ayscough
5    Brander santorini
6    Debee vasilischev
7      Doloritas moden
8        Nils macourek
9      Joscelin savege
dtype: object

In [39]:
df_namen['vorname'].str.cat(df_namen['nachname'], sep=' ')

0      Mozelle hellier
1     Quentin shreenan
2       Emory stienham
3           Nils ricks
4        Jean ayscough
5    Brander santorini
6    Debee vasilischev
7      Doloritas moden
8        Nils macourek
9      Joscelin savege
Name: vorname, dtype: object

In [40]:
# Für die weitere Arbeit im Dataframe speichern wir uns die Kombination aus Vorname und Nachname in einer neuen Spalte/Series
df_namen['name'] = df_namen['vorname'].str.cat(df_namen['nachname'], sep=' ')
df_namen.head()

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname,name
0,0,dr.,Mozelle,hellier,Mozelle hellier
1,1,prof. dr.,Quentin,shreenan,Quentin shreenan
2,2,dr.,Emory,stienham,Emory stienham
3,3,,Nils,ricks,Nils ricks
4,4,,Jean,ayscough,Jean ayscough


### Trennen
Mit `.str.split()`

In [41]:
df_namen['name'].str.split(' ', expand=True)

Unnamed: 0,0,1
0,Mozelle,hellier
1,Quentin,shreenan
2,Emory,stienham
3,Nils,ricks
4,Jean,ayscough
5,Brander,santorini
6,Debee,vasilischev
7,Doloritas,moden
8,Nils,macourek
9,Joscelin,savege


In [42]:
# Zugriff erfolgt einzelnd
df_namen['vorname_split'] = df_namen['name'].str.split(' ', expand=True)[0]
df_namen['nachname_split'] = df_namen['name'].str.split(' ', expand=True)[1]
df_namen.head()

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname,name,vorname_split,nachname_split
0,0,dr.,Mozelle,hellier,Mozelle hellier,Mozelle,hellier
1,1,prof. dr.,Quentin,shreenan,Quentin shreenan,Quentin,shreenan
2,2,dr.,Emory,stienham,Emory stienham,Emory,stienham
3,3,,Nils,ricks,Nils ricks,Nils,ricks
4,4,,Jean,ayscough,Jean ayscough,Jean,ayscough


In [43]:
df_namen['name'].str.split(' ', expand=True)

Unnamed: 0,0,1
0,Mozelle,hellier
1,Quentin,shreenan
2,Emory,stienham
3,Nils,ricks
4,Jean,ayscough
5,Brander,santorini
6,Debee,vasilischev
7,Doloritas,moden
8,Nils,macourek
9,Joscelin,savege


In [44]:
# Alternativ, schöner und schneller.
df_namen[['vorname_split', 'nachname_split']] = df_namen['name'].str.split(' ', expand=True)
df_namen

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname,name,vorname_split,nachname_split
0,0,dr.,Mozelle,hellier,Mozelle hellier,Mozelle,hellier
1,1,prof. dr.,Quentin,shreenan,Quentin shreenan,Quentin,shreenan
2,2,dr.,Emory,stienham,Emory stienham,Emory,stienham
3,3,,Nils,ricks,Nils ricks,Nils,ricks
4,4,,Jean,ayscough,Jean ayscough,Jean,ayscough
5,5,,Brander,santorini,Brander santorini,Brander,santorini
6,6,med.,Debee,vasilischev,Debee vasilischev,Debee,vasilischev
7,7,,Doloritas,moden,Doloritas moden,Doloritas,moden
8,8,dr. med.,Nils,macourek,Nils macourek,Nils,macourek
9,9,,Joscelin,savege,Joscelin savege,Joscelin,savege


## Suchen und Ersetzen

### Suchen
Mit `.str.contains()` und `.str.startswith()`

In [45]:
df_namen['title'].str.contains('Dr.')

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: title, dtype: bool

In [46]:
df_namen[df_namen['title'].str.contains('Dr.')]

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname,name,vorname_split,nachname_split


In [47]:
df_namen['nachname'].str.startswith('S')

0    False
1    False
2    False
3    False
4    False
5    False
6    False
7    False
8    False
9    False
Name: nachname, dtype: bool

In [48]:
df_namen[df_namen['nachname'].str.startswith('Sa')]

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname,name,vorname_split,nachname_split


### Ersetzen
Mit `.str.replace()`

In [49]:
df_namen['title'] = df_namen['title'].str.replace('Med.', '')
df_namen

Unnamed: 0.1,Unnamed: 0,title,vorname,nachname,name,vorname_split,nachname_split
0,0,dr.,Mozelle,hellier,Mozelle hellier,Mozelle,hellier
1,1,prof. dr.,Quentin,shreenan,Quentin shreenan,Quentin,shreenan
2,2,dr.,Emory,stienham,Emory stienham,Emory,stienham
3,3,,Nils,ricks,Nils ricks,Nils,ricks
4,4,,Jean,ayscough,Jean ayscough,Jean,ayscough
5,5,,Brander,santorini,Brander santorini,Brander,santorini
6,6,med.,Debee,vasilischev,Debee vasilischev,Debee,vasilischev
7,7,,Doloritas,moden,Doloritas moden,Doloritas,moden
8,8,dr. med.,Nils,macourek,Nils macourek,Nils,macourek
9,9,,Joscelin,savege,Joscelin savege,Joscelin,savege


# Tipps und Tricks
* User Guide zum Arbeiten mit Text: https://pandas.pydata.org/pandas-docs/stable/user_guide/text.html
* User Guide zur Behandlung fehlender Daten :https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html#missing-data