## Phase 3 (Data Preparation): Name => Title

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 5](https://data-science.training/kapitel-5/)
* Datum: 23.03.2023

Im Attribut Name steckt der Titel bzw. die Anrede.

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd

In [5]:
# Trainings- und Testdaten als Pandas Data Frame (df) aus CSV-Dateien laden
#  (KNIME: "CSV Reader")
df_train = pd.read_csv('../../data/titanic/original/train.csv')
df_test  = pd.read_csv('../../data/titanic/original/test.csv')

In [6]:
# Trainings- und Testdaten zusammenführen
#  (KNIME "Concatenate")
df = pd.concat([df_train, df_test], ignore_index=True)

In [7]:
# Datentypen automatisch konvertieren
df = df.convert_dtypes()

In [8]:
# Datensätze anzeigen
display(df)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S
1305,1306,,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C
1306,1307,,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S
1307,1308,,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S


In [9]:
# Spezielle Titanic-Statistik (Überlebenswahrscheinlichkeiten)
def dst_titanic_statistics(df, col):
    stats = df.groupby([col], as_index=False, observed=True)['PassengerId'].count() # Spalte "PassengerId" aus Titanic-Daten
    probs = df.groupby([col], as_index=False, observed=True)['Survived'].mean()     # Spalte "Survived"    aus Titanic-Daten
    stats = stats.merge(probs, on=col)
    stats = stats.rename(columns={'PassengerId': 'Anzahl', 'Survived': 'Überlebenswahrscheinlichkeit'})
    return stats

In [10]:
# Neues Attribut (Feature) Titel aus dem Attribut Name extrahieren.
#
# Schritt 1
# Mit der Funktion split() können wir einen String in mehrere Teile zerlegen.
# Hierzu müssen wir ein Trennzeichen (Delimiter) angeben. In unserem Fall also das Komma.
# Wir benutzen zunächst noch die Funktion str(), damit wir String-Methoden auf die Namensspalte anwenden können.
# Das Ergebnis ist dann ein Array mit zwei Spalten, weil es im Namen genau 1 Komma gibt.
arr = df['Name'].str.split(',', expand=True)
print(arr)

                  0                                            1
0            Braund                              Mr. Owen Harris
1           Cumings   Mrs. John Bradley (Florence Briggs Thayer)
2         Heikkinen                                  Miss. Laina
3          Futrelle           Mrs. Jacques Heath (Lily May Peel)
4             Allen                            Mr. William Henry
...             ...                                          ...
1304        Spector                                    Mr. Woolf
1305  Oliva y Ocana                                Dona. Fermina
1306        Saether                          Mr. Simon Sivertsen
1307           Ware                                Mr. Frederick
1308          Peter                            Master. Michael J

[1309 rows x 2 columns]


In [11]:
# Neues Attribut (Feature) Titel aus dem Attribut Name extrahieren.
#
# Schritt 2
# Die erste Spalte des Arrays (mit Index 0) enthält die Nachnamen.
# Die zweite Spalte des Arrays (mit Index 1) enthält den Rest.
# Dieser Rest beginnt mit dem Titel. Der Titel endet mit einem Punkt.
# Dieser Punkt kann als neues Trennzeichen benutzt werden.
arr2 = arr[1].str.split('.', expand=True)
print(arr2) 

            0                                       1     2
0          Mr                             Owen Harris  <NA>
1         Mrs   John Bradley (Florence Briggs Thayer)  <NA>
2        Miss                                   Laina  <NA>
3         Mrs           Jacques Heath (Lily May Peel)  <NA>
4          Mr                           William Henry  <NA>
...       ...                                     ...   ...
1304       Mr                                   Woolf  <NA>
1305     Dona                                 Fermina  <NA>
1306       Mr                         Simon Sivertsen  <NA>
1307       Mr                               Frederick  <NA>
1308   Master                               Michael J  <NA>

[1309 rows x 3 columns]


In [12]:
# Neues Attribut (Feature) Titel aus dem Attribut Name extrahieren.
#
# Schritt 3
# In der ersten Spalte (mit Index 0) stehen nun die Titel bzw. Anreden.
title = arr2[0]
print(title)

0            Mr
1           Mrs
2          Miss
3           Mrs
4            Mr
         ...   
1304         Mr
1305       Dona
1306         Mr
1307         Mr
1308     Master
Name: 0, Length: 1309, dtype: string


In [13]:
# Neues Attribut (Feature) Titel aus dem Attribut Name extrahieren.
#
# Schritt 4
# Wir können die einzelnen Schritte 1 bis 3 auch als kompakten Einzeiler schreiben
# und das Ergebnis in eine neue Spalte des Data Frames speichern.
df['Title'] = df['Name'].str.split(', ', expand=True)[1].str.split('.', expand=True)[0]
display(df)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S,Mr
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C,Mrs
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S,Miss
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S,Mrs
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S,Mr
...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,1305,,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.05,,S,Mr
1305,1306,,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9,C105,C,Dona
1306,1307,,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.25,,S,Mr
1307,1308,,3,"Ware, Mr. Frederick",male,,0,0,359309,8.05,,S,Mr


In [14]:
# Analyse der Häufigkeit der Titel
x = df['Title'].value_counts()
print(x)

Title
Mr              757
Miss            260
Mrs             197
Master           61
Rev               8
Dr                8
Col               4
Major             2
Ms                2
Mlle              2
Lady              1
Sir               1
Mme               1
Don               1
Capt              1
the Countess      1
Jonkheer          1
Dona              1
Name: count, dtype: Int64


### Zwischenergebnis

Es gibt viele unterschiedliche Titel. Die "Haupt-Titel" sind:

* "Mr" (für "Mister"), die männliche Anrede
* "Miss" als Anrede für unverheiratete Frauen
* "Mrs" als Anrede für verheiratete Frauen
* "Master" als Anrede für (junge) unverheiratete Männer.

Alle anderen Titel kommen seltener vor und lassen sich meistens einem Geschlecht zuordnen.

Weibliche Titel

* "Ms" die Abkürzung von "Miss".
* "Mlle" steht für "Mademoiselle" und ist das französische Pendant für "Miss".
* "Mme" steht entsprechend für "Madame" und entspricht "Mrs".
* "Lady", "the Countess" und "Dona" sind weibliche Anreden bzw. Titel.

Männliche Titel

* "Rev" ist die Abkürzung von "Reverend", also für einen (männlichen) Geistlichen.
* "Col" (für "Colonel"), "Major" und "Capt" (für "Captain") sind Titel aus dem militärischen Bereich.
* "Sir" ist der Titel eines Mannes, der dem (niedrigen) Adel angehört.
* "Jonkheer" ist ein niederländischer Adelstitel für Männer.

Akademische Titel

* "Dr" (d.h. die Doktorwürde) kann sowohl Frauen als auch Männern verliehen werden.

In [16]:
# Sehen wir uns die Passagiere mit einem Doktortitel etwas genauer an
dr = df[df['Title'] == 'Dr']
display(dr)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Title
245,246,0.0,1,"Minahan, Dr. William Edward",male,44.0,2,0,19928,90.0,C78,Q,Dr
317,318,0.0,2,"Moraweck, Dr. Ernest",male,54.0,0,0,29011,14.0,,S,Dr
398,399,0.0,2,"Pain, Dr. Alfred",male,23.0,0,0,244278,10.5,,S,Dr
632,633,1.0,1,"Stahelin-Maeglin, Dr. Max",male,32.0,0,0,13214,30.5,B50,C,Dr
660,661,1.0,1,"Frauenthal, Dr. Henry William",male,50.0,2,0,PC 17611,133.65,,S,Dr
766,767,0.0,1,"Brewe, Dr. Arthur Jackson",male,,0,0,112379,39.6,,C,Dr
796,797,1.0,1,"Leader, Dr. Alice (Farnham)",female,49.0,0,0,17465,25.9292,D17,S,Dr
1184,1185,,1,"Dodge, Dr. Washington",male,53.0,1,1,33638,81.8583,A34,S,Dr


#### Zwischenergebnis

Die 8 Passagiere mit Doktortitel teilen sich auf in 7 Männer und 1 Frau.

In [18]:
# Ersetzungen / Vereinfachungen
#  Hierzu können wir die Funktion replace() benutzen
df['Title'] = df['Title'].replace(['Ms', 'Mlle'], 'Miss')
df['Title'] = df['Title'].replace(['Mme', 'Lady', 'the Countess', 'Dona'], 'Mrs')
df['Title'] = df['Title'].replace(['Dr', 'Col', 'Major', 'Jonkheer', 'Capt', 'Sir', 'Don', 'Rev'], 'Rare')
#
x = df['Title'].value_counts()
print(x)

Title
Mr        757
Miss      264
Mrs       201
Master     61
Rare       26
Name: count, dtype: Int64


#### Zwischenergebnis

Es gibt nun nur noch 5 verschiedene Titel, die eine hohe Abhängigkeit zum Geschlecht (Sex) und eine moderate Abhängigkeit zum Alter (Age) haben. Interessant für unsere Analyse ist aber, ob dieses neue Feature dabei hilft, vorherzusagen, ob ein Passagier überlebt oder nicht.

In [20]:
# Statistik (Überlebenswahrscheinlichkeiten)
stats = dst_titanic_statistics(df, 'Title')
display(stats)

Unnamed: 0,Title,Anzahl,Überlebenswahrscheinlichkeit
0,Master,61,0.575
1,Miss,264,0.702703
2,Mr,757,0.156673
3,Mrs,201,0.796875
4,Rare,26,0.285714


### Ergebnis

Die Überlebenswahrscheinlichkeiten der 5 Titel sind sehr unterschiedlich (siehe Tabelle oben). Also sollte sich dieses neue Feature gut für Analysen und Prognosen einsetzen lassen.