## Phase 2 (Data Understanding): Fare

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 4](https://data-science.training/kapitel-4/)
* Datum: 23.03.2023

Wir nehmen eine Schätzung für den fehlenden Wert des Attributs Fare vor.

In [1]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd

In [2]:
# Trainings- und Testdaten als Pandas Data Frame (df) aus CSV-Dateien laden
#  (KNIME: "CSV Reader")
df_train = pd.read_csv('../../data/titanic/original/train.csv')
df_test  = pd.read_csv('../../data/titanic/original/test.csv')

In [3]:
# Trainings- und Testdaten zusammenführen
#  (KNIME "Concatenate")
df = pd.concat([df_train, df_test], ignore_index=True)

In [4]:
# Datentypen automatisch konvertieren
df = df.convert_dtypes()

In [5]:
# Fehlende Werte prüfen
df.isnull().sum()

PassengerId       0
Survived        418
Pclass            0
Name              0
Sex               0
Age             263
SibSp             0
Parch             0
Ticket            0
Fare              1
Cabin          1014
Embarked          2
dtype: int64

In [6]:
# Datensatz mit fehlenden Wert zu Fare filtern und ausgeben
fare_missing = df[df['Fare'].isna()]
display(fare_missing)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1043,1044,,3,"Storey, Mr. Thomas",male,60.5,0,0,3701,,,S


In [7]:
# Gibt es noch weitere Passagiere, die mit der gleichen Ticketnummer gereist sind?
#  (Falls ja, dann hätten alle den gleichen Ticket-Preis gezahlt.)
display(df[df['Ticket']=='3701'])

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
1043,1044,,3,"Storey, Mr. Thomas",male,60.5,0,0,3701,,,S


In [8]:
# Gibt es noch weitere Passagiere, die mit einer ähnlichen Ticketnummer gereist sind?
display(df.query('Ticket.str.contains("3701")', engine='python'))

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
254,255,0.0,3,"Rosblom, Mrs. Viktor (Helena Wilhelmina)",female,41.0,0,2,370129,20.2125,,S
424,425,0.0,3,"Rosblom, Mr. Viktor Richard",male,18.0,1,1,370129,20.2125,,S
1043,1044,,3,"Storey, Mr. Thomas",male,60.5,0,0,3701,,,S
1175,1176,,3,"Rosblom, Miss. Salli Helena",female,2.0,1,1,370129,20.2125,,S


#### Zwischenergebnis

* Es gibt nur einen fehlenden Wert zum Attribut Fare (= Ticketpreis).
* Der entsprechende Passagier ist alleine in der 3. Klasse gereist und in Southampton an Bord gegangen.
* Andere Attribute wie bspw. das Geschlecht haben keinen direkten Einfluss auf den Ticketpreis und werden daher nicht weiter betrachtet.

In [9]:
# Datensätze zu Passagieren mit den gleichen wesentlichen Merkmalen filtern und sortiert nach Fare anzeigen
#  Pclass=3, SibSp=0, Parch=0, Embarked='S'
fare_base = df[(df['Pclass'] == 3) & (df['SibSp'] == 0) & (df['Parch'] == 0) & (df['Embarked'] == 'S')]
fare_base = fare_base.sort_values(by=['Fare'])
pd.set_option('display.max_rows', None)
display(fare_base)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
179,180,0.0,3,"Leonard, Mr. Lionel",male,36.0,0,0,LINE,0.0,,S
597,598,0.0,3,"Johnson, Mr. Alfred",male,49.0,0,0,LINE,0.0,,S
302,303,0.0,3,"Johnson, Mr. William Cahoone Jr",male,19.0,0,0,LINE,0.0,,S
271,272,1.0,3,"Tornquist, Mr. William Henry",male,25.0,0,0,LINE,0.0,,S
326,327,0.0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
818,819,0.0,3,"Holm, Mr. John Fredrik Alexander",male,43.0,0,0,C 7075,6.45,,S
202,203,0.0,3,"Johanson, Mr. Jakob Alfred",male,34.0,0,0,3101264,6.4958,,S
804,805,1.0,3,"Hedman, Mr. Oskar Arvid",male,27.0,0,0,347089,6.975,,S
129,130,0.0,3,"Ekstrom, Mr. Johan",male,45.0,0,0,347061,6.975,,S
1054,1055,,3,"Pearce, Mr. Ernest",male,,0,0,343271,7.0,,S


#### Zwischenergebnis

* Es gibt Ausreißer an beiden Enden der Tabelle.
* Passagiere mit Ticket "LINE" haben gar nicht für die Fahrt bezahlen müssen.
* Passagiere mit Ticket "1601" haben wesentlich mehr als andere bezahlen müssen. Dies waren 8 Passagiere mit asiatischen Namen. Der einzelne Ticketpreis hätte hier aber nur (56,4958 / 8) = 7,062 Pfund betragen.

=> Idee: Wir entfernen alle Datensätze mit mehrfachen Ticketnummern.

In [10]:
# Zunächst bilden wir ein Array mit Ticketnummern.
#  Dieses enthält False-Werte, wenn die Ticketnummer mehrfach vorkommt, ansonsten True
tickets = fare_base['PassengerId'].groupby(fare_base['Ticket']).count() == 1
print(tickets.head())

Ticket
1222      True
14973     True
1601     False
21440     True
2223      True
Name: PassengerId, dtype: boolean


In [11]:
# Jetzt entfernen wir alle Zeilen, in denen False steht
#  (Dies sind die Ticketnummern, die mehrfach vorkommen.)
tickets = tickets[tickets]
print(tickets.head())

Ticket
1222       True
14973      True
21440      True
2223       True
3101264    True
Name: PassengerId, dtype: boolean


In [12]:
# Jetzt benutzen wir das Ergebnis und filtern die Datensätze im Data Frame, deren Ticketnummer
# in dieser Vergleichsliste von Ticketnummern vorkommt.
fare_new = fare_base[fare_base['Ticket'].isin(tickets.keys())]
display(fare_new)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
326,327,0.0,3,"Nysveen, Mr. Johan Hansen",male,61.0,0,0,345364,6.2375,,S
818,819,0.0,3,"Holm, Mr. John Fredrik Alexander",male,43.0,0,0,C 7075,6.45,,S
202,203,0.0,3,"Johanson, Mr. Jakob Alfred",male,34.0,0,0,3101264,6.4958,,S
804,805,1.0,3,"Hedman, Mr. Oskar Arvid",male,27.0,0,0,347089,6.975,,S
129,130,0.0,3,"Ekstrom, Mr. Johan",male,45.0,0,0,347061,6.975,,S
1054,1055,,3,"Pearce, Mr. Ernest",male,,0,0,343271,7.0,,S
784,785,0.0,3,"Ali, Mr. William",male,25.0,0,0,SOTON/O.Q. 3101312,7.05,,S
1102,1103,,3,"Finoli, Mr. Luigi",male,,0,0,SOTON/O.Q. 3101308,7.05,,S
210,211,0.0,3,"Ali, Mr. Ahmed",male,24.0,0,0,SOTON/O.Q. 3101311,7.05,,S
611,612,0.0,3,"Jardin, Mr. Jose Neto",male,,0,0,SOTON/O.Q. 3101305,7.05,,S


In [13]:
# Ticketpreis anhand des Medians dieser Datensätze schätzen
fare_estimated = fare_new['Fare'].dropna().median()
print(fare_estimated)

7.8958


In [14]:
# Was wäre, wenn wir den Mittelwert statt des Medians nehmen würden?
fare_mean = fare_new['Fare'].dropna().mean()
print(fare_mean)

8.158160135135136


In [15]:
# Median mit doppelten Ticketnummern
fare_median = fare_base['Fare'].dropna().median()
print(fare_median)

7.8958


In [16]:
# Mittelwert mit doppelten Ticketnummern
fare_mean = fare_base['Fare'].dropna().mean()
print(fare_mean)

9.593713003095974


### Ergebnis

Die Schätzung für den fehlenden Wert des Attributs Fare ist 7,896 (als Median der Datensätze von Passagieren mit gleichen Merkmalen). Der Mittelwert ist etwas höher und beträgt 8,158. Wenn wir die Datensätze mit den doppelten Ticketnummern nicht entfernt hätten, dann wären der Median ebenfalls 7,896 gewesen. Der Mittelwert wäre allerdings mit 9,594 deutlich höher gewesen.

Fare = 7,896 Pfund