# Einführung Titanic-Datensatz

Das Ziel der heutigen Vorlesung ist den Titanic-Datensatz von kaggle.com zu untersuchen.

Eine Beschreibung des Titanic-Datensatz ist hier zu finden:
https://www.kaggle.com/c/titanic
***
```
The sinking of the RMS Titanic is one of the most infamous shipwrecks in history.  On April 15, 1912, during her maiden voyage, the Titanic sank after colliding with an iceberg, killing 1502 out of 2224 passengers and crew. This sensational tragedy shocked the international community and led to better safety regulations for ships.

One of the reasons that the shipwreck led to such loss of life was that there were not enough lifeboats for the passengers and crew. Although there was some element of luck involved in surviving the sinking, some groups of people were more likely to survive than others, such as women, children, and the upper-class.

In this challenge, we ask you to complete the analysis of what sorts of people were likely to survive. In particular, we ask you to apply the tools of machine learning to predict which passengers survived the tragedy.


VARIABLE DESCRIPTIONS:
survived        Survival
                (0 = No; 1 = Yes)
pclass          Passenger Class
                (1 = 1st; 2 = 2nd; 3 = 3rd)
name            Name
sex             Sex
age             Age
sibsp           Number of Siblings/Spouses Aboard
parch           Number of Parents/Children Aboard
ticket          Ticket Number
fare            Passenger Fare
cabin           Cabin
embarked        Port of Embarkation
                (C = Cherbourg; Q = Queenstown; S = Southampton)

SPECIAL NOTES:
Pclass is a proxy for socio-economic status (SES)
 1st ~ Upper; 2nd ~ Middle; 3rd ~ Lower

Age is in Years; Fractional if Age less than One (1)
 If the Age is Estimated, it is in the form xx.5

With respect to the family relation variables (i.e. sibsp and parch)
some relations were ignored.  The following are the definitions used
for sibsp and parch.

Sibling:  Brother, Sister, Stepbrother, or Stepsister of Passenger Aboard Titanic
Spouse:   Husband or Wife of Passenger Aboard Titanic (Mistresses and Fiances Ignored)
Parent:   Mother or Father of Passenger Aboard Titanic
Child:    Son, Daughter, Stepson, or Stepdaughter of Passenger Aboard Titanic

Other family relatives excluded from this study include cousins,
nephews/nieces, aunts/uncles, and in-laws.  Some children travelled
only with a nanny, therefore parch=0 for them.  As well, some
travelled with very close friends or neighbors in a village, however,
the definitions do not support such relations.
```
***


Im Rahmen der Aufgaben werden folgende bereits bekannte Frameworks verwendet:
- numPy:   Numerik-Framework, "Brücke" zu Fortran / C (http://www.numpy.org/)
- pandas:  Datenstrukturen und zugehörige Operationen (http://pandas.pydata.org/)
- pyplot:  prozedurales Interface für Matplotlib          (http://matplotlib.org/users/pyplot_tutorial.html)

Im Folgenden werden die für diese Aufgabe benötigten Imports getätigt, sowie den Datensatz als *Pandas Dataframe* eingelesen:

In [167]:
import numpy as np
import csv as csv
import matplotlib.pyplot as plt
import pandas as pd
import itertools
%matplotlib inline

DATA_FILE = '../Data/original_titanic.csv'
df = pd.read_csv(DATA_FILE, header=0)

## 1.) Datenanalyse mit Pandas 
Das DataFrame Object aus der panda Bibliothek ist eine mächtige Datenstruktur mit vielen praktischen Funktionen um mit großen Datensätzen umzugehen. Um einen schnellen Einstieg in pandas zu erhalten empfehle ich Ihnen ein Blick in das 10 Minutes to pandas Tutorial zu werfen: http://pandas.pydata.org/pandas-docs/stable/10min.html. Umfangreiche Informationen finden Sie in der pandas Dokumentation (http://pandas.pydata.org/pandas-docs/stable/index.html). Häufig ist auch die ipython Autovervollständigung (TAB) ein gutes Hilfsmittel um entsprechende Methoden das DataFrames zu finden.

Im Folgenden finden Sie einige einfache, selbsterklärende Beispiele für den Umgang mit dem Pandas DataFrame. Führen Sie die Beispiele aus (z.B. in dem Sie bei fokussierter Zelle Shift+ENTER drücken) und schauen Sie sich die Ergebnisse an. 
 

In [168]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   int64  
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
 12  Home-Dest    745 non-null    object 
dtypes: float64(2), int64(5), object(6)
memory usage: 133.1+ KB


In [169]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,1309.0,1309.0,1309.0,1046.0,1309.0,1309.0,1308.0
mean,655.0,0.381971,2.294882,29.881138,0.498854,0.385027,33.295479
std,378.020061,0.486055,0.837836,14.413493,1.041658,0.86556,51.758668
min,1.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,328.0,0.0,2.0,21.0,0.0,0.0,7.8958
50%,655.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,982.0,1.0,3.0,39.0,1.0,0.0,31.275
max,1309.0,1.0,3.0,80.0,8.0,9.0,512.3292


## header


In [170]:
df.Age[0:5]

0    29.00
1     0.92
2     2.00
3    30.00
4    25.00
Name: Age, dtype: float64

In [171]:
print(df[['Age','Sex']][0:3])

     Age     Sex
0  29.00  female
1   0.92    male
2   2.00  female


In [172]:
df.loc[1:10,'Age']

1      0.92
2      2.00
3     30.00
4     25.00
5     48.00
6     63.00
7     39.00
8     53.00
9     71.00
10    47.00
Name: Age, dtype: float64

In [173]:
x = df[['Age','Sex']][(df.Sex == 'female') & (df.Age > 20)][0:5]
print(x)

     Age     Sex
0   29.0  female
4   25.0  female
6   63.0  female
8   53.0  female
12  24.0  female


In [174]:
print(type (x))
print(type (x.values))
for i,j in x.values:
    print("age %d, sex %s" % (i,j))

<class 'pandas.core.frame.DataFrame'>
<class 'numpy.ndarray'>
age 29, sex female
age 25, sex female
age 63, sex female
age 53, sex female
age 24, sex female


In [175]:
df.Age.groupby(df.Sex).mean()

Sex
female    28.687088
male      30.585228
Name: Age, dtype: float64

In [176]:
df.Sex.value_counts()

male      843
female    466
Name: Sex, dtype: int64

Um einen ersten Eindruck von den vorliegenden Daten zu beokmmen sowie die Möglichkeiten des DataFrame Objektes kennen zu lernen untersuchen Sie bitte die folgenden Fragestellungen: 

1.) Wie Umfangreich ist der Titanic Datensatz? Wieviel Merkmale (Spalten) bzw. Objekte (Datenreihen) liegen vor?

In [177]:
df.info()
# 13 colums
# 1309 entries
# over all 13 * 1309

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 13 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   int64  
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
 12  Home-Dest    745 non-null    object 
dtypes: float64(2), int64(5), object(6)
memory usage: 133.1+ KB


2.) Wie sehen die ersten zehn Objekte aus? Was fällt Ihnen auf? Verstehen Sie die Bedeutung der Merkmale?


In [201]:
for key , value in df[0:10].iteritems():
    print(key, value)
df.head(10)
df.describe()
# Unterschiedlich viele Einträge 1309 and some 1046
# unterschiedliche Datentypen



PassengerId 0     1
1     2
2     3
3     4
4     5
5     6
6     7
7     8
8     9
9    10
Name: PassengerId, dtype: int64
Survived 0    1
1    1
2    0
3    0
4    0
5    1
6    1
7    0
8    1
9    0
Name: Survived, dtype: int64
Pclass 0    1
1    1
2    1
3    1
4    1
5    1
6    1
7    1
8    1
9    1
Name: Pclass, dtype: int64
Name 0                      Allen, Miss. Elisabeth Walton
1                     Allison, Master. Hudson Trevor
2                       Allison, Miss. Helen Loraine
3               Allison, Mr. Hudson Joshua Creighton
4    Allison, Mrs. Hudson J C (Bessie Waldo Daniels)
5                                Anderson, Mr. Harry
6                  Andrews, Miss. Kornelia Theodosia
7                             Andrews, Mr. Thomas Jr
8      Appleton, Mrs. Edward Dale (Charlotte Lamson)
9                            Artagaveytia, Mr. Ramon
Name: Name, dtype: object
Sex 0    female
1      male
2    female
3      male
4    female
5      male
6    female
7      male
8  

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,1309.0,1309.0,1309.0,1309.0,1309.0,1309.0,1308.0
mean,655.0,0.381971,2.294882,32.31602,0.498854,0.385027,33.295479
std,378.020061,0.486055,0.837836,13.768589,1.041658,0.86556,51.758668
min,1.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,328.0,0.0,2.0,22.0,0.0,0.0,7.8958
50%,655.0,0.0,3.0,32.0,0.0,0.0,14.4542
75%,982.0,1.0,3.0,42.0,1.0,0.0,31.275
max,1309.0,1.0,3.0,80.0,8.0,9.0,512.3292


3.) Welche Datentypen haben die einzelnen Merkmale?

In [239]:
"""
0   PassengerId  1309 non-null   int64  
 1   Survived     1309 non-null   int64  
 2   Pclass       1309 non-null   int64  
 3   Name         1309 non-null   object 
 4   Sex          1309 non-null   object 
 5   Age          1046 non-null   float64
 6   SibSp        1309 non-null   int64  
 7   Parch        1309 non-null   int64  
 8   Ticket       1309 non-null   object 
 9   Fare         1308 non-null   float64
 10  Cabin        295 non-null    object 
 11  Embarked     1307 non-null   object 
 12  Home-Dest    745 non-null    object
"""

"""
for x,y in df[0:3].iterrows():
    print(x,y)

for key, value in df[0:3].iteritems():
    print(key, value)
"""
for key , value in df.iteritems():
    print(key, value.dtype)


PassengerId int64
Survived int64
Pclass int64
Name object
Sex object
Age float64
SibSp int64
Parch int64
Ticket object
Fare float64
Cabin object
Embarked object
Home-Dest object


4.) Welche Merkmale sind quantitativ, welche sind qualitativ?

<b>Quantitative Merkmale</b>:  intervallskalierte metrische Werte, z.B. Körpergewicht, Einkommen. 
Für diese Merkmale können verschiedene mathematische Rechenoperationen durchgeführt werden, wie zum Beispiel die Errechnung eines Durchschnitts <br>

<b>Qualitative Merkmale</b>:  Merkmale lassen sich eindeutig in Kategorien unterscheiden, diese Unterteilung besitzt jedoch keinen mathematischen Wert, z.B. Geschlecht, Religionszugehörigkeit. Für diese Merkmale kann lediglich ein Befragungsergebnis in Anteilen (x von 100%) wiedergegeben werden <br>

<b>Beispiel aus dem Skript</b>:

| Merkmal    | Wert                  | Typ |
|:-----------|:----------------------|-------|
| goldEarned | 15 Stk.               | Quantitativ |
| kills      | 11 Stk.               | Quantitativ |
| championId | 4312234               | Qualitativ |
| lane       | {bootom, middle, top} | Qualitativ |
| role       | {duo, solo, support}  | Qualitativ |

In [250]:
#int and float -> Quantitative Merkmale
#object -> Qualitative Merkmale

for key , value in df.iteritems():
    if value.dtype == "int64" or value.dtype == "float64":
        print(key, "Quantitative Merkmale")
    if value.dtype == "object":
        print(key, "Qualitatives Merkmale")


PassengerId Quantitative Merkmale
Survived Quantitative Merkmale
Pclass Quantitative Merkmale
Name Qualitatives Merkmale
Sex Qualitatives Merkmale
Age Quantitative Merkmale
SibSp Quantitative Merkmale
Parch Quantitative Merkmale
Ticket Qualitatives Merkmale
Fare Quantitative Merkmale
Cabin Qualitatives Merkmale
Embarked Qualitatives Merkmale
Home-Dest Qualitatives Merkmale


5.) Wieviel Prozent der Passagiere haben das Unglück überlebt?

In [237]:
summe = 0

s = df["Survived"]
for j in s:
    summe += j
prozent = summe/ len(df["Survived"])
print(prozent)
print("{} Prozent haben überlebt".format(round(prozent*100,2)))


0.3819709702062643
38.2 Prozent haben überlebt


6.) Wieviel Prozent der Überlebenden waren Frauen?

In [286]:
x = df[['Survived','Sex']][df.Survived == 1]
#print(x)
summe = 0
for i,j in x.values:
    print(i,j)
    if j == "female":
        summe += 1
        

prozent = summe/ len(x["Survived"])
print(prozent)
print("{} Prozent der Überlebten waren Frauen".format(round(prozent*100,2)))

1 female
1 male
1 male
1 female
1 female
1 female
1 female
1 female
1 male
1 female
1 female
1 male
1 female
1 male
1 female
1 female
1 male
1 female
1 female
1 male
1 male
1 female
1 female
1 female
1 female
1 male
1 female
1 female
1 female
1 female
1 male
1 female
1 male
1 female
1 male
1 female
1 male
1 female
1 female
1 female
1 female
1 male
1 female
1 female
1 female
1 male
1 female
1 female
1 female
1 female
1 female
1 female
1 female
1 female
1 female
1 male
1 male
1 female
1 female
1 male
1 female
1 male
1 male
1 female
1 female
1 female
1 female
1 male
1 female
1 female
1 female
1 female
1 female
1 male
1 female
1 female
1 female
1 female
1 female
1 male
1 male
1 female
1 female
1 male
1 female
1 female
1 female
1 female
1 female
1 male
1 female
1 male
1 female
1 female
1 male
1 female
1 male
1 female
1 male
1 female
1 female
1 male
1 male
1 female
1 female
1 female
1 female
1 female
1 female
1 male
1 male
1 female
1 female
1 male
1 female
1 male
1 female
1 female
1 female
1

7.) Ermitteln Sie jeweils den Mittelwert des Alters für die folgenden Gruppen:

7.a) für alle Passagiere

In [293]:
df.Age.mean()

32.31601986249045

7.b) getrennt nach Geschlecht

In [184]:
df.Age.groupby(df.Sex).mean()

7.c) für alle Überlebenden

In [294]:
df.Age.groupby(df.Survived).mean()

Survived
0    33.235575
1    30.828180
Name: Age, dtype: float64

7.d) für alle Frauen welche überlebt haben

In [306]:
df.Age.groupby(by=[df.Sex , df.Survived]).mean()

Sex     Survived
female  0           29.342520
        1           31.504690
male    0           33.960528
        1           29.403727
Name: Age, dtype: float64

7.e) für alle Frauen welche überlebt haben, gruppiert nach der Passagier Klasse (Pclass)

In [312]:
x = df.Age.groupby(by=[df.Sex, df.Survived,df.Pclass]).mean()
x["female"][1]

Pclass
1    37.496403
2    27.036383
3    27.610094
Name: Age, dtype: float64

7.f) für alle Frauen welche nicht überlebt haben, gruppiert nach der Passagier Klasse (Pclass)

In [313]:
x = df.Age.groupby(by=[df.Sex, df.Survived,df.Pclass]).mean()
x["female"][0]

Pclass
1    35.200000
2    34.750000
3    28.486364
Name: Age, dtype: float64

## 2.) Vorverarbeitung - Imputation (Statistik) - Datenlücken interpolieren
Wie Sie vielleicht schon bei der ersten Aufgabe bemerkt haben, fehlen einzelne Merkmalsausprägungen im vorliegenden Datensatz (NaN-Werte). Dies ist in sofern problematisch da je nach Verfahren, unter Umständen die ganze Datenreihe nicht mehr weiter verarbeitet werden kann. Im vorliegenden Datensatz fehlen Werte in den Merkmalen 'Age' sowie 'Cabin' (siehe df.info()). Da beim Merkmal Cabin nur 204 Einträge vorliegen ist es hier sehr schwer die fehlenden Ausprägungen zu interpolieren. Wir konzentrieren uns daher vorerst auf das Alter, da hier eine größere Datenmenge vorliegt.

Vervollständigen sie die Datenlücken in der Spalte 'Age'. Nutzen Sie dabei Wissen aus den vorliegenden Daten um die einzelnen Datenreihen zuverlässig zu vervollständigen. Es bietet sich an diesen Schritt in eine Funktion auszulagern. Überprüfen Sie Ihr Ergebniss.

In [189]:
def prepareData(df):
    #to set a selection of a data frame please dont use the chained [] operator, but the .loc operator
    #(see http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy for details)
    
    #minimal working example to set all null age values to 42 - probably you can do better :-)
    df.loc[df.Age.isnull(),'Age'] = 42
    return df
    
df = prepareData(df)

Erzeugen Sie einen 'Vorher-Nachher'-Plot bei dem Sie die Auswirkungen Ihrer Imputationsmaßnahmen darstellen. Argumentieren und bewerten Sie ihre Maßnahmen.  


## 3.) Visualisierung

Um Zusammenhänge in Daten verstehen zu können, ist es essentiell die Daten zu visualisieren. Nutzen sie für die folgende Aufgabe die python Bibliothek matplotlib (siehe http://matplotlib.org/users/pyplot_tutorial.html). Da uns unsere Daten als padas DataFrame vorliegen, ist es für die einfacheren plots komfortabler die von pandas zur Verfügung gestellten wrapper methoden zu nutzen (siehe http://pandas.pydata.org/pandas-docs/stable/visualization.html).


1.) Visualisieren Sie die absolute Verteilung der Überlebenden anhand eines Barplots. (Tipp: plt.hist(..) oder df.Survived.hist())

In [190]:
# TODO implement

2.) Visualisieren Sie die Anzahl der Passagiere in der jeweiligen Klasse (Pclass)

In [191]:
# TODO implement

3.) Visualisieren Sie die Verteilung des Alters pro Geschlecht als Histogramm. 

In [192]:
# TODO implement

4.) Visualisiern Sie die Verteilung des Alters pro Klasse als Wahrscheinlichkeitsdichte. Stellen Sie die Graphen gemeinsam in einem Plot dar (Tipp: plot(kind='density'), möglicherweise müssen sie hier das Python-Paket *scipy* nachinstallieren).

In [193]:
# TODO implement

 5) Visualisieren Sie den Zusammenhang zwischen dem Alter und dem Ticketpreis in einem scatter plot. Interpretieren Sie das Resultat.

In [194]:
# TODO implement

In den bisherigen Plots haben wir einzelne Merkmale unabhängig der Klassenzugehörigkeiten 'Surived' dargestellt. Um die vorliegenden Daten besser zu verstehen und trennungswirksame Merkmale zu identifizieren soll nun untersucht werden wie sich die einzelnen Merkmale in Bezug auf die später vorherzusagende Klasse verhalten.

6) Untersuchen Sie die Korrelation zwischen dem Geschlecht und den Überleben der Katastrophe. Erstellen Sie eine oder mehrere geeignete Visualisierung(en) und interpretieren Sie diese.


In [195]:
# TODO implement

7) Untersuchen Sie die Korrelation zwischen dem Alter und den Überleben der Katastrophe. Erstellen Sie eine geeignete Visualisierung und interpretieren Sie diese.

In [196]:
# TODO implement

8) Untersuchen Sie die Korrelation zwischen Passagier Klasse und den Überleben der Katastrophe. Erstellen Sie eine oder mehrere geeignete Visualisierungen und interpretieren Sie diese.

In [197]:
# TODO implement