# Warmup: Das Titanic Dataset
Das Titanic Dataset ist eine klassische Übung fürs Machine Learning. Es basiert auf dem Seefahrtsunglück der RMS Titanic im Jahr 1912 und enthält Informationen über die Passagier:innen wie Alter, Geschlecht, Anzahl an Geschwister etc. und ob sie das Unglück überlebten oder nicht. Anhand dieser Informationen versucht man vorauszusagen ob ein:e Passagier:in das Unglück überlebte oder nicht.

Die Daten werden als zwei CSV-Dateien bereitgestellt: train.csv und test.csv
Das training set soll verwendet werden, um ein Machine Learning Modell zu erstellen, was dann auf das test set angewendet wird. Das test set stellt keine Daten zum Überleben der  Passagiere bereit.

Legende

|Variable|Definition|Schlüssel|
|--------|----------|---------|
|survival|Überleben|0 = Nein, 1 = Ja|
|pclass|Ticketklasse|1 = 1., 2 = 2., 3 = 3.|
|sex|Geschlecht||
|Age|Alter in Jahren||
|sibsp|Anzahl der<br>Geschwister/Partner||
|parch|Anzahl an<br>Eltern/Kindern||
|ticket|Ticketnummer||
|fare|Fahrpreis||
|cabin|Kabinennummer||
|embarked|Abfahrtshafen|C = Cherbourg, Q = Queenstown,<br>S = Southampton|

##### weitere Erläuterungen
*pclass*: Ersatz für sozio-ökonomischen Status<br>
*age*: Angegeben in Anteil wenn kleiner 1. Wenn es geschätzt wurde wird es als xx.5 dargestellt<br>



### Einlesen
Um die Daten weiter mit Python zu verarbeiten/analysieren, müssen diese eingelesen werden. Als Übung lesen wir sie in drei verschieden Formen ein: 

als Liste von Listen:

In [7]:
train_list = []
test_list = []
files = [('test.csv', test_list), ('train.csv', train_list)]

for file in files:
    with open(file[0]) as input:
        for id, row in enumerate(input):
            if id != 0: file[1].append(row.replace("\n","").split("\t"))

print("Test list: \n")
print(test_list, "\n\n")
print("Train list: \n")
print(train_list)
    





Test list: 

[['892', '3', 'Kelly, Mr. James', 'male', '34.5', '0', '0', '330911', '7.8292', '', 'Q'], ['893', '3', 'Wilkes, Mrs. James (Ellen Needs)', 'female', '47', '1', '0', '363272', '7', '', 'S'], ['894', '2', 'Myles, Mr. Thomas Francis', 'male', '62', '0', '0', '240276', '9.6875', '', 'Q'], ['895', '3', 'Wirz, Mr. Albert', 'male', '27', '0', '0', '315154', '8.6625', '', 'S'], ['896', '3', 'Hirvonen, Mrs. Alexander (Helga E Lindqvist)', 'female', '22', '1', '1', '3101298', '12.2875', '', 'S'], ['897', '3', 'Svensson, Mr. Johan Cervin', 'male', '14', '0', '0', '7538', '9.225', '', 'S'], ['898', '3', 'Connolly, Miss. Kate', 'female', '30', '0', '0', '330972', '7.6292', '', 'Q'], ['899', '2', 'Caldwell, Mr. Albert Francis', 'male', '26', '1', '1', '248738', '29', '', 'S'], ['900', '3', 'Abrahim, Mrs. Joseph (Sophie Halaut Easu)', 'female', '18', '0', '0', '2657', '7.2292', '', 'C'], ['901', '3', 'Davies, Mr. John Samuel', 'male', '21', '2', '0', 'A/4 48871', '24.15', '', 'S'], ['902

als nested dictionary:

In [27]:
train_dict = {}
test_dict = {}
files = [('test.csv', test_dict), ('train.csv', train_dict)]


for file in files:
    with open(file[0]) as input:
        first_row = []
        for id, row in enumerate(input):
            row_array = row.replace("\n","").split("\t")
            if id == 0: first_row = row_array

            else:
                row_dict = {}
                for idx,col in enumerate(first_row):
                    if idx != 0:
                        row_dict[col] = row_array[idx]

                file[1][row_array[0]] = row_dict
                
print(first_row)   
print(test_dict)         
print(train_dict)


['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']
{'892': {'Pclass': '3', 'Name': 'Kelly, Mr. James', 'Sex': 'male', 'Age': '34.5', 'SibSp': '0', 'Parch': '0', 'Ticket': '330911', 'Fare': '7.8292', 'Cabin': '', 'Embarked': 'Q'}, '893': {'Pclass': '3', 'Name': 'Wilkes, Mrs. James (Ellen Needs)', 'Sex': 'female', 'Age': '47', 'SibSp': '1', 'Parch': '0', 'Ticket': '363272', 'Fare': '7', 'Cabin': '', 'Embarked': 'S'}, '894': {'Pclass': '2', 'Name': 'Myles, Mr. Thomas Francis', 'Sex': 'male', 'Age': '62', 'SibSp': '0', 'Parch': '0', 'Ticket': '240276', 'Fare': '9.6875', 'Cabin': '', 'Embarked': 'Q'}, '895': {'Pclass': '3', 'Name': 'Wirz, Mr. Albert', 'Sex': 'male', 'Age': '27', 'SibSp': '0', 'Parch': '0', 'Ticket': '315154', 'Fare': '8.6625', 'Cabin': '', 'Embarked': 'S'}, '896': {'Pclass': '3', 'Name': 'Hirvonen, Mrs. Alexander (Helga E Lindqvist)', 'Sex': 'female', 'Age': '22', 'SibSp': '1', 'Parch': '1', 'Ticket': '310129

als pandas Dataframe:

In [1]:
import pandas as pd
dataframes = []
files = ['test.csv', 'train.csv']

for file in files:
    dataframes.append(pd.read_csv(file, sep = '\t'))

display(dataframes[0])
display(dataframes[1])


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector, Mr. Woolf",male,,0,0,A.5. 3236,8.0500,,S
414,1306,1,"Oliva y Ocana, Dona. Fermina",female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether, Mr. Simon Sivertsen",male,38.5,0,0,SOTON/O.Q. 3101262,7.2500,,S
416,1308,3,"Ware, Mr. Frederick",male,,0,0,359309,8.0500,,S


Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


## Fehlende Werte
Beim Einlesen/Sichten der Daten stellt man fest, dass nicht alle Spalten ausgefüllt worden sind. Um zu sehen, wovon wie viel fehlt, bietet es sich an, die Trainings- und Test-Daten zusammenzuführen. Dann kann man sich die fehlenden Werte pro Spalte ausgeben lassen. Probiert das mit einem der Datenformate aus (wer früher fertig ist, kann es in einem weiteren Datenformat zählen und die Werte vergleichen):

In [4]:
# hier die fehlenden Werte zählen

test_df = dataframes[0]
train_df = dataframes[1]

test_df['Survived'] = 2

combined_df = pd.concat([test_df, train_df])
display(combined_df)
combined_df.to_excel("output.xlsx")

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Survived
0,892,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q,2
1,893,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S,2
2,894,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q,2
3,895,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S,2
4,896,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S,2
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S,0
887,888,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S,1
888,889,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S,0
889,890,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C,1


## Leerstellen füllen
Um sauber mit den Daten weiterzuarbeiten kann man fehlende Datenpunkte mit etwas ersetzen. Am einfachsten ist es, einen Platzhalter einzufügen, aber das führt eine neue Kategorie ein. Eine Alternative ist, die Leerstellen mit dem häufigsten Wert, dem Durchschnitt oder dem Mittelwert der Kategorie zu füllen. Oder sogar noch feiner mit einem Wert, der aus einer Gruppierung anhand einer anderen Spalte berechnet wird.

In [None]:
# hier die Leerstellen in einem der Datenformate ersetzen



