# Simple Classifier
In der vorherigen Teilaufgabe haben Sie einiges über die Struktur der Daten gelernt. Nun sollen Sie dieses Wissen einsetzen um eine erste Vorhersage auf einem Testdatensatz zu treffen. Im folgenden werden die notwendigen Imports getätigt und das Dataset eingelesen.

### Imports

In [665]:
import numpy as np
import csv as csv
import matplotlib.pyplot as plt
import pandas as pd
import itertools
%matplotlib inline

### Daten einlesen

In [666]:
DATA_FILE = '../Data/original_titanic.csv'
# TODO : implement
df = None
df = pd.read_csv(DATA_FILE, header=0)


### Datenlücken interpolieren

Gerne können Sie zum Füllen der Datenlücken auch Ihre Implementierung aus der vorherigen Teilaufgabe einsetzen.

In [667]:
def prepareData(df):
    #to set a selection of a data frame please dont use the chained [] operator, but the .loc operator
    #(see http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy for details)
    
    #minimal working example to set all null age values to 42 - probably you can do better :-)
    df.loc[df.Age.isnull(),'Age'] = None
    df.loc[df.Pclass.isnull(),'Pclass'] = None
    df.loc[df.Sex.isnull(),"Sex"] = None
    return df
    
#df = prepareData(df)
print(len(df))
df2 = df.copy()
df2 = prepareData(df2)
df2.dropna(subset = ["Pclass"], inplace=True)
df2.dropna(subset = ["Age"], inplace=True)
df2.dropna(subset = ["Sex"], inplace=True)
print(len(df2))

1309
1046


### Datensatz stochastisch verändern

Es wird der komplette Datensatz durchmischt. Finden Sie hierfür geeignete Methoden (Python, Numpy, Pandas). Geben Sie die ersten fünf Zeilen des durchmischten Datensatzes aus. Weisen Sie nach, dass lediglich die Reihenfolge der Daten geändert wurde und <b>nicht(!)</b> die Merkmals-Spalten.

### Lösung mit Sklearn

In [668]:
from sklearn.utils import shuffle

print(df[:5])
df_shuffled = shuffle(df)
print(df_shuffled[:5])

   PassengerId  Survived  Pclass  \
0            1         1       1   
1            2         1       1   
2            3         0       1   
3            4         0       1   
4            5         0       1   

                                              Name     Sex    Age  SibSp  \
0                    Allen, Miss. Elisabeth Walton  female  29.00      0   
1                   Allison, Master. Hudson Trevor    male   0.92      1   
2                     Allison, Miss. Helen Loraine  female   2.00      1   
3             Allison, Mr. Hudson Joshua Creighton    male  30.00      1   
4  Allison, Mrs. Hudson J C (Bessie Waldo Daniels)  female  25.00      1   

   Parch  Ticket      Fare    Cabin Embarked                        Home-Dest  
0      0   24160  211.3375       B5        S                     St Louis, MO  
1      2  113781  151.5500  C22 C26        S  Montreal, PQ / Chesterville, ON  
2      2  113781  151.5500  C22 C26        S  Montreal, PQ / Chesterville, ON  
3     

### Umsetzung mit Pandas

In [669]:
print(df[:5])
df_shuffled2 = df.sample(frac=1).reset_index(drop=True)
print(df_shuffled2[:5])

   PassengerId  Survived  Pclass  \
0            1         1       1   
1            2         1       1   
2            3         0       1   
3            4         0       1   
4            5         0       1   

                                              Name     Sex    Age  SibSp  \
0                    Allen, Miss. Elisabeth Walton  female  29.00      0   
1                   Allison, Master. Hudson Trevor    male   0.92      1   
2                     Allison, Miss. Helen Loraine  female   2.00      1   
3             Allison, Mr. Hudson Joshua Creighton    male  30.00      1   
4  Allison, Mrs. Hudson J C (Bessie Waldo Daniels)  female  25.00      1   

   Parch  Ticket      Fare    Cabin Embarked                        Home-Dest  
0      0   24160  211.3375       B5        S                     St Louis, MO  
1      2  113781  151.5500  C22 C26        S  Montreal, PQ / Chesterville, ON  
2      2  113781  151.5500  C22 C26        S  Montreal, PQ / Chesterville, ON  
3     

### Aufteilung in Trainings- und Testdatensatz

Teilen Sie den stochastisch veränderten Datensatz in Trainings- und Testdatensatz mit der Verteilung von 80% (Train) zu 20% (Test) auf. Geben Sie die Länge der Datensätze aus.

In [670]:
from sklearn.model_selection import train_test_split

df_train, df_test  = train_test_split(df_shuffled, test_size=0.2)
print(len(df_train))
print(len(df_test))

1047
262


### Performance von Machine Learing Algorithmen

Die Performance von Machine Learing Algorithmen kann unter anderem anhand der Korreklassifizierungsrate (engl. Accuracy) ermittelt werden. Diese wird über die Verwechslungsmatrix (engl. Confusion matrix) (siehe Abbildung) wie folgt definiert: <br>

TP = True Positive <br>
TN = True Negative <br>
FP = False Positive <br>
FN = False Negative <br>
ACC = Accuracy <br>

$ACC = \frac{(TP + TN)} {(TP+TN+FP+FN)}$

<img src="../Figures/Confusion-Matrix.png" alt="drawing" style="width:300px;"/>



### Implementierung des Algorithmus

Schreiben Sie eine Funktion um die Klasse *Survived*, mit ihren beiden Ausprägungen 0 und 1, anhand von einem oder mehreren Merkmalen vorherzusagen. Verwenden Sie dazu ein einfaches Modell in welchem Sie ihr bisheriges Wissen über den Datensatz einsetzen.

In [671]:
def predict(df):
    """
    Predicts out of a Single Sample if Alive
    :return True if Alive
    :return False if Dead
    """
    if df["Pclass"] == 1 and df["Sex"] == "female" and df["Age"] < 30:
        return True
    elif df["Pclass"] == 2 and df["Sex"] == "female" and df["Age"] < 20:
        return True
    else:
        return False

### Testen des Algorithmus


In [672]:
persons = df2.sample(n= 3, random_state=1)
for index, row in persons.iterrows():
    print(row)
    print("Will", row["Name"], "Survived?", predict(row) )


PassengerId                                  37
Survived                                      1
Pclass                                      1.0
Name                Bowerman, Miss. Elsie Edith
Sex                                      female
Age                                        22.0
SibSp                                         0
Parch                                         1
Ticket                                   113505
Fare                                       55.0
Cabin                                       E33
Embarked                                      S
Home-Dest      St Leonards-on-Sea, England Ohio
Name: 36, dtype: object
Will Bowerman, Miss. Elsie Edith Survived? True
PassengerId                                       1046
Survived                                             0
Pclass                                             3.0
Name           Myhrman, Mr. Pehr Fabian Oliver Malkolm
Sex                                               male
Age                          

Testen Sie die predict() Methode mit den Datenobjekten aus dem Testdatensatz. Ermitteln sie hierzu die Korreklassifizierungsrate.

### sklearn


In [673]:
from sklearn.metrics import accuracy_score
y_pred = []
y_true = []

#n = 500  ### how many samples
#samples = df2.sample(n=n, random_state=1)

for index, row in df_test.iterrows():
    if predict(row):
         y_pred.append(1)
    else:
        y_pred.append(0)
    if row["Survived"]:
        y_true.append(1)
    else:
        y_true.append(0)
print("accuracy_score",accuracy_score(y_true, y_pred))

accuracy_score 0.6450381679389313
