# Predikere overlevelse på Titanic

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import seaborn as sns
import pandas as pd

from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix
from sklearn.tree import DecisionTreeClassifier

# Add parent directory to path so we can import from useful_tools
import sys
import os
sys.path.append(os.path.split(os.path.abspath(os.getcwd()))[0])
from useful_tools import ModelTester

# Datasettet finnes allerede i pakken Seaborn
titanic = sns.load_dataset('titanic', dtype={'age': np.float64})

titanic.adult_male = titanic.adult_male.astype(int)
titanic.alone = titanic.alone.astype(int)

# Slett overflødige kolonner
titanic.drop(['sex', 'sibsp', 'parch', 'embarked', 'class', 'who', 'deck', 'embark_town', 'alive', 'age'], axis=1, inplace=True)
    
titanic.head()

Variablene vi sitter igjen med er
- `survived`: Om personen overlevde
- `pclass`: Hvilken klasse personen var passasjer på
- `fare`: Hvor mye billetten kostet
- `adult_male`: Om passasjeren var en voksen mann
- `alone`: Om passasjeren reiste alene

## Deler opp i trening- og testsett

Her er `x_train` og `x_test` DataFrames som inneholder data for alle variablene for henholdsvis trenings- og testsettet.
Tilsvarende for `y_train` og `y_test`, bare for responsen (overlevelse)

In [None]:
# Deler opp i variable og respons
titanic_vars = titanic.drop(['survived'], axis=1)
titanic_response = titanic[['survived']]

# Trening- og testsett
np.random.seed(10)
x_train, x_test, y_train, y_test = train_test_split(titanic_vars, titanic_response, test_size=0.2)

# Finner de datapunktene som overlevde/døde
survived = x_train.loc[y_train.survived == 1]
died = x_train.loc[y_train.survived == 0]

tester = ModelTester(x_test, y_test)

## En liten undersøkelse av treningssettet

In [None]:
sns.countplot(x_train['pclass'], hue=y_train.survived)
plt.legend(labels=['Died', 'Survived'])
plt.show()

Ut ifra dette, ser det ut til at klassen menneskene var passasjerer på, har innvirkning på om de overlevde eller ikke. Særlig når det gjelder tredje klasse. Vi prøver derfor å predikere overlevelse basert på klassen.

In [None]:
relevant_variables = ['pclass']

tree = DecisionTreeClassifier()
tree.fit(x_train[relevant_variables], y_train)

tester.test_classifier(tree, class_names=['Died', 'Survived'], features=relevant_variables)

# Videre undersøkning av datasettet

## Variablene plottet mot overlevelse

In [None]:
ax = sns.countplot(x_train.adult_male, hue=y_train.survived)
ax.set_xticklabels(['Not adult male', 'Adult male'])
l = plt.legend(labels=['Died', 'Survived'])
plt.xlabel('')
plt.show()

In [None]:
ax = sns.countplot(x_train.alone, hue=y_train.survived)
ax.set_xticklabels(['Not alone', 'Alone'])
l = plt.legend(labels=['Died', 'Survived'])
plt.xlabel('')
plt.show()

In [None]:
plt.hist([died.fare, survived.fare], stacked=True, bins=20, label=['Died', 'Survived'])
plt.xlabel('Fare')
plt.legend()
plt.show()

## Noen av variablene plottet mot hverandre

In [None]:
sns.stripplot(x_train.pclass, x_train.fare, jitter=True, alpha=0.7, hue=y_train.survived)
l = plt.legend(labels=['Died', 'Survived'])
plt.show()

In [None]:
men_per_class = x_train.groupby('pclass').adult_male.sum()
non_men_per_class = x_train.groupby('pclass').size() - men_per_class

plt.bar([1,2,3], men_per_class, color='red', align='center')
plt.bar([1,2,3], non_men_per_class, bottom=men_per_class, align='center')
plt.ylabel('Number of people')
plt.xlabel('pclass')
plt.legend(labels=['Adult male', 'Not adult male'])
plt.xticks([1,2,3], ['1st', '2nd', '3rd'])
plt.show()

In [None]:
alone = x_train.groupby('pclass').alone.sum()
not_alone = x_train.groupby('pclass').size() - alone

plt.bar([1,2,3], alone, color='red', align='center')
plt.bar([1,2,3], not_alone, bottom=alone, align='center')
plt.ylabel('Number of people')
plt.xlabel('pclass')
plt.legend(labels=['Alone', 'Not alone'])
plt.xticks([1,2,3], ['1st', '2nd', '3rd'])
plt.show()

In [None]:
ax = sns.countplot(x_train['alone'], hue=x_train['adult_male'])
ax.set_xticklabels(['Not alone', 'Alone'])
plt.xlabel('')
plt.legend(labels=['Not adult male', 'Adult male'])
plt.show()

## Oppgave 1
Tolk kort plottene ovenfor. Er det noen av de andre variablene som ser viktige ut?

Er det noen som ikke ser viktige ut?

## Oppgave 2: Kan vi gjøre det bedre?
Ut ifra oppgave 1 har du forhåpentligvis en anelse om hvilke variabler som er viktige.
Prøv forskjellige kombinasjoner av variablene, og se hvor høy du kan få accuracy.

Variablene velger du ved å skrive de inn i listen `relevant_variables`

In [None]:
# Legg til variable i lista relevant_variables
# Hvor god kan du få accuracy?
relevant_variables = []

tree = DecisionTreeClassifier()
tree.fit(x_train[relevant_variables], y_train)

tester.test_classifier(tree, class_names=['Died', 'Survived'], features=relevant_variables)