## Preživetje na Titaniku
Spletna stran [Kaggle](www.kaggle.com) je spletna platforma namenjena tekmovanjem v analatiki in prediktivnem modeliranju. Je zelo uporabno spletno mesto za pridobivanje izkušenj in učenje strojnega učenja. Kaggle ima zelo prijazno skupnost, ki je vedno pripravljena pomagati in ponuja tudi ogromno različnih naborov podatkov za vse osnovne modele strojnega učenja.  
Eden izmed začetnih naborov podatkov je seznam potnikov Titanika. Ta se uporablja za modeliranje preživetja posameznikov na ladji. Na podlagi osnovnih lastnosti, starost, spol, št. karte in lokacija vkrcanja (ki kažeta na družben razred posameznika) ipd. želimo napovedati ali bo posameznik preživel potopitev Titanika ali ne.  

V tem osnovnem primeru bom izdelal preprosto nevronsko mrežo, sestavljano iz petih polno-povezanih slojev in enega osipnega sloja, ki ima po 15 minutah treniranja na podatkih ~77% natančnost na validacijskem naboru.

### Uvoz knjižnic, ki jih potrebujemo
**pandas** - nam olajša delo s pripravo podatkov, npr. vsavljanje manjkajočih vrednosti, vektorizacijo določenih diskretnih lastnosti (spol (m,ž) -> (0,1)) ipd.  
**numpy** - osnovna knjižnica za delo s števili, vektorji, nizi, ipd.  
**os** - knjižnica za delo s operacijskim sistemom, uporabimo jo le za ustvrajanje direktorjiev za shranjevanje modela  
**keras** - visoko nivojski API za strojno učenje, v ozadju lahko uporablja theano ali tensorflow. Kot del knjižnice keras uvozimo tudi posamezne plasti (Dense, Dropout), tip modela (Sequential), funkcijo za nalaganje modela (model_from_json) in orodje TensorBoard, ki nam omogoča vizualizacijo in nadzor nad učenjem

In [1]:
import pandas as pd
import numpy as np
import os

import keras
from keras.layers import Dense, Dropout
from keras.models import Sequential
from keras.callbacks import TensorBoard
from keras.models import model_from_json

### Predprocesiranje podatkov
V prvem delu kode definiramo funkcije:  
- parse_data: dopolni manjkajoče podatke v naboru in spremeni diskretne podatke v njihovo vektorsko reprezentacija.
- split_data: razdeli nabor podatkov v učni in validacijski nabor, za razmerje uporabi pridobljeno vrednost (prevzeto je razmerje: učni nabor (70%) : validacijski nabor (30%)
- to_one_hot: funkcija pretvori označbe (y) iz oblike (št. vrstic, 1) v (št. vrstic, 2) kjer je prvotni razred vrstice (0 ali 1) zapisan z "one_hot" vektorjem, to je ničelni vektor velikosti št. razredov, ki ima samo eno vrednost enako 1, tisto, katere indeks (ključ) je enak razredu v katerega spada.  Primer: [2] -> [0 0 1]

In [2]:
def parse_data(raw_data, training):
    """

    Argumenta funkcije:
    raw_data ... podatkovna struktura, ki vsebuje (vsaj) stolpce: Age, Embarked, Fare, in Sex, 
                 če je učni nabor podatkov, mora vsebovati tudi stolpec Survived
    training ... True ali False. True, če je raw_data je učni nabor podatkov, sicer False.

    """
    d = raw_data
    d['Age'] = d['Age'].fillna(d['Age'] .median())
    d['Embarked'] = d['Embarked'].fillna('S')
    d['Fare'] = d['Fare'].fillna(d['Fare'].median())

    d.loc[d['Sex'] == 'male', 'Sex'] = 0
    d.loc[d['Sex'] == 'female', 'Sex'] = 1

    d.loc[d['Embarked'] == 'S', 'Embarked'] = 0
    d.loc[d['Embarked'] == 'C', 'Embarked'] = 1
    d.loc[d['Embarked'] == 'Q', 'Embarked'] = 2

    x = np.array(d.loc[:,['Pclass','Sex','Age','SibSp','Parch','Fare','Embarked']],
                    dtype=float)

    if training:
        labels = np.array(d.loc[:,['Survived']], dtype=int)
        return x, labels.flatten()

    return x

In [4]:
def split_data(input_data, labels, val_per=0.3):
    """
    Argumenti funkcije:
    input_data ... vhodni podatki, ki predstavljajo tudi vhodne podatke za model.
    labels ... oznake, ki predstavljajo izhodne podatke modela, resnične vrednosti.
    val_per ... float iz intervala [0,1], ki predstavlja delež validacijskega dela nabora podatkov.

    """
    if val_per < 0 or val_per > 1:
        print('The argument validation percentage "val_per" must be a float from the interval (0,1).')
    else:
        split_index = int(len(input_data) * (1 - val_per))
                          
        x_train = input_data[: split_index]
        y_train = labels[: split_index]
        x_val = input_data[split_index :]
        y_val = labels[split_index :]
        return (x_train, y_train), (x_val, y_val)

In [6]:
def to_one_hot(data):
    """
    Preoblikuje vektor oblike (št. vrstic, 1) z vrednostmi 0 in 1, ki predstavljajo razred vrstice. V 
    vektor oblike (št. vrstic, 2), kjer vsaka vrstica predstavlja "one_hot" vektor.
    Primer:
    [0,   ->   [[1, 0],
    1]          [0, 1]]
    """
    temp = np.zeros((len(data), 2))
    
    temp[np.arange(len(data)), data] = 1
    
    return temp

Preberemo podatke iz datoteke (../datasets/titanic/train.csv).  
Uporabimo zgoraj napisane funkcije in podatke pripravimo za nadaljnje delo.  
Preverimo oblike pridobljenih vektorjev, ki jih bomo uporabili pri učenju modela.

In [7]:
data_dir = '../.datasets/titanic/'

data = pd.read_csv('%strain.csv' %data_dir)
x, y = parse_data(data, True)

(x_train, y_train), (x_val, y_val) = split_data(x, y)

y_train = to_one_hot(y_train)
y_val = to_one_hot(y_val)

print(x_train.shape, y_train.shape, x_val.shape, y_val.shape)

(623, 7) (623, 2) (268, 7) (268, 2)


### Definicija modela
S pomočjo knjižnice Keras definirajmo model, ki ga želimo uporabiti za napovedovanje preživelih potnikov Titanika.  
Uporabimo Sequential, kot tip modela. To pomeni, da se bo celoten model izvajal linearno po vrsti, na osnovi 
zaporedja dodanih slojev.  
V našem primeru želimo naslednje zaporedje:
- polno-povezan sloj s 50 nevroni, z aktivacijsko funkcijo identiteta
- polno-povezan sloj s 300 nevroni in aktivacijsko funkcijo sigmoid
- polno-povezan sloj s 300 nevroni in aktivacijsko funkcijo softmax
- osipni sloj, z verjetnostjo p = 0.8, da bo neuron upoštevan
- polno-povezan sloj s 10 nevroni in aktivacijsko funkcijo sigmoid
- polno-povezan sloj s 2 nevroni in aktivacijsko funkcijo softmax

Model kot vhodni podatek prejme vektor x_train oblike (Št. vrstic, 7).  
Kot primerijalni podatek pa y_train oblike (Št. vrstic, 2).


In [9]:
model = Sequential()

model.add(Dense(50, input_shape=(7,)))
model.add(Dense(300, activation='sigmoid'))
model.add(Dense(300, activation='softmax'))
model.add(Dropout(0.5))
model.add(Dense(10, activation='sigmoid'))
model.add(Dense(2, activation='softmax'))

Using TensorFlow backend.


### Shranjevanje in nalaganje modela
Spodaj definiramo še dve funkciji, load_model in save_model, ki poskrbita za nalaganje že naučenega modela iz nekega direktorija in za shranjevanje naučenega modela v nek direktorij. Seveda se funkciji ne izvedeta, če ni nič za naložit ali shranit.

In [10]:
def load_model(model, model_dir='model/'):
    try:
        f = open(model_dir + 'model', 'r')
        json_string = f.read()

        model = model_from_json(json_string)
        model.load_weights(model_dir + 'weights')
        print('Model loaded!')
        return model

    except FileNotFoundError:
        print('Could not load model!')
        return model

def save_model(model, model_dir='model/'):
    json_string = model.to_json()
    
    if not os.path.exists(model_dir):
        os.makedirs(model_dir)
    
    f = open(model_dir + 'model', 'w+')
    f.write(json_string)
    f.close()

    model.save_weights(model_dir + 'weights')
    print("Model saved!")

### Učenje modela
Spodaj model pripravimo t.p., da s pomočjo funkcijo compile nastavimo:
- kriterijsko funkcijo, v tem primeru [categorical_crossentropy](https://keras.io/losses/#categorical_crossentropy),  
- optimizator, v tem primeru [Adam](https://keras.io/optimizers/#adam),  
- metriko za nadzorovanje učenja, v tem primeru natančnost.

Nato uporabimo funkcijo fit, da začnemo s učenjem modela. Ta funkcija prejme kot argumente:
- nabor učnih podatkov x_train,
- vektor oznak učnih podatkov y_train,
- velikost posamezne serije,
- število epik (epochs=20000),
- natančnost sprotnega izpisa (verbose=0),
- validacijski nabor podatkov (x_val, y_val),
- množico klicev (callbacks), v tem primeru le Tensorboard, ki je orodje specifično za Tensorflow in odlično za spremljanje učenja. (Za uporabo v konzolo vnesi ukaz: _Tensorboard --logdir 'log'_)

In [11]:
model = load_model(model)

model.compile(loss="categorical_crossentropy",
              optimizer="Adam",
              metrics=['accuracy'])

model.fit(x_train,
          y_train, 
          batch_size=128,
          epochs=20000,
          verbose=0,
          validation_data=(x_val, y_val),
          callbacks=[TensorBoard(log_dir='log/',
                                 histogram_freq=10, 
                                 write_graph=True)]
         )

save_model(model)

Model loaded!
INFO:tensorflow:Summary name dense_1_1/kernel:0 is illegal; using dense_1_1/kernel_0 instead.
INFO:tensorflow:Summary name dense_1_1/bias:0 is illegal; using dense_1_1/bias_0 instead.
INFO:tensorflow:Summary name dense_2_1/kernel:0 is illegal; using dense_2_1/kernel_0 instead.
INFO:tensorflow:Summary name dense_2_1/bias:0 is illegal; using dense_2_1/bias_0 instead.
INFO:tensorflow:Summary name dense_3_1/kernel:0 is illegal; using dense_3_1/kernel_0 instead.
INFO:tensorflow:Summary name dense_3_1/bias:0 is illegal; using dense_3_1/bias_0 instead.
INFO:tensorflow:Summary name dense_4_1/kernel:0 is illegal; using dense_4_1/kernel_0 instead.
INFO:tensorflow:Summary name dense_4_1/bias:0 is illegal; using dense_4_1/bias_0 instead.
INFO:tensorflow:Summary name dense_5_1/kernel:0 is illegal; using dense_5_1/kernel_0 instead.
INFO:tensorflow:Summary name dense_5_1/bias:0 is illegal; using dense_5_1/bias_0 instead.
Model saved!


### Evalvacija modela in napoved na testnem naboru podatkov
Ko imamo model naučen lahko s pomočjo funkcije evaluate model ocenimo na poljubnem naboru podatkov. 
V spodnjem primeru je to kar validacijski nabor. Imamo le dve metriki, izgubo ali vrednost kriterijske funkcije in 
natančnost.

Ker so ti podatki tudi del osnovnega tekmovanja na spletni platformni [Kaggle](https://www.kaggle.com/c/titanic), 
lahko s pomočjo našega modela izračunamo napoved za testni nabor podatkov. Koda za to, je tudi v zadnjem 
podoknu te beležnice. Pridobljena napoved se shrani v datoteko _predictions.csv_ v osnovni direktorij.  
Ta napoved je v mojem testiranju dosegla 72% natančnost. To bi se dalo izboljšati z daljšim treniranjem, 
popravki v modelu, ipd. odvisna je tudi od osipnega sloja, ki je odvisen od naključnega generiranja števil.

In [39]:
model.evaluate(x_val, y_val)

 32/268 [==>...........................] - ETA: 0s

[1.1819829647220783, 0.76119403074036784]

In [40]:
data_dir = '../datasets/titanic/'
data = pd.read_csv('%stest.csv' %data_dir)
print(data.shape)
x_test = parse_data(data, False)
print(x_test.shape)
predictions = np.argmax(model.predict(x_test), axis=1)
print(predictions.shape)
output = np.dstack((np.arange(892, predictions.size + 892),predictions))[0]

output = output.astype('int32')

np.savetxt('predictions.csv', 
           output,
           fmt='%d',
           header='PassengerId,Survived', 
           delimiter=',', 
           comments="")


(418, 11)
(418, 7)
(418,)
