# Gestructureerde data

In deze notebook gaan we het klassieke Titanic classificatieprobleem oplossen.
In het eerste deel gaan we dit met pytorch doen, in het tweede deel met keras en tensorflow.

Hierbij worden de volgende stappen uitgevoerd:
- Data inladen
- Data Modelling
- Model evaluation

De dataset die we hierbij gebruiken kan als volgt gedownload worden:

In [None]:
# Importing the necessary libraries
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler, LabelEncoder
from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay

# Define URL to load the Titanic dataset
url = "https://storage.googleapis.com/tf-datasets/titanic/train.csv"

# Load the dataset into a Pandas DataFrame
df_orig = pd.read_csv(url)

# Display the first few rows of the dataset
df_orig.head()


Deze data kan dan als volgt gepreprocessed worden

In [None]:
df = df_orig.copy()

# Handle missing data: Fill missing values with the median (for numerical data) or mode (for categorical data)
age_mean = df['age'].median()
df['age'].fillna(age_mean, inplace=True)
df['embark_town'].fillna("unknown", inplace=True)

# Encode categorical variables
df['sex'] = LabelEncoder().fit_transform(df['sex'])
df['class'] = LabelEncoder().fit_transform(df['class'])
df['embark_town'] = LabelEncoder().fit_transform(df['embark_town'])
df['alone'] = LabelEncoder().fit_transform(df['alone'])
df = pd.concat([df, pd.get_dummies(df['deck'], dtype=int)],axis=1)
df = df.drop('deck', axis=1)

# Split features and target
X = df.drop(columns=['survived'])
y = df['survived']

# Split the dataset into training and testing sets
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Normalize the features using StandardScaler
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

## Modelling met pytorch

In [None]:
import torch
import torch.nn as nn
import torch.optim as optim
from torch.utils.data import DataLoader, TensorDataset

device = torch.device('cpu')


Hieronder staat de code om een visuele weergave van het model te bekomen

In [None]:
import torch
from torchviz import make_dot

In [None]:
from torchsummary import summary


## Tensorflow implementation

In [None]:
import tensorflow as tf
from keras import layers, models, callbacks

In [None]:
# teken de graaf van dit preprocessing model

In [None]:
# print de samenvatting van dit preprocessing model

## Tensorflow met preprocessing in het netwerk

Hierboven werd het preprocessing gedeelte nog gedaan met sci-kit learn.
Het kan beter zijn voor productie om de (sommige) preprocessing mee te betrekken in het neuraal netwerk.
Dit om te voorkomen dat je alle preprocessingstappen moet beschikbaar maken voor developers die het op dezelfde manier moeten implementeren.
Hierdoor kan je soms data vrijgeven (zoals gemiddelden voor scalers, woordenboeken voor categorieke data, ...) wat niet gewenst is.

In [None]:
import pandas as pd
import tensorflow as tf
from tensorflow.keras.layers import Normalization, StringLookup, CategoryEncoding, Dense, Concatenate
from tensorflow.keras.models import Model
from tensorflow.keras import Input

# Split into features and labels
target = "survived"
features = df_orig.copy()
labels = features.pop(target)

# Identify categorical and numerical columns
categorical_columns = ['sex', 'class', 'deck', 'embark_town', 'alone']
numerical_columns = ['age', 'n_siblings_spouses', 'parch', 'fare']

In [None]:
# teken de graaf van dit preprocessing model

In [None]:
# zelfde maar met minder lagen

In [None]:
# teken de graaf van dit preprocessing model