## Theorie

### Data
- **Kwalitatief/Categorisch**
    - Nominaal
        - Categorieën
        - Geen volgorde/ranking
    - Ordinaal    
        - Geordende categorieën
        - Wel volgorde/ranking
    - Binear
        - Ja/nee    
- **Kwantitatief/Numeriek**
    - Interval
        - Waarden
        - *Geen* betekenisvol nulpunt -> nulpunt is arbitrair
    - Ratio
        - Waarden
        - *Wel* betekenisvol nulpunt -> nulpunt staat gelijk aan absolute afwezigheid van de gemeten variable
    
-  **Overig**
    - Spatieel
        - Gerelateerd aan plaats
        - Waarden in meer dimensies
    - Temporeel
        - Gerelateerd aan tijd
        - Waarden over de tijd


### Welk sort data?

1. Temperatuur in Celsius - Interval
2. Groepsgrootte - Ratio
3. Gender - Binair / Nominaal
4. Spraak - Temporeel
5. Tentamenresultaat als gezakt/geslaagd - Binair
6. 3D-beelden - Spatieel
7. Tentamenresultaat als onv/vold/goed - Ordinaal
8. Automerk - Nominaal
9. IQ - Interval 
10. Snelheid - Ratio (combinatie van Spatieel & Temporeel)
11. Video’s - Temporeel
12. Aantal sterren bij review - Ordiinaal / Interval
13. Tentamenresultaat als 1-10 - Ordinaal / Interval

#### Data omzetten naar getallen
**Ordinaal:**
'Small', 'Medium', 'Large' -> Indices: 0, 1, 2

` LabelEncoder, OrdinalEncoder `

**Nominaal:**   
'Rood', 'Blauw', 'Groen' -> One-hot-encoding: 001, 010, 100
Rood = 100, Blauw = 010, Groen = 001

` OneHotEncoder, BinaryEncoder`


#### Ontbrekende waarden
Nooit verwijderen!

- Als het een *interval* of *ratio* waarden is, vervang het door het *gemiddelde* (mean).
- Als het een *ordinale* waarden is, dan vervan je het door de *mediaan*.
- En als het een *nominale* waarden is, dan door de *modus*.

##### Supervised vs. Unsupervised
| Supervised    | Unsupervised |
| :--------: | :-------: |
|  Labels en Target | Geen labels   |
| Gebruik van trainingset en testset| Alle data als input gebruiken     |
| Label of target voorspellen | Patroongerkenning/cullusteren    |

##### Feature matrix (X)
De feature matrix bevat alle inputvariabelen of features die worden gebruikt om voorspellingen te doen. Elke rij in de feature matrix vertegenwoordigt één datapunt, en elke kolom vertegenwoordigt een individuele feature. Elke cel in de matrix bevat de waarde van een specifieke feature voor een specifiek datapunt.

##### Target vector (y)
De target vector bevat de uitvoer of het doel dat we proberen te voorspellen met behulp van de machine learning-model. Het is een enkele kolomvector waar elke waarde overeenkomt met het doel voor het overeenkomstige datapunt in de feature matrix.

##### Supervised: Classificatie
Classificatie is een vorm van supervised learning waarbij het doel is om een input aan een van de categorieën of klassen toe te wijzen. Met andere woorden, het model probeert een classificatie te maken of een voorspelling te doen over welke klasse of categorie een bepaalde input behoort tot. De outputvariabele in een classificatieprobleem is discreet en bestaat uit een set van discrete klassen of categorieën.

- K-Nearest Neighbors (KNN)
    - Vergelijkt datapunt met andere datapunten
    - Selecteer `k` datapunten dichtst bij nieuwe datapunt
    - Label nieuwe punt is *gemiddelde* hiervan

##### Supervised: Regressie
Regressie is ook een vorm van supervised learning, maar in plaats van het voorspellen van de klasse of categorie van een input, probeert het model een continu getal te voorspellen. Met andere woorden, regressieproblemen gaan over het voorspellen van een numerieke waarde op basis van de inputvariabelen. De outputvariabele in een regressieprobleem is continu en kan elke numerieke waarde aannemen binnen een bepaald bereik.

##### Lineari regressie
Lineaire regressie wordt gebruikt voor regressieproblemen, waarbij het doel is om een continue outputvariabele te voorspellen op basis van één of meerdere inputvariabelen.
Het model probeert een lineaire relatie te modelleren tussen de inputvariabelen en de outputvariabele, waarbij het probeert de beste lijn te vinden die de geobserveerde data punten het beste past.

##### Logistische regressie
Logistische regressie wordt gebruikt voor classificatieproblemen, waarbij het doel is om een input toe te wijzen aan een van de twee of meer discrete klassen of categorieën.
Het model maakt gebruik van de logistische functie (sigmoid-functie) om de kans te schatten dat een bepaalde input behoort tot een bepaalde klasse.

## Ochtend

Load libraries

In [1]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.linear_model import LinearRegression
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

Load en bekijk data

Met de `head()` functie kan je het *hoofd* van de data laten zien. Automatisch is dit 5 rows, maar je kan zelf de hoeveelheid meegeven als parameter

In [2]:
# Load the CSV file
titanic = pd.read_csv('titanic_data.csv')
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Bekijk de datatypes

`Object` data typen zijn meestal strings.

In [3]:
# Print the datatypes
print(titanic.dtypes)

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


Wat is de minimum, maximum en gemiddelde leeftijd van de passagiers?

Hier pakken we van de dataframe `titanic` de row `Age` om vervolgens met `min()`, `max()` en `mean()` de gewilde waarden uit te rekenen

In [4]:
# Calculate the minimum age
min_age = titanic['Age'].min()

# Calculate maximum age
max_age = titanic['Age'].max()

# Calculate avarage age
avg_age = titanic['Age'].mean()

# Print results
print("Minimum age: ", min_age)
print("Maximum age: ", max_age)
print("Avarage age: ", avg_age)

Minimum age:  0.42
Maximum age:  80.0
Avarage age:  29.69911764705882


Wat is het percentage van mensen die de ramp niet hebben overleefd?

Met de `mean()` methode op de `Survived` kolom krijgen we het percentage van de mensen die het overleefd hebben.

In [5]:
# Calculate percentage of people who survived
percentage_survived = titanic['Survived'].mean() * 100

# Print results
print("Percentage of poeple who survived:", percentage_survived, "%")


Percentage of poeple who survived: 38.38383838383838 %


Wat is de minimum, gemiddelde, en maximum prijs (Fare) in de verschillende klassen (Pclass)?

Eerst bereken ik per prijs klasse de minimun, gemiddelde en maximum prijs. Dit doe ik doormiddel van `groupby` te gebruiken op `Pclass`. Daarna pak ik de `Fare` kolom en bereken ik daar alle waarden van. Uiteindelijk stop ik alles in een nieuwe DataFrame `df_summary` en print ik die.

In [6]:
# Calculate the minimum Fare grouped by Pclass
min_price_pclass = titanic.groupby(by=['Pclass'])['Fare'].min()

# Calculate the avarage Fare grouped by Pclass
avg_price_pclass = titanic.groupby(by=['Pclass'])['Fare'].mean()

# Calculate the maximum Fare grouped by Pclass
max_price_pclass = titanic.groupby(by=['Pclass'])['Fare'].max()

## Create DataFram with the results
df_summary = pd.DataFrame({'Min Fare': min_price_pclass,
                           'Avg Fare': avg_price_pclass,
                           'Max Fare': max_price_pclass})

# Print results
print(df_summary)

        Min Fare   Avg Fare  Max Fare
Pclass                               
1            0.0  84.154687  512.3292
2            0.0  20.662183   73.5000
3            0.0  13.675550   69.5500


Welke data is categorisch?

Alle data die categorisch is, is data met het datatype `Object` en `int64`. In dit geval zijn alle strings nominaal en dus catergorisch. de `int64` datatype zijn booleans(Survived), nomiaal(Id) of ordinaal(Pclass). 

Deze dataypen selecteren we doormiddel van de `select_dtypes` te gebruiken op de dataypen `object` en `int64`

In [7]:
# Select the data with categorical datatype
categorical_data = titanic.select_dtypes(include=['object', 'int64']).columns

# Print result
print(categorical_data)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'SibSp', 'Parch',
       'Ticket', 'Cabin', 'Embarked'],
      dtype='object')


Verijder de kolommen 'Name', 'Cabin' en 'Ticket'

Ik verwijder hier de kolommen met de `drop` methode en daarin selecteer ik `Name`, `Cabin` en `Ticket`. Ik heb hier gebruik gemaakt van `inplace=True` omdat ik de huide DataFrame wilde bijwerken zonder een nieuwe instantie te maken. Aan gezien er normaal en niew DataFrame gemaakt word.

In [8]:
# Delete collumns
titanic.drop(columns=['Name', 'Cabin', 'Ticket'], inplace=True)

# Print new data
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,male,22.0,1,0,7.25,S
1,2,1,1,female,38.0,1,0,71.2833,C
2,3,1,3,female,26.0,0,0,7.925,S
3,4,1,1,female,35.0,1,0,53.1,S
4,5,0,3,male,35.0,0,0,8.05,S


Codeer categorische features met indices (getallen)

Om alle categorische featuers om te zetten in getallen heb ik gebruik gemaakt van de `OrdinalEncoder()`. Eerst maak ik een selectie van features die categorisch zijn in `categorical_features` en daarna pas ik de `OrdinalEncoder()` toe op de `titanic` DataFrame.

Toch zaten er wat NaN's tussen dus die moest ik er ook uit halen. Dit heb ik gedaan door de `fillna()` methode te gebruiken, en dat heb ik gevuld met de `mean()` van `Embarked`. Ik gebruik de mean om te vullen omdat ik de oorspronkelijke verdeling van de gegevens wilde behouden.

In [9]:
from sklearn.preprocessing import OrdinalEncoder

# Initialize ordinal encoder
ordinal_encoder = OrdinalEncoder()

#Categorical features
categorical_features = ['Sex', 'Embarked']

# Apply the OrdinalEncoder on selected categorical features
titanic[categorical_features] = ordinal_encoder.fit_transform(titanic[categorical_features])

# Fill NaN's in Embarked
median_embarked = titanic['Embarked'].mean()
titanic['Embarked'].fillna(value=median_embarked, inplace=True)

# Print results
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Sex,Age,SibSp,Parch,Fare,Embarked
0,1,0,3,1.0,22.0,1,0,7.25,2.0
1,2,1,1,0.0,38.0,1,0,71.2833,0.0
2,3,1,3,0.0,26.0,0,0,7.925,2.0
3,4,1,1,0.0,35.0,1,0,53.1,2.0
4,5,0,3,1.0,35.0,0,0,8.05,2.0


Vervang NaN in "Ages". Bepaal zelf of mediaan of gemiddelde hiervoor het best is.

 Zelf heb ik hier gekozen voor de mediaan, omdat de mediaan niet wordt beinvloed door extreme waarden. De mediaan vertegenwoordigt het middeslte punt van de data ongeacht de aanwezigheid van outliers.

 Als er de dataset weinig tot geen outliers bevast, dan is het misschien beter om het gemiddelde te gebruiken 


In [10]:
# Calculate mediaan age
median_age = titanic['Age'].median()

# replace NaN with avarage age
titanic['Age'].fillna(median_age, inplace=True)

## Middag

Voorspel of passagiers de ramp hebben overleefd of niet. Bereid de data voor om je model te trainen. Wat wordt je target vector en hoe ziet je feature matrix er uit?

Om mee te beginnen heb ik alles features gekozen naast de target, om een zo'n groot mogelijke dataset te geven. Achteraf gezien is het misschien handig om onrelevanten featues weg te laten.

Daarna initialiseer ik de `X` feature matrix en `y` target vector om daar vervolgens mijn train en test data mee te maken.
- `X` is de feature matrix, dat wil zeggen de inputvariabelen waarop het model zal worden getraind.
- `y` is de target vector, dat wil zeggen de outputvariabele die het model probeert te voorspellen.

Dit doe ik door de `train_test_split` methode.
- `test_size=0.2` geeft aan dat 20% van de gegevens worden toegewezen aan de testset en 80% aan de trainingsset. Dit betekent dat de testset 20% van de totale gegevens zal bevatten.
- `random_state=0` is een willekeurige zaadwaarde die wordt gebruikt om ervoor te zorgen dat de gegevens op dezelfde manier worden gesplitst elke keer dat de code wordt uitgevoerd. Dit zorgt voor reproduceerbare resultaten.

- `X_train` en `y_train` bevatten de feature matrix en de target vector van de trainingsset, respectievelijk.

- `X_test` en `y_test` bevatten de feature matrix en de target vector van de testset, respectievelijk.

In [11]:
# Select the features and target
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare', 'Embarked']
target = 'Survived'

# Initialize feature matix and target vector
X = titanic[features].values
y = titanic[target].values

# Split data for training and testing purposes
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2 ,random_state=0)

Train en test KNN classifier

Eerst initialiseer ik `knn` met `KNeighborsClassifier()` met `n_neighbors=6`. Dit creëert een KNN-classificatie model waarbij het aantal buren is ingesteld op 6. dit getekend dat bij het maken van een voorspelling, het model rekening houdt met de labels van de 6 dichtsbijzijnde buren.

Daarna train ik het model met `fit()` methode met de gemaakte training sets.

Om een voorspelling te maken gebruik ik `predict()` op de testset `X_tests`

Daarna bereken ik de nauwkeurigheid van de voorspellingen door het te vergelijken met `y_tests`. En vervolgens print ik dat uit.

In [12]:
# Initialize KNN model
knn = KNeighborsClassifier(n_neighbors=6)

# Train the model
knn.fit(X_train, y_train)

# Predict on testset
y_pred = knn.predict(X_test)
knn_score = accuracy_score(y_test, y_pred)

# Print results
print("KNN Model predictions:", knn_score * 100)

KNN Model predictions: 74.30167597765363


Train en test regressie classifier. Kies je lineair of logistisch?

Ik heb hier gekozen voor een Logistische regressie omdat het vooral wordt gebruikt voor classificatieproblemen waarbij het doel is om een input toe te wijzen aan een van de discrete klassen of categorieën. Logistische regressie is geschikt voor binair classificatieproblemen waarbij de uitvoer twee klassen heeft.

Dit werk hetzelfde als hierboven

Welk model geeft het beste resultaat?

- KNN: 74.301%
- LR:  79.888%

In mijn geval werkt het Logistische regressie model beter dan het KNN model. LR is zo'n ±5% meer accuraat dan KNN

Extra: Kan je het resultaat verbeteren?

Je kan het resultaat verbeteren door bij KNN bijvoorbeeld de neighbors aan te passen. Met meer of minder neightbors kan je een betere of slechtere voorspelling maken. `

Ook zou je minder features mee kunnen geven zoals eerder verteld. 

Een andere seed kan ook effect hebben, hoewel je dan meer data aan het manipuleren bent dan accuraat voorspellingen aan het maken bent.

In [13]:
# Select the features and target
features = ['Pclass', 'Sex', 'Age', 'SibSp', 'Fare']
target = 'Survived'

# Initialize feature matix and target vector
X = titanic[features].values
y = titanic[target].values

# Split data for training and testing purposes
X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2 ,random_state=0)

In [14]:
# Initialize KNN model
knn = KNeighborsClassifier(n_neighbors=7)

# Train the model
knn.fit(X_train, y_train)

# Predict on testset
y_pred = knn.predict(X_test)
knn_score = accuracy_score(y_test, y_pred)

# Print results
print("KNN Model predictions:", knn_score * 100)

KNN Model predictions: 77.09497206703911


In [15]:
# Initialize linear regression model
lr = LogisticRegression(max_iter=3000)

# Train the model
lr.fit(X, y)

# Predict on testset
y_pred = lr.predict(X_test)
lr_score = accuracy_score(y_test, y_pred)

# Print results
print("LR Model predictions:", lr_score * 100)

LR Model predictions: 80.44692737430168


In de nieuwe iteraties van het KNN en LR model heb ik een paar procent accuratie erbij gekregen. 

Door Feature Engineering heb ik een paar feutures weg gelaten, waardoor de modellen meer accuraat hun voorspellingen kunnen doen. Bijde modellen zijn hierme zo'n ±1% mee omhoog gegaan.
- KNN: 75.418%
- LR: 80.446%

Voor het KNN model heb ik ook nog naar de neighbors gekeken, hierbij was `n_neighbors=7` de beste parameter. Hiermee is de accuratie met nog ±2% omhoog gegeaan!
- KNN: 77.094%

Helaas ben ik niet verder gekomen dat dit. Als je aan de verdeling zit van training en test data, dan wordt de accuratie alleen maar slechter. Ook heeft `max_iter` ook geen impact op de accuratie.
