# Discriminant analyse

*Discriminant analyse zal worden verwezen door DA*

## Inleidende begrippen

### Univariate statistiek
- Statische techniek waar 1 variabele voor nodig is

### Bivariate statistiek
- Statische techniek waar 2 variabelen voor nodig zijn

- vb. Regressie analyse waarbij 2 variabelen nodig zijn om een onafhankelijke variabele (x) en een afhankelijke variabele (y) te voorspellen.

### Multivariate statistiek
- Statische techniek waar 3 of meer variabelen voor nodig zijn
- vb. Cluster analyse
    - Wanneer elk element een punt is in drie of meer dimensionale ruimte.

### Wederzijds uitsluitende deelgroepen
- Deelgroepen die niet overlappen
- vb. Mannen en vrouwen

## Wat is DA?

- DA behoort tot de **multivariate statistiek**

bv. Een bank moet beslissen of een klant een lening krijgt of niet.
- De klant wordt in 1 van 2 groepen gedeeld:
    - Kredietwaardige klanten
    - Niet-kredietwaardige klanten

De bank heeft in het verleden al leningen gegeven en heeft gegevens over de klanten die de lening hebben terugbetaald en de klanten die de lening niet hebben terugbetaald.
Stel dat deze databank 3 discriminanten (criteria) bevat die het duidelijkste aangeven of de klant waardig is of niet.
- Stabiliteit
- finianciële draagkracht
- leeftijd
Aan de hand van deze data in de databank en de waardes van de klant kan de bank beslissen of deze waardig is of niet.

## Afhankelijke en onafhankelijke variabelen
- De afhankelijke variabele is de categorie.
    *In het vorig voorbeeld, kredietwaardig of niet.* 
- De onafhankelijke variabelen zijn de gegevens die worden gebruikt om tot de categorie te komen.
    *In het vorig voorbeeld, stabiliteit, financiële draagkracht en leeftijd.*
- De afhankelijke variabele is minstens op een nominaal schaalniveau.
- De onafhankelijke variabelen zijn continue variabelen op minstens interval schaalniveau.

<center><img src="rsc/img/de-vier-meetniveaus-scribbr-1423x732-1.png" width="1000"></center>

## Karakteristieken
DA kan voor 2 verschillende doeleinden worden gebruikt:
- Om verschillen te bepalen tussen verschillende -wederzijds uitsluitende- groepen, weergeven door de afhankelijke variabele, door patronen te vinden in de onafhankelijke variabelen. Dit wordt ook wel aangeduid als **Descriptive (beschrijvende) DA**
- om te bepalen tot welke groep een nieuwe waarneming behoort. Dit wordt ook wel aangeduid als **Predictive (voorspellende) DA**

Het doel van DA is om de relatieve belangrijkheid van kenmerken/eigenschappen van elkaar te onderscheiden, te bepalen of te beschrijven.

**De onafhankelijke variabelen worden de discriminanten (criteria) genoemd.**
Het resultaat van de **descriptive DA** is een **discriminantfunctie**. Hierbij wordt de waarde voor elk van de discriminanten vermenigvuldigt met een gewicht en opgeteld.
Men kan de de discriminantfunctie toepassen op een waarneming. Neem enkel de waardes van de waarneming die overeenstemt met de discriminanten en vermenigvuldig deze met de overeenkomende gewichten.
**De som hiervan geeft de discriminantfunctiescore weer voor de waarneming.**
Deze discriminant functie wordt ook gebruikt om de **predictive DA** uit te voeren.

## Veronderstellingen

Om een DA te kunnen uitvoeren worden een aantal veronderstellingen gemaakt:
1. Er is **geen afhankelijkheid** tussen de onafhankelijke variabelen.
2. Tussen elk paar van onafhankelijke variabelen is er **lineariteit**.
3. Er is geen **co-lineariteit** tussen de onafhankelijke variabelen.
4. Multivariate **normaliteit**.
5. **Homogeniteit** van de variantie-covariantie matrixen.

## Python

```python
from sklearn.discriminant_analysis import LinearDiscriminantAnalysis
lda = LinearDiscriminantAnalysis()
lda.fit(X,y)
```
- X = de onafhankelijke variabele
- y = de afhankelijke variabele

Voor de uitwerking gebruiken we de dataset ``biopsy.csv``
Waarbij:
- ID: sample code number (not unique)
- V1: clump thickness
- V2: uniformity of cell size
- V3: uniformity of cell shape
- V4: marginal adhesion
- V5: single epithelial cell size
- V6: bare nuclei
- V7: bland chromatin
- V8: normal nucleoli
- V9: mitoses
- class: begign (goedaardig) or malignant (kwaadaardig)

In [1]:
import os

os.chdir(r"C:\Users\zouff\PycharmProjects\Y2\Datascience2\data_aux")
import pandas as pd
from IPython import InteractiveShell

InteractiveShell.ast_node_interactivity = "all"

#Inlezen van gegevens
biopsy = pd.read_csv('biopsy.csv', sep=";")
biopsy.head(8)

De eerste kolom, ID, kunnen we niet gebruiken omdat dezelfde patiënten meerdere keren voorkomen.
We gaan op deze data de DA uitvoeren. We gaan enkel de eerste 3 waardes gebruiken (V1, V2, V3)


In [2]:
X = biopsy[['V1', 'V2', 'V3']]
X
y = biopsy['class']
y

In [3]:
from functions.functions_Y2.lda import *

lda = LinearDiscriminantAnalysis()
lda.fit(X, y)

dfs1, dfs2, dfs3 = lda_info(lda, X)

dfs1
dfs2
dfs3

### Uitleg
- **Prior probabilities of groups**: berekent de kans dat een waarneming **apriori** in 1 van de 2 klassen valt. Het gaat dus over de waargenomen relatieve frequentie van de twee klassen in de steekproef. Het blijkt dat 'benign' al 65.5% keer voorkomt in de biopsie
- **Group means**: Geeft het gemiddelde van elke onafhankelijke variabelen weer per categorie. Deze gemiddelde worden bij de berekingen gebruikt om de discriminantfuncties te berekenen.
- **Coefficients of linear discriminants**: Geeft de coëfficiënten van de lineaire discriminant functie(s). Deze coëfficiënten worden gebruikt elke originele instantie te **transformeren** naar de oorspronkelijke 3 dimensies (V1, V2, V3) naar 1 dimensie *$(LD_1)$*. In het **algemene geval** is het aantal *$(N)$* discriminant functies *$(LD_i)$* gelijk aan:
$$N = min(\#onafhankelijke variabelen, \#afhankelijke waarden -1)$$
- Op ons voorbeeld is dit: $N = min(3, 2-1) = 1$

### Met gebruik van de transform functie kunnen we de dataset van 3 dimensies omzetten naar 1 dimensie.

In [4]:
# map de onafhankelijke variabelen met de discriminantfuncties LDi uit het LDA-model naar hun discriminantwaarden
LD = lda.transform(X)

#combineer met de oorspronkelijke afhankelijke variabele
LD = pd.DataFrame(zip(LD[:, 0], biopsy['class']), columns=['LD1', 'Target'], index=biopsy.index)

LD

#OF

LD = ld1(lda, X, target=biopsy['class'], index=biopsy.index)

LD

#Combineren van de originele DF met de LD1 waardes
combinatie = biopsy[['V1', 'V2', 'V3']].join(LD)

combinatie

### Visualiseren LD1-waarden

De inspecite van de LD1-waarden laat zien dat 'benign'-instanties over het algemeen een lagere LD1-waarde hebben
<br>
Met volgende functie kunnen we de DA visualiseren:

In [5]:
vis_da(LD)

#### Voorspellingen maken
Om voor bestaande observaties na te gaan in welke klasse ze terecht komen kan gebruik gemaakt worden van:

In [6]:
overview = pd.DataFrame(lda.predict_proba(X), columns=["P(benign)", "P(malignant)"]).join(
    pd.DataFrame(lda.predict(X), columns=["prediction"])).join(biopsy['class'])
overview

Voor bestaande observaties kunnen we volgende functie gebruiken:

In [7]:
waarneming = pd.DataFrame([[4.41774, 3.134478, 3.207439]], columns=['V1', 'V2', 'V3'])

Chances, Predictions = pred_da(lda, waarneming)

waarneming

print(f'Kansen: {Chances}')
print(f'Voorspelling: {Predictions}')

In [8]:
confusionMatrix, accuracy, precision, recall, f1 = evaluate_da(overview, "class")
confusionMatrix
accuracy
precision
recall
f1