# Analiza slikovnih biomarkerjev

## Klinični kontekst: ocena tveganja rupture  možganske anevrizme

Intrakranialne anevrizme, ki se pojavljajo v 3,2% svetovne populacije (1 na 30 ljudi) se razvijejo po 40. letu starosti. Med bolniki z diagnosticirano anevrizmo je med 10% in 15% takih, ki imajo dve anevrizmi. Večina anevrizem je majhnih, z diametrom od 3 do 20 mm, med 50% do 80% anevrizem pa nikoli ne rupturira. 

Večje anevrizme (višina kupole $\gt$ 7 mm) se splača zdraviti s kirurškim posegom, in to čim prej, medtem ko za male anevrizme (višina kupole $\gt$ 5 mm) velja, da je tveganje rupture bistveno nižje kot tveganje medoperativnih zapletov. Pri manjših anevrizmah je tveganja rupture majhno, vendar pa je to tveganje bistveno povečano v primeru, da anevrizma raste ([Slika 1](#fig_growth). Zato sta tako zgodnje odkrivanje kot sledenje razvoju majhnih anevrizem zelo pomembna za določanje optimalnega zdravljenja. Na podlagi morfološke analize anevrizem iz CTA (tudi 3D-DSA in MRA) slik lahko razvijemo slikovne prognostične in nadomestne biomarkerje ter pripadajoče klinične smernice za zaznavo in ukrepanje ob potencialno usodnem razraščanju anevrizme.

Pri vaji bomo obravnavali slikovne biomarkerje intrakranialnih anevrizem in njihovo vrednost za napovedovanje in spremljanje rasti anevrizme.

<a id='fig_growth'></a>
### Slika 1: Ocenjevanje tveganja rupture možganske anevrizme
<img src="images/AMS_7_SLO_Anevrizme.png" alt="Ocenjevanje tveganja rupture možganske anevrizme" align="left" style="float;width: 800px;"/>

Površina anevrizme izluščena iz osnovne (*zgoraj*) in sledeče (*spodaj*) CTA preiskave. Puščice označujejo področje rasti, ki predstavlja visoko tveganje za pogosto usodno rupturno anevrizme.

## Navodila

Medicinske slikovne tehnike z digitalizacijo postajajo vedno bolj kritično orodje za zgodnjo diagnozo, spremljanje bolezni in odziva na zdravljenje. Omogočajo boljše razumevanje bioloških osnov bolezni, ki skupaj z novimi tehnikami analize teh slik spodbuja tudi uporabo novih parametrov bolezni. 

Takoimenovani **slikovni biomarker** kodira neko lastnost opazovane anatomije, ki jo lahko objektivno izmerimo na podlagi slik, njegova vrednost pa odraža biološko, funkcionalno ali strukturno organizacijo te anatomije. Ločimo:
  - napovedni biomarker (*ang. prognostic biomarker*), ki lahko napove potek bolezni in je neodvisen od terapije, 
  - pokazalnik zdravljenja (*ang. treatment effect modifier*), ki lahko napove uspešnost terapije, 
  - nadomestni biomarker (*ang. surrogate biomarker*), ki napove potek bolezni glede na izbrano terapijo. 

Razvoj biomarkerjev zahteva multidisciplinarno sodelovanje, saj so potrebna tako znanja biologije, medicine in klinične prakse, tehnična in metodološka znanja, znanja statistike ter končne inovacije in integracije v kliničnem okolju. Proces razvoja biomarkerjev je prikazan na [Sliki 2](#fig_biomarker_dev).

<a id='fig_biomarker_dev'></a>
### Slika 2: Proces razvoja biomarkerjev
<img src="images/AMS_7_SLO_RazvojBiomarkerjev.png" alt="Proces razvoja biomarkerjev" align="left" style="float;width: 800px;"/>

Pomemben del razvoja slikovnih biomarkerjev predstavlja njihovo vrednotenje, in sicer vrednotenje natančnosti, točnosti, ponovljivost, reprodukcije, itd. V ta namen potrebujemo tudi natančno in zanesljivo referenčno informacijo ali *zlati standard*, ki je pridobljen na relevantni zbirki slik. Slike za vrednotenje naj bodo zajete tako, da čim bolje odražajo situacijo v klinični praksi. 

Pri vrednotenju biomarkerjev si pomagamo z vizualnimi orodji: 
  - **škatelnimi diagrami** za vizualizacijo porazdelitev vrednosti biomarkerjev, npr. med preiskovalno in kontrolno skupino bolnikov ([Slika 3a](#fig_analysis)), 
  - **ROC krivuljami** (*ang. Receiver Operatic Characteristic*) za prikaz kakovosti razvrščanja z biomarkerjem ([Slika 3b](#fig_analysis))
  - **Bland&ndash;Altman diagrami** za vrednotenje ponovljivosti in reproducibilnost ([Slika 3c](#fig_analysis)).
  
Računska orodja vključujejo statistične teste (t-test, parni t-test, Wilcoxon rank-sum in signed-rank test, itd.) in mere učinkovitosti modelov, kot naprimer AUC (*ang. area under ROC curve*). S temi orodji dokazujemo dejansko delovanje in učinkovitost biomarkerjev, ki dajo odgovor na pomembno klinično vprašanje.

<a id='fig_analysis'></a>
### Slika 3: Vizualna orodja za vrednotenje biomarkerjev

<table style="width:100%" bgcolor="#FFFFFF" align="center">
  <tr>
    <th><img src="images/AMS_7_ENG_boxplot.png" alt="Škatelni diagram" style="float;left;width: 400px;"/></th>
    <th><img src="images/AMS_7_ENG_roc.png" alt="ROC krivulja" style="float;left;width: 400px;"/></th>            
  </tr>
  <tr>
    <td style="text-align:center">(a)</td>
    <td style="text-align:center">(b)</td>    
  </tr>
  <tr>  
    <th><img src="images/AMS_7_ENG_bland-altman.png" alt="Bland-Altman diagram" style="float;left;width: 400px;"/></th>            
  </tr>
  <tr>
    <td style="text-align:center">(c)</td>
    <td style="text-align:center"></td>    
  </tr>
</table>

### Gradivo

Gradivo za vajo vsebuje datoteko `data.p` s kvantitativnimi meritvami možganskih anevrizem za 20 bolnikov. Vsak bolnik ima dve CTA preiskavi, iz vsake pa je bilo z ročnim in avtomatskim postopkom izluščenih šest morfoloških meritev anevrizme ($AD$, $H_{max}$, $AR$, $V$, $AVSV$, $AASA$). Nevroradiolog je na podlagi analize CTA slik izdelal zlati standard tako, da je za vsako anevrizmo opredelil stanje *ne raste*/*raste* z ustrezno binarno spremenljivko 0/1.

Datoteko `data.p` lahko enostavno naložite v Python z uporabo knjižnice `pickle` z ukazom `load()`, pri čemer boste dobili spremenljivko tipa `dict`, ki je vsebuje na prvem nivoju tri ključe `biomarkers`+, `manual`+ in `auto`, ki podajajo vrstni red in oznake meritev, ročne in avtomatske meritve. Meritve so podane za vsakega bolnika v obliki spremenljike tipa `dict`, ki vsebuje štiri ključe `bvals`, `fvals`, `grow` in `dyears`, kjer prva dva ključa vsebujeta meritve prve in sledeče preiskave, tretji binarno vrednost ali anevrizma raste in četrti razliko med preiskavama v letih. Struktura datoteke prikazana v obliki drevesne strukture:

<a id='fig_struktura_pickle'></a>
### Slika 4: Struktura podatkov v datoteki `pickle`
<img src="images/AMS_7_SLO_struktura_pickle.png" alt="Struktura podatkov v datoteki pickle" align="left" style="float;width: 700px;"/>

### Python moduli in knjižnice

In [None]:
import os
import shutil
import numpy as np
import SimpleITK as itk
from scipy.ndimage import convolve

from os.path import join

import matplotlib.pyplot as plt
import numpy as np
import pickle

import pylab 
import scipy.stats as stats
from scipy.stats import ttest_rel, ttest_ind, wilcoxon, mannwhitneyu, shapiro
from datetime import datetime as dt
from sklearn.metrics import roc_curve, auc

Nalaganje podatkov:

In [None]:
data = pickle.load(open('data/data.p', 'rb'))
print(data['biomarkers'])

## Naloge

1. Pripravite funkcijo za nalaganje vrednosti meritev izbranega biomarkerja s podpisom:
```python
def loadBiomarkerData(iData, iBiomarker, iWhichValues, iWhichMethod):
    return oPos, oNeg
```

  pri čemer `iData` predstavlja podatke v spremenljivki tipa `dict`, parametri `iBiomarker`, `iWhichValues`, `iWhichMethod` pa določajo oznako biomarkerja, katerega vrednosti želimo, izbiro vrednosti za prvo ali sledečo preiskavo (`bvals`, `fvals`) in izbiro postopka (`manual`, `auto`). Funkcija naj v izhodnih spremeljivkah `oPos` in `oNeg` v obliki seznama `list` vrne vrednosti za anevrizme, ki rastejo in tiste ki ne (pozitivni/negativni vzorci).

  Preverite delovanje funkcije s podatki v dani datoteki `data.p`.

In [None]:
def loadBiomarkerData(iData, iBiomarker, iWhichValues, iWhichMethod):
    idx = data['biomarkers'].index(iBiomarker.lower())
    oPos = [v[iWhichValues][idx] for (k, v) in data[iWhichMethod].items() if v['grow']]
    oNeg = [v[iWhichValues][idx] for (k, v) in data[iWhichMethod].items() if not v['grow']]
    return oPos, oNeg

  Preizkus funkcije:

In [None]:
# izberi biomarker za prikaz numeričnih vrednosti
biomarker = 'aasa'

p, n = loadBiomarkerData(data, biomarker, 'bvals', 'auto')
print('Vrednosti {} za pozitivne primere'.format(biomarker.upper()))
print(p)

print('Vrednosti {}  za negativne primere'.format(biomarker.upper()))
print(n)

2. Napišite funkcijo za prikaz para škatelnih diagramov ločeno za pozitivne in negativne vzorce in izračun statistične signifikance/značilnosti s t-testom:
```python
def analysisBoxplots(iBiomarker, iPos, iNeg, iAxes=None):
    # create plots here
```
kjer parameter `iBiomarker` podaja oznako biomarkerja, spremeljivki `iPos` in `iNeg` pa vrednosti pozitivnih in negativnih vzorcev v obliki seznama `list`. Parameter `iAxes` naj ima privzeto vrednost `None` oz. naj podaja indeks osi za risanje škatelnih diagramov. Slednje narišete s klicem funkcije `boxplot()` v Python knjižnici `matplotlib.pyplot`. Statistično značilnost oz. $p$-vrednost $t$-testa lahko izračunate s funkcijo `ttest_ind` v Python knjižnici `scipy.stats`.

  Preizkusite delovanje funkcije s podatki v dani datoteki `data.p` tako, da izrišete škatelne diagrame in izračunate $p$-vrednost za prvotne vrednosti biomarkerja $AR$ in $AASA$, določene z avtomatskim postopkom.  

  Preverite tudi **statistično značilnost** oz. $p$-vrednost tudi z neparametričnim Mann-Whitney U-testom, ki jo dobite z uporabo funkcije `mannwhitneyu` v Python knjižnici `scipy.stats`.
  
  Kakšne so predpostavke $t$-testa in Man-Whitney testa? Kakšni sta $H_0$ in $H_A$? 
  Z ustreznim statističnim testom preverite predpostavko o normalnosti vzorcev. Vizualno ocenite normalnost še z izrisom grafa kvantilov ([Q-Q plot](https://en.wikipedia.org/wiki/Q%E2%80%93Q_plot)).

In [None]:
def analysisBoxplots(iBiomarker, iPos, iNeg, iAxis=None):
    # Your Code Here

  Preizkus funkcije:

In [None]:
plt.close('all')
f, (ax1, ax2) = plt.subplots(1, 2, figsize=(9, 3))

biomarker = 'ar'
p, n = loadBiomarkerData(data, biomarker, 'bvals', 'auto')
analysisBoxplots(biomarker, p, n, ax1)

biomarker = 'aasa'
p, n = loadBiomarkerData(data, biomarker, 'bvals', 'auto')
analysisBoxplots(biomarker, p, n, ax2)
plt.show()

Preverjanje izpolnjevanja predpostavke o normalnosti porazdelive parametra; $N(\bar\mu,\bar\sigma)$:

In [None]:
def QQplot(vals, iAxis=None):
    if iAxis is None:
        plt.figure()
        iAxis = plt.gca()
        
    # Statistical test for Normality. H_0: sample comes from a normal distribution
    PVAL_THRESHOLD = 0.05
    _, pval = shapiro(vals)

    sig = ('Not Significant','Significant')[int(pval < PVAL_THRESHOLD)]
    
    stats.probplot(np.array(vals), dist='norm', plot=pylab)
    iAxis.set_title(
        'Q-Q plot, pval={pval:.2f} ({sig})'.format(
            pval=pval,
            sig=sig
        ))
    
    # plot quantiles of the given data against the theoretical quantiles of normal distribution
    plt.show()
    
QQplot(p)

3. Napišite funkcijo za prikaz krivulje ROC in izračun površine pod krivuljo (AUC):
```python
def analysisROC(iBiomarker, iPos, iNeg, iAxes=None):
    # create plots here
```
kjer parameter `iBiomarker` podaja oznako biomarkerja, spremeljivki `iPos` in `iNeg` pa vrednosti pozitivnih in negativnih vzorcev v obliki seznama `list`. Parameter `iAxes` naj ima privzeto vrednost `None` oz. naj podaja indeks osi za risanje ROC krivulje. Slednjo izračunate s klicem funkcije `roc_curve()` v Python knjižnici `sklearn.metrics`, AUC mero sposobnosti pa z funkcijo `auc()` v isti knjižnici.

  Preizkusite delovanje funkcije s podatki v dani datoteki `data.p` tako, da izrišete ROC krivuljo in izračunate AUC vrednost za prvotne vrednosti biomarkerja $AR$ in $AASA$, določene z avtomatskim postopkom.

In [None]:
def analysisROC(iBiomarker, iPos, iNeg, iAxis=None):
    # Your Code Here

  Preizkus funkcije:

In [None]:
plt.close('all')
f, (ax1, ax2) = plt.subplots(1, 2, figsize=(9, 4))

biomarker = 'ar'
p, n = loadBiomarkerData(data, biomarker, 'bvals', 'auto')
analysisROC(biomarker, p, n, ax1)

biomarker = 'aasa'
p, n = loadBiomarkerData(data, biomarker, 'bvals', 'auto')
analysisROC(biomarker, p, n, ax2)

4. Napišite funkcijo za prikaz Bland&ndash;Altmanovega diagrama (ang. *bias&ndash;variance plot*) med pripadajočimi meritvami z dvema različnima postopkoma:
```python
def analysisBlandAltman(iBiomarker, iData1, iData2, iAxes=None):
    # create plots here
```
kjer parameter `iBiomarker` podaja oznako biomarkerja, spremeljivki `iData1` in `iData2` v obliki seznama `list` pa vrednosti vzorcev, pridobljene s postopkom '1' in '2'. Seznama morata imeti enako dolžino, saj podajata pripadajoče meritve. Parameter `iAxes` naj ima privzeto vrednost `None` oz. naj podaja indeks osi za risanje Bland&ndash;Altman diagrama. Slednjega izrišete v obliki razsevnega diagrama s funkcijo `scatter()` iz Python knjižnice `matplotlib.pyplot`, pri čemer na horizontalno os nanesete povprečno vrednost pripadajočih meritev, na vertikalno pa razliko. V diagram vrišite horizontalne črte pri vrednosti razlike 0 in pri $+1,96\cdot SD$ in $-1,96\cdot SD$, kjer $SD$ predstavlja oceno standardne deviacije razlik.

  Preizkusite delovanje funkcije s podatki v dani datoteki `data.p` tako, da izrišete Bland&ndash;Altmanov diagram  za prvotne vrednosti biomarkerja $AR$ in $AASA$, določene z ročnim in avtomatskim postopkom.

In [None]:
def analysisBlandAltman(iBiomarker, iData1, iData2, iAxes=None):
    if iAxes is None:
        plt.figure()
        iAxes = plt.gca()

    iData1    = np.asarray(iData1)
    iData2    = np.asarray(iData2)
    mean      = np.mean([iData1, iData2], axis=0)
    diff      = iData1 - iData2                   # Difference between data1 and data2
    md        = np.mean(diff)                   # Mean of the difference
    sd        = np.std(diff, axis=0)            # Standard deviation of the difference

    iAxes.scatter(mean, diff)
    iAxes.axhline(0,            color='gray', linestyle='-',  linewidth=1)
    iAxes.axhline(md,           color='red',  linestyle='--', linewidth=2)
    iAxes.axhline(md + 1.96*sd, color='gray', linestyle='--', linewidth=2)
    iAxes.axhline(md - 1.96*sd, color='gray', linestyle='--', linewidth=2)
    iAxes.set_xlabel('Mean value')
    iAxes.set_ylabel('Difference')
    iAxes.set_title('{bname}, Bland-Altman (md={md:.2f}, sd={sd:.2f})'.format(
        bname=iBiomarker.upper(), md=md, sd=sd))

  Preizkus funkcije:

In [None]:
plt.close('all')
f, (ax1, ax2) = plt.subplots(1, 2, figsize=(9, 4))

biomarker = 'aasa'
pa, na = loadBiomarkerData(data, biomarker, 'bvals', 'auto')
pm, nm = loadBiomarkerData(data, biomarker, 'bvals', 'manual')
analysisBlandAltman(biomarker, pa+na, pm+nm, ax1)

biomarker = 'ar'
pa, na = loadBiomarkerData(data, biomarker, 'bvals', 'auto')
pm, nm = loadBiomarkerData(data, biomarker, 'bvals', 'manual')
analysisBlandAltman(biomarker, pa+na, pm+nm, ax2)

5. Spoznavanje s knjižnico `pandas`. 
 * Podatke o anevrizmah pretvorite v tabelo podatkov tipa `DataFrame` s stolpci `id`, `value`, `biomarker`, `method`, `grow`, `time`, `dyears`. 
 * Izločite stolpec s podatki o rasti anevrizem. 
 * Izločite stolpec s podatki o rasti anevrizem in identifikaciji pacientov. 
 * Izločite vrstice za podatke z avtomatsko pridobljenimi meritvami.
 * Shranite podatke v datoteko tipa `.csv`.

In [None]:
import pandas as pd

    # Your Code Here