---
#Notebook di statistica medica (2)
---



# ✅ Librerie python

In [None]:
import os                           # Library to manage files
import numpy as np                  # Library to work with numbers
import pandas as pd                 # Library to work with data
import plotly.express as px         # Library for plotting
import plotly.graph_objects as go   # Library for plotting
import matplotlib.pyplot as plt     # Library for plotting
from scipy import stats             # Library for statistical analysis

def load_csv(nomefile):
  df = pd.read_csv(nomefile)
  return df

def load_excel(nomefile):
  df = pd.read_excel(nomefile, sheet_name = 'data')  
  print(df.columns) #The column labels of the DataFrame.
  return df

def compute_BMI(dati):
  dati['BMI'] = dati['weight'] / (dati['height'] * dati['height'])
  dati.columns = ['sex', 'age', 'height', 'weight', 'BMI']
  return dati

def t_test(df, sample1, sample2):
  return stats.ttest_rel(df[sample1], df[sample2])

def linear_regression(df, serie_x, serie_y, plot=True):
  x = df[serie_x]
  y = df[serie_y]
  b1, b0,_,_,_ = stats.linregress(x,y)

  if plot:
    fig = px.scatter(x=x, y=y, trendline="ols")
    fig.show()

  return b0,b1

def serie_plot(df, campo):
  fig = px.line(df, y=campo, title='Serie: ' + campo)
  fig.show()

def box_plot(df, campo):
  fig = px.box(df, y=campo, points="all")
  fig.show()

def histogram_plot(df, campo, nbins=10):
  fig = px.histogram(df, x=campo, nbins=nbins)
  fig.show()

def scatter_plot(x,y):
  fig = px.scatter(x=x, y=y)
  fig.show()

def QQ_plot(df, campo):
  fig = plt.figure(figsize=(10,10))
  ax = fig.add_subplot()
  stats.probplot(df[campo], dist="norm", plot=ax)
  ax.set_title("Q-Q plot")
  plt.show()

def gaussian_plot(mu=0, sigma=1):
  x = np.linspace(-(mu+10),(mu+10), 1000)    
  G = (2*np.pi*sigma**2)**(-.5) * np.exp(-.5* ((x - mu)/sigma)**2)

  fig = go.Figure()
  fig.add_trace(go.Scatter(x=x, y=G, mode='lines', name='Gaussian'))
  fig.show()

def central_limit(num_dice):                          
  fig, axes = plt.subplots(ncols=len(num_dice), nrows=1, constrained_layout=True, figsize=(len(num_dice)*5, 5))
  for i, n in enumerate(num_dice):
      trials = np.mean(np.random.randint(0,6, (n,100000)), axis = 0)           #we average the number on n dices for 100000 times and plot the distribution of the mean 
      axes[i].hist(trials, bins=100)   
      
def gaussian_data_plot(dati, serie):
  X = dati.values.squeeze()

  # hist
  H, b = np.histogram(X, bins=100)
  H = H/np.max(H)

  # Fit a normal distribution to the data:
  mu, std = stats.norm.fit(X)

  # Plot the PDF.
  x = np.linspace(X.min(), X.max(), 100)
  PDF = stats.norm.pdf(x, mu, std)
  PDF = PDF/np.max(PDF)
  CDF = stats.norm.cdf(x, mu, std)

  fig = go.Figure()
  fig.add_trace(go.Bar(x=b, y=H, name='Histogram'))
  fig.add_trace(go.Scatter(x=x, y=PDF, mode='lines', name='PDF'))
  fig.add_trace(go.Scatter(x=x, y=CDF, mode='lines', name='CDF'))
  fig.show()

def generate_random_normal(n, mu=0, sigma=1):
  values = np.random.normal(mu, sigma, n)
  data = pd.DataFrame(values, columns=['values'])
  print('Num values: %d,  mean = %.3f  -- std = %.3f' % (n, np.mean(values), np.std(values)))
  return data

def generate_random_uniform(n, low=0, high=1):
  values = np.random.uniform(low=low, high=high, size=n)
  data = pd.DataFrame(values, columns=['values'])
  print('Num values: %d,  mean = %.3f  -- std = %.3f' % (n, np.mean(values), np.std(values)))
  return data

# ✅ Dove sono i dati su Google Drive

I file dei dati e dei sorgenti Python devono essere contenute in una directory di Google Drive, per es. la crtella `ortopedia-2022`



In [None]:
#@title Inserire directory di Google Drive
data_dir = "ortopedia-2022" #@param {type:"string"}

drive_dir = "/content/drive/MyDrive/" 

home_dir = drive_dir + data_dir

if not os.path.exists(home_dir):
  print('Direcory inesistente!')
else:
  os.chdir(home_dir)
  print("Directory changed: " + home_dir)


# ✅ Regressione lineare


**Definition & Working principle**

Linear regression is a supervised learining algorithm used when target / dependent variable continues real number. It establishes relationship between dependent variable 
$y$ and one or more independent variable $x$ using best fit line. 

 The goal is to minimize sum of square difference between observed dependent variable in the given data set and those predicted by linear regression fuction.

**Hypothesis representation** 

We will use $x_i$ to denote the independent variable and  $y_i$ to denote dependent variable. A pair of  $(x_i,y_i)$ is called training example, $i=1,2,..,m$. 

The goal of supervised learning is to learn a **hypothesis function**  $\hat{y}(x)$ for a given training set that can used to estimate $y$ based on $x$. So hypothesis fuction represented as
$$ \hat{y}(x)=b_0+b_1x$$

where $b_0,b_1$ are parameter of hypothesis. This is equation for Simple / Univariate Linear regression.

**Least Squares**

The equation of the line to determine, we need to minimise the quantity

$$E=\sum_{i=1}^{n}(y_i - \hat{y_i})^2 = \sum_{i=1}^{n}(y_i - b_0 - b_1 x_i)^2$$

where $b_0$ (intercept) and $b_1$ (slope) are given by

$$\begin{cases} \left(\sum_{i=1}^{n} x_i^2\right) b_1 + \left(\sum_{i=1}^{n} x_i\right) b_0 = \sum_{i=1}^{n} x_i y_i \\ \left(\sum_{i=1}^{n} x_i\right) b_1 + n b_0 = \sum_{i=1}^{n}y_i \end{cases}$$


<img src="https://github.com/giulianogrossi/imgs/blob/main/medical_stats/plinear.png?raw=true" width="800pt" />


<img src="https://github.com/giulianogrossi/imgs/blob/main/medical_stats/nlinear.png?raw=true" width="800pt" />



Regressione lineare tra:
- W and BMI
- H and BMI

In [None]:
#carica i dati per BMI
dati = load_csv('data/BMI.csv')  

# calcola BMI
dati = compute_BMI(dati)

# regressione lineare tra 'weight' e 'BMI'
b0, b1 = linear_regression(dati, 'weight', 'BMI')
print(f"The line equation is y = {b1} x + {b0}")

## 🔴 Esercizio

Applicare la regressione al dataset (excel) `patients.xlsx`

- caricare i dati
- mostrare descrizione e semplici statistiche
- calcolare retta di regressione con 'HR', 'sBP'

In [None]:
# caricare il file 'patients.xls' dalla cartella 'data'
dati = load_excel('data/patients.xlsx')

# regressione lineare tra 'weight' e 'BMI'
b0, b1 = linear_regression(dati, 'HR', 'sBP')
print(f"The line equation is y = {b1} x + {b0}")

# ✅ Introduzione al test di ipotesi

###**Confronto di una media col corrispondente parametro**

**Caso1:**

Da una indagine condotta in modo esaustivo su tutte le scuole di una certa provincia si sa che il punteggio grezzo medio in una prova standardizzata per accertare certe abilità matematiche in ingresso nella scuola media inferiore è 
$$ \mu=57.6 \qquad  \sigma=20.38$$

Un istituto, vuole confrontare la propria situazione rispetto al il risultato provinciale; si somministra dunque la medesima prova standardizzata nelle nuove classi prime per un totale di $n=95$ studenti e si sintetizzano i risultati attraverso la media ottenendo:  
$$\bar X=61.1$$

Si vuole verificare se i risultati delle prove di ingresso nella realtà locale siano superiori alla media provinciale per effetto dell’autoselezione.

Di fatto abbiamo **due ipotesi** in opposizione:
- c’è **sostanziale omogeneità** fra i risultati locali e quelli provinciali: il campione locale appartiene ad una popolazione con media parametrica $\mu_L=\mu$ 
- i **risultati locali sono migliori** di quelli provinciali: $\mu_L>\mu$ 

Lo schema di ragionamento che seguiremo è questo:
- supponiamo valida la prima ipotesi, $\mu_L=\mu$; in base a questa ipotesi calcoliamo la probabilità di ottenere una media campionaria come
$\bar X = 61.1$ da una popolazione con media $\mu$. 
  - Se per questa probabilità otterremo valori bassi (cioè se l’evento è scarsamente probabile) rifiuteremo la prima ipotesi in favore della seconda, altrimenti terremo buona la prima. 
  - Per giudicare se la probabilità calcolata è alta o bassa ci atterremo ad una convenzione diffusamente accettata secondo cui sonobasseprobabilità $p\leq 5\%$.
  - Passiamo alla realizzazione pratica.
Cominciamo a standardizzare il valore della media campionaria 
$$z=\frac{\bar X-\mu}{\sigma/\sqrt{n}}=\frac{61.1-57.6}{20.38/\sqrt{95}}=1.67$$
  - A questo punto occorre calcolare la probabilità associata all’evento ipotizzato, cioè la probabilità di ottenere valori come 1.67 in una normale standardizzata.
<img src="https://github.com/giulianogrossi/imgs/blob/main/medical_stats/prob_int.png?raw=true" width="400pt" />

- Le probabilità di ottenere valori di $z$ relative ad un ben preciso valore è infinitamente piccola (è un infinitesimo). La probabilità compresi fra due estremi $a$ e $b$ è invece l'area sottesa dalla curva. 
- Anziché calcolare la probabilità di ottenere il valore 1.67, calcoliamo allora la probabilità di ottenere il valore 1.67 o un valore anche maggiore; quindi la probabilità che $z\geq 1.67$
- L’area sotto la normale standardizzata da 1.67 in poi, vale 0.0475, pari ad una probabilità di 4.75%.
- **Quindi**: il fatto di ottenere una media così alta in una popolazione come quella provinciale è scarsamente probabile (in quanto la probabilità è inferiore al limite convenzionalmente fissato al 5%); dunque rifiuto l’ipotesi che la popolazione locale sia uguale a quella provinciale.

**Caso2:**

In questo nuovo esempio tuttavia supponiamo di non avere nessun motivo di pensare che la media locale sia superiore o inferiore a quella provinciale: non vi sono elementi che facciano ipotizzare autoselezioni in ingresso (si noti che questa è l’ordinaria amministrazione). Si vuole solo confrontare alla cieca la situazione locale con quella provinciale.


Di fatto abbiamo **due ipotesi** a confronto:
- c’è **sostanziale omogeneità** fra i risultati locali e quelli provinciali: il campione locale appartiene ad una popolazione con media parametrica $\mu_L=\mu$ 
- i **risultati locali sono diversi** di quelli provinciali: $\mu_L\neq \mu$ 

Lo schema di ragionamento che seguiremo è questo:

- supponiamo valida la prima ipotesi, $\mu_L=\mu$; in base a questa ipotesi calcoliamo la probabilità di ottenere una media campionaria come
$\bar X = 61.1$ da una popolazione con media $\mu$. 
  - Prima di passare ai calcoli delle aree sotto la normale standardizzata, occorre prestare attenzione al significato della seconda ipotesi enunciata sopra: noi non abbiamo motivo per dire che la media locale sia maggiore (o minore) di quella provinciale; siamo interessati solo a vedere se le due medie sono differenti, senza ipotizzare un particolare verso della eventuale differenza.
  - In generale i valori di $z$ possono essere sia positivi (nel caso che $\bar X$ sia maggiore di $\mu$) che negativi (nel caso opposto). Quindi non possiamo limitarci a considerare la sola coda di destra della distribuzione (quella da $z = 1.67$ in avanti, corrispondente ai soli valori estremi positivi di $z$) ma dobbiamo considerare anche quella sinistra (corrispondente ai valori da $z=-1.67$ indietro)
<img src="https://github.com/giulianogrossi/imgs/blob/main/medical_stats/prob_int1.png?raw=true" width="400pt" />

- Facendo i calcoli troviamo che l’area sotto una coda vale 0.0475; raddoppiando (per le due code) otteniamo 0.095 pari a alla probabilità 9,5%.
- Il valore ottenuto è troppo alto per poter rifiutare la prima ipotesi  $\mu_L=\mu$ perché ci esporrebbe ad un rischio di errore pari quasi al 10%. 
- **Quindi**: non rifiutiamo la prima ipotesi e concludiamo che le due popolazioni sono omogenee.


###**Significatività e suoi livelli convenzionali**

Se in un test riusciamo a respingere $H_0$, ciò avviene in forza del fatto che 
- la statistica $z$ su cui è basato ha un valore sufficientemente alto da rendere l’area sotto alla coda corrispondente, cioè l’errore $\alpha$, sufficientemente piccolo
- Quando avviene si dice che il valore della statistica ($z$ nei nostri esempi) **è significativo**.
- con questa terminologia possiamo dire che nel primo caso z ha **assunto un valore significativo**, mentre nel secondo caso il valore di z è **non significativo**.

Si è già accennato al fatto che esistono dei limiti convenzionali per definire accettabile una probabilità di errore $\alpha$. Nei due test esemplificati abbiamo parlato di un 5%. Assieme a questo livello sono comunemente usati in ricerca altri due livelli standard, che sono 0.01 (1%) e 0.001 (0.1%).
A seconda del valore di $\alpha$ ottenuto nel test si parla di differenti livelli di significatività:
- se $\alpha > 0.05$ (5%) si dice che la statistica ($z$ negli esempi) **non è significativa** e si etichetta col simbolo **ns**
- se $0.01<\alpha \leq 0.05$ ($\alpha$ compreso fra 1% e 5%) si dice che la statistica (z negli esempi) **è significativa a livello 0.05**
- se $0.001<\alpha \leq 0.01$ ($\alpha$ compreso fra 0.1% e 1%)  si dice che la statistica (z negli esempi) **è significativa a livello 0.01** 
- se $\alpha < 0.001$ ($\alpha$ è minore di 0.1%) si dice che la statistica (z negli esempi) **è significativa a livello 0.001** 

Utilizzando la terminologia appena introdotta possiamo dire che nel primo esempio $z$ è significativa a livello 0.05, nel secondo esempio z è non significativo.

**Regione critica e valore critico**

Partiamo considerando un test a due code. Se vogliamo che la nostra statistica sia significativa a livello 0.05, occorre che il valore di $z$ cada sotto una delle due code indicate in figura, che complessivamente danno un’area pari al 5%. 
- Calcolando la probabilità si trova che il valore di $z$ che delimita tali code è 1.96.
- Quindi se vogliamo rifiutare $H_0$ con un test a due code occorre che $z$ sia minore di –1.96 o che z sia maggiore di 1.96 (in figura). 
- Le due code segnate in grigio vengono dette **regioni critiche** o di rifiuto (in quanto permettono di rifiutare $H_0$) ed il valore che le delimita è
detto **valore critico** per la statistica $z$ (a volte indicato col simbolo $z_{0.05}$). 
- Nell’esempio abbiamo $|z| \leq z_{0.05}$ , perché $1.67 < 1.96$ , dunque $z$ non è significativo.

<img src="https://github.com/giulianogrossi/imgs/blob/main/medical_stats/prob_int2.png?raw=true" width="600pt" style="margin-right: auto; margin-left: auto;"/>


# ✅ Paired Samples t-test

**MEANING** 

The **T distribution** (also called **Student’s T Distribution**) is a family of distributions that look almost identical to the normal distribution curve, only a bit shorter and fatter. The t distribution is used instead of the normal distribution when you have small samples. The larger the sample size, the more the t distribution looks like the normal distribution. In fact, for sample sizes larger than 20 (e.g. more degrees of freedom), the distribution is almost exactly like the normal distribution.

<img src="https://github.com/giulianogrossi/imgs/blob/main/medical_stats/Student_t.png?raw=true" width="600pt"/>


###**Confronto fra due gruppi di dati dipendenti o appaiati**

Per valutare la differenza fra i punteggi prima e quelli dopo l’applicazione del trattamento sperimentale i due gruppi di dati non sono indipendenti, in quanto ogni singolo punteggio raccolto dopo il trattamento dipende dal corrispondente punteggio ottenuto dallo stesso soggetto prima del trattamento. 

Nel disegno sperimentale all’interno dei soggetti che abbiamo ipotizzato disponiamo di dati strutturati al modo seguente:


|Sog.|	Punt. prima	| Punt. dopo |Differenza di punteggio|
|---|:-----------------:|:----------------------:|:-----------:|
|1	| $P_1$ | $D_1$ |	$d_1=D_1-P_1$|
|2	| $P_2$ | $D_2$ | $d_2=D_2-P_2$|
|...	| ...   | ...   | ...         |
|n	| $P_n$ | $PD_n$ | $d_n=D_n-P_n$|


Consideriamo ora la media delle differenze dei due gruppi dipendenti $P$ e $D$: il valore campionario della statistica è:
$$\bar d=\frac{1}{n}\sum_{i=1}^n d_i$$
il valore del parametro corrispondente è $\delta=\mu_D-\mu_P$ (essendo $\mu_D$ e $\mu_P$ le medie parametriche dei due gruppi $P$ e $D$; l’errore standard stimato della media delle differenze è 
$$\bar s_{d}=\frac{s_d}{\sqrt{n}}$$
Ancora una volta possiamo montare questi tre elementi nella formula
$$t=\frac{\bar d -\delta}{s_d/\sqrt{n}}$$
La nuova statistica è distribuita come un $t$ con $\nu=n-1$ gradi di libertà.

**Il $t$-test per dati appaiati**

Occorre inizialmente precisare quale sia l’ipotesi nulla $H_0$ e l’ipotesi alternativa $H_1$.

L’ipotesi nulla è quella che afferma una sostanziale inefficacia del trattamento sperimentale. Se così vanno le cose non dovranno evidenziarsi sostanziali differenze, all’interno dei soggetti, fra prima e dopo l’applicazione del trattamento sperimentale. In altri termini le differenze d all’interno dei soggetti tenderanno ad essere nulle, così come la loro media parametrica $\delta$. 

Per quanto riguarda l’ipotesi alternativa, vogliamo verificare non una generica differenza fra il prima e il dopo; se il trattamento è didatticamente efficace noi ci aspettiamo che le differenze d siano tendenzialmente positive. Questo conduce ad ipotizzare che la loro media parametrica $\delta$ sia positiva.

Dunque, formalizzando le due ipotesi:
- $H_0$: $\delta=0$
- $H_1$: $\delta>0$

Si tratta dunque di un test ad una sola coda.

**Assunzioni**:
1. La variabile dipendente deve essere continua (intervallo/rapporto).  
2. Le osservazioni sono indipendenti l'una dall'altra.   
3. La variabile dipendente deve essere distribuita normalmente o approssimativamente normalmente.   
4. La variabile dipendente non deve contenere outlier.   




### ▶️ TEST 1: Pressione arteriosa prima e dopo dell'intervento

In [None]:
#carica i dati per BMI
dati = load_csv('data/BP.csv')

# descrizione params statistici
dati[['bp_before','bp_after']].describe()

**Outliers**

Verifica dei presupposti per il t-test per campioni appaiati.

In [None]:
# box plot delle due serie

box_plot(dati,['bp_before','bp_after'])

**Dati approssimativamente normalmente distribuiti**

Ora dobbiamo verificare che i dati provengano da una distribuzione normale. Ci sono due modi per verificare questa ipotesi: creare un istogramma e/o utilizzare un test statistico. 

In [None]:
# istogrammi per valutare gaussianità

histogram_plot(dati, 'bp_before')
histogram_plot(dati, 'bp_after')

In [None]:
# QQ plots

QQ_plot(dati, 'bp_after')
QQ_plot(dati, 'bp_before')

In [None]:
# t-test prima e dopo trattamento

tvalue, pvalue = t_test(dati, 'bp_before','bp_after')

# stampa risultati
print('Statistica t =',  tvalue)
print('p-value =',  pvalue)

**Risultato**

Poiché  $0.001< \alpha < 0.01$ (compreso fra 0.1% e 1%) il **test è significativo a livello 0.01**

**Interpretazione**

Per analizzare la pressione arteriosa prima e dopo l'intervento è stato utilizzato un t-test a campioni appaiati per verificare se l'intervento avesse un effetto significativo sulla pressione arteriosa. La pressione arteriosa prima dell'intervento era più alta (156,45 ± 11,39 unità) rispetto a quella dopo l'intervento (151,36 ± 14,18 unità); c'è stata una diminuzione statisticamente significativa della pressione arteriosa ($t_{119}=3,34, p= 0,0011$) di $3,34$ unità.


## 🔴 Esercizio

### ▶️ TEST2: Glicemia (BG) delle persone con diabete


Il test viene eseguito due volte, ad esempio prima e dopo un determinato trattamento clinico e vogliamo sapere se c'è una differenza significativa dopo il trattamento.

Contiene i valori della glicemia (in mg/dL) di 40 persone con diabete in momenti diversi.   


In [None]:
#carica i dati per BMI
dati = load_csv('data/BG.csv')

# descrizione params statistici
dati[['BG1','BG2', 'BG3']].describe()

In [None]:
# box plot delle due serie

box_plot(dati,['BG1','BG2','BG3'])

In [None]:
# istogrammi per valutare gaussianità

histogram_plot(dati, 'BG1')
histogram_plot(dati, 'BG2')
histogram_plot(dati, 'BG3')

In [None]:
# t-test prima e dopo trattamento

tvalue, pvalue = t_test(dati, 'BG1','BG2')

# stampa risultati
print('Statistica t =',  tvalue)
print('p-value =',  pvalue)

**Risultato**

Poiché  $0.0001< \alpha < 0.001$ (compreso fra 0.1% e 1%) il **test è significativo a livello 0.001**

**Interpretazione**

Per analizzare le differenze tra due letture è stato utilizzato un t-test a campioni appaiati per verificare se si tratta di differenze significative. È stata riscontrata una diminuzione statisticamente significativa della glicemia ($p=0,0001$) di $4,3$ unità.