# Quinta lezione

I notebook di jupyter possono essere usati per pubblicazioni o per ausilio a pubblicazioni (cioè come integrazione a pubblicazioni in formato tradizionale).

Proviamo a produrre un ideale rapporto sull'analisi di alcune misure.

*  Conterrà spegazione del contesto teorico (qui sotto un esempio).

*  Conterrà i dati e la procedura usata per elaborarli.

È realistico immaginare che il rapporto venga pubblicato in formato `.html`. Questo permette di includere grafica interattiva ma NON offre la possibilità di interagire dinamicamente con il documento (modificando il codice o i parametri). Mettere a disposizione il sorgente in formato `.ipynb` è auspicabile. Ma potrebbe non essere sufficiente per chi vuole fruire immediatamente del codice. (Salvare il file in un ambiente dove si ha accesso ad un installazione di Jupyter potrebbe essere "a click too far" per qualche lettore.)

Esistono un paio di possibilità.<br><br>

*   [Binder](https://mybinder.org/) è un servizio offerto da Github per interagire con notebooks. Permette di creare un  [link](https://mybinder.org/v2/gh/domenicozambella/BioTeIndu19/master?filepath=lezioni%2F5_lezione.ipynb) da condividere. Spesso nei documenti il link viene incluso con il suo caratteristico bottone 
[![Binder](https://mybinder.org/badge_logo.svg)](https://mybinder.org/v2/gh/domenicozambella/BioTeIndu19/master?filepath=lezioni%2F5_lezione.ipynb) 
Ha due princpali difetti. Lento a caricare (perché crea una macchina virtuale) e si disattiva dopo un breve periodo di inattività.<br><br>

*   [Google Colaboratory](https://colab.research.google.com/notebooks/welcome.ipynb) (anche detto Colab) è un servizio analogo offerto da Google. 
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/domenicozambella/BioTeIndu19/blob/master/lezioni/5_lezione.ipynb)
Ha come princiali difetti l'interfaccia non standard e il fatto che funziona solo con Python notebooks (niente R, Julia, ecc.).

<br><br>

Esempio di introduzione teorica:

<hr><br>

# Theoretical backgound: the Michaelis-Menten equation


Mathematical models of enzymes can take many forms, but the best known is the [Michaelis-Menten equation](https://en.wikipedia.org/wiki/Michaelis–Menten_kinetics) which considers the the mechanism of an irreversible enzyme ($E$) producing product ($P$) from substrate ($S$):

$$
S + E 
\overset{k_f}{\underset{k_r}{\rightleftharpoons}} 
SE 
\overset{k_\text{cat}}{\longrightarrow} 
S + P 
\ \implies\ 
v = \frac{\mathrm{d}p}{\mathrm{d}t} = \frac{V_\text{max}\cdot s}{K_m + s}
$$

- $s$ is the *concentration of substrate $S$*
- $p$ is the *concentration of product $P$*
- $k_f$ is called the *association constant*
- $k_r$ is called the *disassociation constant*
- $k_\text{cat}$ is called the *turnover number*
- $K_m = (k_\text{cat} + k_{r})\;/\;k_f$ is called the *Michaelis constant*
- $e_0$ is the *initial concentration of enzyme*
- $V_\text{max} = k_\text{cat}e_0$ is the *maximum catalytic rate*


<hr><br>

# Lettura ed esplorazione dei dati

I dati li leggiamo direttamente dalla repositoria su github, in modo da rendere il notebook più facilmente esportabile.

La tabella contiene la velocità di reazione `v` per diverse concentrazioni di substrato `s`.

In [20]:
import pandas as pd
baseURL = 'https://raw.githubusercontent.com/domenicozambella/BioTeIndu19/master/'
df = pd.read_csv( baseURL + 'dati/mm1.csv')
df

Unnamed: 0,s,v
0,0.5,0.6
1,1.0,1.1
2,2.5,2.1
3,3.5,2.3
4,5.0,3.7
5,7.5,3.0
6,10.0,4.3
7,15.0,4.8
8,25.0,5.3
9,50.0,6.0


In alternativa, tabelle così piccole possono anche essere inserite manualmente con la seguente sintassi.

In [21]:
data = dict(s = [0.5,1,2.5,3.5,5,7.5,10,15,25,50,70,75,100],
            v = [0.6,1.1,2.1,2.3,3.7,3.,4.3,4.8,5.3,6.0,5.1,5.7,5.8],
           )
df = pd.DataFrame(data)

Per prima cosa importiamo importiamo il pacchetto grafico. Salviamo in una variabile, `param`, alcuni parametri grafici che useremo in tutte le figure sottostanti (si ignori per il momento la sintassi del comando).

In [22]:
from bokeh.plotting import figure, show, output_notebook
param = dict(width = 700, height = 250,
             tools = 'wheel_zoom, reset,pan, box_zoom',
             tooltips = [( 'substrate',   '@s'), ( 'velocity',   '@v')],
            )
output_notebook()

Plottiamo i dati grezzi.

In [23]:
p = figure(x_axis_label='Concentrazione substrato',
           y_axis_label='Velocità di reazione',
           **param,
           )
p.circle( 's', 'v', source=df, size=5 )
show( p )

Altra breve introduzione teorica:
<hr><br>


# Linearizzazione 1: Lineweaver-Burk

<br>

$$
\dfrac{1}{v}
=
\dfrac{K_\textrm{m}}{V_\textrm{max}}\cdot\dfrac{1}{s}\ +\ \dfrac{1}{V_\textrm{max}}
$$

<br><hr><br>

Espandiamo il dataframe con i reciproci delle prime colonne

In [24]:
df['1/s'] = 1 / df['s']
df['1/v'] = 1 / df['v']
df

Unnamed: 0,s,v,1/s,1/v
0,0.5,0.6,2.0,1.666667
1,1.0,1.1,1.0,0.909091
2,2.5,2.1,0.4,0.47619
3,3.5,2.3,0.285714,0.434783
4,5.0,3.7,0.2,0.27027
5,7.5,3.0,0.133333,0.333333
6,10.0,4.3,0.1,0.232558
7,15.0,4.8,0.066667,0.208333
8,25.0,5.3,0.04,0.188679
9,50.0,6.0,0.02,0.166667


Ora plottiamo `1/v` su `1/s`.

In [25]:
p1 = figure(title = 'Linearizzazione di Lineweaver-Burk',
            x_axis_label= '1/s',
            y_axis_label= '1/v',
            **param,
            )
p1.circle( '1/s', '1/v', source=df, size=5 )
show( p1 )

Vediamo che i dati seguono un andamento ragionevolmente lineare. Ora calcoliamo il valore della pendenza e dell'intercetta usando la funzione `linregress` della libreria `scipy.stats`

In [26]:
from scipy.stats import linregress
slope, intercept, r_value, p_value, std_err = linregress( df['1/s'], df['1/v'] )
slope, intercept, r_value, p_value, std_err

(0.7480681984452995,
 0.17125207846346693,
 0.9976695813464803,
 3.5156919427820225e-14,
 0.01542541728718807)

Calcoliamo i valori di $V_\textrm{max}$ e $K_\textrm{m}$.

In [27]:
Vmax1 = 1/intercept
Km1 = slope/intercept 

Per controllo, aggiungiamo alla figura precedente la retta interpolante. Prima creiamo una retta un segmento dal valore minimo di `1/s` al valore massimo di `1/s`. 

In [28]:
from numpy import linspace
xmin = df['1/s'].min()
xmax = df['1/s'].max()
x = linspace( xmin, xmax, 2 ) # Un array di 2 punti tra xmin e xmax
y = x*slope + intercept

Ora aggiungiamo il segmento alla figura `p1` e plottiamo.

In [29]:
p1.line( x, y, color='brown')
show( p1 )
'Vmax = {}, Km = {}'.format(Vmax1, Km1) 

'Vmax = 5.839345186186042, Km = 4.368228433530424'

Altra breve introduzione teorica:
<hr><br>

# Linearizzazione 2: Eadie-Hofstee

<br>


$$
v
=
-K_\textrm{m}\dfrac{v}{s}\ +\ V_\textrm{max}
$$

<br><hr><br>

Espandiamo il dataframe con i valori de `v/s`. 

In [30]:
df['v/s'] = df['v'] / df['s']
df

Unnamed: 0,s,v,1/s,1/v,v/s
0,0.5,0.6,2.0,1.666667,1.2
1,1.0,1.1,1.0,0.909091,1.1
2,2.5,2.1,0.4,0.47619,0.84
3,3.5,2.3,0.285714,0.434783,0.657143
4,5.0,3.7,0.2,0.27027,0.74
5,7.5,3.0,0.133333,0.333333,0.4
6,10.0,4.3,0.1,0.232558,0.43
7,15.0,4.8,0.066667,0.208333,0.32
8,25.0,5.3,0.04,0.188679,0.212
9,50.0,6.0,0.02,0.166667,0.12


In [31]:
p2 = figure(title = 'Eadie-Hofstee',
            x_axis_label='v/s',
            y_axis_label='v',
            **param,
          )
p2.circle( 'v/s', 'v', source=df, size=5 )
show( p2 )

Interpoliamo questi valori con una regressione lineare.

Calcoliamo anche i valori di $V_\textrm{max}$ e $K_\textrm{m}$.

Aggiungiamo la retta interpolante alla figura precedente.

In [32]:
slope, intercept, r_value, p_value, std_err = linregress( df['v/s'], df['v'] )
xmin = df['v/s'].min()
xmax = df['v/s'].max()
x = linspace( xmin, xmax, 2 )
y = x * slope + intercept
Vmax2 = intercept
Km2   = - slope
p2.line( x, y, color='brown')
show( p2 )
'Vmax = {}, Km = {}'.format(Vmax2, Km2) 

'Vmax = 5.961030175109625, Km = 4.448023173213158'

Altra breve introduzione teorica:
<hr><br>

# Linearizzazione 3: Hanes

<br>

$$
\dfrac{s}{v}
=
\dfrac{1}{V_\textrm{max}}\cdot s\ +\ \dfrac{K_\textrm{m}}{V_\textrm{max}}
$$

Espandiamo il dataframe con i valori de `s/v` e calcoliamo i valori di $K_{\rm m}$ e $V_{\rm max}$ usano una regressione lineare in maniera del tutto analoga a quanto fatto sopra.

In [33]:
df['s/v'] = df['s'] / df['v']
slope, intercept, r_value, p_value, std_err = linregress( df['s'], df['s/v'] )
xmin = df['s'].min()
xmax = df['s'].max()
x = linspace( xmin, xmax, 2 )
y = x * slope + intercept
Vmax3 = 1/slope
Km3   = intercept / slope
p3 = figure(title = 'Hanes',x_axis_label='s', y_axis_label='s/v',**param)
p3.circle( 's', 's/v', source=df, size=5 )
p3.line( x, y, color='brown')
show( p3 )
'Vmax = {}, Km = {}'.format(Vmax3, Km3)

'Vmax = 5.960109640483074, Km = 4.443109003999383'

<hr><br>

# Regressione non-lineare

Possiamo calcolare $V_\textrm{max}$ e $K_\textrm{m}$ senza prima linearizzare. Useremo una regressione non-lineare.

Per prima cosa bisogna definire la funzione che calcola le distanze da minimizzare (precisamente si inimizzano la somma dei quadrati delle distanze tra valori previsti e osservati).

I parametri da individuare sono rappresentati dall'array `x`

`x[0]` $= V_\textrm{max}$

`x[1]` $= K_\textrm{m}$

Quindi i valori previsti sono dati da `x[0] * s / ( x[1] + s)` quelli oservati da `v`.

In [34]:
mm = lambda x, s, v:   x[0] * s / ( x[1] + s) - v

I valori di `x` che minimizzano la somma dei quadrati delle distanze vengono ricavati con una procedura numerica. La ricerca del minimo è fatta con prove successive. Il punto di partenza è arbitrario, qui `x0 = [5,5]`. Conviene scegliere un valore ragionevolmente vicino al risultato previsto. (In teoria la procedura potrebbe trovare un minimo locale diverso.)

In [35]:
x0 = [5,5]
from scipy.optimize import least_squares
lsq = least_squares(mm, x0, args=(df['s'], df['v']))

La variabile `lsq` contiene molti dati. Il risultato che noi cerchiamo è l'array `lsq.x`

In [36]:
Vmax = lsq.x[0]
Km = lsq.x[1]

Plottiamo il risultato aggiungendo il grafico della curva alla figura `p` introdotta sopra.

In [37]:
xmin = df['s'].min()
xmax = df['s'].max()
s = linspace( xmax, xmin, 100  )
v = Vmax * s / ( Km + s )
p.title.text = 'Nonlinear regression curve'
p.line( s, v, color='brown' )
show( p )
'Vmax = {}, Km = {}'.format(Vmax, Km) 

'Vmax = 6.068688200320752, Km = 4.700879022975601'

The End

<hr><hr><hr>

Next cell loads some html style files (it may be either run/ignored/deleted)


In [38]:
import  requests
from IPython.core.display import HTML
html_style = requests.get(  baseURL + 'lezioni/style/custom.css' ).text
HTML( html_style )