<img src="./images/callysto_notebook-banner_top.png" width="2000px"/> 

# Creare un modello per capire la diffusione dei Virus (SARS-CoV-2)

##### Questo corso si basa su un modulo sviluppato da [Callysto](https://callysto.ca/callysto/) per il sistema educativo Canadese. [Future Education Modena](https://www.fem.digital/) sta lavorando ad un progetto simile per il sistema educativo Italiano. 

Siamo interessati a modellare l'epidemia del Coronavirus (SARS-CoV-2). Partiamo dal presupposto che la popolazione totale possa essere suddivisa in una serie di classi, ognuna delle quali dipende dallo stato dell'infezione. Il modello epidemiologico [**SIR Model**](https://en.wikipedia.org/wiki/Compartmental_models_in_epidemiology) è il più semplice e, come suggerisce il nome, divide la popolazione in tre classi. 

**Risultati:**
* Esaminare e visualizzare concetti ed esempi relativi alla diffusione del virus.
* Esaminare la linea del tempo/mappa del virus.
* Visualizzare il modello matematico che mostra il tasso di guarigione, di infezione e di rimozione.

## Il modello SIR
Il modello SIR è un modello matematico che aiuta a studiare la diffusione di una malattia infettiva mortale oppure immunizzante (cioè si può prendere una sola volta).

### Parametri della popolazione

In questo modello, la popolazione totale è divisa in tre gruppi:

* **S**uscettibili: individui che possono essere infettati ma che non lo sono ancora stati
* **I**nfetti: individui infetti
* **R**imossi: individui che sono morti o recuperati 

Le iniziali **S I R** attribuiscono al modello il nome SIR.

Stiamo esaminando i cambiamenti, nel corso di un'epidemia, del numero di questi individui, rappresentati da $S$, $I$ e $R$. In altre parole, vogliamo capire come, col passare del tempo, il numero di individui in ogni gruppo cambia. 

Avere un modello realistico potrebbe essere utile per prevedere l'esito a lungo termine di un'epidemia e informare gli interventi di salute pubblica, come sta accadendo in questi giorni in tutto il mondo.

Se possiamo prevedere che il numero di persone nel gruppo rimossi (**R**) rimarrà basso e il numero di persone infette (**I**) scenderà rapidamente a zero, allora non c'è bisogno di intervenire e possiamo lasciare che l'epidemia finisca da sola, fornendo solo assistenza medica alle persone infette.

Al contrario, se prevediamo un forte aumento del numero di persone infette e rimosse, allora l'epidemia ha bisogno di un intervento rapido prima di provocare un gran numero di vittime. Per questo motivo, uno degli interventi più importanti da mettere in atto è quello di assicurarsi che non ci siano contatti tra le persone infette e quelle suscettibili.

Ora descriviamo il modello matematico SIR (Susceptible, Infected, Removed) di un'epidemia nel tempo (ad esempio ogni settimana). Scriviamo $S_t, I_t, R_t$ per indicare il numero di individui suscettibili, infetti e rimossi nel punto temporale $t$. $t=1$ è il primo punto temporale registrato, $t=2$ è il secondo e così via. Chiamiamo *unità temporale* il tempo trascorso tra due punti temporali, ad esempio un giorno o una settimana.

In questo modello, assumiamo che la **popolazione totale sia costante** (quindi le nascite e i decessi sono ignorati) per la durata della simulazione del modello. Rappresentiamo la dimensione totale della popolazione per $N$, e quindi in qualsiasi punto temporale $t$ abbiamo

$$N=S_t + I_t + R_t$$

### Modellare la progressione della malattia

Si presume che la trasmissione richieda il contatto tra un individuo infetto e un individuo sensibile. Supponiamo anche che la malattia richieda un tempo costante per progredire all'interno di un individuo infetto fino alla sua rimozione (morte o guarigione). Dobbiamo definire questi due processi (infezione e rimozione) e modellare il loro impatto sulla transizione dal momento in cui $t = (S_t,I_t,R_t,R_t)$ al successivo stato $t + 1 = (S_{t+1},I_{t+1},R_{t+1},R_{t+1})$.

![SIR1](./images/SIR1.png)

Le occorrenze di nuove infezioni di è modellato utilizzando un parametro $\beta$, che dà la proporzione di contatti tra le persone suscettibili e le persone infette, durante una unità di tempo, che si traduce in infezione. Possiamo quindi descrivere il numero di nuove persone infette come $\dfrac{\beta S_t I_t}{N}$ dove il termine $S_t I_t$ rappresenta l'insieme di tutti i possibili contatti tra persone suscettibili e persone infette. Discuteremo di questo termine più tardi.

Il verificarsi di rimozioni di persone infette è modellato utilizzando un parametro indicato da $\gamma$. Si definisce come proporzione di individui infetti che muoiono o si riprendono tra due punti temporali. Se ci viene dato che la durata di un'infezione è $T$ (cioè quanti punti di tempo ci vogliono per un individuo tra l'infezione e la rimozione), allora $\gamma = \dfrac{1}{T}$.  


![SIR2](./images/SIR2.png)

Tenendo conto del tasso di contatto $\beta$ e del tasso di rimozione $\gamma$, allora ogni gruppo di popolazione cambia all'interno di una unità di tempo come segue

$$
\begin{align}
S_{t+1} &= S_t -  \dfrac{{\beta} S_t I_t}{N}\\
I_{t+1} &= I_t +  \dfrac{{\beta} S_t I_t}{N} - \gamma I_t \\
R_{t+1} &= R_t + \gamma I_t\\
N&=S_t + I_t + R_t
\end{align}
$$

Queste equazioni formano il modello SIR. Esse permettono, dalla conoscenza dei parametri del modello ($\beta$ e $\gamma$) e dello stato attuale ($S_t,I_t,R_t$) di una popolazione di prevedere i prossimi stati della popolazione per i punti temporali successivi. Tali modelli sono fondamentali ai nostri giorni per il monitoraggio e il controllo delle epidemie di malattie infettive.

##### Osservazioni tecniche.
In primo luogo, si noti che il modello SIR non impone che i valori $S_t,I_t,R_t$ in un dato punto temporale siano interi. Poiché $\beta$ e $\gamma$ sono in realtà numeri fluttuanti, questi valori sono in realtà il più delle volte non interi. Questo va bene perché il modello SIR è un modello approssimativo e mira soprattutto a prevedere la dinamica generale di un'epidemia, non i valori precisi per il numero di individui suscettibili, infetti e rimossi.

Successivamente, ci si può chiedere come trovare i valori dei parametri $\beta$ e $\gamma$ necessari per avere un modello SIR completo. 

Come discusso in precedenza, il parametro $\gamma$ è relativamente facile da trovare sapendo come la malattia progredisce in un paziente, poiché è per lo più l'inverso del tempo medio in cui un paziente è malato. 

Il parametro $\beta$ è meno facile da ottenere. Leggendo le equazioni possiamo vedere che durante un punto temporale, tra gli individui $S_t$ suscettibili, il numero che si infetta è $(\dfrac{{\beta}}{N}) S_t I_t$. Come già detto, il prodotto $S_t I_t$ può essere interpretato come l'insieme di tutti i possibili contatti tra gli individui $S_t$ suscettibili e gli individui $I_t$ infetti ed è spesso un numero elevato, molto più grande di $S_t$ e dell'ordine di $N^2$. La divisione per $N$ mira ad abbassare questo numero, soprattutto per normalizzarlo in base alla popolazione totale, per assicurarsi che sia in ordine di $N$ e non quadratico in $N$. Quindi, affinché il numero di nuovi individui infetti durante un'unità di tempo sia ragionevole, $\beta$ è generalmente un piccolo numero compreso tra $0$ e $1$. Ma formalmente, se scegliamo un valore per $\beta$ troppo grande, allora il modello SIR prevede un valore per $S_t$ che può essere negativo, il che non è coerente con il fenomeno modellato. Quindi scegliere il valore di $\beta$ è il passo cruciale nella modellazione di un'epidemia.

In [5]:
# Questa funzione prende come input un vettore y che contiene tutti i valori iniziali,
# t: il numero di punti di tempo (ad es. giorni)
# beta: proporzione di contatti che provocano infezioni
# gamma: proporzione di infetti che vengono rimossi
# S1,I1,R1 = dimensioni iniziali della popolazione

def discrete_SIR(S1,I1,R1,t,beta,gamma):
    # Matrici vuote per ogni classe
    S = [] # popolazione suscettibile
    I = [] # popolazione infetta
    R = [] # popolazione rimossa
    N = S1+I1+R1 # popolazione totale
    
    # Aggiungere i valori iniziali
    S.append(S1)
    I.append(I1)
    R.append(R1)
    
    # applicare il modello SIR: iterare sul numero totale di giorni - 1
    for i in range(t-1):
        S_next = S[i] - (beta/N)*((S[i]*I[i]))
        S.append(S_next)
        
        I_next = I[i] + (beta/N)*((S[i]*I[i])) - gamma*I[i]
        I.append(I_next)
        
        R_next = R[i] + gamma * I[i]
        R.append(R_next)
    
    # ritorna un array S,I,R le cui voci sono vari valori per suscettibili, infetti, rimossi 
    return((S,I,R))

##  Modellare un'epidemia legata al SARS-CoV-2

Era da decenni che un'epidemia di queste dimensioni colpiva un così alto numero di persone in giro per il mondo. Per sapere di più sul SARS-CoV-2 questi link sono utili e i più informativi: 

- [Istituto superiore di sanità](https://www.epicentro.iss.it/coronavirus/cosa-sono)
- [World Health Organization](https://www.who.int/health-topics/coronaviru+s)
- [Centro europeo per la prevenzione e il controllo delle malattie](https://www.ecdc.europa.eu/en/novel-coronavirus-china)
- [Un Tracker della diffusione del virus SARS-CoV-2](https://shiny.john-coene.com/coronavirus/) sviluppato da [John Coene](https://john-coene.com/)

Il termine medico-matematico usato per descrivere quanto contagioso un virus sia è **$R_0$** (erre con zero). Non è ancora chiaro per quanto sia contagioso il virus, soprattutto perché questo valore non è fisso ma cambia da individuo a individuo visto che **$R_0$** non è altro che il numero di persone che, in media, un individuo infetto contagia a sua volta. 

Un ottimo articolo di [Paolo Giordano](https://www.corriere.it/cronache/20_febbraio_25/matematicadel-contagioche-ci-aiutaa-ragionarein-mezzo-caos-3ddfefc6-5810-11ea-a2d7-f1bec9902bd3.shtml?refresh_ce-cp) uscito sul **Corriere della Sera** spiega con un linguaggio accessibile a tutti la matematica dietro il modello SIR. 

The average time an infected individual remains infected by the bubonic plague is 11 days.

With the information above, we will be able to get the parameters of the SIR model for this outbreak and observe if indeed what this model predicts generates results corresponding to what happened in reality.

### Domanda 1:

### Domanda 2:

We know that the average time an individual remained infected is 11 days. What is the rate of removal ($\gamma$)?

### Question 3:

We are now trying something more difficult but more interesting. We introduced a mathematical model for outbreaks, but nothing so far shows that this SIR model is appropriate to model an outbreak such as the Eyam plague outbreak. We want to answer this question now.

From questions 1 and 2 above we know the values of $N$ and $\gamma$ (check your answers at the bottom of this notebook). From the data table we also know $S_1,I_1,R_1$, the state of the population at the start of the outbreak. So if we want to apply the SIR model we need to find  a value for $\beta$ the parameter, the number susceptible people becoming infected during a time unit. We consider here that a time unit is 1 day; the Eyam outbreak spanned 112 days, so 112 time units, even if data were only recorded every 2 weeks. 

A standard scientific approach for the problem of finding $\beta$ is to try various values and see if there is one that leads to predicted values for $S_n,I_n,R_n$ that match the observed data. In order to evaluate this match, we focus on the number of infected people, the most important element of an outbreak.

The code below allows you to do this: you can choose a value of $\beta$, click on the "Run interact" button and it will show on the same graph a set of 8 blue dots (the observed number of infected people from the data table) and a set of 112 red dots, corresponding to the predicted number of infected individuals for the chosen value of $\beta$.

While there are several mathematical ways to define what would be the *best fit*, here we are not getting into this and you are just asked to try to find a value of $\beta$ that generated blue dots being approximately on the graph defined by the red dots. Pay particular attention to the first four blue dots.

Note that in this case $0 < \beta < 1$.

##### Warning:
The SIR model is a very simple approximation of the dynamics of a true outbreak, so don't expect to find a value of $\beta$ that generates a graph that contains exactly all observed data points (blue dots).

In particular note that the data from September 3 and 19 seem to be somewhat of an anomaly as we observe a sharp decrease in the number of infected followed by a surge. This could be due to many reasons, for example poor statistics recording (we are considering a group of people under heavy stress likely more motivated by trying to stay alive than to record accurate vital statistics).

So here we are interested in finding a parameter $\beta$ that captures the general dynamics (increase followed by a post-peak decrease) of the outbreak. You can expect to find a reasonable value for $\beta$ but be aware that many values, especially too high, will result in a very poor match between observed data and model predictions.

In [2]:
from ipywidgets import interact_manual, widgets
import matplotlib.pyplot as plt

# set style
s = {'description_width': 'initial'}

# Set interact manual box widget for beta
@interact_manual(answer=widgets.FloatText(value=0.50, description='Enter a value for ' + r'$ \beta$',
    disabled=False, style=s, step=0.01
))

# define function to find the appropriate value of beta
# this function takes as input a floating value and outputs a plot with the best fit curve
def find_beta(answer):
    
    # set initial values for SIR model
    S1,I1,R1 = 254,7,0
    
    # Use original data on Number of infected from table in the notebook
    ori_data = [7,14,22,29,21,8,21,0]
    
    # use days, time data was provided biweekly, we transform to days here
    ori_days = [1,14,28,42,56,70,84,112]
    
    # set number of days as the second to last entry on the ori_days array 
    n = ori_days[len(ori_days)-1]-ori_days[0]+1
    
    # get beta from answer - to be sure transform to float
    beta = float(answer)
    
    # Gamma was obtained from disease
    gamma = 1/11
    
    # Compute SIR values using our discrete_SIR function
    (S,I,R) = discrete_SIR(S1,I1,R1,n,beta,gamma)
    
    # Figure
    fig,ax = plt.subplots(figsize=(10,10))
 
    # Scatter plot of original number of infected in the course of 112 days
    plt.scatter(ori_days,ori_data,c="blue", label="Original Data")
    
    # Scatter plot of infected obtained from SIR mode, in the course of 112 days
    plt.scatter(range(n),I,c="red",label="SIR Model Predictions")
    
    # Make the plot pretty
    plt.xlabel('Time (days)')
    plt.ylabel('Infected Individuals')
    plt.title('Real Data vs Model')
    legend = ax.legend()
    plt.show()

interactive(children=(FloatText(value=0.5, description='Enter a value for $ \\beta$', step=0.01, style=Descrip…

## Simulating a Disease Outbreak

To conclude we will use the widgets below to simulate a disease outbreak using the SIR model. 
You can choose the values of all the elements of the model (sizes of the compartments of the population at the beginning of the outbreak, parameters $\gamma$ and $\beta$, and duration in time units (days) of the outbreak. The default parameters are the ones from the Eyam plague outbreak.

The result is a series of three graphs that shows how the three components of the population change during the outbreak. It allows you to see the impact of changes in the parameters $\gamma$ and $\beta$, such as increasing $\beta$ (making the outbreak progress faster) or reducing $\gamma$ (decreasing the removal rate).

You can use this interactive tool to try to fit the SIR model to match the observed data.

In [3]:
import matplotlib.pyplot as plt
import numpy as np
from math import ceil

# This function takes as input initial values of susceptible, infected and removed, number of days, beta and gamma
# it plots the SIR model with the above conditions
def plot_SIR(S1,I1,R1,n,beta,gamma):
    
    # Initialize figure
    fig = plt.figure(facecolor='w',figsize=(17,5))
    ax  = fig.add_subplot(111,facecolor = '#ffffff')
    
    # Compute SIR values for our initial data and parameters
    (S_f,I_f,R_f) = discrete_SIR(S1,I1,R1,n,beta,gamma)    
    
    # Set x axis
    x = [i for i in range(n)]
   
    # Scatter plot of evolution of susceptible over the course of x days
    plt.scatter(x,S_f,c= 'b',label='Susceptible')
    
    # Scatter plot of evolution of infected over the course of x days
    plt.scatter(x,I_f,c='r',label='Infected')
    
    # Scatter plot of evolution of removed over the course of x days
    plt.scatter(x,R_f,c='g',label='Removed')

    # Make the plot pretty
    plt.xlabel('Time (days)')
    plt.ylabel('Number of individuals')
    plt.title('Simulation of a Disease Outbreak Using the SIR Model')
    legend = ax.legend()
    plt.show()
    
    # Print messages to aid student understand and interpret what is happening in the plot
    print("SIMULATION DATA\n")
    print("Beta: " + str(beta))
    print("Gamma: " + str(gamma))
    print("\n")
    print("Initial Conditions:")
    print("Total number of Susceptible: "  + str(ceil(S_f[0])))
    print("Total number of Infected: "  + str(ceil(I_f[0])))
    print("Total number of Removed: "  + str(ceil(R_f[0])))
    print("\n")
    print("After " + str(n) + " days:")
    print("Total number of Susceptible: "  + str(ceil(S_f[n-1])))
    print("Total number of Infected: "  + str(ceil(I_f[n-1])) )
    print("Total number of Removed: "  + str(ceil(R_f[n-1])))

# Tweaking initial Values
from ipywidgets import widgets, interact, interact_manual

# Set function above so that the user can set all parameters and manually start simulation
s = {'description_width': 'initial'}
interact_manual(plot_SIR,
        S1 = widgets.IntSlider(value=254, min=200, max=10000, step=1, style=s, description="Susceptible Initial", 
                               disabled=False, orientation='horizontal', readout=True),
        I1 = widgets.IntSlider(value=7, min=0, max=500, step=1, style=s, description="Infected Initial",
                               disabled=False, orientation='horizontal', readout=True),
        R1 = widgets.IntSlider(value=0, min=0, max=500, step=1, style=s, description="Removed Initial",
                               disabled=False, orientation='horizontal', readout=True),
        n = widgets.IntSlider(value=112, min=0, max=500, step=1, style=s, description="Time (days)",
                              disabled=False, orientation='horizontal', readout=True),
        beta = widgets.FloatText(value=1.50, description=r'$ \beta$ parameter',
                                 disabled=False, style = s, step=0.01),
        gamma = widgets.FloatText(value=1.50, description= r'$ \gamma$ parameter',
                                  disabled=False, style=s, step=0.01)
        );

interactive(children=(IntSlider(value=254, description='Susceptible Initial', max=10000, min=200, style=Slider…

### Answer 1
Since we are assuming the population is constant, and since $S_1 = 254, I_1 = 7, R_1 = 0$, then  $S_1 + I_1 + R_1 = 254 + 7 + 0  = 261$.

### Answer 2
We know that, on average, an individual will remain infected for approximately 11 days. This means that one individual moves to the removed class for every 11 days, and the rate of removal is $\gamma = \frac{1}{11} = 0.0909...$.

### Answer 3
The best value is approximately $\beta = 0.14909440503418078$.

<h2 align='center'>Conclusion</h2>

In this notebook we learned about the SIR discrete model to model an outbreak. We learned that this model is one of the simplest ones and that it separates the total population $N$ (a constant) into three categories: Infected, Susceptible and Removed. We learned about rates of infection and removal and how this affects the number of individuals in each class. 

We also ran a basic but realistic simulation of a bubonic plague outbreak of the Great Plague of London that took place in the village Eyam in 1665 and learned about the devastating effect this had on the population. 

<img src="./images/callysto_notebook-banners_bottom.png" width="2000px"/> 