   # Algebra lineare computazionale
   
   Come spunto possiamo usare il [libro](http://immersivemath.com/ila/) il riferimento è la seguente [lezione]( https://youtu.be/8iGzBMboA0I?list=PLtmWHNX-gukIc92m1K0P6bIOnZb-mg0hY&t=795) quando si lavora sulle matrici i fattori più importanti da tenere a mente sono:

* Uso della memoria
* Velocità
* Stabilità / Accuratezza
* Scalabilità (ovvero la possibilità di parallelizzare)

Partiamo con un esempio di come una matrice può rappresentare un problema, partiamo con una catena di markov.

![markov](./images/markov_health.jpg)

in questa matrice viene rappresentato il cambio di stato dopo un anno di una analisi sulla malattia HIV.
Ogni arco rappresenta la probabilità di passare da uno stato all'altro. 

Partiamo con un vettore che rappresenta le percentuali attuali dei pazienti:

* 85% asintomatico
* 10% sintomatico
* 5% AIDS
* 0% morto

Quale sarà la nuova distribuzione dopo un anno?


In [1]:
import numpy as np

matrix = [[0.9,0.07,0.02,0.01],[0,0.93,0.05,0.02],[0,0,0.85,0.15],[0,0,0,1]]
matrix = np.asarray(matrix)
matrix

array([[0.9 , 0.07, 0.02, 0.01],
       [0.  , 0.93, 0.05, 0.02],
       [0.  , 0.  , 0.85, 0.15],
       [0.  , 0.  , 0.  , 1.  ]])

In [2]:
vector = [0.85,0.1,0.05,0]
vector = np.asarray([vector])
vector

array([[0.85, 0.1 , 0.05, 0.  ]])

In [3]:
matrix.T

array([[0.9 , 0.  , 0.  , 0.  ],
       [0.07, 0.93, 0.  , 0.  ],
       [0.02, 0.05, 0.85, 0.  ],
       [0.01, 0.02, 0.15, 1.  ]])

In [4]:
vector.T

array([[0.85],
       [0.1 ],
       [0.05],
       [0.  ]])

In [5]:
matrix.T @ vector.T

array([[0.765 ],
       [0.1525],
       [0.0645],
       [0.018 ]])

In [6]:
(vector @ matrix)

array([[0.765 , 0.1525, 0.0645, 0.018 ]])

Vediamo un altro semplice problema.

![shop](./images/shop.png)

[qui](https://www.mff.cuni.cz/veda/konference/wds/proc/pdf06/WDS06_106_m8_Ulrychova.pdf) per leggere tutto l'articolo 

In [7]:
people = [[6,5,3,1],[3,6,2,2],[3,4,3,1]]
prices = [[1.5,1],[2,2.5],[5,4.5],[16,17]]

people = np.asarray(people)
prices = np.asarray(prices)

people @ prices

array([[50. , 49. ],
       [58.5, 61. ],
       [43.5, 43.5]])

passiamo ad un ulteriore esercizio, le immagini possono essere rappresentate tramite una matrice.

![digit](./images/digit.gif)

La convoluzione sta alla base delle reti neuronali di maggior successo nel campo della computer vision

## Decomposizione di una matrice

Un altro aspetto importante è quello relativo alla decomposizione di una matrice.
Vediamo ad esempio una matrice che collega una parola (termine ad un documento)

![document term](./images/document_term.png)

Tramite una decomposizione riusciamo ad ottenere due matrici che rappresentano gli argomenti nei documenti e la loro importanza.

![nmf](./images/nmf_doc.png)

## Rimozione dello sfondo

Un'altra cosa interessante che possiamo fare è la rimozione dello sfondo tramite tecniche di rimozione dello sfondo

![survelliance](./images/surveillance3.png)

## Pagerank

Un altro algoritmo interessante è quello usato da google 

![pagerank](./images/page_rank_graph.png)


## Stabilità numerica

### Aritmetica dei numeri a virgola mobile

Per comprendere la stabilità numerica dobbiamo prima comprendere come i computer (che non possono salvare numeri a cifre infinite) trattano i numeri.


Prendiamo un momento per vedere la funzione sottostante, eseguendo i calcoli a mano, calcoliamo il risultato di $x_2 = f(\frac{1}{10})$ ora sempre sulla carta calcoliamo $x_3 = f(x_2)$ e via così per 10 volte

In [8]:
def f(x):
    if x <= 1/2:
        return 2 * x
    if x > 1/2:
        return 2*x - 1

Ora eseguiamo il calcolo tramite computer prima utilizzando il supporto alle frazioni e poi usando i numeri a virgola mobile:

In [9]:
from fractions import Fraction

fract = []

x = Fraction(1, 10)
for i in range(80):
    fract.append(x)
    x = f(x)

In [10]:
floatValues = []

x = 1/10
for i in range(80):
    floatValues.append(x)
    x = f(x)

In [11]:
index = 0
for xfract,xfloat in zip(fract,floatValues):
    index+=1
    print(f"{str(index):3} {str(xfract):4} {xfloat:.5f} {abs(xfract-xfloat):.5f}")

1   1/10 0.10000 0.00000
2   1/5  0.20000 0.00000
3   2/5  0.40000 0.00000
4   4/5  0.80000 0.00000
5   3/5  0.60000 0.00000
6   1/5  0.20000 0.00000
7   2/5  0.40000 0.00000
8   4/5  0.80000 0.00000
9   3/5  0.60000 0.00000
10  1/5  0.20000 0.00000
11  2/5  0.40000 0.00000
12  4/5  0.80000 0.00000
13  3/5  0.60000 0.00000
14  1/5  0.20000 0.00000
15  2/5  0.40000 0.00000
16  4/5  0.80000 0.00000
17  3/5  0.60000 0.00000
18  1/5  0.20000 0.00000
19  2/5  0.40000 0.00000
20  4/5  0.80000 0.00000
21  3/5  0.60000 0.00000
22  1/5  0.20000 0.00000
23  2/5  0.40000 0.00000
24  4/5  0.80000 0.00000
25  3/5  0.60000 0.00000
26  1/5  0.20000 0.00000
27  2/5  0.40000 0.00000
28  4/5  0.80000 0.00000
29  3/5  0.60000 0.00000
30  1/5  0.20000 0.00000
31  2/5  0.40000 0.00000
32  4/5  0.80000 0.00000
33  3/5  0.60000 0.00000
34  1/5  0.20000 0.00000
35  2/5  0.40000 0.00000
36  4/5  0.80000 0.00000
37  3/5  0.60000 0.00000
38  1/5  0.20000 0.00000
39  2/5  0.40000 0.00000
40  4/5  0.80000 0.00000


L'esempio sopra mostra chiaramente come dalla iterazione 42 in poi l'errore diventi sempre più grande fino a diventare ingestibile, cosa è andato storto ?

**La matematica è continua ed infinita, i computer sono discreti e finiti**

Come funziona il salvataggio dei numeri reali in un computer?
I numeri a virgola mobile sono composti da tre parti, segno mantissa ed esponente. La base si suppone sia sempre 2
![float](./images/float.png)

Prendiamo come esempio un numero a precisione doppia, il numero più grande che può essere rappresentato è $1.79 \times 10^{308}$ il più piccolo è $2.23 \times 10^{-308}$.

La rappresentazione dei numeri non è equidistante qui un grafico che mostra come sono distribuiti i numeri:

![scale](./images/fltscale-wh.png)

### Epsilon di macchina

Questo numero rappresenta lo scarto minimo rappresentabile. Se prendiamo due numeri $a$ e $b$ se eseguiamo il calcolo e otteniamo che $a - b < \epsilon$ ecco questo è come scrivere che $a - b = 0$.

La rappresentazione standard assume questo valore:

$$\varepsilon_{machine} = 2^{-53} \approx 1.11 \times 10^{-16}$$

## Varie rappresentazioni

Esistono rappresentazioni multiple in merito ai numeri reali ad esempio:
* aritmetica a punto fisso
* aritmetica logaritmica

Per capirci esiste un [libro](https://perso.ens-lyon.fr/jean-michel.muller/chapitre1.pdf) con ben 16 capitoli che parla solo di questo.

## Condizionamento e stabilità

Visto che non possiamo rappresentare un numero esattamente in un computer è importante conoscere quanto una piccola perturbazione dell'input si ripercuote sull'output.

Condizionamento: comportamento perturbativo di un problema matematico.
Stabilità: comportamento perturbativo di un algoritmo usato per risolvere i problemi sul computer

Esempio: autovalori di una matrice

Le matrici A e B sono praticamente simili  

In [12]:
import scipy.linalg as la 
import numpy as np

A = np.array([[1., 1000], [0, 1]])
B = np.array([[1, 1000], [0.001, 1]])

print(A)

print(B)

[[   1. 1000.]
 [   0.    1.]]
[[1.e+00 1.e+03]
 [1.e-03 1.e+00]]


Questo comando è interessante in quanto impostiamo la visualizzazione a virgola fissa con una precisione a 4 cifre

In [13]:
np.set_printoptions(suppress=True, precision=4)

In [14]:
wA, vrA = la.eig(A)
wB, vrB = la.eig(B)

wA, wB

(array([1.+0.j, 1.+0.j]), array([ 2.+0.j, -0.+0.j]))

come si vede una piccola variazione comporta un grande cambiamento nel risultato.

## Precisione di approssimazione

E' raro che si abbia il bisogno di eseguire calcoli sulle matrice con precisione elevata su larga scala. In effetti quando si usano algoritmi di machine learning gli approcci meno accurati prevengono l'overfitting.

Se accettiamo una accuratezza minore, possiamo aumentare la velocità di moltoe e/o diminuire l'uso della memoria usando algoritmi approssimati.
Questi algoritmi tipicamente danno una risposta corretta con una certa probabilità. Lanciando più volte l'algoritmo possiamo generalemente incrementare la probabilità di ottenere un risultato corretto.

Esempio: filtro di *Bloom* che usando poca memoria riesce a dire se un elemento appartiene o meno ad una collezione (usato nelle blockchain)

## Errori costosi

L'Agenzia spaziale europea spese 10 anni e 7 miliardi di dollari sul razzo Ariane 5.
Questo è quello che succede quando si prova a adattare un numero a 64 bit a un numero a 16 bit (integer overflow):

[![Ariane V](https://img.youtube.com/vi/PK_yguLapgA/0.jpg)](https://www.youtube.com/watch?v=PK_yguLapgA)

Intel si è giocata 475 milioni di dollari per un errore di progettazione.

## Uso della memoria

Abbiamo parlato di come vengono salvati i numeri nella memoria ma ora è giunto il momento di parlare di come le matrici vengono salvate nella memoria.

Osserviamo la matrice qui sotto notiamo subito una cosa, molti elementi hanno valore 0 e non ha senso usare memoria per loro.

![sparse](./images/sparse.png)

Salviamo dunque gli elementi non a zero (sparse storage), la matrice sopra è una **matrice sparsa**.

## Vettorizzazione

Le cpu moderne e le GPU possono eseguire operazioni su elementi multipli una volta sola su un singolo core. Questo è chiamato SIMD (Single Instruction stream, Multiple Data stream) ma invece di usare direttamente queste istruzioni le librerie come numpy usano delle api low level in particolare BLAS e LAPACK.

### Pacchetti per il calcolo sulle matrici: BLAS e LAPACK
BLAS (Basic Linear Algebra Subprograms): sono delle specifiche a basso livello per le operazioni su matrici e vettori. Queste sono i blocchi standard per eseguire operazioni di base su vettori e matrici.
BLAS è nata come libreria Fortran nel 1979. Implementazioni di librerie BLAS sono MD Core Math Library (ACML), ATLAS, Intel Math Kernel Library (MKL) e OpenBLAS.

LAPACK è scritto in Fortran, fornisce delle routine per risolvere sistemi di equazioni lineari, problemi su autovalori e problemi sui valori singoli. Fattorizzazioni di Matrici (LU, Cholescky, QR, SVD, Shur). 

## Località 

Usare metodi lenti per accedere ai dati (ad esempio usando internet) può essere un miliardo di volte più lento dei metodi più veloci (ad esempio usando i registri). Perciò vogliamo eseguire più operazioni possibili utilizzando i metodi veloci, non vogliamo continuare a caricare i dati da una memoria lenta a quella veloce. Vogliamo perciò dobbiamo provare ad usare i dati salvati vicino a quelli che andreamo ad utilizzare prossimamente.    


## Temporizzazioni
Il problema delle "temporizzazioni" avviene quando il risultato di un calcolo è salvato in una variabile temporanea della RAM per poi essere usata per eseguire un ulteriore calcolo. Sarebbe molto più efficace usare la cache o i registri tutt il tempo necessario per i calcoli e salvare il risultato nella ram.

## Scalabilità

Spesso scopriremo che abbiamo più dati che memoria, o tempo per il calcolo. In questo caso dovremmo poter scalare su più core o nodi.


