<div align=right>Margherita Boanini (7051199) </div>

# Laboratorio di Algoritmi
## Confronto tra gli algoritmi selection-sort e merge-sort

### Indice
* [**Introduzione**](#introduzione)
* [**Caratteristiche teoriche degli algoritmi e delle strutture dati utilizzate**](#teoria)
    * [Analisi di un algoritmo](#analisiAlg)
    * [Il metodo divide et impera](#divideEtImpera)
    * [Merge-sort](#mergeSort)
        * Correttezza
        * Complessità
        * Stabilità
    * [Selection-sort](#selectionSort)
* **Esperimenti**
* **Tabelle e grafici**
* **Analisi**

## Introduzione
<a id="introduzione"></a>

Il problema dell'ordinamento di un insieme è un problema fondamentale nell'ambito dell'informatica e dell'analisi degli algoritmi:<br>
> Dato in ingresso un insieme di *n* numeri $\{a_1, a_2,..., a_n\}$, trovare in uscita un'opportuna permutazione $\{a'_1, a'_2,...,a'_n\}$ tale che $a'_1 \leq a'_2 \leq ... \leq a'_n$.<br> 

L'obiettivo principale dell'ordinamento è ottenere una rappresentazione ordinata dei dati, facilitando le operazioni di ricerca, confronto e analisi.
Esiste una grande quantità di algoritmi che permettono di risolvere tale problema e sebbene siano algoritmi progettati per risolvere lo stesso problema spesso sono notevolemente diversi nella loro efficienza.  <br>

In seguito ne esamineremo due in particolare: selection sort e merge sort, con l'obiettivo di verificare i vantaggi e gli svantaggi di entrambi. <br>

Nello studio degli algoritmi, andremo ad utilizzare dei moduli Python, importanti da ricordare: <br>
 - <code>numpy</code>  $\rightarrow$ utilizzato per generare array con valori casuali utilizzando la funzione <code>numpy.random.randint()</code>
 - <code>matplotlib</code> $\rightarrow $ utilizzato per creare grafici e tabelle al fine di analizzare visivamente le prestazioni dei due algoritmi. Le funzioni <code>matplotlib.pyplot.plot()</code> e <code>matplotlib.pyplot.table()</code> sono state impiegate a tale scopo.

Eseguire il codice sottostante per installarli:

In [4]:
!pip install numpy --user --quiet
!pip install matplotlib --user --quiet

<br>

## Caratteristiche teoriche
<a id="teoria"></a>

### Analisi di un algoritmo
<a id="analisiAlg"></a>

Un algoritmo si dice **stabile** se è in grado di fornire in output risultati attendibili quando l'insieme dei dati in input cambia, sia come valori sia come quantità di dati iniziali e se la propagazione di errori dovuta ai calcoli è limitata e controllabile a priori. Un algoritmo è più stabile di un altro se l'influenza degli errori nel primo è minore che nel secondo. Dunque, la stabilità di un algoritmo dipende dall'alterazione della soluzione in funzione dell'alterazione dei dati iniziali e dalla modalità di propagazione degli errori. Gli algoritmi di ordinamento si ritengono stabili se non alterano l'ordine relativo di oggetti distinti che sono uguali rispetto alla relazione d'ordine.
<br><br>
Un algoritmo si dice **corretto** se, per ogni istanza di input, termina con l'output giusto. 
Per dimostrare la correttezza di algoritmi iterativi si usa spesso un invariante di ciclo. Diciamo che un algoritmo corretto risolve il problema computazionale dato.
<br><br>
La **complessità** di un algoritmo rappresenta l'analisi delle risorse impiegate da un algoritmo per risolvere un problema, in funzione della dimensione e del tipo di input. 
Le risorse considerate principalmente sono il tempo (utilizzato per completare l'algoritmo), lo spazio (la quantità di memoria utilizzata) e la banda (la quantità di bit spediti). Per quanto riguarda la complessità temporale, i diversi algoritmi di ordinamento si differenziano. <br>

|Algoritmo|Caso migliore|Caso medio| Caso peggiore|
|:---:|:---:|:---:|:---:|
|**SelectionSort**| $O(n^2)$ | $O(n^2)$ | $O(n^2)$ |
|**InsertionSort**| $O(n)$ | $O(n^2)$ | $O(n^2)$ |
|**BubbleSort**| $O(n)$ | $O(n^2)$ | $O(n^2)$ |
|**MergeSort** | $O(nlog_2n)$ | $O(nlog_2n)$ | $O(nlog_2n)$ |
|**QuickSort** | $O(nlog_2n)$ | $O(nlog_2n)$ | $O(n^2)$ |
|**HeapSort** | $O(nlog_2n)$ | $O(nlog_2n)$ | $O(nlog_2n)$ |

<br>
Il problema di ordinare una sequenza di *n* elementi ha una delimitazione inferiore di complessità pari a $nlog_2(n)$. Algoritmi ottimi sono di tipo $O(nlog_2(n))$. <br>

### Il metodo divide et impera
<a id="divideEtImpera"></a>

 Gli algoritmi ricorsivi sono algoritmi che chiamano sé stessi in modo ricorsivo, una o più volte, per trattare sottoproblemi dello stesso tipo e risolvere così un determinato problema. Gli algoritmi ricorsivi, generalmente, adottano un approccio **divide et impera**, che prevede tre passi a ogni livello di ricorsione:
 - Divide: il problema viene diviso in un certo numero di sottoproblemi, che sono istanze più piccole dello stesso problema. 
 - Impera: i sottoproblemi vengono risolti in modo ricorsivo; quando i sottoproblemi hanno una dimensione sufficientemente piccola, essi vengono risolti direttamente.
 - Combina: le soluzioni dei sottoproblemi vengono combinate per generare la soluzione del problema originale. 

<br>

### Merge Sort
<a id="mergeSort"></a>

L'algoritmo **merge sort** è un algoritmo di ordinamento basato su confronti che utilizza un processo di risoluzione ricorsivo, sfruttando la tecnica del divide et impera. Opera nel modo seguente:
- Divide: divide la sequenza degli $n$ elementi da ordinare, $A[p...r]$ in due sottosequenze di $n/2$ elementi ciascuna, $A[p...q]$ e $A[q+1...r]$, dove $q$ è il punto di mezzo di $A[p..r]$.
- Impera: ordina le due sottosequenze, $A[p...q]$ e $A[q+1...r]$, in modo ricorsivo utilizzando l'algoritmo merge sort.
- Combina: fonde le due sottosequenze ordinate, $A[p...q]$ e $A[q+1...r]$, per generare una singola sequenza ordinata, $A[p...r]$. 

La ricorsione si ferma quando la sequenza da ordinare ha lunghezza 1, poiché una sequenza di tale lunghezza è già ordinata. 
L'operazione chiave dell'algoritmo merge sort è la fusione delle due sottosequenze ordinate nel passo "combina". Per effettuare la fusione utilizziamo una procedura ausiliaria $MERGE(A,p,q,r)$, dove $A$ è un array e $p,q$ e $r$ sono indici dell'array tali che $p\leq q<r$. La procedura assume che i sottoarray $A[p..q]$ e $A[q+1..r]$ siano ordinati; li fonde per formare un unico sottoarray ordinato che sostituisce il sottoarray corrente $A[p..r]$. 

La procedura $MERGE$ impiega un tempo $\Theta(n)$ dove $n = r-p+1$ è il numero totale di elementi da fondere.

In [2]:
# Implementazione di Merge Sort
 
# Fonde i due sottoarray di A[].
# Il primo sottoarray è A[p..q]
# Il secondo sottoarray è A[q+1..r]
 
 
def merge(A, p, q, r):
    n1 = q - p + 1
    n2 = r - q
 
    # crea due array temporanei
    L = [0] * (n1)
    R = [0] * (n2)
 
    # Copia i dati negli array L[] e R[]
    for i in range(0, n1):
        L[i] = A[p + i]
 
    for j in range(0, n2):
        R[j] = A[q + 1 + j]
 
    # Fonde gli array temporanei in A[p..r]
    i = 0
    j = 0     
    k = p
 
    while i < n1 and j < n2:
        if L[i] <= R[j]:
            A[k] = L[i]
            i += 1
        else:
            A[k] = R[j]
            j += 1
        k += 1
 
    # Copia gli elementi rimanenti di L[], se ce ne sono
    while i < n1:
        A[k] = L[i]
        i += 1
        k += 1
 
    # Copia gli elementi rimanenti di R[], se ce ne sono
    while j < n2:
        A[k] = R[j]
        j += 1
        k += 1

 
def mergeSort(A, p, r):
    if p < r:
        q= p+(r-p)//2
 
        mergeSort(A, p, q)
        mergeSort(A, q + 1, r)
        merge(A, p, q, r)


|<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/4/4c/MergeSort_2.gif/400px-MergeSort_2.gif">|
|:---:|
| Rappresentazione animata del funzionamento di MergeSort in esecuzione su un array|

!!!! IMMAGINI DEL FUNZIONAMENTO !!! <br>
In pratica: si spezza l'array in due parti di ugual dimensione, si ordinano separatamente queste due parti (chiamata ricorsiva), si fondono i due sottoarray ordinati così ottenuti in modo da ottenere un unico array ordinato. Il punto cruciale è l'algoritmo di fusione.


#### Correttezza
<a id="correttezzaMerge"></a>

Si può dimostrare la correttezza di Merge Sort per induzione su $n$. Se $n=2$ è corretto. Supponiamo che sia corretto per tutti gli array con meno di $n$ elementi. Sia A un array con $n>1$ elementi ed eseguiamo l'algoritmo. Le due chiamate agiscono su un numero di elementi che è circa la metà di $n$, quindi per queste chiamate vale l'ipotesi induttiva: i due sottoarray sono ordinati al termine dell'esecuzione. Inoltre, per la correttezza della procedura MERGE possiamo utilizzare l'invariante di ciclo.

#### Stabilità
<a id="stabilitàMerge"></a>
Merge Sort è un algoritmo stabile. Quando ci sono elementi con la stessa chiave infatti, Merge Sort assegna loro posizioni nell'array ordinato che rispettano l'ordine in cui compaiono nell'array di input. E' fondamentale l'istruzione <code>if L[i] <= R[j]</code>, in cui l'uguale permette di scegliere sempre per primo l'elemento di sinistra, ossia quello che, precedentemente all'ordinamento, veniva prima di un altro elemento, eventualmente con chiave uguale.
    
<br> <br>Il mergesort non è sul posto: oltre ad essere ricorsivo (e quindi occupare spazio sullo stack) è necessario un array ausiliare. La complessità spaziale del merge è dunque $\Theta(n)$.


#### Complessità
<a id="complessitàMerge"></a>
L'algoritmo merge sort, per ordinare una sequenza di $n$ elementi, ha complessità temporale $T(n) = \Theta(nlogn)$ sia nel caso medio che nel caso peggiore. Infatti:
- la funzione MERGE ha complessità temporale $\Theta(n)$:
    oltre alle righe in cui si ha un tempo costante, vi sono solo i due cicli for, che servono per copiare il sottoarray $A[p..q]$ in $L[0..n_1-1]$ e il sottoarray $A[q+1..r]$ in $R[0..n_2-1]$, che impiegano un tempo $\Theta(n_1+n_2) = \Theta(n)$.
- MERGESORT invece richiama se stessa due volte e ogni volta su (circa) metà della sequenza in input.

Dunque il tempo di esecuzione dell'algoritmo è dato dalla ricorrenza: 
    $T(n) =\left \{ \begin{array}{rl}
    \Theta(1)\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ se\ n=1\\
    2T(n/2) + \Theta(n)\ \ \ se\ n>1
    \end{array}
    \right.$

<br>
Grazie al "teorema dell'esperto" si può dimostrare che $T(n)$ è $\Theta(nlgn)$.
Il caso migliore si ha con un array ordinato già in partenza, ma la complessità rimane la stessa.
La funzione logaritmica cresce più lentamente di qualsiasi funzione lineare, per input sufficientemente grandi. Dunque, l'algoritmo mergesort, con il suo tempo di esecuzione $\Theta(nlgn)$, supera le prestazioni di molti algoritmi di ordinamento, come Selection Sort. Cosa che però risulterà inversa nel caso di input di piccole dimensioni. 


<br>

### Selection Sort
<a id="selectionSort"></a>

**Selection Sort** è un algoritmo di ordinamento che, in ogni iterazione, seleziona l'elemento più piccolo da una lista non ordinata  e posiziona quell'elemento all'inizio della lista non ordinata. L'algoritmo mantiene due sottoarray in un unico array dato.

<u>Funzionamento</u>:
1. Imposta il primo elemento come <code>minimum</code>
2. Confronta il <code>minimum</code> con il secondo elemento. Se il secondo elemento è minore del <code>minimum</code>, imposta il secondo elemento come <code>minimum</code>. 
    Confronta il <code>minimum</code> con il terzo elemento. Di nuovo, se il terzo elemento è minore, allora assegna il <code>minimum</code> al terzo elemento, altrimenti non fare nulla. Il processo va avanti fino all'ultimo elemento.
3. Dopo ogni iterazione, il <code>minimum</code> è posizionato in cima alla lista non ordinata.
4. Per ogni iterazione, l'indicizzazione inizia dal primo elemento non ordinato. I passaggi dal primo al terzo sono ripetuti finché tutti gli elementi non sono posizionati nella loro posizione corretta.

In [5]:
# Implementazione del selection Sort
def selectionSort(array, size):
   
    for step in range(size):
        min_idx = step

        for i in range(step + 1, size):
         
            # to sort in descending order, change > to < in this line
            # select the minimum element in each loop
            if array[i] < array[min_idx]:
                min_idx = i
         
        # put min at the correct position
        (array[step], array[min_idx]) = (array[min_idx], array[step])

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/a/a9/AnimazioneSelectionSort.gif/400px-AnimazioneSelectionSort.gif">
<br> Rappresentazione animata del funzionamento di Selection Sort

#### Correttezza
<a id="correttezzaSel"></a>

Essendo un algoritmo iterativo, la correttezza del selction sort è dimostrabile tramite l'utilizzo dell'invariante di ciclo. 

#### Complessità
<a id="complessitàSel"></a>

Dal punto di vista delle operazioni svolte, non esiste un caso particolarmente favorevole, o al contrario, particolarmente sfavorevole: l'algoritmo esegue lo stesso numero di operazioni qualunque sia la configurazione iniziale dell'array A. 
Ad ogni iterazione del ciclo più esterno, il ciclo più interno esegue esattamente $n-i$ confronti. Il numero totale di confronti è:<br>
$\sum_{i=1}^{n-1} n-i = \sum_{j=1}^{n-1} j = \frac{n(n-1)}{2} = O(n^2) $ <br>
Prima vi è la ricerca del minimo che ha complessità lineare, in tutti i casi (peggiore, migliore o medio). Per ogni elemento (in realtà l'ultimo elemento è già in ordine, quindi n-1 volte) viene ripetuta la ricerca del minimo. La prima volta si cerca su n elementi, la seconda su n-1, la terza su n-2 e così via... Dunque la complessità è determinata dalla somma: $\sum_{i=n}^1i = \sum_{i=1}^n i = \frac{n(n+1)}{2}$
<br>
Dunque il selection sort ha complessità temporale, per tutti i casi, quadratica. Ossia $T(n) = \Theta(n^2)$.

#### Stabilità
<a id="stabilitàSel"></a>

Il selection sort non è un algoritmo stabile, poiché può invertire l'ordine di elementi della stessa chiave. 

<br><br>
E' sul posto poiché utilizza solo poche variabili locali (e non è ricorsivo).

E' un algoritmo molto intuitivo ed estremamente semplice. Nella pratica è utile quando l'insieme da ordinare è abbastanza piccolo e dunque può essere utilizzato anche un algoritmo non molto efficiente con il vantaggio di non rendere troppo sofistica la codifica del programma che lo implementa.

<br>

## Test