Abbiamo visto come il codice di *Shannon* **non è sempre ottimale per minimizzare** $E[l_c]$. Vediamo adesso come il codice di Huffman ci permette di raggiungere l'ottimalità.

## Esempio Algoritmo di Huffman
Sia $D = 2$ e sia una sorgente $\mathbb{X} = \{x_1,\dots,x_6\}$ con $p$ ordinate $p = \{0.45,0.16,0.13,0.12,0.09,0.05\}$ costruisco una sorgente $\mathbb{X'}$ prendendo i $D$-simboli meno probabili e li sommo riordinando poi le probabilità:
\begin{align}
\begin{cases}
           &0.09 \\
           &0.05
\end{cases} \rightarrow 0.14
\end{align}
$p' = \{0.45, 0.16, \rightarrow 0.14 ,0.13, 0.12\}$. A questo punto continuo e costruisco $\mathbb{X''}$ mi fermo quando raggiungo una sorgente che ha solo $D = 2$ simboli.
\begin{align}
\begin{cases}
           &0.13 \\
           &0.12
\end{cases} \rightarrow 0.25
\end{align}
$p'' = \{0.45, \rightarrow 0.25, 0.16, 0.14\}$
\begin{align}
\begin{cases}
           &0.14 \\
           &0.16
\end{cases} \rightarrow 0.30
\end{align}
$p''' = \{0.45, \rightarrow 0.30, 0.25\}$
\begin{align}
\begin{cases}
           &0.30 \\
           &0.25
\end{cases} \rightarrow 0.55
\end{align}
$p'''' = \{\rightarrow 0.55, 0.45\}$
Costruisco quindi le parole di codice in questo modo:
\begin{align}
    \begin{cases}
        0.55 \rightarrow 1\\
        0.45 \rightarrow 0\\
    \end{cases}
    \begin{cases}
        0.40 \rightarrow 0\\
        0.30 \rightarrow 11\\
        0.25 \rightarrow 10\\
    \end{cases}
    \begin{cases}
        0.40 \rightarrow 0\\
        0.25 \rightarrow 10\\
        0.16 \rightarrow 111\\
        0.14 \rightarrow 110
    \end{cases}
    \begin{cases}
        0.40 \rightarrow 0\\
        0.16 \rightarrow 111\\
        0.14 \rightarrow 110\\
        0.13 \rightarrow 101\\
        0.12 \rightarrow 100
    \end{cases}
    \begin{cases}
        0.40 \rightarrow 0 = x_1\\
        0.16 \rightarrow 111 = x_2\\
        0.13 \rightarrow 101 = x_3\\
        0.12 \rightarrow 100 = x_4\\
        0.09 \rightarrow 1101 = x_5\\
        0.05 \rightarrow 1100 = x_6
    \end{cases}
\end{align}
<mark>Abbiamo ottenuto il codice per la sorgente $<\mathbb{X},p>$</mark>. **L'algoritmo di Huffman** impiega $O(|\mathbb{X}|\cdot \log |\mathbb{X}|)$.
## Definizione 
Sia $\mathbb{c'}$ un codice $D$-ario di **Huffman** per la sorgente $\mathbb{X'} = \{x_1,\dots,x_{m-D+1}\}$ con probabilità ordinate $p_1\geq p_2 \geq \dots p_{m-D+1}$. 

Sia la sorgente $\mathbb{X}$ di $m$ simboli ottenuta da $\mathbb{X'}$ togliendo il $k$-esimo simbolo $x_k$ e aggiungendo $D$-nuovi simboli $x_{m-D+2},\dots,x_{m+1}$ con probabilità $p_{m-D+2}+\dots+p_{m+1}$ tale che $0<p_{m-D+2},p_{m+1}< p_{m-D+1}$ e $p_{m-D+2}+\dots+p_{m+1} = p_k$ allora il codice 
\begin{align}
    \mathbb{c}(x) &= \begin{cases}
        c'(x) : \forall x \neq x_k\\
        c'(x)i : x = x_{m-D+2+i} \quad i= 0,\dots,D-1
    \end{cases}
\end{align}
<mark>è un **codice di Huffman**</mark>
*Semanticamente* stiamo formalizzando la costruzione di **Huffman**, e dicendo che per ogni sorgente fittizia che costruiamo il codice è di **Huffman**.
___
Adesso andiamo a vedere che il codice di **Huffman** è anche **ottimale**. Per dimostrare l'ottimalità dobbiamo costruire un codice $\mathbb{c}$ di **Huffman** che per definizione è un codice istantaneo, e vogliamo far vedere che per qualsiasi altro codice $\mathbb{c_2}$ (anche esso di **Huffman**) vale che:
$$
    E[l_c] \leq E[l_{c_2}]
$$
Confrontiamo $\mathbb{c_2}$ con $\mathbb{c}$ che ha **due parole di lunghezza massima** e vogliamo vedere se:
1. Se vale $E[l_{c_2}] < E[l_c]$ allora $\mathbb{c}$ non è minimo
2. Altrimenti se vale $$E[l_{c_2}] \geq E[l_c]$$ allora $\mathbb{c}$ è ancora il minimo
Ma le due parole di lunghezza massima **magari**non hanno associata la probabilità che è quella minima( o la codifica che è quella minima). Quindi dobbiamo scegliere un'altro codice $\mathbb{c_3}$ che ha **due parole di lunghezza massima con probabilità minima**. Trovati quindi i candidati $\mathbb{c_2},\mathbb{c_3}$ e scelgo **il codice che ha il valore atteso minore** e lo confronto con $E[l_c]$.

## Teorema
Dato un modello della sorgente $<\mathbb{X}, p>$, con $D > 1$ e sia $\mathbb{c}$ il codice $D$-ario di **Huffman**. 
<div style="background-color: #e0e0e0; padding: 10px; border-radius: 5px;text-align: center; font-size:16px;"> $\mathbb{c}$ <b>minimizza</b> $E[l_c]$ fra <b>tutti i codici $D-ari$ istantanei</b> per la sorgente $<\mathbb{X},p>$. </div>

### <mark>Dimostrazione</mark>
1. Partiamo dal **passo base**
   
    Sia $|\mathbb{X}| = m$ dove $m = 2$ allora $\mathbb{c}$(con $D=2$) è ottimo per $m = 2$ perchè **Huffman** dati due soli simboli della sorgente codfica con $0,1$(questo **indipendentemente dalle probabilità**).
   \begin{cases}
       x_1 \rightarrow 0\\
       x_2 \rightarrow 1
   \end{cases}
2. Passo **induttivo**: assumiamo che $m > 2$, e per ipotesi induttiva che $\mathbb{c}$ di Huffman sia ottimo per una sorgente che emette $|\mathbb{X}|\leq m-1$. <mark>Voglio dimostrare che lo sia anche per $m$-simboli</mark>.

    Definisco la sorgente $<\mathbb{X},p>$ (**di $m$ simboli**) dove  i simboli $u,v \in \mathbb{X}$ e le loro probabilità sono minime:
    \begin{cases}
        p(a)\\
        p(b)\\
           \dots\\
       p(u)\\
       p(v)
    \end{cases}
*Come abbiamo fatto simulando l'algoritmo di Huffman*: le probabilità vengono ordinate dalla più alte alle più piccole.

Ora definiamo invece un'altra sorgente $<\mathbb{X}',p>$ che è identica alla sorgente $\mathbb{X}$ ma gli elementi $u,v$ sono rimpiazzati dall'elemento $z$ che ha $p(z) = p(u)+p(v)$(*costruzione della sorgente fittizia nell'algoritmo di Huffman*). Quindi:
$$
    z \in \mathbb{X'} \quad z \notin \mathbb{X}
$$
Inoltre la distribuzione di probabilità $p'$ è uguale a $p$ tranne per il simbolo $z$:
$$
p'(x) = \begin{cases}
    p(x) \quad &\text{per}\quad  &x\neq z\\
    p(u)+p(v) \quad &\text{per}\quad  &x = z
\end{cases}    
$$
Chiamo $\mathbb{c}'(x)$ il codice di Huffman per la sorgente $\mathbb{X}'$ ma dal momento che $|\mathbb{X}'| = m -1$ allora <mark>$\mathbb{c}'(x)$ è anche esso ottimale per **ipotesi induttiva**</mark>. Allora costruiamo il codice $\mathbb{c}$ da $\mathbb{c'}$:
$$
\mathbb{c}(x) = 
\begin{cases}
    c'(x) \quad \text{se} \quad x\neq u,v\\
    u = c'(z)1\\
    v = c'(z)0
\end{cases}
$$
Sostanzialmente alle codifiche di $u,v$ dobbiamo prendere la codifica di $z$ e per differenziarli concateniamo con il bit $0,1$ (*Anche questo è un passaggio visto nell'algoritmo di Huffman*). Dimostriamo ora che il codice $\mathbb{c}$ sia anche esso minimo, calcoliamo quindi $E[l_c]$
$$
\begin{align}
    E[l_c] &= \sum_{x \in \mathbb{X}} l_c(x) \cdot p(x) \quad &(1)\\
    &=\Big(\sum_{x' \in \mathbb{X'}}l_{c'}(x) \cdot p'(x)\Big) - l_{c'}(z) \cdot p'(z) + l_c(u)\cdot p(u) + l_c(v) \cdot p(v) \quad &(2)\\ 
    &= \Big(\sum_{x' \in \mathbb{X'}}l_{c'}(x) \cdot p'(x)\Big) - l_{c'}(z)\cdot p'(z) + \Big(l_{c'}(z)+1\Big)\cdot p(u) + \Big(l_c'(z)+1\Big)\cdot p(v) \quad &(3)\\
    &= \Big(\sum_{x' \in \mathbb{X'}}l_{c'}(x) \cdot p'(x)\Big) - l_{c'}(z)\cdot p'(z) + \Big(l_{c'}(z)+1\Big)\cdot \Big(p(u) + p(v)\Big) \quad &(4)\\
    &= \Big(\sum_{x' \in \mathbb{X'}}l_{c'}(x) \cdot p'(x)\Big) - l_{c'}(z)\cdot p'(z) + \Big(l_{c'}(z)+1\Big)\cdot \Big(p'(z)\Big) \quad &(5)\\
    &= \Big(\sum_{x' \in \mathbb{X'}}l_{c'}(x) \cdot p'(x)\Big) - l_{c'}(z)\cdot p'(z) + l_{c'}(z)\cdot p'(z) + p'(z) \quad &(6)\\
    &= \Big(\sum_{x' \in \mathbb{X'}}l_{c'}(x) \cdot p'(x)\Big) + p'(z) \quad &(7)\\
    \\
    &= E[l_{c'}] + p'(z) \quad &(8)\\
\end{align}
$$
___

Consideriamo ora un codice $\mathbb{c_2}$ istantaneo su $<\mathbb{X},p>$ tale per cui $r,s$ sono due simboli con lunghezza massima
$$
max: l_{c_2} = \begin{cases}
    l_{c_2}(r)\\
    l_{c_2}(s)
\end{cases}
$$
Vogliamo dimostrare che $E[l_c] \leq E[l_{c_2}]$ per dimostrare ciò utilizziamo il fatto che $r,s$ siano due nodi fratelli. Costruiamo un codice $\mathbb{\tilde c_2}$ che prende **le parole di lunghezza massima** e gli associa <mark>**la probabilità minime**(che hanno le parole della sorgente $u,v$)</mark>:
$$
\mathbb{\tilde c_2} = \begin{cases}
    \mathbb{c_2}(x) \quad \text{per} \quad x \notin \{u,v,r,s\}\\
    \mathbb{c_2}(u) \quad x = r \\
    \mathbb{c_2}(r) \quad x = u \\
    \mathbb{c_2}(v) \quad x = s\\
    \mathbb{c_2}(s) \quad x = v
\end{cases}
$$
*Ho scambianto le parole di lunghezza massima di $\mathbb{c_2}$, le parole di probabilità minima di $\mathbb{c_2}$ e ho scambiato le codifiche tra le parole di lunghezza massima e di quelle di probabilità minima*.
A questo punto devo calcolare qual è **il codice migliore** cioè 
$$
\begin{align}
    E[l_{\mathbb{\tilde c_2}}] \leq E[l_{\mathbb{c_2}}] \quad &(1)\\
    E[l_{\mathbb{\tilde c_2}}] - E[l_{\mathbb{c_2}}] \leq 0 \quad &(2)\\
\end{align}
$$
Dato che per tutti gli $x \notin \{u,v,r,s\}$ i due codici codificano le parole ugualmente significa che possiamo ridurre questa disuguaglianza a:
$$
\begin{align}
    &p(r)\cdot l_{\tilde c_2}(u) + p(u)\cdot l_{\tilde c_2}(r) + p(s)\cdot l_{\tilde c_2}(v) + p(v)\cdot l_{\tilde c_2}(s) - p(u)l_{c_2}(u) - p(v)l_{c_2}(v)- p(r)l_{c_2}(r) - p(s)l_{c_2}(s) \quad &(1)\\
\end{align}
$$
Si nota da ciò che questa somma è una quantità negativa quindi $\leq 0$ quindi $E[l_{\tilde c_2}] \leq E[l_{c_2}]$ quindi il codice $\tilde c_2$ è il migliore cioè quindi il candidato da confrontare con $E[l_c]$.
___
Ora costruiamo il codice $\tilde c_2'$ (*quindi accorcio di un passo*), questo vale a dire ciò
$$
\tilde c_2'(x) = \begin{cases}
    \tilde c_2(x)\quad  \text{per} \quad x \neq z\\
    \tilde c_2(\omega)\quad   \text{per} \quad x = z\\
  \end{cases}
$$
Il valore atteso di $E[l_{\tilde c_2}]$ che è dato da:
$$
\begin{align}
E[l_{\tilde c_2}] &= \Big[\sum_{\forall x \neq z} p'(x) \cdot l_{\tilde c_2}(x)\Big] + p(u) \cdot \Big[l_{\tilde c_2'}(z)+1\Big]+ p(v) \cdot \Big[l_{\tilde c_2'}(z)+1\Big] \quad &(1)\\
&= \Big[\sum_{\forall x \neq z} p'(x) \cdot l_{\tilde c_2}(x)\Big] + \Big[l_{\tilde c_2'}(z)+1\Big]\cdot \Big[p(u)+ p(v)\Big] \quad &(2)\\
&= \Big[\sum_{\forall x \neq z} p'(x) \cdot l_{\tilde c_2}(x)\Big] + \Big[l_{\tilde c_2'}(z)+1\Big]\cdot \Big[p'(z)\Big] \quad &(3)\\
&= E[l_{\tilde c_2'}]+ p'(z) \quad &(4)\\
\end{align}
$$
Mettendo insieme i risultati
$$
\begin{align}
    E[l_{\tilde c_2}] = E[l_{\tilde c_2'}] + p'(z) \quad &(1)\\
    E[l_{\tilde c_2}] \leq E[l_{c_2}] \quad &(2)\\
    E[l_{c}] =  E[l_{c'}]+p'(z) \quad &(3)\\
    E[l_{c}] \leq  E[\tilde c_2] \quad &(4)\\
\end{align}
$$

___
### Esercizi

<img src="Media/Esercizio-02.png" style = "width:400px">

$$
\mathbb{c} = \{1,00,011,01000,01001,01010,01011\}
$$

con $E[l_\mathbb{c}] =2.02$
Il codice di Huffman per $D = 3$ è risulta essere:
$$
\mathbb{c} = \{0,1,20,22,210,211,212\}
$$
