## I codici

*Shannon* dice che una volta scelta la sorgente, prima di passare alla codifica ho bisogno di definire la funzione $P$ cioè la distribuzione di probabilità dei simboli emessi dalla sorgente, questa funzione ci permette di calcolare a priori la lunghezza delle parole del nostro codice che andremo a utilizzare.
$$
    l_c(x) \rightarrow \text{lunghezza del simbolo $x$-esimo data la sua probabilità di essere inviato}
$$
Si deduce da qui che simboli poco frequenti avranno $l_c(x)$ più grande mentre quelli più frequenti avranno $l_c(x)$ più piccolo.

Possiamo quindi infine considerare la **sorgente** come la tupla:
$$
    S< \mathbb{X}, P>
$$
Ma dato che vogliamo applicare la probabilità non sul singolo simbolo ma sui messaggi che inviamo definiamo:

### Distribuzione di probabilità sui messaggi
Data una distribuzione di probabilità $P$ sui simboli appartenenti a $\mathbb{X}$, definiamo $P_n$ una distribuzione di probabilità sui messaggi $x \in \mathbb{X}^n$ di lunghezza $n$ come $P_n(x_1,\dots,x_n) = P(x_1)\cdot P(x_2)\dots P(x_n)$. Si ipotizza in questa definizione che i simboli siano indipendenti fra loro e che quindi la probabilità di aver estratto un simbolo in precedenza non influenza la probabilità di estrarre il simbolo corrente (non ho delle probabilità condizionate).

Abbiamo definito sul canale un *codice d-ario* e una funzione $\mathbb{c}$ di codifica come: 
$$
    \mathbb{c}: \mathbb{X} \rightarrow \{0,\dots,D-1\}^+ \quad \text{oppure} \quad \mathbb{c}:\mathbb{X}\rightarrow D^+
$$
Dato il modello sorgente $<X,P>$ e data una base $D > 1$, vogliamo trovare un codice $\mathbb{c}$ (cioè una funzione da $\mathbb{X}\rightarrow D^+$) tale che il valore atteso delle lunghezze del messaggi:
$$
E[l_c(x)] = \sum_{x\in \mathbb{X}}l_c(x) \cdot P(x)
$$
Sia minima. <mark>Questo perchè il nostro obbiettivo è trasmettere più informazioni possibili, massimizzando la compressione</mark>. Ma come troviamo questo **tipo di codice**?

## Codici non singolari

Il codice $\mathbb{c}$ deve essere **non** singolare vale a dire che $\mathbb{c}$ deve essere una funzione iniettiva. Quindi andiamo a scegliere tra tutti i codici quelli che minimizzano l'informazioni(perchè il nostro obbiettivo è rendere **minimio il valore atteso delle lunghezze**) e che sia non singolare.
**Ma è sufficente questa proprietà**? Vediamo un esempio:

**Esempio 1**. Dato $\mathbb{X} = \{♥, ♦, ♠, ♣\}$ e utilizzando una funzione $\mathbb{c}$ di codifica binaria tale per cui
\begin{align}
    &\mathbb{c}(♥) \rightarrow 0\\
    &\mathbb{c}(♦) \rightarrow 010\\
    &\mathbb{c}(♠) \rightarrow 10\\
    &\mathbb{c}(♣) \rightarrow 01\\
\end{align}
Se sul canale spediamo questa sequenza $01001$ il messaggio che sto spendeno può essere:
1.  ♦♣
2.  ♣♥♣
3.  ♥♠♣

Dunque questo codice ha un **problema**: non siamo in grado di decodificarlo in maniera univoca. Dobbiamo trovare un codice che abbia delle proprietà migliori.

## Codici univocamente decodificabili

Siamo interessati ad avere un codice non singolare sia per i singoli caratteri ma anche per i messaggi di lunghezza $n$ che spediamo sul canale.
Definiamo $C$-grande come l'estensione del codice $\mathbb{c}$ per messaggi di lunghezza $n$:
$$
    C(x_1,\dots,x_n) = \mathbb{c}(x_1)\cdot \dots \cdot \mathbb{c}(x_n)
$$
Quindi
$$
    C: \mathbb{X}^+ \rightarrow D^+
$$
Si dice che il codice è **<mark>univocamente decodifcabile</mark>** se e solo se la sua estensione ($C$-grande) è **non singolare**.
Per capire se un codice gode di questa proprietà useremo l'**algoritmo di Sardinas-Patterson** che ha complessita $O(m\cdot L)$ dove $m = |\mathbb{X}|$ cioè la cardinalità dell'insieme dei simboli, mentre $L = \sum_{x\in\mathbb{X}}l_c(x) $ cioè la somma delle lunghezze dei vari simboli codificati.

**Esempio 2.** Sia $\mathbb{X} = \{♥, ♦, ♠, ♣\}$ e sia $\mathbb{c}$ il codice binario definito come
\begin{align}
    &\mathbb{c}(♥) \rightarrow 10\\
    &\mathbb{c}(♦) \rightarrow 00\\
    &\mathbb{c}(♠) \rightarrow 110\\
    &\mathbb{c}(♣) \rightarrow 11\\
\end{align}
$\mathbb{c}$ è univocamente decodificabile. Se spediamo sul canale le sequenze
\begin{cases}
    11000000\dots \rightarrow ?♦♦♦\dots\\ 
    11000000\dots \rightarrow ? ♦♦♦\dots
\end{cases}
Per capire se il messaggio inizia con $♣$ o con $♠$ devo aspettare la fine del messaggio per capire qual è il simbolo di inizio (questo perchè se avrò un numero di zeri pari vorrà dire che ho spedito come primo simbolo $♠$, se dispari $♣$).
Questo è un esempio che ci fa capire che il fatto che non riusciamo a decodificare il messaggio istantaneamente è un problema da risolvere. Una possibile soluzione sarebbe quella di aggiungere un simbolo per capire quando finisce il primo simbolo e dove inizia il secondo, ma questa soluzione aumenta la lunghezza della codifica (cosa che noi vogliamo minimizzare).

## Codici istantanei
<div style = "text-align: center">Un codice $\mathbb{c}: X \rightarrow D^+$ è detto istantaneo se <b>nessuna parola del codice è prefisso di un'altra</b>.</div>

### <mark>Dimostrazione<mark>
<div style="background-color: #e0e0e0; padding: 10px; border-radius: 5px;text-align: center; font-size:16px;"> Se $\mathbb{c}$ è istantaneo, allora è anche univocamente decodificabile.</div>

Per completare questa dimostrazione possiamo dimostrare che se $\mathbb{c}$ non è **univocamente decodificabile** allora non è **istantaneo** (che è duale all'ipotesi).

Sia $\mathbb{c}:X\rightarrow D^+$ non singolare e $C$-grande la sua estensione. Se $C$ non è univocamente decodificabile significa che presi due messaggi $x,x' \in X^+$ sono distinti e tali che la codifica di $x$ è uguale a quella di $x'$ quindi che $C(x) = C(x')$. Dobbiamo considerare i seguenti casi: $x$ differisce da $x'$ se
\begin{cases}
    \text{Un messaggio è prefisso dell'altro}\\
    \text{Almeno una posizione in cui i due messaggi differiscono}
\end{cases}
**Prendiamo il primo caso**, quando un messaggio è prefisso di un'altro: siccome $C(x) = C(x')$ la in cui i due messaggi differiscono viene codificata con la parola vuota, ma la parola vuota è prefisso di qualsiasi parola (per sua definizione) e quindi rende il codice $\mathbb{c}$ non istantaneo.
**Nel secondo caso** vorrebbe dire che $x$ e $x'$ hanno la stessa lunghezza e che fino ad un certo $i$ si verifica questa situazione:
\begin{align}
    &\dots\\
    \mathbb{c}(x_i-1) &= \mathbb{c}(x'_i-1)\\
    \mathbb{c}(x_i) &= \mathbb{c}(x'_i)\\
    \rightarrow \mathbb{c}(x_i+1) &\neq \mathbb{c}(x'_i+1)\\
    &\dots
\end{align}
**Ad esempio** se
\begin{align}
    \mathbb{c}(x_1) = &00 = \mathbb{c}(x'_1)\\
    &\dots\\
    \mathbb{c}(x_4) = &101 = \mathbb{c}(x'_1)\\
    \mathbb{c}(x_5) = &1100 \neq  11 = \mathbb{c}(x'_7)\\
    \mathbb{c}(x_8) = &10 \neq  0010 = \mathbb{c}(x'_8)\\
\end{align}
Si nota che le codifiche sono diverse nei singoli messaggi ma nel complesso i due messaggi hanno la stessa codifica, e non è istantaneo per definizione perchè un carattere è prefisso di un'altro.
Abbiamo quindi dimostrato che la classe dei codici istantanei $\subset$ dei codici univocamente decodificabili (sottonisieme), e per capire se un codice è istantaneo dobbiamo controllare <mark>che nessuna parola del codice è prefisso di un'altra</mark>.
___
I nostri **obbiettivi** arrivati a questo punto sono:

**1.** Capire dalla sorgente se possiamo avere un codice istantaneo

**2.** Dal momento che imponiamo questi vincoli sul codice la ricerca del codice che minimizza il valore atteso delle lunghezze 
potrebbe crescere (perchè il nostro codice deve rispettare più vincoli adesso).

Abbiamo un metodo per capire data la nostra sorgente se esiste un codice istantaneo (quindi risolvere il punto **1.**)?

## Teorema: Disuguaglianza di Kraft
<div style = "text-align: center">Data una sorgente che emette $x_1,\dots x_m$ simboli, e dato $D > 1$ (la base del codice), e dati $m$-interi $l_1,\dots,l_m > 0$ allora esiste un codice istantaneo $\mathbb{c}: X \rightarrow D^+$ tale che <mark style>$l_c(x_i) = l_i$</mark>(quindi sto dicendo che le lunghezze delle parole del codice coincidono con le lunghezze che ho scelto) <mark>se e solo se $\sum_{i=1}^{n} D^{-li} \leq 1$</mark>.</div>

*Semanticamente* Kraft sta dicendo che se noi supponiamo a priori le lunghezze delle parole del nostro codice, se le lunghezze supposte rispettano la proprietà $\sum_{i=1}^{n} D^{-li} \leq 1$ allora **esiste** un codice istantaneo (**non ci dice quale**, ci dice solo che con quelle lunghezze posso generarne uno).

### <mark>Dimostrazione<mark>
1. **Se esiste un codice istantaneo** allora **vale Kraft**.
    Sia $\mathbb{c}$ il codice e che le lunghezze scelte vadano da $l_1,\dots,l_m$. Chiamo $l_{max}$ la lunghezza massima della parola di codice. Supponiamo che il codice sia $D$-ario con $D = 2$. Costruiamo l'albero completo di altezza $l_{max}$ (in questo caso supponiamo $l_{max} = 3$). Supponiamo inoltre che le parole della sorgente abbiano questa codifica:
\begin{align}
x_1 &= 00\\ 
x_2 &= 010 \rightarrow l_{max} \\
x_3 &= 011 \rightarrow l_{max}\\
x_4 &= 1\\
\end{align}

Dal grafico vediamo che nessuna parola è prefisso di un'altra. Ora partizioniamo l'albero cioè raggruppiamo i sotto-alberi che hanno radice $x_i$. Il numero di foglie di una partizione generica è dato da:
$$
 \#A_i = D^{l_{max}-l_i}
$$

3. **Se vale Kraft** allora **esiste un codice istantaneo**.
    Se vale quindi che $\sum_{i=1}^{n} D^{-li} \leq 1$ Supponendo $D = 2$ e $\{l_1,\dots,l_m\} \rightarrow \{1,3,3,2\}$ applicando Kraft abbiamo
    $$ 2^{-1}+2^{-3}+2^{-3}+2^{-2} \leq 1 
    $$
 Quindi esiste un codice istantaneo e lo possiamo trovare per costruzione

___

## Codice di Shannon

Il nostro secondo obbiettivo era quello di trovare un codice che minimizzi le lunghezze $\sum_{i=1}^{m}l_i * p_i$. A questo punto però dobbiamo anche imporre che il codice sia istantaneo e che quindi valga la disuguaglianza di Kraft.
Sapendo che $p_1 + \dots + p_m = 1$ essendo $p$ una distribuzione di probabilità dato che $\sum_{i=1}^{m} p_i = 1$ (la somma di tutte le probabilità sui simboli della sorgente) possiamo riscrivere la disuguaglianza di Kraft in questo modo
$$
    \sum_{i=1}^{m} D^{-l_i} \leq \sum_{i=1}^{m} p_i = 1
$$
Notiamo che se guardiamo tutti i singoli valori della sommatoria, perché «se rispetto i singoli rispetto anche le somme», quindi
$$
  \frac{1}{D^{l_i}} \leq p_i \rightarrow \frac{1}{p_i} \leq D^{l_i}\\ 
$$
applicando il logaritmo otteniamo
$$
\log_{D}\frac{1}{p_i} \leq \log_{D}D^{l_i} \rightarrow \log_{D}\frac{1}{p_i} \leq l_i \cdot \log_{D}D
$$
E quindi otteniamo
$$
    \log_{D}\frac{1}{p_i} \leq l_i \cdot 1 \rightarrow l_i \geq \lceil \log_{D}\frac{1}{p_i}\rceil
$$
Questo ci dice che le lunghezze $l_i$ devono essere maggiori o uguali della parte intera superiore del $\lceil \log_{D}\frac{1}{p_i}\rceil$. <mark>Il codice istantaneo che rispetta questa proprietà è detto *codice di Shannon* ed è minimizzato quando prendiamo questo tipo di lunghezze</mark>.
___