# Kodowanie

Mamy źródło $S$ generujące symbole (litery) z alfabetu $A$. Zakładam, że litera $s_i$ pojawia się z prawdopodobieństwem $p_i$.

Jeżeli kodujemy symbol $s_i$ za pomocą kodu o długości $l_i$, to oczekiwana dłuugość kodu dla jednego symbolu wynosi
$$
\sum_i p_i l_i.
$$
Finalnie, oczekiwana długość dla ciągu długości $n$ wynosi $n \sum_i p_i l_i$.




## Twierdzenie Krafta-Milmana

Dla długości kodów $l_i$ istnieje prefiksowe kodowanie binarne, wtw gdy
$$
\sum_i 2^{-l_i} \leq 1
$$
UWAGA: kodowanie jest prefiskowe, gdy kod żadnej litery nie jest prefiksem durgiego. Każde kodowanie prefiksowe jest jednoznacznie dekodowalne, to znaczy mając zestawione kody jesteśmy w stanie jednoznacznie odzyskać symbole.

Schemat idei dowodu można uzyskać na podstawie konstrukcji tych kodów:
* zakładam, że $l_i$ jest posortowany rosnąco
* kodem pierwszego symbolu $s_0$ jest ciąg składający się z samych zer o długości $l_0$
* zakładam, że zbudowaliśmy kod dla symbolu $s_i$
* wtedy kod dla symbolu $s_{i+1}$ budujemy:
1. dodajemy $1$ tak jak w zwykłym dodawaniu w układzie dwójkowym.
1. następni dodajemy tyle zer na końcu aby długość kodu $s_{i+1}$ wynosiła $l_{i+1}$

Przykład: Załóżmy, że chcemy zbudować kody dla ciągu długości 2,3,3,3,4.
Wtedy
* $k_0=00$
* $k_1=(k_0+1)0=010$
* $k_2=k_1+1=011$
* $k_3=k_2+1=100$
* $k_4=(k_3+1)0=1010$

## Entropia

Możemy teraz spróbować zminimalizować wyrażenie
$$
\{\sum_i p_i l_i \, | \, l_i: \sum_i 2^{-l_i} \leq 1\}.
$$
Jeżeli zapomnimy, że $l_i$ powinny być całkowite, to argmin jest przyjmowany dla długości
$$
l_i=-\log_2 p_i.
$$

Czyli wtedy (asymptotycznie), zakodowanie ciągu symbolu o długości $n$ za pomocą kodowania binarnego wymaga długości (ilości bitów)
$$
n h(p)
$$
gdzie *entropia* to
$$
h(p)=-\sum_i p_i \log_2 p_i.
$$
Zwyczajowo się często przechodzi na logarytm naturalny.

Jeżeli mamy kodowanie, że dla symbolu $s_i$, uzyskanego z prawd. $p_i$ kod ma długość $l_i$, to możemy zmierzyć o ile jesteśmy gorsi od teoretycznego kodowania za pomocą entropii:
$$
\sum_i p_i (l_i-(-\log_2 p_i)).
$$
Im ta różnica jest większa, tym jesteśmy dalsi od optimum.

## Entropia krzyżowa (cross-entropy -- CE)

Mamy dwa rozkłady o prawdopodobieństwach $p_i$ i $q_i$. Dla drugiego budujemy optymalne kody o długościach $-\log_2 q_i$
$$
H(p,q)=-\sum_i p_i \log_2 q_i.
$$
Analogicznie dywergencja Kullbacka-Leiblera.


## Kodowanie Huffmana

Kodowanie optymalne jeżeli mamy ustalone prawdopodobieństwa. Proszę przeczytać z internetu jeżeli ktoś nie zna (schemat bardzo prosty).

ZADANIE: proszę zbudować binarny kod Huffmana dla kodów o prawdopodobieństwach $1/2,1/4,1/6,1/12$. Jaka jest różnica oczekiwanej długości kodu w stosunku do optymalnej zadanej przez entropię?

## Kodowanie ANS (Jarka Dudy)

Kodowanie Huffmana jest optymalne (zgodne z entropią) wtedy i tylko wtedy gdy prawdopodobieństwa są potęgami dwójki.

Kodowanie ANS jest optymalne wtedy gdy to są ułamki o mianowniku $2^n$ (w teorii może być dowolny naturalny mianownik, w praktyce dla szybkich operacji bitowych musi być potęga dwójki).
