# Compressão de dados

> Seção 5.2 em [Dasgupta-Papadimitriou-Vazirani](http://algorithmics.lsi.upc.edu/docs/Dasgupta-Papadimitriou-Vazirani.pdf)

> Materia adicional [aqui](http://web.uvic.ca/~nmehta/csc226_fall2017/lecture19.pdf)

Suponha que queremos codificar um texto bem longo (digamos com 130 milhões de letras) em binário. Queremos atribuir um codeword para cada letra usada no texto. Por exemplo, suponha que tenhamos as letras $A, B, C, D$.

## Tentativa 1

Usar 2 bits por letra: A = 00, B = 01, C = 10, D = 11.

Assim, a palavra $ABBA$ seria $00010100$. 

É fácil de mudar para binário e vice-versa.

Esse código pode ser visto como uma árvore binária.

<img src="https://github.com/cmsato/AnaliseAlgoritmos/blob/master/A6_arvoreBinaria1.jpg?raw=true" width="30%">.

Se tivermos uma palavra com 130 milhões de letras, utilizaremos 260 milhões de bits para escrever em binário.

Será que é possível fazer melhor do que isso? Suponha que na palavra temos o seguinte número de ocorrências de cada letra (em milhões):
* A = 70
* B = 3
* C = 20
* D = 37

Poderíamos tentar atribuir sequências (chamadas de codewords) mais curtas para as letras que aparecem mais frequentemente.

Por exemplo, A=0, D=11, C=100, B=101. 

O número de bits utilizados seria $70*1+3*3+20*3+37*2 = 213$ milhões (economia de 17%).

Importante! Temos que tomar cuidado para que a palavra não fique ambígua. Por exemplo, se A=0, B=01 e D=001.
001 representaria tanto AB quanto D.  

### Códigos livre de prefixos: nenhum codeword pode ser prefixo de outro codeword.

### Como olhar para uma árvore binária e decidir se representa um código livre de prefixos?

## Problema do código livre de prefixos:
- Entrada: um conjunto $A$ (alfabeto), uma número real $0\leq f_a\leq 1$ para cada $a\in A$ tal que $\sum_{a\in A}f_a = 1$
- Saída: uma funções $cod$ que associa cada letra  $a$ a uma palavra binária $cod(a)$ tal que

1) $cod(a)$ não é prefixo de nenhum $cod(b)$ para $b\in A$, $\neq a$

2) $custo(cod) := \sum_{a\in \Gamma}f_a \cdot($comprimento de $cod(a))$ é minimizado

### Como escrevemos o custo do código olhando para a árvore?

$\sum_{a\in \Gamma}f_a \cdot$(profundidade de $a$ na árvore$)$

Cada letra estará em uma folha

### Nós internos

Todo nó em uma árvore que não é uma folha é chamado de **nó interno**

Veja os slides 10 e 11 do [material adicional](http://web.uvic.ca/~nmehta/csc226_fall2017/lecture19.pdf)

Dizemos quem uma árvore binária é **cheia** se todo nó interno tem 2 filhos.

#### Toda árvore representando um código ótimo é cheia


## Tentativa 2 -- Código de Shannon-Fano

Divida o alfabeto em 2 do modo que as frequencias fiquem o mais balanceadas possíveis. Coloque um dos conjuntos no lado esquerdo da árvore e o outro no lado direito.

A idéia é que isso ajudará a altura da árvore ficar o menor possível.

Funciona bem? Veja o slide 15 do [material adicional](http://web.uvic.ca/~nmehta/csc226_fall2017/lecture19.pdf)

[Como fazer a partição do números?](https://en.wikipedia.org/wiki/Partition_problem)

## Tentativa 3 -- Código de Huffman

Idéia: Fazer as duas letras de menor frequência como irmãs e aparecendo no nível mais profundo da árvore.

Para cada nó, considere a sua frequência como a soma das frequencias das folhas de sua subárvore.
```
Huffman(f): Assumindo aqui que A = {0,1,...,n-1}
S := A
enquanto |S|>1
   encontre as duas letras i e j de frequencia minima em S
   remova i e j de S
   acrescente uma nova letra ij em S de frequencia f[i]+f[j]
   defina o pai de i e de j como ij
```

Aqui está uma versão com fila de prioridade
```
HUFFMAN(f): Assumindo aqui que A = {0,1,...,n-1}
Seja Q uma fila de prioridade mínima
Para cada i, insira i em Q com prioridade f[i]
             crie um nó com campos pai, esq, dir definidos como NULL
para k=n até 2n-2:
    i = extract-min(Q)
    j = extract-min(Q)
    crie um nó k com esq=i e dir=j
    insira k em Q com prioridade f[k]=f[i]+f[j]
```

## Qual o tempo de execução
Assumindo que cada inserção e cada extrac-min demora tempo $O(\lg n)$ (podemos usar, por exemplo, um heap binário): 

Tempo total $O(n\lg n)$

# Problema da Árvore Geradora de Custo Mínimo 

## Definições em grafos
1) Um **grafo** é um par $G=(V,E)$, onde $V$ é um conjunto finito e $E$ é um conjunto de pares não-ordenados de~$V$.

2) Um grafo $H = (V', E')$ é um **subgrafo** de um grafo $G = (V,E)$ se $V'\subseteq V$ e $E'\subseteq E$. Ou seja, $H$ pode ser obtido a partir de $G$ pela remoção de vértices e arestas.

3) Um **caminho** em um grafo $G = (V,E)$ é uma sequencia de vértices distintos $(v_1,\dotsc, v_k)$ tal que $v_iv{i+1}\in E$ para todo $1\leq i\leq k-1$. Dizemos que esta sequencia é um caminho de $v_1$ a $v_k$. 

4) Um **ciclo** em um grafo $G = (V,E)$ é uma sequencia de vértices $(v_1,\dotsc, v_k)$ tal que $v_iv{i+1}\in E$ para todo $1\leq i\leq k-1$ e $v_1=v_k$.

5) Um grafo é  uma **floresta** se não têm ciclos.

6) Um grafo $G$ é **conexo**, se, para cada par de vértices $u, v$ em $G$, existe um caminho de $u$ a $v$.

7) Um grafo é uma **árvore** se é conexo e acíclico.

8) Uma árvore geradora de um grafo $G=(V,E)$ é uma árvore $T$ com conjunto de vértices $V$ e que é subgrafo de $G$.

## Problema da árvore geradora de custo mínimo (AGM):
- Entrada: um grafo $G = (V,E)$ e uma função de custos nas arestas $c:E\to\mathbb{R}$ 
- Saída: uma árvore geradora $T = (V, A)$ de $G$ que minimiza $c(T) := \sum_{e\in A}c(e)$

## Dois algoritmos clássicos: Prim e Kruskal

### Prim

```
PRIM(G=(V,E),c)
S := {v}, onde v é um vértice qualquer de G
A := vazio
enquanto (S != V)
    seja e=uw a aresta de menor custo dentre as que têm u em S e w fora de S
    Adicione e ao conjunto A
    Adicione w ao conjunto S    
```

Este algoritmo é guloso. Por que?

### Kruskal

```
KRUSKAL(G=(V,E),c)
Ordene as arestas de G como e_1,e_2,...,e_m do menor custo para o maior
A := vazio
para i de 1 a m
    se adicionar e_i a A não cria nenhum ciclo 
        então adicione e_i a A
```

Este algoritmo também é guloso. Por que?

# Corretude de Prim e Kruskal

Nesta seção, considere um grafo $G = (V,E)$ conexo.

Definição: uma floresta $F = (V,A)$ é **boa** se existe uma AGM $T$ tal que todas as arestas de $F$ estão em $T$.

Tanto para Prim quanto para Kruskal, a idéia é mostrar que em cada passo do algoritmo temos uma floresta boa.

Como os dois algoritmos terminam com uma árvore (Afirmação 1), isso mostra que no final temos uma floresta boa que é uma árvore. Portanto, a floresta é uma AGM.

Afirmação 1: O algoritmo de Prim e o algoritmo de Kruskal sempre terminam com uma árvore geradora $(V,A)$.

**Proposição:** Seja $F = (V,A)$ é uma floresta boa de $G$ e $S\subset V$ um conjunto não-vazio e diferente de $V$. Suponha que $F$ não tenha nenhuma aresta com uma ponta em $S$ e a outra fora de $S$. Seja $e$ uma aresta de $G$ com o menor custo com uma ponta em $S$ e a outra fora de $S$. Então $F+e$ é uma floresta boa.

- No algoritmo de Prim, sempre escolhemos a aresta a ser adicionada como na proposição acima. Portanto, se a Proposição estiver correta, então o algoritmo de Prim está correto.

- No algoritmo de Kruskal, a aresta a ser adicionada $e=uv$ é a de menor custo dentre as que têm uma ponta em $S = \{$vértices em $(V,A)$ que são atingíveis a partir de $u\}$ e a outra fora de $S$. Então a aresta adicionada também está de acordo com a proposição acima.

## Prova da Proposição

- Como $F$ é boa, existe uma AGM $T$ tal que $F\subseteq T$
- Se $e=uv\in E(T)$, então $F+e \subseteq T$ e $F+e$ também é boa.
- Assuma então que $e\not\in E(T)$.
- $T+e$ contém um ciclo $C = (u, v,....,u)$ (Afirmação)
- O ciclo $C$ tem uma aresta $f\neq e$ com uma ponta em $S$ e outra fora de S (Afirmação).
- $T+e-f$ é uma árvore geradora (Exercício).
- Como $e$ tem menor custo em $\delta_G(S)$, então $T+e-f$ tem custo $c(T)+c(e)-c(f)\leq c(T)$ (pois $c(e)\leq c(f))$.
- Ou seja, $T+e-f$ é uma AGM que contém $F+e$.

# Apêndice
## Como implementar Prim e Kruskal

## Propriedades de grafos

Afirmação: Se $T$ é uma árvore geradora de um grafo $G$ e $e$ é uma aresta de $G$ que não está em $T$, então $T+e$ contém exatamente um circuito $C$. Além disso, 

Afirmação: Dado um grafo $G$ e um circuito $C$, o número de arestas que está em $G$ e em $C$ é sempre par.