### Co-processador da Transformada para o Codificador de Vídeo AV1

Apresentação Final

Miguel Inocêncio Mestrado Integrado em Engenharia Eletrónica e de Telecomunicações 18/12/2019

Universidade de Aveiro Instituto de Telecomunicações



#### Conteúdos

Introdução

Sistemas de Codificação de Vídeo

Transformadas em Codificação de Vídeo

Arquiteturas Desenvolvidas

Software

Hardware

Conclusões e Trabalho Futuro

#### Introdução

#### Consumo de Vídeo





Figura 1: Previsões da Cisco para evolução de tráfico IP





Figura 2: Exemplo de dados em vídeo HD



# Remoção de informação de sequência de imagens, mantendo a capacidade de reprodução

#### Evolução da Codificação de Vídeo





Figura 3: Exemplo de interlaced scaning e logo do AV1

#### Sistemas de Codificação de Vídeo

#### Redundâncias





Figura 4: Espaciais



Figura 5: Psico-Visuais



Figura 6: Temporais



Figura 7: Código

#### Modelo Básico do Codificador





Figura 8: Modelo Básico de codificador





Figura 9: Poupanças de Bitrate relativas ao H.264



Tabela 1: Tempos de Codificação

| Codec | Tempo de Codificação (s)<br>2018 2019 |     |  |
|-------|---------------------------------------|-----|--|
| AV1   | 226 080                               | 736 |  |
| H.265 |                                       | 289 |  |
| VP9   |                                       | 226 |  |
| H.264 |                                       | 18  |  |

## Transformadas em Codificação de Vídeo

#### Interpretação com Imagens Base





Figura 10: Exemplo de decomposição de bloco em imagens base

#### Transformadas em Codificação de Vídeo





**Figura 11:** Separabilidade de transformadas 2D

Discrete Cosine Transform (DCT)

Identity (IDTX)

Asymmetric Discrete Sine Transform (ADST)

Flip - Asymmetric Discrete Sine Transform (Flip-ADST)

#### Transformada no AV1





Figura 12: Sequência de operações da Transformada no libaom

#### Transformadas Inteiras





Figura 13: DCT no libaom



Figura 14: ADST no libaom





Figura 15: Opções de Codificação





Figura 16: Kernel Utilizado





Figura 17: Tamanho de Vetor





Figura 18: Kernel Simétrico





Figura 19: Número de Bits Utilizados nas Aproximações do Cosseno

#### Nº de bits dos Cossenos vs Distorção - Teste





**Figura 20:** Testes de codificação com diferentes bits nas aproximações de cosseno

#### Nº de bits dos Cossenos vs Distorção - Resultados





Figura 21: Comparação Distorção com Número de Bits usados no Cosseno

#### Arquiteturas Desenvolvidas

Software

#### Redução do Número de Bits





Figura 22: Operação implementada nas transformadas inteiras

$$\Delta_{10} = \frac{1-0}{2^{10}} \approx 0.98 \cdot 10^{-3}$$
 $M_{original} = 728 \, B$ 
 $\Delta_{8} = \frac{1-0}{2^{8}} \approx 3.9 \cdot 10^{-3}$ 
 $\downarrow \downarrow$ 
 $MSE_{8} = 16 \cdot MSE_{10}$ 

#### Otimização do libaom





Figura 23: Comparação da distorção

#### Otimização do libaom





Figura 24: Tempo de Codificação

#### **Arquiteturas Desenvolvidas**

**Hardware** 





Figura 25: Estágios da DCT inteira

#### Princípios de desenvolvimento





Figura 26: Deconstrução de operação em software





Figura 27: Inclusão de DCT4 na DCT8



**Figura 28:** Implementação em hardware da DCT4



Figura 29: Implementação em hardware da DCT8



#### Primeira arquitetura - Resultados



**Tabela 2:** Resultados de utilização lógica da primeira arquitetura em família Artix 7

| DCT Size | Utilization |                 |  |
|----------|-------------|-----------------|--|
| DCT Size | Slice LUTs  | Slice Registers |  |
| 4        | 1125        | 636             |  |
| 8        | 2428        | 2087            |  |
| 16       | 7103        | 5702            |  |
| 32       | 19148       | 14257           |  |
| 64       | 45996       | 34146           |  |
| Wrapper  | 75805       | 58370           |  |

#### Primeira arquitetura - Resultados



**Tabela 3:** Frequência de operação necessária para codificação em tempo real a 30 imagens por segundo

| Resolution                           | Frequency (MHz) |  |
|--------------------------------------|-----------------|--|
| $\textbf{1280} \times \textbf{720}$  | 83              |  |
| $\textbf{1920} \times \textbf{1080}$ | 187             |  |
| $\textbf{3840} \times \textbf{2160}$ | 746             |  |
| $\textbf{7680} \times \textbf{4320}$ | 2986            |  |
|                                      |                 |  |



**Figura 31:** Deconstrução de blocos da DCT



Figura 32: Segunda arquitetura para o kernel da DCT

#### Segunda arquitetura - Resultados



**Tabela 4:** Resultados de utilização lógica da segunda arquitetura em família Artix 7

| Block    | Utilization |                 |  |
|----------|-------------|-----------------|--|
| Біоск    | Slice LUTs  | Slice Registers |  |
| DCT4     | 1077        | 507             |  |
| DCT8_P1  | 709         | 257             |  |
| DCT8_P2  | 1064        | 717             |  |
| DCT16_P1 | 1285        | 513             |  |
| DCT16_P2 | 3860        | 2150            |  |
| DCT32_P1 | 3064        | 1025            |  |
| DCT32_P2 | 9090        | 5624            |  |
| DCT64_P1 | 6123        | 2049            |  |
| DCT64_P2 | 22344       | 14000           |  |
| Wrapper  | 50039       | 32352           |  |





**Figura 33:** Kit *Nexys 4* da *Digilent* 



Figura 34: Diagrama de blocos implementado

#### Implementação Nexys 4 - Resultados



$$f_{Max} = 101.9 MHz$$
$$P = 50 mW$$

Tabela 5: Frame rate máximo obtido na implementação com Nexys 4

| Block Size                       | Resolution                          |                                      |                                      |                                      |  |
|----------------------------------|-------------------------------------|--------------------------------------|--------------------------------------|--------------------------------------|--|
|                                  | $\textbf{1280} \times \textbf{720}$ | $\textbf{1920} \times \textbf{1080}$ | $\textbf{3840} \times \textbf{2160}$ | $\textbf{7680} \times \textbf{4320}$ |  |
| <b>4</b> × <b>4</b>              | 37                                  | 16                                   | 4                                    | 1                                    |  |
| $8\times8$                       | 44                                  | 20                                   | 5                                    | 1                                    |  |
| $\textbf{16}\times\textbf{16}$   | 63                                  | 28                                   | 7                                    | 2                                    |  |
| $\textbf{32} \times \textbf{32}$ | 98                                  | 44                                   | 11                                   | 3                                    |  |
| 64 × 64                          | 161                                 | 71                                   | 18                                   | 4                                    |  |

# Conclusões e Trabalho Futuro

#### Conclusões e Trabalho Futuro



- ✓ Otimização do Software de referência
- ✓ Construção de arquiteturas em hardware para o kernel da DCT

- → Integração dos restantes kernels
- → Teste com *libaom* em FPGA
- → Síntese para ASIC

# Obrigado!

#### Discussão

## Co-processador da Transformada para o Codificador de Vídeo AV1

Miguel Oliveira Inocêncio

Armando Pinho
Presidente de Mesa

Pedro Assunção
Arguente Principal

António Navarro
Orientador