Consumo de Vídeo



Consumo de vídeo tem vindo a aumentar exponencialmente A Cisco prevê que para 2022 82% do tráfico IP esteja dedicado à vizualização de vídeo

ecessidade de Compressão de Video

## Necessidade de Compressão de Vídeo

Enorme quantidade de dados gerados com a captura ou criação de vídeo

Vídeo HD a 30 frames por segundo num espaço RGB de 8 bits por cor ocuparia 24GB em 5 minutos

Para as resoluções que se desejam hoje em dia este problema seria ainda mais grave

Necessidade de reduzir quantidade de informação precisa para reproduzir um vídeo

Remoção de informação de sequência de imagens, mantendo a capacidade de reprodução

Codificação de Vídeo

Levou ao conceito de codificação de vídeo

## Evolução da Codificação de Vídeo

Em prática desde os anos 40 com o interlaced scanning das televisões de raios catódicos

Evolução do vídeo levou à evolução dos métodos de compressão (aumento da complexidade)

Alliance for Open Media Video One ou AV1 apresenta grandes taxas de compressão, a custo de elevada complexidade

Necessidade de software optimizado e arquiteturas de hardware eficientes

Sistemas de Codificação de Vídeo

Operação feita por codec

Composto por codificador e descodificador

Tem como princípio base a remoção de dados previsíveis, ou redundantes

Apresentação Final

—Sistemas de Codificação de Vídeo

Redundâncias



Apesar da evolução, os princípios de base continuam os mesmos 4 tipos de redundâncias, a maioria causadas pela interpretação do olho humano

Espaciais referentes à proximidade de pixeis proximos

Temporais referentes à semelhança de pixeis em imagens consecutivas Psicovisuais referentes à perceção mais baixa da cor ou de detalhes Código, não sendo referente à imagem ou perceção, mas à representação dos símbolos em domínio digital

Estas redundâncias são exploradas em vários estágios de um codificador de vídeo Apresentação Final

—Sistemas de Codificação de Vídeo

└─Modelo Básico do Codificador



Processo começa com frame de entrada que é dividido em blocos Estágio de predição Intra ou Inter

Bloco previsto subtraído por original

Transformada é o foco do trabalho

Avalia componentes de frequência

Quantização avalia coeficientes de maior relevância para reconstrução

de imagem

codificador de entropia organiza símbolos segundo códigos de comprimento variável

Loop de feedback para restaurar imagem do descodificador para uso nos estágios de predição

Unidade de controlo escolhe quais as ferramentas de codificação a usar

Descodificador faz operação inversa

## Apresentação Final —Sistemas de Codificação de Vídeo

Performance do AV1

Processo complexo

Agravado pela complexidade do codificador

Quanto mais opções de codificação, melhor a performance de compressão, mas maior o tempo de operação

AV1 apresenta grandes poupanças em bit savings a custo de elevados tempos de operação

Melhorias até 30% em relação ao HEVC ou VP9 (formatos de codificação recentes)

Demora até 3 vezes mais para atingir a mesma distorção Melhoria ao longo dos anos com optimização do software

Transformadas em Codificação de Vídeo

Avanço para o estudo do software de referência objetivo de perceber funcionamento interno do estágio da Transformada

Objetivo do estágio é decomposição em componentes de frequência

totorpretação com Imagore Base

—Interpretação com Imagens Base

Interpreção em imagens de base: um bloco original pode ser visto como a soma de diversos blocos com diferentes componentes de frequencia horizontal e/ou vertical

Transformada vista como calculo da correlação entre imagem original e imagens base

Conjunto de imagens base depende da transformada utilizada e do tamanho do bloco a transformar

AV1 suporta blocos entre 4 e 64, incluíndo tamanhos rectangulares

Transformadas em Codificação de Video

Discreta Casina Transform
(ICCT)

Lamber (IDCT)

Asymmetric Discreta Soite
Transform (ADST)

Fig. Asymmetric Discreta Soite
Transformic Transfor

Transformadas em Codificação de Vídeo

Bloco de duas dimensões implica transformação a duas dimensões Transformada pode ser feita em duas operações separáveis para linhas e colunas ou vice-versa

Operações denominadas por kernels da Transformada AV1 suporta 3 tipos: Identidade, DCT e ADST que pode ser calculada direta ou inversamente

Kernels podem ser utilizados independentemente na vertical ou horizontal

☐Transformada no AV1



Diagrama de operação das transformadas no AV1

Começa com a transformada vertical (colunas)

Blocos de flip usados quando se pretende fazer a transformação com Flip-ADST

Quando todas as colunas foram transformadas, segue para a transformação linha a linha

Kernels representados pelos blocos T

Transformadas Inteiras



Coeficientes calculados com operações Inteiras de modo a simplificar calculo e evitar discrepâncias entre codificador e descodificador Métodos eficazes de calcular a DCT tem sido desenvolvidos AV1 aplica transformadas sequênciais com estágios de rotação Princípio aplicado também na ADST Simplifica implementações em hardware Cada coeficiente intermédio é calculado como função de dois dos calculados anteriormente e aproximações inteiras do cosseno

Software de referencia permite aproximações com 10 a 16 bits

Opções de Codificação



Estágio da transformada controlado por:

Tamanho do bloco de transformação kernel utilizado horizontal e verticalmente  $n^{\Omega}$  de bits utilizado nas aproximações de cossenos

Testes para saber quais as opções mais utilizadas:

12 vídeos de resoluções entre CIF e UHD Testar variação das opções com a qualidade do vídeo encode de qualidade constante com 3 objetivos distintos de qualidade

Tempo passado no estágio da transformada

-Opções de Codificação - Resultados

Figure 19: Nimms de Blu Ublasin sun Aprairasplan de Casson

DCT é a mais utilizada

Outros kernels só são utilizados em objetivos de qualidade mais elevados

A dimensão mais comum é 4, e o seu uso aumenta com a qualidade pretendida

Esperado, pois para uma dada area de imahem ser transformada com vetores de 1 por 4, tem que ser feitas mais trnaformaçoes do que para vetores de dimensoes superiores

É possível verificar a percentagem de ocurrencias para kernels simétricos (tamanho e kernel de colunas igual a tamanho e kernel de linhas)

A maior parte das transformações usa 13 bits para as representações dos cossenos

À medida que a qualidade aumenta, também aumenta o numero de

N° de bits dos Cossessos un Distorção - Teste

\*\*\*Teste dos Cossessos un Distorção - Teste

\*\*Figure 30\*\* Teste de conficação com diferente bite ou generação de commo de comm

∟Nº de bits dos Cossenos vs Distorção - Teste

Poderá levar a pensar que o número de bits do cosseno influencia a qualidade da imagem

Testes feitos para avaliar esta hipotese

Testes de codificação forçando o número de bits utilizados nas aproximações dos cossenos, no codificador

Descodificação feita com o descodificador de origem, que usa sempre 12 bits

Cálculo da Relação Sinal Ruído de Pico e comparar com os tres codificadores, para os tres objetivos de qualidade distintos

N° do bits dos Cossenos vs Distorcho - Resultados

Nº de bits dos Cossenos vs Distorção -Resultados

PSNR independente do número de bits utilizado no cosseno, para qualquer objetivo de qualidade

Princípio de base para otimização do software de referencia Outros aspetos podem ser explorados para a otimização do software de referencia

Arquiteturas Desenvolvidas Software

Foco na DCT pois seria a que causaria mais impacto na performance do encoder

Apresentação Final

Arquiteturas Desenvolvidas

Software

Redução do Número de Bits



Testar a hipótese da redução de complexidade pela redução do número de bits dos cossenos

Multiplicações mais simples

Número de Shifts reduzido

Teste com 8 bits

levaria à redução em 81% da memória utilizada para armazenamento destas aproximações

Possibilidade de degradação da qualidade de imagem pois o Erro de Quantização Quadrático médio aumentaria em 16 vezes

Repetição dos testes de distorção usando encoder com 8 bits e encoder original

Apresentação Final

Arquiteturas Desenvolvidas

Software

Otimização do libaom



Qualidade mantém-se em ambas codificações Redução de 3% no tempo de codificação:

Tracejado: Tempo de codificação com codificador original

Barras escuras: Tempo de codificação do codificador modificado

Barras claras: tempo da Transformada

Percentagem: Diferença percetual do tempo entre codificador

original e codificador modificado

Avanço para arquiteturas em hardware



Desenvolvimento foi feito em VHDL no Vivado da Xilinx Designs e sinteses feitas com objetivo de implementação em Artix 7 Cada estágio é feito sequencialmente Estágios de somas simples e de Multiplicação, Soma e Shift Apresentação Final

Arquiteturas Desenvolvidas

Hardware

Princípios de desenvolvimento



em software é uma operação fácil, descrita numa linha de códigos em hardware tem que ser decomposta em três estágios diferentes controlado pelo flanco ascendente de um sinal de clock



Operações das DCTs mais pequenas são contidas nas DCTs de maiores dimensões

Comportamento replica-se para os restantes tamanhos Permite repetição de hardware, simplificando o desenvolvimento



Arquitetura mais simples
Ativada por sinal de enable
Estágios internos controlados por sinal de enable
Quando terminam estágio intermédio geram validação da saída
Pipeline de estágios feito com interligação dos sinais de validação de saída de um estágio com o enable do próximo



Segue o mesmo molde da arquitetura anterior, mas DCT4 é incluída internamente

 $validOut\ dependente\ do\ ultimo\ est\'agio\ interno,\ bem\ como\ da\ DCT4$ 



As restantes transformadas seguem o mesmo design Interligando todos com um multiplexer de seleção do output obtém-se a seguinte arquitetura

Permite cálculo dos 5 tamanhos de transformada em paralelo Repetição de hardware causa que seja uma arquitetura de dimensões elevadas com muita utilização lógica Apresentação Final

Arquiteturas Desenvolvidas

Hardware

Primeira arquitetura - Resultados



Velocidade do Sistema dependente da transformada mais lenta (DCT64), que demora 22 ciclos de relógio

Considerando que um frame seria codificado com blocos de transformação quadrados, é possivel calcular a frequencia de operação minima necessária para codificar vídeo de uma dada resolução com uma frame rate específica

Para resoluções HD e FHD o sistema poderia facilmente atingir a frequencia necessaria (dependendo da implementação)

Para reoluções mais altas não se pode dizer o mesmo

Necessidade de arquiteturas com elevado grau de paralelismo

Tamanhos superiores ocupam muita área



De forma a ocupar menos área, é possível construir uma arquitetura sem repetição de hardware

Divisão das DCTs em duas partes

P1 com primeiro estágio de soma e rotação

P2 com restantes estágios, e metade dos coeficientes



Aplicando às restantes DCTs é possível obter a seguinte arquitetura Entradas seguem para uma das fases P1, consoante o sinal de seleção

| Apresentação Final               |
|----------------------------------|
| Arquiteturas Desenvolvidas       |
| └─Hardware                       |
| Segunda arquitetura - Resultados |



Ocupa dois terços da implementação anterior

Apenas permite calculo de um dos tamanhos pois parte do software está sempre utilizado

Menos adaptada ao uso em encoder complexo, pois não permite paralelização de opções de codificação



Ultimo passo desta dissertação foi a integração da segunda arquitetura num design com Microblaze, num kit de hardware Nexys 4 da Digilent

Micro-Processador ARM usado em ferramentas da Xilinx Prova de conceito para codificador completo

| presentação Final                    |
|--------------------------------------|
| —Arquiteturas Desenvolvidas          |
| └─ Hardware                          |
| └─Implementação Nexys 4 - Resultados |



Vivado estima uma frequencia máxima de operação de aproximadamente 102 MHz

50 mW de potência consumida

Frame rates baixos neste hardware, apesar do funcionamento ser o Esperado

Justifica-se a necessidade de implementações em ASIC, capazes de frequencias de clock mais elevadas

## Apresentação Final Conclusões e Trabalho Futuro

—Conclusões e Trabalho Futuro

Climização do Software de referência
 Cometrução de sequitaturas em hardeure para o kernel da DCT
 Integração dos restatatos kernels
 Tista com Baser em FPCA
 Sistema sura ASCA
 Sistema sura ASCA

Conclusões e Trabalho Futuro

Objetivos parcialmente atingidos

Otimização do software de referência com estudo das características de codificação do AV1

Contrução de arquiteturas de hardware funcionais para a DCT Pontos em falta para um verdadeiro estágio da transformada em hardware

Integração dos restantes kernels

Teste da arquitetura de hardware com libaom em FPGA com interface com muita largura de banda (PCIE por exemplo)

Sintese para ASIC para obter frequencia máxima de operação