

### TRABALHO DE GRADUAÇÃO

# ESTUDO PARA IMPLEMENTAÇÃO DE RECONFIGURAÇÃO DINÂMICA EM INSTRUMENTAÇÃO, AUTOMAÇÃO E CONTROLE

Lucas Sousa de Oliveira

Brasília, Dezembro de 2013

### UNIVERSIDADE DE BRASÍLIA

FACULDADE DE TECNOLOGIA

## UNIVERSIDADE DE BRASÍLIA

#### Faculdade de Tecnologia

### TRABALHO DE GRADUAÇÃO

# ESTUDO PARA IMPLEMENTAÇÃO DE RECONFIGURAÇÃO DINÂMICA EM INSTRUMENTAÇÃO, AUTOMAÇÃO E CONTROLE

#### Lucas Sousa de Oliveira

Relatório submetido como requisito parcial para obtenção do grau de Engenheiro de Controle e Automação

#### Banca Examinadora

| Prof. Jones Yudi, ENM/UnB                           |  |
|-----------------------------------------------------|--|
| Orientador                                          |  |
| Prof. Carlos Humberto Llanos, ENM/UnB Co-orientador |  |
| Prof. Daniel Muñoz Arboleda, FGA/UnB                |  |
| M.Sc. Janier Arias Garcia, ENM/UnB                  |  |

| Dedicatória                                                                                                               |
|---------------------------------------------------------------------------------------------------------------------------|
| Dedico este trabalho a meus pais Marconi e Marta Oliveira, a minha família, a minha namorada                              |
| Ananda Medeiros, a todos os meus amigos, em especial a Emerson Grzeidak e a Kevin Gularte, e a todos os meus professores. |
| Lucas Sousa de Oliveira                                                                                                   |
|                                                                                                                           |
|                                                                                                                           |
|                                                                                                                           |
|                                                                                                                           |

#### **RESUMO**

A reconfiguração dinâmica de circuitos digitais representa o estado da arte em tecnologias de computação reconfigurável. Através dela é possível reduzir o gasto energético, simplificar projetos, aumentar o desempenho geral do projeto e até resolver problemas antes impossíveis. Este estudo buscou conhecer e apresentar as ferramentas e tecnologias necessárias para o desenvolvimento de um projeto deste tipo. Os cinco experimentos realizados também serviram para demonstrar e explicar o uso de alguns periféricos úteis, tais como memórias Flash e RAM, o HWICAP (necessário para a reconfiguração), a interface UART, dentre outros. Neles, também foram descritos os processos necessários para o desenvolvimento de periféricos customizados, podendo, inclusive, serem reconfiguráveis. Os resultados obtidos em cada experimento apresentam considerações importantes na opção pelo uso dessa tecnologia. Conseguiu-se, por fim, definir um fluxo de projeto genérico que pode ser utilizado em grande parte dos projetos que necessitam de reconfiguração dinâmica.

**Palavras Chave:** Reconfiguração Dinâmica; Autorreconfiguração; MicroBlaze; DDR3; Xilinx; Periféricos.

#### **ABSTRACT**

The dynamic reconfiguration of digital circuitry represents the state-of-art in reconfigurable computation. By using it, it's possible to reduce the power, simplify projects, increase the overall system performance and even solve otherwise unsolvable problems. This study tried to explore and present the tools and technologies required to develop a project that used dynamic reconfiguration. The five experiments performed were also used to demonstrate and explain the use of a series of useful peripherals, such as Flash and RAM memories, the HWICAP peripheral, and the UART interface, and to describe the process required to build custom peripherals, including reconfigurable peripherals. The results attained in each experiment are used to show important considerations when choosing this technology. In the end, it was possible to define a generic project flow that can be used in most of the projects willing to use dynamic reconfiguration.

**Keywords:** Dynamic Reconfiguration; Self-reconfiguration; MicroBlaze; DDR3; Xilinx; Peripherals.

# **SUMÁRIO**

| 1 | Intro  | DUÇÃO                               | 1  |
|---|--------|-------------------------------------|----|
|   | 1.1    | Computação Reconfigurável           | 4  |
|   | 1.2    | Motivação                           | 6  |
|   | 1.3    | Propostas de Aplicações             | 6  |
|   | 1.3.1  | REDES NEURAIS                       | 6  |
|   | 1.3.2  | CONTROLE ADAPTATIVO                 | 8  |
|   | 1.3.3  | Computação Genérica                 | 9  |
|   | 1.3.4  | Outros                              | 10 |
|   | 1.4    | Objetivos                           | 10 |
|   | 1.4.1  | Objetivos Gerais                    | 10 |
|   | 1.4.2  | OBJETIVOS ESPECÍFICOS               | 10 |
|   | 1.5    | Metodologia                         | 10 |
|   | 1.6    | Material e Ferramentas              | 10 |
| 2 | Davisa | Co Dyny yo on (myo.)                | 11 |
| 2 |        | AO BIBLIOGRÁFICA                    |    |
|   | 2.1    | COMPILAÇÃO DE Hardware              |    |
|   | 2.2    | Benchmark                           |    |
|   | 2.3    | DISPOSITIVOS                        |    |
|   | 2.3.1  | Programmable Array Logic            |    |
|   | 2.3.2  | Complex Programmable Logic Device   |    |
|   | 2.3.3  | Field-Programmable Gate Array       |    |
|   | 2.3.4  | Reconfigurable Datapath Array       |    |
|   | 2.4    | LINGUAGENS DE DESCRIÇÃO DE Hardware |    |
|   | 2.4.1  | VERILOG                             |    |
|   | 2.4.2  | VHDL                                |    |
|   | 2.4.3  | SYSTEMC                             |    |
|   | 2.5    | FABRICANTES                         |    |
|   | 2.5.1  | ALTERA                              |    |
|   | 2.5.2  | XILINX                              | 19 |
|   | 2.6    | CLASSES DE RECONFIGURAÇÃO           | 19 |
|   | 2.6.1  | RECONFIGURAÇÃO TOTAL                | 20 |
|   | 2.6.2  | RECONFIGURAÇÃO PARCIAL              | 20 |
|   | 2.6.3  | RECONFIGURAÇÃO ESTÁTICA             | 20 |

|   | 2.6.4 | RECONFIGURAÇÃO DINÂMICA             | 21 |
|---|-------|-------------------------------------|----|
|   | 2.6.5 | AUTORRECONFIGURAÇÃO                 | 22 |
|   | 2.7   | FERRAMENTAS                         | 22 |
|   | 2.7.1 | XILINX ISE DESIGN SUITE             | 22 |
| 3 | Intro | DUÇÃO                               | 24 |
|   | 3.1   | Objetivos                           | 24 |
|   | 3.2   | EXPERIMENTOS                        | 25 |
| 4 | EXPER | RIMENTO 1 - RECONFIGURAÇÃO DINÂMICA | 26 |
|   | 4.1   | Introdução Teórica                  | 26 |
|   | 4.1.1 | PECULIARIDADES                      | 26 |
|   | 4.1.2 | FLUXO DE FERRAMENTAS                | 27 |
|   | 4.2   | Experimento                         | 28 |
|   | 4.2.1 | COMPORTAMENTO                       | 28 |
|   | 4.2.2 | SÍNTESE                             | 29 |
|   | 4.2.3 | PLANAHEAD                           | 31 |
|   | 4.2.4 | IMPACT                              | 33 |
|   | 4.2.5 | Possíveis Erros.                    | 33 |
|   | 4.3   | RESULTADOS                          | 35 |
|   | 4.3.1 | SÍNTESE                             | 35 |
|   | 4.3.2 | PLANAHEAD.                          | 36 |
|   | 4.3.3 | IMPACT                              | 37 |
|   | 4.4   | CONCLUSÃO                           | 37 |
| 5 | EXPER | IMENTO 2 - MEMÓRIAS                 | 38 |
|   | 5.1   | Introdução Teórica                  | 38 |
|   | 5.1.1 | Tipos de Mémoria                    | 38 |
|   | 5.1.2 | Fluxo de Projeto                    | 40 |
|   | 5.1.3 | MICROBLAZE                          | 40 |
|   | 5.2   | Experimento                         | 41 |
|   | 5.2.1 | Escolha da Memória                  | 41 |
|   | 5.2.2 | XPS                                 | 41 |
|   | 5.2.3 | SDK                                 | 43 |
|   | 5.3   | RESULTADOS                          | 44 |
|   | 5.3.1 | XPS                                 | 44 |
|   | 5.3.2 | SDK                                 | 45 |
|   | 5.4   | Conclusão                           | 45 |
| 6 | EXPER | RIMENTO 3 - Bootloader              | 46 |
|   | 6.1   | Introdução Teórica                  | 46 |
|   | 6.1.1 | Arquivo Binário                     | 46 |
|   | 6.1.2 | INICIALIZAÇÃO DA MEMÓRIA SPI FLASH  | 47 |

|    | 6.2   | Experimento                                                     | 48 |
|----|-------|-----------------------------------------------------------------|----|
|    | 6.2.1 | XPS                                                             | 48 |
|    | 6.2.2 | SDK                                                             | 49 |
|    | 6.2.3 | DATA2MEM                                                        | 49 |
|    | 6.2.4 | Programação Indireta da Memória Flash                           | 50 |
|    | 6.3   | RESULTADOS                                                      | 51 |
|    | 6.4   | Conclusão                                                       | 52 |
| 7  | Ехрев | RIMENTO 4 - AUTORECONFIGURAÇÃO COM <i>MicroBlaze</i> E DDR3     | 53 |
|    | 7.1   | Introdução Teórica                                              | 53 |
|    | 7.1.1 | ICAP E ICAPE2                                                   | 53 |
|    | 7.1.2 | Fluxo de Projeto                                                | 54 |
|    | 7.2   | RESULTADOS                                                      | 54 |
|    | 7.3   | Conclusão                                                       | 55 |
| 8  | EXPER | RIMENTO 5 - AUTORECONFIGURAÇÃO COM <i>MicroBlaze</i> E SEM DDR3 | 56 |
|    | 8.1   | Introdução Teórica                                              | 56 |
|    | 8.1.1 | Periférico Reconfigurável                                       | 56 |
|    | 8.1.2 | Fluxo do Projeto                                                | 57 |
|    | 8.2   | Experimento                                                     | 57 |
|    | 8.2.1 | XPS                                                             | 57 |
|    | 8.2.2 | PLANAHEAD                                                       | 59 |
|    | 8.2.3 | SDK                                                             | 61 |
|    | 8.2.4 | DATA2MEM                                                        | 62 |
|    | 8.2.5 | IMPACT                                                          | 62 |
|    | 8.3   | RESULTADOS                                                      | 63 |
|    | 8.3.1 | XPS                                                             | 63 |
|    | 8.3.2 | PlanAhead                                                       | 63 |
|    | 8.3.3 | SDK                                                             | 65 |
|    | 8.3.4 | DATA2MEM                                                        | 66 |
|    | 8.3.5 | IMPACT                                                          | 66 |
|    | 8.4   | Conclusão                                                       | 66 |
| 9  | RESUI | TADOS                                                           | 67 |
|    | 9.1   | Análise de Tempo de Desenvolvimento                             | 69 |
| 10 | Conc  | LUSÕES                                                          | 70 |
| R  | EFERÊ | NCIAS BIBLIOGRÁFICAS                                            | 71 |
|    |       |                                                                 |    |
|    |       |                                                                 |    |
| I  |       | га                                                              |    |
|    | I.1   | Propostas de Aplicações                                         | 75 |

| I.1.1 | Redes Neurais       | 75 |
|-------|---------------------|----|
| I.1.2 | CONTROLE ADAPTATIVO | 77 |
| I.1.3 | Computação Genérica | 78 |
| I.1.4 | Outros              | 79 |

# LISTA DE FIGURAS

| 1.1 | Visualização da Lei de Moore. Eixos em escala logarítmica. Extraido de (WIKIMEDIA         |    |
|-----|-------------------------------------------------------------------------------------------|----|
|     | COMMONS, 2011).                                                                           | 2  |
| 1.2 | Linha do tempo das arquiteturas RISC, extraido de (HENNESSY; PATTERSON, 2011).            |    |
|     | Em negrito estão as iniciativas de pesquisa, em contraste às comerciais                   | 3  |
| 1.3 | Esquemático com o F+V, extraido de (ESTRIN, 2002).                                        | 5  |
| 1.4 | Modelo de rede neural com " $p$ "entradas, " $q$ "saídas e duas camadas                   | 7  |
| 1.5 | Modelo de um controlador adaptativo do tipo MRAC                                          | 9  |
| 1.6 | Ilustração de um processador MIPS com <i>pipeline</i> de 5 estágios.                      | 9  |
| 2.1 | Imagens do fluxo da compilação de <i>hardware</i> .                                       | 12 |
| 2.2 | Circuito interno de um dispositivo do tipo PAL, extraido de (ASHENDEN, 2008)              | 13 |
| 2.3 | Representação de dispositivos do tipo CPLD, extraido de (ASHENDEN, 2008)                  | 14 |
| 2.4 | Representação de dispositivos do tipo FPGA, extraido de (ASHENDEN, 2008)                  | 15 |
| 2.5 | Modelo de rDPA do tipo KressArray-I, extraido de (HARTENSTEIN; KRESS, 1995)               | 16 |
| 2.6 | Imagem ilustrativa para diferenciação entre autorreconfiguração e reconfiguração externa, |    |
|     | extraido de (Xilinx Inc., d).                                                             | 21 |
| 3.1 | Foto ilustrativa do kit de desenvolvimento Kintex-7 KC705 extraida do site da Xilinx      | 25 |
| 4.1 | Comparação dos fluxos de ferramentas. Note que estes fluxos não apresentam as únicas      |    |
|     | opções de fluxo de ferramentas, mas as que foram utilizadas neste projeto                 | 28 |
| 4.2 | Foto ilustrativa do sistema desenvolvido para o teste de validação do experimento 1. Ele  |    |
|     | é composto por uma parte estática e uma parte dinâmica. O elementos em branco são         |    |
|     | estáticos, os em azul são dinâmicos e o em amarelo corresponde a um componente gerado     |    |
|     | automaticamente com o através das ferramentas da Xilinx.                                  | 29 |
| 4.3 | Imagem do PlanAhead logo que aberto.                                                      | 31 |
| 4.4 | Resultado da síntese.                                                                     | 35 |
| 4.5 | Alocação da parte estática do projeto no dispositivo. Em azul claro estão os elementos    |    |
|     | lógicos utilizados.                                                                       | 37 |
| 5.1 | Foto ilustrativa do fluxo de ferramentas para o desenvolvimento de sistemas com Micro-    |    |
|     | Blaze, extraído de (Xilinx Inc., 2013a).                                                  | 40 |
| 5.2 | Diagrama de blocos do MicroBlaze.                                                         | 40 |
| 5.3 | Escolha dos periféricos no BSB do XPS.                                                    | 42 |

| 5.4               | Aba Addresses do System Assembly View indicando os ajustes dos endereços e tamanhos das memórias.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | 42             |
|-------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------------|
| 6.1<br>6.2        | Cabeçalho do arquivo binário gerado no primeiro experimento para a configuração vazia Janela para criação de um arquivo de memória PROM com as configurações devidamente                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              | 46             |
| 6.3               | ajustadas.  Janela para criação de um arquivo de memória PROM com as configurações devidamente                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        | 50             |
| 6.4               | ajustadas.  Resultado da execução do programa embarcado gravado na memória QSPI Flash.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | 51<br>52       |
| 7.1               | Fluxo de ferramentas para desenvolvimennto do projeto.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                | 54             |
| 8.1               | Fluxo de ferramentas para desenvolvimento do projeto.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                 | 57             |
| 8.2<br>8.3        | Fluxo de ferramentas para desenvolvimento do projeto.  Conteúdo da aba <i>Design Runs</i> appós a implementação da primeira configuração e durante a implementação das seguintes. Note que o valor em vermelo indica que as restrições de tempo não foram atingidas, necessitando revisão.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                            | 58<br>60       |
| 8.4               | Janela para criação do arquivo de inicialização de memória Flash do tipo MCS.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | 63             |
| 8.5               | Imagem do ícone representativo do dispositivo a ser programado                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                        | 63             |
| 8.6               | Relatórios de uso do dispositivo.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     | 64             |
| 8.7               | Resultado da implementação do sistema no dispositivo. Os pontos em azul claro representam os elementos lógicos utilizados. O retangulo roxo no canto inferior direito delimita a partição reconfigurável.                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             | 65             |
| 9.1               | Fluxo de projeto para aplicações reconfiguráveis usando as ferramentas da Xilinx. Cada bloco representa um arquivo gerado com o auxílio de alguma ferramentas. As arestas indicam que tal arquivo foi utilizado para gerar o seguinte. Arquivos gerados pelas mesmas ferramentas estão agrupados com uma linha contínuo, no caso de um arquivo de construção obrigatória, ou com uma linha tracejada, no caso de arquivos cuja construção depende dos requisitos do projeto. Estão indicados ainda os tempos, incluindo os tempos das interações necessárias com o usuário, estimados para a construção de cada arquivo. Note que este fluxo é apenas o indicado para a maioria dos projetos, mas que existem projetos que seguem fluxos diferentes, seja por opção ou necessidade.  Representação do fluxo de projeto através de um <i>pipeline</i> . As informações acima dele indicam o tempo mínimo e máximo gasto em cada etapa, sendo que as etapas que possuem alguma fase de desenvolvimento apresentam um "(??)" para indicar que não tem como estimar o tempo gasto. As informações abaixo indicam o tempo mínimo e máximo gasto acumulado desde o início do projeto. A presença do sinal "+" indica que o valor apresentado é apenas uma estimativa empírica do valor máximo, podendo este ser ainda maior | 68             |
| I.1<br>I.2<br>I.3 | Modelo de rede neural com "p"entradas, "q"saídas e duas camadas.  Modelo de um controlador adaptativo do tipo MRAC  Ilustração de um processador MIPS com pipeline de 5 estágios                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                      | 76<br>77<br>78 |

# LISTA DE TABELAS

| 2.1 | Tabela comparativa dos dipositivos reconfiguráveis dos tipos PAL, CPLD e FPGA         | 16 |
|-----|---------------------------------------------------------------------------------------|----|
| 2.2 | Famílias de produtos da Altera, extraído de (WOODS et al., 2008) e do site da empresa | 19 |
| 2.3 | Famílias de produtos da Xilinx, como apresentado em (WOODS et al., 2008) e no site da |    |
|     | empresa                                                                               | 20 |
| 6.1 | Descrição do cabeçalho dos arquivos binários.                                         | 47 |

# LISTA DE SÍMBOLOS

#### **Siglas**

Flop Floating-point Operations
DSP Digital Signal Processor

ASIC Application-Specific Integrated Circuit

F+V Estrutura Fixed plus Variable SRAM Static Random-Access Memory

LUT Look-up Table

EPROM Erasable Programmable Read-Only Memory

EEPROM Eletrically Erasable Programmable Read-Only Memory

GPU Graphics Processing Unit

FPGA Field-Programmable Gate Array

UART Universal Assynchronous Receiver/Transmitter

SPI Serial Peripheral Interface

### Capítulo 1

# Introdução

Este capítulo contextualiza o tema do trabalho, apresentando a motivação histórica seu desenvolvimento, uma motivação tecnológica, seus objetivos e metodologia.

O mundo atual é controlado quase que completamente por sistemas digitais. As informações obtidas pelos sensores são digitalizadas antes de serem tratadas. Tal processo de digitalização é importante, visto que elimina os ruídos intrínsecos ao processamento analógico (CHEN, 2004).

O primeiro computador de computação genérica surgiu por volta da década de 40. Sua invenção iniciou a terceira revolução industrial, conhecida como revolução da informação ou revolução técnico-científica-informacional (PATTERSON; HENNESSY, 2005). Os computadores dessa época liam e executavam instruções de forma linear, em um modelo conhecido como sequencial ou temporal.

Nos anos que se seguiram, a substituição das válvulas por transistores de silício ajudaram a reduzir o tamanho dos computadores de metros a centímetros quadrados. Tal mudança permitiu um aumento na popularidade destes dispositivos para o uso pessoal, efeito que impulsionou a indústria de produção de processadores (HENNESSY; PATTERSON, 2011). As empresas da época começaram então a guerra de miniaturizações de transistores, marcada pelo célebre artigo de Gordon E. Moore, cofundador da Intel, que dizia que o número de transistores dentro de um processador duplicaria aproximadamente a cada 2 anos (MOORE, 1965). A partir de 1970, a lei foi adaptada para a duplicação a cada 18 meses (HENNESSY; PATTERSON, 2011). A figura 1.1 apresenta uma visualização da lei de Moore nos anos que se seguiram.

Com a integração de mais componentes dentro do processador, conjuntos de instruções cada vez mais complexas foram desenvolvidas. Estas instruções surgiram para acelerar a computação de funções de níveis mais altos. A integração também reduziu a potência dissipada por transistor, permitindo que as frequências de operação dos computadores fosse aumentada (HENNESSY; PATTERSON, 2011).

Com o aumento da complexidade das instruções, passou-se a adotar duas nomenclaturas diferentes para processadores: *Reduced Instruction Set Computer* (RISC) e *Complex Instruction Set Computer* (CISC) (FEDELI; POLLONI; PERES, 2003). A arquitetura RISC possui um conjunto pequeno e muito otimizado de funções, comandos exclusivos para acesso a memória (arquitetura *load/store*) e uma média de uma instrução completada por ciclo, quando desconsidera-se as instruções de acesso a memória. A arquitetura



Figura 1.1: Visualização da Lei de Moore. Eixos em escala logarítmica. Extraido de (WIKIMEDIA COMMONS, 2011).

CISC possui várias funções para tarefas mais específicas, que por vezes demandam vários ciclos de relógio, e funções que realizam operações com informações lendo e/ou salvando direto na/para a memória. A arquitetura RISC, que possui em seu portfolio dispositivos como ARM, IBM PowerPC, Sun SPARK e MIPS, dentre outros, é muito mais utilizada nos dias de hoje. A figura 1.2 mostra um pouco da história desta arquitetura. Até empresas como a Intel, que ficaram populares com seus processadores CISC, tem se curvado a arquitetura RISC devido a seu uso mais eficiente de potência. Eles vem utilizando uma arquitetura conhecida como núcleo de RISC (*RISC core*), onde as instruções são recebidas em formato CISC e decodificadas para uma arquitetura interna RISC.

Por volta dos anos 2000, a potência dissipada em cada transistor, proporcional a frequência de operação, havia atingido o limite suportado pelo microprocessador. Por causa disso, o crescimento desenfreado da frequência teve que ser repensado. Começou-se então o desenvolvimento de microprocessadores *multicore*, que aumentam a vazão de instruções (*throughtput*) sem modificar o tempo de resposta, que corresponde ao tempo de processamento médio de uma instrução. Em meados de 2006, todas as grandes companhias já possuiam produtos com esta arquitetura (HENNESSY; PATTERSON, 2011).

Os microprocessadores com vários núcleos (*multicore*) abriram espaço para a chegada de processadores com muitos núcleos (*manycore*). Estes microprocessadores são projetados para placas gráficas e, apesar de possuirem centenas de núcleos, estes núcleos são simplificados (VAJDA, 2011). Em geral, eles são capazes de realizar apenas algumas poucas operações, mas abrem caminho para paradigmas de programação que transformem a computação concorrente em computação paralela (HAREL; FELDMAN, 2004).

Mesmo trabalhando com um ou vários núcleos de processamento, o modelo de computação atual ainda é dito temporal ou sequencial uma vez que blocos de instruções são executados em seu devido instante de tempo de forma sequencial, conceito destacado pela atomicidade estudada em programação paralela



Figura 1.2: Linha do tempo das arquiteturas RISC, extraido de (HENNESSY; PATTERSON, 2011). Em negrito estão as iniciativas de pesquisa, em contraste às comerciais.

#### (WILLIAMS, 2012).

Do ponto de vista da programação, os primeiros computadores apresentavam programas que não podiam ser alterados. Parte desta limitação era justificada pela programação utilizando-se cartões, mas nas primeiras gerações de computadores com memórias eletrônicas o mesmo sistema foi utilizado.

A arquitetura de von Neumann, utilizada na primeira geração de computadores eletrônicos, era constituída de uma única unidade de memória, uma unidade de processamento e um canal de comunicação. Esta arquitetura possui tanto uma vantagem tremenda, a capacidade de modificação de programas em tempo de execução, quanto uma falha crucial, conhecida por gargalo de von Neumann. A vantagem aparece uma vez que, como não há distinção entre memória de programa e dados, uma instrução pode sobrescrever um endereço de memória marcado como programa. O problema diz respeito às restrições impostas pelo canal de comunicação, que permitia que apenas uma palavra, seja de programa ou de dados, fosse mandada para a unidade de processamento e de volta (BACKUS, 1978). Este problema se agrava a medida que o processador fica mais rápido que a memória, uma vez que o tempo de espera, em ciclos de relógios, para a obtenção da informação aumenta. Para solucionar o problema do gargalo de von Neumann, a arquitetura Harvard foi proposta.

A arquitetura Harvard original propunha que a memória de programa e a memória de dados fossem fisicamente separadas e possuissem cada uma seu próprio canal de comunicação com o processador (HENNESSY; PATTERSON, 2011). Essa modificação acelera a execução de certos programas, visto que pro-

grama e dados podem ser carregados das suas respectivas memórias simultaneamente. Uma pequena alteração na arquitetura Harvard, conhecida de arquitetura Harvard modificada, permitia que mais de um canal de comunicação ligasse a uma memória tanto de programa quanto de dados (HENNESSY; PATTERSON, 2011). Essas informações eram divididas em memórias temporárias (*cache*) específicas para o programa e para dados, formando assim uma arquitetura Harvard original. Essa modificação combina os benefícios da arquitetura de von Neumann, ou seja, a modificação de programas em tempo de execução, e da arquitetura Harvard original, ou seja, o tempo de acesso reduzido.

Atualmente, nossos modernos computadores multiprocessados utilizam a arquitetura Harvard modificada com diversos níveis de memória *cache* (HENNESSY; PATTERSON, 2011), sejam eles dedicados ou compartilhados entre os vários processadores. A sua capacidade de processamento atinge níveis extraordinários, ultrapassando 20 GFlops em computadores comuns (MAXXPI, 2013) e 54 PFlops em supercomputadores (TOP500, 2013). Apesar disso, a arquitetura Harvard original ainda é muito usada em microcontroladores e processadores digitais de sinal (*Digital Signal Processors* ou DSPs).

#### 1.1 Computação Reconfigurável

A computação reconfigurável foi proposta por volta de 1960 por Gerald Estrin para resolver problemas que não podiam ser resolvidos pela computação da época (ESTRIN, 2002). Estrin propôs um microprocessador composto de uma parte fixa e uma parte variável, onde a parte variável seria usada para programar funcionamentos específicos para serem usados em determinados períodos de tempo. Por volta da década de 1990, porém, o primeiro microprocessador híbrido comercial foi desenvolvido (ESTRIN, 2002), trazendo esta tecnologia à tona.

A tecnologia inventada por Estrin, também conhecida como estrutura *Fixed Plus Variable* (F+V), cuja representação está mostrada na figura 1.3, trouxe à tona um novo paradigma de processamento de dados (HARTENSTEIN, 2001). O motivo para tal é o fato de que a interação entre as unidades de processamento e os dados mudou completamente. O que antes se conhecia por modelo temporal de computação foi deixado de lado para, nesta nova arquitetura, se tornar um modelo espacial. Em outras palavras, os dados não eram direcionados um a um para uma unidade central de processamento, mas processados continuamente em um sistema distribuído no espaço (VASSILIADIS; SOUDRIS, 2007). Tal sistema distribuído é composto de células lógicas e suas conexões, ambas reprogramáveis, ajudando a se alcançar uma eficiência similar a presente em ASICs e flexivel como a computação genérica.

Ao contrário da estrutura F+V proposta por Estrin, a maioria dos sistemas reconfiguráveis atuais possuem apenas a parte reconfigurável. Apesar de sistemas reconfiguráveis de alta performance possuirem componentes fixos como processadores e unidades de processamento gráficos (GPUs) (EL-GHAZAWI et al., 2008), a sua ausência reduz o custo de projeto e a flexibilidade do projeto final.

Os sistemas reconfiguráveis atuais utilizam de três meios principais de programação: *Static Random-Access Memory* (SRAM), *Antifuse* e memórias não-voláteis. Usando SRAM, o resultado da síntese é armazenado nas células desta memória e controlam o estado dos transistores das células lógicas. No caso de células compostas de tabelas de busca (*look-up tables* ou LUTs), a SRAM armazena os dados dessas células. Outra segunda tecnologia de programação, o *antifuse*, faz uso de uma conexão com impedância



Figura 1.3: Esquemático com o F+V, extraido de (ESTRIN, 2002).

variável, onde através do uso de altas voltagens pode-se modificar a resistência de uma via. Esse processo de programação é irreversível. As memórias não voláteis, como EPROM, EEPROM e FLASH, usam transistores especiais com uma ponte flutuante. Quando a ponte possui carga, o transistor pode ser controlado pela ponte de seleção, que permanece carregada até quando desligada. Estas técnicas permitem a resistência da *antifuse* e a reprogramabilidade da SRAM, sendo apenas mais complexa e demorada para ser programada (VASSILIADIS; SOUDRIS, 2007).

As interconexões entre células lógicas, que influenciam diretamente as células em si, podem ser de cinco tipos: ilha, linha, mar-de-portas, hierárquico e estruturas unidimensionais (VASSILIADIS; SOU-DRIS, 2007). A arquitetura do tipo ilha consiste em células lógicas conectadas umas as outras através de caixas de conexões e de roteamento. Nesta arquitetura, a célula lógica está cercada por trilhas de conexões, o que explica o nome. A arquitetura do tipo linha consiste em várias linhas divididas em quantidades variadas de segmentos. As conexões são então realizadas usando-se linhas verticais através de blocos lógicos especiais. A arquitetura do tipo mar-de-portas consiste de blocos lógicos que cobrem todo o espaço do dispositivo e são conectados aos seus vizinhos diretos. Em geral este tipo de conexão é mais rápido. A arquitetura do tipo hierárquico agrupa as células lógicas em *clusters*, e agrupa estes em *clusters* de mais alto nível, formando de fato um sistema hierárquico. O último tipo de arquitetura, unidimensional, surge como uma tentativa de simplificar o roteamento complexo dos sistema bidimensionais apresentados anteriormente. Nele, restrições de alocação e roteamento são impostas para reduzir o número de possibilidades. O problema deste tipo de arquitetura é que se não houverem recursos de roteamento suficientes, o roteamento fica mais complexo que nas arquiteturas bidimensionais.

As arquiteturas reconfiguráveis podem ser classificada em três tipos segundo a granularidade. A granularidade diz respeito a quantidade de informação mínima que pode ser passada de uma célula lógica para

outra. Ela separa as arquiteturas reconfiguráveis em três categorias: granularidade fina, grossa e híbrida. Nas arquiteturas com granularidade fina, como os *Field-Programmable Gate Arrays*, um único *bit* pode ser transferido de uma célula a outra, permitindo assim um maior controle sobre os dados. Nas arquiteturas com granularidade grossa, os *bits* são agrupados em palavras de tamanhos fixos, reduzindo assim o espaço gasto com roteamento e melhorando a roteabilidade (HARTENSTEIN, 2001). No último tipo de arquiteturas, a híbrida, parte das conexões são grossas e partes são finas, combinando os benefícios das duas classes.

#### 1.2 Motivação

O capítulo de conclusão deveria incluir uma seção de propostas de projetos implementáveis ou otimizáveis através da autorreconfiguração. Seguem a seguir as modificações necessárias.

#### 1.3 Propostas de Aplicações

O objetivo deste projeto deste o início foi o desenvolvimento de um sistema capaz de realização de autorreconfiguração, o que consitui o ápice tecnológico da reconfiguração dinâmica parcial. Tendo-se compreendido o fluxo de desenvolvimento para o uso desta tecnologia, propõe-se agora algumas possíveis aplicações.

#### 1.3.1 Redes Neurais

#### 1.3.1.1 Introdução

Redes neurais são uma ferramenta de inteligência artificial largamente utilizada nas áreas de *Data Mining* e sistemas que necessitem de algum tipo de aprendizado. Elas utilizam de redes de elementos extremamente simples, como mostrado na figura I.1, para criar uma função altamente não-linear com um comportamento esperado. Estes elementos podem ser matematicamente representados por somatórios ponderados afunilados por funções não-lineares. Os pesos utilizados nestes somatórios são os elementos a serem adaptados de forma a modificar o comportamento da estrutura. Elas podem ser utilizadas tanto aprendizados supervisionados, onde funciona como um poderoso aproximador de funções, quanto em aprendizados não-supervisionados, onde traduz um sistema hiperdimensional em bidimensional.

#### 1.3.1.2 Topologias

As redes neurais podem possuir várias camadas de neurônios, que são as unidades básicas de processamento, e várias entradas e saídas. Quanto mais camadas são acrescentadas ao sistema, mais instável fica seu treinamento e custosa sua computação. Em geral utilizam-se apenas duas ou três camadas com um número arbitrário de neurônios em cada uma. Não existe um algoritmo que determine qual seria a topologia ideal de uma rede para um certo modelo. Tal decisão normalmente é feita com base em experiência e



Figura 1.4: Modelo de rede neural com "p"entradas, "q"saídas e duas camadas.

tentativas e erros.

Existem topologias três topologias básicas de redes neurais: a *feedforward*, a recorrente e a atrasada. A primeira possui neurônios que entregam seus resultados apenas para camadas mais a frente. A segunda, mais complexa, além de entregar seus resultados para as camadas mais a frente, realimentam camadas anteriores. A última utiliza de elementos especiais para atrasar o uso de certas entradas ou resultados.

#### 1.3.1.3 Formas de funcionamento

As redes neurais podem ser usadas de diversas formas diferentes: através de treinamento *online*, onde o sistema continuamente recebe informações e treina os pesos dos seus neuronios; através de treinamento em lotes, onde o sistema acumula um lote de informações e treina o sistema lote a lote; através de treinamento *offline*. Cada um dos usos listados tem seu uso específico e suas vantagens e desvantagens. O treinamento *online* tem a vantagem de se adaptar mais frequentemente ao sistema que tenta modelar, mas precisa de muito mais processamento/potência para manter o sistema treinado. O treinamento em lotes tem a vantagem de poder ter a frequência de atualização dos pesos modificada de acordo com as necessidades. Sendo assim, a relação taxa de atualização/potência pode ser ajustada. O treinamento *offline* tem a vantagem de considerar um conjunto potencialmente representativo do sistema modelado além da vantagem de ser a forma que precisa de menos processamento, visto que a atualização dos pesos acontece apenas uma vez. A desvantagem dessa forma é a falta de capacidade de adaptação frente a sistemas variáveis no tempo.

#### 1.3.1.4 Algoritmos de Treinamento

Além das formas de funcionamento das redes neurais, outra característica que a define grandemente é o algoritmo de treinamento utilizado. Dentre os mais populares existem o *backpropagation* e o de Levenberg-Marquardt. O algoritmo de *backpropagation* é o mais difundido devido a sua facilidade de entendimento e implementação. Já o algoritmo de Levenberg-Marquardt vê o ajuste de pesos de uma rede neural como um problema de otimização.

#### **1.3.1.5** Proposta

A computação reconfigurável, mais especificamente a reconfiguração dinâmica parcial, pode ser usada para modificar a topologia da rede neural. Ela pode ser programada para, quando o erro ultrapassar um certo limite máximo, aumentar ou diminuir o número de neurônios numa certa camada. Os desafios referentes a essa proposta são apenas relacionados a implementação de um sistema com reconfiguração dinâmica parcial.

Outra possibilidade é a modificação do algoritmo de treinamento com base em seus custos computacionais e erros. Quando um algoritmo de baixo custo computacional começar a retornar um erro acima de certo limite máximo, ele seria trocado pelo algoritmo imediatamente mais custoso. Os desafios dessa proposta são, além dos relacionados a implementação de um sistema com reconfiguração dinâmica parcial, a implementação em *hardware* de algoritmos de treinamentos de redes neurais.

Uma outra possibilidade seria a de implementar uma autorreconfiguração não-planejada no sistema, onde o número de neurônios e a forma de suas conexões não seriam programados previamente em configurações específicas, como na primeira proposta, mas determinados em tempo de execução. De forma um pouco mais clara, apenas o comportamento e *bitstreams* referentes aos elementos básicos/neurônios seriam programados. Suas conexões e pesos seriam determinados por um sistema controlador presente na lógica estática do sistema reconfigurável. A dificuldade de implementação desse projeto o torna inviável para um trabalho deste porte.

#### 1.3.2 Controle Adaptativo

O controle adaptativo tradicional tem como principal objetivo o controle de sistemas incertos ou com características variantes no tempo. Um controlador adaptativo tem a forma mostrada na figura I.2. Este sistema implementa uma lógica de estimação e correção de parâmetros segundo a estabilidade de Lyapunov.

#### 1.3.2.1 Proposta

Utilizando o conceito básico deste tipo de controle e a reconfiguração dinâmica, é possível construir um controlador cuja forma é mudada segundo os requisitos dos sistema, i.e. hora seria um controlador proporcional, hora seria um controlador proporcional-integral-derivativo. As dificuldades desta proposta



Figura 1.5: Modelo de um controlador adaptativo do tipo MRAC.

dizem respeito implementação de sistemas com reconfiguração dinâmica parcial e ao projeto do sistema que controlaria a troca entre controladores.

#### 1.3.3 Computação Genérica

Um computador de computação genérica possui um conjunto fixo de instruções implementados em um sistema imutável no tempo. A figura I.3 apresenta um processador MIPS de 5 estágios representando este um processador comum, i.e. imutável. Os únicos elementos lógicos passíveis de alteração são as memórias.



Figura 1.6: Ilustração de um processador MIPS com pipeline de 5 estágios.

#### 1.3.3.1 Propostas

O uso de autorreconfiguração este caso possibilitaria a redução do espaço físico necessário para a implementação de elementos da unidade de lógica e aritmética (ALU). Esta modificação permitiria também uma diminuição no consumo de energia do processador, além de permitir que instruções de ponto flutuante

fossem implementadas diretamente na ALU, sem a necessidade de extensão do processador. Outra possibilidade é a implementação de um banco de registradores variável, permitindo ao compilador escolher quantos registradores utilizar em cada etapa do seu programa, otimizando ainda mais o desempenho deste.

As dificuldades deste projeto dizem respeito a necessidade de construção prévia de um processador genérico funcional, a incluisão de uma memória para armazenamento de configurações, o desenvolvimento de cada configuração parcial para este componente e o desenvolvimento de um controlador para a troca de configurações. É provável que o circuito responsável pela reconfiguração possa ganhar um estágio dedicado a ele, devivo a sua complexidade e ao tempo de programação. Para se contornar o problema do tempo de reconfiguração, pode-se utilizar diversas ALUs, onde apenas uma estaria ativa no ciclo em execução. Sendo assim, outros sistemas de controle podem ser necessários.

Uma outra possibilidade de implementação, menos eficiente, é a reconfiguração do sistema estágio-a-estágio. Ou seja, quando o dispositivo fosse ligado, apenas o primeiro estágio estaria programado. Esta implementação não é recomendada, uma vez que transforma um processador com *pipeline* em um processador uniciclo.

#### **1.3.4** Outros

De forma geral, qualquer sistema multiplexado ou que possua diversas etapas de processamento, pode ser implementado utilizando-se de autorreconfiguração. Deve-se, porém, para sua utilização em aplicações reais, verificar se o *overhead* de tempo introduzido é balanceado pelos ganhos de performance e potência.

#### 1.4 Objetivos

#### 1.4.1 Objetivos Gerais

Estudar a

#### 1.4.2 Objetivos Específicos

#### 1.5 Metodologia

#### 1.6 Material e Ferramentas

### Capítulo 2

## Revisão Bibliográfica

Este capítulo visa apresentar uma breve descrição sobre reconfiguração dinâmica, autorreconfiguração e as ferramentas e conceitos necessários para o seu entendimento.

#### 2.1 Compilação de Hardware

A compilação de *hardware* é um processo primordial no desenvolvimento de sistemas reconfiguráveis, equivalente à compilação para projetos de *software* (HAUCK; DEHON, 2007). A figura 2.1 apresenta duas imagens que apresentam este processo de compilação.

**Descrição** Assim como no *software*, se inicia com a descrição do funcionamento do sistema. Esta descrição em geral é feita utilizando-se especificações de um problema/aplicação. Ela pode ser realizada em Verilog, VDHL e diagramas de blocos, na maioria dos casos. Utiliza-se ainda a simulação funcional, como mostrado na figura 2.1b, para validar a descrição realizada.

**Síntese Lógica** A partir do código fonte construido, realiza-se a síntese lógica, processo que consiste em transformar a descrição comportamental ou estrutural em elementos lógicos (THOMAS; MOORBY, 1996; ASHENDEN, 2008). Assim como na compilação de *software*, existe uma fase de pré-processamento que expande macros, inclui arquivos e realiza a verificação léxica e sintática da descrição. Diversos algoritmos de otimização também são aplicados de forma a reduzir as equações lógicas, otimizando seu espaço no dispositivo e performance.

Colocação (*Placement*) e Roteamento (*Routing*) A colocação, que aqui também abrange a etapa de *floorplanning*, consiste em identificar onde a lógica deverá ser posicionada para satisfazer os requisitos de tempo, potência e performance, segundo as limitações do dispositivo-alvo. Ela recebe informações da lógica do projeto e dos recursos lógicos do dispositivo e aplica algoritmos de otimização para alcançar todos os objetivos e pré-requisitos impostos.

A etapa de roteamento, em conjunto com a colocação, tenta conectar os elementos necessários de acordo com as limitações do FPGA. Para projetos grandes, com muitos elementos lógicos, pode ser muito



- (a) Imagem ilustrativa do fluxo de compilação de um projeto de *hardware*, extraida de (HAUCK; DEHON, 2007).
- (b) Imagem ilustrativa do fluxo de compilação de um projeto de *hardware* segundo visto pelo usuário, extraida de (HAUCK; DEHON, 2007).

Figura 2.1: Imagens do fluxo da compilação de *hardware*.

dificil, tornando o processo lento, ou até impossível de se realizar esta etapa. Note que o roteamente interfere diretamente com questões relacionadas a tempo e performance.

**Análise e Simulação de** *Timing* Durante a colocação e o roteamento, várias informações de tempo do projeto são calculados e associados ao projeto. Após estas etapas, uma análise estática de temporização e simulações extremamente precisas podem ser realizadas, removendo todas as dúvidas quanto ao projeto realizado e as descrições impostas.

Geração do Arquivo Binário (*Bitstream Generation*) A etapa de geração do arquivo binário corresponde a transformação das informações geradas na síntese, na colocação e no roteamento para bits de programação da FPGA. Estes bits popularão, durante a fase de programação, as LUTs e RAMs da placa, definindo seu funcionamento.

#### 2.2 Benchmark

A avaliação de desempenho de sistemas reconfiguráveis não pode mais ser dada com base em quantidade de operações em ponto flutuante (FLOPS) como é feita em computadores e similares (PATTERSON; HENNESSY, 2005; CULLINAN et al., 2012). A melhor forma de se comparar dispositivos é através de do uso de uma mesma aplicação sintetizada com as ferramentas específicas de cada empresa. Neste caso, pórem, a comparação também leva em consideração o desempenho das ferramentas, especialmente em sua capacidade de otimizar as funções implementadas. Outra forma comum de se comparar desempenho é específico através de uma análise de aplicações específicas. Um exemplo para uma aplicação de filtragem de imagens é a quantidade de quadros ela consegue processar em um determinado periodo de tempo.

#### 2.3 Dispositivos

As formas mais comuns de dispositivos reconfiguráveis são o *Programmable Array Logic* (PAL), o *Complex Programmable Logic Device* (CPLD), o *Field-Programmable Gate Array* e o *Reconfigurable Datapath Array* (rDPA). Cada um possui suas vantagens e desvantagens segundo a forma de implementação, comentadas a seguir.



Figura 2.2: Circuito interno de um dispositivo do tipo PAL, extraido de (ASHENDEN, 2008).

#### 2.3.1 Programmable Array Logic

Os *Programmable Array Logics* (PALs) foram os primeiros dispositivos programáveis, desenvolvidos por volta de 1970. Os PALs podem ser configurados para desempenhar diversas funções lógicas com possibilidade de cascateamento. Alguns tipos especiais de PALs também contém registradores, permitindo a programação de circuitos sequenciais simples. Outra característica dos PALs que permitiam a construção de circuitos lógicas um pouco mais complexas era a realimentação, como pode ser visto na figura 2.2. Eles podem ser programados usando uma linguagem de descrição de *hardware* com informações na forma de expressões booleanas. Eles porém se tornaram obsoletos com a chegada dos *Generic Array Logics* (GALs) e *Complex Programmable Logic Devices* (CPLDs). Eles eram produzidos principalmente pela Data I/O Corporation.

Os PALs surgiram para substituir a lógica TTL, usada em granda escala na prototipagem e em dispositivos pequenos. Em geral, mesmo que para projetos com apenas alguns elementos de lógica TTL, o uso de PALs possuía um custo e confiabilidade maiores que na combinação de vários *chips* diferentes. Sua programação é feita através de conexões compostas por pequenos fusíveis, que são queimados quando a conexão não é necessária.



Figura 2.3: Representação de dispositivos do tipo CPLD, extraido de (ASHENDEN, 2008).

#### 2.3.2 Complex Programmable Logic Device

Desenvolvida depois dos PALs, os CPLDs são dispositivos similares aos PALs, mas com suporte a um número maior de blocos lógicos. Eles podem ser definidos como um conjundo de PALs conectados por uma rede programável de conexões, como tenta esquematizar a figura 2.3. Sua arquitetura é baseada no mar de portas, como mostra a figura 2.3. Detalhes de implementação variam de fabricante.

Além de conter mais recursos que os PALs, os CPLDs são diferentes na forma de programação. Ao invés de usar EEPROM, eles usam memórias RAM não-voláteis para armazenar a programação quando o sistema é desligado e células de memória SRAM para armazenar as informações de conexões e comportamento das células lógicas. Quando o dispositivo é energizado, a programação da memória RAM é passada para as células SRAM, que permitem que o sistema funcione. A memória não-volátil também possui pinos

independentes acessíveis externamente, o que permitem que ele seja programado mesmo depois de soldado ao produto final permitindo sua atualização.

A maior vantagem dos CPLDs com relação a outros dispositivos é a sua não-volatilidade, tornando-o muito útil como *bootloaders* ou em aplicações que precisem rodar assim que o sistema é energizado. O mais famoso destes dispositivos, conhecido por Max, é desenvolvido pela Altera.



Figura 2.4: Representação de dispositivos do tipo FPGA, extraido de (ASHENDEN, 2008).

#### 2.3.3 Field-Programmable Gate Array

Formado de células programáveis consideravelmente menores que as dos CPLDs, que permitem uma maior integração, existe o *Field-Programmable Gate Array*. Como se pode notar, este dispositivo possui dentre as suas características principais a capacidade de ser programado e reprogramado em campo (*field*), isto é, sem a necessidade de processos especiais. Apesar disso, devido a complexidade dos circuitos internos destes dispositivos, simplificados na figura 2.4, eles não foram feitos para serem programados manualmente, o que ainda era possível com os CPLDs, fazendo-se necessário o uso de ferramentas de projeto auxiliado por computador (CAD) para, dado um código em linguagem de descrição de *hardware*, sintetizar, mapear, alocar e rotear o projeto automaticamente.

Desde a sua invenção, as FPGAs vem crescendo em capacidade e performance, tendo se tornado o principal componente de computação reconfigurável. A maioria das suas implementações se assemelha, em alto nível, ao circuito apresentado na figura 2.4. Eles incluem blocos lógicos que podem implementar tanto lógicas combinacionais simples quanto funções lógicas sequenciais, blocos de entrada e saída registrados ou não com possibilidade de funcionamento em diversos níveis lógicos e condições de temporização, células de memória RAM embutidas e uma rede de conexões programável. A razão para permitir que todas estas características sejam programadas é permitir que os FPGAs sejam usados nos mais diversos tipos de sistemas, que usam diferentes padrões de sinais entre *chips*. Detalhes de implementação porém variam entre fabricantes e famílias de dispositivos. Apesar disso, em sua maioria, utilizam de memórias RAM assíncronas de 1 bit conhecidas como *lookup tables* (LUTs), além de *flip-flops* e multiplexadores. Algumas

FPGAs também incluem células especializadas de processamento como multiplicadores e processadores genéricos.

Existem dois tipos de FPGAs, um baseado em memória RAM e outro baseado em *antifuses*. Como foi falado na seção 1.1, a memória RAM é volátil, forçando o sistema a ser programado toda vez que energizado. Apesar disso, possui a vantagem de poder ter sua programação modificada em campo. O FPGA baseado em *antifuses* só pode ser programado uma vez, na fábrica.

|                | PAL                | CPLD               | FPGA               |
|----------------|--------------------|--------------------|--------------------|
| Custo          | \$2-\$15           | \$5-\$50           | \$10-\$300         |
| Blocos lógicos | 8-10               | 32 - 128           | 100+               |
| Pinos de I/O   | 20-24              | 44-160             | 84-256             |
| Configuração   | EEPROM             | EEPROM             | RAM ou OTP         |
| Projeto        | Equações Booleanas | HDL ou esquemático | HDL ou esquemático |

Tabela 2.1: Tabela comparativa dos dipositivos reconfiguráveis dos tipos PAL, CPLD e FPGA.

A tabela 2.1 apresenta uma comparação ligeiramente grosseira entre os PALs, CPLDs e FPGAs.



Figura 2.5: Modelo de rDPA do tipo KressArray-I, extraido de (HARTENSTEIN; KRESS, 1995).

#### 2.3.4 Reconfigurable Datapath Array

O *Reconfigurable Datapath Array* é um tipo de sistema reconfigurável com granularidade grossa, normalmente 32 bits (HARTENSTEIN, 2001). Apesar de relativamente mais novo que os dispositivos abaixo, ele é menos utilizado. Seus blocos lógicos, chamados de *datapath processing units* (DPUs), são um pouco mais complexos que os dispositivos de granularidade fina de forma a conseguir tratar os dados maiores.

Eles possuem múltiplas conexões uni e birecionais entre seus vizinhos diretos, além de trilhas verticais/horizontais completas ou segmentadas e um trilha principal mais externa que conecta todos os blocos, conforme mostra a figura 2.5. As vantagens deste tipo de sistema reconfigurável são um maior poder de processamento para uma mesma complexidade de roteamento em relação aos sistemas de granularidade mais fina além de um tempo de configuração reduzido. Em todos os outros aspectos, ele é extremamente similar a FPGAs. Sua desvantagem é o baixo controle dos bits individuais, uma vez que mesmo a descrição de *hardware* indique o uso de apenas um bit, toda uma palavra é usada.

#### 2.4 Linguagens de Descrição de Hardware

Um dispositivo reconfigurável precisa de informações sobre o seu comportamento desejado para poder ser configurado. O primeiro passo desse processo é a descrição do sistema por uma linguagem de programação similar as usadas em computação geral. Dentre as linguagens mais comuns estão Verilog, VHDL e SystemC.

Verilog e VHDL descrevem o sistema através da abstração em *Register-Transfer Level* (RTL), ou seja, o comportamento dos circuitos digitais síncronos é definido em termos do seu fluxo de dados e operações realizadas. SystemC por outro lado usa o *Transaction-Level Modeling*, que descreve o comportamento do circuito através de modelos de canais de comunicações. Os módulos funcionais então realizam transações de informações entre si.

Além das linguagem já mencionadas, outra classe de linguagens de descrição de hardware é conhecida como Analog Mixed-Signal (AMS), sendo basicamente extensões das linguagens já mencionadas. Estas extensões acrescentam a linguagem a capacidade de trabalhar com sinais analógicos. Tais linguagens tem sido bastante usadas em simulações, mas deixadas de lado na etapa de síntese pela falta de ferramentas.

Existem dois paradigmas principais para descrição de *hardware*: estrutural e comportamental (THO-MAS; MOORBY, 1996). O paradigma estrutural constitui uma tentativa de se descrever um sistema através da conexão de elementos lógicos mais simples. Partindo dessas estruturas, constrói-se então elementos cada vez mais complexos. No paradigma comportamental, relações de mais alto nível, tais como somas, subtrações e operações lógicas, estão disponíveis para o uso do desenvolvedor, aproximando a descrição de *hardware* da programação de *softwares* tradicionais.

#### 2.4.1 Verilog

Verilog foi a primeira linguagem moderna de descrição de *hardware*. Ela foi desenvolvida com a intenção apenas de descrever e simular/validar circuitos digitais, mas nos anos seguintes a opção de síntese foi acrescentada. Padronizada pelo IEEE em 1995, o Verilog foi desenvolvido para ser similar a linguagem de programação genérica "C". Permite programação estrutural e comportamental.

#### 2.4.2 VHDL

VHDL foi desenvolvida logo em seguida ao Verilog, em um projeto solicitado pelo Departamento de Defesa dos Estados Unidos, como uma forma de documentar o comportamento de ASICs. Ela possui uma sintaxe similar a linguagem "Ada". A linguagem logo foi padronizada pelo IEEE, em 1987. Ela possui algumas diferenças básicas em relação ao Verilog que não serão mencionados aqui. A maior diferença prática porém é a presença de bibliotecas padronizadas pelo IEEE que disponibilizam funcionalidades muito úteis. Permite programação estrutural e comportamental.

#### 2.4.3 SystemC

SystemC foi desenvolvida em meados dos anos 2000, aproximadamente 15 anos depois do Verilog e VHDL, com o intuido de aproximar as linguagens de descrição de *hardware* às de programação genérica. Ela é basicamente um conjunto de classes e macros para "C++" que disponibiliza uma interface de simulação dirigidas por eventos. Essas ferramentas permitem que o projetista simule processos concorrentes, mas nos últimos tempos também foi adaptada para o desenvolvimento de sistemas reconfiguráveis. Uma vez que não foi desenvolvida com o propósito principal de descrição de hardware, possui um chamado "overhead sintático" com relação a Verilog e VHDL, onde mais texto tem que ser escrito para descrever um mesmo comportamento.

#### 2.5 Fabricantes

As duas maiores fabricantes de FPGAs são as empresas Altera e Xilinx. A Xilinx foi a primeira fabricante de FPGAs do mundo e detém aproximadamente 51% do mercado de FPGAs, enquanto a Altera, sua maior competitora, possui aproximadamente 34% do mercado. Ambas possuem uma ampla linha de FPGAs e CPLDs. Eles serão descritos abaixo.

#### 2.5.1 Altera

A Altera possui diversas linhas de FPGAs, dentre elas uma de baixo custo, chamada Cyclone, uma de médio custo, chamada Aria, e uma de alto, chamada Stratix, CPLDs, chamada Max, e uma série de ASICs, chamada *HardCopy*. Todos os seus dispositivos são programados a partir de um programa chamado Quartus, hoje na sua segunda versão. O Quartus possui ferramentas para a programação do comportamento do sistema, simulação, síntese, programação do *bitstream* do FPGA, construção de *System-on-Chips* (SoCs), IDE para programação destes SoCs e ferramentas para a verificação de projetos. Apesar da sua variada linha de dispositivos, sintetizada na tabela 2.2 e poderosa ferramenta de programação, a Altera apresenta poucas séries com possibilidade de reconfiguração parcial e autorreconfiguração.

O sistema de desenvolvimento da Altera, chamado Quartus, dá suporte a todos os dispositivos da empresa a partir da instalação de pacotes com informações dos mesmos. Apesar de muito robusto, este programa dá suporte a tecnologias mais atuais, como reconfiguração parcial ou dinâmica, através de extensões e componentes de propriedade intelectual (IP). Estas tecnologias, pórem, só estão disponíveis para

| Tipo | Família                 | Breve Descrição                                 |  |
|------|-------------------------|-------------------------------------------------|--|
| CPLD | MAX <sup>®</sup> II     | Tecnologia com numerosos blocos simila-         |  |
|      |                         | res aos PALs.                                   |  |
| FPGA | Cyclone®                | Baixo custo, repleto de elementos de me-        |  |
|      |                         | mória                                           |  |
| FPGA | Arria <sup>®</sup>      | Série <i>midrange</i> , com desempenho superior |  |
|      |                         | a Cyclone e inferior a Stratix. Pode ter        |  |
|      |                         | transceivers.                                   |  |
| FPGA | Stratix <sup>®</sup>    | Alta performance, baixa potência.               |  |
| FPGA | Stratix <sup>®</sup> GX | Série com transceivers seriais e arrays de      |  |
|      |                         | alta performance escaláveis.                    |  |
| ASIC | HardCopy <sup>®</sup>   | Série de ASICs estruturados de baixo            |  |
|      |                         | custo e alta performance.                       |  |

Tabela 2.2: Famílias de produtos da Altera, extraído de (WOODS et al., 2008) e do site da empresa.

alguns dispositivos mais avançados e caros, tipicamente com *transceivers*, do portfolio da companhia. A Altera possui também tecnologias de propriedade intelectual genéricas, tais como macros e componentes. O mais famoso deles é o *soft processor* Nios.

#### 2.5.2 **Xilinx**

A Xilinx foi a responsável pela invenção do FPGA. Ela atualmente possui cinco famílias de FPGAs, as quais estão apresentadas, conforme mostrado em (WOODS et al., 2008), na tabela 2.3. Note que alguns dispositivos mais novos estão ausentes desta tabela. A Xilinx disponibiliza, como a Altera, ferramentas integradas de desenvolvimento de *hardware*, chamadas ISE e Vivado. O motivo da presença de duas ferramentas diferentes para uma mesma empresa é a recente aquisição da ferramenta Vivado, mais eficiente que a ISE. Além das funcionalidades oferecidas pela ferramenta da Altera, as ferramentas da Xilinx possuem ainda a capacidade de utilizar FPGAs como aceleradoras com uso do MatLab. Esta função permite que o projeto seja sintetizado e passado para uma FPGA real, mas que as entradas e saídas sejam controladas em um ambiente de simulação do MatLab chamado de Simulink.

A ferramenta de desenvolvimento principal da Xilinx, o ISE, é equivalente ao Quartus da Altera. Ela é responsável pela síntese dos esquemáticos e conta com programas como iMPACT e XPS, dentre outros, para formar uma solução de desenvolvimento de *hardware* completa. Recentemente, a companhia começou um processo de substituição da ferramenta ISE pelo Vivado, que possui um desempenho superior.

### 2.6 Classes de Reconfiguração

Com a chegada de CPLDs e FPGAs, requisitos cada vez mais complexos foram sendo introduzidos ao projeto de sistemas digitais. Tais requisitos forçaram as ferramentas de síntese a suportar diferentes classes de reconfiguração. Note que reconfiguração diz respeito, como dito anteriormente, a modificação do comportamento, ou configuração, de um dispositivo reconfiguravel.

| Tipo | Família    | Breve Descrição                            |
|------|------------|--------------------------------------------|
| CPLD | XC9500XL   | Tecnologia CPLD antiga.                    |
| CPLD | CoolRunner | CPLD de alta performance e baixo con-      |
|      |            | sumo.                                      |
| FPGA | Virtex     | Família principal da Xilinx, FPGAs de alta |
|      |            | performance.                               |
| FPGA | Kintex     | FPGA de bom desempenho e custo.            |
| FPGA | Artix      | Nova família de FPGAs de baixo custo e     |
|      |            | alto volume de vendas.                     |
| FPGA | Spartan    | FPGA de baixo custo e alto volume de       |
|      |            | vendas.                                    |
| SoC  | Zynq       | Dispositivo com ARM e diversos periféri-   |
|      |            | cos programáveis.                          |

Tabela 2.3: Famílias de produtos da Xilinx, como apresentado em (WOODS et al., 2008) e no site da empresa.

#### 2.6.1 Reconfiguração Total

A reconfiguração total, herdada da tecnologia tradicional, compreende a mudança do comportamento de todo o dispositivo reconfigurável, sem exceção de blocos lógicos. Tal reconfiguração é bastante dispendiosa, visto que maior parte das alterações realizadas são incrementais e dizem respeito à apenas uma pequena parte do dispositivo. Apesar disto, todos os FPGAs dão suporte a este tipo de reconfiguração.

#### 2.6.2 Reconfiguração Parcial

A reconfiguração parcial, ao contrário da reconfiguração total, diz respeito à programação de apenas parte de um dispositivo reconfigurável (HAUCK; DEHON, 2007). Para tal, faz-se necessário a divisão do dispositivo nas chamadas partições, cada uma com sua configuração individual. Desta forma, mudanças feitas em uma partição não afetam as outras, acelerando o processo de síntese e programação. Outro processo que é acelerado é o de roteamento, uma vez que o particionamento introduz limitações no mapeamento das funções. Nem todos os FPGAs dão suporte a este tipo de reconfiguração, que pode ser realizado tanto de forma dinâmica (2.6.4) quando estática (2.6.3).

#### 2.6.3 Reconfiguração Estática

O termo reconfiguração estática se refere a programação de um dispositivo reconfigurável enquanto ele não estiver executando. No caso em que alguma programação já tenha sido transferida para ele e ele a esteja executando, esta é parada para que o dispositivo seja configurado novamente. Por ser mais fácil de ser implementada e não necessita de circuitos adicionais, todos os FPGAs dão suporte a este tipo de reconfiguração.

#### 2.6.4 Reconfiguração Dinâmica

A reconfiguração dinâmica acontece frente à necessidade de reprogramação parcial do dispositivo sem que ele pare de funcionar. As funcionalidades modificadas são interrompidas e substituidas sem afetar o funcionamento do todo. Normalmente este processo, quando não associado a autorreconfiguração, é realizado através de um circuito externo à FPGA, tal como um controlador, um microcontrolador, ou mesmo um computador, como apresentado na figura 2.6. Quase todos os FPGAs modernos dão suporte a esta tecnologia.



Figura 2.6: Imagem ilustrativa para diferenciação entre autorreconfiguração e reconfiguração externa, extraido de (Xilinx Inc., d).

É implicito o uso da reconfiguração parcial com a reconfiguração dinâmica, uma vez que faz pouco sentido reconfigurar todo o FPGA enquanto ela ainda está em execução. Note que este tipo de reconfiguração em geral também necessita de uma parte permanentemente estática, para interfacear com o circuito controlador. Esta partição estática é responsável pelo menos por controlar a comunicação com o circuito controlador.

Vale lembrar que a este tipo de reconfiguração, apesar de abrir muitas possibilidades, introduz uma necessidade de preocupação com *overheads* de reconfiguração (HAUCK; DEHON, 2007). Este *overhead* é proporcional ao tamanho da partição que se deseja modificar e inversamente proporcional às velocidades das interfaces de reconfiguração. Tal fator pode se tornar crucial na escolha entre o uso desta tecnologia ou alguma outra alternativa, possivelmente multiplexada. Note que existem outros fatores que influenciam na opção por reconfiguração dinâmica, tais como preço, capacidade e potência, dentre outros, que não serão considerados aqui.

#### 2.6.5 Autorreconfiguração

Modalidade de reconfiguração dinâmica parcial onde a reconfiguração do dispositivo é decidida por uma lógica pertencente a ele mesmo. Normalmente usa-se um microcontrolador ou uma máquina de estados finitos para controlar a mudança de configurações. Este tecnologia é nova e ainda representa uma forte área de pesquisa. Por isso não são todos os FPGAs que dão suporte a este tipo de reconfiguração.

Para que a autorreconfiguração aconteça, os *bitstreams*, resultado da sintetização, devem ser passados para uma memória acessível ao FPGA durante a execução do mesmo. O circuito controlador identifica então um padrão que defina a necessidade de reconfiguração e transfere o *bitstream* correspondente a esta nova necessidade para a partição destino, que assim muda seu comportamento. Note que para tal, as entradas e saídas das partições tem que ser fixas, para que a mudança nas configurações das partições não danifique o FPGA em si.

#### 2.7 Ferramentas

Diversas ferramentas foram utilizadas para a realização deste trabalho. Dentre eles pode-se citar os programas da Xilinx, interpretadores da linguagem Python, Perl e Tcl, compiladores de LATEX e a ferramenta de controle de versão Git. Abaixo segue uma pequena descrição sobre as ferramentas mais críticas destas.

#### 2.7.1 Xilinx ISE Design Suite

O *ISE Design Suite* é um conjunto de ferramentas da Xilinx para o desenvolvimento de projetos de *hardware*. Estes programas estão apresentados a seguir.

#### 2.7.1.1 Xilinx ISE Design Tools

O *ISE Design Tools*, disponível para os sistemas Windows XP (32 e 64 bits), Windows 7 (32 e 64 bits), Windows Server 2008 (64 bits), Red Hat Enterprise 5 e 6 (32 e 64 bits) e SUSE Linux Enterprise 11 (32 e 64 bits) (Xilinx Inc., 2013g), controla todos os aspectos do fluxo de projeto (Xilinx Inc., 2013i). Através do *Project Navigator*, sua principal ferramenta, é possivel acessar todas as configurações e ferramentas de implementação de configurações.

**Project Navigator** O *Project Navigator* é a principal ferramenta do *ISE Design Tools*. Através dela é possível criar projetos, incluir arquivos de descrição de *hardware*, seja em VHDL, Verilog ou esquemáticos, construir componentes de propriedade intelectual, impor restrições e compilá-los, dentre outras coisas. Em geral, todo o desenvolvimento começa através desta ferramenta para fins de verificação de lógica.

**iMPACT** O iMPACT é utilizado para se construir arquivos para a inicialização de memórias Flash e para a programação de FPGAs e suas memórias. Ele pode ser acessado por linha de comando, permitindo que

outras ferramentas incorporem suas funções.

**CORE** Generator O CORE Generator é uma ferramenta muito útil, utilizada para a construção de blocos lógicos prontos de funções variadas. Em geral, seus blocos instanciam algum componente de propriedade intelectual da Xilinx.

#### 2.7.1.2 Embedded Development Kit

O *Embedded Development Kit* é um conjunto de ferramentas voltados para o desenvolvimento de sistemas microprocessados embarcados em FPGA.

*Xilinx Platform Studio* A *Xilinx Platform Studio* permite a construção de sistemas microprocessados. Ela possui uma gama muito grande de componentes periféricos que podem acrescentados a este sistema e integrados de forma automática ou manual.

Xilinx Software Development Kit Com as informações do sistema microprocessado, é possível utilizar Xilinx Software Development Kit para a criação do programa que será embarcado. Esta ferramenta permite a programação do dispositivo, bem como da memória Flash, com ou sem o programa já adicionado, tornando-se uma ferramenta muito simples e útil.

#### 2.7.1.3 PlanAhead

O PlanAhead é uma das ferramentas mais poderosas de toda a *suite*. Ele permite que projetos sejam integrados e pré-alocados em FPGAs, bem como gerenciar, modificar e verificar restrições de tempo, alocação e mapeamento, dentre outros. Ele permite ainda que módulos reconfiguráveis sejam acrescentados ao projeto, tornando a reconfiguração dinâmica um problema bem mais acessível.

#### 2.7.1.4 Ferramentas de Linha de Comando

Além de todas as ferramentas já apresentadas, a plataforma da Xilinx ainda oferece ferramentas de linha de comando, acessadas pelo *prompt* to Windows. Através destas ferramentas é possível realizar qualquer tarefa realizavel pela ferramentas com interface gráfica e mais algumas outras. Abaixo menciona-se a ferramenta mais importante e mais utilizada deste conjunto.

**Xilinx Sinthesis Tool (XST)** A XST é o equivalente ao compilador para a programação convencional. Ele realiza verificações léxicas e sintáticas dos arquivos para gerar na saída algum arquivo compilado, tipicamente NGC ou BIT.

### Capítulo 3

# Introdução

Este capítulo trata da concepção dos experimentos realizados. Nele serão descritos com detalhes cada um dos experimentos, ficando a parte de análise reservada ao capítulo 9.

#### 3.1 Objetivos

O projeto aqui desenvolvido tem por objetivo o estudo de autoreconfiguração parcial, incluindo as ferramentas e periféricos necessários para tal. Tentará-se, no decorrer dos próximos capítulos, apresentar o resultado das pesquisas bibliográficas, estudo de ferramentas, estudo de periféricos, estudo de tecnologias e análise dos resultados obtidos.

Devido ao caráter experimental e exploratório do objetivo proposto, decidiu-se dividir o projeto em vários experimentos menores. Desta forma, além de garantir algum material mesmo que tudo dê errado, consegue-se simplificar o processo de pesquisa e desenvolvimento através dos pequenos passos e análises frequentes.

Como o objetivo final é a familiarização com as ferramentas e processos envolvidos na autoreconfiguração, decidiu-se começar estudando os elementos necessários para se realizar a reconfiguração dinâmica. O passo seguinte mais lógico é o de estudar como funciona as memórias dos sistema e de que jeito elas seriam melhor utilizadas. O último passo seria entender como funciona a autoreconfiguração em baixo nível, ou seja, como os dados devem ser entregues aos devidos componentes para que ela aconteça. Para cada um destes experimentos foi proposto um teste que validasse o completo entendimento do mesmo.

Para o desenvolvimento desse projeto, escolheu-se utilizar o kit de desenvolvimento da Xilinx® chamado Kintex-7 KC705, mostrado na figura 3.1. O único critério utilizado foi a disponibilidade dos equipamentos no início do projeto e a capacidade do dispositivo de realizar a reconfiguração parcial dinâmica. Este kit possui FPGA modelo XC7K325T-2FFG900C, leitor de cartão de memória, conector PCIe®, memória DDR3, visor de 7-segmentos e porta ethernet, dentre outros.

Escolheu-se ainda, de forma arbitrária, o uso da linguagem VHDL para a descrição de *hardware* ao invés da Verilog e a plataforma de desenvolvimento *ISE Design Suite*, ao invés da *Vivado Design Suite*.



Figura 3.1: Foto ilustrativa do kit de desenvolvimento Kintex-7 KC705 extraida do site da Xilinx.

# 3.2 Experimentos

Os experimentos desenvolvidos nos capítulos a seguir tem como objetivo o estudo da implementação da autorreconfiguração e todos os elementos que a acompanham. Sendo assim, prova-se inicialmente que a reconfiguração é de fato dinâmica através de um experimento. Em seguida, para suportar o requisito de memória da autorreconfiguração, estuda-se as memórias e desenvolve-se um experimento para colocar este conhecimento em prática. Logo depois, espera-se entender a formação dos arquivos binários utilizados na reconfiguração e desenvolver um experimento que consiga interpretar algum cabeçalho existente. Por último, a autorrenconfiguração se tornará o objetivo principal de um experimento visando entender as interfaces utilizadas para este fim.

# Capítulo 4

# Experimento 1 - Reconfiguração Dinâmica

De forma a dar validade a todo o projeto, desenvolveu-se um experimento para entender o processo de desenvolvimento de sistemas reconfiguráveis dinamicamente e algumas peculiaridades do kit de desenvolvimento. Este experimento tem como objetivo a construção de um projeto que se utilize de reconfiguração dinâmica para reprogramar um FPGA.

## 4.1 Introdução Teórica

Antes de se começar a construir o experimento, é necessário estudar as peculiaridades da placa e deste tipo de projeto, bem como seu fluxo de desenvolvimento. Este estudo é apresetado a seguir.

#### 4.1.1 Peculiaridades

O kit de desenvolvimento utilizada apresenta várias peculiaridades com relação aos kits comuns. A única que afeta diretamente o experimento em questão é o uso de um relógio com sinal diferencial ao invés do sinal comum, explicado a seguir. Outra peculiaridade é uma diferente estrutura de organização de arquivos, que permite um desenvolvimento mais limpo e de fácil entendimento.

#### 4.1.1.1 Relógio Diferencial

Diferentemente das FPGAs comuns, a que está presente neste kit contém um relógio diferencial, ou seja, ele é composto por dois sinais ao invés de um. A razão para tal é a presença de circuitos sensíveis a interferências, tais como *transceivers*, que são muito menores em sinais diferenciais. O kit disponibiliza duas opções de relógio: o SYSCLK e o USER\_CLOCK. O primeiro possui uma frequência fixa de oscilação de 200 MHz. O segundo possui uma frequência original de 156,250 MHz, mas pode ser programado através de uma interface I<sup>2</sup>C para ter frequências entre 10 MHz e 810 MHz. Nota-se porém que o uso do SYSCLK é bem mais simples que o do USER\_CLOCK, não sendo necessário nenhum circuito controlador/programador.

O Xilinx Design Tools disponibiliza uma ferramenta chamada CORE Generator para a construção de

diversos tipos de circuitos de propriedade intelectual. Dentre eles se encontra o guia *Clocking Wizard*, que pode construir elementos para transformar o sinal do relógio em um sinal simples. Através dele também é possivel utilizar as PLLs da placa para modificar a frequência deste sinal para valores entre 20 MHz e 800 MHz.

#### 4.1.1.2 Estrutura de Pastas

A questão da organização do projeto em pastas bem específicas foi bem reforçado na literatura (Xilinx Inc., 2013j; Xilinx Inc., 2013k; Xilinx Inc., 2013l). Os manuais recomendam a estrutura de pastas apresentada abaixo.

```
Projeto/
Source/ //codigos-fonte organizados segundo particao
Implementation/ //contem pastas para cada config. dinamica gerada
Synth/ //contem pastas com os arquivos .xst e .prj
Tools/ //ferramentas para automacao da sintese
PlanAhead/ //pasta para o projeto do PlanAhead
```

A principal razão para esta recomendação é o uso de ferramentas variadas, tais como *scripts* em TCL, o XST e o PlanAhead. Esta estrutura de pastas foi obedecida por ajudar a manter o ambiente de desenvolvimento limpo.

#### 4.1.2 Fluxo de Ferramentas

Uma das primeiras coisas que se destaca no desenvolvimento de dispositivos dinamicamente reconfiguráveis é a diferença no fluxo de ferramentas, também conhecido como *software tools flow*, em relação ao fluxo tradicional (Xilinx Inc., 2013k). Esta diferença é motivada pela necessidade de construção de diversos *bitfiles* parciais, ao contrário de outros projetos, onde objetivo final é um arquivo binário completo.

Como pode-se ver da figura 4.1a, o fluxo tradicional requer apenas o uso do programa ISE, e opcionalmente do XPS e do SDK, para a construção de um projeto de *hardware* e o iMPACT para a programação da FPGA. No fluxo para reconfiguração dinâmica, porém, mostrado na figura 4.1b, além das ferramentas do fluxo tradicional, faz-se necessário o uso da ferramenta XST para a síntese do *netlist* dos comportamentos das partições reconfiguráveis e do PlanAhead para a definição de partições e configurações. Note que estes fluxos não apresentam as únicas opções de fluxo de ferramentas, mas as que foram utilizadas neste projeto.

Note que a reconfiguração parcial pede uma síntese utilizando o método "de baixo para cima" (*bottom-up*), mas uma implementação "de cima para baixo" (*top-down*) (Xilinx Inc., 2013k), ou seja, a síntese acontece primeiro nos elementos de mais baixo nível, mas a implementação deve começar pelos de mais alto nível. Isto acontece para que os requisitos de interfaceamento dos componentes reconfiguráveis sejam encontrados antes de se determinar como incluí-los no projeto, a partir de onde se continua o processo normal de implementação. Note também que a implementação deve garantir que a lógica em comum, ou estática, seja implementada da mesma forma para as diferentes configurações (Xilinx Inc., 2013j).



(a) Foto ilustrativa do fluxo de ferramentas tradicional. Note que o uso do microcontrolador MicroBlaze é opcional, tornando os primeiros blocos, SDK e XPS, também opcionais.



(b) Foto ilustrativa do fluxo de ferramentas para a reconfiguração dinâmica. Assim como no caso tradicional, o uso do SDK e do XPS são opcionais. Note que o bloco em amarelo indica a configuração padrão, que será programada inicialmente. A escolha da configuração padrão é arbitrária.

Figura 4.1: Comparação dos fluxos de ferramentas. Note que estes fluxos não apresentam as únicas opções de fluxo de ferramentas, mas as que foram utilizadas neste projeto.

# 4.2 Experimento

Para se entender mais a fundo o fluxo de projeto, nada melhor que construir um projeto. Implementouse para isto o sistema esquematizado na figura 4.2. Este sistema contém o "*Top*" para interfaceamento
com a FPGA, o "*Clock\_Station*" e o "*Clocks*" para tratamento do sinal de relógio, a "*Static*", que possui
um lógica estática para demonstrar que a reconfiguração de uma partição não interfere com outra, e a
"*Dynamic*", que possui a lógica a ser alterada dinâmicamente. A interface "*Top*" possui conexões com os
LEDs e o SYSCLK do dispositivo FPGA, bem como conexões de entrada e saída com os componentes
instanciados nela. O componente "*Clock\_Station*" recebe a entrada de relógio diferencial e retorna 3 sinais
de relógios simples, um com 1 Hz, outro com 2 Hz e o último com 5 Hz.

#### 4.2.1 Comportamento

O projeto de um sistema parcialmente reconfigurável pode ser visto como vários projetos completos com partes em comum. Seguindo essa lógica, dois projetos com comportamentos diferentes foram construídos usando como base a figura 4.2. O comportamento individual de cada módulo ou componente será descrito a seguir. Este passo está ilustrado no fluxo de ferramentas da figura 4.1b como ISE, visto que esta ferramenta da Xilinx é a mais utilizada para projetos comuns.

O componente "*Static*" possui 3 entradas para relógios, um pulsando a 1 Hz, outro a 2 Hz e o teceiro a 5 Hz, e 3 saída paras LEDs. Ele simplesmente liga as entradas (relógios) às saídas (LEDs), criando assim uma forma visual de comprovar que a reconfiguração do componente "*Dynamic*" acontecerá dinamicamente.



Figura 4.2: Foto ilustrativa do sistema desenvolvido para o teste de validação do experimento 1. Ele é composto por uma parte estática e uma parte dinâmica. O elementos em branco são estáticos, os em azul são dinâmicos e o em amarelo corresponde a um componente gerado automaticamente com o através das ferramentas da Xilinx.

O componente "*Dynamic*" possui dois comportamentos distintos. O primeiro deles é o de um simples contador crescente de 4 bits. O segundo é uma máquina de estados que alterna os 4 bits de saída entre "1100"e "0011"a cada pulso de relógio. Este componente possui uma entrada para um relógio pulsando a 1 Hz, que acionará as transições, e uma palavra de 4 bits de saída. A frequência de operação deste componente foi escolhida para, junto com as frequências do "*Static*", permitir a visualação de que "*Static*" não para de funcionar quando "*Dynamic*" está sendo reconfigurado.

O componente "Clocks" recebe os sinais diferenciais de relógio e o transformam em um sinal comum. O bloco lógico utilizado para isso foi construído usando ferramentas presentes no ISE. Uma vez que a ferramenta permitia a construção de um relógio com divisor de frequência, a frequência do relógio da placa, que nesse caso é de 200 MHz, foi reduzida para 20 MHz.

O módulo "Top" instancia os componentes descritos acima e faz a interface dos mesmos com a FPGA. O componente dinâmico precisa de uma declaração de protótipo para ser instanciado corretamente. Utilizou-se o código abaixo para esta finalidade.

```
component dynamic
    port ( clk : in std_logic;
        leds : out std_logic_vector (3 downto 0));
end component;
```

O módulo "Top" possui também um divisor de frequência para reduzir a frequência devolvida por "Clocks" para 1 e 2 Hz.

#### 4.2.2 Síntese

Com o comportamento do projeto definido, o próximo passo segundo o fluxo de ferramentas é a síntese, identificada no fluxo de ferramentas da figura 4.1b como XST. Este passo é necessário uma vez que o próximo passo, referente ao PlanAhead, não aceita como entrada códigos-fonte, mas arquivos conhecidos como *netlists*. Os códigos-fonte precisam passar por uma etapa de síntese separada para poderem ser importados no PlanAhead.

O comando XST (*Xilinx Synthesis Tool*), responsável por realizar a síntese, recebe tipicamente um *script* contendo o endereço dos códigos-fonte, o nome do arquivo de saída, o tipo do arquivo de saida, o modelo da FPGA utilizada e uma indicação do código-fonte principal. O comando para iniciar o processo é o seguinte.

```
xst.exe -ifn Top.xst
```

O arquivo "Top.xst" contém os seguintes comandos.

```
run
-ifn Top.prj
-ofn Top
-ofmt NGC
-p xc7k325t-2-ffg900
-top top
```

O arquivo "Top.prj" contém os endereços dos arquivos, conforme a seguir.

```
vhdl work "../../Sources/static/top.vhd"
vhdl work "../../Sources/static/static.vhd"
vhdl work "../../Sources/static/clocks.vhd"
vhdl work "../../Sources/static/clock_station.vhd"
```

Note que estes comandos e arquivos indicados acima são para síntese dos componentes estáticos. Uma vez que não existe nenhuma restrição especial para tais componentes, eles podem ser síntetizados para um único arquivo de saída. O mesmo não pode ser dito para os elementos dinâmicos. Cada componente dinâmico precisa ser sintetizado em separado para depois ser incluído no projeto através do PlanAhead.

A síntese de componentes dinâmicos precisa ser realizada com um *script* ".xst" ligeiramente diferente. Como mostrado a seguir, faz-se necessária a inclusão do argumento "-iobuf NO", que desabilita a inserção de componentes de Entrada/Saída (Xilinx Inc., 2013k; Xilinx Inc., 2013m).

```
run
-ifn DynFSM.prj
-ofn DynFSM
-ofmt NGC
-p xc7k325t-2-ffg900
-top dynamic
-iobuf NO
```

Note que o arquivo "DynFSM.prj" contém informações sobre o código-fonte do componente dinâmico, como mostrado a seguir.

```
vhdl work "../../Sources/dynamic_fsm/dynamic.vhd"
```

Existe também a possibilidade de construção de um *script* para a síntese automática de todos os arquivos. Utilizou-se aqui uma adaptação do arquivo em linguagem TCL usado pela Xilinx em seus manuais e exemplos (Xilinx Inc., 2013j; Xilinx Inc., 2013k; Xilinx Inc., 2013l). A única função deste *script* é a construção dinâmica dos comandos com base em listas de arquivos pré-informados.

#### 4.2.3 PlanAhead

Com os arquivos síntetisados, pode-se começar a etapa referente ao PlanAhead. Nela, importa-se os arquivos da etapa anterior, cria-se a partição reconfigurável, mapea-se esta partição no dispositivo, cria-se configurações alternativas, promove-se tais configurações e gera-se os *bitfiles* para a programação do dispositivo. Note que é preciso uma licença do ISE que permita o uso do PlanAhead e de reconfiguração parcial para a realização desta etapa.

O primeiro passo necessário no PlanAhead é a criação do projeto. Para isso, após a abertura do programa, clica-se no ícone superior esquerdo mostrado na figura 4.3, onde se lê "Create New Project". Na janela que aparece, indica-se o nome do projeto e seu caminho, lembrando que foi criada uma pasta anteriormente especificamente para conter este projeto. Indica-se também que o projeto é do tipo "*Post-synthesis Project*" e que deseja-se habilitar a reconfiguração parcial, indica-se quais *netlists* compõe o comportamento estático do sistema e qual destes corresponde ao arquivo principal ("*Top*"), qual é o arquivo de restrições (*constrains*) e qual é o modelo da FPGA.



Figura 4.3: Imagem do PlanAhead logo que aberto.

Após a criação do projeto, carregam-se os arquivos sintetizados abrindo "*Open Synthesized Design*", presente no painel "*Flow Navigator*" sob a opção "*Netlist Analysis*". Duas janelas de avisos aparecem, informando que existe uma partição não implementada e aviso sobre alguns pinos. Estes avisos podem ser desconsiderados.

Pode-se agora definir a partição que armazenará o componente dinâmico. Isso é feito através do painel "*Netlist*", selecionando-se a opção "*Set Partition*" do menu que aparece ao se clicar em "dynamic\_i" com o botão direito. Na janela que aparece, seleciona-se a opção referente à partição reconfigurável, nomea-se

o módulo reconfigurável de acordo com o componente que será carregado e indica-se o arquivo (NGC) que corresponde ao arquivo sintetizado do componente reconfigurável. Não é necessário informar restrições, visto que o componente, seguindo recomendações, não acessa os pinos de entrada e saída diretamente. Note ainda que é recomendado que o primeiro módulo a ser incluído seja o mais complexo e sucetível a falhas, permitindo que erros e falhas na definição da região a seguir sejam identificados mais cedo.

Precisa-se definir também uma região para a partição recém criada. Isto pode ser feito pelo mesmo painel "Netlist", selecionando-se a opção "Set Pblock Size" do menu que aparece ao se clicar em "dynamic\_i" com o botão direito. Nesse momento, precisa-se selecionar na aba "Device" uma região do dispositivo que contenha uma quantidade de recursos maior que a requerida pelo projeto. Note que o processo de escolha dessa região não é bem definido, o que abre espaço para diversos erros de alocação. Para testar se a região foi bem alocada, abre-se a aba "Design Runs" do painel inferior, clica-se com o botão direito na única configuração disponível no momento e seleciona-se "Run Launch". Este processo pode demorar. Em tentativas subsequentes, seleciona-se a opção de recomeçar todo o processo do zero, evitando de se utilizar arquivos gerados em execução anteriores. Uma região já testada e comprovada para este experimento é a que contém as células (slice) de X80Y244 a X139Y205. Ela pode ser selecionada na aba "Device", após se ampliar o mapa de recursos até que os nomes dos elementos lógicos, em cinza, fiquem visíveis. Outra possibilidade, um pouco mais determinística, é descrita na seção 4.2.5.3.

Ao final do "Design Run" aparece uma janela que pergunta o que fazer em seguida. Deve-se selecionar a opçao "Promote Partitions" para exportar o resultado do mapeamento e roteamento da parte estática e informações da partição reconfigurável. Estas informações serão utilizadas nos passos seguintes para construir configurações alternativas compatíveis com a primeira. Na janela que se abre, deve-se marcar as configurações implementadas.

Após promover a primeira configuração, adiciona-se duas novas possibilidades de módulos reconfiguráveis para esta partição: um com comportamento definido e outro vazia. Para isso, clica-se em "Synthe-sized Design" novamente e seleciona-se a opção "Add reconfigurable module" do menu que aparece ao se clicar em "dynamic\_i" no painel "Netlist" com o botão direito. O processo é o mesmo da definição da partição, sendo a única mudança na seleção do arquivo sintetizado e do nome do módulo. O módulo vazio pode ser criado usando esta mesma opção, mas selecionando-se a opção que indica a inclusão de uma black box sem o uso de uma netlist.

Com as possibilidades de módulos reconfiguráveis definidas, pode-se construir várias configurações. Isso é feito através do clique com botão direito na "Design Runs" do painel inferior e selecionando-se a opção "Create Runs...". A janela que abre possui um painel chamado "Create Implementation Runs". Nesse painel, na coluna "Partition Action", define-se, na coluna "Module Variant" da nova janela que aparece, o módulo desejado. Voltando para a primeira janela, clica-se em "More" para adicionar a última configuração desejada. Note que, quando definindo o "Partition Action", a linha referente a "Static Logic" deve possuir "Import" na coluna "Action", indicando que a parte estática não será implementada, mas sim importada de implementações anteriores.

Em seguida, uma janela aparece perguntando o que fazer com estas novas configurações. Deve-se selecionar a opção "Launch runs on local host" para iniciar suas implementações. Este processo é demorado, mas mais rápido que o da primeira configuração. Note que os avisos que aparecerem podem ser ignorados.

Também é necessário promover estas novas configurações. No menu de quando se clica com o botão direito sobre as configurações já existentes do painel "Configurations", seleciona-se "Promote Configuration...". A promoção de uma configuração é o equivalente a sua exportação (Xilinx Inc., 2013m). Promover a primeira configuração antes de implementar novas contribui para manter a parte estática, compartilhada, igual em todas as configurações, uma vez que elas não mais são sintetizadas e sim importadas.

Recomenda-se ainda fazer a verificação das configurações através do painel "Configurations". Clicando-se com o botão direito, encontra-se a opção "Verify Configuration...", que faz com que uma janela seja aberta. Selecionado-se todos os itens e clicando em "OK", a verificação se inicia. Nenhum erro deve ser encontrado.

O último passo necessário para a criação dos *bitfiles* é o "*Generate Bitstream*", localizado no menu a esquerda. Este passo recebe o resultado das sínteses e implementações e transforma-os em *bitfiles*. Ele precisa ser realizado com todas as configurações do "*Design Runs*" selecionados ou alguma delas não terá seus arquivos binários gerados. Após o termino deste processo, os tais *bitfiles* podem ser encontrados na pasta do projeto, dentro das pastas com nome de cada configuração que ficam dentro de da pasta "\*.runs". Existem dois arquivos *.bit* dentro de cada pasta, um maior, que contém a configuração completa, e outro menor, que possui a configuração parcial.

#### **4.2.4 iMPACT**

Com os *bitfiles* em mãos, usa-se-os para programar a FPGA através da ferramenta iMPACT. A primeira coisa a se fazer após abrir o programa é permitir que o sistema crie um projeto automaticamente. Na janela que se abre, escolhe-se a opção "*Automatically connect to a cable and identify Boundary-Scan chain*" do item "*Configure devices using Boundary-Scan (JTAG)*". Quando pergunta-se se deseja-se atribuir uma nova configuração, pode-se clicar que sim e escolher um arquivo binário completo gerado na etapa anterior. Normalmente escolhe-se a configuração vazia como configuração inicial para poupar energia.

Quando a configuração for completamente transmitida e implementada, observa-se que um LED está piscando com uma frequência de 2 Hz e todos os outros (acionados) estão acesos. Isto acontece uma vez que o sitema atribui sinal ativo para os elementos desconectados.

Para realizar a reconfiguração parcial dinâmica, clica-se com o botão direito no símbolo do dispositivo que aparece no iMPACT e seleciona-se a opção "Assign New Configuration File...". Procura-se então pelos arquivos binários parciais localizados na pasta PlanAhead > PlanAhead.runs > "nome da configuração". Este arquivo possui "partial" em seu nome, o que o diferencia do arquivo binário completo. Note que utilizar os arquivos binários completos não gera erro, mas constitui reconfiguração total, não parcial. Após a seleção da configuração desejada, o último passo necessário é a programação, que pode ser realizada clicando-se com o botão direito no dispositivo e selecionando-se a opção "Program".

#### 4.2.5 Possíveis Erros

Esta seção é destinada apenas para a solução de alguns erros encontrados durante a realização deste experimento. É muito provável que, se o experimento for desenvolvido exatamente como mostrado aqui,

nenhum destes erros aconteça.

#### 4.2.5.1 Erros no código-fonte

Este é um dos erros mais comuns. A melhor forma de previní-lo é através da construção dos diversos comportamentos/configurações individuais utilizando o ISE. Para acelerar o processo, realiza-se apenas a síntese. Outra possibilidade é o uso do XST diretamente reduzindo ainda mais o tempo desta verificação.

## 4.2.5.2 Erro no carregamento do módulo reconfigurável

Este erro, do PlanAhead, em geral acontece quando o componente instanciado no "*Top*" possuem sinais diferentes do instanciado no "*Dynamic*". Para corrigí-lo, deve-se verificar os códigos-fonte, síntetizá-los novamente, limpar a pasta "PlanAhead" e recomeçar este passo (PlanAhead) novamente.

#### 4.2.5.3 Erros na alocação de partições

Um erro bastante comum que aparece no PlanAhead é o de erro de alocação<sup>1</sup>. Existem duas possíveis formas de corrigí-lo: modificando-se o arquivo de restrições (UCF) ou alterando a região da partição. A primeira forma, que ajuda a garantir que todos os recursos reconfiguráveis estão incluidas na região da partição, é a inclusão de "INCLUSIVE=ROUTE" na linha que contém "INST "dynamic\_i"AREA\_GROUP = "pblock\_dynamic\_i"".

A segunda forma é simplemente mudando a posição da região da partição para a direita, para a esquerda ou sua largura, de acordo com a mensagem de erro retornada. Esta método não é determinístico e pode ser necessárias várias tentativas antes de se conseguir uma partição mapeável. Este processo pode também ser realizado através do arquivo de restrições (UCF). O código abaixo contém uma alocação de partição funcional para este experimento, podendo ser copiada sobre a definição atualmente existente no arquivo UCF.

```
INST "dynamic_i" AREA_GROUP = "pblock_dynamic_i";
AREA_GROUP "pblock_dynamic_i" RANGE=SLICE_X80Y205:SLICE_X139Y244;
AREA_GROUP "pblock_dynamic_i" RANGE=DSP48_X3Y82:DSP48_X5Y97;
AREA_GROUP "pblock_dynamic_i" RANGE=RAMB18_X3Y82:RAMB18_X5Y97;
AREA_GROUP "pblock_dynamic_i" RANGE=RAMB36_X3Y41:RAMB36_X5Y48;
```

O arquivo UCF pode ser aberto pelo painel "Sources" sob a árvore "Constrains". Em caso de mais de um arquivo UCF presente, o desejado pode ser identificado pela marcação "(target)" ao lado. Dois cliques são suficientes para abrí-lo.

<sup>&</sup>lt;sup>1</sup>AR# 53290: Partial Reconfiguration - 7 series device layout of tiles (CLB, DSP, BRAM, INT) and a shared clocking structure of vertical clock spines between interconnect (routing) tiles. Disponível em <a href="http://www.xilinx.com/support/answers/53290.htm">http://www.xilinx.com/support/answers/53290.htm</a>

#### 4.2.5.4 Esquecer de promover a partição

A promoção da primeira configuração antes de se implementar as seguintes contribui para a implementação de configurações compatíveis. Esquecer de promover esta partição pode fazer com que erros sejam gerados na etapa de verificação das partições.

#### 4.2.5.5 O PlanAhead pode travar enquanto implementando uma configuração

Apesar de mais raro, o PlanAhead pode travar quando implementando uma configuração. A melhor solução é o reinício do computador, visto que o programa bloqueia alguns arquivos durante a implementação e não os desbloqueia quando fechado forçadamente.

#### 4.2.5.6 Erros na detecção da placa

Note que algum programa aberto pode interferir com a varredura realizada pelo iMPACT, fazendo-a falhar. Para prevenir este erro, deve-se fechar o XPS, o SDK e qualquer outro programa que possa se utilizar das interfaces USB. Note ainda que a placa deve estar ligada para poder ser detectada.

#### 4.2.5.7 Erro na geração do arquivo binário

Na geração do arquivo binário, o erro BitGen:342 pode aparecer <sup>2</sup>. Este erro aparece devido ao uso de pinos não explicitados no arquivo UCF, fazendo com que o PlanAhead tenha que usar as configurações padrões nestes pinos. Uma forma de solucionar este problema é acrescentando a opção "-g Unconstrained-Pins:Allow" no comando do BitGen.

#### 4.3 Resultados

#### 4.3.1 Síntese

A síntese ocorreu como esperado, gerando os arquivos sintetisados (NGC). A figura 4.4 mostra o resultado do processo de síntese utilizando o *script* Tcl.

```
>make
Overriding with data file .\Tools\data_synth.tcl
Synthesis tool is set to xst
***** Synthesizing Reconfig Module named \(\text{OynCounter}\) ****

**** Synthesizing Reconfig Module named \(\text{OynFSM}\) ****

**** Synthesizing Reconfig Module named \(\text{OynFSM}\) ****

**** Synthesizing Reconfig Module named \(\text{Top}\) ****

**** Finished bottom-up synthesis of all RMs ****
```

Figura 4.4: Resultado da síntese.

<sup>&</sup>lt;sup>2</sup>"AR# 51813 14.2 BitGen - "ERROR:Bitgen:342 occurs after adding probes to the design in the case of 7 series devices", <a href="http://www.xilinx.com/support/answers/51813.html">http://www.xilinx.com/support/answers/51813.html</a>

#### 4.3.2 PlanAhead

O passo do PlanAhead foi bem sucedido, tendo gerado os arquivos binários como esperado. O relatório de utilização do sistema, copiado abaixo, mostra que aproximadamente 1% dos recursos do dispositivo foi utilizado.

| Slice Logic Utilization:                |       |     |    |         |    |
|-----------------------------------------|-------|-----|----|---------|----|
| Number of Slice Registers:              | 2,734 | out | of | 407,600 | 1% |
| Number used as Flip Flops:              | 2,696 |     |    |         |    |
| Number used as Latches:                 | 3     |     |    |         |    |
| Number used as Latch-thrus:             | 0     |     |    |         |    |
| Number used as AND/OR logics:           | 35    |     |    |         |    |
| Number of Slice LUTs:                   | 3,020 | out | of | 203,800 | 1% |
| Number used as logic:                   | 2,572 | out | of | 203,800 | 1% |
| Number using O6 output only:            | 1,962 |     |    |         |    |
| Number using O5 output only:            | 114   |     |    |         |    |
| Number using O5 and O6:                 | 496   |     |    |         |    |
| Number used as ROM:                     | 0     |     |    |         |    |
| Number used as Memory:                  | 338   | out | of | 64,000  | 1% |
| Number used as Dual Port RAM:           | 160   |     |    |         |    |
| Number using O6 output only:            | 96    |     |    |         |    |
| Number using O5 output only:            | 0     |     |    |         |    |
| Number using O5 and O6:                 | 64    |     |    |         |    |
| Number used as Single Port RAM:         | 0     |     |    |         |    |
| Number used as Shift Register:          | 178   |     |    |         |    |
| Number using O6 output only:            | 176   |     |    |         |    |
| Number using O5 output only:            | 1     |     |    |         |    |
| Number using O5 and O6:                 | 1     |     |    |         |    |
| Number used exclusively as route-thrus: | 110   |     |    |         |    |
| Number with same-slice register load:   | 103   |     |    |         |    |
| Number with same-slice carry load:      | 6     |     |    |         |    |
| Number with other load:                 | 1     |     |    |         |    |
|                                         |       |     |    |         |    |

Note porém que a quantidade de elementos lógicos ocupados é maior devido ao roteamento. O relatório que mostra este fenônemo foi copiado abaixo.

#### Slice Logic Distribution: Number of occupied Slices: 50,950 2% 1,445 out of Number of LUT Flip Flop pairs used: 3,851 Number with an unused Flip Flop: 1,360 out of 3,851 35% Number with an unused LUT: 831 out of 3,851 21% Number of fully used LUT-FF pairs: 1,660 out of 3,851 43% Number of slice register sites lost to control set restrictions: 0 out of 407,600 0%

A parte estática do dispositivo foi alocada como mostrado na figura 4.5.



Figura 4.5: Alocação da parte estática do projeto no dispositivo. Em azul claro estão os elementos lógicos utilizados.

#### **4.3.3 iMPACT**

A etapa do iMPACT também foi bem sucedida. A programação da configuração completa levou 10 segundos e a programação da configuração parcial levou 1 segundo.

# 4.4 Conclusão

O processo de desenvolvimento de partições reconfiguráveis e sua programação foi explorado e compreendido com sucesso. Observou-se os pontos críticos do desenvolvimento e o fluxo mais adequado para a construção deste tipo de projeto, bem como alguns erros comuns e suas soluções.

# Capítulo 5

# Experimento 2 - Memórias

Seguindo o raciocínio apresentado no capítulo 3, o próximo passo natural no desenvolvimento deste projeto é o entendimento do funcionamento das memórias. Esta etapa abre caminho para que se armazene os arquivos binários de configurações parciais em uma memória embarcada, removendo a necessidade do computador para tal.

## 5.1 Introdução Teórica

Para o desenvolvimento deste experimento, faz-se necessário o estudo dos diferentes tipos de memórias, citando seus pontos fracos e fortes. Também é necessário o estudo do MicroBlaze e das ferramentas XPS e SDK, visto que a forma mais direta de se trabalhar com memória em FPGAs é através do uso de microcontroladores embarcados.

#### 5.1.1 Tipos de Mémoria

No kit utilizado existem vários tipos de memórias que poderiam ser usados, cada um com suas peculiaridades (Xilinx Inc., 2013o). Este experimento foi dedicado à compreenção do funcionamento dos diversos tipos de memórias e à escolha da solução mais adequada.

#### 5.1.1.1 Memória Block RAM

A memória do tipo *Block RAM* é construída usando-se os blocos de memória RAM restantes da FPGA. Esta memória consegue alcançar velocidades de leitura na ordem de várias centenas de hertz, mas possui uma capacidade de armazenamento bem reduzida, de apenas 445 blocos de 36 Kb para este kit, totalizando um máximo de aproximadamente 2 MB (Xilinx Inc., 2013d; Xilinx Inc., e). Note que a configuração total da FPGA necessita de aproximadamente 11 MB, ou exatamente 91.548.896 bits, para sua programação total (Xilinx Inc., 2013c). Pode-se programá-la através do iMPACT, dentre outras formas <sup>1</sup>.

<sup>&</sup>lt;sup>1</sup>*Memory Initialization Methods*, escrito por Jim Wu em 31 de dezembro de 2011. Dísponível em <a href="http://myfpgablog.blogspot.com.br/2011/12/memory-initialization-methods.html">http://myfpgablog.blogspot.com.br/2011/12/memory-initialization-methods.html</a>

#### 5.1.1.2 Memória Distributed RAM

A memória *Distributed RAM* é construida utilizando-se das LUTs disponíveis nas célula lógicas (Xilinx Inc., 2013d; Xilinx Inc., e). Também são muito rápidas, apesar de síncronas, e também possuem pouca capacidade de armazenamento. Pode-se programá-la através do iMPACT, dentre outras formas.

#### 5.1.1.3 Memória Linear BPI Flash

A memória *Linear BPI Flash* disponibiliza 128 Mb de memória não-volátil (Xilinx Inc., 2013o), acessadas em palavras de 16 bits. Apesar disso, sua velocidade de leitura máxima é de 33 MHz. Convertendo tal velocidade para a leitura de 32 bits, tem-se uma velocidade de leitura de aproximadamente 16 MHz. Pode-se programá-la através do iMPACT.

#### 5.1.1.4 Memória SPI Flash

A memória SPI Flash é diferente na sua forma de acesso, que acontece através da interface SPI. Esta memória fornece 128 Mb de memória não volátil (Xilinx Inc., 2013o). Ela aceita três modos de operação, x1, x2 e x4, que corresponde a largura da palavra lida/escrita a cada pulso de relógio (Micron Technology, Inc., ). A frequência de operação é de no máximo 50 MHz (Xilinx Inc., j). Pode-se programá-la através do iMPACT.

#### 5.1.1.5 Cartão de Memória SD

O cartão de memória SD dá acesso a uma memória não-volátil de tamanho arbitrário. Esta interface permite o uso de cartões de alto desempenho, lendo palavras de 4 bits a frequências de até 50 MHz (Xilinx Inc., 2013o). A limitação desta interface é a dificuldade de leitura e escrita devido ao sistema de arquivos inerente ao cartão. Note que também não existe a possibilidade de programação do cartão através do iMPACT, o que resolveria o problema do sistema de arquivos.

#### 5.1.1.6 CompactFlash e o System ACE

System ACE é um sistema que permite a programação de FPGAs e memórias voláteis a partir de um cartão *CompactFlash* (Xilinx Inc., a; Xilinx Inc., b). Este é bem robusto e popular em séries que possuem um leitor deste tipo de cartão, o que não é o caso desta.

#### 5.1.1.7 Memória DDR3

A memória DDR3 é uma memória volátil com 1 GB de capacidade de armazenamento e possui uma frequência de operação da ordem dos 800 MHz (DDR3..., 2010). Só pode ser programada apenas em tempo de execução, fazendo-se necessário o uso de um *bootloader*. Ela possui restrições de temporização extremamente apertadas e necessita do uso de componentes bastante escassos no FPGA.

#### 5.1.2 Fluxo de Projeto

O procedimento para a construção de um projeto com MicroBlaze segue o fluxo descrito na figura 4.1a. A figura 5.1 apresenta o fluxo de ferramentas para este caso específico. Em outras palavras, o fluxo espera que primeiro se desenvolva o microprocessador com todos os seus periféricos para depois se desenvolver o programa que será embarcado. Tanto o programa quando o processador gerarão arquivos binários que serão carregados pelo iMPACT através do SDK.



Figura 5.1: Foto ilustrativa do fluxo de ferramentas para o desenvolvimento de sistemas com MicroBlaze, extraído de (Xilinx Inc., 2013a).

#### 5.1.3 MicroBlaze

O MicroBlaze é um microprocessador otimizado para implementação em FPGAs da Xilinx (Xilinx Inc., 2013a). Ele possui 32 registradores genéricos de 32 bits, instruções de 32 bits e endereços de 32 bits. Seu *pipeline* possui 3 ou 5 estágios e é construido em torno da arquitetura Harvard, como pode ser observado na figura 5.2. Todas as outras configurações, tais como o uso de *Big Endian* ou *Little Endian*, por exemplo, são opcionais (Xilinx Inc., 2013a).



Figura 5.2: Diagrama de blocos do MicroBlaze.

O MicroBlaze permite o uso de diversas interfaces para comunicação com seus diversos periféricos, dentre elas a PLB, a LMB, a AXI e a ACE (Xilinx Inc., 2013a). A interface mais atual suportada, e que

foi utilizada neste experimento, é a Advanced eXtensible Interface 4 (AXI4) (Xilinx Inc., 2013a; Xilinx Inc., 2013n). A AXI4 é uma interface mapeada em memória que oferece produtividade, flexibilidade e disponibilidade. Ela possui três tipos de interfaces, a AXI4, a AXI4-Lite e a AXI4-Stream, onde as duas primeiras são compostam de 5 canais de comunicação: de leitura de endereço, de escrita de endereço, de leitura de dados, de escrita de dados e de escrita de resposta.

# 5.2 Experimento

Este experimento tem por objetivo o desenvolvimento de um sistema que instancie e acesse memórias capazes de armazenar as configurações parciais geradas no experimento anterior. Para isto, deve-se entender o processo de construção de um processador embarcado MicroBlaze, com periféricos para acesso às memórias, e de construção de programa embarcado. Deve-se ainda, antes de qualquer coisa, definir que tipo de memória é a mais apropriada para o objetivo traçado.

#### 5.2.1 Escolha da Memória

Nota-se do primeiro experimento que os *bitfiles* parciais gerados possuiam 645 KB cada, totalizando 1935 KB, ou 1,89 MB. Com isso o uso das memórias que se utilizam de recursos internos da FPGA fica comprometido. Observa-se também que a interface de reprogramação dinâmica, ICAPE2, utilizada em experimentos mais a frente, opera a uma frequência de até 100 MHz e pode receber palavras de até 32 bits, ou seja, 3200 Mb/s (Xilinx Inc., 2013j). Por causa disso, todas as interfaces não-voláteis disponíveis acabariam se tornando gargalos no tempo de programação.

A única memória com tamanho e velocidade suficientemente grandes para este projeto é a memória DDR3. Apesar disto, esta memória é volátil, necessitando ser inicializada sempre que o sistema é ligado. Uma solução para este problema é a implementação de um sistema que carregue as informações de uma memória não-volátil, tanto a Linear Flash quanto a SPI Flash seriam suficientes, para a memória DDR3 em um momento inicial, e depois permita que a memória DDR3 seja acessada para a reconfiguração dinâmica, ou seja, através do uso de um *bootloader*.

Sendo assim, optou-se por utilizar a memória QSPI Flash para uso na inicialização e a memória DDR3 para uso na execução.

#### 5.2.2 XPS

Para começar, deve-se abrir o programa e criar um novo projeto usando o *Base System Builder* (BSB), opção que corresponde ao item superior esquerdo do menu da tela inicial. Na janela que aparece, escolheuse a placa de desenvolvimento Kintex-7 KC705 *Evaluation Platform*, *Board Revision* C, e a opção de um só processador no sistema, para simplificar o projeto. Dando prosseguimento, escolheu-se os periféricos desejados segundo a figura 5.3 e o tamanho das memórias local, de intrução e de dados, quiça, 128 KB, 8 KB e 8 KB respectivamente. Modificou-se ainda, como pode-se ver na figura 5.3, o *Baud Rate* da interface UART para 115200 bits/s e o C SPI MODE da QSPI FLASH para "*Quad SPI Mode*".



Figura 5.3: Escolha dos periféricos no BSB do XPS.

Antes de concluir o a construção do sistema, precisa-se ajustar os tamanhos das memórias e seus endereços, de forma que estes novos tamanhos possam ser corretamente acessados. Isto pode ser feito na aba *Addresses* do painel *System Assembly View*. Muda-se então o tamanho da memória SPI Flash para 128M, seu endereço base para 0x80000000, o tamanho da memória DDR3 para 1G e seu endereço base para 0xC0000000, conforme a figura 5.4. Note que o endereço-base da memória SPI Flash tem como única restrição de os 28 bits menos significativos iguais a zero e que o endereço-base da memória DDR3 tem esta mesma restrição para os 30 bits menos significativos. Estas restrições são devido aos tamanhos das memórias e o alinhamento dos espaços de dados na memória.

| Instance                     | Base Name     | Base Address | High Address | Size |
|------------------------------|---------------|--------------|--------------|------|
| 亩 microblaze_0's Address Map |               |              |              |      |
| microblaze_0_d_bram_ctrl     | C_BASEADDR    | 0x00000000   | 0x0000FFFF   | 64K  |
| microblaze_0_i_bram_ctrl     | C_BASEADDR    | 0x00000000   | 0x0000FFFF   | 64K  |
| LEDs_8Bits                   | C_BASEADDR    | 0x40000000   | 0x4000FFFF   | 64K  |
| RS232_Uart_1                 | C_BASEADDR    | 0x40600000   | 0x4060FFFF   | 64K  |
| debug_module                 | C_BASEADDR    | 0x41400000   | 0x4140FFFF   | 64K  |
| QSPI_FLASH                   | C_BASEADDR    | 0x80000000   | 0x87FFFFFF   | 128M |
| DDR3_SDRAM                   | C_S_AXI_BASEA | 0xC0000000   | 0xFFFFFFFF   | 1G   |

Figura 5.4: Aba *Addresses* do *System Assembly View* indicando os ajustes dos endereços e tamanhos das memórias.

Precisa-se ainda modificar as posições de memória cobertas pela memória *cache*. Isto é feito clicando-se duas vezes sobre "microblaze\_0" na aba "*Bus Interfaces*" do painel "*System Assembly View*". Na janela que se abre, clica-se "*Next*" 3 vezes para chegar página sobre *caches*. Modifique os endereços nas duas colunas para 0xc0000000 e 0xffffffff, indicando que a memória de instruções e memória de dados podem acessar os endereços da memória DDR3. Apenas os endereços contidos neste intervalo da memória de dados podem ser escritos. Note que o sistema reserva para uso próprio os primeiros 64K endereços das memórias, que correspondem às posições com finais entre 0x0000 a 0x3fff. A tentativa de uso destes endereços comprometerá o correto funcionamento do sistema.

Algumas outras configurações também podem ser ajustadas, mas não sao estritamente necessárias para este experimento.

O projeto pode ser sintetizado através do botão "Generate Netlist" localizado no menu a esquerda e no menu "Hardware" da barra de menus. Este processo é demorado. Quando terminado, pode-se exportar o projeto através do botão "Export Design" para abrir o SDK com as informações deste processador. Na janela que aparecer, marque "Include bitstream and BMM file" e clique em "Export & Launch SDK". O arquivo binário contém informações da configuração da FPGA enquanto o arquivo BMM apresenta um mapeamento das unidades de memória onde o programa embarcado pode ser inserido. Após a execução desta etapa, se nenhum erro tiver acontecido, a ferramenta SDK será aberta.

#### 5.2.3 SDK

Quando a janela do SDK aparecer, ela perguntará onde se quer colocar o *workspace*. Uma boa opção é a pasta SDK criada dentro da pasta do projeto do sistema durante sua exportação, apesar desta escolha ser completamente arbitrária. Escolhida a pasta, o ambiente de trabalho é aberto.

Começa-se o processo criando um projeto do tipo "Board Support Package". Este projeto compila automaticamente os drivers disponíveis para o projeto segundo as características do microcontrolador. Em seguida, pode-se criar os projetos dos softwares que irão embarcados. Para isto, cria-se um projeto do tipo "Application Project". Na janela que se abre, nomeie o projeto e selecione a "Board Support Package" no dropdown do item "Board Support Package". Na página seguinte, escolhe-se "Empty Project".

Adiciona-se arquivos ao projeto tanto arrastando os códigos para ele quanto selecionando a opção "New/Source File" do menu que aparece quando se clica no projeto com o botão direito. Note que o acesso a memória é feito simplesmente dereferenciando um ponteiro para a posição de memória desejada. A escrita é feita do mesmo modo. Encontra-se em anexo códigos-exemplo para o teste das memórias DDR3 e SPI Flash.

Antes de executar o programa, é interessante habilitar a opção de debugação. Isto é feito através do menu "Run", na opção "Run Configurations...". Na janela que aparece, na aba "STDIO Connection", habilita-se a conexão do STDIO com o console e modifica-se o "Baud Rate" para 115200. Clica-se então em "Apply" e em seguida "Close".

A programação do FPGA pode ser feita através do menu "Xilinx Tools", na opção "Program FPGA". Na janela que se abre, é padrão que as informações já estejam pré-preenchidas, mas caso isto não aconteça, procura-se pelos arquivos "system.bit" e "system\_bd.bmm" na pasta "implementations" na raíz do projeto do processador. Clica-se em "Program" para inciar a programação.

Para se transferir o programa criado com o auxílio do SDK, seleciona-se o projeto deste programa, clica-se com o botão direito, seleciona-se o submenu "Run As..." e escolhe-se a opção "1 Launch on Hardware (GDB)". No caso dos códigos-exemplo, algumas informações são imprimidas no console caso tudo tenha ocorrido confome o esperado.

# 5.3 Resultados

O experimento foi bem sucedido. A seguir são apresentados alguns relatórios e amostras dos resultados.

## 5.3.1 XPS

O XPS, assim como o ISE, fornece relatórios que apresentam a utilização do dispositivo. Este relatório está mostrado a seguir. Note que mesmo com um sistema bem mais complexo, o grau de utilização do dispositivo não aumentou muito com relação ao experimento passado.

| Slice Logic Utilization:                |        |     |     |         |     |
|-----------------------------------------|--------|-----|-----|---------|-----|
| Number of Slice Registers:              | 7,775  | out | of  | 407,600 | 1%  |
| Number used as Flip Flops:              | 7,720  |     |     |         |     |
| Number used as Latches:                 | 0      |     |     |         |     |
| Number used as Latch-thrus:             | 0      |     |     |         |     |
| Number used as AND/OR logics:           | 55     |     |     |         |     |
| Number of Slice LUTs:                   | 8,916  | out | of  | 203,800 | 4%  |
| Number used as logic:                   | 7,603  | out | of  | 203,800 | 3%  |
| Number using O6 output only:            | 5,826  |     |     |         |     |
| Number using O5 output only:            | 173    |     |     |         |     |
| Number using O5 and O6:                 | 1,604  |     |     |         |     |
| Number used as ROM:                     | 0      |     |     |         |     |
| Number used as Memory:                  | 1,014  | out | of  | 64,000  | 1%  |
| Number used as Dual Port RAM:           | 572    |     |     |         |     |
| Number using O6 output only:            | 120    |     |     |         |     |
| Number using O5 output only:            | 12     |     |     |         |     |
| Number using O5 and O6:                 | 440    |     |     |         |     |
| Number used as Single Port RAM:         | 0      |     |     |         |     |
| Number used as Shift Register:          | 442    |     |     |         |     |
| Number using O6 output only:            | 441    |     |     |         |     |
| Number using O5 output only:            | 1      |     |     |         |     |
| Number using O5 and O6:                 | 0      |     |     |         |     |
| Number used exclusively as route-thrus: | 299    |     |     |         |     |
| Number with same-slice register load:   | 268    |     |     |         |     |
| Number with same-slice carry load:      | 30     |     |     |         |     |
| Number with other load:                 | 1      |     |     |         |     |
|                                         |        |     |     |         |     |
| Slice Logic Distribution:               |        |     |     |         |     |
| Number of occupied Slices:              | 3,944  | out | of  | 50,950  | 7%  |
| Number of LUT Flip Flop pairs used:     | 11,005 |     |     |         |     |
| Number with an unused Flip Flop:        | 3,939  | out | of  | 11,005  | 35% |
| Number with an unused LUT:              | 2,089  | out | o f | 11,005  | 18% |

| Number of fully used LUT-FF pairs:  | 4,977 out of 11,005 | 45% |
|-------------------------------------|---------------------|-----|
| Number of slice register sites lost |                     |     |
| to control set restrictions:        | 0 out of 407,600    | 0%  |

#### 5.3.2 SDK

Os resultados apresentados pelo SDK se resumem a uma compilação e uma programação de dispositivos bem sucedidas.

# 5.4 Conclusão

Conclui-se assim o experimento para o teste de programação das memórias. Notou-se que existe muita pouca literatura no assunto, forçando o programador a fazer uso dos forúns de discussão e conhecimentos gerais de programação embarcada. Apesar disso, o objetivo do experimento, quiça conseguir ler/escrever de/em endereços das memória DDR3 e SPI Flash específicos, foi atingido com sucesso.

# Capítulo 6

# Experimento 3 - Bootloader

O *bootloader*, como mencionado no experimento anterior, é um sistema que carrega as informações de uma memória lenta, como a SPI Flash, para uma memória rápida, como a DDR3. Usou-se um microcontrolador MicroBlaze com interfaces para as memórias SPI Flash e DDR3. O experimento 2 foi dedicado a aprender a utilizar estas memórias. Neste experimento, espera-se entender como é formado o arquivo binário, permitindo assim carregá-lo e interpretá-lo enquanto o transferindo para a memória DDR3.

# 6.1 Introdução Teórica

Para se alcançar o objetivo proposto, faz-se necessário entender como é construido o arquivo binário e como se inicializa a memória não-volátil. O fluxo de projeto é o mesmo do experimento anterior.

#### 6.1.1 Arquivo Binário

O arquivo binário é formado por três partes: um cabeçalho, uma palavra para sincronia e a configuração propriamente dita (Xilinx Inc., 2013c; Xilinx Inc., i). A figura 6.1 apresenta o início deste arquivo, contendo as partes mais importante do cabeçalho. Os bytes selecionados correspondem ao conteúdo legível do cabeçalho.

Figura 6.1: Cabeçalho do arquivo binário gerado no primeiro experimento para a configuração vazia.

O cabeçalho é formado por chaves e tamanhos, indicando os diversos campos deste. Ele contém pelo menos duas informações muito interessantes: o identificador do dispositivo alvo, que permite verificar a compatibilidade entre a configuração e o dispositivo que a está recebendo, e o tamanho da configuração, que permite que ela seja carregada de forma dinâmica sem necessidade de mais informações.

Na tabela 6.1 pode-se observar os tamanhos e campos apresentados na figura 6.1 <sup>1</sup>.

| Tamanho  | Chave                        | Significado                                             |
|----------|------------------------------|---------------------------------------------------------|
| 2 bytes  | 9 (0x00 09)                  | Tamanho em bytes do próximo campo                       |
| 9 bytes  | 0x0f f0 0f f0 0f f0 0f f0 00 | Indica que a configuração a seguir é válida.            |
| 2 bytes  | 1 (0x00 01)                  | Tamanho em bytes do próximo campo                       |
| 1 byte   | "a"(0x61)                    | Indica que os próximos campos conterão infor-           |
|          |                              | mações sobre o projeto e sobre a configuração.          |
| 2 bytes  | 35 (0x00 23)                 | Tamanho em bytes do próximo campo                       |
| 35 bytes | Blank_routed.ncd;            | Apresenta o nome do <i>netlist</i> e o identificador do |
|          | UserID=0xFFFFFFFF            | usuário. 0x00 ao final indica o final da string.        |
| 1 byte   | "b"(0x62)                    | Indica que o próximo campo é um indentificador          |
|          |                              | do dispositivo-alvo.                                    |
| 2 bytes  | 13 (0x00 0d)                 | Tamanho em bytes do próximo campo                       |
| 13 bytes | 7k325tffg900                 | Identificador do dispositivo-alvo. 0x00 ao final        |
|          |                              | indica o final da string.                               |
| 1 byte   | "c"(0x63)                    | Indica que o próximo campo é a data de sintese          |
|          |                              | da configuração.                                        |
| 2 bytes  | 11 bytes (0x00 0b)           | Tamanho em bytes do próximo campo                       |
| 11 bytes | 2013/11/26                   | Data da síntese da configuração.                        |
| 1 byte   | "d"(0x64)                    | Indica que o próximo campo é a hora de síntese          |
|          |                              | da configuração.                                        |
| 2 bytes  | 9 bytes (0x00 09)            | Tamanho em bytes do próximo campo                       |
| 9 bytes  | 08:54:11                     | Hora de síntese da configuração.                        |
| 1 byte   | "e"(0x65)                    | Indica que os próximos 8 bytes contém o tama-           |
|          |                              | nho da configuração.                                    |
| 4 bytes  | 661188 (0x00 0a 16 c4)       | Tamanho em bytes da configuração a partir desta         |
|          |                              | posição.                                                |
|          |                              |                                                         |

Tabela 6.1: Descrição do cabeçalho dos arquivos binários.

Existe ainda no cabeçalho 32 bytes de espaçamento preenchidos por com "0xff" e bytes para autodetecção de largura de banda (Xilinx Inc., 2013c; Xilinx Inc., i). Estes bytes ("0x00 00 00 bb 11 22 00 44") são usados no modo de configuração paralela para detectar automaticamente a largura de banda do arquivo de configuração. O modo serial ignora todos os bits anteriores a palavra de sincronia (Xilinx Inc., i). Estes bits são então usados apenas para pré-processamento do arquivo binário.

A palavra de sincronia ("0xaa 99 ff 66"), encontrada a seguida, serve para indicar o inicio da configuração proprimamente dita e para alinhar o fluxo de dados nos registradores internos.

#### 6.1.2 Inicialização da Memória SPI Flash

A memória SPI Flash, assim como todas as outras, precisa de um procedimento especial para poder ser inicializada com informações arbitrárias (Xilinx Inc., k). Em geral, as únicas informações que podem ser gravadas nas memórias não-voláteis são configurações para o FPGA e programas para algum MicroBlaze

<sup>1&</sup>quot;FAQ: Tell me about the format of the .BIT files please", <a href="http://www.fpga-faq.com/FAQ\_Pages/0026\_Tell\_me\_about\_bit\_files.htm">http://www.fpga-faq.com/FAQ\_Pages/0026\_Tell\_me\_about\_bit\_files.htm</a>

embarcado (Xilinx Inc., 2013b). Este processo é conhecido como programação indireta da memória Flash (Xilinx Inc., j).

#### 6.1.2.1 Compilação

Para a realização da programação indireta, o arquivo binário precisa ser compilado de forma a gerar um padrão de bits compatível. Este procedimento é realizado na etapa de construção do processador. Quando não especificado, o arquivo binário gerado utiliza a interface QSPI x1, que possui banda de transferência de 1 bit por leitura/escrita, e relógio de frequência 3 MHz. Com estas configurações, a programação do sistema demora apenas 1 minutos e 30 segundos (Xilinx Inc., j), mas pode ser ainda mais reduzido.

No PlanAhead, as configurações de compilação podem ser modificadas através do arquivo "bitgen.ut" localizado na pasta "etc" do projeto. Através da opção "-g SPI\_buswidth:X", onde X pode ser 1, 2 ou 4, pode-se alterar a interface utilizada neste tipo de programação (Xilinx Inc., 2013f; Xilinx Inc., j), sendo a x4 a mais eficiente. Pode-se ainda forçar a opção "-g ConfigRate\_en:Y", onde Y pode ser 3, 6, 9, 12, 16, 22, 26, 33, 40, 50 ou 66, para se utilizar de relógios de variadas frequências e obter assim o modo de configuração mais adequado para a memória em questão (Xilinx Inc., j; Xilinx Inc., 2013f; Xilinx Inc., 2013o). Existe também a opção "-g SPI\_Fall\_Edge:Yes", que permite melhora margens de tempo e pode aumentar as taxas de leitura para configurações (Xilinx Inc., 2013f; Xilinx Inc., 2013e). Uma opção alternativa é utilizar um relógio externo através da opção "-g ExtMasterCclk\_en:Z", onde Z pode ser "Disable", "div-8", "div-4", "div-2" e "div-1".

#### 6.1.2.2 Arquivo de Memória PROM

Após compilado o projeto, seu arquivo binário e qualquer outra informação a ser programada na memória Flash precisa ser adicionada a um arquivo do tipo MCS. Este processo é necessário para que o iMPACT consiga carregar e programar a memória Flash de forma correta. Pode-se construir este arquivo de memória PROM através do próprio iMPACT, processo que será descrito mais a frente.

## **6.2** Experimento

O teste deste experimento compreende a construção de um sistema microprocessador que carregue os arquivos binários da memória SPI Flash para a memória DDR3. Este experimento contribuirá para a compreenção do processo de inicialização de memórias não-voláteis e do tratamento do cabeçalho dos arquivos binários. Usará-se os programas XPS, SDK, que fazem parte do Embedded Development Kit (EDK), data2mem e iMPACT.

#### 6.2.1 XPS

Utilizou-se o mesmo microcontrolador MicroBlaze construido no experimento passado, não sendo necessária nenhuma modificação. A interface SPI utilizada aqui foi a padrão, x1, por motivos de sim-

plificação do projeto. O uso de uma interface x4 diminuiria o tempo de programação em 4 vezes, o que não é fator crítico para este experimento, mas acarretaria na necessidade de recompilar todos os projetos desenvolvidos até agora.

#### 6.2.2 SDK

Logo após a construção do microcontrolador, recomenda-se construir o projeto do programa embarcado. O procedimento para o SDK nesse caso é bem semelhante ao dos experimentos anteriores, mudando-se apenas os arquivos importados e a geração do *linker script*. Os arquivos a serem importados podem ser encontrados no CD de anexos.

O projeto do bootloader consiste apenas de uma máquina de estados para ler o cabeçalho do arquivo binário e interfaces com os drivers controladores das memórias DDR3 e SPI Flash e da interface de comunicação através da porta UART.

Desta vez, tem-se como objetivo fazer com que o sistema se carregue e entre em funcionamento de forma autônoma. Para isto, precisa-se, depois da inclusão dos devidos arquivos, presentes no anexo, gerar o *linker script*. Este arquivo descreve como o arquivo binário do *bootloader* deve ser armazenado na memória interna do FPGA para execução. Este *script* pode ser gerado clicando-se com o botão direito sobre o projeto do prgrama embarcado e selecionando-se a opção "*Generate Linker Script...*" ou selecionando-se o projeto, abrindo-se o menu "*Xilinx Tools*" e selecionando-se a opção do mesmo nome. Para o escopo deste experimento, as configurações apresentadas na janela que se abre são suficientes, bastando clicar em "*Generate*". A criação deste *script* permite agora que se utilize o programa "data2mem" para construir um arquivo binário de configuração com um programa embarcado pré-programado.

#### **6.2.3** data2mem

A ferramenta data2mem funciona através da linha de comando, mas normalmente é acionada através de programas com interfaces gráficas, tais como o ISE, o XPS, o SDK e o iMPACT (Xilinx Inc., 2013h). Sua função principal é o de mapear blocos contíguos de dados entre múltiplas *Block RAMs* distribuídas pelo FPGA mantendo um acesso lógico contínuo, i.e., dados em endereços de memória adjacentes podem estar em blocos completamente diferentes. No caso em questão, ela mapeará o *bootloader* desenvolvido nas *Block RAMs* de forma que no momento da programação, o MicroBlaze embarcado já possua um programa carregado.

Um comando típico do data2mem é construído com as opções "-bm" para indicar o caminho para o arquivo do tipo "*Block RAM Memory MAP*" (BMM), "-bt" para indicar o caminho para o arquivo binário do tipo BIT, "-bd" para indicar arquivos de programas do tipo ELF ou MEM, permitindo a inclusão de um identificador para associá-lo a algum dispositivo implementado, e "-o b" para indicar o caminho do arquivo binário (BIT) de saída. Um exemplo de uso do comando é apresentado abaixo.

```
data2mem \
-bm SDK/XPS_QSPI_Final_hw_platform/system_bd.bmm \
-bt SDK/XPS_QSPI_Final_hw_platform/system.bit \
-bd SDK/bootloader/Release/bootloader.elf tag microblaze_0 \
```

O comando acima também pode, como foi dito anteriormente, ser executado através do SDK. Para isto, deve-se acessar o menu "Xilinx Tools" e selecionar a opção "Program Flash". Uma janela aparece, onde deve-se selecionar os arquivos BIT e BMM gerados pelo XPS na compilação do sistema e o arquivo ELF gerado na compilação do programa embarcado. Este procedimento pode ser feito com a placa de desenvolvimento conectada ou não, gerando um erro que pode ser desprezado quando ela estiver desconectada. O arquivo gerado pode ser encontrado na pasta "SDK/\*\_hw\_platform" sob o nome "download.bit".



Figura 6.2: Janela para criação de um arquivo de memória PROM com as configurações devidamente ajustadas.

#### 6.2.4 Programação Indireta da Memória Flash

Como todos os arquivos binários prontos, pode-se começar o processo de programação indireta da memória Flash. Este processo se inicia através da criação de um arquivo de memória PROM através da ferramenta iMPACT. Vale salientar apenas que faz-se necessário que todos os elementos (configurações totais e parciais) sejam previamente compilados para uma mesma interface SPI, seja ela x1, x2 ou x4. O uso de interfaces diferentes pode gerar erros durante a programação da memória Flash.

No momento da criação do novo projeto do iMPACT, seleciona-se a opção "*Prepare a PROM File*". Na janela seguinte, seleciona-se "*SPI Flash/Configure Single FPGA*" no primeiro painel e "128M" no segundo e modifica-se "*Add Non-Configuration Data Files*" para "Yes", conforme mostrado na figura 6.2.

Em seguida, adicionam-se os arquivos binários que se deseja programar na memória Flash. O primeiro arquivo a se adicionar é o de configuração total. Este arquivo é carregado durante o procedimento de inicio do FPGA. Apenas um arquivo deste tipo precisa ser carregado neste experimento, apesar de ser possível realizar um projeto com diversas revisões de configurações ou múltiplas possibilidades de configurações

de *boot* (Xilinx Inc., g; Xilinx Inc., f). Para rejeitar a adicão de outras configurações, deve-se clicar em "No" na mensagem de título "Add Device".



Figura 6.3: Janela para criação de um arquivo de memória PROM com as configurações devidamente ajustadas.

A mensagem seguinte, "Add Data File", faz referência a adição de arquivos de dados neste projeto. Clicando-se em "Yes", uma janela aparece com informações de endereçamento. Pode-se aceitar os valores iniciais. Estes arquivos podem ter qualquer conteúdo, mas o programa espera arquivos gerados pelo SDK, sendo necessário mudar a configuração de arquivos apresentados para "All Files (\*.\*)". Após adicionarse todos os arquivos, deve-se clicar em "No" na janela de inclusão de novos arquivos de dados. Ao se fazer isto, uma janela para indicação dos endereços é mostrada. Recomenda-se mudar os endereços de início ("Start Address") para valores arredondados, como 0xB00000, 0xC00000 e 0xD00000, obedecendo os endereços das revisões, de forma a facilitar o trabalho de programação do sistema embarcado. O botão "Update Address" deve ser clicado para ajustar os endereços de fim ("End Address") antes de se prosseguir, obtendo-se algo similar a figura 6.3. Note que é possível incluir também um programa para o MicroBlaze na memória Flash, a ser carregado em tempo de execução, para controlar a mudança de configurações.

O último passo é gerar o arquivo, o que pode ser feito através do menu "*Operations*" ou do painel "*iMPACT Processes*", selecionando-se a opção "*Generate File...*". Este processo é rapido e resulta em um arquivo MCS gerado na pasta destino definida no passo da figura 6.2.

#### 6.3 Resultados

Logo após a programação e após cada ciclo de energia (*power cycle*), o programa embarcado envia dados da sua execução através da porta UART para o computador, gerando a saída mostrada na figura 6.4. Pode-se observar que o programa, que quando compilado possuiu 104 KB, foi executado perfeitamente.

Note que a programação da FPGA através do iMPACT demorou sempre entre 800 e 1200 segundos, ou seja, entre 13 e 20 minutos, independente da largura de banda utilizada da interface utilizada. O motivo para esta demora não é informado, mas suspeita-se que seja devido a velocidade de transmissão da porta JTAG ou devido a velocidade de escrita na memória SPI Flash.

## 6.4 Conclusão

O experimento realizado funcionou como esperado, tendo carregado as informações do computador para a memória Flash e, em tempo de execução, da memória Flash para a memória DDR3. Ainda foi possível interpretar o cabeçalho do arquivo binário, extraindo dele informações importantes para o correto carregamento das configurações. O processo de programação da memória Flash através do computador é bem demorado, chegando a levar 20 minutos, mas durante o *boot* do sistema, ele é bem rápido, demorando apenas alguns poucos segundos.

É relativamente complicado trabalhar com os periféricos e *drivers* que os acompanham devido a documentação escassa e a grande disperção das informações. Este experimento só pode ser realizado devido a uma imensa pesquisa e compilação de guias de usuário, relatórios de aplicações, *datasheets*, exemplos de projetos para diversos tipos de kits de desenvolvimento e comentários em fóruns de discussão.

```
# - T: 01 byte(s), C: 0x65 ('e')\[ # - T: 04 byte(s), C: 00 0A 16 C4 (661188 bytes)\[ # \]
Tamanho do cabecalho: 96 bytes\[ # \]
Carregando a configuracao FSM (QSPIED00000 -> DDR3@C0304000)... Terminado!\[ # Fim!\[ Caller \]
[ # \]
Carregando a configuracao FSM (QSPIED000000 -> DDR3@C0304000)... Terminado!\[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[ # \]

[
```

Figura 6.4: Resultado da execução do programa embarcado gravado na memória QSPI Flash.

# Capítulo 7

# Experimento 4 - Autoreconfiguração com *MicroBlaze* e DDR3

Espera-se neste experimento projetar e implementar um sistema baseado em MicroBlaze que se reconfigure de forma autônoma, ou seja, sem a necessidade nenhum comando externo adicional. Para isto, deve-se entender o funcionamento de alguns periféricos e seus *drivers*, como integrar tudo de forma satisfatória, e o fluxo de projeto que permita as funcionalidades desejadas.

# 7.1 Introdução Teórica

O projeto em questão pretende utilizar um microcontrolador para acionar a troca de comportamentos de uma partição reconfigurável totalmente independente. Tal feito pode, em teoria, ser alcançado facilmente através do periférico AXI4 HWICAP, que acessa as portas de configuração ICAP e ICAPE2, descritas a seguir.

#### **7.1.1 ICAP e ICAPE2**

As interfaces ICAP e ICAPE2 (*Internal Configuration Access Port*) são formas de se acessar, tanto para leitura quanto para escrita, a configuração interna do FPGA. Algumas das aplicações mais comuns que a utilizam incluem sistemas *MultiBoot* (Xilinx Inc., g; Xilinx Inc., f), sitemas frequentemente atualizados e sistemas críticos que necessitam de frequente verificação do correto funcionamento do sistema (Xilinx Inc., g; Xilinx Inc., l), e.g. sistemas embarcados em aplicações espaciais sucetíveis a radiações capazes de alterar o conteúdo dos elementos lógicos. Estas portas de configuração se utilizam de um protocolo identico ao da interface SelectMAP (Xilinx Inc., d; Xilinx Inc., 2013j), que se utiliza de uma série de comandos para iniciar um dos vários procedimentos de programação. Felizmente utiliza-se o controlador AXI4 HWICAP (Xilinx Inc., c), que permite o controle da ICAP e ICAPE2 através do MicroBlaze.

Estas interfaces, tanto a SelectMAP quanto as ICAP e ICAPE2, possuem um largura de banda de 32 bits e frequência máxima de operação de 100 MHz, permitindo uma taxa de transferência de até 3.2 Gbps (Xilinx Inc., 2013j). Esta taxa de transferência permite que configurações parciais como a do experi-

mento 1 sejam programadas em apenas 1.65 milisegundos (611288 bytes  $\cdot 8 \frac{\text{bits}}{\text{byte}} \div 3.200.000.000 \frac{\text{bits}}{\text{segundo}} = 0,00165 \text{ segundo}$ ).

A única diferença entre as interfaces ICAP e ICAPE2 é a ausência de um sinal de espera na segunda. A ICAPE2, apesar de ter um comportamente mais determinístico no que diz respeito aos tempos de escrita e leitura, não está disponível para alguns dispositivos. A série de FPGAs 7 possui suporte a ICAPE2.

## 7.1.1.1 Inversão dos bytes

A SelectMAP necessita de uma inversão na ordem dos bits de cada byte do arquivo de configuração (Xilinx Inc., h), incluindo a palavra de sincronia, mencionada na seção 6.1.1. Esta inversão só é aplicavel no uso das interfaces Serial, SelectMAP, e por consequência ICAP e ICAPE2, e BPI (Xilinx Inc., 2013c). Note que alguns tipos de arquivos sintetisados, como o MCS e o HEX, já podem ter estes bytes invertidos não sendo necessário invertê-los novamente. Não foi encontrada uma explicação para esta inversão.

#### 7.1.2 Fluxo de Projeto

Este projeto começará no *Project Navigator*, onde se instanciarão os componentes importados do experimento 1. O arquivo referente ao MicroBlaze, gerando através de ferramentas de auxílio a construção deste tipo de componentes, também será adicionado. Note, porém, que o fluxo de projeto não pode ser determinado com precisão, como mostrado na figura 7.1. Cada um dos passos ISE, SDK e XPS necessitam de arquivos que são gerados em um dos outros, tornando este projeto de implementação indefinida.



Figura 7.1: Fluxo de ferramentas para desenvolvimennto do projeto.

Em busca por soluções, descobriu-se que é possível quebrar este ciclo através da construção manual de um arquivo de mapeamento de memória do tipo *Block RAM*. Sendo assim, o passo referente ao SDK não precisaria de informações do passo XPS. Apesar disso, este passo possui um grau de complexidade muito elevado, além do escopo deste projeto.

## 7.2 Resultados

Este experimento foi abordado de diversas formas diferentes, mas nenhuma levou em nenhum resultado palpável. Tentou-se implementar o microcontrolador com e sem memórias DDR3, visto que ela foi a causadora de diversos erros, mas até sem ela observou-se a necessidade de construção manual de arquivos complexos, processo impraticável considerando o escopo deste projeto.

## 7.3 Conclusão

Muitos erros, pouca documentação e pouco tempo impediram o atingimento completo dos objetivos propostos para este experimento. Apesar disto, muito conhecimento sobre o funcionamento do kit e suas limitações, em especial relacionadas aos seus recursos de relógio, foram adquiridos. Uma possibilidade de se contornar os problemas é o compartilhamento dos recursos de relógio entre o microprocessador e os componentes externos e a definição manual de restrições de localização de alguns elementos, de tal forma que eles atinjam os requisitos de temporização.

Uma forma possível de se simplificar este experimento, é a implementação do módulo reconfigurável como periférico do microcontrolador. Sendo assim, a reconfiguração seria iniciada pelo MicroBlaze para alterar o funcionamento deste periférico.

# Capítulo 8

# Experimento 5 - Autoreconfiguração com *MicroBlaze* e sem DDR3

Espera-se neste experimento projetar e implementar um sistema baseado em MicroBlaze que se reconfigure de forma autônoma, ou seja, sem a necessidade nenhum comando externo adicional. Para isto, deve-se entender o processo de criação de periféricos reconfiguráveis e seus *drivers*, o funcionamento do periférico AXI4 HWICAP e integrar tudo de forma satisfatória.

Ao contrário do experimento anterior, neste experimento não se utilizará o *Project Navigator*, eliminando assim várias complexidades introduzidas por ele.

# 8.1 Introdução Teórica

O desenvolvimento de sistemas que suportem a autorreconfiguração ainda não é totalmente suportado pelas ferramentas da Xilinx, como foi mostrado no experimento anterior. Algumas tarefas, como a inclusão de um executável em um processador (através do mapa de memória) instanciado em um sistema com módulos reconfiguráveis, precisam ser feitas a mão. Apesar disso, as ferramentas suportam algumas outras opções, como a inclusão direta de um módulo reconfigurável como periférico em um microcontrolador. Esta segunda opção será a abordada neste experimento.

#### 8.1.1 Periférico Reconfigurável

A ferramenta XPS permite a construção de periféricos com comportamentos completamente arbitrários. Estes periféricos podem ser utilizados para instanciar módulos reconfiguráveis (Xilinx Inc., 2013l). O PlanAhead deve ser usado em conjunto com o XPS para a definição das partições e configurações.

#### 8.1.2 Fluxo do Projeto

O projeto se inicia desenvolvendo a lógica do periférico reconfigurável, processo similar ao passo ISE nos experimentos anteriores. Em seguida constrói-se o microprocessador utilizando este periférico. Com o processador pronto, pode-se programá-lo, mesmo que ainda não possa testá-lo. Por último, utiliza-se o PlanAhead para criar as diversas configurações e partições, sintetisando-as e implementando-as.



Figura 8.1: Fluxo de ferramentas para desenvolvimennto do projeto.

# 8.2 Experimento

Este teste foi arquitetado para utilizar o máximo possivel dos elementos já desenvolvidos neste trabalho. Utilizará-se os comportamentos reconfiguráveis desenvolvidos no experimento 1 para a modelagem do comportamento do periférico reconfigurável, o microprocessador desenvolvido no experimento 2 sem a memória DDR3 e o programa desenvolvido no experimento 3 considerando a ausência da memória DDR3, para se construir um sistema microprocessado que possa acionar a mudança de configurações de uma partição reconfigurável.

#### 8.2.1 XPS

Ao se abrir o programa, deve-se construir um sistema utilizando o BSB, assim como no experimento 2. Quando questionado, seleciona-se os periféricos segundo a figura 8.2. Note que a interface UART tem *Baud Rate* de 115200 e o controlador da memória QSPI Flash tem modo de operação *Quad*.

Quando o programa termina de abrir, deve-se selecionar a opção "Create or Import Peripheral..." do menu "Hardware". Pode-se deixar todas as opções como estão, com excessão da "Software reset" na página de "IPIF (IP Interface) Services". Nota-se que foi criada a pasta "pcores" com uma pasta com nome igual ao periférico recém criado. Deve-se modificar os arquivos padrões criados para incluir a lógica do experimento 1. Um exemplo de como se modificar este arquivo está presente no anexo. Após modificado o periférico, deve-se reescanear a pasta de periféricos do usuário através da opção "Rescan User Repositories" do menu "Project". Em seguida pode-se adicionar este periférico ao sistema.

Após a inclusão do periférico, as suas portas estarão toda desconectadas. Pode-se conectá-las através da aba "*Ports*", expandindo a árvore referente a este periférico, clicando sobre a porta "LEDs\_8Bits\_TRI\_O" com o botão direito e selecionando a opção "*Make External*". Com isto um pino, cria-se um pino conjunto



Figura 8.2: Fluxo de ferramentas para desenvolvimennto do projeto.

de pinos de saída conforme necessitado pelo componente. Este pino pode ter seu nome modificado através da árvore "*External Ports*", isto não é obrigatório. O pino "clk\_200MHz" será configurado mais a seguir.

É necessário também a inclusão do periférico "FPGA Internal Configuraion Access Port" (AXI\_HW-ICAP). Na adição, deve-se marcar a opção "Instantiate STARTUP primitive in the HWICAP core" para que o pino EOS (End of Startup) não seja mais necessário. Por causa disso, devido a presença de apenas uma primitiva STARTUP, também é necessárip a mudança da opção "Use Startup" para falso nas configurações da memória QSPI Flash.

É preciso ainda executar o assistente de configuração de relógios, aberto através do menu "*Hardware*" selecionando-se a opção "*Launch Clock Wizard...*". Na janela que se abre, deve ajustar todas os "*Clock Sources*" para "<AUTO>", e a o relógio do periférico customizado "clk\_200MHz" para 200. Pode-se verificar a correta realização deste passo através da aba "*Ports*".

Por último, deve-se ajustar os endereços e tamanhos das memórias. Para tal, deve-se ir a aba "Addresses" e alterar o tamnho da memória "QSPI\_FLASH" para 128M e seu endereço-base para 0x80000000. Pode-se surgir algum erro indicando a interseção de espaços de memória, fazendo-se necessário a mudança do endereço base de algum componente. Note que este passo não é obrigatório, apenas indicado.

#### 8.2.1.1 Compilação e Exportação

Precisa-se agora gerar os arquivos NGC e BMM para que possam ser importados mais a frente pelo PlanAhead. Isto pode é realizado clicando-se no botão "Generate Netlist" no painel "Navigator" ou no menu "Hardware".

A exportação do projeto serve para que as informações deste projeto sejam transmitidas para o SDK. Ela pode ser feita pelo botão "Export Design" no painel "Navigator" ou pelo item "Export Hardware Design to SDK..." no menu "Project". Note que a opção "Include bistream and BMM file", presente na janela que se abre, deve ser desmarcado. A exportação do projeto para um arquivo binário acarretará em

erro, visto que o periférico reconfigurável possui componentes não definidos. Clica-se então no botão "Export & Launch SDK".

Ao final deste processo de exportação, o SDK será aberto. Pode-se porém adiar este passo até que seja completamente necessário. A etapa do PlanAhead é mais urgente e importante, visto que permite a criação das diversas configurações.

#### 8.2.2 PlanAhead

O procedimento do PlanAhead para este experimento é muito similar ao do experimento 1. Ao abrir o programa, cria-se um novo projeto, lembrando de se selecionar a opção de projeto pós-síntese ("Post-synthesis Project") e de habilitar a reconfiguração parcial ("Enable Partial Reconfiguration"). Deve-se ainda incluir os arquivos NGC do projeto do microprocessador e suas restrições, presentes na presentes na pasta "implementations" e "data" do projeto do XPS, respectivamente.

Após a criação do projeto, deve-se abrir o o arquivo sintetizado através do botão "*Open Synthesized Design*". Alguns avisos podem aparecer, mas pode-se ignorá-los. Este processo faz com que os componentes do projeto possam ser visualizados e manipulados.

A primeira coisa a se fazer com o projeto aberto é definir-se a partição reconfigurável que comportará o componente mutável. Para tal, expande-se o item referente ao periférico da lista no painel "Netlist" e clica-se com o botão direito sobre o componente identificado por "USER\_LOGIC\_I" e seleciona-se a opção "Set Partition". Adiciona-se então uma partição reconfigurável com o netlist de alguma das configurações criadas no experimento 1. Deve-se verificar o experimento 1 para o procedimento para compilar os diferentes netlists.

Em seguida, aloca-se esta partição clicando-se o botão direito sobre mesmo item identificado por "USER\_LOGIC\_I" e selecionando-se o item "Set Pblock Size". Com isso, a aba device deve ser posta em primeiro plano. Nela deve-se selecionar a partição desejada. Para este experimento, utilizou-se o bloco X1Y0, apesar de outros blocos poderem ser utilizados. Deve-se verificar o experimento 1 para técnicas de alocação de partições.

Antes de implementar a esta partição reconfigurável, deve-se habilitar a opção a função de resetar as células lógicas após reconfiguração. Isto pode ser feito selecionando-se a restrição física (*physical constrain*) e alterando seus atributos, acessados através das configurações desta restrição. Na aba atributos, dentro do painel Pblock Properties, clica-se no símbolo de adição localizado a esquerda. Da janela que aparece, seleciona-se a opção "*RESET\_AFTER\_RECONFIG*" e aceita-se a escolha. Note que o projeto deve ser salvo ou esta modificação será perdida.

Uma modificação que deve ser feita para evitar erros na geração dos arquivos binários é a inclusão dos pinos do periférico que acessam o dispositivo diretamente. Pode-se identificar estes pinos através da opção "I/O Ports" presente no menu "Windows". Eles estão marcados em vermelho, significando que foram inicializados com valores aleatórios. Para corrigir este erro, deve-se ir ao painel "Sources", árvore "Constraints" e procurar o arquivo identificado com "(target)". Clica-se duas vezes sobre ele para abrílo. Deve-se adicionar os comandos apresentados abaixo, onde "LEDs\_8Bits\_TRI\_O" deve ser substituído pelo nome cuja marcação está em vermelho no painel "I/O Ports".

```
NET "LEDs_8Bits_TRI_O[0]" LOC = "AB8"
                                           IOSTANDARD = "LVCMOS15":
NET "LEDs_8Bits_TRI_O[1]" LOC = "AA8"
                                           IOSTANDARD = "LVCMOS15";
NET "LEDs_8Bits_TRI_O[2]" LOC = "AC9"
                                           IOSTANDARD = "LVCMOS15";
NET "LEDs_8Bits_TRI_O[3]" LOC = "AB9"
                                           IOSTANDARD = "LVCMOS15";
NET "LEDs_8Bits_TRI_O[4]" LOC = "AE26"
                                           IOSTANDARD = "LVCMOS25";
NET "LEDs_8Bits_TRI_O[5]" LOC = "G19"
                                           IOSTANDARD = "LVCMOS25";
NET "LEDs 8Bits TRI O[6]" LOC = "E18"
                                           IOSTANDARD = "LVCMOS25";
NET "LEDs_8Bits_TRI_O[7]" LOC = "F16"
                                           IOSTANDARD = "LVCMOS25";
```

Os comandos apresentados acima apresentam restrições de alocação e de energia para estes pinos.

Precisa-se ainda, antes da implementação da configuração, informar ao programa que tal implementação deve incluir informações de memória do processador embarcado. Para isto, acessa-se o item "Options" do menu "Flow". Na janela que se abre, escolhe-se a aba "Strategies", onde muda-se o droplist "Flow" para ISE14. As opções de estratégia na árvore abaixo mudam, apresentando a opção "ISE Defaults". Seleciona-se esta opção e clica-se no símbolo de adição localizado abaixo, de forma que uma nova estratégia seja criada nos moldes da selecionada. Deve-se então adicionar o comando "-bm ../../../implementation/system.bmm" no campo "More Options". Note que este endereço corresponde ao endereço relativo que liga a pasta "Projeto/PlanAhead/PlanAhead.runs/config\_1" à pasta "Projeto/implementation". Precisa-se ainda indicar que a configuração a ser implementada deve usar a estratégia recémdefinida, ao invés da padrão. Para isto, clica-se sobre a configuração no painel "Design Runs", clica-se com o botão direito sobre a configuração em questão selecionando-se a opção "Implementation Run Properties", vai-se até a aba "Options" e seleciona-se a nova estratégia. Deve-se lembrar de aplicar (Apply) esta mudança de estratégia ou ela será esquecida.

Pode-se agora implementar a configuração através do painel "Design Runs". Clica-se na configuração desejada com o botão direito e seleciona-se "Launch run...". Este processo é demorado, chegando a levar mais de 20 minutos em um computador com quatro núcleos e 12 GB de memória RAM. Ao final, deve-se selecionar a promoção da partição.

Note que o sistema desenvolvido neste exercício possui restrições de tempo que não puderam ser satisfeitas, mas isto não impede o correto funcionamento do sistema. A figura 8.3 mostra uma indicação de ocorrência deste erro.

| Name          | Part             | Constraints | Strategy          | Timing Score | Unrouted |
|---------------|------------------|-------------|-------------------|--------------|----------|
| fsm (active)  | xc7k325tffg900-2 | constrs_1   | ISE14_BM (ISE 14) | 31839        | 0        |
| ··· O counter | xc7k325tffg900-2 | constrs_1   | ISE14_BM (ISE 14) |              |          |
| ···· O blank  | xc7k325tffg900-2 | constrs_1   | ISE14_BM (ISE 14) |              |          |

Figura 8.3: Conteúdo da aba *Design Runs* appós a implementação da primeira configuração e durante a implementação das seguintes. Note que o valor em vermelo indica que as restrições de tempo não foram atingidas, necessitando revisão.

Após a promoção da primeira configuração, outras podem ser adicionadas da mesma forma. Para tal, importa-se os arquivos NGC e cria-se novos *Design Runs*, conforme apresentado no experimento 1, atentando apenas para a seleção da nova estratégia de compilação. Esta estratégia pode ser definida diretamente durante a criação dos novos *Design Runs*. Adicionou-se então um segundo módulo com comportamento

definido e um vazio.

Note que é interessante executar a verificação das configurações antes de qualquer outra coisa. Para isto, entra-se na aba "*Configurations*", clica-se com o botão direito e seleciona-se a opção "*Verify Configuration*...". Na janela que se abre, deve-se selecionar todas as configurações disponíveis antes de continuar. Nenhum erro deve ser encontrado.

O último passo a ser desenvolvido através da ferramenta PlanAhead é a geração de arquivos binários. Isto pode ser feito através da opção "*Generate Bitstream*" no menu lateral esquerdo. Este processo demorar alguns minutos e deve ser realizado para todas as configurações.

#### 8.2.3 SDK

É recomendado abrir o SDK através do XPS, pelo comando de exportação apresentado anteriormente. Depois de aberto, o procedimento para programação é o mesmo dos experimentos passados.

Nesta etapa do experimento, desenvolveu-se, com o auxílio da API do *driver* para o periférico AXI HWICAP, um programa que carregasse informações da memória QSPI Flash e diretamente para o periférico controlador do ICAP. Este processo foi relativamente fácil, especialmente porque o ICAP não possui muitas formas de configuração. Sendo assim, o programa lê 32 bits da memória Flash e os envia diretamente para o periférico, que faz todo o controle necessário para que a reconfiguração seja realizada. A troca de configurações é controlada por um simples sistema de espera, que conta um número considerável de vezes depois que configuração anterior foi programada.

Várias formas podem ser utilizadas para a transferência deste programa para a FPGA para fins de teste, duas das quais foram exploradas. A primeira utiliza o comando "*Program FPGA*" do menu "*Xilinx Tools*" para programar a FPGA já com o programa embarcado. Para que este método funcione, deve-se selecionar o arquivo BMM utilizado no passo do PlanAhead, algum dos arquivos binários gerados por ele e o arquivo ELF gerado na compilação deste projeto. O segundo, mais fácil de se repetir mais vezes, utiliza o mesmo procedimento do anterior, a não ser a seleção do arquivo ELF. Neste caso, seleciona-se a opção "*bootloop*" como ELF para inciar a memória *Block RAM*. Com isto, as opções "*Run As*" e "*Debug As*" apresentadas no experimento 2 e 3 são habilitadas, e a cada execução, apenas o novo arquivo ELF é enviado ao invés de toda a programação da FPGA.

Note que é interessante observar o tamanho dos arquivos binários gerados na etapa do PlanAhead. Estes arquivos influenciam diretamente nas posições acessadas pelo programa. É recomendado que estas posições sejam ser escolhidas de tal forma que sejam espaçadas uniformemente entre o final da configuração completa, que no caso deste dispositivo é a posição 0xAEA68C, e o final da memória Flash, que acontece em 0xFFFFF. Caso as configurações não caibam na memória, pode-se alterar a região de alocação da partição reconfigurável, diminuindo assim a quantidade de elementos lógicos que precisariam ser programados dinamicamente, ou utilizar alguma outra forma de armazenamento, o que se mostrou muito complicado.

#### **8.2.4** data2mem

Uma forma mais permanente de se inicializar um arquivo binário com um arquivo ELF é utilizando da ferramenta de linha de comando "data2mem". Neste comando, indica-se qual configuração completa deve ser inicializada, qual é seu mapa de memória (arquivo BMM) e com que programa ela deve ser inicializada. Um exemplo de uso desta ferramenta está copiada abaixo.

```
data2mem -bm ..\implementation\system_bd.bmm
-bt ..\PlanAhead\PlanAhead.runs\fsm\fsm.bit
-bd ..\SDK\teste\Debug\teste.elf tag microblaze_0 -o b download.bit
```

Este comando foi usado enquanto na pasta PlanAhead, justificando os caminhos. Ao final, ele gerou o arquivo "download.bit", composto pela configuração correspondente a máquina de estados desenvolvida no experimento 1 e o programa embarcado chamado teste. Note que este processo não precisa ser realizado nas configurações parciais, visto que elas não possuem um microcontrolador embarcado. De fato, apenas uma configuração completa, a que será carregada inicialmente, precisa passar por esta etapa, visto que na reconfiguração dinâmica, apenas a parte dinâmica precisa ser programada e ela não contém *Block RAMs*.

### **8.2.5** iMPACT

A última ferramenta necessária do fluxo de ferramentas é a iMPACT. Com ela, criar-se-á um arquivo MCS para inicialização da memória Flash e transmitir-se-á este arquivo para ela.

### 8.2.5.1 Preparação da Memória Flash

Ao se abrir o iMPACT, deve-se aceitar a opção do sistema de criar e salvar um projeto automaticamente. Na janela que se abre, escolhe-se a opção "Prepare a PROM File". Escolhe-se as opções conforme mostrado na figura 8.4. Deve-se atentar especialmente para o campo "Add Non-Configuration Files", que deve estar setado como "Yes", uma vez que ele é quem permite a inclusão das configurações parciais ao arquivo.

Em seguida, os arquivos são adicionados. O primeiro arquivo deve ser o "download.bit" gerado na etapa do "data2mem". Após a inclusão deste, deve-se negar a inclusão de outros arquivos de configuração e aceitar a inclusão de arquivos de dados. Será solicitado o endereço-base de cada arquivo antes do seu carregamento, sendo importante tê-los em mãos. Ao final da inclusão de todas as configurações parciais, deve-se confirmar os endereços e gerar o arquivo MCS. Este processo pode ser iniciado pelo comando "Generate File..." do painel "iMPACT Processes" ou pelo comando de mesmo nome do menu "Operations".

Com o arquivo MCS em mãos, pode-se abrir um novo projeto do iMPACT, selecionando-se desta vez a opção "Configure devices using Boundary-Scan (JTAG)", com a opção de se conectar automaticamente ao cabo e identificar a cadeia de varredura habilitada. Note que a placa de desenvolvimento deve estar ligada e que não devem existir prorgamas que possam acessar as portas USB abertos. Não é necessário adicionar o arquivo de configuração completo da FPGA, visto que durante o processo de programação da memória Flash, ela também é inicializada. Sendo assim, pode-se rejeitar a primeira solicitação que for mostrada.



Figura 8.4: Janela para criação do arquivo de inicialização de memória Flash do tipo MCS.

Com o iMPACT esperando a próxima ação, deve-se clicar no ícone do dispositivo, mostrado na figura 8.5, com o botão direito e escolher a opção "*Add SPI/BPI Flash*...". Na janela que se abre, procure o arquivo MCS criado a pouco. Depois de carregado, pode-se executar a programação do dispositivo clicando-se novamente com o botão direito sobre o símbolo da figura 8.5 e selecionando-se a opção "*Program*".



Figura 8.5: Imagem do ícone representativo do dispositivo a ser programado.

## 8.3 Resultados

Apresenta-se abaixo os resultados gerados em cada ferramenta utilizada.

### 8.3.1 XPS

Esta ferramenta não gerou relatórios. Apesar disso, pode-se comentar que a execução da etapa referente a ela demorou 30 a 40 minutos, incluindo construção do sistema, modificações e síntese.

### 8.3.2 PlanAhead

Tendo sido a ferramenta que demandou mais tempo, devido a suas compilações extremamente complexas, o PlanAhead gerou relatórios de utilização do dispositivo. A figura 8.6a apresenta o relatório de

utilização com base apenas nas informações dos *netlists* e a figura 8.6b apresenta o relatório de utilização após a implementação da configurações.



(a) Relatório de uso do dispositivo pré-implementação de configurações.



(b) Relatório de uso do dispositivo pós-implementação de configurações.

Figura 8.6: Relatórios de uso do dispositivo.

Alguns pontos que valem ser comentados sobre o relatório dizem respeito a utilização do recurso "ICAP". Este é um recurso escasso em FPGAs, existindo apenas 1 ou 2 por dispositivo. Neste caso, 1 ICAP de 2 foram utilizados, justificando a alta utilização deste.

A alocação de recursos no dispositivo ficou distribuída como mostrado na figura 8.7. Note que o MicroBlaze, que utiliza os elementos destacados em azul, não foi restrito a uma partição específica, ficando bastante espalhado no dispositivo. Este fato contribuiu para o não cumprimento de um dos requisitos de

tempo. Este requisito, porém, não afetou o funcionamento do sistema.



Figura 8.7: Resultado da implementação do sistema no dispositivo. Os pontos em azul claro representam os elementos lógicos utilizados. O retangulo roxo no canto inferior direito delimita a partição reconfigurável.

# 8.3.3 SDK

Esta ferramenta não apresentou relatórios. Seu tempo de execução médio, considerando-se que o programa embarcado já tenha sido desenvolvido, é de 10 minutos.

### 8.3.4 data2mem

Esta ferramenta não apresentou relatórios, tendo sido bem sucedida. Seu tempo de execução médio foi de 30 segundos.

### **8.3.5** iMPACT

Esta ferramenta não apresentou relatórios, tendo sido bem sucedida. Seu tempo de execução médio foi de 5 minutos para a construção do arquivo MCS e de 15 minutos para a programação da memória QSPI Flash.

## 8.4 Conclusão

Conclui-se este experimento verificando que ele foi bem sucedido. Conseguiu-se implementar a autorreconfiguração através de um microcontrolador MicroBlaze conforme esperado. Alguns dos elementos do fluxo de projeto, como o desenvolvimento de um periférico reconfigurável e o uso do mapa de memória (BMM) através do PlanAhead, estão muito mal explicados na literatura, aumentando os esforços necessários para o seu entendimento.

Acredita-se ter absorvido e transpassado os conhecimentos necessários para a construção de projetos mais complexos utilizando esta tecnologia. Apesar disto, nota-se uma clara limitação em projetos deste tipo, especialmente no que diz respeito a dificuldade de se utilizar a memória DDR3, reduzindo drasticamente o número de configurações possíveis de serem armazenadas em tempo de execução, o tamanho possível da memória local do processador (que com a DDR3 é virtualmente infinita), e reduzindo o desempenho geral do sistema.

# Capítulo 9

# Resultados

Este capítulo tem como objetivo apresentar um resumo dos resultados alcançados pelos vários experimentos realizados, uma vez que os resultados específicos estão contidos nos capítulos dos respectivos experimentos.

Os experimentos realizados neste trabalhos serviram para construir um conhecimento profundo em torno do desenvolvimento de aplicações reconfiguráveis baseadas em FPGAs. Entende-se que as partes mais importantes deste conhecimento, além da capacidade de resolução de problemas relacionados, é o entendimento do fluxo de desenvolvimento necessário. Este fluxo, resumido na figura 9.1, não é descrito claramente na literatura, tornando esta tecnologia complicada de se estudar e utilizar. O que buscou-se fazer com os experimentos foi determinar uma linha de pensamento sólida e lógica, que ajudasse a determinar este fluxo mais facilmente.

Devido ao caráter de estudo de um tecnologia, não se faz necessária a inclusão de relatórios de utilização ou desempenho. Estes elementos podem ser estudados mais a fundo de forma separada. Sua inclusão neste trabalho poderia acarretar na perda do foco principal, quiça autorreconfiguração.

É interessante notar que um dos experimentos, especificamente o quarto, teve de ser reavaliado, tendo sido considerado mal sucedido. O motivo para tal foi o encontro de diversos problemas graves que desaceleraram o desenvolvimento, comprometendo a realização deste trabalho. Estes problemas foram causados em parte pela má integração entre as diversas ferramentas da Xilinx, mas em maior parte por problemas relacionados a memória DDR3 e seus requisitos de temporização. Apesar disso, conseguiu-se perceber este impasse a tempo e reformular este experimento de tal forma que ele fosse alcançavel.

Através da realização dos experimentos de 1 a 4, juntou-se o conhecimento necessário que culminou na realização do experimento 5. Este por sua vez, serviu para clarificar alguns detalhes referentes a integração de projetos do XPS e do PlanAhead, abrindo um leque de possibilidades de continuação deste trabalho.



Figura 9.1: Fluxo de projeto para aplicações reconfiguráveis usando as ferramentas da Xilinx. Cada bloco representa um arquivo gerado com o auxílio de alguma ferramentas. As arestas indicam que tal arquivo foi utilizado para gerar o seguinte. Arquivos gerados pelas mesmas ferramentas estão agrupados com uma linha contínuo, no caso de um arquivo de construção obrigatória, ou com uma linha tracejada, no caso de arquivos cuja construção depende dos requisitos do projeto. Estão indicados ainda os tempos, incluindo os tempos das interações necessárias com o usuário, estimados para a construção de cada arquivo. Note que este fluxo é apenas o indicado para a maioria dos projetos, mas que existem projetos que seguem fluxos diferentes, seja por opção ou necessidade.

## 9.1 Análise de Tempo de Desenvolvimento

O fator mais explicitamente influenciador dos resultados deste projeto foi o tempo, especialmente quando aliado ao caráter experimental deste projeto. Pode-se observar da figura 9.1 que cada ferramenta possui um tempo máximo e mínimo necessários para seu uso. Estes tempos foram estimados com base nos tempos gastos nos experimentos, considerando-se que nenhum erro grave tenha acontecido.

A figura 9.2 possui uma representação alternativa, que mostra a construção do projeto como um *pipeline*. As informações acima deste grafo direcionado representam os tempos, máximo e mínimo, gastos em cada etapa e as informações abaixo mostram o tempo gasto acumulado, máximo e mínimo, desde o início do projeto. Note que, mesmo desconsiderando-se os tempos de desenvolvimento de periféricos, programas embarcados e comportamento do *hardware*, leva-se no mínimo 1 hora e 47 minutos. Considerando-se ainda que a maior parte dos erros é apresentada na etapa final da ferramenta PlanAhead, pode-se observar que gastou-se pelo menos 1 hora e 30 minutos por tentativa de implementação.



Figura 9.2: Representação do fluxo de projeto através de um *pipeline*. As informações acima dele indicam o tempo mínimo e máximo gasto em cada etapa, sendo que as etapas que possuem alguma fase de desenvolvimento apresentam um "(??)" para indicar que não tem como estimar o tempo gasto. As informações abaixo indicam o tempo mínimo e máximo gasto acumulado desde o início do projeto. A presença do sinal "+" indica que o valor apresentado é apenas uma estimativa empírica do valor máximo, podendo este ser ainda maior.

# Capítulo 10

# Conclusões

No decorrer do desenvolvimento deste trabalho, pode-se observar a forma correta de se realizar projetos para autorrenconfiguração. Por causa disso, considera-se que o trabalho foi bem sucedido.

O experimento 1 mostra e explica como realizar a reconfiguração dinâmica através de um computador. Este experimento foi importante para comprovar o conceito e a capacidade do kit de suportar esta tecnologia. O experimento 2 aborda o desenvolvimento de um microcontrolador MicroBlaze com periféricos para o controle de memórias QSPI Flash e DDR3. Como foi explicado, memórias apresentam um papel extremamente importante na autorreconfiguração uma vez que nela a placa deve usar apenas recursos próprios para tudo. O experimento 3 apresenta um estudo sobre o arquivo binário carregado pelas interfaces de reconfiguração, bem como o desenvolvimento de um programa capaz de interpretá-lo. Este experimento permitiu ainda um maior entendimento sobre a inicialização da memória Flash para que ela fosse acessada em execuções subsequêntes. O experimento 4, o único que não atingiu seu objetivo, foi uma tentiva de se construir um sistema que carregasse as configurações da memória Flash para a memória DDR3 para então transmití-la as interfaces de reconfiguração. Diversos problemas surgiram com relação a memória DDR3, forçando a removê-la do sistema, e algumas dúvidas surgiram com relação a inicialização arquivo binário final com o programa embarcado. No experimento 5, conseguiu-se solucionar o problema da inicialização do arquivo binário, obtendo-se ao final um sistema autenticamente autorreconfigurável. O módulo reconfigurável, porém, fazia parte do microcontrolador, interagindo com ele através da interface AXI Lite.

Sabe-se que existem formas mais eficientes e interessantes de se implementar a autorreconfiguração. Um exemplo é a repetição do experimento 5 onde o módulo reconfigurável não esteja atrelado ao microcontrolador, mas apenas a um componente de interfaceamento "Top". Outra possibilidade é a implementação do microcontrolador com controladores para a memória DDR3 dentro de uma partição reconfigurável. Sendo assim, durante o início do sistema, o microcontrolador poderia carregar e interpretar as configurações da memória Flash para a memória DDR3 e sinalizar o término para um controlador externo, que então reconfiguraria o microcontrolador para um controlador de memória DDR3, permitindo que as configurações fossem lidas pelo *hardware*. Observa-se que ainda é possível construir um sistema totalmente independente de microcontroladores, apesar de isto aumentar muito a complexidade do projeto.

# REFERÊNCIAS BIBLIOGRÁFICAS

ASHENDEN, P. J. Book. *Digital design: an embedded systems approach using Verilog*. Morgan Kaufmann Publishers Amsterdam; Boston, 2008. xx, 557 p.: p. ISBN 9780123695277 0123695279. Disponível em: <a href="http://www.loc.gov/catdir/toc/ecip0719/2007023242.html">http://www.loc.gov/catdir/toc/ecip0719/2007023242.html</a>.

BACKUS, J. Can programming be liberated from the von neumann style?: a functional style and its algebra of programs. *Commun. ACM*, ACM, New York, NY, USA, v. 21, n. 8, p. 613–641, ago. 1978. ISSN 0001-0782. Disponível em: <a href="http://doi.acm.org/10.1145/359576.359579">http://doi.acm.org/10.1145/359576.359579</a>.

CHEN, W. *The Electrical Engineering Handbook*. Elsevier Science, 2004. ISBN 9780080477480. Disponível em: <a href="http://books.google.com.br/books?id=qhHsSlazGrQC">http://books.google.com.br/books?id=qhHsSlazGrQC</a>.

CULLINAN, C. et al. *Computing Performance Benchmarks among CPU, GPU, and FPGA.* 2012. Disponível em: <a href="http://m.wpi.edu/Pubs/E-project/Available/E-project-030212-123508/unrestricted/Benchmarking\_Final.pdf">http://m.wpi.edu/Pubs/E-project/Available/E-project-030212-123508/unrestricted/Benchmarking\_Final.pdf</a>.

DDR3 SDRAM SODIMM. [S.1.], 2010.

EL-GHAZAWI, T. A. et al. The promise of high-performance reconfigurable computing. *IEEE Computer*, v. 41, n. 2, p. 69–76, 2008.

ESTRIN, G. Reconfigurable computer origins: the ucla fixed-plus-variable (f+v) structure computer. *IEEE Ann. Hist. Comput.*, IEEE Educational Activities Department, Piscataway, NJ, USA, v. 24, n. 4, p. 3–9, out. 2002. ISSN 1058-6180. Disponível em: <a href="http://dx.doi.org/10.1109/MAHC.2002.1114865">http://dx.doi.org/10.1109/MAHC.2002.1114865</a>>.

FEDELI, R.; POLLONI, E.; PERES, F. *Introdução à Ciência da Computação*. 1. ed. [S.l.]: Thomson, 2003.

HAREL, D.; FELDMAN, Y. Algorithmics: The Spirit of Computing. 3rd. ed. [S.l.]: Addison Wesley, 2004.

HARTENSTEIN, R. A decade of reconfigurable computing: a visionary retrospective. In: *Proceedings of the conference on Design, automation and test in Europe*. Piscataway, NJ, USA: IEEE Press, 2001. (DATE '01), p. 642–649. ISBN 0-7695-0993-2. Disponível em: <a href="http://dl.acm.org/citation.cfm?id=367072.367839">http://dl.acm.org/citation.cfm?id=367072.367839</a>.

HARTENSTEIN, R. W.; KRESS, R. A datapath synthesis system for the reconfigurable datapath architecture. In: *Proceedings of the 1995 Asia and South Pacific Design Automation Conference*. New York, NY, USA: ACM, 1995. (ASP-DAC '95). ISBN 0-89791-766-9. Disponível em: <a href="http://doi.acm.org/10.1145/224818.224959">http://doi.acm.org/10.1145/224818.224959</a>>.

HAUCK, S.; DEHON, A. Reconfigurable Computing: The Theory and Practice of FPGA-Based Computation. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2007. ISBN 0123705223, 9780080556017, 9780123705228.

HENNESSY, J. L.; PATTERSON, D. A. *Computer Architecture, Fifth Edition: A Quantitative Approach*. 5th. ed. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc., 2011. ISBN 012383872X, 9780123838728.

MAXXPI. *MaxxPI's TOP15 Flops List*. 2013. <a href="http://www.maxxpi.net/pages/result-browser/top15---flops.php">http://www.maxxpi.net/pages/result-browser/top15---flops.php</a>>. [Online; acessado em 16 de julho de 2013].

Micron Technology, Inc. N25Q128: 128-Mbit 3 V, multiple I/O, 4-Kbyte subsector erase on boot sectors, XiP enabled, serial flash memory with 108 MHz SPI bus interface. [S.1.].

MOORE, G. E. Cramming More Components onto Integrated Circuits. *Electronics*, IEEE, v. 38, n. 8, p. 114–117, abr. 1965. ISSN 0018-9219. Disponível em: <a href="http://dx.doi.org/10.1109/jproc.1998.658762">http://dx.doi.org/10.1109/jproc.1998.658762</a>.

PATTERSON, D.; HENNESSY, J. Computer Organization and Design: The Hardware/software Interface. [S.1.]: Morgan Kaufmann, 2005.

THOMAS, D. E.; MOORBY, P. R. *The VERILOG Hardware Description Language*. 3rd. ed. Norwell, MA, USA: Kluwer Academic Publishers, 1996. ISBN 0792397231.

TOP500. June 2013's Supercomputer Sites. 2013. <a href="http://www.top500.org/lists/2013/06/">http://www.top500.org/lists/2013/06/</a>>. [Online; acessado em 16 de julho de 2013].

VAJDA, A. Programming Many-Core Chips. Dordrecht: Springer, 2011.

VASSILIADIS, S.; SOUDRIS, D. *Fine- and Coarse-Grain Reconfigurable Computing*. Springer London, Limited, 2007. ISBN 9781402065057. Disponível em: <a href="http://books.google.com.br/books?id=2Vsvwyq7BREC">http://books.google.com.br/books?id=2Vsvwyq7BREC</a>.

WIKIMEDIA COMMONS. *Transistor Count and Moore's Law*. 2011. Disponível em: <a href="http://en.wikipedia.org/wiki/File:Transistor\_Count\_and\_Moore%27s\_Law\_-\_2011.svg">http://en.wikipedia.org/wiki/File:Transistor\_Count\_and\_Moore%27s\_Law\_-\_2011.svg</a>.

WILLIAMS, A. *C++ Concurrency in Action: Practical Multithreading*; [for the New C++ 11 Standard]. Manning Publications Company, 2012. (Manning Pubs Co Series). ISBN 9781933988771. Disponível em: <a href="http://books.google.com.br/books?id=EttPPgAACAAJ">http://books.google.com.br/books?id=EttPPgAACAAJ</a>.

WOODS, R. et al. *FPGA-based Implementation of Signal Processing Systems*. [S.l.]: Wiley Publishing, 2008. ISBN 0470030097, 9780470030097.

Xilinx Inc. DS080: System ACE CompactFlash Solution. [S.l.].

Xilinx Inc. DS583: XPS SYSACE (System ACE) Interface Controller. [S.l.].

Xilinx Inc. DS817: LogiCORE IP AXI HWICAP. [S.l.].

Xilinx Inc. WP374: Partial Reconfiguration of Xilinx FPGAs Using ISE Design Suite. [S.l.].

Xilinx Inc. WP377: Xilinx 7 Series FPGAs Embedded Memory Advantages. [S.l.].

Xilinx Inc. XAPP1100: MultiBoot with Virtex-5 FPGAs and Platform Flash XL. [S.1.].

Xilinx Inc. XAPP468: Fail-Safe MultiBoot Reference Design. [S.l.].

Xilinx Inc. XAPP502: Using a Microprocessor to Configure Xilinx FPGAs via Slave Serial or SelectMAP Mode. [S.1.].

Xilinx Inc. XAPP583: Using a Microprocessor to Configure 7 Series FPGAs via Slave Serial or Slave SelectMAP Mode. [S.1.].

Xilinx Inc. XAPP586: Using SPI Flash with 7 Series FPGAs. [S.l.].

Xilinx Inc. XAPP694: Reading User Data from Configuration PROMs. [S.1.].

Xilinx Inc. XAPP887: PRC/EPRC: Data Integrity and Security Controller for Partial Reconfiguration. [S.l.].

Xilinx Inc. UG081: MicroBlaze Processor Reference Guide - Embedded Development Kit EDK 14.6. [S.1.], 2013.

Xilinx Inc. UG111: Embedded System Tools Reference Manual (EDK). [S.l.], 2013.

Xilinx Inc. UG470: 7 Series FPGAs Configuration User Guide. [S.l.], 2013.

Xilinx Inc. UG473: 7 Series FPGAs Memory Resources User Guide. [S.l.], 2013.

Xilinx Inc. UG586: 7 Series FPGAs Memory Interface Solutions v1.9 and v1.9a User Guide. [S.l.], 2013.

Xilinx Inc. UG628: Command Line Tools User Guide. [S.l.], 2013.

Xilinx Inc. UG631: ISE Design Suite 14: Release Notes, Installation, and Licensing. [S.l.], 2013.

Xilinx Inc. UG658: Data2MEM User Guide. [S.1.], 2013.

Xilinx Inc. UG695: ISE In-Depth Tutorial. [S.1.], 2013.

Xilinx Inc. *UG702: Partial Reconfiguration User Guide*. [S.1.], 2013. Disponível em: <a href="http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/ug702.pdf">http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/ug702.pdf</a>>.

Xilinx Inc. *UG743: Partial Reconfiguration Tutorial*. [S.l.], 2013. Disponível em: <a href="http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/PlanAhead\_Tutorial\_Partial\_Reconfiguration.pdf">http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/PlanAhead\_Tutorial\_Partial\_Reconfiguration.pdf</a>>.

Xilinx Inc. *UG744: Partial Reconfiguration of a Processor Peripheral Tutorial*. [S.l.], 2013. Disponível em: <a href="http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/PlanAhead\_Tutorial\_Reconfigurable\_Processor.pdf">http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/PlanAhead\_Tutorial\_Reconfigurable\_Processor.pdf</a>.

Xilinx Inc. *UG748: Hierarchical Design Methodology Guide*. [S.l.], 2013. Disponível em: <a href="http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/Hierarchical\_Design\_Methodology\_Guide.pdf">http://www.xilinx.com/support/documentation/sw\_manuals/xilinx14\_6/Hierarchical\_Design\_Methodology\_Guide.pdf</a>.

Xilinx Inc. UG761: AXI Reference Guide. [S.l.], 2013.

Xilinx Inc. *UG810: KC705 Evaluation Board for the Kintex-7 FPGA*. [S.l.], 2013. Disponível em: <a href="http://www.xilinx.com/support/documentation/boards\_and\_kits/kc705/ug810\_KC705\_Eval\_Bd.pdf">http://www.xilinx.com/support/documentation/boards\_and\_kits/kc705/ug810\_KC705\_Eval\_Bd.pdf</a>>.

# **ANEXOS**

## I. ERRATA

**Título** Achou-se mais adequado o título "Estudo para Implementação de Reconfiguração Dinâmica Para Instrumentação, Automação e Controle" ao invés de "Estudo para Implementação de Reconfiguração Dinâmica Para Instrumentação, Automação e Controle".

**Conclusão** O capítulo de conclusão deveria incluir uma seção de propostas de projetos implementáveis ou otimizáveis através da autorreconfiguração. Seguem a seguir as modificações necessárias.

## I.1 Propostas de Aplicações

O objetivo deste projeto deste o início foi o desenvolvimento de um sistema capaz de realização de autorreconfiguração, o que consitui o ápice tecnológico da reconfiguração dinâmica parcial. Tendo-se compreendido o fluxo de desenvolvimento para o uso desta tecnologia, propõe-se agora algumas possíveis aplicações.

### I.1.1 Redes Neurais

### I.1.1.1 Introdução

Redes neurais são uma ferramenta de inteligência artificial largamente utilizada nas áreas de *Data Mining* e sistemas que necessitem de algum tipo de aprendizado. Elas utilizam de redes de elementos extremamente simples, como mostrado na figura I.1, para criar uma função altamente não-linear com um comportamento esperado. Estes elementos podem ser matematicamente representados por somatórios ponderados afunilados por funções não-lineares. Os pesos utilizados nestes somatórios são os elementos a serem adaptados de forma a modificar o comportamento da estrutura. Elas podem ser utilizadas tanto aprendizados supervisionados, onde funciona como um poderoso aproximador de funções, quanto em aprendizados não-supervisionados, onde traduz um sistema hiperdimensional em bidimensional.

### I.1.1.2 Topologias

As redes neurais podem possuir várias camadas de neurônios, que são as unidades básicas de processamento, e várias entradas e saídas. Quanto mais camadas são acrescentadas ao sistema, mais instável fica seu treinamento e custosa sua computação. Em geral utilizam-se apenas duas ou três camadas com um número arbitrário de neurônios em cada uma. Não existe um algoritmo que determine qual seria a topologia ideal de uma rede para um certo modelo. Tal decisão normalmente é feita com base em experiência e tentativas e erros.

Existem topologias três topologias básicas de redes neurais: a *feedforward*, a recorrente e a atrasada. A primeira possui neurônios que entregam seus resultados apenas para camadas mais a frente. A segunda,



Figura I.1: Modelo de rede neural com "p"entradas, "q"saídas e duas camadas.

mais complexa, além de entregar seus resultados para as camadas mais a frente, realimentam camadas anteriores. A última utiliza de elementos especiais para atrasar o uso de certas entradas ou resultados.

### I.1.1.3 Formas de funcionamento

As redes neurais podem ser usadas de diversas formas diferentes: através de treinamento *online*, onde o sistema continuamente recebe informações e treina os pesos dos seus neuronios; através de treinamento em lotes, onde o sistema acumula um lote de informações e treina o sistema lote a lote; através de treinamento *offline*. Cada um dos usos listados tem seu uso específico e suas vantagens e desvantagens. O treinamento *online* tem a vantagem de se adaptar mais frequentemente ao sistema que tenta modelar, mas precisa de muito mais processamento/potência para manter o sistema treinado. O treinamento em lotes tem a vantagem de poder ter a frequência de atualização dos pesos modificada de acordo com as necessidades. Sendo assim, a relação taxa de atualização/potência pode ser ajustada. O treinamento *offline* tem a vantagem de considerar um conjunto potencialmente representativo do sistema modelado além da vantagem de ser a forma que precisa de menos processamento, visto que a atualização dos pesos acontece apenas uma vez. A desvantagem dessa forma é a falta de capacidade de adaptação frente a sistemas variáveis no tempo.

### I.1.1.4 Algoritmos de Treinamento

Além das formas de funcionamento das redes neurais, outra característica que a define grandemente é o algoritmo de treinamento utilizado. Dentre os mais populares existem o *backpropagation* e o de Levenberg-

Marquardt. O algoritmo de *backpropagation* é o mais difundido devido a sua facilidade de entendimento e implementação. Já o algoritmo de Levenberg-Marquardt vê o ajuste de pesos de uma rede neural como um problema de otimização.

### I.1.1.5 Proposta

A computação reconfigurável, mais especificamente a reconfiguração dinâmica parcial, pode ser usada para modificar a topologia da rede neural. Ela pode ser programada para, quando o erro ultrapassar um certo limite máximo, aumentar ou diminuir o número de neurônios numa certa camada. Os desafios referentes a essa proposta são apenas relacionados a implementação de um sistema com reconfiguração dinâmica parcial.

Outra possibilidade é a modificação do algoritmo de treinamento com base em seus custos computacionais e erros. Quando um algoritmo de baixo custo computacional começar a retornar um erro acima de certo limite máximo, ele seria trocado pelo algoritmo imediatamente mais custoso. Os desafios dessa proposta são, além dos relacionados a implementação de um sistema com reconfiguração dinâmica parcial, a implementação em *hardware* de algoritmos de treinamentos de redes neurais.

Uma outra possibilidade seria a de implementar uma autorreconfiguração não-planejada no sistema, onde o número de neurônios e a forma de suas conexões não seriam programados previamente em configurações específicas, como na primeira proposta, mas determinados em tempo de execução. De forma um pouco mais clara, apenas o comportamento e *bitstreams* referentes aos elementos básicos/neurônios seriam programados. Suas conexões e pesos seriam determinados por um sistema controlador presente na lógica estática do sistema reconfigurável. A dificuldade de implementação desse projeto o torna inviável para um trabalho deste porte.

## I.1.2 Controle Adaptativo

O controle adaptativo tradicional tem como principal objetivo o controle de sistemas incertos ou com características variantes no tempo. Um controlador adaptativo tem a forma mostrada na figura I.2. Este sistema implementa uma lógica de estimação e correção de parâmetros segundo a estabilidade de Lyapunov.



Figura I.2: Modelo de um controlador adaptativo do tipo MRAC.

### I.1.2.1 Proposta

Utilizando o conceito básico deste tipo de controle e a reconfiguração dinâmica, é possível construir um controlador cuja forma é mudada segundo os requisitos dos sistema, i.e. hora seria um controlador proporcional, hora seria um controlador proporcional-integral-derivativo. As dificuldades desta proposta dizem respeito implementação de sistemas com reconfiguração dinâmica parcial e ao projeto do sistema que controlaria a troca entre controladores.

### I.1.3 Computação Genérica

Um computador de computação genérica possui um conjunto fixo de instruções implementados em um sistema imutável no tempo. A figura I.3 apresenta um processador MIPS de 5 estágios representando este um processador comum, i.e. imutável. Os únicos elementos lógicos passíveis de alteração são as memórias.



Figura I.3: Ilustração de um processador MIPS com pipeline de 5 estágios.

### I.1.3.1 Propostas

O uso de autorreconfiguração este caso possibilitaria a redução do espaço físico necessário para a implementação de elementos da unidade de lógica e aritmética (ALU). Esta modificação permitiria também uma diminuição no consumo de energia do processador, além de permitir que instruções de ponto flutuante fossem implementadas diretamente na ALU, sem a necessidade de extensão do processador. Outra possibilidade é a implementação de um banco de registradores variável, permitindo ao compilador escolher quantos registradores utilizar em cada etapa do seu programa, otimizando ainda mais o desempenho deste.

As dificuldades deste projeto dizem respeito a necessidade de construção prévia de um processador genérico funcional, a incluisão de uma memória para armazenamento de configurações, o desenvolvimento

de cada configuração parcial para este componente e o desenvolvimento de um controlador para a troca de configurações. É provável que o circuito responsável pela reconfiguração possa ganhar um estágio dedicado a ele, devivo a sua complexidade e ao tempo de programação. Para se contornar o problema do tempo de reconfiguração, pode-se utilizar diversas ALUs, onde apenas uma estaria ativa no ciclo em execução. Sendo assim, outros sistemas de controle podem ser necessários.

Uma outra possibilidade de implementação, menos eficiente, é a reconfiguração do sistema estágio-a-estágio. Ou seja, quando o dispositivo fosse ligado, apenas o primeiro estágio estaria programado. Esta implementação não é recomendada, uma vez que transforma um processador com *pipeline* em um processador uniciclo.

### I.1.4 Outros

De forma geral, qualquer sistema multiplexado ou que possua diversas etapas de processamento, pode ser implementado utilizando-se de autorreconfiguração. Deve-se, porém, para sua utilização em aplicações reais, verificar se o *overhead* de tempo introduzido é balanceado pelos ganhos de performance e potência.