# Санкт-Петербургский политехнический университет Петра Великого Институт компьютерных наук и технологий Кафедра компьютерных систем и программных технологий

# Отчет по лабораторной работе №7\_2 Курс: «Проектирование реконфигурируемых гибридных вычислительных систем»

**Teмa: Pipeline** 

| Выполнил студент гр. 3540901/81501 |           | Селиверстов Я.А |
|------------------------------------|-----------|-----------------|
|                                    | (подпись) |                 |
| Руководитель                       |           | Антонов А.П.    |
|                                    | (подпись) |                 |
|                                    |           | 2019 г.         |

Санкт – Петербург 2019

# ОГЛАВЛЕНИЕ

| 1. Задание 3                     |
|----------------------------------|
| 1.2. Исходный код                |
| 2.Решение №1                     |
| 2.1 Моделирование                |
| 2.2 Синтез                       |
| 2.3 C RTL моделирование          |
| 3. Решение №2                    |
| 3.1 Параметры второго решения    |
| 3.2 Синтез                       |
| 3.3 C RTL моделирование          |
| 4. Решение №3                    |
| 4.1 Параметры третьего решения   |
| 4.2 Синтез                       |
| 4.3 C RTL моделирование          |
| 5. Решение №4                    |
| 5.1 Параметры четвертого решения |
| 5.2 Синтез                       |
| 5.3 C RTL моделирование          |
| ζ DI IDΩΠ                        |

## 1. Задание

- Создать проект lab7\_2
- Микросхема: xa7a12tcsg325-1q
- Создать функцию на основе приведенных ниже слайдов.

```
void foo(in1[][], in2[][], ...) {
...
L1:for(i=1;i<N;i++) {
    L2:for(j=0;j<M;j++) {
#pragma AP PIPELINE
    out[i][j] = in1[i][j] + in2[i][j];
    }
}

ladder, 3 accesses
```

```
void foo(in1[][], in2[][], ...) {
#pragma AP PIPELINE
...
L1:for(i=1;i<N;i++) {
        L2:for(j=0;j<M;j++) {
            out[i][j] = in1[i][j] + in2[i][j];
        }
    }
}
Unrolls L1 and L2
N*M adders, 3(N*M) accesses
```

- Создать тест lab7\_2\_test.c для проверки функций выше.
  - о осуществить моделирование (с выводом результатов в консоль)
- Сделать свой solution (для каждого варианта задания директивы и для варианта без директивы)
  - о задать: clock period 10; clock\_uncertainty 0.1
  - о осуществить синтез
    - привести в отчете:
      - performance estimates=>summary
      - utilization estimates=>summary
      - scheduler viewer (выполнить Zoom to Fit)
        - о На скриншоте показать Latency
        - о На скриншоте показать Initiation Interval
      - resource viewer (выполнить Zoom to Fit)
        - о На скриншоте показать Latency
        - о На скриншоте показать Initiation Interval
  - Осуществить C|RTL моделирование (для каждого варианта задания директивы)
    - Привести результаты из консоли
    - Открыть временную диаграмму (все сигналы)
      - Отобразить два цикла обработки на одном экране
        - о На скриншоте показать Latency
        - На скриншоте показать Initiation Interval
- Выводы
  - Привести обобщенную таблицу зависимости utilization и performance от каждого варианта задания директивы и для варианта без директивы.
  - Объяснить отличие процедур обращения к элементам массива для каждого случая

#### 1.2. Исходный код

#### Представим код программ lab7\_z2.c и lab7\_z2\_test.c на листинге 1 и 2.

```
void foo (int in1[10][10], int in2[10][10], int
out[10][10]) {
   int i, j;
   L1:for (i = 0; i < 10; i++) {
       L2:for (j = 0; j < 10; j++) {
          out[i][j] = in1[i][j] + in2[i][j];
       }
   }
}</pre>
```

#### Листинг 1.

```
#include <stdio.h>
  int main(){
    int in1[10][10];
    int in2[10][10];
    int out[10][10];
    int exp out[10][10];
    int i, j;
    for (i = 0; i < 10; i++) {
         for (j = 0; j < 10; j++) {
             in1[i][j] = i + j;
             in2[i][j] = i * 10;
             out[i][j] = 0;
             exp out[i][j] = in1[i][j] + in2[i][j];
         }
    foo(in1,in2,out);
    for (i = 0; i < 10; i++) {
         for (j = 0; j < 10; j++) {
             printf("%d + %d == Out %d == Exp %d\n",
in1[i][j],in2[i][j],out[i][j], exp out[i][j]);
             if (out[i][j] != exp out[i][j]) {
                  printf("-----\n");
                  return -1;
             }
    printf("-----Test Pass----\n");
    return 0;
```

Листинг 2.

### 2.Решение №1

#### 2.1 Моделирование

На рисунке 2.1. приведем результаты логи успешного моделировании.

Рисунок 2.1. Логи моделирования

#### 2.2 Синтез

Результаты синтеза с оценкой производительности и используемых ресурсов представлены на рисунках 2.1 и 2.2. соответственно.

| er | formanc                   | e Estim | ates    |                |      |          |  |  |
|----|---------------------------|---------|---------|----------------|------|----------|--|--|
| 3  | Timing (                  | ns)     |         |                |      |          |  |  |
| [  | - Sumn                    | nary    |         |                |      |          |  |  |
|    | Clock                     | Targ    | jet E   | stimated       | Unc  | ertainty |  |  |
|    |                           |         |         |                |      | 0.10     |  |  |
| -  | ap_clk                    | (clock  |         | 9.216          |      | 0.10     |  |  |
|    | ap_clk<br>Latency<br>Sumn | (clock  |         | 9.216          |      | 0.10     |  |  |
|    | Latency                   | (clock  | cycles) | 9.216<br>erval |      | 0.10     |  |  |
|    | Latency                   | (clock  | cycles) |                | Туре | 0.10     |  |  |

Рисунок 2.2. Performance estimates – summary Utilization Estimates

| ─ Summary       |          |        |       |      |      |
|-----------------|----------|--------|-------|------|------|
| Name            | BRAM_18K | DSP48E | FF    | LUT  | URAM |
| DSP             | -        | -      | -     | -    | -    |
| Expression      | -        | -      | 0     | 113  | -    |
| FIFO            | -        | -      | -     | -    | -    |
| Instance        | -        | -      | -     | -    | -    |
| Memory          | -        | -      | -     | -    | -    |
| Multiplexer     | -        | -      | -     | 45   | -    |
| Register        | -        | -      | 35    | -    | -    |
| Total           | 0        | 0      | 35    | 158  | 0    |
| Available       | 40       | 40     | 16000 | 8000 | 0    |
| Utilization (%) | 0        | 0      | ~0    | 1    | 0    |

Рисунок 2.3. Utilization estimates – summary

Диаграмма операционного расписания с указанием Latency и диаграмма оперционного просмоторщика ресурсов приведены на рисунках 2.4. и 2.5.





Рисунок 2.5. Resourse viewer

# 2.3 C|RTL моделирование

Результаты C|RTL приведены на рисунке 2.6.

| Result  |        |         |     |     |          |     |     |  |
|---------|--------|---------|-----|-----|----------|-----|-----|--|
|         |        | Latency |     |     | Interval |     |     |  |
| RTL     | Status | min     | avg | max | min      | avg | max |  |
| VHDL    | NA     | NA      | NA  | NA  | NA       | NA  | NA  |  |
| Verilog | Pass   | 221     | 221 | 221 | NA       | NA  | NA  |  |

Export the report(.html) using the Export Wizard

Рисунок 2.6. Отчет о моделировании

## Временная диаграмма приведена на рисунке 2.7.



Рисунок 2.7. Временная диаграмма

### 3. Решение №2

## 3.1 Параметры второго решения

Пропишем директиву PIPELINE внутреннего цикла, рисунок 3.1.



Рисунок 3.1. Директива PIPELINE примененная внутри внутреннего цикла

#### 3.2 Синтез

Результаты синтеза с оценкой производительности и используемых ресурсов представлены на рисунках 3.2 и 3.3 соответственно.



Рисунок 3.2. Performance estimates – summary

| Utilization Estima | tes      |        |       |      |      |
|--------------------|----------|--------|-------|------|------|
| — Summary          |          |        |       |      |      |
| Name               | BRAM_18K | DSP48E | FF    | LUT  | URAM |
| DSP                | -        | -      | -     | -    | -    |
| Expression         | -        | -      | 0     | 128  | -    |
| FIFO               | -        | -      | -     | -    | -    |
| Instance           | -        | -      | -     | -    | -    |
| Memory             | -        | -      | -     | -    | -    |
| Multiplexer        | -        | -      | -     | 72   | -    |
| Register           | -        | -      | 33    | -    | -    |
| Total              | 0        | 0      | 33    | 200  | 0    |
| Available          | 40       | 40     | 16000 | 8000 | 0    |
| Utilization (%)    | 0        | 0      | ~0    | 2    | 0    |

Рисунок 3.3. Utilization estimates – summary

Диаграмма операционного расписания с указанием Latency и диаграмма оперционного просмоторщика ресурсов приведены на рисунках 3.4. и 3.5.



Рисунок 3.5. Resource viewer

# 3.3 C|RTL моделирование

Результаты C|RTL приведены на рисунке 3.6.



Рисунок 3.6. Отчет о моделировании

Временная диаграмма приведена на рисунке 3.7.



Рисунок 3.7. Временная диаграмма

# 4. Решение №3

### 4.1 Параметры третьего решения

Пропишем директиву PIPELINE внешнего цикла, рисунок 4.1.



Рисунок 4.1. Директива PIPELINE примененная внутри внешнего цикла

#### 4.2 Синтез

Результаты синтеза с оценкой производительности и используемых ресурсов представлены на рисунках 4.2. и 4.3 соответственно.



Рисунок 4.2. Performance estimates – summary



Рисунок 4.3. Utilization estimates – summary

Диаграмма операционного расписания с указанием Latency и диаграмма оперционного просмоторщика ресурсов приведены на рисунках 4.4. и 4.5.





Рисунок 4.5. Resource viewer

# 4.3 C|RTL моделирование

Результаты C|RTL приведены на рисунке 4.6.



Рисунок 4.6. Отчет о моделировании

Временная диаграмма приведена на рисунке 4.7.



Рисунок 4.7. Временная диаграмма

### 5. Решение №4

#### 5.1 Параметры четвертого решения

Пропишем директиву PIPELINE перед внешним циклом, рисунок 3.1.



Рисунок 5.1. Директива PIPELINE примененная перед внешним циклом

### 5.2 Синтез

Результаты синтеза с оценкой производительности и используемых ресурсов представлены на рисунке 5.2. и 5.3. соответственно.



Рисунок 5.2. Performance estimates – summary



Рисунок 5.3. Utilization estimates – summary

Диаграмма операционного расписания с указанием Latency и диаграмма оперционного просмоторщика ресурсов приведены на рисунках 5.4 и 5.5 соотвтственно.



Рисунок 5.4. Schedule viewer



Рисунок 5.5. Resource viewer

# 5.3 C|RTL моделирование

Результаты C|RTL приведены на рисунке 5.6.



Рисунок 5.6. Отчет о моделировании

Временная диаграмма приведена на рисунке 5.7.



Рисунок 5.7. Временная диаграмма

# 6. ВЫВОД

При различных методах применения директивы PIPELINE изменяется и результат. Чем выше в иерархии находится директива, тем выше уровень параллелизма, выше пропускная способность и выше количество требуемых ресурсов для имплементации проекта.

| erforman   | ice l     | Estim |         | 01010  |        |         |        |       |       |       |         |    |
|------------|-----------|-------|---------|--------|--------|---------|--------|-------|-------|-------|---------|----|
| ☐ Timing   | (ns       | )     |         |        |        |         |        |       |       |       |         |    |
| Clock      |           |       | S       | olutio | n1     | solutio | n2     | sol   | utio  | n3    | solutio | n4 |
| ap_clk     | lk Target |       | 1       | 0.00   |        | 10.00   |        | 10.   | 00    |       | 10.00   |    |
|            | Est       | imat  | ed 9    | .216   |        | 9.702   | 702 9. |       | 9.216 |       | 9.216   |    |
| _ Latenc   | y (cl     | lock  | cycles) |        |        |         |        |       |       |       |         |    |
|            |           |       | soluti  | on1    | solu   | ition2  | sol    | lutio | n3    | solu  | ition4  |    |
| Latency    | n         | nin   | 221     |        | 102    |         | 52     |       |       | 50    |         |    |
|            | n         | nax   | 221     |        | 102    |         | 52     |       |       | 50    |         |    |
| Interval   | n         | nin   | 221     | 1 102  |        |         | 52     |       |       | 50    |         |    |
|            | n         | nax   | 221     |        | 102    |         | 52     |       | 50    |       |         |    |
| tilization | Esti      | mate  | es      |        |        |         |        |       |       |       |         |    |
|            |           | sol   | ution1  | sol    | ution2 | 2 sol   | utio   | 13    | solu  | ution | 4       |    |
| BRAM_1     | BK        | 0     |         | 0      |        | 0       | 0      |       | 0     |       |         |    |
| DSP48E     |           | 0     |         | 0      |        | 0       | 0      |       | 0     |       |         |    |
| FF         |           | 35    |         | 33     |        | 543     | 543    |       | 52    |       |         |    |
| LUT        |           | 158   |         | 200    |        | 511     | 511    |       | 1647  |       |         |    |
| URAM       |           | 0     |         | 0      |        | 0       |        |       | 0     |       |         |    |

Рисунок 6.1. Сравнительный отчет решений

В первом решении не используется директивы, поэтому все операции выполняются последовательно.

Во втором решении конвейеризируется только операция сложения, что сокращает количество требуемых тактов для выполнения до 102. Единовременно получается доступ к 3 переменным и реализуется 1 операция сложения (см. рисунок 6.1).

В третьем решении конвейеризируется внутренний цикл. Единовременно получается доступ к 3\*М переменным и реализуется М операций сложения.

В четвертом решении конвейеризируется внешний цикл. Единовременно получается доступ к 3\*(N\*M) переменным и реализуется N\*M операций сложения.