# CHIPIMPLEMENTATION EINER ZWEIDIMENSIONALEN FOURIERTRANSFORMATION FÜR DIE AUSWERTUNG EINES SENSOR-ARRAYS

## THOMAS LATTMANN

Bachelorarbeit eingereicht im Rahmen der Bachelorprüfung im Studiengang Informations- und Elektrotechnik am Department Informations- und Elektrotechnik der Fakultät Technik und Informatik der Hochschule für Angewandte Wissenschaften Hamburg

Betreuender Prüfer: Prof. Dr.-Ing. Karl-Ragmar Riemschneider

Zweitgutachter: Prof. Dr.-Ing. Jürgen Vollmer

Abgegeben am 23.04.2018

#### **Thomas Lattmann**

#### Thema der Bachelorarbeit

Chipimplementation einer zweidimensionalen Fouriertransformation für die Auswertung eines Sensor-Arrays

#### **Stichworte**

Cadence, ASIC, zweidimensionale diskrete Fouiertransformation (2D-DFT), Sensor-Array

#### Kurzzusammenfassung

In der Bachelorarbeit wird eine 8x8 zweidimensionale Fourier Transformation in VHDL für den Einsatz als Teilmodul auf einem ASIC entwickelt. Dabei kommt das Chipdesign-Tool Cademce zum Einsatz. Die Transformation wird durch eine Matrixmultiplikation realisiert und hinsichtlich Taktzyklen und Flächenbedarf optimiert, sodass ein minimaler Aufwand erforderlich ist. Ferner werden Tests zur Funktionalität und ... durchgeführt.

#### **Thomas Lattmann**

#### Title of the bachelor thesis

Chip implementation of a two dimensional Fourier transform for the analysis of a sensor array

#### **Keywords**

Cadence, ASIC, two dimensional discrete Fourier transform (2D-DFT), sensor array

#### **Abstract**

In this bachelor thesis ...

## Inhaltsverzeichnis

| 1. | Einle | eitung   |                                                                 | 1  |
|----|-------|----------|-----------------------------------------------------------------|----|
|    | 1.1.  | Motiva   | ation                                                           | 1  |
|    | 1.2.  | Stand    | der Technik                                                     | 1  |
|    | 1.3.  | Ziel die | eser Arbeit                                                     | 1  |
| 2. | Grui  | ndlager  | 1                                                               | 2  |
|    | 2.1.  | •        | Zahlendarstellung von Festkommazahlen                           | 2  |
|    |       | 2.1.1.   | _                                                               |    |
|    |       | 2.1.2.   |                                                                 |    |
|    |       | 2.1.3.   |                                                                 |    |
|    |       | 2.1.4.   |                                                                 |    |
|    | 2.2.  | Mathe    | matische Grundlagen                                             |    |
|    |       | 2.2.1.   |                                                                 |    |
|    |       | 2.2.2.   | ·                                                               |    |
|    | 2.3.  | Fourier  | rreihenentwicklung                                              | 5  |
|    | 2.4.  |          | rtransformation                                                 |    |
|    |       | 2.4.1.   | Diskrete Fouriertransformation (DFT)                            | 7  |
|    |       | 2.4.2.   | Summen- und Matrizenschreibweise der DFT                        | 8  |
|    |       | 2.4.3.   | 2D-DFT mit reellen Eingangswerten                               | Ç  |
|    |       | 2.4.4.   |                                                                 |    |
|    |       | 2.4.5.   | Inverse DFT                                                     | 12 |
|    | 2.5.  | Diskret  | te Kosinus Transformation (DCT)                                 | 12 |
|    |       |          | Verwendung der DCT                                              |    |
|    |       |          | Berechnung der DCT                                              |    |
| 3. | Ana   | lvse     |                                                                 | 14 |
| -  |       | -        | tung verschiedener DFT- und DCT-Größen                          |    |
|    |       | 3.1.1.   |                                                                 |    |
|    |       | 3.1.2.   |                                                                 |    |
|    |       | 3.1.3.   |                                                                 |    |
|    | 3.2.  | Genaue   | ere Betrachtung der 8x8-DFT                                     |    |
|    |       |          | nung des Rechenaufwands                                         |    |
|    |       | 3.3.1.   | 8x8-DFT mit komplexen Eingangswerten                            |    |
|    |       | 3.3.2.   | 8x8-DFT mit reellen Eingangswerten                              | 19 |
|    |       | 3.3.3.   | Direkte Multiplikation zweier 8x8 Matrizen mit komplexen Werten | 20 |
|    |       | 3.3.4.   | Betrachung des Butterfly-Algorithmus für 8 Eingangswerte        |    |
|    |       | 3.3.5.   |                                                                 |    |

Inhaltsverzeichnis III

| 4.1. Projekt- und Programmstruktur       2:         4.1.1. Vorüberlegungen aus Hardwaresicht       2:         4.1.2. VHDL-Bibliotheken       2:         4.1.3. Vorüberlegungen zum Programmablauf       2:         4.1.4. Struktureller Aufbau       2:         4.2. Entwicklung der 2D-DFT-Komponente       2:         4.2.1. Optimierte 8x8 DFT als Matrixmultiplikation       2:         4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse       2:         4.2.3. Programmablauf der 1D-DFT       2:         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       2:         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       3:         4.3. Syntheseergebnisse von Teilkomponenten       3:         4.3.1. 13 Bit Konstantenmultiplizierer       3:         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       3:         4.3.3. Vergleich der Syntheseergebnisse       3:         4.3.4. Vergleich der Syntheseergebnisse       3:         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       3:         4.5. UML-Diagramm       3:         5. Evaluation       3:         5.1. Simulation der 2D-DFT       3:         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       3:         5.3. Test der Matrixmultiplikation                                                                         | 4.       | Entv              | vurf    |                                                            | 23         |
|--------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|----------|-------------------|---------|------------------------------------------------------------|------------|
| 4.1.1. Vorüberlegungen aus Hardwaresicht       22         4.1.2. VHDL-Bibliotheken       22         4.1.3. Vorüberlegungen zum Programmablauf       22         4.1.4. Struktureller Aufbau       22         4.2. Entwicklung der 2D-DFT-Komponente       25         4.2.1. Optimierte 8x8 DFT als Matrixmultiplikation       25         4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse       26         4.2.3. Programmablauf der 1D-DFT       28         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       25         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       30         4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       33         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       33         4.3.4. Vergleich der Syntheseergebnisse       33         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       33         5. Evaluation       36         5.1. Simulation der 2D-DFT       35         5.2 Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41 <th></th> <th>4.1.</th> <th>Projekt</th> <th>t- und Programmstruktur</th> <th>23</th> |          | 4.1.              | Projekt | t- und Programmstruktur                                    | 23         |
| 4.1.3. Vorüberlegungen zum Programmablauf       24         4.1.4. Struktureller Aufbau       24         4.2. Entwicklung der 2D-DFT-Komponente       22         4.2.1. Optimierte 8x8 DFT als Matrixmultiplikation       25         4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse       26         4.2.3. Programmablauf der 1D-DFT       28         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       29         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       30         4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       33         4.3.4. Vergleich der Syntheseergebnisse       33         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.5. UML-Diagramm       33         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.5.2. Bilder       42         5.5.3                                                                                                    |          |                   |         |                                                            |            |
| 4.1.4. Struktureller Aufbau       24         4.2. Entwicklung der 2D-DFT-Komponente       25         4.2.1. Optimierte 8x8 DFT als Matrixmultiplikation       25         4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse       26         4.2.3. Programmablauf der 1D-DFT       28         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       29         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       30         4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       33         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des       22er-Komplements         3.5. UML-Diagramm       33         5. UML-Diagramm       33         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5.3. Visualisierung der Netzliste       42         5.                                                                                                    |          |                   | 4.1.2.  | VHDL-Bibliotheken                                          | 24         |
| 4.2.1. Optimierte 8x8 DFT als Matrixmultiplikation       25         4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse       26         4.2.2. Brogrammablauf der 1D-DFT       26         4.2.3. Programmablauf der 1D-DFT zur 2D-DFT       26         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       29         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       30         4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       33         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       45         5.5.1. Anzahl Standardzellen       45         5.5.3. Visualisierung der Netzliste       45                                                                                         |          |                   | 4.1.3.  | Vorüberlegungen zum Programmablauf                         | 24         |
| 4.2.1. Optimierte 8x8 DFT als Matrixmultiplikation       25         4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse       26         4.2.3. Programmablauf der 1D-DFT       28         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       22         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       36         4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des       2er-Komplements         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Pa                                                                                                    |          |                   | 4.1.4.  | Struktureller Aufbau                                       | 24         |
| 4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse       26         4.2.3. Programmablauf der 1D-DFT       25         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       29         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       30         4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des       22er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       46         6. Schlussfolgerung                                                                                                             |          | 4.2.              | Entwic  | klung der 2D-DFT-Komponente                                | 25         |
| 4.2.3. Programmablauf der 1D-DFT       26         4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       25         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       30         4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       36         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.5.2. Reale Eingangswerte       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46                                                                                                                                                |          |                   | 4.2.1.  | Optimierte 8x8 DFT als Matrixmultiplikation                | 25         |
| 4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT       25         4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       30         4.3. Syntheseergebnisse von Teilkomponenten       31         4.3.1. 13 Bit Konstantenmultiplizierer       32         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       33         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       33         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung                                                                                                                                       |          |                   | 4.2.2.  | Berechnungsschema und benötigte Takte der Ergebnisse       | 26         |
| 4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation       36         4.3. Syntheseergebnisse von Teilkomponenten       36         4.3.1. 13 Bit Konstantenmultiplizierer       32         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       33         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       38         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4.1 Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       46         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46          Abkürzungsverzeichnis                                                                                                                                                          |          |                   | 4.2.3.  | Programmablauf der 1D-DFT                                  | 28         |
| 4.3. Syntheseergebnisse von Teilkomponenten       30         4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       43         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       40         6.1. Zusammenfassung       40         6.2. Bewertung und Fazit       40         6.3. Ausblick       40         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                  |          |                   | 4.2.4.  | Entwickelung von der 1D-DFT zur 2D-DFT                     | 29         |
| 4.3.1. 13 Bit Konstantenmultiplizierer       30         4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       33         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       40         6.1. Zusammenfassung       40         6.2. Bewertung und Fazit       40         6.3. Ausblick       40         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                            |          |                   | 4.2.5.  | Zusammenhang von DFT und IDFT bei der Matrixmultiplikation | 30         |
| 4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors       32         4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                     |          | 4.3.              | Synthe  | seergebnisse von Teilkomponenten                           | 30         |
| 4.3.3. 13 Bit Addierer       32         4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       36         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                              |          |                   | 4.3.1.  | 13 Bit Konstantenmultiplizierer                            | 30         |
| 4.3.4. Vergleich der Syntheseergebnisse       32         4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       35         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                      |          |                   | 4.3.2.  | Bildung des 2er-Komplements eines 13 Bit Vektors           | 32         |
| 4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       38         5. Evaluation       38         5.1. Simulation der 2D-DFT       38         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       38         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47          Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                       |          |                   | 4.3.3.  | 13 Bit Addierer                                            | 32         |
| 2er-Komplements       33         4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |          |                   | 4.3.4.  | Vergleich der Syntheseergebnisse                           | 32         |
| 4.4. Schema der Zustandsfolge       33         4.5. UML-Diagramm       35         5. Evaluation       36         5.1. Simulation der 2D-DFT       38         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       38         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47          4bkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |          |                   | 4.3.5.  |                                                            |            |
| 4.5. UML-Diagramm       38         5. Evaluation       38         5.1. Simulation der 2D-DFT       38         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       38         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |          |                   |         | 2er-Komplements                                            | 33         |
| 5. Evaluation       38         5.1. Simulation der 2D-DFT       36         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       36         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |          | 4.4.              | Schema  | a der Zustandsfolge                                        | 33         |
| 5.1. Simulation der 2D-DFT       38         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       38         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |          | 4.5.              | UML-D   | Diagramm                                                   | 35         |
| 5.1. Simulation der 2D-DFT       38         5.2. Zeitabschätzung im Einsatz als ABS-Sensor       38         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           | <b>5</b> | Eval              | uation  |                                                            | 30         |
| 5.2. Zeitabschätzung im Einsatz als ABS-Sensor       38         5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       | J.       |                   |         | tion day 2D DET                                            |            |
| 5.3. Test der Matrixmultiplikation       41         5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                       |          |                   |         |                                                            |            |
| 5.4. Testumgebung       42         5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                           |          |                   |         |                                                            |            |
| 5.4.1. Struktogramm des Testablaufs       42         5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                              |          |                   |         | ·                                                          |            |
| 5.4.2. Reale Eingangswerte       42         5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |          | J. <del>T</del> . |         |                                                            |            |
| 5.5. Chipdesign       42         5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                               |          |                   |         |                                                            |            |
| 5.5.1. Anzahl Standardzellen       42         5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                |          | 55                |         |                                                            |            |
| 5.5.2. Bilder       42         5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                     |          | 5.5.              |         |                                                            |            |
| 5.5.3. Visualisierung der Netzliste       42         5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |          |                   |         |                                                            |            |
| 5.5.4. Floorplan, Padring       42         6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |          |                   |         |                                                            |            |
| 6. Schlussfolgerungen       46         6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |          |                   |         | •                                                          |            |
| 6.1. Zusammenfassung       46         6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |          |                   | J.J.T.  | Troorplan, rading                                          | 72         |
| 6.2. Bewertung und Fazit       46         6.3. Ausblick       46         Abkürzungsverzeichnis       47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          | 6.       |                   | _       |                                                            |            |
| 6.3. Ausblick                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                    |          | 6.1.              | Zusam   | menfassung                                                 | 46         |
| Abkürzungsverzeichnis 47                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         |          | 6.2.              | Bewert  | ung und Fazit                                              | 46         |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  |          | 6.3.              | Ausblic | :k                                                         | 46         |
| Abbildungsverzeichnis 40                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                         | ΑŁ       | kürz              | ungsvei | rzeichnis                                                  | 47         |
|                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                  | Δŀ       | hildu             | ıngsver | zeichnis                                                   | <b>4</b> 0 |

| nhaltsverzeichnis | IV |
|-------------------|----|
|-------------------|----|

| Tabellenverzeichnis                                                                           | 49                         |
|-----------------------------------------------------------------------------------------------|----------------------------|
| Literatur                                                                                     | 50                         |
| Anhang                                                                                        | 50                         |
| A. Matlab-Skripte  A.1. Skript zur Bewertung von Twiddlefaktormatrizen                        |                            |
| B. Gate-Reports der Syntheseergebnisse  B.1. Gate-Report des 13 Bit Konstantenmultiplizierers | 60<br>61<br>61<br>62<br>63 |
| C. VHDL-Code  C.1. Konstantendeklarationen                                                    | 65<br>65<br>66<br>70<br>74 |
| D. Testumgebung  D.1. Bash-Skript zum Ausführen des Tests                                     | 89<br>89<br>89<br>91       |
| E. Cadence Tutorial                                                                           | 94                         |
| CD                                                                                            | 130                        |
| Selbstständigkeitserklärung                                                                   | 131                        |

## 1. Einleitung

#### 1.1. Motivation

Sensorarray beschreiben

#### 1.2. Stand der Technik

Der verwendete Prozess ist mit 350 nm im Vergleich zu modernen Prozessen mit beispielsweise 20 nm Strukturbreite um die Größenordnung 20 größer. Entsprechend handelt es sich um einen relativ alten Prozess.

Kurze Beschreibung zu Standardzellen.

#### 1.3. Ziel dieser Arbeit

Im Rahmen des Integrated Sensor Array (ISAR)-Projekts der HAW Hamburg soll zur Signal-vorverarbeitung einer Matrix von Magnetsensoren eine zweidimensionale diskrete Fouriertransformation (2D-DFT) in VHDL implementiert werden. Mit der 2D-DFT sollen relevante Signalanteile identifiziert werden, um so den Informationsgehalt der Sensorsignale auf relevante Anteile zu reduzieren. Die Sensoren basieren auf dem anisotropen magnetoresistiven Effekt (AMR) bzw. in einem späteren Schritt tunnelmagnetoresistiven Effekt (TMR).

In einem Text zitiert dann so [1, S. 10-20] und blabla.

Winkelberechnung als Ziel beschreiben.

Um einen guten Ausgangspunkt für spätere Erläuterungen zu haben, sollen an dieser Stelle die wesentlichen Grundlagen zusammengefasst werden.

## 2.1. Binäre Zahlendarstellung von Festkommazahlen

Im Rahmen dieses Projekts wird von Ein- sowie Ausgangswerten mit einer Genauigkeit von 12 Bit ausgegangen. Basierend auf älteren Sensoren wird von Werten im Bereich von -2 < z < 2 ausgegangen. Aus diesem Grund müssen sowohl ein Ganzzahlanteil, sowie Nachkommastellen repräsentiert werden können. Wie dies gelingt, wird in den nächsten Abschnitten gezeigt. Hierfür werden Festkommazahlen verwendet, aufgrund der Rechenoperationen haben diese dennoch unterschiedlich viele Vor- sowie Nachkommastellen.

## 2.1.1. Integer-Zahl im 1er-Komplement

Bei der Interpretation des Bitvektors als Integerwert im Einerkomplement werden die Bits anhand ihrer Position im Bitvektor gewichtet, wobei das niederwertigste Bit (LSB, least significant bit) dem Wert für den Faktor  $2^0$  entspricht, das Bit links davon dem für  $2^1$  und so weiter. Die Summe aller Bits, ohne das höchstwertigste, multipliziert mit ihrer Wertigkeit (Potenz) ergibt den Betrag der Dezimalzahl. Das höchstwertigste Bit (MSB, most significant bit) gibt Auskunft darüber, ob es sich um eine negative oder positive Zahl handelt, wobei eine 0 für eine positive Zahl steht. Entsprechend besagt die 1, dass die Zahl negativ ist. Dies hat zur Folge, dass es eine positive und eine negative Null und somit eine Doppeldeutigkeit gibt. Des Weiteren wird ein LSB an Auflösung verschenkt. Der Wertebereich erstreckt sich von  $-2^{\rm MSB-1}+1\,{\rm LSB}$  bis  $2^{\rm MSB-1}-1\,{\rm LSB}$ 

Diese Darstellung hat den Vorteil, dass sich das Ergebnis einer Multiplikation der Zahlen  $a \cdot b$  und  $-a \cdot b$  nur im vordersten Bit unterscheidet. Darüber hinaus lässt sich das Vorzeichen des Ergebnisses durch eine einfache XOR-Verknüpfung der beiden MSB der Multiplikanden ermitteln. Die eigentliche Multiplikation beschränkt sich auf die Bits MSB-1 bis LSB.

Nachteile zeigen sich hingegen bei der Addition sowie Subtraktion negativer Zahlen. Auch hierfür gibt es schematische Rechenregeln, diese erfordern jedoch mehr Zwischenschritte als im Zweierkomplement.

## 2.1.2. Integer-Zahl im 2er-Komplement

Bei der Interpretation als Zweierkomplement kann anhand es MSB ebenfalls erkannt werden, ob es sich um eine positive oder negative Zahl handelt. Hie bedeutet ein gesetztes MSB

 $-2^{MSB-1}$ , was der negativsten darstellbaren Zahl entspricht. Hierbei sind alle anderen Bits auf 0. Für gesetzte Bits wird der Dezimalwert, wie beim Einerkomplement beschrieben, berechnet und auf den negativen Wert aufaddiert. Wenn das MSB nicht gesetzt ist, wird der errechnete Dezimalwert auf 0 addiert. Auf diese Weise lassen sich Zahlen im Wertebereich von  $-2^{MSB-1}$  bis  $2^{MSB-1}-1\,LSB$  darstellen. Der positive Wertebereich ist also um ein LSB kleiner als der negative und es gibt keine doppelte Null.

Um das Vorzeichen umzukehren müssen alle Bits invertiert werden. Auf das Resultat muss abschließend 1 LSB addiert werden.

Vorteil bei dieser Darstellung ist, dass die mathematischen Operationen Addition, Subtraktion und Multiplikation direkt angewandt werden können. Unterstützt werden sie z.B. von den Datentypen unsigned sowie signed, welche in der Bibliothek u.a. ieee.numeric\_std.all definiert sind.

#### 2.1.3. Darstellung dualer Zahlen im SQ-Format

Im SQ-Format werden Zahlen als vorzeichenbehafteter Quotient (signed quotient) dargestellt. Wie beim 2er-Komplement entscheidet das höchstwertigste Bit, ob es sich um eine positive oder negative Zahl handelt. In Abbildung 2.1 ist exemplarisch die Interpretation von Dualzahlen im SQ3-Format, also für vier Bit, zu sehen.



Abbildung 2.1.: Interpretation von Dualzahlen im SQ3-Format

Der darstellbare Zahlenbereich liegt hier bei  $-1 \le z < 1$ . Benötigt werden Zahlen im Bereich von etwa  $\pm 2$ , weshalb ein Vorkommabit benötigt wird. Da 12 Bit zur Verfügung stehen, von denen eins für das Vorzeichen und ein weiteres für eine Vorkommastelle verwendet werden, bleiben 10 Bits für die Nachkommazahlen übrig. Die Aufteilung der Bits wird über die Bezeichnung S1Q10 definiert. Da für den Quotient 10 Bit zur Verfügung stehen, beträgt die maximale Auflösung  $1LSB=2^{-10}=1024^{-1}=9,765625\cdot 10^{-4}$ . Der Wertebereich liegt in diesem Fall liegt bei -2 bis 1,999 023 438.

Für die Addition oder Multiplikation zweier Zahlen müssen beide einerseits dieselbe Bitbreite und andererseits das gleiche Darstellungsformat besitzen.

## 2.1.4. Numerisch bedingte Ungenauigkeiten

Numerische Ungenauigkeiten entstehen immer dann, wenn die zur Verfügung stehenden Bits es nicht ermöglichen eine Zahl exakt abzubilden. Bei einem Bitshift, welcher häufig für die Division durch Zwei oder Vielfachen von Zwei verwendet wird, kann immer Information verloren gehen. Dies ist immer dann der Fall, wenn die Bits die abgeschnitten werden eine 1 sind. Das hat zur Folge, dass beispielsweise bei einer Division durch Zwei der resultierende Wert um 1 LSB kleiner ist, als er eigentlich sein sollte. Dieses Problem kann bei jedem Bitshift auftreten. Die Wahrscheinlichkeit für eine 1 liegt im Mittel bei 50 %, weshalb davon ausgegangen werden muss, dass ein positives Ergebnis etwas kleiner und ein negatives vom Betrag her etwas größer ist, als bei verlustfreier Berechnung.

Da diese Arbeit den Schwerpunkt in der Aufwandsabschätzung einer Chipimplementation einer 2D-DFT auf einem Application Specific Integrated Circuit, dt.: Anwendungsspezifischer Integrierter Schaltkreis (ASIC) hat, ist diese Problematik kein Gegenstand dieser Arbeit und wird an dieser Stelle nur in Grundzügen erwähnt.

## 2.2. Mathematische Grundlagen

Zu den mathematischen Grundlagen werden die komplexe Multiplikation sowie die Matrixmultiplikation gezählt, welche nachfolgen kurz behandelt werden. Auf die Fouriereihenentwicklung sowie insbesondere die Fouriertransformation und ihre diskrete Variante wird im Anschluss detaillierter eingegangen, da sie elementarer Bestandteil dieser Arbeit sind. Da auch die diskrete Kosinustransformation als mögliche Transformationsart im Raum stand, um in den Bildbereich zu gelangen, wird diese ebenfalls kurz aufgegriffen.

## 2.2.1. Komplexe Multiplikation

Im allgemeinen Fall müssen gemäß Gl. (2.1) bei der komplexen Multiplikation vier einfache Multiplikation sowie zwei Additionen durchgeführt werden.

$$e + jf = (a + jb) \cdot (c + jd)$$

$$= a \cdot c + j(a \cdot d) + j(b \cdot c) + j^{2}(b \cdot d)$$

$$= a \cdot c - b \cdot d + j(a \cdot d + b \cdot c)$$
(2.1)

## 2.2.2. Matrixmultiplikation

Um nachfolgende Abschnitte besser erörten zu können, soll zunächst die Matrixmultiplikation besprochen werden. Wie in Abbildung 2.2 verdeutlicht, wird Element(i,j) der Ergebnismatrix dadurch berechnet, dass die Elemente(i,k) einer Zeile der 1. Matrix mit den Elementn(k,j)

aus der zweiten Matrix multipliziert und die Werte aufsummiert werden. i und j sind für die Berechnung eines Elements konstant, während k über alle Elemente einer Zeile bzw. Spalte läuft.



Abbildung 2.2.: Veranschaulichung der Matrixmultiplikation

## 2.3. Fourierreihenentwicklung

Mit einer Fourierreihe kann ein periodisches Signal aus einer Summe von Sinus- und Konsinusfunktionen zusammengesetzt werden. Die Schreibweise als Summe von Sinus- und Kosinusfunktionen (Gl. 2.2) ist eine der häufigsten Darstellungsformen.

$$x(t) = \frac{a_0}{2} + \sum_{k=1}^{\infty} \left( a_k \cos(kt) + b_k \sin(kt) \right)$$
 (2.2)

Die Fourierkoeffizienten lassen sich über die Gleichungen (2.3) und (2.4) berechnen:

$$a_k = \frac{1}{\pi} \int_{-\pi}^{\pi} x(t) \cdot \cos(kt) dt \quad \text{für} \quad k \ge 0$$
 (2.3)

$$b_k = \frac{1}{\pi} \int_{-\pi}^{\pi} x(t) \cdot \sin(kt) dt \quad \text{für} \quad k \ge 1$$
 (2.4)

Mit der Exponentialschreibweise lassen sich Sinus und Kosinus auch wie in (2.5) und (2.6) ausdrücken:

$$\cos(kt) = \frac{1}{2} \left( e^{jkt} + e^{-jkt} \right) \tag{2.5}$$

$$\sin(kt) = \frac{1}{2j} \left( e^{jkt} - e^{-jkt} \right) \tag{2.6}$$

und zusammengefasst ergibt sich in (Gl. 2.7) der komplexe Zeiger, der eine Rotation im Gegenuhrzeigersinn auf dem Einheitskreis beschreibt. In Abbildung 2.3 wird dies grafisch dargestellt.

$$\cos(kt) + j \cdot \sin(kt) = \frac{1}{2} \left( e^{jkt} + e^{-jkt} \right) + j \cdot \frac{1}{2j} \left( e^{jkt} - e^{-jkt} \right)$$

$$= \frac{1}{2} \left( e^{jkt} + e^{jkt} \right)$$

$$= e^{jkt}$$
(2.7)



Abbildung 2.3.: Einheitskreis, Zusammensetzung des komplexen Zeigers aus Sinus und Kosinus

Die Fourierkoeffizienten  $a_k$  und  $b_k$  lassen sich auch als komplexe Zahl  $c_k$  zusammengefasst berechnen:

$$c_k = \frac{1}{2\pi} \int_{-\pi}^{\pi} x(t)e^{-j2\pi kt}dt \quad \forall k \in \mathbb{Z}$$
 (2.8)

$$x(t) = \sum_{-\infty}^{\infty} c_k e^{jkt} \tag{2.9}$$

## 2.4. Fouriertransformation

Mit der Fouriertransformation kann umgekert ein periodisches Signal x(t) in eine Summe aus Sinus- und Kosinusfunktionen unterschiedlicher Frequenzen zerlegt werden. Da diese Funktionen jeweils mit nur einer Frequenz periodisch sind, entsprechen diese Frequenzen den Frequenzbestandteilen von x(t).

Grundlage für die Fouriertransformation ist das Fourierintegral (Gl. 2.10)

$$X(f) = \int_{-\infty}^{\infty} x(t) \cdot e^{-j2\pi ft}$$
 (2.10)

Wenn Sinus- und Kosinusfunktionen wie in Gl. (2.5) und (2.6) als Exponentialfunktion

geschrieben werden, können sie zu einer komplexen Exponentialfunktion zusammengefasst werden. Hieraus lässt sich ableiten, dass das Spektrum, also X(f) komplexwertig sein muss.

Signalformen wie etwa ein Rechteck haben entsprechend sehr viele dieser Frequenzbeiträge. Deren Höhe ist Information darüber, wie groß ihr Anteil, also die Amplitude des Zeitsignals, ist. Die Fouriertransformation kann als das Gegenteil der Fourierreihenentwicklung gesehen werden, mit ihr erhält man das Spektrum eines Zeitsignals. Eine Vertiefung dieses umfangreichen Gebiets der Fourier-Analyse findet sich u.a. in ...

In der vorliegenden Arbeit wird künftig  $X^*$  für die eindimensionale diskrete Fouriertransformation (1D-DFT) und X für die zweidimensionale diskrete Fouriertransformation (2D-DFT) stehen.

## 2.4.1. Diskrete Fouriertransformation (DFT)

Die diskrete Fouriertransformation (DFT) ist die zeit- und wertdiskrete Variante der Fouriertransformation, die statt von  $-\infty$  bis  $\infty$  über einen Vektor von N Werten, also von 0 bis N-1 läuft. Dies hat zur Folge, dass sich ihr Frequenzspektrum periodisch nach N Werten wiederholt.

Da es sich um eine endliche Anzahl diskreter Werte handelt, geht das Integral aus Gleichung (2.10) in die Summe aus Gleichung (2.11) über.

Üblicherweise wird die (diskrete) Fouriertransformation genutzt, um vom Zeitbereich in den Frequenzbereich zu gelangen. In diesem Fall enthielte der Eingangsvektor Werte im Zeitbereich, der Ausgangsvektor Werte im Frequenzbereich. Um von Daten im Zeitbereich sprechen zu können, müssen diese zeitlich versetzt auf den gleichen Bezugspunkt erfasst worden sein. Bezogen auf das Sensorarray würde eine bestimmte Anzahl an zeitlich versetzten zeit- und wertediskretisierten Daten eines einzelnen Sensors in einem Vektor zusammengefasst und darauf die DFT angewandt werden, um beim Ausgangsvektor von Daten im Frequenzbereich sprechen zu können.

Statt zeitlich versetzter Daten werden beim Sensorarray die Daten von mehreren Sensoren gleichzeitig erfasst. Da das Sensorarray zweidimensional ist, ergibt sich an Stelle eines Vektors eine Matrix. Weil die Werte gleichzeitig erfasst werden und diese verschiedene Koordinaten repräsentieren, muss hier von Orts- anstatt von Zeitwerten gesprochen werden. Von der Transformation ins Frequenzspektrum spricht man wiederum bei Zeitwerten, da das Spektrum die Frequenzen darstellt, aus denen das Zeitsignal zusammengesetzt ist. Da bei der eben beschriebenen Datenerfassung Ortsdaten transformiert werden, spricht man hier allgemeiner von einer Transformation in den Bilbereich.

In dieser Arbeit werden statt Zeit- bzw. Ortsbereich respektive Frequenzbereich und Bildverarbeitung häufig auch die Begriffe Ein- und Ausgangsvektor bzw. -matrix verwendet.

Mit der eindimensionalen diskreten Fouriertransformation (1D-DFT) wird die spaltenweise DFT einer Matrix bezeichnet, in der Regel ist sie der erste Schritt der Berechnung der 2D-DFT. Die Größe der Eingangsmatrix gibt die Größe der Twiddlefaktormatrix vor, beide müssen identisch und quadratisch sein. In dieser Arbeit wird die DFT einer Matrix der Größe  $N\times N$  auch  $N\times N$ -DFT genannt.

#### 2.4.2. Summen- und Matrizenschreibweise der DFT

#### 1D-DFT

Die DFT findet wie bereits erwähnt üblicherweise Anwendung, um vom Zeit- in den Frequenzbereich zu gelangen.

$$X^*[m] = \frac{1}{N} \cdot \sum_{n=0}^{N-1} x[n] \cdot e^{-\frac{j2\pi mn}{N}}$$
 (2.11)

In Gleichung (2.11) ist die übliche Verwendung von Eingangsvektor x[n] und Ausgangsvektor X[n] zu sehen. Eine spaltenweise Multiplikationen einer Matrix ist auch denkbar und ist darüber hinaus Grundlage für die 2D-DFT. Gleichung (2.13) zeigt die Summenformel aus (2.11), umgeschrieben zu einer Matrixmultiplikation.

Mit Gleichung (2.12) werden zunächst alle Twiddlefaktoren in Matrixform berechnet, wobei n der Index des zu berechnenden Elements des Vektors im Zeitbereich und m das Äquivalent im Frequenzbereich ist.

$$W = \sum_{m=0}^{N-1} \sum_{n=0}^{N-1} e^{-\frac{j2\pi mn}{N}}$$
 (2.12)

Somit gilt:

$$X^* = W \cdot x \tag{2.13}$$

In Matlab kann die Twiddlefaktormatrix mit

$$W = e^{-\frac{i2\pi}{N} \cdot [0:N-1]' \cdot [0:N-1]}$$
 (2.14)

berechnet werden, wobei N die Anzahl der Elemente je Zeile bzw. Spalte ist.

Anhand der beiden Summen die jeweils von 0 bis N-1 laufen, lassen sich die Anzahl der benötigten komplexen Multiplikationen  $m_{DFT}$  einer DFT errechnen. Siehe auch Gleichung (2.15).

$$m_{DFT} = N^2 (2.15)$$

#### 2D-DFT

Die 2D-DFT wird hingegen häufig in der Bildverarbeitung verwendet, um vom Orts- in den Fourierraum zu gelagen. Da es sich somit nicht mehr um eine Abhängigkeit der Zeit handelt, werden andere Indizes verwendet.

$$X[u,v] = \frac{1}{N} \sum_{n=0}^{N-1} X^* [m] \cdot e^{-\frac{j2\pi mn}{N}}$$

$$= \frac{1}{MN} \sum_{m=0}^{M-1} \left( \sum_{n=0}^{N-1} f(m,n) \cdot e^{-\frac{j2\pi mn}{N}} \right) \cdot e^{-\frac{j2\pi mn}{M}}$$
(2.16)

Auch hier lässt sich die Berechnung in Matrizenschreibweise darstellen:

$$X = W \cdot x \cdot W$$

$$= X^* \cdot W \tag{2.17}$$

Die Gleichungen (2.13) und (2.17) werden wesentlicher Bestandteil der Umsetzung der 2D-DFT sein.

Wie in Gleichung (2.17) beschrieben, kann die 2D-DFT als "doppelte" Matrizenmultiplikation geschrieben werden. Es wird also erst die 1D-DFT berechnet und die sich daraus ergebende Matrix  $X^*$  (Abb. 2.4) wird anschließend mit der Twiddlefaktor-Matrix W multipliziert. Man könnte es auch als zweite 1D-DFT betrachten, bei der Twiddlefaktor-Matrix und Eingangsmatrix vertauscht sind.

Veranschaulicht wird dies in den Abbildungen 2.4 und 2.5.



Abbildung 2.4.: 1D-DFT als Matrixmultiplikation



Abbildung 2.5.: 2D-DFT als Matrixmultiplikation

## 2.4.3. 2D-DFT mit reellen Eingangswerten

Bei der oben beschriebenen Berechnung können die Eingangssignale auch komplex sein. Da das Ausgangssignal der 1D-DFT unabhängig von den Eingangssignalen in jedem Fall komplex ist, kann es dort direkt als Eingangssignal für die komplexe 2D-DFT genutzt werden.

Es wäre jedoch auch möglich, das komplexe Ausgangssignal der 1D-DFT als zwei von einander unabhängige rein reelle Eingangssignale der 2D-DFTs zu betrachten und später wieder

zusammenzusetzen. Gleiches gilt dann natürlich auch für ein komplexes Eingangssignal, welches ebenfalls in zwei von einander unabhängigen DFTs transformiert werden kann. Da bei dieser Umsetzung kein Imaginärteil in die Berechnung der Ergebnisse einfließt, hat sie den Vorteil, dass aus Symmetriegründen die Hälfte der Multiplikationen eingespart werden können. Hierbei ist es erforderlich, dass der Imaginärteil der gespiegelten Ergebnisse negiert wird. Abbildung 2.7 zeigt die redundanten Werte der DFT. Es müssen bei der 8x8-DFT also statt 16 nur 8 Multiplikationen mit reellem Multiplikand und komplexen Multiplikator erfolgen.

Wie bereits beschrieben, lässt sich dieses Verfahren auch für komplexe Eingangssignale, deren Real- und Imaginärteil separat voneinander mit der DFT transformiert werden, anwenden. Anschließend müssen die Ergebnisse zusammengesetzt werden. Wie dies geschieht ist der Abbildung 2.6 zu entnehmen. Die Abbildung stellt die schematische Berechnung der 2D-DFT eines reellen Eingangssignals dar. Um die 2D-DFT eines komplexen Eingangssignals zu berechnen, muss entweder eine identische Einheit für den Imaginärteil vorhanden sein oder Real- und Imaginärteil müssten zeitlich versetzt berechnet werden. Die Ergebnisse beider 2D-DFTs müssen identisch zusammengefasst werden, wie es zum Abschluss der einzelnen 2D-DFTs geschehen muss.

Da die gegebenen Eingangssignale aus einer Sinus- und einer Kosinuskomponente bestehen und es sich auf diese Weise als ein komplexes Signal auffassen lässt, kann die komplexe Berechnung sowohl bei der 1D-DFT als auch bei der 2D-DFT genutzt werden. Da hierdurch in beiden Fällen eine vollständige Auslastung einer komplexen Berechnung gegeben ist und wie bereits erwähnt, bei der reellen Berechnung zusätzlicher Speicher erforderlich wäre, wird dieses Verfahren angewandt.

## 2.4.4. Berechnung der Diskreten Fouriertransformation mittels FFT

Die Mathematiker Cooley und Tukey haben einen Algorithmus entwickelt und im Jahr 1965 veröffentlicht, mit dem sich die DFT mit vergleichsweise wenig Multiplikationen und somit deutlich schneller als bei der allgemeinen DFT berechnen lässt. Das Verfahren wird als Fast Fouriertransformation (FFT) bezeichnet. Grundlage ist, dass sich eine DFT in kleinere Teil-DFTs aufspalten lässt, welche durch Ausnutzen von Symmetrieeigenschaften in der Summe weniger Koeffizienten haben. Üblich ist die Radix-2 FFT, Ausgangspunkt ist also eine DFT mit 2 Eingangswerten. Da mit jeder weiteren Teil-DFT sich die Anzahl der Eingangswerte verdoppelt, eignet sich diese Methode nur für Eingangsvektoren der Größe  $2^n$ . Dieser vermeintliche Nachteil lässt sich durch Auffüllen des Eingangsvektors mit Nullen (Zeropadding) eliminieren. Dies hat zur Folge, dass die Größe des Ausgangsvektors immer eine Potenz von Zwei ist. Die Anzahl der benötigten komplexen Multiplikationen  $m_{FFT}$  kann mit der Gleichung (2.18) abgeschätzt werden.

$$m_{FFT} = \frac{N}{2}\log_2(N) \tag{2.18}$$



Abbildung 2.6.: Veranschaulichung der Berechnung der DFT mit reellen Eingangswerten



Abbildung 2.7.: Redundante Werte der spaltenweisen DFT einer 8x8-Matrix. Der Imaginärteil der redundanten Werte hat denselben Betrag mit negiertem Vorzeichen.

#### 2.4.5. Inverse DFT

Die inverse diskrete Fouriertransformation (IDFT) ist die Umkehrfunktion der DFT. Wenn das Eingangssignal x[n] zeitabhängig und somit als  $\vec{x}(t)$  geschrieben werden kann, dann handelt es sich bei  $X^*[m]$  um dessen Darstellung im Frequenzbereich und kann als  $\vec{X}^*(f)$  geschrieben werden. Mit der IDFT ist es möglich, aus der Frequenzdarstellung das Zeitsignal zu errechnen.

$$x[n] = \frac{1}{N} \sum_{n=0}^{N-1} X^*[m] \cdot e^{\frac{j2\pi mn}{N}}$$
 (2.19)

Gleichung (2.19) ist bis auf die Drehrichtung des komplexen Zeigers und die Vertauschten Ein- und Ausgangsvektoren identisch zu Gleichung (2.11).

## 2.5. Diskrete Kosinus Transformation (DCT)

## 2.5.1. Verwendung der DCT

Die DCT findet häufig in der Bildverarbeitung Anwendung,

## 2.5.2. Berechnung der DCT

Für die Berechnung der DCT gibt es verschiedene Varianten, welche sich in der Symmetrie der Ergebnismatrix unterscheiden. (Stimmt das wirklich? was sonst?)

Darüber hinaus wird in der Bildverarbeitung häufig die erste Zeile der Twiddlefaktormatrix mit dem Faktor  $\frac{1}{\sqrt{2}}$ , sowie die gesamte Matrix mit  $\sqrt{\frac{2}{N}}$ , N= Anzahl Elemente in einer Zeile bzw. Spalte multipliziert.

Da es hier um eine Aufwandsabschätzung geht, wird sich auf die in der Bildverarbeitung gängigste Variante jedoch ohne die skalierenden Faktoren beschränkt. Diese berechnet sich zu

$$X^*[k] = \sum_{n=0}^{N-1} x[n] \cos \left[ \frac{\pi k}{N} \left( n + \frac{1}{2} \right) \right] \quad \text{für} \quad k = 0, \dots, N-1$$
 (2.20)

Die Twiddlefaktormatrix kann in Matlab mit

$$W = \cos\left(\frac{\pi}{N} \cdot \left([0:N-1]') * ([0:N-1] + \frac{1}{2})\right)$$
 (2.21)

berechnet werden. Da die diskrete Kosinus Transformation (DCT) anders als die DFT nur auf Kosinusfunktionen und nicht aus einer Kombination aus Sinus und Kosinus, liefert sie rein reelle Werte.

Im diesem Kapitel werden zunächst die DFT und die DCT in verschiedenen Größen einander gegenübergestellt und eine Entscheidung darüber getroffen, welche sich besser dafür eignet, auf einem ASIC implementiert zu werden. Hierbei spielen in erster Linie die Anzahl unterschiedlicher Faktoren eine Rolle, da für identische Faktoren nur eine Multiplikationseinheit nötig ist. Gleiche Faktoren gehen also mit einer kleineren Chipfläche einher, was zusammen mit der schnellen Berechnung, also geringe Zahl benötigter Takte, die beiden Hauptziele bei der Chipimplementierung darstellen. Als interessante Kandidaten wurden primär die Matrizen mit den Größen 8x8, 9x9 und 15x15 ausgewählt. Die 8x8-Matrix hat dieselbe Anzahl der Sensoren wie das derzeitige Demo-Array, sodass die Eingangswerte direkt transformiert werden können. Die beiden anderen haben aufgrund ihrer ungeraden Zahl ihren Mittelpunkt zwischen den mittleren Sensorelementen, was für die weitere Verarbeitung des transformierten Signals von Bedeutung ist. Die Matrix der Dimension 15x15 lässt sich durch Interpolation der Daten errechnen, während es für die 9x9-Matrix bisher keine Überlegungen gibt, wie sie errechnet werden könnte. Die 12x12 sowie die 16x16 werden zum besseren Einordnen der Bewertungen ebenfalls betrachtet. Darüber hinaus ist aus Abschnitt 2.4.4 bekannt, dass die FFT auf  $2^n$ Elementen basiert und es sich hierbei um ein sehr schnelles und effizientes Verfahren handelt. Im zweiten Schritt wird untersucht, wie die 8x8-DFT, welche als Favorit aus der ersten Betrachtung herausgegangen ist, optimiert werden kann.

3.1. Bewertung verschiedener DFT- und DCT-Größen

In diesem Abschnitt sollen Erkenntnisse gewonnen werden, auf denen basierend später die Wahl der Transformation und die Größe ihrer Matrix getroffen werden kann. Die Bewertung berücksichtigt wie bereits angedeutet die beiden Eigenschaften Anzahl verschiedener Faktoren und die gesamte Anzahl an Faktoren, wobei die erst genannte größeren Einfluss auf eine negative Bewertung hat, da sich gleiche Faktoren mit Hilfe des Distributivgesetzes ausklammern lassen. Bei den Faktoren wird zwischen solchen unterschieden, die als trivial erachtet werden, da sie nur einer Addition bedürfen ( $\pm 1$ ), zusätzlich zur Addition nur eine Division durch 2 erfolgt ( $\pm 0, 5$ ) oder gar keine Berechnung nötig ist (0) und solchen, die als nicht trivial betrachtet werden müssen, da eine Multiplikation unumgänglich ist (beispielsweise  $\frac{\sqrt{2}}{2}$ ). Begründet werden kann dies mit dem dualen Zahlensystem, da eine Multiplikation mit als trivial eingestuften Werten kein komplexes Schaltnetz erfordert.

Interessant ist die DFT trotz ihrer komplexen Ausgangsmatrix, da sich aus Real- und Imaginärteil direkt der Winkel berechnen lässt. Wie in der Einleitung beschrieben, handelt es sich hierbei um eine der Größen, die im Rahmen dieses Projekts anhand des Sensorarrays ermittelt werden soll.

#### 3.1.1. Bewertung verschiedener DCT-Größen

In Tabelle 3.1 ist die Gegenüberstellung der genannten Größen zu sehen. Für die Bewertung wurde das Matlab-Skript aus Anhang A.1 geschrieben. Ersichtlich ist, dass die Anzahl verschiedener nicht trivialer Werte etwa der Wurzel aus der Anzahl aller Werte ist. Dies bedeutet im Umkehrschluss, dass im Schnitt jede Zeile einen neuen Faktor einführt. Die Summe nicht trivialer Werte weist bei allen Matrizen mehr als 50% auf.

| N                                                  | 8  | 9      | 12     | 15    | 16    |
|----------------------------------------------------|----|--------|--------|-------|-------|
| $N \times N$                                       | 64 | 81     | 144    | 225   | 256   |
| $\sum$ trivialer Werte                             | 8  | 33     | 28     | 63    | 16    |
| $\sum$ nicht trivialer Werte                       | 56 | 48     | 116    | 162   | 240   |
| Anzahl verschiedener nicht trivialer Werte         | 7  | 7      | 10     | 13    | 15    |
| Verhältnis $\sum$ trivial $/$ $\sum$ nicht trivial |    | 0.6875 | 0.2414 | 0.389 | 0.067 |

Tabelle 3.1.: Bewertung der DCT-Twiddlefaktor-Matrizen

#### 3.1.2. Bewertung verschiedener DFT-Größen

In der Tabelle 3.2 werden die DFT-Matrizen einander gegenüber gestellt. Anders als die DCT haben die Twiddlefaktormatrix und deshalb auch das Ergebnis der DFT einen Real- und einen Imaginärteil. Die Beurteilung basiert auf dem Matlab-Skript aus Anhang A.2. Wie zu sehen ist, schneiden vor allem die 8x8- und die 12x12-DFT gut ab. Da letztere nur zum Vergleich mit aufgenommen wurde, ist die 8x8-DFT der klare Favorit, welcher im folgenden Abschnitt genauer betrachtet werden soll.

| N                                                  | 8  | 9      | 12  | 15     | 16  |
|----------------------------------------------------|----|--------|-----|--------|-----|
| $N \times N$                                       | 64 | 81     | 144 | 225    | 256 |
| trivial $\Re$                                      | 48 | 45     | 128 | 81     | 128 |
| nicht triv. $\Re$                                  | 16 | 36     | 16  | 144    | 128 |
| triv. 3                                            | 48 | 21     | 96  | 45     | 128 |
| nicht triv. $\Im$                                  | 16 | 60     | 48  | 180    | 128 |
| $\sum$ triv.                                       | 96 | 66     | 224 | 126    | 256 |
| $\sum$ nicht triv.                                 | 32 | 96     | 64  | 324    | 256 |
| Anzahl verschiedener nicht trivialer Werte         | 1  | 7      | 1   | 13     | 3   |
| Verhältnis $\sum$ trivial $/$ $\sum$ nicht trivial | 3  | 0,6875 | 3,5 | 0,3889 | 1   |

Tabelle 3.2.: Bewertung der DFT-Twiddlefaktor-Matrizen

#### 3.1.3. Bewertungsfazit

Sowohl die DCT als auch die DFT finden häufig in der Bildverarbeitung Anwendung, so dass bereits diverse Algorithmen für die weiteren Berechnungen vorhanden sind. Beide haben symmetrische Twiddlefaktormatrizen. Der Vorteil der DCT gegenüber der DFT ist, dass sie rein reelle Ergebniswerte liefert. Dem steht als großer Nachteil gegenüber, dass beinahe alle ihrer Twiddlefaktoren zu den nicht trivialen gezählt werden müssen. Des Weiteren verteilen sich ihre Werte auf mehr verschiedene Zahlen, sodass eine effiziente Implementierung gegenüber der DFT, trotz der rein reellen Werte, weniger praktikabel erscheint.

Als Ausschlag gebendes Kriterium wird letztlich der Vorteil eines komplexen Ergebnisses herangezogen, aus dem sich ohne Umwege der Winkel berechnen lässt.

## 3.2. Genauere Betrachtung der 8x8-DFT

Da die 8x8-DFT als Favorit aus der Betrachtung der Transformationsmatrizen herausgegangen ist, wird diese im nächsten Abschnitt auf ihre Eigenschaften hin untersucht. Dies wird die Grundlage für eine effiziente Implementierung sein. Die Twiddlefaktormatrix der 8x8-DFT besteht, wie bereits aus Gleichung (2.12) bekannt, aus komplexen Zeigern. Die möglichen Werte sind in Abbildung 3.1 zu sehen, in Abbildung 3.2 sind zur besseren Veranschaulichung die Zeiger auf 8 Einheitskreise aufgeteilt, wobei jeder einen Laufindex (m) des Zeitbereichs abdeckt. In den einzelnen Kreisen sind wiederum alle Laufindizes (n) des Frequenzbereichs zu sehen.



Abbildung 3.1.: Einheitskreis mit relevanten Werten der 8x8-DFT

Wie anhand der Grafiken 3.1 zu sehen ist, setzen sich die Faktoren ausschließlich aus den Zahlen  $\pm 1$ ,  $\pm \sqrt{2}/2$  und 0 zusammen. Gemäß der Definition für nicht triviale Werte aus Abschnitt 3.1 zählt ausschließlich der letztgenannte zu diesen. Ebenfalls ist ersichtlich, dass der Betrag aller Zahlen immer 1 ist. In Abbildung 3.3 ist die Twiddlefaktormatrix auf zwei Matrizen aufgeteilt, wobei die Zahlen durch Farben repräsentiert werden. Die linke enthält alle realen Anteile, die rechte alle imaginären. Anhand der Grafik lässt sich gut die Symmetrie erkennen, mit der die Werte auftreten. Diese Grafik soll als Ausgangspunkt für die folgende Betrachtung



Abbildung 3.2.: Twiddlefaktoren der  $8\times 8$ -Matrix, aufgeteilt auf die Laufindizes m und n. m bezieht sich auf das Element im Ausgangsvektor  $\vec{X}$ , n auf den Eingangsvektor  $\vec{x}$ . Siehe auch Gl. (2.11).

dienen. Es lässt sich auch gut erkennen, das die Kreise aus Abbildung 3.2 die Werte der korrespondierenden Zeilen wiederspiegeln.



Abbildung 3.3.: Matrix-Darstellung der 8x8-DFT-Twiddlefaktoren aufgeteilt nach Real- und Imaginärteil.

Auf den ersten Blick sticht die erste Zeile hervor, da sie im Realteil nur aus positiven Einsen und im Imaginärteil nur aus Nullen besteht. Mit der fünften Zeile verhält es sich ähnlich. Anders ist hier, dass sich positive und negative Einsen abwechseln. In die gleiche Gruppe können noch die dritte und die siebte Zeile zusammengefasst werden. Im Unterschied zu den vorigen können

hier aber auch die Imaginärteile eine positive bzw. negative Eins haben. Entsprechend ist dann der Realteil Null. Hier müssen zur Berechnung des Ergebnisses also auch Imaginärteile der Eingangsmatrix mit einbezogen werden. Für die vier bisher betrachteten Zeilen gilt, dass zur Berechnung eines Elements der Ergebnismatrix ausschließlich Additionen oder Subtraktionen erforderlich sind.

Alle Werte, die bis jetzt vorkamen, haben entweder nur einem Real- oder einem Imaginärteil. Dies hat den Vorteil, dass weniger Berechnungen erfolgen müssen, da von einer vollständig komplexen Multiplikation nur eine Multiplikation einer komplexen Zahl mit einer rein reellen (bzw. imaginären) übrig bleiben. Auf diese Weise reduziert sich der in Gleichung (2.1) gezeigte Aufwand zu dem in Gleichung (3.1). Darüber hinaus sind bei den bisherigen Zahlen keine Multiplikationen nötig, weshalb sich der Rechenaufwandt auf den Additionsteil der Gleichung beschränkt.

$$e + jf = a \cdot (c + jd)$$

$$= a \cdot c + j(a \cdot d)$$
(3.1)

Für die übrigen vier Zeilen gelten die bisherigen Beobachtungen nicht oder nur teilweise, weshalb sie nicht zur ersten Gruppe gezählt werden können. Dafür haben sie aber alle gemein, dass die Hälfte der Faktoren sowohl einen Real- als auch einen Imaginärteil besitzen, welche symmetrisch angeordnet sind. Für diese vier Faktoren sind deshalb jeweils die gesamten vier Multiplikationen aus Gleichung 2.1 nötig.

Eine besondere Eigenschaft ist, dass der Faktor für nicht triviale Multiplikationen im Realund Imaginärteil zumindest vom Betrag her identisch sind. Dies liegt daran, dass der Einheitskreis in acht Teile geteilt wird und für beispielsweise  $\frac{2\cdot\pi}{8}=\frac{\pi}{4}$  der Sinus- und Kosinuswert identisch sind. Hieraus resultiert, dass die Hälfte der Berechnungen der nicht trivialen Werte, die für die reelle Matrix gemacht werden müssen, direkt für den imaginären Anteil übernommen werden könnten. Die andere Hälfte müsste lediglich negiert werden. Deshalb kann das berechnete Verhältnis von 3 in Tabelle 3.2 als deutlich höher angenommen werden.

## 3.3. Einordnung des Rechenaufwands

Nachdem nun die Symmetrien der 8x8-Twiddlefaktormatrix der DFT analysiert wurden, soll eine Abschätzung des Rechenaufwands erfolgen. Hierbei wird in vier Kategorien unterschieden. Zum einen werden die erforderlichen Berechnungen bezüglich der 8x8-Twiddlefaktormatrix einerseits für reelle und andererseits für komplexe Eingangswerte betrachtet. Als dritte Variante soll aufgezeigt werden, wie viele Multiplikationen nötig wären, wenn die Twiddlefaktormatrix als variabel angenommen wird. Als letztes soll der Butterfly-Algorithmus auf die Anzahl der benötigten Multiplikationen hin untersucht werden.

Abschließend wird die Bildung des Zweierkomplements der Konstantenmultiplikation unter dem Gesichtspunkt der benötigten Zeit und Fläche gegenüber gestellt. Dies geschieht vor dem Hintergrund, dass je nach Implementierung zwar weniger Multiplikationseinheiten, dafür aber zusätzliche Einheiten zur Negierung von Werten existieren müssen.

Da die Multiplikationen im Normalfall als bedeutend aufwändiger angenommen werden müseen, wird sich in der folgenden Betrachung hierauf beschränkt. Tatsächlich ist es so, dass die Multiplikationen mit einer Konstanten über ein Schaltnetz innerhalb eines Taktes erfolgen können und somit gerade bei wenigen Multiplikationen die Anzahl der Additionen an Bedeutung gewinnt. Trotzdem erlaubt der Vergleich eine gute Abschätzung.

## 3.3.1. 8x8-DFT mit komplexen Eingangswerten

Die Sensormatrix liefert für jedes Sensorelement einen Sinus- und einen Kosinuswert. Diese können für die Berechnung der DFT zu einer komplexen Zahl zusammengefasst werden  $(\cos(x) + j \cdot \sin(x))$ . Auf diese Weise lässt sich die Berechnung mathematisch kompakter durchführen.

Die Twiddlefaktormatrix der 8x8-DFT weist, wie in Abb. 3.3 zu sehen, insgesamt nur 16 Faktoren auf, die einen Real- und einen Imaginärteil besitzen. Da diese Faktoren sowohl für den Real- als auch den Imaginärteil betragsmäßig alle denselben Wert haben, lässt er sich ausklammern. Bezogen auf die erforderlichen Additionen verschiebt sich so lediglich deren Durchführung auf einem früheren Zeitpunkt. Man könnte sich die Twiddlefaktormatrix also als Matrix mit nur noch einem einzigen komplexen Faktor in den Zeilen 2, 4, 6, 8 vorstellen. Trotz des selben Betrags beider Anteile müssen beide vorhanden sein, sonst würden die Sinusanteile keinen Einfluss in den Realteil des Ergebnisses haben. Da alle Zeilen der Twiddlefaktormatrix mit allen Spalten der Eingangsmatrix multipliziert werden müssen, ergeben sich  $4 \cdot 8 = 32$  Multiplikationen für Real bzw. Imaginärteil der Ergebnismatrix. Zusammen sind also 64 reelle Multiplikationen für die 1D- bzw. 128 2D-DFT nötig.

## 3.3.2. 8x8-DFT mit reellen Eingangswerten

Anders als bei der Multiplikation komplexer Eingangswerte sind bei der getrennten Berechnung von Real- und Imaginärteil ungleich viele positive und negative Faktoren je Zeile vorhanden, sodass zu diesem Zeitpunkt davon ausgegangen werden muss, dass eine Negation mancher Werte erforderlich sein wird. Wie ein Vergleich der Gleichungen (2.1) und (3.1) zeigt, entfallen die Hälfte der Multiplikationen, wenn die Eingangswerte rein reell sind. Da der Imaginärteil der Eingangswerte aber getrennt berechnet wird, treten diese Multiplikationen an anderer Stelle wieder auf. Hier findet also keine Ersparnis statt. Allerdings kommen bei rein reellen Eingangswerten beispielsweise keine  $j^2$ -Komponenten zustande, welche ausmultipliziert und anschließend aufaddiert werden müssten. Dies führt zu der in Abschnitt 2.4.3 gezeigten Eigenschaft, dass die letzten drei Zeilen für den Realteil des Ergebnisses direkt bzw. für den Imaginärteil negiert aus den Zeilen 2-4 übernommen werden können. Spätestens an dieser Stelle müssen also Negationen erfolgen. Da zu den drei Zeilen aus Abb. 2.6 auch die beiden gehören, in denen Multiplikationen durchgeführt werden müssen, entfallen bei reellen Eingangswerten die Hälfte der Multiplikationen im Vergleich zu komplexen Eingangswerten, weshalb für die 1D-DFT nur 32 bzw. für die 2D-DFT nur 64 Multiplikationen nötig sind.

Interessant ist dieser Ansatz dann, wenn entweder die Recheneinheit so klein wie irgend möglich gehalten werden soll und Real- und Imaginärteil der Eingangsmatrix nacheinander

berechnet werden können oder die Berechnung äußerst schnell erfolgen muss. In beiden Fällen wird im Vergleich zur Berechnungen mit komplexen Eingangswerten deutlich mehr Speicher benötigt. Ingesamt übersteigt bei diese Art der Berechnung der Flächenbedarf der gesamten Einheit den der komplexen Variante. Auch die Leitungen um den Speicher anzubinden dürfen nicht vernachlässigt werden.

# 3.3.3. Direkte Multiplikation zweier 8x8 Matrizen mit komplexen Werten

Diese Art der Implementation hätte den Vorteil, dass sich zu einem späteren Zeitpunkt für ein anderes Transformationsverfahren entschieden und einfach deren Twiddlefaktoren geladen werden könnten. Da keinerlei Optimierungen möglich sind, ist hier auch eine flexible Größe denkbar. Um einen Vergleich zu ermöglichen, wird die Multiplikation zweier 8x8 Matrizen betrachtet. Die in Abschnitt 2.2.2 erläuterte Matrixmultiplikation bedarf bei einer 8x8 Matrix je Element der Ausgangsmatrix 8 komplexe Multiplikationen. Für die  $8\cdot 8=64$  Elemente werden deshalb 512 komplexe Multiplikationen benötigt. Da es sich sowohl bei den Eingangswerten als auch bei der Twiddlefaktormatrix um komplexe Zahlen handelt, sind, wie in Abschnitt 2.2.1 beschrieben, insgesamt  $512\cdot 4=2048$  Multiplikationen nötig. Für die 2D-DFT sind mit 4096 entsprechend doppelt so viele Multiplikationen nötig.

## 3.3.4. Betrachung des Butterfly-Algorithmus für 8 Eingangswerte

Abbildung 3.4 illustriert die FFT anhand eines Eingangsvektors mit acht Werten. Um diesen Algorithmus anwenden zu können ist es erforderlich, dass die Werte im Eingangsvektor in umgekehrte Bitreihenfolge getauscht werden (bitreversed order). Dies geschieht nach dem Muster, dass die Indizes der Eingangswerte, wie üblich bei 0 beginnend, binär dargestellt werden. Nun wird die Reihenfolge der Bits getauscht. Auf diese Weise tauschen bei einem 8-Bit Vektor die Elemente 2 und 5 sowie 4 und 7 ihre Position. Andernfalls wären die Ergebnisse in vertauschter Reihenfolge. Anhand der Grafik lässt sich erkennen, dass die DFT in mehrere Stufen aufgeteilt wird.

Aus Gleichung (2.12) ist bekannt, dass die Variablen der Twiddlefaktorberechnung die Indizes der Eingangs- sowie Ausgangsvektoren sind. Hieraus lässt sich bereits erkennen, dass die gesamte Twiddlefaktormatrix N verschiedene komplexe Werte enthält. Dies wird auch aus Abbildung 3.1 am Beispiel für N=8 ersichtlich. Darüber hinaus lässt sich erkennen, dass die komplexen Zeiger den Einheitskreis in N Bereiche mit einem Winkel von  $\frac{2\pi}{N}$  unterteilen. Bekannt ist ebenfalls, dass der erste Wert immer die 1 ist. Daraus ergeben sich bei einer DFT mit 2 Eingangswerten die Twiddlefaktoren 1 und -1, so dass eine Multiplikation entfällt. Dies bildet die erste Stufe.

Ähnlich verhält es sich mit der zweiten Stufe. Hier ergeben sich die Werte 1,-j,-1,j, was ebenfalls bedeutet, dass keine Multiplikation erfolgen muss. Der nächste Schritt zur Reduzierung des Rechenaufwandes ergibt sich aus der Erkenntnis, dass die Werte  $exp(-i2\pi mn/N)$  und  $exp(-i2\pi \frac{mn}{2}/N) = -exp(-i2\pi mn/N)$  lediglich ein negiertes Vorzeichen haben. Auch

dies lässt sich der Abb. (3.1) entnehmen. Auf diese Weise fällt der Faktor -j weg. Dies bedeutet, dass sich so die Hälfte der Multiplikationen einsparen lässt.

Bei der dritten Stufe gibt es wegen der acht Eingangswerte theoretisch auch acht Faktoren. Aus den genannten Symmentriegründen halbiert sich die Anzahl. Wiederum die Hälfte davon sind komplexe Faktoren, die übrigen erfordern keine Multiplikation. Dies bedeutet, dass zwei komplexe Multiplikationen durchgeführt werden müssen, was insgesamt acht reellen Multiplikationen entspricht.

Wie gezeigt wurde, werden nur 2 komplexe Multiplikationen benötigt statt der nach Gleichung (2.18) geschätzten  $8/2 \cdot 3 = 12$ . So ergeben sich für alle 8 Spalten einer 8x8-Matrix tatsächlich nur  $2 \cdot 8 = 16$  komplexe Multiplikationen. Für die 2D-DFT sind somit lediglich 32 komplexe, beziehungsweise 128 reelle Multiplikationen erforderlich.



Abbildung 3.4.: Berechnungsschema der DFT mit 8 Eingangswerten nach dem Butterfly-Verfahren

## 3.3.5. Fazit der Berechnungs-Gegenüberstellungen

Es konnte gezeigt werden, dass die optimierte Matrixmultiplikation mit komplexen Eingangswerten die gleiche Anzahl benötigter Multiplikationen wie die FFT hat. Das liegt daran, dass es vom Betrag her nur einen einzigen Faktor gibt. Dieser tritt nur in der Hälfte der Zeilen der Twiddlefaktormatrix auf und kann wegen des Distributivgesetzes ausgeklammert werden. Gleiches gilt für die Berechnung mit rein reellen Eingangswerten, hier kann wegen der Symmetrieeigenschaften zusätzlich noch die Hälfte der Multiplikationen eingespart werden. Bei Twiddlefaktormatrizen mit mehreren als nicht trivial einzustufenden Faktoren ist davon auszugehen, dass die FFT das effizientere Verfahren darstellt.

Als Vorteil kann bei der Multiplikation mit komplexen Eingangswerten gesehen werden, dass die Programmierung der 2D-DFT als einfacher angenommen werden kann. Begründet wird dies damit, dass es möglich ist, eine einzige Einheit für die Berechnung der 1D-DFT und der 2D-DFT verwenden zu können.

Die Matrixmultiplikation mit ladbaren Faktoren ist so weit abgeschlagen, dass sie nicht ansatzweise in Betracht gezogen werden kann. Sie verdeutlicht dafür sehr gut, wie sehr sich Berechnungsaufwand einsparen lässt, wenn sich für ein dediziertes System entschieden und dieses optimiert wird. Falls also zwei verschiedene Transformationsverfahren auf einem Chip vorhanden sein sollen, wäre es immer noch effizienter beide optimiert zu implementieren. Abschließend werden in Tabelle 3.3 die Anzahl benötigter reeller Multiplikationen der verglichenen Methoden aufgeführt.

Tabelle 3.3.: Auflistung benötigter reeller Multiplikationen der verschiedenen Methoden für die 2D-DFT

| Methode                      | Anzahl reeller Multiplikationen |
|------------------------------|---------------------------------|
| komplexe Eingangswerte       | 128                             |
| reelle Eingangswerte         | 64                              |
| ladbare Matrixmultiplikation | 4096                            |
| FFT                          | 128                             |

In diesem Kapitel wird die Theorie aus dem Kapitel Analyse in ein funktionsfähiges VHDL-Programm mit den geforderten Eigenschaften umgesetzt. Es werden weitere Vorüberlegungen getroffen, die sich speziell an der Implementation als Hardwarekomponente orientieren. Wenn die Komponente Teil eines Chips werden würde, wurde dieser in 350 nm Technologie gefertigt werden. Entprechend beziehen sich die Größenangaben der Syntheseergebnisse auf diesen Prozess. Der Auftragsfertiger, bei dem der Chip in Auftrag gegeben werden würde, ist Austria Micro Systems (AMS). Dementsprechend sind die Standarzellen von dieser Firma.

## 4.1. Projekt- und Programmstruktur

In diesem Abschnitt werden Entscheidungen zum Einhalten der Bitbreite der Vektoren, den verwendeten VHDL-Bibliotheken und der Aufteilung des Programmcodes zusammengetragen.

#### 4.1.1. Vorüberlegungen aus Hardwaresicht

Für die binäre Darstellung der Eingangswerte sind zwölf Bit vorgesehen, wovon zehn auf die Nachkommastellen entfallen. Bei den beiden Rechenoperationen Addition und Subtraktion entstehen keine weiteren Nachkommastellen. Je nach Vorzeichen und Zahlenwert kann es jedoch sein, dass der Vorkomma-Wertebereich von zwei Bit nicht mehr ausreicht. Aus diesem Grund muss der Zielvektor immer um ein Bit breiter sein - von 12 Bit ausgehend also 13 Bit. Da dies bei jeder Addition geschieht, würde die benötigte Bitbreite ohne Gegenmaßnahmen immer weiter anwachsen. Die einfachste Möglichkeit dies zu verhindern ist die Divison eines Summationsergebnises durch Zwei. So kann beliebig oft auf den selben Vektor eine Addition ausgeführt werden, ohne einen Überlauf zu provozieren. Die Kehrseite dieser Vorgehensweise ist, dass durch den Bitshift die Genauigkeit des Ergebnisses sinkt. Auf die Folgen wird in Abschnitt 2.1.4 kurz eingegangen. Für die verlustfreie Multiplikation zweier Zahlen wird sogar die doppelte Breite des Vektors benötigt. Hier kann sich der Bitbereich vor und nach dem Komma ändern.

Wenn diese Maßnahme jedoch nicht ergriffen und alle zusätzlichen Bits beibehalten würden, müsste mit etwa 70 Bit je Ausgangswert gerechnet werden. Sollte wenigstens auf die bei der Multiplikation entstehenden Nachkommabits verzichtet werden, würde die benötigte Bitbreite immer noch bei über 40 liegen. Auch dies würde noch eine immense Vergrößerung der Schaltung alleine schon wegen der zusätzlichen Leitungen bedeuten. Desweiteren würden sich hierdurch die benötigten Zeiten aller Berechnungen erhöhen, was eine langsamere Taktfrequenz oder eine eine Unterteilung in Teilschaltnetzte und somit in der Summe mehr Takte mit sich ziehen würde.

#### 4.1.2. VHDL-Bibliotheken

Cadence unterstützt die VHDL-Versionen von 1987 und 1993. Enthalten ist unter anderem die Bibliothek std\_logic\_arith, welche von der Firma Synopsys entwickelt wurde. Hierbei handelt es sich um die erste Bibliothek für mathematische Berechnungen wie Addition und Multiplikation mit VHDL, weshalb sie eine große Verbreitung erlangt hat. Die Bibliothek basiert auf der vom Konsortium des Institute of Electrical and Electronics Engineers (IEEE) spezifizierten Bibliothek std\_logic. Anders als angenommen werden könnte, handelt es sich hierbei zwar um einen weitverbreiteten aber eben keinen offiziellen Standard. Ähnliches gilt auch für die Bibliotheken std\_logic\_unsigned und std\_logic\_signed. Leider hat Synopsys nicht konsequent die strenge Typisierung von VHDL eingehalten, weshalb es bei überladenen Funktionen möglich ist, die Datentypen signed und unsigned zu mischen, was zu einem unerwarteten Verhalten führt. Aus diesem Grund wird in diesem Projekt die Bibliothek numeric\_std verwendet, welche einen vergleichbaren Funktionsumfang bietet, vom IEEE-Konsortium spezifiziert wurde und dieses Problem nicht aufweist. Zu ihrem Umfang gehört auch die resize-Funktion, welche es ermöglicht einen Vektor vorzeichengerecht zu erweitern.

Für den Standardsatz der Datentypen zu dem beispielsweise std\_logic gehört, wird std\_logic\_1164.all verwendet. Um Textdateien lesen und schreiben zu können, wird die Bibliothek std.textio.all sowie std\_logic\_textio.all benötigt.

#### 4.1.3. Vorüberlegungen zum Programmablauf

Über die Parallelität der Berechnungen wird auch bei gleicher Funktion der Komponenten maßgeblich die benötigten Takte der Berechnung der 2D-DFT sowie die benötigte Logik und deren Größe bestimmt. Um einen guten Kompromiss aus benötigter Zeit und Chipfläche zu erzielen, sollen Real- und Imaginärteil die die Berechnung der Matrixelemente jeweils gleichzeitig, die einzelnen Elemente aber nacheinander berechnet werden. Darüber hinaus ist geplant, die selbe Recheneinheit der 1D-DFT auch für die 2D-DFT zu nutzen.

#### 4.1.4. Struktureller Aufbau

Das Programm wurde, wie bei umfangreicheren Projekten üblich, auf verschiedene Dateien aufgeteilt. Alle Konstanten werden in einem Paket deklariert, welches in allen anderen Dateien eingebunden werden muss. So ist es möglich z.B. die Bitbreiten eines Vektors an einer zentralen Stelle zu setzen. Diese liegen für Eingangswerte bei 12, Summen 13 und Produkte 26 Bit. Da alle anderen Dateien auf diese Konstanten zugreifen, muss dieses Paket zuerst kompiliert werden. In einem weiteren Paket findet die Deklaration der eigenen Datentypen statt. Hier sei insbesondere die 8x8 Matrix mit ihren 12 Bit Vektoren vom Typ signed erwähnt, welche für die eingelesenen Daten, die Zwischenergebnisse (1D-DFT) sowie die Ausgangswerte verwendet wird. Da die weiteren Dateien diese Datentypen verwenden, ist es erforderlich, dass dieses Paket als zweites kompiliert wird. Alle weiteren Pakete können in beliebiger Reihenfolge kompiliert werden, da sie erst später ineinander greifen. Zum Testen bzw. für die Simulation müssen Eingangswerte geladen werden. Hierfür wurde die Komponente read\_input\_matrix geschrieben. Die Werte müssen in einer Datei mit dem Namen InputMatrix komplex.txt

stehen und im dualen Zahlenformat vorliegen. Die Datei besteht aus 16 Spalten und acht Zeilen, in den leerzeichengetrennten Spalten stehen immer im Wechsel der Real- und der Imaginärteil einer Zahl. Die berechneten Ergebnisse werden mit der Komponente write\_results im gleichen Format in eine Datei geschrieben, wie sie in der Input-Datei stehen.

## 4.2. Entwicklung der 2D-DFT-Komponente

Bis die Berechnung der 2D-DFT realisiert war, wurden verschiedene Stadien durchlaufen. Im ersten Schritt wurde die 1D-DFT implementiert, wobei die im Kapitel Analyse behandelten Optimierungsmöglichkeiten näher betrachtet werden. Desweiteren wird das Berechnungsschema der geraden sowie ungeraden Zeilen der Twiddlefaktormatrix und die daraus resultierende Anzahl an Takten vorgestellt. Ein weiterer wichtiger Punkt ist die Umsetzung der 2D-DFT auf Basis der vorhandenen 1D-DFT-Einheit. Abschließend wird gezeigt, dass es auf einfache Weise möglich ist, die vorhandene DFT-Einheit um die Funktion der IDFT zu ergänzen.

## 4.2.1. Optimierte 8x8 DFT als Matrixmultiplikation

Anfangs wurde angenommen, dass Multiplikationen mit den Twiddlefaktoren  $\pm 1$  und  $\pm \frac{\sqrt{2}}{2}$  durchgeführt werden müssen. Dass bei einer optimierten 8x8-DFT wegen des explizieten ausprogrammierens der Berechnungen die Multiplikation mit  $\pm 1$  wegfällt, war schnell klar. Wegen der betragsmäßig identischen nicht trivialen Twiddlefaktoren wurde zu Beginn der Entwicklung in Betracht gezogen das 1er-Komplement zu verwenden, da sich negative und positive Zahlen mit gleichem Betrag nur durch ihr höchstwertigstes Bit unterscheiden. Auf diese Weise könnte das selbe Resultat für den Imaginär- wie für den Realteil verwendet werden. Das Vorzeichen würde sich über eine einfache XOR-Verknüpfung beider MSB der Multiplikanden ergeben. Diesem Vorteil steht jedoch eine aufwändigere Subtraktion (bzw. Addition negativer Zahlen) gegenüber. Der zusätzliche Aufwand entspricht etwa dem der Negierung von Zahlen im 2er-Komplement. Aus diesem Grund wurde sich hierfür entschieden.

Bei der genaueren Betrachtung der Twiddlefaktormatrix konnte in Abschnitt 3.3.1 festgestellt werden, dass, abgesehen von der ersten, in jeder Zeile gleich viele Additionen wie Subtraktionen vorhanden sind. Dies trifft auch ausschließlich auf die jeweils vier nicht trivialen Faktoren der geraden Zeilen zu. Dies lässt sich anhand des Einheitskreises in Abb. 3.1, der Abbildung 3.2 und der grafischen Darstellung der Twiddlefaktormatrix in Abb. 3.3 nachvollziehen. Darüber hinaus ist ersichtlich, dass für komplexe Eingangswerte in den Zeilen 2, 4, 6 und 8 zwölf und in den übrigen acht Multiplikationen erfolgen müssen. Dies kann anhand der Gleichungen (2.1) und (3.1) nachvollzogen werden.

Aus Abschnitt 2.2.2 ist bekannt, dass bei einer Matrixmultiplikation Elemente multipliziert und anschließend die Ergebnisse aufsummiert werden. Hieraus kann abgeleitet werden, dass es das Assoziativgesetz erlaubt die Eingangswerte umzusortieren, wenn auch die Twiddlefaktoren entsprechend umsortiert werden. Geschickt aufgeteilt auf triviale und nicht triviale Berechnungen, ist es dadurch möglich auf das Invertieren der Eingangswerte, also den hierfür benötigten Takt und die Inverter zu verzichten und um nur noch die Multiplikation mit  $\pm \frac{\sqrt{2}}{2}$  durchführen

zu müssen. Letztere muss wegen des Distributivgesetzes nur ein Mal pro Zeile und Real- bzw. Imaginärteil erfolgen.

Darüber hinaus minimiert sich bei dieser Anordnung das Risiko eines Überlaufs, da zumindest im ersten Schritt eine Subtraktion erfolgt. In den weiteren muss unweigerlich die Akkumulation stattfinden. Wegen der Einsen in der ersten Zeile der Twiddlefaktormatrix müssen für die erste Zeile der Ausgangsmatrix alle Spalten einmal aufsummiert werden. Dies hat zur Folge, dass ein großer Wert entstehen kann, welcher Maßgebend für die Anzahl der Vorkommabits ist. Aus diesem Grund wird zur Sicherheit, der einheitlichen Skalierung der Zahlen und der Einfachheit wegen nach jeder Addition oder Subtraktion das Ergebnis durch einen Bitshift halbiert. Es sei an dieser Stelle lediglich angemerkt, dass über die Eingangswerte die Annahme getroffen werden kann, dass aufeinanderfolgende Werte das selbe Vorzeichen haben oder, nach Abzug eines evtl. vorhandenen Offsets, nahe Null sind. Basierend auf diesem Wissen ist es denkbar die Wahrscheinlichkeit weiter zu reduzieren, dass es zu einem Überlauf kommt. Wegen der Null im Imaginärteil der ersten und fünften Zeile der Twiddlefaktormatrix sind auch alle Imaginärteile dieser Spalte der Ausgangsmatrix Null. Wie in Abschnitt 2.1.4 erwähnt, ist die Optimierung bezüglich numerischer Ungenauigkeiten nicht Gegenstand dieser Arbeit.

## 4.2.2. Berechnungsschema und benötigte Takte der Ergebnisse

In Abbildung 4.1 ist die Berechnung der ungeraden Spalten der Eingangsmatrix am Beispiel der ersten zu sehen. Für die 3. und 7. müssen die Eingangswerte so angeordnet werden, dass die Vorzeichen, beginnend mit einer Subtraktion, immer im Wechsel auftreten. Für die 5. Zeile ist dies bereits gegeben. r steht für den Realteil der Eingangswerte, i stünde für dessen Imaginärteil. Der Index gibt die Postition des Elements in einer Spalte an, angewandt werden muss die Berechnung auf alle Spalten.



Abbildung 4.1.: Vorgehensweise der Akkumulation der ungeraden Spalten der Eingangswerte.

Wie der linken Spalte der Abb. 4.1 zu entnehmen ist, werden 3 Takte für die Berechnungen der Werte aus den ungeraden Spalten der Eingangsmatrix benötigt. Der 1. Takt für Additionen bzw. Subtraktionen und 2. sowie 3. Takt für das Aufsummieren. Der Bitvektor des Ergebnisses

ist zwar 12 Bit breit, aber beim letzten Bitshift von 13 auf 12 werden nur 11 Bit übernommen. Es wird alo ein doppelter Bitshift vollzogen. Dies erfolgt, damit sowohl in den geraden als auch den ungeraden Zeilen gleich viele Bitshifts erfolgen und die Werte somit identisch skaliert sind.

Die Berechnung der geraden Zeilen wird in Abbildung 4.2 am Beispiel der zweiten Zeile gezeigt. r steht wieder für den Realteil der Eingangswerte, i für dessen Imaginärteil. Auch hier ist der linken Spalte die Anzahl der benötigten Takte zu entnehmen. In diesem Fall dauert die Berechnung 5 Takte. Diese setzen sich zusammen aus ein Takt für Additionen bzw. Subtraktionen, 2.-3. sowie 5. Takt für das Aufsummieren und der 4. Takt für die Multiplikationen. In Abschnitt 4.3.1 wird gezeigt, dass die Multiplikation mit einer Konstanten innerhalb eines Taktes mit einem Schaltnetz erfolgen kann.

Abbildung 4.2.: Vorgehensweise der Akkumulation der geraden Spalten der Eingangswerte.

Der rechten Spalte aus Abb. 4.2 kann entnommen werden, dass sich durch die Addition eine Bitbreitenerweiterung um eins bzw. bei der Multiplikation eine Verdoppelung ergibt. Durch die hintereinander erfolgenden Bitshifts wird durch  $2^{n_B}$  geteilt, wobei  $n_B$  die Anzahl der Bitshifts ist. Den beiden Darstellungen der Summationen kann entnommen werden, dass, um ein Überlaufen des Bitvektors zu vermeiden es nötig ist, drei respektive vier Bitshifts durch zu führen. Wie bereits erläutert erfolgt bei den ungeraden Zeilen abschließend ein doppelter Bitshift. Auf diese Weise ergibt sich für die 1D-DFT, dass das Ergebnis um den Faktor 16 kleiner ist. Da beim zweiten Durchlauf, um die 2D-DFT zu berechnen, ebenfalls durch 16 geteilt wird, ergibt sich insgesamt eine Division durch  $2^{2\cdot 4}=256$ .

Aus den Abbildungen 4.1 und 4.2 können die Takte, die zur Berechnung der 1D- bzw. 2D-DFT benötigt werden, abgeleitet werden. Für ungeraden Zeilen sind je Element drei Takte nötig und mit acht Elementen pro Zeile und vier ungeraden Zeilen errechnen sich so 3.8.4=96 Takte. Analog errechnet sich für die geraden Zeilen mit je fünf Takten pro Element 5.8.4=160

Takte. In der Summe ergeben sich so 96+160=256 Takte für die 1D-DFT. Da die 2D-DFT ohne Takte fürs Umspeichern oder ähnliches sofort im Anschluss berechnet werden kann, verdoppelt sich die Anzahl der Takte auf 512 für die vollständige Berechnung.

| Zeile | Additionen pro Element $(N)$ | Takte pro Element $(\log_2(N))$ | Takte für<br>Multiplikation | Summe der<br>Takte |
|-------|------------------------------|---------------------------------|-----------------------------|--------------------|
|       |                              | $\frac{(\log_2(N))}{2}$         | Nulliplikation              |                    |
| 1     | 8                            | 3                               | U                           | 3                  |
| 2     | 12                           | 3,6                             | 1                           | 5                  |
| 3     | 8                            | 3                               | 0                           | 3                  |
| 4     | 12                           | 3,6                             | 1                           | 5                  |
| 5     | 8                            | 3                               | 0                           | 3                  |
| 6     | 12                           | 3,6                             | 1                           | 5                  |
| 7     | 8                            | 3                               | 0                           | 3                  |
| 8     | 12                           | 3,6                             | 1                           | 5                  |

Tabelle 4.1.: Benötigte Takte für die komplexe DFT

Anhand der rechten Spalte ergeben sich so  $(3+5)\cdot 4\cdot 8=256$  Takte sowohl für den Real- als auch den Imaginärteil der komplexen Ausgangsmatrix. Real- und Imaginärteil werden parallel berechnet und sind somit zeitgleich fertig.

## 4.2.3. Programmablauf der 1D-DFT

Im ersten Takt der Berechnung werden die für die jeweilige Zeile der Twiddlefaktormatrix spezifischen Additionen und Subtraktionen durchgeführt. Für die geraden Zeilen werden die Werte, die eine Multiplikation benötigen, getrennt von den übrigen zusammengefasst. Im darauffolgenden Takt werden die Zwischenwerte, für die geraden Zeilen wieder getrennt nach Multiplikation oder nicht, akkumuliert. Der dritte Takt ist für die ungeraden Zeilen der letzte, da nur acht Werte aufsummiert werden müssen (siehe Abb. 4.1). Im darauffolgenden Takt wird in den ungeraden Zeilen mit der Berechnung der nächsten Zahl begonnen. Die geraden Zeilen haben acht Werte, die mit  $\sqrt{2}/2$  multipliziert werden müssen. Die vier Werte, die nur addiert werden müssen, sind bereits im zweiten Takt aufsummiert. Deshalb kann im vierten Takt die Konstantenmultiplikation erfolgen und abschließend im fünften die Summation der Zwischenergebnisse erfolgen (siehe Abb. 4.2).

Die Zuordnung der aktuellen Zeile der Twiddlefaktormatrix erfolgt über einen Zähler, der von 0 bis 63 zählt. Er ist als 6 Bit Vektor realisiert, der bei 63 einen beabsichtigten Überlauf hat und wieder bei 0 anfängt. Der Vektor kann als zwei aufeinanderfolgende 3 Bit Vektoren gesehen werden. Auf den vorderen wird immer eine Eins aufaddiert, wenn der hintere einen Überlauf hat und wieder bei Null zu zählen beginnt. Beide Vektoren können für sich als Modulo-8-Zähler betrachtet werden. Die vorderen drei Bit des gesamten Vektors entsprechen der aktuellen Zeile, die hinteren drei der Spalte, also dem Index in der aktuellen Zeile. Mit der Funktion to\_integer der VHDL-Bibliothek numeric\_std lassen sich die Teilvektoren nutzen, um die Elemente der Eingangsmatrix anzusprechen. Das letzte Bit des ersten Teilvektors ist für ungerade Zeilen Null und für gerade Zeilen Eins. Da sich die Eigenschaften der

Twiddlefaktormatrix in gerade und ungerade Zeilen aufteilen lassen, kann dies genutzt werden, um die entsprechenden Operationen durchzuführen und den passenden Folgezustand des Zustandsautomaten zu setzen.

#### 4.2.4. Entwickelung von der 1D-DFT zur 2D-DFT

In Abschnitt 4.1.3 wurde entschieden, dass nach Möglichkeit die selbe Recheneinheit für die 1D- wie auch die 2D-DFT genutzt werden soll. Aus Abschnitt 2.4.2 ist bekannt, dass für die 2D-DFT einer Matrix die Twiddlefaktormatrix einmal links und einmal rechts von der Eingangsmatrix steht. Als 1D-DFT-Matrix (Zwischenwertematrix) wird die Multiplikation der ersten Twiddlefaktormatrix mit der Eingangsmatrix betrachtet. Anschließend wird die 1D-DFT-Matrix mit der Twiddlefaktormatrix multipliziert. Aus der vertauschten Reihenfolge resultiert, dass die Zeilen und Spalten getauscht durchlaufen werden. Da die Eingangsmatrix spaltenweise durchlaufen werden soll, müsste für jedes Element eine aus Hardwaresicht aufwändige Fallunterscheidung erfolgen. Umgehen lässt sich dass, indem das Kommutativgesetz angewandt wird und die Matrizen transponiert werden. Belegt wird das mit der Gleichung (4.1). Wie zu sehen ist, muss auch die Ausgangsmatrix transponiert werden. Für die Twiddlefaktormatrix erübrigt sich dies, da ihre Transponierte identisch ist. Es konnte gezeigt werden, dass beide Berechnungen mit der selben Einheit durchführbar sind. In Grafik (4.3) ist das beschriebene veranschaulicht. Das Transponieren der Zwischen- und der Ausgangsmatrix erfolgt mit vertauschtem Zeilen- und Spaltenindex. Für die Unterscheidung zwischen 1D- und 2D-DFT wird ein Bit-Signal getoggelt, wenn der in Abscnitt 4.2.3 eingeführte Vektor bis 63 gezählt hat.

$$X = W \cdot x \cdot W$$

$$= ((x \cdot W)^{T} \cdot W)^{T}$$

$$= (X^{*T} \cdot W)^{T}$$
(4.1)



Abbildung 4.3.: Darstellung der Berechnung der 2D-DFT aus Gleichung (4.1)

Da die Matrizen transponiert werden, ist eine zweite interne Matrix erforderlich, da sonst die Werte oberhalb der Nebendiagonalen überschrieben werden.

# 4.2.5. Zusammenhang von DFT und IDFT bei der Matrixmultiplikation

Durch die umgekehrte Drehrichtung des komplexen Zeigers in Gleichung (2.19) werden in der Matrizenschreibweise die Zeilen 2 und 8, 3 und 7 sowie 4 und 6 vertauscht. Nachvollziehen lässt sich das gut anhand der Grafik 3.1. Verdeutlicht wird das vorgehen in Abbildung 4.4.

Dies lässt sich nutzen, um auf einfache Weise die vorhandene DFT-Einheit um die IDFT-Funktionalität zu ergänzen. Die DFT-Komponente wird dafür um das Eingangssignal idft ergänzt. Im Quelltext erfolgt eine Abfrage, ob idft gesetzt ist. Ist dies der Fall, wird der in Abschnitt 4.2.3 eingeführten Teilvektor für das Durchlaufen der Zeilen in seiner Integer-Interpretation von Acht subtrahiert.



Abbildung 4.4.: Um von der DFT zur IDFT zu kommen, müssen bei der Matrixmultiplikation die Zeilen 2 und 8, 3 und 7 sowie 4 und 6 der Twiddlefaktormatrix vertauscht werden.

## 4.3. Syntheseergebnisse von Teilkomponenten

Die Syntheseergebnisse werden mit dem Programm rc erstellt. Wenn Da das Schaltnetz der gesamten Schaltung zu groß und nicht nachvollziebar wäre, werden in diesem Abschnitt nur relevante Teilkomkonenten gezeigt.

## 4.3.1. 13 Bit Konstantenmultiplizierer

Der duale Wert lässt sich am einfachsten mit der Matlab-Funktion fi() ermitteln. Der Funktion werden hierfür Kommagetrennt der Deziamlwert, 1 für vorzeichenbehaftet, die gesamte Anzahl an Stellen (13) und die Anzahl der Nachkommastellen (10) übergeben. Der vollständige Aufruf sieht dann wie folgt aus:

val=fi(sqrt(2)/2,1,13,10)

Der erzeugte Datentyp hat unter anderem die Eigenschaften val.bin, welche einem mit 0001011010100 den Wert als Binärzahl zurück gibt, val.double gibt den approximierten Dezimalwert mit 0,70703125 zurück und val.dec interpretiert den Dualwert als Integer, was 724 entspricht. Letzterer ist wichtig zu kennen, um die Werte der Simulation nachvollziehen zu können.

Der Berechnung aus Gleichung (4.2) kann entnommen werden, dass die Abweichung weit unter einem Prozent liegt.

$$\frac{100}{\sqrt{2}} \cdot 0,70703125 = 99,989\% \tag{4.2}$$

Zeigen, welche Bits heraus genommen werden müssen! und belegen warum.



Abbildung 4.5.: Schaltnetz des 13 Bit Konstantenmultiplizierers für  $\frac{\sqrt{2}}{2}=0.70711\simeq0.70703125=0001011010100_2$  in Encounter; Eingang links, Ausgang rechts

Der vollständige Gate-Report befindet sich in Abschnitt B.1 auf Seite 60

#### 4.3.2. Bildung des 2er-Komplements eines 13 Bit Vektors

In Abb. 4.6 ist die nicht expliziet implementierte, aber in Abschnitt 3.3.2 erwähnte Negierung von Zahlen zu sehen.



Abbildung 4.6.: Schaltnetz einer Einheit zur Bildung des 2er-Komplements eines 13 Bit Vektors; Eingang links, Ausgang rechts

Für die Negierung eines 13 Bit Vektors hat das Synthesewerkzeug encounter 22 Standardzellen verwendet. Das sind knapp doppelt so viele Gatter, wie der Vektor Bits breit ist. Der Unterschied zum Konstantenmultiplizierer fällt somit sehr gering aus. Wie zu sehen, handelt es sich fast ausschließlich um Inverter und Addierer. In Abschnitt 2.1.2 wurde bereits beschrieben, dass für die Bildung des 2er-Komplements zunächst alle Bits invertiert werden müssen. Abschließend wird auf den Vektor 1 LSB addiert. Beide Pfade weisen die gleiche Länge auf und verwenden überwiedend die selben Gattertypen, weshalb darauf geschlossen werden kann, dass die maximale Gatterlaufzeit in der gleichen Größenordnung liegen muss.

#### 4.3.3. 13 Bit Addierer

Der 13 Bit Addierer hat zwei 13 Bit Eingänge, allerdings werden durch einen Bitshift beide Eingangswerte halbiert, damit kein Überlauf entsteht. Insofern fließen nur jeweils die forderen 12 Bit in die Berechnung ein.

#### 4.3.4. Vergleich der Syntheseergebnisse

In Tabelle 4.2 ist eine Gegenüberstellung der Syntheseergebnisse unter den Aspekten Anzahl der Gatter und Fläche.

|                                                  | Gatter | Fläche (Prozess: 350nm) |
|--------------------------------------------------|--------|-------------------------|
| 13 Bit Konstantenmultiplizierer für $\sqrt{2}/2$ | 82     | 6612 μm <sup>2</sup>    |
| 13 Bit regulärer Multiplizierer                  | 194    | $21985\mu\text{m}^2$    |
| 12 Bit Addierer                                  | 15     | 3257 μm²                |
| 13 Bit 2er-Komplement-Bildung                    | 24     | $2147\mu\text{m}^2$     |

Tabelle 4.2.: Vergleich



Abbildung 4.7.: Schaltnetz eines 12 Bit Addierers, Eingänge links (12 Bit), Ausgang rechts (13 Bit)

# 4.3.5. Gegenüberstellung der Konstantenmultiplikation und der Bildung des 2er-Komplements

Unter diesem Punkt sollen die Konstantenmultiplikation und die Bildung des 2er-Komplements unter Aspekten der benötigten Zeit und des benötigten Platzes auf einem Chip betrachtet werden. Um einen Eindruck hiervon zu erhalten, werden im Kapitel Entwurf in Abschnitt 4.3 jeweils die Schaltnetzte gezeigt. Wie dort erläutert, lässt sich anhand dieser sagen, dass es bei dieser Art der Implementierung keinen zeitlichen Gewinn gibt, da beide kritischen Pfade etwa gleich lang sind. Für die knapp 4 mal mehr Gatter bei der Multiplikation ist auch ein größerer Vertrahtungsaufwandt erforderlich, sodass die Konstantenmultiplizierer auf einem Chip eine etwas größere Fläche beanspruchen. Da es sich hier insgesamt aber um wenige Gatter handelt, wirkt sich dies erst bei sehr vielen Instanzen aus. Es kann an dieser Stelle deshalb festgehalten werden, dass dieser Unterschied nicht als entscheidend geltend gemacht werden kann.

## 4.4. Schema der Zustandsfolge

In Abbildung 4.8 sind die Zustände des in VHDL implemetierten Zustandsautomaten zu sehen. Da es sich um einen sehr strikten Ablauf handelt und keine Eingangssignale Einfluss auf die Zustandsfolge haben, wurde sich gegen die Darstellung als klassichen Automatengraph entschieden. Stattdessen ist in Abschnitt 4.5 ergänzend das UML-Diagramm mit der detaillierten Abfolge der Berechnung zu sehen, welches einen wesentlich höheren Informationsgehalt besitzt. Es wurde so gestaltet, dass daraus hervorgeht, welches der aktuelle Zustand ist.

Der Zustand set\_ready\_bit wird nach dem zweiten Durchlauf der DFT-Einheit, also wenn die 2D-DFT berechnet ist, erreicht. Dieser setzt für einen Takt das Signal result\_ready auf Eins.



Abbildung 4.8.: Automatengraf

## 4.5. UML-Diagramm







#### 5.1. Simulation der 2D-DFT

Zur Simulation der Signalverläufe von Hardwarekomponenten dient in der Cadence-Umgebung das Programm NC Sim. Das Programm beherrscht lediglich bei einzelnen Vektoren die Umrechnung zu vorzeichenbehafteten Zahlen im Dezimalsystem. Bei der Bündelung von Vektoren können nur positive Dezimalzahlen dargestellt werden. Dies hat zur Folge, dass Vektoren, die eine negative Zahl repräsentieren, mittels  $2^{n+1}+m,\ n=$  Bitbreite des Vektors und m= angezeigte Zahl, bei Bedarf händisch umgerechnet werden müssten. Die Darstellung von Fest-koomazahlen ist in keinem Fall möglich.

Anhand der Simulation kann die Anzahl der im Voraus ermittelten, zur Berechnung der 2D-DFT benötigten Takte, verifiziert werden, was nachfolgend geschen soll.

Nachdem nReset auf '1' gesetzt wird, werden die Eingangswerte eingelesen. Wenn dieser Vorgang abgeschlossen ist, geht loaded auf '1'. Mit der nächsten steigenden Taktflanke, in Bild 5.1 bei 340 ns, beginnt die Berechnung der 2D-DFT. Beendet ist sie, nachdem die Matrizenmultiplikation auf die Eingangswerte und anschließend auf die 1D-DFT-Werte angewandt wurde. Also nach  $2 \cdot 64$  einzelnen Berechnungen. Wenn dies erfolgt ist, wird result\_ready auf '1' gesetzt. Dies geschieht bei 20 820 ns. Bei einer Taktfrequenz von  $(40 \text{ ns})^{-1}$  (siehe C.8) ergeben sich so 512 Takte. Dies bestätigt auch der Edge Count, ebenfalls auf dem Bild zu sehen, welcher die Flanken des clk-Signals zählt. In der Simulation ist zu erkennen, dass die Berechnung der Elemente unterschiedlich viele Takte beansprucht. Hieran lässt sich ebenfalls sehen, dass die 1. (ungerade) Zeile weniger Takte gegenüber der 2. (geraden) Zeile benötigt.

### 5.2. Zeitabschätzung im Einsatz als ABS-Sensor

Anhand der nun bekannten Größe von 512 Takten kann ermittelt werden, ob diese Implemenatation vom zeitlichen Aspekt her akzeptabel ist. Da ein Einsatzszenario der ABS-Sensor ist, wird an dieser Stelle ein Blick hierauf geworfen. Da der ABS-Sensor an der Radnabe sitzt, wird hierfür die Raddrehzahl benötigt. Um diese zu ermitteln, wird von einer maximalen Geschwindikeit von  $v_{max}=250\,\mathrm{KM/h}$  ausgegangen. Weiter wird ein realtiv kleiner Reifenumfang von ca. 1 m angenommen. Als maximale Taktfrequenz des Sensors ist 1 MHz vorgegeben.

Der Reifen hat eine Breite von 175 cm, eine Flankenhöhe von 75 % der Breite und die Felge einen Durchmesser von 14 Zoll. Somit errechnet sich der Reifenumfang gemäß (5.1)

$$U = (175 \text{ cm} \cdot 75\% \cdot 2 + 14 \cdot 2,54 \text{ cm}) \cdot \pi$$

$$\simeq 0.94 \text{ m}$$
(5.1)



Abbildung 5.1.: Ausschnitt des Simulationstools NC Sim von der Berechnung und Verifikation der 2D-DFT.



Abbildung 5.2.: Edge Count des Taktsignals für die vollständige Simulation der 2D-DFT.

In Gleichung 5.2 wird die Anzahl der Radumdrehungen bei maximaler Geschwindigkeit berechnet

$$RPM = \frac{\frac{250 \text{ Km/h}}{0.94 \text{ m}}}{60 \text{ sec}}$$

$$= 4386 \frac{\text{U}}{\text{min}}$$

$$= 73 \frac{\text{U}}{\text{sec}}$$
(5.2)

Durch die Taktfrequenz und die benötigten Takte kann in (5.3) die maximale Anzahl der 2D-DFTs pro Sekunde errechnet werden.

$$N_{DFT,sec} = \frac{100 \text{ MHz}}{512 \text{ Takte}}$$

$$= 195312$$
(5.3)

Somit ist es nun möglich die unter diesen Voraussetzungen maximale Zahl der 2D-DFTs während einer Umdrehung zu bestimmen (5.4)

$$N_{DFT,U} = \frac{195\,312\,\frac{2D-DFT}{sec}}{73\,\frac{U}{sec}}$$

$$= 2675\,\frac{2D-DFT}{U}$$
(5.4)

Nun kann in (5.5) gezeigt werden, dass bei einer Winkelauflösung von  $1^{\circ}$  knapp 7,5 2D-DFTs berechnet werden könnten. Die Dauer liegt somit gut im zeitlichen Rahmen, der vorganden ist. Darüber hinaus kann an dieser Stelle bereits gesagt werden, dass noch reichlich Zeit für andere Berechnungen vorhanden ist.

$$N_{DFT,1^{\circ}} = \frac{2675 \frac{2D - DFT}{U}}{360^{\circ}}$$

$$= 7.43 \frac{2D - DFT}{1^{\circ}}$$
(5.5)

Um eine Aussage über die restliche zur Verfügung stehenden Zeit bzw. Takte machen zu können, wird in Gleichung (5.6) gezeigt, dass pro Winkel etwa 3800 Takte für Berechnungen zu Verfügung stehen. Somit ist gezeigt, dass für andere Aufgaben ausreichen Zeit vorhanden ist und die Implemenatation erfolgreich ist.

$$N_{Takte,U} = \frac{100 \,\text{MHz}}{73 \frac{U}{sec}}$$

$$= 1,37 \cdot 10^6 \frac{Takte}{Umdrehung}$$

$$N_{Takte,1^{\circ}} = \frac{1,37 \cdot 10^6 \frac{Takte}{Umdrehung}}{360^{\circ}}$$

$$\approx 3800 \,\text{Takte}$$
(5.6)

Da 512 etwa 13.5% von 3800 sind, resultiert hieraus, dass noch etwa 86.5% bzw. knapp 3300 Takte nutzbar sind.

### 5.3. Test der Matrixmultiplikation

1D-DFT mit Integer-Werten

2D-DFT mit Integer-Werten

#### 2D-DFT mit Werten SQ-Format

Unter anderem weil NC Sim bzw. dessen Unterprogramm SimVision zur Anzeige von Signalverläufen (Waveform) nur Integer darstellen kann und bei als Vektor gebündelten Signalen diese nicht einmal als vorzeichenbehaftet (signed), wurde der Einfachheit halber zunächst die Berechnung als Ganzzahl-Multiplikation mit dem Faktor 3 betrachtet. Da es bei diesem Faktor und den gewählten Eingangswerten nicht zu einem Überlauf kommen kann, war es zu diesem Zeitpunkt noch nicht nötig, sich Gedanken über die Breite des Ergebnisvektors bzw. den Ausschnitt daraus für die weitere Berechnung zu machen. Deshalb konnte an dieser Stelle noch auf den Bitshift zur Halbierung der Werte verzichtet werden.

Erst als der Faktor  $\frac{\sqrt{2}}{2}$  übernommen wurde, wurden die Ergebnisse breiter als der Vektor für die weitere Berechnung an Bits zur Verfügung stellt.

 $\frac{\sqrt{2}}{2}_{10} = 0001011010100_2$  in S2Q10, als Integer betrachtet jedoch  $724_{10}$ .

Daraus folgt, dass ein Teil der Bits abgeschnitten werden müssen. Da die Dualzahlen jetzt im S1Q10-Format betrachtet werden, es sich also um Kommazahlen handelt, müssen die hinteren Bits abgeschnitten werden. Zudem können vorne Bits ohne Informationsverlust gestrichen werden, da durch die Multiplikation ein weiteres Negations-Bit dazugekommen ist und auf Grund des gegebenen Faktors der Wertebereich vorne nie ganz ausgenutzt wird. (Verifizieren / Belegen!)

#### 5.4. Testumgebung

In Matlab muss hierfür entweder die Funktion transpose() oder .' verwendet werden. Letzteres muss elementweise angewandt werden, da das Apostroph alleine die komplex konjugiert Transponierte bildet.

#### 5.4.1. Struktogramm des Testablaufs

#### 5.4.2. Reale Eingangswerte

### 5.5. Chipdesign

#### 5.5.1. Anzahl Standardzellen

#### 5.5.2. Bilder

In den folgenden Bildern 5.3a bis 5.3d ist zusehen, wie der Floorplan eine Stromversorgung für die Standardzellen erhält.

Benötigte Standardzellen für 1D / 2D

Benötigte Standardzellen bei 3 Lagen / 4 Lagen

#### 5.5.3. Visualisierung der Netzliste

#### 5.5.4. Floorplan, Padring



Abbildung 5.3.: Schrittweise Entwurf der Stromversorgung des Floorplans



Abbildung 5.4.: Vias für die Durchkontaktierung der der Stromversorgung auf den verschiedenen Metalllagen (blau: Layer 1, rot: Layer 2, grün: Layer 3)



Abbildung 5.5.: Floorplan mit platzierten Standardzellen

# 6. Schlussfolgerungen

# 6.1. Zusammenfassung

## 6.2. Bewertung und Fazit

Es konnte eine effiziente Berechnung implementiert werden, die der FFT in nichts nachsteht. Wenn nicht die Ausgangssituation gewesen wäre, dass eine möglichst flexibel gehaltene Matrix-multiplikation erstrebenswert ist, hätte auch eine FFT, dessen Berechnungsvorschrift bekannt ist, implementiert werden können. Für DFT anderer Größe als  $2^N$  gilt dies nicht.

#### 6.3. Ausblick

# Abkürzungsverzeichnis

1D-DFT eindimensionale diskrete Fouriertransformation2D-DFT zweidimensionale diskrete Fouriertransformation

ADC Analog Digital Converter
ADU Analog Digital Umsetzer

AMR anisotroper magnetoresistiver Effekt

**ASIC** Application Specific Integrated Circuit, dt.: Anwendungsspezifischer Inte-

grierter Schaltkreis

DCT diskrete Kosinus TransformationDFT diskrete Fouriertransformation

**FFT** Fast Fouriertransformation

**FT** Fouriertransformation

**IDFT** inverse diskrete Fouriertransformation

**ISAR** Integrated Sensor Array

**LSB** Least Significant Bit

MSB Most Significant Bit

RAM Random Access Memory

TMR tunnelmagnetoresistiver Effekt

# Abbildungsverzeichnis

| <ul><li>2.1.</li><li>2.2.</li></ul>              | Interpretation von Dualzahlen im SQ3-Format                                                                                                               | 3        |
|--------------------------------------------------|-----------------------------------------------------------------------------------------------------------------------------------------------------------|----------|
| 2.2.                                             | Veranschaulichung der Matrixmultiplikation                                                                                                                | 6        |
| 2.3.                                             | Einheitskreis, Zusammensetzung des komplexen Zeigers aus Sinus und Kosinus 1D-DFT als Matrixmultiplikation                                                | ç        |
| 2.5.                                             | 2D-DFT als Matrixmultiplikation                                                                                                                           | ç        |
| 2.6.                                             | Veranschaulichung der Berechnung der DFT mit reellen Eingangswerten                                                                                       | 11       |
| 2.7.                                             | Redundante Werte der spaltenweisen DFT einer 8x8-Matrix. Der Imaginärteil der redundanten Werte hat denselben Betrag mit negiertem Vorzeichen             | 12       |
| 3.1.<br>3.2.                                     | Einheitskreis mit relevanten Werten der 8x8-DFT                                                                                                           | 16       |
| 3.3.                                             | $\vec{x}$ . Siehe auch Gl. (2.11)                                                                                                                         | 17<br>17 |
| 3.4.                                             | Berechnungsschema der DFT mit 8 Eingangswerten nach dem Butterfly-Verfahren                                                                               | 21       |
|                                                  |                                                                                                                                                           |          |
| 4.1.                                             | Vorgehensweise der Akkumulation der ungeraden Spalten der Eingangswerte.                                                                                  | 26       |
| <ul><li>4.2.</li><li>4.3.</li><li>4.4.</li></ul> | Vorgehensweise der Akkumulation der geraden Spalten der Eingangswerte Darstellung der Berechnung der 2D-DFT aus Gleichung (4.1)                           | 27<br>29 |
|                                                  | die Zeilen 2 und 8, 3 und 7 sowie 4 und 6 der Twiddlefaktormatrix vertauscht                                                                              |          |
| 4.5.                                             | werden                                                                                                                                                    | 30       |
| 4.6.                                             | $0.70703125=0001011010100_2$ in Encounter; Eingang links, Ausgang rechts . Schaltnetz einer Einheit zur Bildung des 2er-Komplements eines 13 Bit Vektors; | 31       |
|                                                  | Eingang links, Ausgang rechts                                                                                                                             | 32       |
| 4.7.                                             | Schaltnetz eines 12 Bit Addierers, Eingänge links (12 Bit), Ausgang rechts (13 Bit)                                                                       | 33       |
| 4.8.                                             | Automatengraf                                                                                                                                             | 34       |
| 5.1.                                             | Ausschnitt des Simulationstools NC Sim von der Berechnung und Verifikation                                                                                |          |
|                                                  | der 2D-DFT                                                                                                                                                | 39       |
| 5.2.                                             | Edge Count des Taktsignals für die vollständige Simulation der 2D-DFT                                                                                     | 39       |
|                                                  | Schrittweise Entwurf der Stromversorgung des Floorplans                                                                                                   | 43       |
| 5.4.                                             | Vias für die Durchkontaktierung der der Stromversorgung auf den verschiede-                                                                               |          |
|                                                  | nen Metalllagen (blau: Layer 1, rot: Layer 2, grün: Layer 3)                                                                                              | 44       |
| ხ.ხ.                                             | Floorplan mit platzierten Standardzellen                                                                                                                  | 45       |

# **Tabellenverzeichnis**

| 3.1. | Bewertung der DCT-Twiddlefaktor-Matrizen                                      | 15 |
|------|-------------------------------------------------------------------------------|----|
| 3.2. | Bewertung der DFT-Twiddlefaktor-Matrizen                                      | 15 |
| 3.3. | Auflistung benötigter reeller Multiplikationen der verschiedenen Methoden für |    |
|      | die 2D-DFT                                                                    | 22 |
| 4.1. | Benötigte Takte für die komplexe DFT                                          | 28 |
| 4.2. | Vergleich                                                                     | 32 |

# Literatur

[1] M. Krey, "Systemarchitektur und Signalverarbeitung für die Diagnose von magnetischen ABS-Sensoren", *test*, 2015.

#### A.1. Skript zur Bewertung von Twiddlefaktormatrizen

```
%% Dateiname: dct_bewertung.m
 % Funktion:
                Bewertet die Koeffizienten der DCT-Twiddlefaktormatrix
 %%
                darauf basierend, wie trivial die Berechnungen mit
 %%
                den Twiddlefaktoren sind.
 %%
                Als trivial gelten Berechnungen mit den Werten -1, -0.5, 0,
     +0.5, +1
 %%
                Es wird ein Verhaeltnis aus trivialen und nicht trivialen
     Werten
 %%
                erstellt.
 % Argumente: N (Groesse der NxN DCT-Matrix)
 % Author:
                Thomas Lattmann
 % Datum:
                17.10.2017
11 % Version:
                1.0
  function dct_bewertung(N)
   % Twiddlefaktor-Matrix erzeugen
   W = \cos(pi/N*([0:N-1]')*([0:N-1]+.5));
   W = round(W*1000000)/10000000;
   \% Werte kleiner 0,000001 auf 0 setzen (arithmetische Ungenauigkeiten)
19
   W(abs(W) < 0.000001) = 0;
   % Anzahl verschiedener Werte ermitteln
    different_nums = unique(W);
    different_non_trivial_nums = different_nums(find(different_nums ~= 1));
    different_non_trivial_nums = different_non_trivial_nums(find(
     different_non_trivial_nums \sim = -1);
    different_non_trivial_nums = different_non_trivial_nums(find(
     different_non_trivial_nums \sim = 0.5);
    different_non_trivial_nums = different_non_trivial_nums(find(
     different_non_trivial_nums \sim = -0.5);
    different_non_trivial_nums = different_non_trivial_nums(find(
     different_non_trivial_nums ~= 0));
    different_non_trivial_nums = unique(abs(different_non_trivial_nums));
31
    different_non_trivial_nums
   %non_trivial = length(abs(different_non_trivial_nums))
33
35
```

```
% Jeweils die Menge der verschiedenen Werte ermitteln
    num_count = zeros(1, length(different_nums));
    for k = 1:length(different_nums)
      for n = 1:N
39
         for m = 1:N
           if different_nums(k) == W(m, n)
41
             num\_count(k) = num\_count(k) +1;
43
         end
      end
45
    \quad \text{end} \quad
47
    % nicht triviale Werte der Matrix zaehlen
49
    nontrivial\_nums = 0;
    for k = 1:length(different_nums)
51
      if abs(different_nums(k)) != 1
         if abs(different_nums(k)) != 0.5
           if different_nums(k) != 0
             nontrivial_nums = nontrivial_nums + num_count(k);
55
           end
         end
57
      end
    end
59
    nums\_of\_matrix = N*N;
61
    trivial\_nums = N*N - nontrivial\_nums
63
    nontrivial_nums
65
    v = trivial_nums/nontrivial_nums
69
  end
```

Listing A.1: Octave-Skript zur Bewertung unterschiedlicher DCT-Twiddlefaktormatrizen

```
1 Mariname: dft_bewertung.m
 % Funktion:
                Bewertet die Koeffizienten der DFT-Twiddlefaktormatrix
 %%
                darauf basierend, wie trivial die Berechnungen mit
 %%
                den Twiddlefaktoren sind.
 %%
                Als trivial gelten Berechnungen mit den Werten -1, -0.5, 0,
     +0.5, +1
 %%
                Es wird ein Verhaeltnis aus trivialen und nicht trivialen
     Werten
 %%
                erstellt.
 % Argumente: N (Groesse der NxN DFT-Matrix)
 % Author:
               Thomas Lattmann
 % Datum:
                17.10.2017
11 % Version:
                1.0
function dft_bewertung(N)
```

```
% Twiddlefaktor-Matrix erzeugen
   W = \exp(-i *2 * pi * [0:N-1]' * [0:N-1]/N);
   W = round(W*1000000)/10000000;
17
    % Matrix nach Im und Re trennen und Werte runden
19
    W_r = real(W);
    W_i = imag(W);
21
    \% Werte kleiner 0,000001 auf 0 setzen (arithmetische Ungenauigkeiten)
23
   W_r(abs(W_r) < 0.000001) = 0;
    W_i(abs(W_i) < 0.000001) = 0;
25
27
    % Anzahl verschiedener Werte ermitteln
29
    different_nums_real = unique(W_r);
    different_nums_imag = unique(W_i);
    different_nums = [different_nums_real; different_nums_imag];
33
    different_nums = unique(different_nums);
    different_non_trivial_nums = different_nums(find(different_nums ~= 1));
    different_non_trivial_nums = different_non_trivial_nums(find(
     different_non_trivial_nums \sim = -1);
    different_non_trivial_nums = different_non_trivial_nums(find(
     different_non_trivial_nums ~= 0.5));
    different_non_trivial_nums = different_non_trivial_nums(find(
     different_non_trivial_nums \sim = -0.5);
    different_non_trivial_nums = different_non_trivial_nums(find(
39
     different_non_trivial_nums ~= 0));
    different_non_trivial_nums = unique(abs(different_non_trivial_nums));
    non_trivial = length(abs(different_non_trivial_nums))
43
    % Jeweils die Menge der verschiedenen Werte ermitteln (hier Re)
    num_count_real = zeros(1, length(different_nums_real));
45
    for k = 1:length(different_nums_real)
      for n = 1:N
47
        for m = 1:N
          if different_nums_real(k) == W_r(m,n)
49
            num\_count\_real(k) = num\_count\_real(k) +1;
          end
51
        end
      end
53
    end
55
    % Jeweils die Anzahl der verschiedenen Werte ermitteln (hier Im)
57
    num_count_imag = zeros(1,length(different_nums_imag));
    for k = 1:length(different_nums_imag)
      for n = 1:N
```

```
for m = 1:N
61
           if different_nums_imag(k) == W_i(m, n)
             num\_count\_imag(k) = num\_count\_imag(k) +1;
63
           end
         end
65
       end
    end
67
    % nicht triviale Werte der reellen Matrix zaehlen
    nontrivial_nums_real = 0;
    for k = 1:length(different_nums_real)
       if abs(different_nums_real(k)) != 1
73
         if abs(different_nums_real(k)) != 0.5
           if different_nums_real(k) != 0
             nontrivial_nums_real = nontrivial_nums_real + num_count_real(k);
           end
         end
       end
79
    end
81
    % nicht triviale Werte der imaginaeren Matrix zaehlen
    nontrivial_nums_imag = 0;
83
    for k = 1:length(different_nums_imag)
       if abs(different_nums_imag(k)) != 1
85
         if abs(different_nums_imag(k)) != 0.5
           if different_nums_imag(k) != 0
             nontrivial_nums_imag = nontrivial_nums_imag + num_count_imag(k);
           end
89
         end
       end
91
    end
93
    nums\_of\_each\_matrix = N*N;
95
    trivial\_nums\_real = N*N - nontrivial\_nums\_real
    trivial\_nums\_imag = N*N - nontrivial\_nums\_imag
97
    nontrivial_nums_real
99
    nontrivial_nums_imag
101
    trivial_nums_total = trivial_nums_real + trivial_nums_imag
    nontrivial_nums_total = nontrivial_nums_real + nontrivial_nums_imag
    v = trivial_nums_total/nontrivial_nums_total
  end
107
```

Listing A.2: Octave-Skript zur Bewertung unterschiedlicher DFT-Twiddlefaktormatrizen

## A.2. Twiddlefaktormatrix im S1Q10-Format

```
% Dateiname:
                        twiddle2file.m
 % Funktion:
                        Erzeugt eine Datei mit den binaeren komplexen
 %%
                        Twiddlefaktoren
 % Argumente:
                        N (Groesse der NxN DFT-Matrix)
 % Aufbau der Datei: Wie die Matrix, enthaelt Realteil und Imaginaerteil.
 %%
                        Alle Werte sind wie im Beispiel durch Leerzeichen
     getrennt:
 %%
                        Re\{W(1,1)\}\ Im\{W(1,1)\}\ Re\{W(1,2)\}\ Im\{W(1,2)\}
 %%
                        Re\{W(2,1)\}\ Im\{W(2,1)\}\ Re\{W(2,2)\}\ Im\{W(2,2)\}
 % Abhaenigkeiten:
                        (1) twiddle_coefficients.m
                        (2) dec_to_s1q10.m
 %%
                        (3) bit_vector2integer.m
 %%
                        (4) zweier_komplement.m
 % Author:
                        Thomas Lattmann
 % Datum:
                        02.11.17
15 % Version:
                        1.0
  function twiddle2file(N)
   % Dezimale Twiddlefaktormatrix erstellen
    W_dec = twiddle_coefficients(N);
    W_{dec_real} = real(W_{dec});
21
    W_{dec_imag} = imag(W_{dec});
23
    W_bin_int_real = zeros(size(W_dec_real));
    W_bin_int_imag = zeros(size(W_dec_imag));
25
    for m = 1:N
      for n = 1:N
        bit_vector = dec_to_s1q10(W_dec_real(m,n));
29
        W_bin_int_real(m,n) = bit_vector2integer(bit_vector);
31
        bit_vector = dec_to_s1q10(W_dec_imag(m, n));
        W_bin_int_imag(m, n) = bit_vector2integer(bit_vector);
      end
    end
35
    fid=fopen('Twiddle_s1q10_komplex.txt', 'w+');
37
    for m=1:N
39
      for n=1:N
        fprintf(fid , '%012d ', W_bin_int_real(m,n));
41
        fprintf(fid , '%012d', W_bin_int_imag(m,n));
        if n < N
43
          fprintf(fid , ' ');
        end
45
      end
      if m < N
47
        fprintf(fid , '\n');
```

Listing A.3: Erstellen der Twiddlefaktormatrix-Datei

```
%% Dateiname: twiddle_coefficients.m
 % Funktion:
                 Erstellt eine Matrix (W) mit den Twiddlefaktoren fuer die DFT
      der
 %%
                 Groesse, die mit N an das Skript uebergeben wurde.
 % Argumente: N (Groesse der NxN DFT-Matrix)
                Thomas Lattmann
 % Author:
 % Datum:
                02.11.17
 % Version:
                1.0
  function W = twiddle_coefficients(N)
10
   % Twiddlefaktoren fuer die DFT
   W = \exp(-i *2 * pi * [0:N-1]' * [0:N-1]/N)
12
   % auf 6 Nachkommastellen reduzieren
   W = round(W*1000000)/10000000;
   % negative Nullen auf O setzen
    W_real = real(W);
18
    W_{imag} = imag(W);
    W_{real}(abs(W_{real}) < 00000.1) = 0;
    W_{imag}(abs(W_{imag}) < 00000.1) = 0;
   W = W_real + i*W_imag;
 end
```

Listing A.4: Erzeugen der Twiddlefaktormatrix

```
dec_to_s1q10.m
 % Dateiname:
 % Funktion:
                     Konvertiert eine Dezimalzahl in das binaere S1Q10-Format
 % Argumente:
                     Dezimalzahl im Bereich von -2...+2-1/2^10
 % Abhaenigkeiten: (1) zweier_komplement.m
 % Author:
                     Thomas Lattmann
 % Datum:
                     02.11.17
 %% Version:
                     1.0
  function bit_vector = dec_to_s1q10(val)
    bit width =12;
    bit_vector=zeros(1, bit_width);
12
    dec_temp=0;
    val_abs=abs(val);
    val_int=floor(val_abs);
```

```
16
    val_frac=val_abs-val_int;
    if val > 2-1/2 (bit_width -2) % 1.99902... bei 12 Bit und somit 10 Bit
18
     fuer Nachkomma
      disp ('Diese Zahl kann nicht im s1q11-Format dargestellt werden.')
    elseif val < -2
      disp ('Diese Zahl kann nicht im s1q11-Format dargestellt werden.')
     % Vorkommastellen
24
      if abs(val) >= 1
        bit_vector(2) = 1;
26
        if val == -2
28
          bit\_vector(1) = 1;
        end
      end
30
      % Nachkommastellen
      for k = 1: bit width -2
        % berechnen der Differenz des Twiddlefaktors und des derzeitigen
     Wertes der Binaerzahl
        d = val_frac - dec_temp;
        if d \gg 1/2^k
          bit_vector(k+2) = 1;
          dec\_temp = dec\_temp+1/2^k;
38
        end
      end
40
      \% 2er-Komplement bilden, falls val negativ
42
      if val < 0
        bit_vector=zweier_komplement(bit_vector);
      end
    end
  end
```

Listing A.5: Dezimalzahl nach S1Q10 konvertieren

```
% Dateiname: zweier_komplement.m
 % Funktion:
                Bilden des 2er-Komplements eines "Bit"-Vektors
3 % Argumente: Vektor aus Nullen und Einsen
 % Author:
                Thomas Lattmann
 % Datum:
                02.11.17
 %% Version:
  function bit_vector = zweier_komplement(bit_vector)
    bit_width=length(bit_vector);
    for j = 1:bit\_width
11
      bit_vector(j) = not(bit_vector(j));
13
    bit_vector(bit_width) = bit_vector(bit_width) + 1;
    for j = 1: bit_width -1
```

```
if bit_vector(bit_width -j +1) == 2
bit_vector(bit_width -j +1) = 0;
bit_vector(bit_width -j) = bit_vector(bit_width -j) + 1;
end
end
end
end
```

Listing A.6: Bildung des 2er-Komplements

```
%% Dateiname: bit_vector2integer.m
 % Funktion:
                 Wandelt einen Vektor von Zahlen in eine einzelne Zahl (
     Integer)
 %%
                 Beispiel: [0 \ 1 \ 1 \ 0 \ 0 \ 1] \implies 11001
 %%
                Um fuehrende Nullen zu erhalten muss z.B.
     Integer)
 %%
                 genutzt werden. Hierbei wird vorne mit Nullen aufgefuellt,
     wenn
 %%
                 'Integer' weniger als 6 stellen hat.
 % Argumente: Vektor (aus Nullen und Einsen)
 % Author:
                 Thomas Lattmann
 % Datum:
                 02.11.17
 %% Version:
                 1.0
  function bin_int = bit_vector2integer(bit_vector)
13
    bin_int=0;
    bit_width=length(bit_vector);
15
   % Konvertierung von Vektor nach Integer
    for I = 1:bit_width
      bin_int = bin_int + bit_vector(bit_width - I + 1)*10^(I-1);
    end
21
  end
```

Listing A.7: Binär-Vektor in Binär-Integer umwandeln

```
% Dateiname: s1q10_to_dec.m
 % Funktion:
                Konvertiert eine binaere Zahl im S1Q10-Format als Dezimalzahl
 % Argumente: Vektor aus Nullen und Einsen
 % Author:
                Thomas Lattmann
 % Datum:
                02.11.17
 %% Version:
                1.0
 function dec = s1q10_to_dec(bit_vector)
   % Dezimalzahl aus s1q10 Binaerzahl berechnen
    bit_width=length(bit_vector);
12
    dec = 0;
    if bit_vector(1) == 1
```

```
dec = -2;
16
          if bit\_vector(2) = 1
             dec = -1;
18
          \mathsf{end} \\
      {\tt elseif bit\_vector(2)} == 1
20
         dec = 1;
22
      \begin{array}{lll} \textbf{for} & \textbf{n} = 3 \colon \textbf{bit\_width} \end{array}
          if bit\_vector(n) = 1
             dec = dec + 1/2^{(n-2)};
          end
      \mathsf{end} \\
   end
```

Listing A.8: Kontroll-Skript für S1Q10 nach Dezimal

# B. Gate-Reports der Syntheseergebnisse

## B.1. Gate-Report des 13 Bit Konstantenmultiplizierers

|          | ated by:           |           | `        | R) RTL Compiler               | RC14.25 | =<br>- v14.20-s046_ |
|----------|--------------------|-----------|----------|-------------------------------|---------|---------------------|
|          | ated on:           | •         | r 12 201 | •                             |         |                     |
| Module   | e:<br>ology librar |           |          | nmultiplizierer<br>3_TYP 3.02 |         |                     |
|          | ting conditi       |           |          | TTF 3.02<br>(balanced_tree)   |         |                     |
| -        | ad mode:           |           | closed   | (baraneed_tree)               |         |                     |
| Area n   |                    | ~         | ning lib | rary                          |         |                     |
| Gate     | Instances          | Area      |          | ibrary                        |         | =                   |
|          | Instances          |           |          |                               |         |                     |
| ADD21    | 6                  | 873.600   | c35_0    | CORELIB_TYP                   |         |                     |
| ADD31    | 34                 | 9282.000  | c35_0    | CORELIB_TYP                   |         |                     |
| AOI210   | 2                  | 145.600   | c35_0    | CORELIB_TYP                   |         |                     |
| CLKIN3   | 2                  | 72.800    |          | CORELIB_TYP                   |         |                     |
| IMUX20   | 4                  | 364.000   |          | CORELIB_TYP                   |         |                     |
| INV2     | 10                 | 364.000   |          | CORELIB_TYP                   |         |                     |
| MAJ31    | 4                  | 436.800   |          | CORELIB_TYP                   |         |                     |
| NAND20   | 9                  | 491.400   |          | CORELIB_TYP                   |         |                     |
| NOR20    | 1                  | 54.600    |          | CORELIB_TYP                   |         |                     |
| OAI210   | 6                  | 436.800   | _        | CORELIB_TYP                   |         |                     |
| XNR20    | 3                  | 327.600   | _        | CORELIB_TYP                   |         |                     |
| XOR21    | 1                  | 127.400   | c35_0    | CORELIB_TYP                   |         |                     |
| total    | 82                 | 12976.600 |          |                               |         |                     |
|          |                    |           |          |                               |         |                     |
| Туре     | Instances          | Area      | Area %   |                               |         |                     |
| inverter | 12                 | 436.800   | 3.4      |                               |         |                     |
| logic    |                    | 12539.800 | 96.6     |                               |         |                     |
| total    | 82                 | 12976.600 | 100.0    |                               |         |                     |

Listing B.1: RC Gate-Report des Konstanten multiplizierers

# B.2. Gate-Report des 13 Bit Multiplizierers

| Genera<br>Module<br>Techno<br>Operat | ology librar<br>ting conditi<br>ad mode: | Apmury: c35 | r 17 20Ì<br>ıltiplizi<br>_CORELIE | erer<br>B_TYP 3.02<br>(balanced_tree) | RC14.25 | - v14.20-s046_ |
|--------------------------------------|------------------------------------------|-------------|-----------------------------------|---------------------------------------|---------|----------------|
| Gate                                 | Instances                                | Area        | L                                 | ibrary                                |         |                |
| ADD21                                | 6                                        | 873.600     | c35_(                             | CORELIB_TYP                           |         |                |
| ADD31                                | 27                                       | 7371.000    |                                   | ORELIB_TYP                            |         |                |
| AOI220                               | 10                                       | 910.000     |                                   | ORELIB_TYP                            |         |                |
| CLKIN3                               | 4                                        | 145.600     | _                                 | ORELIB_TYP                            |         |                |
| IMUX20                               | 58                                       | 5278.000    | c35_0                             | CORELIB_TYP                           |         |                |
| IMUX21                               | 1                                        | 91.000      | c35_0                             | CORELIB_TYP                           |         |                |
| INV2                                 | 11                                       | 400.400     | c35_0                             | CORELIB_TYP                           |         |                |
| INV3                                 | 9                                        | 327.600     |                                   | CORELIB_TYP                           |         |                |
| MAJ31                                | 8                                        | 873.600     | c35_0                             | CORELIB_TYP                           |         |                |
| NAND20                               | 6                                        | 327.600     | c35_0                             | CORELIB_TYP                           |         |                |
| NOR20                                | 13                                       | 709.800     | c35_0                             | CORELIB_TYP                           |         |                |
| OAI220                               | 32                                       | 2912.000    | c35_0                             | CORELIB_TYP                           |         |                |
| XNR20                                | 2                                        | 218.400     | c35_0                             | CORELIB_TYP                           |         |                |
| XNR30                                | 2                                        | 400.400     | c35_0                             | CORELIB_TYP                           |         |                |
| XNR31                                | 3                                        | 600.600     | c35_0                             | CORELIB_TYP                           |         |                |
| XNR41                                | 2                                        | 546.000     | c35_(                             | CORELIB_TYP                           |         |                |
| total                                | 194                                      | 21985.600   |                                   |                                       |         |                |
|                                      |                                          |             |                                   |                                       |         |                |
| Туре                                 | Instances                                | Area        | Area %                            |                                       |         |                |
| inverter                             | 24                                       | 873.600     | 4.0                               |                                       |         |                |
| logic                                | 170                                      | 21112.000   | 96.0                              |                                       |         |                |
| total                                | 194                                      | 21985.600   | 100.0                             |                                       |         |                |

Listing B.2: RC Gate-Report des Multiplizierers

## **B.3. Gate-Report des 12 Bit Addierers**

Generated by: Encounter(R) RTL Compiler RC14.25 - v14.20-s046\_1

| Module<br>Techno<br>Operat              | ology librar<br>ing conditi<br>ad mode: | y: c3 ons:e | ddierer_T<br>5_COREL | IB_TYP 3.02<br>(balanced_t | · |
|-----------------------------------------|-----------------------------------------|-------------|----------------------|----------------------------|---|
| ======================================= |                                         |             |                      |                            |   |
|                                         | Instances                               | Area        | L                    | ibrary                     |   |
| ADD21                                   | 1                                       | 145.600     | c35 (                | CORELIB_TYP                | _ |
| ADD31                                   | 11                                      | 3003.000    |                      | CORELIB_TYP                |   |
| CLKIN3                                  | 2                                       | 72.800      |                      | CORELIB_TYP                |   |
| INV2                                    | 1                                       | 36.400      | c35_0                | CORELIB_TYP                |   |
| total                                   | 15                                      | 3257.800    |                      |                            | - |
|                                         |                                         |             |                      |                            |   |
| Туре                                    | Instances                               | Area        | Area %               |                            |   |
| inverter                                | 3                                       | 109.200     | 3.4                  |                            |   |
| logic                                   | 12                                      | 3148.600    | 96.6                 |                            |   |
| total                                   | 15                                      | 3257.800    | 100.0                |                            |   |

Listing B.3: RC Gate-Report des 12 Bit Addierers

# B.4. Gate-Report des 13 Bit Negierers

|            | ated by:<br>ated on: |                  | counter(R) RTL Compile<br>r 12 2018 04:48:10 pm |   | - v14.20-s046_3 |
|------------|----------------------|------------------|-------------------------------------------------|---|-----------------|
| Modul      |                      | •                | gierer_top                                      |   |                 |
|            | ology libra          |                  | _CORELIB_TYP 3.02                               |   |                 |
|            | iting condit         | •                | ominal_ (balanced_tree                          | ) |                 |
| •          | oad mode:            |                  | closed                                          | ) |                 |
| Area       |                      |                  |                                                 |   |                 |
| Area       | mode:                | LIII             | ning library                                    |   |                 |
|            |                      |                  |                                                 |   | _               |
|            |                      |                  |                                                 |   | =               |
|            |                      |                  |                                                 |   | =               |
| Gate       | Instances            | Area             | Library                                         |   | =               |
| Gate ADD21 | Instances            | Area<br>1601.600 | Library<br>c35_CORELIB_TYP                      |   | =               |
|            |                      | 1601.600         |                                                 |   | =               |
| ADD21      | 11                   | 1601.600         | c35_CORELIB_TYP                                 |   | =               |



Listing B.4: RC Gate-Report des 13 Bit Negierers

# B.5. Gate-Report der 2D-DFT

| Genera  | ted by:       | Encount    | ter(R) RTL Compiler | RC14.25 | - v14.20-s046_ |
|---------|---------------|------------|---------------------|---------|----------------|
| Į.      | ted on:       | Apr 10     | 2018 12:04:20 pm    |         |                |
| Module  | :             | dft8opt    | imiert              |         |                |
| Techno  | ology library | : c35_COR  | RELIB_TYP 3.02      |         |                |
|         | ing conditio  |            | al_ (balanced_tree) |         |                |
| Wireloa | ad mode:      | enclose    | d                   |         |                |
| Area m  | iode :        | timing     | library             |         |                |
|         |               |            |                     |         | Ξ              |
|         |               |            |                     |         |                |
| Gate    | Instances     | Area       | Library             |         |                |
| ADD21   | 28            | 4076.800   | c35_CORELIB_TYP     |         |                |
| ADD31   | 413           | 112749.000 | c35_CORELIB_TYP     |         |                |
| AOI210  | 333           | 24242.401  | c35_CORELIB_TYP     |         |                |
| AOI211  | 3             | 218.400    | c35_CORELIB_TYP     |         |                |
| AOI2110 | 70            | 6370.000   | c35_CORELIB_TYP     |         |                |
| AOI220  | 2472          | 224952.000 | c35_CORELIB_TYP     |         |                |
| AOI310  | 17            | 1547.000   | c35_CORELIB_TYP     |         |                |
| BUF2    | 1536          | 83865.597  | c35_CORELIB_TYP     |         |                |
| CLKIN2  | 1             | 36.400     | c35_CORELIB_TYP     |         |                |
| CLKIN3  | 124           | 4513.600   | c35_CORELIB_TYP     |         |                |
| DF3     | 3             | 819.000    | c35_CORELIB_TYP     |         |                |
| DL3     | 19            | 3803.800   | c35_CORELIB_TYP     |         |                |
| DLQ1    | 1             | 182.000    | c35_CORELIB_TYP     |         |                |
| DLQ3    | 3231          | 588042.000 | c35_CORELIB_TYP     |         |                |
| IMAJ30  | 81            | 8845.200   | c35_CORELIB_TYP     |         |                |
| IMUX20  | 66            | 6006.000   | c35_CORELIB_TYP     |         |                |
| INV0    | 478           | 17399.201  | c35_CORELIB_TYP     |         |                |
| INV12   | 12            | 1092.000   | c35_CORELIB_TYP     |         |                |
| INV15   | 14            | 1528.800   | c35_CORELIB_TYP     |         |                |
| INV2    | 806           | 29338.402  | c35_CORELIB_TYP     |         |                |
| INV3    | 175           | 6370.000   | c35_CORELIB_TYP     |         |                |

| 35 INV6       | 6         | 327.600     | c35 COR | RELIB_TYP |
|---------------|-----------|-------------|---------|-----------|
| MAJ31         | 71        | 7753.200    | _       | ELIB_TYP  |
| 37 MUX21      | 384       | 41932.799   | _       | RELIB_TYP |
| MUX22         | 5         | 546.000     | _       | RELIB_TYP |
| 39 NAND20     | 2222      | 121321.196  | _       | RELIB_TYP |
| NAND21        | 143       | 7807.800    | _       | RELIB_TYP |
|               |           |             | _       | _         |
| 41 NAND22     | 13        | 709.800     | _       | ELIB_TYP  |
| NAND24        | 4         | 436.800     | _       | ELIB_TYP  |
| NAND28        | 24        | 4368.000    | _       | ELIB_TYP  |
| NAND30        | 68        | 4950.400    | _       | ELIB_TYP  |
| 45 NAND31     | 3         | 218.400     |         | ELIB_TYP  |
| NAND40        | 57        | 5187.000    | _       | ELIB_TYP  |
| 47 NAND41     | 143       | 13013.000   | _       | ELIB_TYP  |
| NAND42        | 3         | 436.800     |         | ELIB_TYP  |
| 49 NOR20      | 460       | 25115.999   |         | ELIB_TYP  |
| NOR21         | 29        | 1583.400    | c35_COR | ELIB_TYP  |
| 51 NOR22      | 5         | 364.000     | c35_COR | RELIB_TYP |
| NOR23         | 1         | 91.000      | c35_COR | RELIB_TYP |
| 53 NOR24      | 1         | 109.200     | c35_COR | ELIB_TYP  |
| NOR30         | 36        | 2620.800    | c35_COR | ELIB_TYP  |
| 55 NOR40      | 18        | 1310.400    | c35_COR | RELIB_TYP |
| OAI210        | 686       | 49940.802   | c35 COR | RELIB_TYP |
| 57 OAI2110    | 199       | 18109.000   | _       | ELIB_TYP  |
| OAI212        | 1         | 72.800      | _       | ELIB_TYP  |
| 59 OAI220     | 383       | 34853.000   |         | ELIB_TYP  |
| OAI310        | 28        | 2548.000    | _       | ELIB_TYP  |
| 61 XNR20      | 309       | 33742.799   | _       | ELIB_TYP  |
| XNR30         | 27        | 5405.400    | _       | ELIB_TYP  |
| 63 XNR31      | 11        | 2202.200    | _       | ELIB_TYP  |
| XOR20         | 13        | 1656.200    | _       | ELIB_TYP  |
| 65 XOR21      | 63        | 8026.200    | _       | RELIB_TYP |
| XOR30         | 10        | 2002.000    | _       | RELIB_TYP |
| 67 XOR31      | 10        | 2002.000    | _       | ELIB_TYP  |
| 6/ XUK31      | <b>T</b>  | 200.200     | C35_CON |           |
| 69 total      | 15310     | 1524959.795 |         |           |
| 71            |           |             |         |           |
| Type          | Instances | Area        | Area %  |           |
| 75 sequential | 3254      | 592846.800  | 38.9    |           |
| inverter      | 1616      | 60606.003   | 4.0     |           |
| 77 buffer     | 1536      | 83865.597   | 5.5     |           |
| logic         | 8904      | 787641.395  | 51.6    |           |
| total         | 15310     | 1524959.795 | 100.0   |           |

Listing B.5: RC Gate-Report der 2D-DFT

## C. VHDL-Code

#### C.1. Konstantendeklarationen

```
library IEEE;
use IEEE.STD_LOGIC_1164.ALL;

package constants is
   constant mat_size : integer;
   constant bit_width_extern : integer;
   constant bit_width_adder : integer;
   constant bit_width_multiplier : integer;
end constants;

package body constants is
   constant mat_size : integer := 8;
   constant bit_width_extern : integer := 13;
   constant bit_width_adder : integer := bit_width_extern+1;
   constant bit_width_multiplier : integer := bit_width_adder*2;
end constants;
```

Listing C.1: Deklaration der Konstanten

## C.2. Datentypendeklarationen

```
-- Package, welches ein 2D-Array bereitstellt.
-- Das 2D-Array besteht aus 1D-Arrays, dies bringr gegenueber der direkten Erzeugung (m,n) statt (m)(n) den Vorteil, dass
-- dass zeilen -- sowie spaltenweise zugewiesen werden kann. Sonst waere nur die komplette Matrix oder einzelne Elemente moeglich.

4 library IEEE;
use IEEE.STD_LOGIC_1164.ALL;
use ieee.numeric_std.all;
library work;
use work.all;
use constants.all;

package datatypes is
```

C. VHDL-Code 66

```
type t_1d_array is array(integer range 0 to mat_size-1) of signed(
     bit\_width\_extern-1 downto 0);
      type t_2d_array is array(integer range 0 to mat_size-1) of t_1d_array;
     type t_1d_array6_13bit is array(integer range 0 to 5) of signed(
     bit_width_adder-1 downto 0);
18
      subtype t_twiddle_coeff_long is signed(16 downto 0);
      constant twiddle_coeff_long : t_twiddle_coeff_long := "
     00101101010000010";
      subtype t_twiddle_coeff is signed(bit_width_adder-1 downto 0);
     --constant twiddle_coeff : t_twiddle_coeff := twiddle_coeff_long(16
     downto 16-(bit\_width\_adder-1));
     -- Zustandsautomat 1D-DFT
28
      subtype t_dft8_states is std_logic_vector(2 downto 0);
      constant idle
                                : t_dft8_states := "000";
30
                               : t_dft8_states := "001";
      constant twiddle_calc
      constant additions_stage1 : t_dft8_states := "010";
32
      constant additions_stage2 : t_dft8_states := "011";
                                : t_dft8_states := "100";
      constant const_mult
34
      constant additions_stage3 : t_dft8_states := "101";
      constant set_ready_bit : t_dft8_states := "110";
 end datatypes;
```

Listing C.2: Deklaration eigener Datentypen

#### C.3. Testwerte aus Datei einlesen

```
library IEEE;
use ieee.std_logic_1164.all;
use ieee.numeric_std.all;

library STD; — for reading text file
use STD.TEXTIO.ALL;
use ieee.std_logic_textio.all;

library work;
use work.all;
use datatypes.all;
use constants.all;

entity read_input_matrix is
```

C. VHDL-Code 67

```
16
    port (
          clk
                       : in
                              bit:
          loaded
                       : out bit;
18
          input_real
                      : out t_2d_array;
                      : out t_2d_array
          input_imag
20
        );
 end entity read_input_matrix;
  architecture bhv of read_input_matrix is
  begin
26
    reading :
                process
      variable
                   element_1_real : std_logic_vector(bit_width_extern-1
     downto 0) := (others => '0');
                   element_1_imag : std_logic_vector(bit_width_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
                   element_2_real : std_logic_vector(bit_width_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
                   element_2_imag : std_logic_vector(bit_width_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
                   element\_3\_real : std\_logic\_vector(bit\_width\_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
      variable
                   element_3_imag : std_logic_vector(bit_width_extern-1)
     downto 0) := (others \Rightarrow '0');
      variable
                   element_4_real : std_logic_vector(bit_width_extern-1
     downto 0) := (others \Rightarrow '0');
                   element_4_imag : std_logic_vector(bit_width_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
                   element_5_real : std_logic_vector(bit_width_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
      variable
                   element_5_imag : std_logic_vector(bit_width_extern -1
     downto 0) := (others \Rightarrow '0');
                   element_6_real : std_logic_vector(bit_width_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
      variable
                   element_6_imag : std_logic_vector(bit_width_extern-1)
     downto 0) := (others \Rightarrow '0');
                   element_7_real : std_logic_vector(bit_width_extern-1)
      variable
     downto 0) := (others \Rightarrow '0');
                   element_7_imag : std_logic_vector(bit_width_extern-1)
      variable
     downto 0) := (others \Rightarrow '0');
                   element_8_real : std_logic_vector(bit_width_extern-1
      variable
     downto 0) := (others \Rightarrow '0');
                   element_8_imag : std_logic_vector(bit_width_extern-1)
      variable
     downto 0) := (others => '0');
      variable
                   r_space
                            : character;
46
      variable
                 fstatus
                                  : file_open_status;
                                                          — status r,w
48
      variable
                 inline
                                         — readout line
                              : line;
            infile
                       : text;
                                        filehandle for reading ascii text
```

```
variable textfilename : string(1 to 29);
      begin
56
        if bit_width_extern = 12 then
58
           textfilename := "InputMatrix_komplex_12Bit.txt";
        else
60
          textfilename := "InputMatrix_komplex_16Bit.txt";
        end if;
62
64
        file_open(fstatus, infile, textfilename, read_mode);
           if fstatus = NAME\_ERROR then
66
             file_open(fstatus, infile, "HDL/InputMatrix_komplex.txt",
     read_mode);
              -report "Ausgabe-Datei befindet sich im Unterverzeichnis 'HDL
      1.00
           end if;
70
        for i in 0 to mat_size-1 loop
          wait until clk = '1' and clk'event;
            readline(infile, inline);
            read(inline , element_1_real);
            read(inline , r_space);
76
            read(inline, element_1_imag);
            read(inline , r_space);
78
            read(inline, element_2_real);
            read(inline , r_space);
            read(inline, element_2_imag);
            read(inline, r_space);
82
            read(inline, element_3_real);
            read(inline , r_space);
            read(inline, element_3_imag);
            read(inline, r_space);
86
            read(inline, element_4_real);
            read(inline , r_space);
88
            read(inline, element_4_imag);
            read(inline, r_space);
90
            read(inline, element_5_real);
            read(inline, r_space);
92
            read(inline, element_5_imag);
            read(inline , r_space);
            read(inline, element_6_real);
            read(inline , r_space);
96
            read(inline, element_6_imag);
            read(inline, r_space);
            read(inline, element_7_real);
```

```
read(inline , r_space);
100
             read(inline, element_7_imag);
             read(inline, r_space);
             read(inline, element_8_real);
             read(inline , r_space);
104
             read(inline, element_8_imag);
106
             input_real(i)(0) <= signed(element_1_real);
             input_imag(i)(0) <= signed(element_1_imag);
             input_real(i)(1) <= signed(element_2_real);
             input_imag(i)(1) <= signed(element_2_imag);
110
             input_real(i)(2) <= signed(element_3_real);
             input_imag(i)(2) <= signed(element_3_imag);
112
             input_real(i)(3) <= signed(element_4_real);
             input_imag(i)(3) <= signed(element_4_imag);
114
             input_real(i)(4) <= signed(element_5_real);</pre>
             input_imag(i)(4) <= signed(element_5_imag);</pre>
116
             input_real(i)(5) <= signed(element_6_real);
             input_imag(i)(5) \le signed(element_6_imag);
             input_real(i)(6) <= signed(element_7_real);
             input_imag(i)(6) \leq signed(element_7_imag);
             input_real(i)(7) <= signed(element_8_real);</pre>
             input_imag(i)(7) <= signed(element_8_imag);
122
             if i = mat\_size-1 then
124
               loaded <= '1' after 10 ns;</pre>
             end if;
         end loop;
         file_close(infile);
128
         wait;
130
    end process;
132
   end bhv;
```

Listing C.3: Eingangs-Matrix aus Textdatei einlesen

```
library ieee;
use ieee.std_logic_1164.all;
use ieee.numeric_std.all;

library work;
use work.all;
use datatypes.all;

entity read_input_matrix_tb is
end entity read_input_matrix_tb;

architecture arch of read_input_matrix_tb is

signal clk : bit := '0';
signal loaded : bit := '0';
```

```
signal input_real : t_2d_array;
    signal input_imag : t_2d_array;
    component read_input_matrix is
19
      port (
             clk
                         in
                                bit;
             loaded
                         : out bit;
             input_real : out t_2d_array;
23
             input_imag : out t_2d_array
25
          );
    end component;
    begin
29
      dut : read_input_matrix
        port map(
                               \Rightarrow clk.
31
                   clk
                   loaded
                              => loaded,
                   input_real => input_real,
                   input_imag => input_imag
                 );
35
      clk \le not clk after 20 ns;
  end arch;
```

Listing C.4: Testbench für das Einlesen aus einer Textdatei

# C.4. Ergebnisse in Datei schreiben

```
library IEEE;
  use ieee.std_logic_1164.all;
  use ieee.numeric_std.all;
  library STD; — for writing text file
  use STD.TEXTIO.ALL;
  use ieee.std_logic_textio.all;
 library work;
  use work.all;
 use datatypes.all;
  use constants.all;
  entity write_results is
    port (
17
         result_ready : in
                             bit;
         result_real : in
                             t_2d_array;
19
         result_imag : in
                             t_2d_array;
         write_done
                      : out bit
21
```

```
);
 end entity write_results;
  architecture bhv of write_results is
27
 begin
    writing_to_file : process(result_ready)
      variable fstatus : file_open_status; -- status r,w
      variable outline : line; — writeout line
31
                outfile : text; — filehandle
      file
33
      ---variable output1 : bit_vector(3 downto 0) := "0101";
      ---variable output2 : bit_vector(3 downto 0) := "0110";
35
      variable element_1_real : std_logic_vector(bit_width_extern-1 downto 0)
37
      variable element_1_imag : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_2_real : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_2_imag : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_3_real : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_3_imag : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_4_real : std_logic_vector(bit_width_extern-1 downto 0)
43
      variable element_4_imag : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_5_real : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_5_imag : std_logic_vector(bit_width_extern-1 downto 0)
      \label{logic_vector} \mbox{ variable element\_6\_real : std\_logic\_vector(bit\_width\_extern-1 \ \mbox{ downto } \ \ 0) }
      variable element_6_imag : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_7_real : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_7_imag : std_logic_vector(bit_width_extern-1 downto 0)
      variable element_8_real : std_logic_vector(bit_width_extern-1 downto 0)
51
      variable element_8_imag : std_logic_vector(bit_width_extern-1 downto 0)
      variable space : character := ' ';
53
      begin
```

```
file_open(fstatus, outfile, "/home/tlattmann/cadence/mat_mult/HDL/
57
      Results.txt", write_mode);
        ---if result_ready = '1' then
59
      for i in 0 to mat_size-1 loop
61
         element_1_real := std_logic_vector(result_real(i)(0));
         element_1_imag := std_logic_vector(result_imag(i)(0));
63
         element_2_real := std_logic_vector(result_real(i)(1));
         element_2_imag := std_logic_vector(result_imag(i)(1));
65
         element_3_real := std_logic_vector(result_real(i)(2));
         element_3_imag := std_logic_vector(result_imag(i)(2));
67
         element_4_real := std_logic_vector(result_real(i)(3));
         element_4_imag := std_logic_vector(result_imag(i)(3));
69
         element_5_real := std_logic_vector(result_real(i)(4));
         element_5_imag := std_logic_vector(result_imag(i)(4));
71
         element_6_real := std_logic_vector(result_real(i)(5));
         element_6_imag := std_logic_vector(result_imag(i)(5));
         element_7_real := std_logic_vector(result_real(i)(6));
         element_7_imag := std_logic_vector(result_imag(i)(6));
         element_8_real := std_logic_vector(result_real(i)(7));
         element_8_imag := std_logic_vector(result_imag(i)(7));
77
         write(outline, element_1_real);
         write (outline, space);
         write(outline, element_1_imag);
81
         write(outline, space);
         write(outline, element_2_real);
83
         write(outline, space);
         write(outline, element_2_imag);
85
         write(outline, space);
         write(outline, element_3_real);
87
         write(outline, space);
         write(outline, element_3_imag);
89
         write(outline, space);
         write(outline, element_4_real);
         write(outline, space);
         write(outline, element_4_imag);
93
         write(outline, space);
         write(outline, element_5_real);
95
         write(outline, space);
         write(outline, element_5_imag);
97
         write(outline, space);
         write(outline, element_6_real);
99
         write(outline, space);
         write(outline, element_6_imag);
101
         write(outline, space);
         write(outline, element_7_real);
103
         write(outline, space);
         write(outline, element_7_imag);
105
         write(outline, space);
```

```
write(outline, element_8_real);
    write(outline, space);
    write(outline, element_8_imag);

writeline(outfile, outline);
    end loop;

write_done <= '1';
    file_close(outfile);
    --end if;

end process;
end bhv;</pre>
```

Listing C.5: Ergebnis-Matrix in Textdatei schreiben

```
library IEEE;
  use ieee.std_logic_1164.all;
 use ieee.numeric_std.all;
  library STD; — for writing text file
  use STD. TEXTIO. ALL;
 use ieee.std_logic_textio.all;
  library work;
  use work.all;
 use datatypes.all;
  use constants.all;
13
  entity write_test_tb is
  end entity write_test_tb;
17
 architecture bhv of write_test_tb is
    signal clk
                         : bit;
21
    signal loaded
                         : bit;
    signal result_ready : bit;
    signal write_done
    signal loop_running : bit;
    signal loop_number : signed(2 downto 0);
    signal input_real
                        : t_2d_array;
    signal input_imag : t_2d_array;
                         : std_logic_vector(bit_width_extern -1 downto 0);
    signal output
29
    component read_input_matrix
31
      port (
            clk
                        : in
                              bit:
33
                      : out bit;
            loaded
            input_real : out t_2d_array;
35
            input_imag : out t_2d_array
```

```
);
    end component;
39
    component write_results
      port (
41
            result_ready : in bit;
            result_real : in t_2d_array;
43
            result_imag : in t_2d_array;
           write_done : out bit;
           loop_number : out signed(2 downto 0);
           loop_running : out bit;
47
                       : out std_logic_vector(bit_width_extern-1 downto 0)
           output
          );
    end component;
  begin
53
    mat : read_input_matrix
      port map(
55
                clk
                           \Rightarrow clk,
                          => loaded,
                loaded
57
                input_real => input_real,
                input_imag => input_imag
59
               );
61
    write : write_results
      port map(
                result_ready => result_ready ,
                result_real => input_real,
65
                result_imag => input_imag,
                write_done => write_done,
67
                loop_number => loop_number,
                loop_running => loop_running ,
69
                output
                             => output
               );
71
    result_ready <= loaded</pre>
                             after 20 ns;
73
    clk
                  <= not clk after 10 ns;
  end bhv;
```

Listing C.6: Testbensch für das schreiben in eine Textdatei

### C.5. Berechnung der 2D-DFT

```
library IEEE;
use IEEE.STD_LOGIC_1164.ALL;
use ieee.numeric_std.all;
library work;
```

```
use work.all;
  use datatypes.all;
  use constants.all;
10 library STD; — for reading text file
  use STD.TEXTIO.ALL;
 use ieee.std_logic_textio.all;
  entity dft8optimiert is
  port (
        clk
                       : in
                              bit;
16
                       : in
        nReset
                              bit:
18
        loaded
                       : in
                              bit;
                       : in
        input_real
                              t_2d_array;
                              t_2d_array;
20
        input_imag
                       : in
        result_real
                       : out t_2d_array;
        result_imag
                       : out t_2d_array;
                       : out bit;
        result_ready
        idft
                       : in
                               bit;
24
        state_out
                       : out t_dft8_states;
                     : out unsigned (5 downto 0);
        element_out
       dft_1d_2d_out : out bit
      );
  end dft8optimiert;
  architecture arch of dft8optimiert is
    signal dft_state , next_dft_state : t_dft8_states;
  begin
38
    FSM_TAKT: process(clk)
    begin
40
      if clk = '1' and clk' event then
         dft_state <= dft_state;</pre>
42
         state_out <= dft_state;</pre>
         if nReset = '0' then
44
           dft_state <= idle;</pre>
           state_out <= idle;</pre>
46
         elsif\ loaded = '0'\ then
           dft_state <= idle;</pre>
48
           state_out <= idle;</pre>
         elsif loaded='1' and dft_state = idle then
50
           dft_state <= twiddle_calc;</pre>
           state_out <= twiddle_calc;</pre>
52
         else
           dft_state <= next_dft_state;</pre>
           state_out <= next_dft_state;</pre>
```

```
end if;
56
       end if;
    end process;
58
60
    FSM_KOMB: process(dft_state)
       --constant twiddle_coeff: signed(16 downto 0):= "00010110101000001";
62
       variable twiddle_coeff : signed(bit_width_adder-1 downto 0);
       variable mult_re, mult_im : signed(bit_width_multiplier-1 downto 0);
66
       variable W_row, I_col : integer;
       variable dft_1d_real, dft_1d_imag : t_2d_array;
68
       variable matrix_real , matrix_imag : t_2d_array;
       variable temp_re, temp_im : t_1d_array6_13bit;
70
       variable temp14bit_re, temp14bit_im : signed(bit_width_adder downto 0);
       variable dft_1d_2d : bit;
                           : unsigned (5 downto 0) := "000000";
       variable element
74
       variable row_col_idx : integer := 0;
76
      ---variable LineBuffer : LINE;
78
80
    begin
      twiddle_coeff := "0001011010100";
82
      -- Flip-Flops
         — werden das 1. Mal sich selbst zu gewiesen, bevor sie einen Wert
84
      haben!
       result_ready <= '0';</pre>
                    := element;
       element
       dft_1d_2d
                    := dft_1d_2d;
88
      temp_re
                    := temp_re;
      temp_im
                    := temp_im;
       mult_re
                    := mult_re;
90
       mult_im
                    := mult_im;
       dft_1d_real := dft_1d_real;
92
       dft_1d_imag := dft_1d_imag;
       matrix_real := matrix_real;
94
       matrix_imag := matrix_imag;
       dft_1d_2d_out \le dft_1d_2d;
96
98
      -- Die Matrix hat 64 Elemente -> 2^6=64 -> 6-Bit Vektor passt genau.
      \label{eq:Ueberlauf} \mbox{ Ueberlauf = 1. Element vom naechsten Durchlauf.}
      -- Der Elemente-Vektor kann darueber hinaus in vordere Haelfte = Zeile
100
      und hintere Haelfte = Spalte augeteilt werden.
      -- So laesst sich auch ein Matrix-Element mit zwei Indizes ansprechen:
```

```
— Bei der IDFT sind die Zeilen 1 und 7, 2 und 6, 3 und 5 vertauscht. 1
       und 4 bleiben wie sie sind.
104
      row_col_idx := to_integer(element(5 downto 3)); -- Wird bei der
      Twiddlefaktor-Matrix als Zeilen-, bei der Zwischen- und
                                                           – Ausgangsmatrix als
106
      Spaltenindex verwendet.
       if idft = '1' then
         if row\_col\_idx = 0 then
           W_{row} := 0;
110
           W_row := 8-row_col_idx; -- Twiddlefaktor-Matrix
112
         end if;
       else
114
         W_row := row_col_idx; -- Twiddlefaktor-Matrix
116
       I_col := to_integer(element(2 downto 0)); -- Input-Matrix
118
120
       if element = "000000" then
         if dft_1d_2d = '0' then
122
           matrix_real := input_real;
           matrix_imag := input_imag;
124
         else
           matrix_real := dft_1d_real;
           matrix_imag := dft_1d_imag;
         end if;
128
       end if;
130
       case dft_state is
132
         when idle =>
           next_dft_state <= twiddle_calc;</pre>
134
         when twiddle_calc \Rightarrow -- dft_state_out = 1
136
           - Mit resize werden die 12 Bit Eingangswerte vorzeichengerecht auf
       13 Bit erweitert, um um die richtige Groesse zu haben.
           -- Bei der Addition muessen die Summanden die gleiche Bit-Breite
138
      wie der Ergebnis-Vektor haben.
           case W_row is
              – Die Faktoren (Koeffizienten) der Twiddlefaktor–Matrix W lassen
       sich ueber \exp(-i*2*pi*[0:7]'*[0:7]/8) berechnen.
             -- 1. Zeile aus W -> nur Additionen
             when 0 \Rightarrow
142
                 — Die 1. Zeile aus W besteht nur aus den Faktoren (1+j0).
      Daraus resultiert, dass die rellen
                 — und die imaginaeren Werte der Eingangs-Matrix unabhaengig
144
      von einander aufsummiert werden.
                 -- Real
```

```
temp_re(0) := resize(matrix_real(0)(l_col), bit_width_adder)
146
     + resize(matrix_real(1)(l_col), bit_width_adder);
                 temp_re(1) := resize(matrix_real(2)(l_col), bit_width_adder)
     + resize(matrix_real(3)(I_col), bit_width_adder);
                 temp_re(2) := resize(matrix_real(4)(I_col), bit_width_adder)
148
      + resize(matrix_real(5)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_real(6)(l_col), bit_width_adder)
     + resize(matrix_real(7)(l_col), bit_width_adder);
                 — Imag
150
                 temp_im(0) := resize(matrix_imag(0)(I_col), bit_width_adder)
     + \ resize ( \, matrix\_imag ( 1 ) ( \, I\_col ) \, , \ bit\_width\_adder ) \, ;
                 temp_{im}(1) := resize(matrix_imag(2)(I_col), bit_width_adder)
152
     + resize(matrix_imag(3)(l_col), bit_width_adder);
                 temp_im(2) := resize(matrix_imag(4)(I_col), bit_width_adder)
     + resize(matrix_imag(5)(I_col), bit_width_adder);
                 temp_im(3) := resize(matrix_imag(6)(l_col), bit_width_adder)
154
     + resize(matrix_imag(7)(l_col), bit_width_adder);
156
            -- 2. Zeile aus W besteht aus den Faktoren
            -- 0: ( 1.00000 \, + \, 0.00000\, i ), 1: ( 0.70711 \, + \, 0.70711\, i ), 2:
158
      (0.00000 + 1.00000i), 3: (-0.70711 + 0.70711i),
            -- 4: (-1.00000 + 0.00000i), 5: (-0.70711 - 0.70711i), 6:
      (0.00000 - 1.00000i), 7: (0.70711 - 0.70711i)
160
             --- Wegen der Faktoren (+/-0.70711 +/-0.70711i) haben die geraden
      Zeilen (beginnend bei 1) 12 statt 8 Subtraktionen
             -- Zunaechst werden die Werte aufsummiert, die mit dem Faktor 1 "
162
      multipliziert" werden muessen.
             — Dann werden die Werte aufsummiert, die mit 0,70711
      multipliziert werden muessen. Um sowohl den Quelltext und
            -- insbesondere auch den Platzbedarf auf dem Chip klein zuhalten,
164
       wird die Multiplikation auf die Summe aller und
             — nicht auf die einzelnen Werte angewandt.
             — Da immer genau die Haelfte der Faktoren positiv und die andere
166
       negativ ist, werden die Eingangswerte so sortiert,
            — dass keine Negationen noetig sind.
             when 1 \Rightarrow
168
                 temp_re(0) := resize(matrix_real(0)(I_col), bit_width_adder)
170
       resize(matrix_real(4)(l_col), bit_width_adder);
                 temp_re(1) := resize(matrix_imag(2)(I_col), bit_width_adder)
        resize(matrix_imag(6)(l_col), bit_width_adder);
                  MultPart
172
                 temp_re(2) := resize(matrix_real(1)(l_col), bit_width_adder)
        resize(matrix_real(3)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_imag(1)(I_col), bit_width_adder)
174
        resize(matrix_imag(7)(l_col), bit_width_adder);
                 temp_re(4) := resize(matrix_imag(3)(I_col), bit_width_adder)
      - resize(matrix_real(5)(l_col), bit_width_adder);
```

```
temp_re(5) := resize(matrix_real(7)(l_col), bit_width_adder)
176
     - resize(matrix_imag(5)(l_col), bit_width_adder);
                 — Imag
                 temp_im(0) := resize(matrix_imag(0)(I_col), bit_width_adder)
178
       resize(matrix_real(2)(l_col), bit_width_adder);
                 temp_im(1) := resize(matrix_real(6)(l_col), bit_width_adder)
        resize(matrix_imag(4)(I_col), bit_width_adder);
                 — MultPart
180
                 temp_im(2) := resize(matrix_imag(1)(l_col), bit_width_adder)
     - resize(matrix_real(1)(l_col), bit_width_adder);
                 temp_im(3) := resize(matrix_real(5)(l_col), bit_width_adder)
182
     - resize(matrix_real(3)(l_col), bit_width_adder);
                 temp_im(4) := resize(matrix_real(7)(l_col), bit_width_adder)
     - resize(matrix_imag(3)(l_col), bit_width_adder);
                 temp_{im}(5) := resize(matrix_{imag}(7)(I_{col}), bit_{width_{adder}})
184
      - resize(matrix_imag(5)(l_col), bit_width_adder);
            - 3. Zeile aus W
186
            -- 0: (1.00000 + 0.00000i), 1: (0.00000 + 1.00000i), 2: (-1.00000)
      + 0.00000i), 3: (-0.00000 - 1.00000i),
            -- 4: (1.00000 - 0.00000i), 5: (0.00000 + 1.00000i), 6: (-1.00000)
188
      + 0.00000i), 7: (-0.00000 - 1.00000i)
            when 2 \Rightarrow
                 -- Real
190
                 temp_re(0) := resize(matrix_real(0)(l_col), bit_width_adder)
     - resize(matrix_real(2)(I_col), bit_width_adder);
                 temp\_re(1) := resize(matrix\_imag(1)(I\_col), bit\_width\_adder)
       resize(matrix_imag(3)(l_col), bit_width_adder);
                 temp_re(2) := resize(matrix_real(4)(l_col), bit_width_adder)
       resize(matrix_real(6)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_imag(5)(l_col), bit_width_adder)
194
        resize(matrix_imag(7)(I_col), bit_width_adder);
                 ——Imag
                 temp_im(0) := resize(matrix_imag(0)(I_col), bit_width_adder)
196
     - resize(matrix_real(1)(l_col), bit_width_adder);
                 temp_im(1) := resize(matrix_real(3)(l_col), bit_width_adder)
       resize(matrix_imag(2)(I_col), bit_width_adder);
                 temp_im(2) := resize(matrix_imag(4)(l_col), bit_width_adder)
198
        resize(matrix_real(5)(l_col), bit_width_adder);
                 temp_im(3) := resize(matrix_real(7)(l_col), bit_width_adder)
      - resize(matrix_imag(6)(l_col), bit_width_adder);
200
            -- 4. Zeile aus W
             -- 0: (1.00000 + 0.00000i), 1: (-0.70711 + 0.70711i), 2:
202
      (-0.00000 - 1.00000i), 3: (0.70711 + 0.70711i)
             -4: (-1.00000 + 0.00000i), 5: (0.70711 - 0.70711i), 6: (
      0.00000 + 1.00000i), 7: (-0.70711 - 0.70711i)
             when 3 \Rightarrow
204
                 -- Real
                 temp_re(0) := resize(matrix_real(0)(l_col), bit_width_adder)
206
     - resize(matrix_imag(2)(l_col), bit_width_adder);
```

```
temp_re(1) := resize(matrix_imag(6)(I_col), bit_width_adder)
     - resize(matrix_real(4)(l_col), bit_width_adder);
                 -- MultPart
208
                 temp_re(2) := resize(matrix_imag(1)(l_col), bit_width_adder)
       resize(matrix_real(1)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_real(3)(l_col), bit_width_adder)
210
        resize(matrix_imag(5)(l_col), bit_width_adder);
                 temp_re(4) := resize(matrix_imag(3)(I_col), bit_width_adder)
        resize(matrix_imag(7)(l_col), bit_width_adder);
                 temp_re(5) := resize(matrix_real(5)(l_col), bit_width_adder)
        resize(matrix_real(7)(l_col), bit_width_adder);
                -- Imag
214
                 temp_{im}(0) := resize(matrix_imag(0)(I_col), bit_width_adder)
     - resize(matrix_imag(4)(I_col), bit_width_adder);
                 temp_{im}(1) := resize(matrix_real(2)(I_col), bit_width_adder)
216
       resize(matrix_real(6)(l_col), bit_width_adder);
                 -- MultPart
                 temp_im(2) := resize(matrix_imag(3)(I_col), bit_width_adder)
218
     - resize(matrix_real(1)(l_col), bit_width_adder);
                 temp_{im}(3) := resize(matrix_real(5)(I_col), bit_width_adder)
        resize(matrix_imag(1)(l_col), bit_width_adder);
                 temp_im(4) := resize(matrix_imag(5)(I_col), bit_width_adder)
220
        resize(matrix_real(3)(I_col), bit_width_adder);
                 temp_im(5) := resize(matrix_real(7)(l_col), bit_width_adder)
     - resize(matrix_imag(7)(l_col), bit_width_adder);
             -- 5. Zeile
            -- 0: (1.00000 + 0.00000i), 1: (-1.00000 + 0.00000i), 2: (1.00000)
224
      -0.00000i), 3: (-1.00000 + 0.00000i),
            -- 4: (1.00000 - 0.00000i), 5: (-1.00000 + 0.00000i), 6: (1.00000
      -0.00000i), 7: (-1.00000 + 0.00000i)
            when 4 \Rightarrow
226
                  - Real
                 temp_re(0) := resize(matrix_real(0)(l_col), bit_width_adder)
228
     - resize(matrix_real(1)(I_col), bit_width_adder);
                 temp_re(1) := resize(matrix_real(2)(I_col), bit_width_adder)
        resize(matrix_real(3)(l_col), bit_width_adder);
                 temp\_re(2) := resize(matrix\_real(4)(I\_col), bit\_width\_adder)
230
     - resize(matrix_real(5)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_real(6)(I_col), bit_width_adder)
     - resize(matrix_real(7)(l_col), bit_width_adder);
                  Imag
232
                 temp_im(0) := resize(matrix_imag(0)(l_col), bit_width_adder)
     - resize(matrix_imag(1)(l_col), bit_width_adder);
                 temp_{im}(1) := resize(matrix_{imag}(2)(I_{col}), bit_{width_adder})
234
     - resize(matrix_imag(3)(l_col), bit_width_adder);
                 temp_im(2) := resize(matrix_imag(4)(I_col), bit_width_adder)
     - resize(matrix_imag(5)(l_col), bit_width_adder);
                 temp_im(3) := resize(matrix_imag(6)(l_col), bit_width_adder)
236
     - resize(matrix_imag(7)(l_col), bit_width_adder);
```

```
-- 6. Zeile
238
            -- 0: ( 1.00000 + 0.00000i), 1: (-0.70711 - 0.70711i), 2: (
      0.00000 + 1.00000i), 3: ( 0.70711 - 0.70711i),
             -- 4: (-1.00000 + 0.00000i) 5: (0.70711 + 0.70711i), 6:
240
      (-0.00000 - 1.00000i), 7: (-0.70711 + 0.70711i)
             when 5 \Rightarrow
                 — Real
242
                 temp_re(0) := resize(matrix_real(0)(l_col), bit_width_adder)
     - resize(matrix_real(4)(l_col), bit_width_adder);
                 temp_re(1) := resize(matrix_imag(2)(I_col), bit_width_adder)
244
     - resize(matrix_imag(6)(l_col), bit_width_adder);
                 -- MultPart
                 temp_re(2) := resize(matrix_real(3)(I_col), bit_width_adder)
246
     - resize(matrix_real(1)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_real(5)(l_col), bit_width_adder)
       resize(matrix_imag(1)(l_col), bit_width_adder);
                 temp_re(4) := resize(matrix_imag(5)(l_col), bit_width_adder)
       resize(matrix_imag(3)(I_col), bit_width_adder);
                 temp_re(5) := resize(matrix_imag(7)(I_col), bit_width_adder)
       resize(matrix_real(7)(l_col), bit_width_adder);
                 -- Imag
250
                 temp_{im}(0) := resize(matrix_imag(0)(I_col), bit_width_adder)
     - resize(matrix_real(2)(l_col), bit_width_adder);
                 temp_im(1) := resize(matrix_real(6)(l_col), bit_width_adder)
252
       resize(matrix_imag(4)(I_col), bit_width_adder);
                 ---MultPart
                 temp_{im}(2) := resize(matrix_real(1)(I_col), bit_width_adder)
254
       resize(matrix_imag(1)(l_col), bit_width_adder);
                 temp_im(3) := resize(matrix_real(3)(l_col), bit_width_adder)
     - resize(matrix_real(5)(l_col), bit_width_adder);
                 temp_im(4) := resize(matrix_imag(3)(I_col), bit_width_adder)
256
       resize(matrix_real(7)(l_col), bit_width_adder);
                 temp_im(5) := resize(matrix_imag(5)(l_col), bit_width_adder)
     - resize(matrix_imag(7)(l_col), bit_width_adder);
            -- 7. Zeile
            -- 0: (1.00000 + 0.00000i), 1: (-0.00000 - 1.00000i), 2:
260
      (-1.00000 + 0.00000i), 3: (0.00000 + 1.00000i),
            -- 4: (1.00000 - 0.00000i), 5: (-0.00000 - 1.00000i), 6:
      (-1.00000 + 0.00000i), 7: (-0.00000 + 1.00000i)
            when 6 \Rightarrow
262
                  - Real
                 temp_re(0) := resize(matrix_real(0)(l_col), bit_width_adder)
264
     - resize(matrix_imag(1)(l_col), bit_width_adder);
                 temp_re(1) := resize(matrix_imag(3)(I_col), bit_width_adder)
     - resize(matrix_real(2)(l_col), bit_width_adder);
                 temp\_re(2) := resize(matrix\_real(4)(I\_col), bit\_width\_adder)
266
     - resize(matrix_imag(5)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_imag(7)(I_col), bit_width_adder)
     - resize(matrix_real(6)(l_col), bit_width_adder);
```

```
— Imag
268
                 temp_{im}(0) := resize(matrix_imag(0)(I_col), bit_width_adder)
     - resize(matrix_imag(2)(l_col), bit_width_adder);
                 temp_im(1) := resize(matrix_real(1)(I_col), bit_width_adder)
270
      - resize(matrix_real(3)(l_col), bit_width_adder);
                 temp_im(2) := resize(matrix_imag(4)(l_col), bit_width_adder)
       resize(matrix_imag(6)(l_col), bit_width_adder);
                 temp_im(3) := resize(matrix_real(5)(l_col), bit_width_adder)
272
     - resize(matrix_real(7)(l_col), bit_width_adder);
            -- 8. Zeile
274
            -- 0: ( 1.00000 + 0.00000i), 1: ( 0.70711 - 0.70711i), 2:
      (-0.00000 - 1.00000i), 3: (-0.70711 - 0.70711i),
            -- 4: (-1.00000 + 0.000000i), 5: (-0.70711 + 0.70711i), 6:
276
      (-0.00000 + 1.00000i), 7: (0.70711 + 0.70711i)
            when 7 \Rightarrow
                  Real
278
                 temp_re(0) := resize(matrix_real(0)(l_col), bit_width_adder)
     - resize(matrix_imag(2)(l_col), bit_width_adder);
                 temp_re(1) := resize(matrix_imag(6)(l_col), bit_width_adder)
280
      - resize(matrix_real(4)(l_col), bit_width_adder);
                 ---MultPart
                 temp_re(2) := resize(matrix_real(1)(I_col), bit_width_adder)
282
     - resize(matrix_imag(1)(l_col), bit_width_adder);
                 temp_re(3) := resize(matrix_imag(5)(l_col), bit_width_adder)
       resize(matrix_real(3)(I_col), bit_width_adder);
                 temp_re(4) := resize(matrix_real(7)(l_col), bit_width_adder)
       resize(matrix_imag(3)(l_col), bit_width_adder);
                 temp_re(5) := resize(matrix_imag(7)(I_col), bit_width_adder)
       resize(matrix_real(5)(l_col), bit_width_adder);
                 -- Imag
286
                 temp_{im}(0) := resize(matrix_imag(0)(I_col), bit_width_adder)
     - resize(matrix_imag(4)(I_col), bit_width_adder);
                 temp_im(1) := resize(matrix_real(2)(l_col), bit_width_adder)
288
       resize(matrix_real(6)(l_col), bit_width_adder);
                 ---MultPart
                 temp_{im}(2) := resize(matrix_real(1)(l_col), bit_width_adder)
290
     - resize(matrix_imag(3)(l_col), bit_width_adder);
                 temp_{im}(3) := resize(matrix_imag(1)(I_col), bit_width_adder)
     - resize(matrix_real(5)(l_col), bit_width_adder);
                 temp_{im}(4) := resize(matrix_real(3)(I_col), bit_width_adder)
292
     - resize(matrix_imag(5)(l_col), bit_width_adder);
                 temp_{im}(5) := resize(matrix_{imag}(7)(I_{col}), bit_{width_{adder}})
      - resize(matrix_real(7)(l_col), bit_width_adder);
294
             when others => element := element; -- "dummy arbeit", es sind
      bereits alle Faelle abgedeckt!
           end case;
296
           next_dft_state <= additions_stage1;</pre>
298
```

```
300
        when additions_stage1 => -- dft_state_out = 2
302
          — Es wird vor jeder Addition ein Bitshift auf die Summanden
      angewandt, um den Wertebereich der Speichervariable beim
      zurueckschreiben nicht zu ueberschreiten (1. Mal)
304
          — Zeilen 1, 3, 5, 7 (ungerade) aufsummieren (bzw. 0(000XXX), 2(010
     XXX), 4(100XXX), 6(110XXX) beginnend bei 0)
           if element(3) = '0' then
306
308
310
            -- Real
             temp_re(0) := resize(temp_re(0)(bit_width_adder-1 downto 1),
      bit_width_adder) + resize(temp_re(1)(bit_width_adder-1 downto 1),
      bit width adder);
             temp_re(1) := resize(temp_re(2)(bit_width_adder-1 downto 1),
      bit_width_adder) + resize(temp_re(3)(bit_width_adder-1 downto 1),
      bit_width_adder);
             — Imag
             temp_im(0) := resize(temp_im(0)(bit_width_adder-1 downto 1),
314
      bit_width_adder) + resize(temp_im(1)(bit_width_adder-1 downto 1),
      bit_width_adder);
             temp_im(1) := resize(temp_im(2)(bit_width_adder-1 downto 1),
      bit_width_adder) + resize(temp_im(3)(bit_width_adder-1 downto 1),
      bit_width_adder);
           else
316
            -- gerade Zeilen aus W
            -- Real
318
            ---ConstPart
             temp_re(0) := resize(temp_re(0)(bit_width_adder-1 downto 1),
320
      bit_width_adder) + resize(temp_re(1)(bit_width_adder-1 downto 1),
      bit_width_adder);
             -- MultPart
             temp_re(2) := resize(temp_re(2)(bit_width_adder-1 downto 1),
322
      bit_width_adder) + resize(temp_re(3)(bit_width_adder-1 downto 1),
      bit_width_adder);
             temp_re(4) := resize(temp_re(4)(bit_width_adder-1 downto 1),
      bit\_width\_adder) + resize(temp\_re(5)(bit\_width\_adder-1 downto 1),
      bit_width_adder);
              Imag
324
             ---ConstPart
            temp_im(0) := resize(temp_im(0)(bit_width_adder-1 downto 1),
326
      bit_width_adder) + resize(temp_im(1)(bit_width_adder-1 downto 1),
      bit_width_adder);
            -- MultPart
             temp_im(2) := resize(temp_im(2)(bit_width_adder-1 downto 1),
328
      bit_width_adder) + resize(temp_im(3)(bit_width_adder-1 downto 1),
      bit_width_adder);
```

```
temp_im(4) := resize(temp_im(4)(bit_width_adder-1 downto 1),
      bit_width_adder) + resize(temp_im(5)(bit_width_adder-1 downto 1),
      bit_width_adder);
           end if;
330
           next_dft_state <= additions_stage2;</pre>
332
334
        when additions_stage2 => -- dft_state_out = 3
          — Es wird vor jeder Addition ein Bitshift auf die Summanden
336
      angewandt, um den Wertebereich der Speichervariable nicht zu
      ueberschreiten (2. Mal)
           — Zusaetzlich wird wird beim Zuweisen der ungeraden Zeilen an die
      1D-DFT-Matrix zwei wweitere Male geshiftet.
          — 1 Mal, um den Wertebereich der 1D— bzw. 2D—DFT—Matrix klein
338
      genug zu halten, ein weiteres Mal, um gleich oft wie bei den geraden
      Zeilen zu shiften
          — Zeilen 1, 3, 5, 7 (wie oben)
340
           if element(3) = '0' then
342
               -- Real
               temp_re(0) := resize(temp_re(0)(bit_width_adder-1 downto 1),
344
      bit_width_adder) + resize(temp_re(1)(bit_width_adder-1 downto 1),
      bit_width_adder);
                Imag
               temp_im(0) := resize(temp_im(0)(bit_width_adder-1 downto 1),
      bit_width_adder) + resize(temp_im(1)(bit_width_adder-1 downto 1),
      bit_width_adder);
               — Hier werden die Bits um 2 Stellen nach rechts geschoben,
348
      damit die Werte mit den Zeilen 2, 4, 6, 8 vergleichbar sind. Dort wird
      insgesamt gleich

    oft geshiftet, aber auch 1x mehr aufaddiert.

               -- Indizes vertauschen -> Transponiert abspeichern
350
               if dft_1d_2d = '0' then
                   dft_1d_real(I_col)(row_col_idx) := resize(temp_re(0)(
352
      bit_width_adder-1 downto 2), bit_width_extern);
                   dft_1d_{imag}(l_{col})(row_{col}idx) := resize(temp_{im}(0)(
      bit_width_adder-1 downto 2), bit_width_extern);
354
                   result_real(l_col)(row_col_idx) <= resize(temp_re(0)(
      bit_width_adder-1 downto 2), bit_width_extern);
                   result_imag(l_col)(row_col_idx) <= resize(temp_im(0)(</pre>
356
      bit_width_adder-1 downto 2), bit_width_extern);
               end if:
358
               element := element + 1;
               element_out <= element;</pre>
360
               -- naechster Zustand
362
```

```
next_dft_state <= twiddle_calc;</pre>
           else
               -- Real
366
               temp_re(2) := resize(temp_re(2)(bit_width_adder-1 downto 1),
      bit_width_adder) + resize(temp_re(4)(bit_width_adder-1 downto 1),
      bit_width_adder);
368
               — Imag
               temp_im(2) := resize(temp_im(2)(bit_width_adder-1 downto 1),
370
      bit_width_adder) + resize(temp_im(4)(bit_width_adder-1 downto 1),
      bit_width_adder);
               — naechster Zustand
372
               next_dft_state <= const_mult;</pre>
           end if:
374
376
        when const_mult => -- dft_state_out = 4
378
          — Der Zielvektor der Multiplikation ist 26 Bit breit, die beiden
      Multiplikanten sind mit je 13 Bit wie gefordert halb so breit.
380
          — Zeilen 2, 4, 6, 8 (vergleichbar mit oben)
           mult_re := temp_re(2) * twiddle_coeff; --(16 downto 16-(
382
      bit_width_adder -1));
           mult_im := temp_im(2) * twiddle_coeff; --(16 downto 16-(
      bit_width_adder -1));
384
           next_dft_state <= additions_stage3;</pre>
386
        when additions_stage3 => -- dft_state_out = 5
388
            — Die vordersten 12 Bit des Multiplikationsergebnisses werden
390
      verwendet und um 1 Bit nach rechts geshiftet, damit der Wert halbiert
      wird und der Zielvektor spaeter keinen Ueberlauf hat.
          — Um wieder die vollen 13 Bit zu erhalten, wird die resize—
      Funktion verwendet.
          -- Real
392
           temp14bit_re := resize(mult_re(bit_width_multiplier-4 downto
394
      bit_width_multiplier-4-bit_width_extern), bit_width_adder+1) + resize(
      temp_re(0)(bit_width_adder-1 downto 1), bit_width_adder+1);
           temp_re(0) := temp14bit_re(bit_width_adder downto 1);
396
          -- Imag
           temp14bit_im := resize(mult_im(bit_width_multiplier-4 downto
398
      bit\_width\_multiplier-4-bit\_width\_extern), bit\_width\_adder+1) + resize(
      temp_im(0)(bit_width_adder-1 downto 1), bit_width_adder+1);
           temp_im(0) := temp14bit_im(bit_width_adder downto 1);
```

```
400
                                                                 — Indizes vertauschen —> Transponiert abspeichern
                                                                  if dft_1d_2d = '0' then
402
                                                                               \mathsf{dft\_1d\_real} \big( \, \mathsf{I\_col} \, \big) \big( \, \mathsf{row\_col\_idx} \, \big) \; := \; \mathsf{temp\_re} \big( \, \mathsf{0} \, \big) \, \big( \, \mathsf{bit\_width\_adder} \, - 1 \, \mathsf{0} \, \big) \, \big( \, \mathsf{bit\_width\_adder} \, - 1 \, \mathsf{0} \, \mathsf{0} \, \big) \, \big( \, \mathsf{bit\_width\_adder} \, - 1 \, \mathsf{0} \, \mathsf{0
                                                                               dft_1d_{mag}(I_{col})(row_{col_idx}) := temp_{im}(0)(bit_width_adder-1)
404
                                     downto 1);
                                                                  else
                                                                                result\_real(I\_col)(row\_col\_idx) \le temp\_re(0)(bit\_width\_adder-1)
                                     downto 1);
                                                                                result_imag(l_col)(row_col_idx) <= temp_im(0)(bit_width_adder-1</pre>
                                     downto 1);
                                                                  end if;
408
                                                                   next_dft_state <= twiddle_calc;</pre>
410
                                                                   if element = 63 then
                                                                               if dft_1d_2d = '1' then
412
                                                                                            next_dft_state <= set_ready_bit;</pre>
                                                                               end if;
414
                                                                               dft_1d_2d := not dft_1d_2d;
                                                                               dft_1d_2d_out <= dft_1d_2d;
416
                                                                  end if;
418
420
                                                                  element := element + 1;
                                                                  element_out <= element;
                                                     when set_ready_bit =>
424
                                                                   result_ready <= '1';</pre>
                                                                   next_dft_state <= twiddle_calc;</pre>
426
428
                                                     when others => next_dft_state <= twiddle_calc;</pre>
                                         end case;
430
                           end process;
               end arch;
```

Listing C.7: Berechnung der 2D-DFT

```
result_imag : out t_2d_array
 end entity dft8optimiert_top;
16 architecture arch of dft8optimiert_top is
18
    signal nReset
                         : bit;
    signal clk
                         : bit;
    signal input_real : t_2d_array;
    signal input_imag
                        : t_2d_array;
    signal result_real : t_2d_array;
    signal result_imag
                         : t_2d_array;
                         : bit;
    signal loaded
    signal result_ready : bit;
    signal write_done
                         : bit;
26
                         : bit := '0':
    signal idft
28
                        : t_dft8_states;
    signal state_out
    signal element_out : unsigned(5 downto 0);
30
    signal dft_1d_2d_out : bit;
32
    component dft8optimiert
34
      port (
            clk
                           : in
                                 bit;
36
            nReset
                           : in
                                 bit:
            loaded
                                 bit;
                          : in
                         : in t_2d_array;
            input_real
            input_imag
                          : in t_2d_array;
40
            result_real
                          : out t_2d_array;
            result_imag : out t_2d_array;
42
            result_ready : out bit;
            idft
                          : in
                                 bit:
44
            state_out
                          : out t_dft8_states;
            element_out : out unsigned(5 downto 0);
46
            dft_1d_2d_out : out bit
          );
48
    end component;
50
    component read_input_matrix
52
      port (
            clk
                       : in
                              bit;
            loaded
                       : out bit;
            input_real : out t_2d_array;
56
            input_imag : out t_2d_array
          );
58
    end component;
60
    component write_results
```

```
port (
              result_ready : in bit;
              result_real : in t_2d_array;
              result_imag : in t_2d_array;
66
              write_done
                            : out bit
            );
68
     end component;
70
     begin
72
       dft : dft8optimiert
         port map(
74
                     nReset
                                    \Rightarrow nReset,
                     clk
                                    \Rightarrow clk,
76
                     loaded
                                    => loaded,
                     input_real
                                    => input_real,
78
                     input_imag
                                    => input_imag,
                     result_real
                                    => result_real,
                     result_imag
                                    => result_imag ,
                     result_ready => result_ready ,
82
                     idft
                                     \Rightarrow idft,
                                    => state_out,
                     state_out
84
                     element_out
                                    => element_out,
                     dft_1d_2d_out \Rightarrow dft_1d_2d_out
86
                   );
88
        mat : read_input_matrix
           port map(
90
                     clk
                                  \Rightarrow clk,
                                  => loaded,
                     loaded
92
                     input_real => input_real,
                     input_imag => input_imag
                    );
       write : write_results
         port map(
98
                    result_ready => result_ready ,
                    result_real => result_real,
100
                    result_imag => result_imag ,
                    write_done
                                  => write_done
102
                   );
104
              <= not clk after 20 ns;</pre>
       nReset <= '1' after 40 ns;
106
108 end arch;
```

Listing C.8: Top-Level-Entität der 2D-DFT

### D.1. Bash-Skript zum Ausführen des Tests

```
#!/bin/bash

matlab_script="binMat2decMat.m"

./simulate.sh && matlab —nojvm —nodisplay —nosplash —r $matlab_script

stty echo
```

Listing D.1: Aufruf der Testumgebung, Vergleich von VHDL- und Matlab-Ergebnissen

# D.2. Skript zum Kompilieren und Simulieren des VHDL-Programms

```
1 #! / bin / bash
 # global settings
 errormax=15
 worklib=worklib
 #testbench=top_level_tb
 testbench=dft8optimiert_top
 architecure=arch
 simulation_time="1500 ns"
 # VHDL-files
 constant_declarations="constants.vhdl"
 datatype_declarations="datatypes.vhdl"
 main_entity="dft8optimiert.vhdl"
 top_level_entity="dft8_optimiert_top.vhdl"
 #top_level_testbench=
 embedded_entity_1="read_input_matrix.vhdl"
 embedded_entity_2="write_results.vhdl"
```

```
constant_declarations=$directory$constant_declarations
  datatype_declarations=$directory$datatype_declarations
  function_declerations=$directory$function_declerations
  main_entity=$directory$main_entity
  top_level_entity=$directory$top_level_entity
#top_level_testbench=$directory$top_level_testbench
  \verb|embedded_entity_1| = \$|directory\$| = \texttt|embedded_entity_1|
  embedded_entity_2=$directory$embedded_entity_2
 # libs und logfiles
 cdslib="cds.lib"
  elab_logfile="ncelab.log"
  ncvhdl_logfile="nchvdl.log"
  ncsim_logfile="ncsim.log"
  cdslib=${base_dir}${work_dir}${cdslib}
  elab_logfile=${dirctory}${elab_logfile}
  ncvhdl_logfile=${ directory }${ ncvhdl_logfile }
  ncsim_logfile=${directory}${ncsim_logfile}
  ##
  ncvhdl \
53 —work $worklib \
  -cdslib $cdslib \
55 - logfile $ncvhdl_logfile \
  −errormax \ \
57 −update \
  -v93 \
59 — linedebug \
  $constant_declarations \
61 $datatype_declarations \
  $embedded_entity_1 \
63 Sembedded_entity_2 \
  $main_entity \
65 | $top_level_entity \
  #$top_level_testbench
67 #-status \
69 ncelab \
  -work $worklib \
71 -cdslib $cdslib \
 -logfile $elab_logfile \
73 −errormax $errormax \
  −access +wc \
75 $ { worklib } . $ { testbench }
 #-status \
```

```
ncsim \
 -cdslib $cdslib \
 -logfile $ncsim_logfile \
 −errormax $errormax \
 −exit \
 ${worklib}.${testbench}:${architecure} \
 -input testRUN.tcl
 #-status \
 #ncvhdl -work worklib -cdslib /home/tlattmann/cadence/mat_mult/cds.lib -
     logfile /home/tlattmann/cadence/mat_mult/nchvdl.log -errormax 15 -update
      -v93 -linedebug /home/tlattmann/cadence/mat_mult/HDL/constants.vhdl /
     home/tlattmann/cadence/mat_mult/HDL/datatypes.vhdl/home/tlattmann/
     cadence/mat_mult/HDL/functions.vhdl /home/tlattmann/cadence/mat_mult/HDL
     /read_input_matrix.vhdl /home/tlattmann/cadence/mat_mult/HDL/
     write_results.vhdl /home/tlattmann/cadence/mat_mult/HDL/dft8optimiert.
     vhdl /home/tlattmann/cadence/mat_mult/HDL/dft8_optimiert_top.vhdl -
     status
_{91} #ncelab —work worklib —cdslib /home/tlattmann/cadence/mat_mult/cds.lib —
     logfile /home/tlattmann/cadence/mat_mult/ncelab.log -errormax 15 -access
      +wc worklib.dft8optimiert_top -status
gs #ncsim — cdslib /home/tlattmann/cadence/mat_mult/cds.lib — logfile /home/
     tlattmann/cadence/mat_mult/ncsim.log -errormax 15 worklib.
     dft8_optimiert_top:arch -input testRUN.tcl -status
 #database -open waves -into waves.shm -default
 #probe —create —shm :clk :input_imag :input_real :loaded :mult_im_out :
     mult_re_out :multState_out :nReset :result_imag :result_ready :
     result_real :sum1_stage1_3v6_re_out :sum1_stage2_2v3_re_out :
     sum1_stage2_3v3_re_out :sum1_stage3_1v1_re_out :sum3_stage1_im_out :
     sum3_stage1_re_out :sum3_stage2_im_out :sum3_stage2_re_out :
     sum3_stage3_im_out :sum3_stage3_re_out :sum3_stage4_im_out :
     sum3_stage4_re_out :write_done
```

Listing D.2: Simulations des VHDL-Quelltextes

```
run 32 us
```

Listing D.3: Dauer der Simulation

### D.3. Matlab-Skript zur Berechnung der Referenzwerte

```
filename_2 = 'InputMatrix_komplex.txt';
filename_1 = 'Results.txt';
```

```
delimiterIn = ' ';
  bit_width_extern = 13
 Input_bin = importdata(filename_2, delimiterIn);
  Input_bin_real = Input_bin(:,1:2:end);
  Input_bin_imag = Input_bin(:,2:2:end);
  Results_vhdl_bin = importdata(filename_1, delimiterIn);
  Results_vhdl_bin_real = Results_vhdl_bin(:,1:2:end);
  Results_vhdl_bin_imag = Results_vhdl_bin(:,2:2:end);
 Input_dec_imag = nan(8);
  Results_vhdl_dec_real = nan(8);
 Results_vhdl_dec_imag = nan(8);
  Result_octave_real_1d = nan(8);
 Result_octave_imag_1d = nan(8);
 a=fi(0,1,bit_width_extern,bit_width_extern-2);
 N = 8:
 for m = 1:N
    for n = 1:N
      a.bin=mat2str(Results_vhdl_bin_real(m,n),bit_width_extern);
      Results_vhdl_dec_real(m, n) = a.double;
      a.bin=mat2str(Results_vhdl_bin_imag(m,n),bit_width_extern);
31
      Results\_vhdl\_dec\_imag(m,n) = a.double;
33
      a.bin=mat2str(Input_bin_real(m,n),bit_width_extern);
      Input_dec_real(m, n) = a.double;
35
      a.bin=mat2str(Input_bin_imag(m,n),bit_width_extern);
      Input\_dec\_imag(m,n) = a.double;
37
    end
 end
  Input_dec=Input_dec_real+1i*Input_dec_imag;
|TW = \exp(-i *2 * pi * [0:7] ' * [0:7] / 8);
47
 %Result_octave_1d=TW*Input_dec;
 %Result_octave_real_1d=real(Result_octave_1d.')/16
 %Result_octave_imag_1d=imag(Result_octave_1d)
```

```
Result_octave=TW*Input_dec*TW.';
Result_octave=Result_octave./256;

Results_vhdl_dec_real
Result_octave_real=real(Result_octave)

Result_octave_imag=imag(Result_octave);
Results_vhdl_dec_imag;

diff_real=Result_octave_real-Results_vhdl_dec_real
diff_imag=Result_octave_imag-Results_vhdl_dec_imag;

quit
```

Listing D.4: Berechnung der Differenzen der DFT in Matlab und VHDL

# E. Cadence Tutorial

# **Encounter-Tutorial**

Thomas Lattmann

5. Mai 2017

# Inhaltsverzeichnis

| 1 | Einl        | Einleitung 3                                             |    |  |  |
|---|-------------|----------------------------------------------------------|----|--|--|
|   | 1.1         | Überblick                                                | 3  |  |  |
|   | 1.2         | Was ist Cadence?                                         | 3  |  |  |
|   | 1.3         | Server-Login                                             | 3  |  |  |
|   |             | 1.3.1 Der Bash-Befehl                                    | 3  |  |  |
|   |             | 1.3.2 Einstellungen in der SSH-Konfiguration speichern   | 4  |  |  |
|   |             | 1.3.3 Bash-Befehl zum Einbinden des Serverdateisystems   | 4  |  |  |
|   |             | 1.3.4 Login- & Mount-Skript für den Cadence-Server       | 4  |  |  |
| 2 | Vor         | bereitungen                                              | 6  |  |  |
| 3 | Dur         | chführung                                                | 7  |  |  |
|   | 3.1         | HDL-Synthese mit rc                                      | 7  |  |  |
|   | 3.2         | Von der Netzliste zum Core                               | 8  |  |  |
|   |             | 3.2.1 ams-spezifische Befehle                            | 8  |  |  |
|   |             | 3.2.2 Design-Konfigurationsdatei für encounter erstellen | 8  |  |  |
|   | 3.3         | encounter                                                | 10 |  |  |
| 4 | Anmerkungen |                                                          |    |  |  |
|   | 4.1         | O                                                        | 14 |  |  |
|   | 4.2         | O                                                        | 14 |  |  |
|   | 4.3         | 0 00                                                     | 15 |  |  |
|   | 4.4         | 0 0                                                      | 15 |  |  |
|   | 4.5         |                                                          | 16 |  |  |
|   | 4.6         |                                                          | 16 |  |  |
|   | 4.7         | Gajski-Diagramm                                          | 17 |  |  |
| 5 | Anh         | ang                                                      | 18 |  |  |
|   | 5.1         | <u></u>                                                  | 18 |  |  |
|   | 5.2         | counter.vhdl                                             | 20 |  |  |
|   | 5.3         |                                                          | 21 |  |  |
|   | 5.4         | ( )                                                      | 22 |  |  |
|   | 5.5         | 1                                                        | 22 |  |  |
|   | 5.6         | c35b3.conf - Design-Konfigurationsdatei                  | 30 |  |  |
|   | 5.7         | Skript für einfachen Login                               | 39 |  |  |

# 1 Einleitung

## 1.1 Überblick

Dieses Tutorial soll ein detaillierter Leitfaden für den Einstieg in die Cadence-Umgebung sein. Es wird das Design eines vollständigen Chip-Cores inklusive Timingsimulation mit den Standardzellen der Firma Austria Microsystems (ams) behandelt. In diesem Tutorial wird die Bibliothek c35b3 verwendet, welche festlegt, dass es sich um einen  $35\mu$ m-Prozess mit 3 Metalllagen handelt. Die Herangehensweise wird beispielhaft an einem einfachem Zähler erläutert, welcher in Listing 5.2 zu finden ist. Listing 5.3 ist die zur Simulation in Modelsim oder NCSim nötige Testbench. Die Anleitung beschränkt sich i.d.R. auf die Befehle für die Kommandozeile. In Abschnitt 1.3.3 wird beschrieben, wie sich das Dateisystem des Servers lokal einbinden lässt. Auf diese Weise kann der lokale, grafische Dateimanager genutzt und aus ihm heraus zum Beispiel Textdateien geöffnet werden.

#### 1.2 Was ist Cadence?

Es handelt sich bei Cadence um eine Sammlung von Programmen mit denen es möglich ist Design und Simulation eines Cores durchzuführen. Cadence alleine bringt jedoch "nur" Tools mit, mit denen man selbst entwickelte Zellen (Gatter, Leitungen, Pads, ...) in Software beschrieben und in einer Bibliothek abspeichern kann, um diese dann später für die Entwicklung des Cores (bzw. dessen "Bauplan") zu verwenden. Da dieser Ansatz sehr Umfangreich ist, stellen viele Firmen die von ihnen entwickelten sog. Standardzellen bereit, um sie in Cadence zu integrieren. So ähnlich wie Toolboxen in Matlab, nur das sie von anderen Firmen vertrieben werden. An der HAW Hamburg wird die "Toolbox" von ams verwendet, welche neben den Bibliotheken auch eigene Programme mitbringt. Teilweise ist es auch so, dass mit ams-Befehlen Cadence-Programme gestartet werden, jedoch direkt ams-spezifische Einstellungen vorgenommen werden. Die Verwendung der Standardzellen von ams bedingt, dass der Chip auch von dort hergestellt wird.

### 1.3 Server-Login

#### 1.3.1 Der Bash-Befehl

Der Login auf dem Server erfolgt aus der Kommandozeile (z.B. Terminal) mittels \$ ssh -X <username>0141.22.14.104 -i /.ssh/<id\_rsa-Datei> wobei das -X bewirkt, dass als Display der lokale Monitor gesetzt wird, sodass grafische

Programme gestartet werden können und auf dem eigenen Monitor angezeigt werden. Mit -i kann eine bestimmte id\_rsa-Datei gewählt werden. Dies ist dann wichtig, wenn es mehrere gibt bzw. die zu verwendende nicht den Standardname id\_rsa hat. Wenn auf dem lokalen Rechner und dem Server die selben Benutzernamen verwendet werden, kann <user>@ weggelassen werden.

#### 1.3.2 Einstellungen in der SSH-Konfiguration speichern

Alternativ können die Verbindungseinstellungen auch in der Datei  $\sim$ /.ssh/config gespeichert werden.

#### $nano \sim /.ssh/config$

```
\begin{array}{ll} host & cadence \\ host name & 141.22.14.104 \end{array}
```

user <user>

 $identityfile \hspace{0.4cm}/home/<user>/.ssh/<id\_rsa-Datei>$ 

forwardX11 yes

Nun kann der Login über ein einfaches

\$ ssh cadence

erfolgen, wobei der Name cadence auch anders gewählt werden kann.

#### 1.3.3 Bash-Befehl zum Einbinden des Serverdateisystems

Um unabhängig von dem Skript das Dateisystem des Servers in ein lokales Verzeichnis einzubinden, muss zunächst ein Ordner erstellt werden. Anschließend kann mit es sshfs <user>@141.22.14.104:/home <Pfad/zum/Ordner> -o IdentityFile=id\_rsa-Datei eigebunden werden.

### 1.3.4 Login- & Mount-Skript für den Cadence-Server

Als weitere Alternative kann das Skript run\_cadence (5.7) verwendet werden, welches auf privaten Rechnern versucht den richtigen Benutzernamen für den Server zu erraten. Voraussetzung ist, dass auf dem eigenen Rechner Vor- und Nachname angegeben wurden und auf dem Server der Benutzername im Format Anfangsbuchstabe des Vornamens gefolgt vom Nachnamen ist. Bei den Laborrechnern wird davon ausgegangen, dass der gleiche Benutzername vergeben wurde, wie auf dem Server.

Zusätzlich zum Login wird das Verzeichnis /home des Server auf dem eigenen Rechner mittels sshfs unter /home/<cadence\_server eingebunden. Auf diese Weise lassen sich die Verzeichnisse im Dateimanager durchsuchen und die Dateien mit den lokal installierten Editoren bearbeiten. Wenn das Verzeichnis nicht vorhanden ist, wird es erstellt. Dadurch, dass das Passwort für die id\_rsa-Datei von ssh-agent gespeichert wird, ist es bis zum Neustart des Rechners bei weiteren Server-Logins nicht nötig dieses erneut einzugeben.

Wenn nun noch die run\_cadence.desktop aus Listing 5.8 in das Verzeichnis /home/ <user>/.local/share/applications/ kopiert wird, lässt sich der Login komfortabel aus dem Startmenü heraus starten. Die .desktop-Datei erwartet ein cadence\_icon.jpg im selben Verzeichnis und geht davon aus, dass das Skript in /usr/bin/ liegt. Letzteres ermöglicht es einem auch aus jedem beliebigen Ordner in der Kommandozeile das Skript auszuführen.

# 2 Vorbereitungen

- 1. Projektverzeichnis erstellen
  - \$ mkdir <Verzeichnis>
- 2. in Projektverzeichnis wechseln
  - \$ cd <Verzeichnis>
- 3. VHDL-Verzeichnis erstellen
  - \$ mkdir HDL
- 4. VHDL-Code in das neue Verzeichnis kopieren
  - \$ cp <Quelle>/counter.vhdl HDL
- 5. von Cadence benötigte Shell-Umgebungsvariablen setzten. Die Variablen sind in dem Bash-Skript cadence env new.sh zusammen gefasst.
  - \$ source /home/cdsmgr/cadence\_env\_new.sh
- 6. die zu verwendende Technologie auswählen. Hier kann zwischen verschiedenen Prozess-Größen sowie Anzahl Metalllagen gewählt werden. Für einen  $35\mu$ m-Prozess mit drei Metalllagen ist folgender Befehl einzugeben:
  - \$ ams\_cds -tech c35b3 &

Wenn ein neues Projekt angelegt wird, erstellt der Befehl beim ersten Aufruf mehrere Dateien, öffnet aber noch keine Fenster. In diesem Fall muss der Befehl ein zweites Mal ausgeführt werden. Zumindest der Virtuoso Log und der Library Manager sollten nicht geschlossen werden, sie werden ggf. im weiteren Verlauf noch benötigt.

7. im Fenster "Select Process Option" den Prozess C35B3C3 PIP VG5 HIRES auswählen.

Im "Virtuoso Log" ist zu sehen, dass in die cds.lib im Projektverzeichnis der Pfad zur ausgewählten Prozess-Bibliothek eingetragen wird. Die Datei cds.lib.save ist abgesehen von dieser Ergänzung identisch. Die Programme, die im weiteren Verlauf verwendet werden, überschreiben die cds.lib. Neben diesen Dateien werden noch etliche weitere erstellt.

# 3 Durchführung

### 3.1 HDL-Synthese mit ro

Der auf RTL-Ebene geschriebene VHDL-Code (5.2) wird mit rc in eine Verilog-Gate-Level-Netzliste (Verilog-Code, 5.4) umgewandelt. Für die verschiedenen Ebenen der Hardwarebeschreibung siehe Gajski-Diagramm (Abb. 4.7) Um nicht die einzelnen Schritte durchführen zu müssen, startet man das Programm sinnvoller Weise mit dem TCL-Skript aus Listing 5.1, welches noch entsprechend angepasst werden muss.

Da im Hintergrund einige Dateien erzeugt werden, lohnt es sich ein eigenes Verzeichnis für rc zu erstellen und das Programm aus diesem heraus zu starten.

```
8. $ mkdir rc
9. $ cd rc
10. $ cp <Quellverzeichnis>/rc_RTL.tcl .
11. $ nano rc_RTL.tcl
12. $ rc -f rc_RTL.tcl -gui
13. rc:/> exit
14. $ cd ..
```

Das Ergebnis ist unter anderem der synthetisierten Verilog-Code, welcher im nächsten Schritt benötigt wird. Hier wird auch zum ersten Mal eine .sdf Datei erzeugt, welche die Informationen für die Laufzeiten der Gatter und Leitungen beinhaltet (standard delay format). Da aber zu diesem Zeitpunkt keine Informationen über die verwendeten Gatter und Leitungslängen vorliegen, haben alle Verzögerungen den Wert 0. Wenn die Einstellungen aus der rc\_RTL.tcl übernommen wurden, liegen die genannten Dateien in <Projektverzeichnis>/VERILOG. Dies wurde so gewählt, weil das Programm im nächsten Schritt davon ausgeht, dass sich die Verilog-Datei dort befindet.

Wenn das Programm ohne die Option -gui aufgerufen wurde oder die grafische Oberfläche mit File  $\rightarrow$  Hide GUI geschlossen wurde, lässt sie sich über das Kommando gui\_show aufrufen. In der GUI wird die Netzliste graphisch dargestellt, mehr ist jetzt noch nicht möglich.

Für einen besseren Workflow kann beim Aufruf von rc das -gui weggelassen und das Kommentarzeichen in der letzten Zeile der rc\_RTL.tcl vor quit entfernt werden. Nun werden die benötigten Dateien erstellt, anschließend beendet sich das Programm.

#### 3.2 Von der Netzliste zum Core

Bevor encounter genutzt werden kann, müssen noch die Dateien amsSetup.tcl sowie eine c35b3\_\*.conf erzeugt werden. Die erstgenannte wird mit ams\_encounter erstellt, die zweite mit ams\_edi. Das Vorgehen wird nachfolgend beschrieben.

#### 3.2.1 ams-spezifische Befehle

Damit in encounter die nötigen Befehle verfügbar sind, muss zunächst ein Skript mit den entsprechenden Designeinstellungen erzeugt werden.

```
15. $ ams_encounter -tech c35b3
```

Später wird dieses Skript in encounter ausgeführt.

#### 3.2.2 Design-Konfigurationsdatei für encounter erstellen

Es gibt drei verschiedene Möglichkeiten die c35b3\_\*.conf zu erstellen, welche nachfolgend erklärt werden. Zu beachten ist, dass in allen Fällen davon ausgegangen wird, dass die Verilog-Dateien im Unterverzeichnis VERILOG liegen. Entsprechend wurde in der rc\_RTL.tcl dieser Ordner als Pfad für die neu erzeugten Verilog-Dateien angegeben.

Da standardmäßig verschiedene Spannungsversorgungen und Massen auf dem Core vorgesehen sind, in diesem Design aber nur vdd! und gnd! verwendung finden, sollten die anderen entweder vor Aufruf von encounter in der amsSetup.tcl (Listing 5.5) in den Zeilen 89 - 94 oder später in der grafischen Oberfläche von encounter entfernt werden.

#### Methode 1: Grafisches Erstellen mit ams\_edi

Das Programm wird mit

16. \$ ams\_edi &

aufgerufen.

Die Einstellungen in Abbildung 3.1 müssen übernommenen werden. Mit Klick auf Create Setup Files wird u.a. eine c35b3\_\*.conf erstellt, wobei das \* für die angegebene Top-Level Cell steht. Also beispielsweise counter. Zusätzlich wird bei dieser Methode die ausführbare Det amsEdiSetup angelegt.

#### Methode 2: Erstellen mit ams\_edis, geeignet für Skripte

Alternativ kann das Programm ams\_edis mit allen Einstellungen direkt in der Konsole die benötigten Dateien erstellen. Dies ist vor allem für die Verwendung in Skripten interessant.



| Hit-Kit Version      | /home/cdsmgr/ams                    |  |  |
|----------------------|-------------------------------------|--|--|
| Encounter Version    | EDI10.1USR2 =                       |  |  |
| Cadence Version      | Cadence6-OA =                       |  |  |
| Verilog Netlist Name | counter_syn.v                       |  |  |
| Verilog TopCell Name | counter                             |  |  |
| Technology           | c35 🖃                               |  |  |
| Metal Layers         | 3M 🗀                                |  |  |
|                      |                                     |  |  |
| Corelib              | CORELIB =                           |  |  |
| Core-Timing-Lib      |                                     |  |  |
| Best                 | _3.3V + 10% => 3.63V 🗀              |  |  |
| Тур                  | _3.3V 🖃                             |  |  |
| Worst                | _3.3V - 10% => 2.969999999999998V 🗀 |  |  |
|                      |                                     |  |  |
| IOlib                | IOLIB =                             |  |  |
| IO-Timing-Lib        |                                     |  |  |
| Best                 | _3.3V + 10% => 3.63V 🗀              |  |  |
| Тур                  | _3.3V 🖂                             |  |  |
| Worst                | _3.3V - 10% => 2.969999999999998V 🖂 |  |  |
| Create Source File   | Create Setup Files Close            |  |  |

```
$ ams_edis -tech c35 -metlay 3M -vn counter_syn.v -vt counter
-corelib CORELIB -corevolt _3.3V -corevolt_bc _3.3V -corevolt_wc _3.3V
-iolib IOLIB -iovolt _3.3V -iovolt_bc _3.3V -iovolt_wc _3.3V
```

#### Methode 3: Das amsEdiSetup-Skript verwenden

Diese Datei existiert erst nachdem die grafische Methode (ams\_edi) einmal ausgeführt wurde. Mit ihr ist es möglich die Dateien mit den selben Einstellungen wie eingangs gewählt erneut zu erstellen.

\$ ./amsEdiSetup

#### 3.3 encounter

Nach dem die Dateien auf eine der beschriebenen Weisen erstellt wurden, kann encounter gestartet werden (im Vordergrund, also ohne &). Anschließend werden die in der amsSetup.tcl gesetzten Variablen geladen.

- 17. \$ encounter
- 18. encounter 1> source amsSetup.tcl

Jetzt stehen in der Shell die **encounter** bereit stellt weitere, **ams**-spezifische Befehle zur Verfügung. Sie fangen alle mit **ams** an, erwähnenswert ist an dieser Stelle **amsHelp**, welcher eine Übersicht und Kurzschreibung anzeigt.

Alle Befehle, egal ob in der Kommandozeile eingegeben oder über Menüs getätigt, finden sich neben zurückgemeldeten Informationen sowohl in der Datei encounter.log als auch in der encounter.cmd. Um nur die Befehle zu sehen, die hinter den Menüeingaben stehen, kann man folgenden Befehl in einem zweiten Terminalfenster eingeben:

```
$ tail -f encounter.log | grep "<CMD>" encounter.cmd erwähnen!
```

Im nächsten Schritt wird die Design-Konfigurationsdatei geladen:

```
19. File \rightarrow Import Design \rightarrow Load \rightarrow c35b3_counter.conf
```

Es müssen ggf. noch im Abschnitt Power bei Power Nets und Ground Nets die nicht benötigten Netze entfernt werden, so dass nur noch vdd! und gnd! dort eingetragen sind.

Alternativ kann das Design auch mit

```
encounter 2> source c35_counter.conf
encounter 3> init_design
encounter 4> fit
```

geladen und auf die Fenstergröße angepasst werden. In diesem Fall müssen zuvor die oben genannten nicht benötigten gnd\_x! und vdd\_x! aus der Konfigurationsdatei entfernt werden.

Falls es beim Laden zu der Fehlermeldung ERROR: Failed to read LEF information from OA reference Library. kommt, sollte zunächst encounter vollständig geschlossen werden.



Anschließend muss wie folgt vorgegangen werden:

Virtuoso Log ightarrow hitkit ightarrow Add/Remove hitkit libraries

Im hitkit Library Manager müssen den Bibliotheken, welche in der cds.lib eingetragen sind, die CORELIBD entfernt und die CORELIB sowie IOLIB\_3M hinzugefügt werden.



Im Menü Floorplan  $\to$  Specify Floorplan kann die Größe des Cores angegeben werden.



- 20. encounter 5> amsGlobalConnect core
- 21. encounter 6> amsAddEndCaps
- 22. Power  $\rightarrow$  Power Planning  $\rightarrow$  Add Ring
- 23. Power  $\rightarrow$  Power Planning  $\rightarrow$  Add Stripes
- 24. Route  $\rightarrow$  Special Route



1. amsFillcore

# 4 Anmerkungen

# 4.1 Tabelle mit Erläuterungen

| RTL        | Register-Transfer-Level (-Ebene)                                           |
|------------|----------------------------------------------------------------------------|
| Gate-Level | Gatterebene                                                                |
| OA         | Open Access, alternatives Layout-Speicherformat zu LEF-Bibliotheken, binär |
| MMMC       | Multi Mode Multi Corner                                                    |
| PnR        | Place and Route                                                            |
| CTS        | Clock Tree Synthesis                                                       |

# 4.2 Tabelle mit Dateiendugen

| $\operatorname{vhdl}$     | Hardwarebeschreibungssprache, muss für Cadence nach verilog kon- |  |  |  |  |  |  |  |  |
|---------------------------|------------------------------------------------------------------|--|--|--|--|--|--|--|--|
|                           | vertiert werden. z.B. mit rc                                     |  |  |  |  |  |  |  |  |
| V                         | verilog, die von der Cadence-Umgebung verwendete HDL             |  |  |  |  |  |  |  |  |
| $\operatorname{tcl}$      | Skript-Sprache, wird z.B. zum Laden von Umgebungsvariablen in    |  |  |  |  |  |  |  |  |
|                           | der encounter-Shell verwendet                                    |  |  |  |  |  |  |  |  |
| $\operatorname{conf}$     | Konfigurationsdatei zum Speichern bzw. Laden von Einstellungen   |  |  |  |  |  |  |  |  |
|                           | (ams_edi bzw. encounter)                                         |  |  |  |  |  |  |  |  |
| $\operatorname{sdf}$      | standard delay format, Verzögerungen der Gatter und Leitungen    |  |  |  |  |  |  |  |  |
| sdf.X                     | kompilierte sdf-Datei                                            |  |  |  |  |  |  |  |  |
| $\operatorname{sdc}$      | standard delay/design constraints?                               |  |  |  |  |  |  |  |  |
| lib                       | Bibliotheken für die Gatter                                      |  |  |  |  |  |  |  |  |
| lef                       | Layout Exchange Format                                           |  |  |  |  |  |  |  |  |
| oa                        | Open Exchange, Nachfolger von LEF                                |  |  |  |  |  |  |  |  |
| $\operatorname{def}$      | design exchange format?                                          |  |  |  |  |  |  |  |  |
| $\operatorname{ref}$      |                                                                  |  |  |  |  |  |  |  |  |
| io                        | IO assignment                                                    |  |  |  |  |  |  |  |  |
| $\operatorname{clocktch}$ | Clock specifications                                             |  |  |  |  |  |  |  |  |
| captab                    | Capacitance table                                                |  |  |  |  |  |  |  |  |
| $_{\mathrm{map}}$         | Stram-out layer map                                              |  |  |  |  |  |  |  |  |
| view                      | MMMC-View                                                        |  |  |  |  |  |  |  |  |

### 4.3 Tabelle mit den gängigen Linux-Bashbefehlen

| $\operatorname{bash}$                   | Kommandozeile (Terminal) [Bourne Again Shell]                          |  |  |  |  |  |  |
|-----------------------------------------|------------------------------------------------------------------------|--|--|--|--|--|--|
| $\operatorname{ssh}$                    | secure shell (sicheres Telnet)                                         |  |  |  |  |  |  |
| \$                                      | Promt der Bash                                                         |  |  |  |  |  |  |
| #                                       | Promt der Bash als root (Administrator)                                |  |  |  |  |  |  |
| ${\rm sudo} < \!\! {\rm Befehl} \!\! >$ | Befehl mit root-Rechten ausführen, sofern man diese hat                |  |  |  |  |  |  |
|                                         | aktuelles Verzeichnis                                                  |  |  |  |  |  |  |
| ••                                      | eine Verzeichnisebene höher                                            |  |  |  |  |  |  |
| /                                       | Wurzelverzeichnis bzw. Trenner zwischen Verzeichnisebenen              |  |  |  |  |  |  |
| $<\!{ m Befehl}\!> \&$                  | bewirkt, dass die Eingabe in der Shell im Hintergrund ausgeführt wird. |  |  |  |  |  |  |
| <user $>$                               | der eigene Benutzername, dieser kann auf dem lokalen                   |  |  |  |  |  |  |
|                                         | Rechner ein anderer sein, als auf dem Server                           |  |  |  |  |  |  |
| $\sim$                                  | synonym mit /home/ <user> (in der Kommadozeile)</user>                 |  |  |  |  |  |  |
| ${ m cd} < { m Verzeichnis} >$          | change directory                                                       |  |  |  |  |  |  |
| $\operatorname{cd}$                     | wechselt in das Home-Verzeichnis                                       |  |  |  |  |  |  |
| m cp < Quelle > < Ziel >                | copy                                                                   |  |  |  |  |  |  |
| mv < Quelle > < Ziel >                  | move / rename                                                          |  |  |  |  |  |  |
| ${ m rm}$ ${ m }$                       | remove                                                                 |  |  |  |  |  |  |
| rm -r                                   | rekursive remove, Unterverzeichnisse mit einbeziehen                   |  |  |  |  |  |  |
| rm -f                                   | force remove, schreibgeschützte Dateien löschen                        |  |  |  |  |  |  |
| rm *                                    | Inhalt des Verzeichnisses löschen                                      |  |  |  |  |  |  |
| ls                                      | list, Verzeichnisinhalt anzeigen                                       |  |  |  |  |  |  |
| ls -l                                   | list long, ausführlich Informationen anzeigen                          |  |  |  |  |  |  |
| ls -a                                   | list all, auch versteckte Dateien anzeigen                             |  |  |  |  |  |  |
| $.{<} { m dateiname}{>}$                | versteckte Datei                                                       |  |  |  |  |  |  |

### 4.4 Shell-Umgebungsvariablen beim Login laden

Um sich einen Arbeitsschritt zu ersparen, kann man einmalig den entsprechenden Befehl in die versteckte Datei .bashrc im eigenen Home-Verzeichnis eintragen. Befehle in dieser Datei werden bei jedem Login automatisch ausgeführt.

```
$ cd
$ nano .bashrc

if [ -f /home/cdsmgr/cadence_env_new.sh ]; then
   source /home/cdsmgr/cadence_env_new.sh && echo "Cadence-Umgebungsvariablen
geladen"
  else
```

echo "Cadence-Umgebungsvariablen konnten nicht geladen werden" fi

#### 4.5 Hilfe zu find

Beispiel: Suche nach Dateien in «Verzeichnis» und allen Unterverzeichnissen mit genau dem Namen dateiname, inklusive der Berücksichtigung von Groß- und Kleinschreibung.

#### \$ find <Verzeichnis> -type f -name "dateiname"

Häufige Optionen für find finden sich in der nachfolgenden Tabelle:

| -name "Datei.txt"  | genauer Dateiname, Groß-/Kleinschreibweise wird bachtet          |
|--------------------|------------------------------------------------------------------|
| -iname "datei.txt" | genauer Dateiname, Groß-/Kleinschreibweise wird nicht bachtet    |
| !-name "Datei"     | "Datei"kommt nicht im Namen vor                                  |
| datei.*            | sucht nach Dateien mit gleichem Namen aber unterschiedlicher En- |
|                    | dung                                                             |
| *datei             | sucht nach Dateien mit gleichem Namensende.                      |
| *datei $*$         | datei muss irgendwo im Namen vorkommen                           |
| *                  | beliebige Datei                                                  |
| -type f            | es werden nur Dateien gesucht                                    |
| -type d            | es werden nur Verzeichnisse gesucht                              |

Die Anführungszeichen sind nur bei Namen nötig, die Zeichen enthalten, die von der Bash interpretiert werden würden, bevor sie von find verwendet werden.

Wenn find auf Unterverzeichnisse stößt, für die man keine Berechtigung hat, erscheint eine Fehlermeldung. Da diese das Suchergebnis oft unübersichtlich machen, kann es hilfreich sein, die Standard-Fehlerausgabe nach /dev/null umzulenken. Um die Suche im aktuellen Verzeichnes zu beginnen und Fehlermeldungen nicht angezeigt zu bekommen, verwendet man find folgendermaßen:

\$ find . -name name 2>/dev/null

#### 4.6 Dateien editieren

- 1) In der Konsole:
- \$ nano Datei
- 2) Graphischen Editor des Servers auf dem eigenen Bildschirm anzeigen:
- \$ gedit Datei &
- 3) Wenn das Dateisystem des Servers wie in 1.3.3 beschrieben eingebunden wurde, kann die Datei aus dem Dateimanager heraus geöffnet werden.

## 4.7 Gajski-Diagramm



# 5 Anhang

### 5.1 rc RTL.tcl - Skript zur HDL-Synthethisierung

```
## Title
             : Encounter(R) RTL Compiler - Script
3 ## Project
             : ESZ-ABS
 5 ## File
             : vhdlRTL.tcl
 ## Author
             : Daniel Sabotta
7 ## Company
             : HAW Hamburg
 ## Created
             : 2012 - 05 - 23
9 | \# \text{Last update: } 2012 - 05 - 23
 11 ## Description: Load this file into Encounter(R) RTL Compiler
           - Script to synthesize a vhdl file
 ##
13 ##
          Usage: "rc -f vhdlRTL.tcl"
          Original file from Erik Brunvand, 2008
17
 ## Revisions
                     Author
                            Description
19 ## Date
              Version
 ## Set the search paths to the libraries and HDL
23 ## Remember that "." yout current directory
25 ## Search Path for VHDL and Verilog files
 set_attribute hdl_search_path
                            { ../HDL};
27 ## Search Path for library files
                           { \text{home/cdsmgr/ams/liberty/c35 3.3V}; }
 set attribute lib search path
29 ## Target library
 set attribute library
                         [list c35 CORELIB TYP.lib];
31 ## See a lot of warnings
 set attribute information level 6;
35 set hdlFiles
               [list counter.vhdl] ;# All HDL files
               counter; # name of toplevel module
 set basename
```

```
{./} ;# Save created Files here
37 set savePath
 set runName
                     ;# name appended to output files
                \operatorname{svn}
             clk
                   ;# clock name
 set clkName
set clkPeriod_ps 62500 ;# clock periode in ps
 set clkInDelay_ps 250 ;# delay from clock to input valid
43 set clkOutDelay_ps 250 ;# delay from clock to output valid
                { ... /VERILOG/}
 set savePath
below here shouldn't need to be changed...
49
51 ## Analyze and Elaborate the HDL files
 read hdl -vhdl
                  ${hdlFiles}
53 elaborate ${basename}
55 ## Apply Constraints and generate clocks
 set clock [define clock -period ${clkPeriod ps} -name ${clkName} [
    clock_ports]]
57 external_delay -input $clkInDelay_ps -clock ${clkName} [find / -port
     ports in/*
 external_delay -output $clkOutDelay_ps -clock ${clkName} [find /
    -port ports out/*]
 ## Sets transition to default values for Synopsys SDC format,
_{61} | ## fall/rise 400 ps
 dc::set_clock_transition .4 $clkName
 ## check that the design is OK so far
65 check design -unresolved
 report timing -lint
 ## Synthesize the design to the target library
69 synthesize —to mapped
71 ## Write out the reports
 report timing > ${savePath}${basename} ${runName} timing.rep
report gates > ${savePath}${basename} ${runName} cell.rep
 report power > ${savePath}${basename}_${runName}_power.rep
 ## Write out the structural Verilog and sdc files
vrite hdl -mapped > ${savePath}${basename} ${runName}.v
 write sdc > ${savePath}${basename} ${runName}.sdc
```

```
## write sdf-timing file with
                    : Use 3 digits floating point
81 ##
     -prec 3
 ##
                  in delay calculation
     -edges check edge: Check which edge delays are defined in
83 ##
                  technology file and calculate only
                   those edges.
85 ##
  write_sdf -prec 3 -edges check_edge > ${savePath}${basename} ${
     runName}.sdf
 ## log actual time in logfile
89 date
_{91}|\#\# exit rc (usefull, for "rc -f <thisFileName>")
  quit
```

Listing 5.1: rc.tcl

#### 5.2 counter.vhdl

```
1 library ieee;
  use ieee.std_logic_1164.all;
use ieee.std_logic_arith.all;
  use ieee.std_logic_unsigned.all;
  entity counter is
   port (
      clk:
            in std_logic;
      nRst: in std logic;
      c_out: out std_logic_vector(3 downto 0)
   );
 end counter;
  architecture arch of counter is
    signal c_int: std_logic_vector(3 downto 0);
15
  begin
    process (clk)
    begin
      if (clk'event and clk = '1') then
19
        if (nRst = '0') then
          c_int <= "0000"; --- others <= '0';
21
        else
          c_int <= c_int + "0001";
        end if;
      end if;
25
    end process;
```

```
c_out <= c_int;
end arch;
```

Listing 5.2: VHDL-Code des Zählers

### 5.3 Testbench

```
library ieee;
use ieee.std_logic_1164.all;
  use ieee.std_logic_arith.all;
| use ieee.std_logic_unsigned.all;
6 entity counter_tb is
  end entity counter_tb;
  architecture bhv of counter_tb is
    component counter is
      port (
        clk:
                in std_logic;
12
                in std_logic;
        nRst:
        c_out: out std_logic_vector(3 downto 0)
14
      );
    end component;
    signal clk: std_logic := '0';
    signal nRst: std_logic;
20
    signal c_out: std_logic_vector(3 downto 0);
22
    begin
      dut: counter
24
        port map(
          clk => clk,
26
          nRst \implies nRst,
          c\_out \implies c\_out
        );
      clk <= not clk after 20 ns;
      nRst \ll '0', '1' after 100 ns;
34 end bhv;
```

Listing 5.3: Testbench des Zählers

### 5.4 counter.v (verilog-Code)

```
2// Generated by Cadence Encounter(R) RTL Compiler RC14.25 - v14.20-
     s046 1
4 // Verification Directory fv/counter
6 module counter(clk, nRst, c out);
    input clk, nRst;
    output [3:0] c out;
    wire clk, nRst;
    wire [3:0] c out;
    wire UNCONNECTED, UNCONNECTEDO, UNCONNECTEDO, UNCONNECTEDO, n 0,
         n 2, n 3;
    wire n_4, n_5, n_6, n_7, n_8, n_9, n_10, n_11;
   DF3 \c int reg[3] (.C (clk), .D (n_11), .Q (c_out[3]), .QN
14
         (UNCONNECTED));
   NOR21 g63 (.A (n_8), .B (n_{10}), .Q (n_{11}));
   DF3 \ \text{c int reg}[2]\ (.C\ (clk), .D\ (n\ 9), .Q\ (c\ out[2]), .QN
         (UNCONNECTED0));
   XNR21 g65 (.A (c_out[3]), .B (n_5), .Q (n_10));
   NOR21 g66 (.A (n_8), .B (n_7), .Q (n_9));
   INV3 g67 (.A (n_6), .Q (n_7));
   DF3 \setminusc int reg[1] (.C (clk), .D (n 4), .Q (c out[1]), .QN
         (UNCONNECTED1));
   ADD22 g68 (.A (n_1), .B (c_out [2]), .CO (n_5), .S (n_6));
   NOR21 g70 (.A (n_8), .B (n_3), .Q (n_4));
   DF3 \c int reg[0] (.C (clk), .D (n_0), .Q (c_out[0]), .QN
         (UNCONNECTED2));
   INV3 g71 (.A (n 2), .Q (n 3));
   ADD22 g72 (.A (c out [1]), .B (c out [0]), .CO (n 1), .S (n 2));
   NOR21 g74 (.A (n_8), .B (c_{out}[0]), .Q (n_0));
   INV3 g75 (.A (nRst), .Q (n 8));
32 endmodule
```

Listing 5.4: Verilog-Code des Zählers

# 5.5 amsSetup.tcl - zusätzliche ams-Befehle für encounter

```
3 ##
     Encounter Command File
 ##
5 ##
     Owner: austriamicrosystems
                                                  #
     HIT-Kit: Digital
 ##
7 ##
     version: 03-Nov-2009
                                                   #
                                                   #
 ##
11 ## Global variables
 set topcellname "none"
set dbdir "DB"
_{15}|\operatorname{proc}| ams\operatorname{Help}|\{\}|
     print "#### Available Functions"
     print "---#
                  - amsDbSetup..... Setup
17
    Database - read Config"
                   - amsUserGrid...... Sets the
     print "---#
    grid for the IO-Cells"
                   - amsGlobalConnect type..... connects
     print "---#
19
    global nets: "
     print "---#
                                                         type =
     core | both"
     print "---#
                   - amsAddEndCaps..... place Caps"
     print "---#
                   - amsOpCond cond..... set
    operating condintions: "
     print "---#
                                                         cond =
23
     typ | minmax | min | max"
     print "---#
                   - amsFillcore ..... places core
     filler cells"
     print "---#
                   - amsFillperi ..... places
25
    periphery filler cells"
     print "---#
                   - amsRoute router..... run routing
     with: "
     print "---#
                                                         router
     = nano | wroute | wroute 2 (using 2CPUs)"
     print "---#
                  - amsWrite postfix ..... writes GDS,
     Verilog NL, SPEF, DB"
     print "---#
                   - amsWriteSDF ..... write
    combined SDF for all 3 cases"
     print "---#
                   - amsWriteSDF4View viewList..... write SDF
    for all analysis views in list"
     print "---#
                   - amsZoomTo x y ..... zooms to
    coordinates x y"
     print "#### "
33 }
```

```
proc amsMakeChip {} {
     ##--- Load configuration file
     amsDbSetup
    ##--- Set User Grid
     amsUserGrid
     ##--- make global connections
     amsGlobalConnect both
45 }
47 proc amsDbSetup {} {
    ##--- Load configuration file
     loadConfig c35b3 std.conf 0
     commit Config
     setCTSMode -bottomPreferredLayer 2
     setMaxRouteLayer 3
53 }
  proc amsUserGrid {} {
    ##--- Set user grids
     setPreference ConstraintUserXGrid 0.1
     setPreference ConstraintUserXOffset 0.1
     setPreference ConstraintUserYGrid 0.1
     setPreference ConstraintUserYOffset 0.1
     setPreference SnapAllCorners 1
     setPreference BlockSnapRule 2
     snapFPlanIO -usergrid
65
67
  proc amsGlobalConnect type {
    ##--- Define global power connects
     switch $type {
        "core" {
71
                 ##--- Define global Power nets - make global
     connections
                 clearGlobalNets
                 globalNetConnect vdd! -type pgpin -pin vdd! -inst *
     -module \{\}
                 globalNetConnect gnd! -type pgpin -pin gnd! -inst *
75
     -module \{\}
        "both" {
```

```
##--- Define global Power nets - make global
      connections
                   clearGlobalNets
                   globalNetConnect vdd! -type pgpin -pin vdd! -inst *
      -module \{\}
                   globalNetConnect gnd! -type pgpin -pin gnd! -inst *
      -module \{\}
                  #globalNetConnect vdd3o! -type pgpin -pin vdd3o!
      -inst * -module \{\}
                  #globalNetConnect vdd3r1! -type pgpin -pin vdd3r1!
      -inst * -module \{\}
                  #globalNetConnect vdd3r2! -type pgpin -pin vdd3r2!
      -inst * -module \{\}
                  #globalNetConnect gnd3o! -type pgpin -pin gnd3o!
85
      -inst * -module \{\}
                  #globalNetConnect gnd3r! -type pgpin -pin gnd3r!
      -inst * -module \{\}
        }
89
  }
  proc amsOpCond cond {
       switch $cond {
93
         "typ" {
                setOpCond -min TYPICAL -minLibrary c35 CORELIB \
95
                     -max TYPICAL -maxLibrary c35 CORELIB
              -powerDomain normal
                 setOpCond -min TYPICAL -minLibrary c35 CORELIB \
                     -max TYPICAL -maxLibrary c35_CORELIB \
99
              -powerDomain modulator
101
         "minmax" {
                setOpCond -min BEST-MIL -minLibrary c35_CORELIB \
                     -max WORST-MIL -maxLibrary c35 CORELIB
                     -powerDomain normal
105 #
                 setOpCond -min BEST-MIL -minLibrary
     c35 CORELIB 3B 1.8V min \
                     -max WORST-MIL -maxLibrary c35 CORELIB 3B 1.8V max
              -powerDomain modulator
109
         " min "
                setOpCond -min BEST-MIL -minLibrary c35 CORELIB \
                     -\text{max} BEST-\text{MIL} -\text{maxLibrary} c35_CORELIB
         }
113
```

```
\max {
                setOpCond -min WORST-MIL -minLibrary c35 CORELIB \
115
                    -max WORST-MIL -maxLibrary c35 CORELIB
        }
119 }
  proc amsAddEndCaps {} {
     ##-- add CAP cells
     addEndCap -preCap ENDCAPL -postCap ENDCAPR -prefix ENDCAP
  proc amsFillcore {} {
     ##-- Add Core Filler cells
     source fillcore.tcl
     ## or
     ##addFiller -cell FILL25 FILL10 FILL5 FILL2 FILL1 -prefix FILLER
     ##addFiller -cell FILLRT25 FILLRT10 FILLRT5 FILLRT2 FILLRT1
      -prefix FILLERRT
133
proc amsFillperi {} {
     ##-- Add Peri Filler cells
     source fillperi.tcl
139
  proc amsRoute {{router wroute}} {
      switch $router {
141
         "nano" {
                  ##-- Run Routing
143
                  ##-- Nano-Route
                  getNanoRouteMode -quiet
                  getNanoRouteMode -quiet envSuperThreading
                  setNanoRouteMode -quiet -drouteFixAntenna true
147
                  setNanoRouteMode -quiet -routeInsertAntennaDiode
      false
                  setNanoRouteMode -quiet -timingEngine CTE
149
                  setNanoRouteMode -quiet -routeWithTimingDriven false
                  setNanoRouteMode -quiet -routeWithEco false
                  setNanoRouteMode -quiet -routeWithSiDriven false
                  setNanoRouteMode -quiet -routeTdrEffort 2
                  setNanoRouteMode -quiet -routeSiEffort normal
                  setNanoRouteMode -quiet -routeWithSiPostRouteFix
155
      f\,a\,l\,s\,e
                  setNanoRouteMode -quiet -drouteAutoStop true
```

```
setNanoRouteMode -quiet -routeSelectedNetOnly false
157
                  setNanoRouteMode -quiet -drouteStartIteration default
                  setNanoRouteMode -quiet -envNumberProcessor 1
                  setNanoRouteMode -quiet -drouteEndIteration default
                  globalDetailRoute
161
      "wroute"
163
                  ##-- WROUTE
                wroute
       "wroute2"
                  ##-- WROUTE
                wroute -multiCpu 2
169
                }
       }
173
  proc amsSave postfix {
     global topcellname
      global dbdir
     set filename [format "%s/%s_%s.enc" $dbdir $topcellname $postfix]
     saveDesign $filename
179
181 proc amsWrite postfix {
     global topcellname
     ##-- Save Design
     amsSave $postfix
     ##-- Write GDS2
185
     set filename [format "%s_%s_fe.gds" $topcellname $postfix]
     streamOut $filename -mapFile gds2.map -libName DesignLib
187
      -structureName $topcellname \
            -attachInstanceName -attachNetName -stripes 1 -units 1000
     -mode ALL
189
     ##-- Verilog Netlist
     set filename [format "%s_%s.v" $topcellname $postfix]
     saveNetlist $filename
     ##-- Extract detail parasitics
     set filename [format "SDF/%s_%s.rcdb" $topcellname $postfix]
  \# for SOC version < 7.1
      setExtractRCMode -detail -rcdb $filename -relative c t 0.01
197 #
     -total c t 5.0 -reduce 5 -noise
     setExtractRCMode -engine detail -rcdb $filename
     setXCapThresholds -totalCThreshold 5.0 -relativeCThreshold 0.01
199
```

```
extractRC
      set filename [format "SDF/%s %s.spef" $topcellname $postfix]
201
     rcOut -spef $filename
     ##-- run QX extraction
     runQRC -lefFileList {} -layerMapping {} -grayData obs
205
     set filename [format "SDF/%s_%s_qrc.spef" $topcellname $postfix]
     rcOut -spef $filename
207
209
211
  proc amsWriteSDF {} {
     global topcellname
     ##-- Parasitic Extraction
     #runQX
     ##-- typical SDF
217
     amsOpCond typ
     set filename_t [format "SDF/%s_typ.sdf" $topcellname]
219
     #delayCal -sdf $filename_t
     write sdf -version 2.1 -prec 3 -edges check edge
      -average typ delays \
         -remashold -splitrecrem -splitsetuphold -force_calculation \
         $filename t
223
     ##-- best case SDF
225
     amsOpCond min
     setAnalysisMode -checkType hold
      set filename_b [format "SDF/%s_best.sdf" $topcellname]
     #delayCal -sdf $filename b
229
     write sdf -early -version 2.1 -prec 3 -edges check edge
      -average_typ_delays
         -remashold -splitrecrem -splitsetuphold -force_calculation \
        $filename b
     ##-- worst case SDF
     amsOpCond max
235
     setAnalysisMode -checkType setup
      set filename w [format "SDF/%s worst.sdf" $topcellname]
     #delayCal -sdf $filename w
     write_sdf -late -version 2.1 -prec 3 -edges check_edge
239
      -average typ delays
         -remashold -splitrecrem -splitsetuphold -force calculation \
         $filename w
241
```

```
##- Combine all SDFs
243
      set filename [format "SDF/%s_all.sdf" $topcellname]
     sdfCombine -file $filename b $filename t $filename w -output
245
      $filename
     print "### Combined SDF File for best/typ/worst written!!"
247 }
249 ##-- write SDF for a specific analysis view
  proc amsWriteSDF4View {viewList} {
     global topcellname
     foreach view $viewList {
         set filename [format "SDF/%s %s.sdf" $topcellname $view]
         print "---# Analysis View: $view\n"
255
         write sdf -version 2.1 -prec 3 -edges check edge
      -average typ delays \
          -remashold -splitrecrem -splitsetuphold -force calculation \
          -view $view $filename
         print "---# Created SDF: $filename\n"
261
263
  ##-- Other usefule procedures
265
  proc amsZoomTo {x y {factor 10}} {
      set llx [expr {\$x - \$factor}]
      set lly [expr {$y - $factor}]
     set urx [expr {$x + $factor}]
     set ury [expr {$y + $factor}]
     zoomBox $11x $11y $urx $ury
273 ##- End of First Encounter TCL command file
275 proc protoSDF {} {
      amsDbSetup
       floorplan -r 1.0 0.8 2 2 2 2
277
       setPlaceMode -fp true -timingDriven false -reorderScan false
      -doCongOpt false -modulePlan false
       placeDesign -noPrePlaceOpt
       trialRoute -maxRouteLayer 3 -floorplanMode
      extractRC
281
      amsWriteSDF
283 }
```

Listing 5.5: amsSetup.tcl für encounter

### 5.6 c35b3.conf - Design-Konfigurationsdatei

```
╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫╫
2 #
    FirstEncounter Input configuration file
 #
4 #
                                               #
 #
    Owner: austriamicrosystems
    HIT-Kit: Digital
    version: 07-Aug-2012
 #
 10 global rda Input
  set cwd CWD
set rda_Input(import_mode) {-treatUndefinedCellAsBbox 0
    -keepEmptyModule 1 }
  set rda Input(ui netlist) "VERILOG/counter syn.v"
14 set rda_Input(ui_netlisttype) { Verilog}
  set rda_Input(ui_ilmlist) {}
 set rda_Input(ui_settop) {1}
  set rda_Input(ui_topcell) {counter}
  set rda Input(ui celllib) {}
  set rda_Input(ui_iolib) {}
20 set rda_Input(ui_areaiolib) {}
  set rda_Input(ui_blklib) {}
  set rda Input(ui kboxlib) {}
  set rda Input(ui gds file) {}
  set rda_Input(ui_timelib,min) {}
  set rda_Input(ui_timelib,max) {}
26 set rda_Input(ui_timelib) "/home/cdsmgr/ams/liberty/c35 3.3V/
    c35 CORELIB BC.lib
                            /home/cdsmgr/ams/liberty/c35 3.3V/
    c35 CORELIB_WC.lib
                            /home/cdsmgr/ams/liberty/c35 3.3V/
    c35 CORELIB TYP.lib
                            /home/cdsmgr/ams/liberty/c35 3.3V/
    c35_IOLIB_TYP.lib \
                            /home/cdsmgr/ams/liberty/c35 3.3V/
    c35 IOLIB BC.lib \
                            /home/cdsmgr/ams/liberty/c35 3.3V/
    c35 IOLIB WC.lib \
  set rda Input(ui smodDef) {}
  set rda_Input(ui_smodData) {}
  set rda_Input(ui_dpath) {}
set rda_Input(ui_tech_file) {}
  set rda_Input(ui_io_file) {}
```

```
38 set rda Input(ui timingcon file) {}
  set rda_Input(ui_latency_file) {}
40 set rda Input(ui scheduling file) {}
  set rda Input(ui buf footprint) {}
42 set rda_Input(ui_delay_footprint) {}
  set rda Input(ui inv footprint) {}
44 set rda_Input(ui_leffile) {}
  set rda_Input(ui_core_cntl) {aspect}
  set rda_Input(ui_aspect_ratio) {1.0}
  set rda Input(ui core util) {0.650}
48 set rda_Input(ui_core_height) {}
  set rda_Input(ui_core_width) {}
50 set rda Input(ui core to left) {50}
  set rda Input(ui core to right) {50}
52 set rda Input(ui core to top) {50}
  set rda Input(ui core to bottom) {50}
54 set rda Input(ui max io height) {0}
  set rda Input(ui row height) {}
  set rda Input(ui isHorTrackHalfPitch) {0}
  set rda Input (ui is Ver Track Half Pitch) {1}
  set rda Input (ui ioOri) {R0}
  set rda Input(ui isOrigCenter) {0}
60 set rda Input(ui exc net) {}
  set rda_Input(ui_delay_limit) {1000}
|set|  rda_Input(ui_net_delay) |\{1000.0 ps\}|
  set rda Input(ui net load) {0.5pf}
  set rda Input(ui in tran delay) {0.1ps}
  set rda Input(ui captbl file) "-typical /home/cdsmgr/ams/cds/HK C35/
     LEF/encounter/c35b3-typical.capTable
                                  -\text{best /home/cdsmgr/ams/cds/HK} C35/LEF
66
     /encounter/c35b3-best.capTable
                                  -worst /home/cdsmgr/ams/cds/HK C35/
     LEF/encounter/c35b3-worst.capTable"
68 set rda_Input(ui_defcap_scale) {1.0}
  set rda Input(ui detcap scale) {1.0}
70 set rda_Input(ui_xcap_scale) {1.0}
  set rda_Input(ui_res_scale) {1.0}
72 set rda_Input(ui_shr_scale) {1.0}
  set rda Input(ui time unit) {none}
  set rda Input(ui cap unit) {}
  set rda_Input(ui_oa_reflib) "TECH_C35B3 \
                                CORELIB
                                IOLIB 3M \
  set rda Input(ui oa abstractname) {abstract}
so set rda_Input(ui_oa_layoutname) {layout}
```

```
set rda Input(ui sigstormlib) {}
set rda Input (ui cdb file) {}
  set rda Input(ui echo file) {}
  set rda_Input(ui_xilm_file) {}
  set rda_Input(ui_qxtech_file) {/home/cdsmgr/ams/assura/c35b3/c35b3/
     RCX-typical/qrcTechFile}
86 set rda_Input(ui_qxlayermap_file) {/home/cdsmgr/ams/cds/HK_C35/LEF/
     c35b3/qrclay.map}
  set rda_Input(ui_qxlib_file) {}
88 set rda Input(ui qxconf file) {}
  set rda_Input(ui_pwrnet) {vdd! \
                             vdd3r1! vdd3r2! vdd3o! \
  set rda Input(ui gndnet) {gnd! \
                             gnd3r! gnd3o! \
  set rda_Input(flip_first) {1}
96 set rda Input (double back) {1}
  set rda Input(assign buffer) {0}
98 set rda_Input(ui_pg_connections) ""
  set rda_Input(ui_gen_footprint) {1}
```

Listing 5.6: c35b3 \*.conf für encounter

### 5.7 Skript für einfachen Login

```
_{1}|\#! / bin / bash
3 # This script mounts the cadence server via sshfs and also logs into
 |\# the cadence server via ssh -X. The ssh-agent (ssh-add) is used to
5 # keep the id rsa file unlocked so the password has to be entered
     only
 # once per session (boot).
7 # To unmount the remote directory type
 # fusermount -u /home/<username>/cadence server
  if id | grep -q "root"; then
      echo "script must be run as normal user."
      echo "exiting"
      exit 1
  fi
  username="$(whoami)"
17 local username="$(whoami)"
 realname="$(getent passwd $username | cut -d: -f5 | cut -d, -f1)"
```

```
19 id rsa dir="/home/$local username/.ssh"
  server="141.22.14.104"
21 local dir="/home/$local username/cadence server"
  remote dir="/home"
  if [ "$username" != "$realname" ]; then
      firstname=$(echo $realname | cut -f1 -d" ")
      lastname=$(echo $realname | cut -f2 -d" ")
27
      # create the assumed username on cadence server
      username=\$(echo \$firstname \mid head -c 1)
      username=$username$lastname
      username = \$(echo \$username \mid awk '\{print tolower(\$0)\}')
      echo "Using '$username' as login for cadence server ($server)."
33 f i
35 # how many identity files do we have?
  num of identities=$(find $id rsa dir -type f -iname "id rsa*"! -
     iname "*.pub" | wc - 1)
37
  if [ $num_of_identities -eq 0 ]; then
      echo "You need an identity file (id rsa) locatet in $id rsa dir
     to connect to this server!"
      echo "exiting"
      exit 2
41
  fi
  if [ $num of identities -gt 1 ]; then
      identities \_array = ()
45
      while IFS= read -r -d $'\0'; do
          identities\_array+=("\$\{REPLY\#\#*/\}")
      done < <(find $id_rsa_dir -type f -iname "id rsa*" ! -iname "*.
     pub" -print0)
49
      echo "$num of identities identity files where found in
     $id rsa dir"
      echo "Please enter the corresponding number to choose the
     correct one."
      select sel in "${identities array[@]}"
          id rsa file=$(find $id rsa dir -type f -name $sel)
          break
      done
57 else
      id rsa file=$(find /home/$local username/.ssh -type f -iname "
     id rsa*" ! -iname "*.pub")
```

```
59 f i
61 # check if the choosen identity file is owned by the user
 file_owner=$(stat -c '%U' $id_rsa_file)
63 if [ "$file_owner" != "$local_username" ]; then
      echo "You need to change the ownership of the identity file
     $id_rsa_file!"
      echo "exiting"
      exit 3
67 | f i
69 # permission check of the identity file
  permissions=$(stat -c '%a' $id rsa file)
permissions_g_o=\{permissions: 1:2\}
  if [ "$permissions g o" != "00" ]; then
      echo "The permissions of $id_rsa_file are '$permissions' which
     allows others to read it! SSH will reject this file!"
      read -n 1 -p "Do you want to change the permissions to '600' now
     ? (y/n)" answer
      echo
75
      case \{answer:0:1\} in
          y | Y 
              chmod 600 $id rsa file
79
          ;;
          * )
              echo "exiting"
81
              exit 4
      esac
85 f i
  unset $answer
 # check if mount point exists
89 if [ ! -d $local_dir ]; then
      read -n 1 -p "Mount point doesn't exist. Create directory '
     cadence_server' in '/home/$local_username? (y/n)" answer
91
      case \{answer:0:1\} in
          y|Y
              mkdir $local dir
              test -d $local_dir || (echo "an error occured." && exit
95
     5)
97
              echo "exiting"
              exit 6
99
```

```
esac
1.01
  fi
  # check if it is already mounted
if [ ! -d $local_dir/$username ]; then
      # check if the ssh-agent has any identitis stored
      if ssh-add-l | grep-q "no identities"; then
           ssh-add $id rsa file
      fi
      # mount the remote directory
      sshfs \username@\server:\remote dir \upsplot\cal dir -o IdentityFile=
      $id rsa file
  fi
115
  # ssh into the cadence server
ssh -X $username@$server -i $id_rsa_file
```

Listing 5.7: run cadence.sh

```
[Desktop Entry]
Name=run Cadence
Comment=ssh into Cadence server and mount remount filesystem
Exec=/usr/bin/run_cadence.sh
Icon=/home/tlattmann/.local/share/applications/cadence_icon.jpg
Terminal=true
Type=Application
```

Listing 5.8: run\_cadence.desktop

[head to column names]listings/vergleich.csv

# CD

# Selbstständigkeitserklärung

Hiermit versichere ich, Thomas Lattmann, dass ich die vorliegende Arbeit im Sinne der Prüfungsordnung nach §16(5) APSO-TI-BM ohne fremde Hilfe selbständig verfasst und nur die angegebenen Hilfsmittel benutzt habe. Wörtlich oder dem Sinn nach aus anderen Werken entnommene Stellen habe ich unter Angabe der Quellen kenntlich gemacht.

| Hamburg, | 23.4.2018, | <br> | <br> |   |     |     |    |    |     |   | <br> |  | <br> |  |  |
|----------|------------|------|------|---|-----|-----|----|----|-----|---|------|--|------|--|--|
|          |            |      |      | ι | Jnt | ter | sc | hr | ift | t |      |  |      |  |  |