### Bachelorarbeit

# Analyse der Echtzeitfähigkeit von Micro-ROS und FreeRTOS am Beispiel einer Robotersteuerungssoftware

An der Fachhochschule Dortmund im Fachbereich Informatik Studiengang Technische Informatik erstellte Thesis zur Erlangung des akademischen Grades Bachelor of Science B. Sc.

> Xu, Zijian geboren am 25.09.1998 7204211

Betreuung durch: Prof. Dr. Christof Röhrig

M. Sc. Alexander Miller

Version vom: Dortmund, 28. März 2025

# Kurzfassung

Diese Arbeit analysiert die Echtzeitfähigkeit von Micro-ROS und FreeRTOS am Beispiel einer Robotersteuerungssoftware. Ziel ist es, die Performance beider Systeme im Hinblick auf Ausführungszeiten, Ressourcenverbrauch und Echtzeitverhalten zu vergleichen.

Die Analyse beginnt zuerst mit der vollständigen Umstellung der bestehenden Robotersteuerungssoftware von Micro-ROS auf FreeRTOS. Anschließend wird die Data Watchpoint and Trace Unit (DWT) Zur Analyse eingesetzt, um eine zyklengetreue Erfassung des Programmlaufs zu ermöglichen.

Abschließend wird das Ergebnis evaluiert, welches unter anderem die Ausführungszeiten von FreeRTOS-Prozessen, zeitkritischen Funktionen sowie das Verhältnis von Ausführung zu Leerlaufzeit umfasst. Die Ergebnisse sollen Einsichten darüber geben, inwieweit Micro-ROS und FreeRTOS für Echtzeitanwendungen in der Robotik geeignet sind und welche Vor- oder Nachteile die jeweiligen Systeme bieten.

### **Abstract**

# Inhaltsverzeichnis

| Abbildungsverzeichnis                                       | ii  |
|-------------------------------------------------------------|-----|
| Tabellenverzeichnis                                         | iii |
| Quellcodeverzeichnis                                        | iv  |
| Abkürzungsverzeichnis                                       | v   |
| 1 Hintergrund                                               | 2   |
| 1.1 FreeRTOS                                                | 3   |
| 1.1.1 Konzepte                                              | 3   |
| 1.2 Nutzung von Caches                                      | 6   |
| 1.2.1 Cache-Clean bei DMA                                   | 8   |
| 1.2.2 Cache-Invalidierung bei DMA                           | 8   |
| 1.3 Methode zur Echtzeitanalyse                             | 8   |
| 1.3.1 Beispiel: Segger SystemView                           | 9   |
| 2 Vorbereitung                                              | 10  |
| 2.1 Umstellung auf FreeRTOS                                 | 10  |
| 2.1.1 Geschwindigkeitsempfang über UART auf Mikrocontroller | 10  |
| 2.1.2 Geschwindigkeitsübertragung über UART auf Host        | 12  |
| 2.1.3 Steuerungskomponenten als FreeRTOS-Tasks              | 14  |
| 2.2 Aktivierung von Instruktionscache                       | 16  |
| 2.3 Aktivierung von Datencache                              | 17  |
| 3 Implementierung zur Echtzeitanalyse                       | 20  |
| 3.1 Threadsichere Senke                                     | 20  |
| 3.1.1 Schreibvorgang in die Senke                           | 21  |
| 3.1.2 Lesevorgang aus der Senke                             | 22  |
| 3.1.3 Nutzung der Senke per DMA                             | 23  |
| 3.1.4 Nutzung der Senke IO-gebunden                         | 24  |
| 3.1.5 Benchmark                                             | 25  |
| 3.2 Aktivierung der DWT                                     | 25  |
| 4 Abschluss                                                 | 27  |
| 4.1 Fazit                                                   | 27  |
| 4.2 Ausblick                                                | 27  |
| Lite and a survey and a business                            | 20  |

# Abbildungsverzeichnis

| 1 | Micro-ROS Architektur[Kou23, S. 6]              | 2  |
|---|-------------------------------------------------|----|
| 2 | Prioritätsinversion                             | 4  |
| 3 | Prioritätsvererbung                             | 5  |
| 4 | STM32F7 Systemarchitektur [STMd, S. 9]          | 6  |
| 5 | STM32F7 Systemarchitektur [STMd, S. 14]         | 7  |
| 6 | MPU-Konfiguration aus STM32CubeMX               | 17 |
| 7 | Micro-ROS-Agent Fehlermeldung mit Debugausgaben | 18 |

Tabellenverzeichnis

| <b>T</b> 1   |       |       | •  |    | •  |
|--------------|-------|-------|----|----|----|
| <b>Tabel</b> | llenv | verze | IC | hn | IS |

| 1 | Kommunikationskanal-Matrix |  |  |  |  |  |  |  |  |  |  |  | 15 | 5 |
|---|----------------------------|--|--|--|--|--|--|--|--|--|--|--|----|---|
|   |                            |  |  |  |  |  |  |  |  |  |  |  |    |   |

# Quellcodeverzeichnis

| 1  | Definition Speicherbereich im Linker-Script für STM32F7        | 7  |
|----|----------------------------------------------------------------|----|
| 2  | Cache-Funktionen                                               | 8  |
| 3  | Definition der Struktur für die Sollgeschwindigkeit            | 10 |
| 4  | Definition der Data-Frame für die Sollgeschwindigkeit          | 11 |
| 5  | Nutzung STM32-API für den Datenempfang über UART via Interrupt | 11 |
| 6  | FreeRTOS-Task Dauerschleife                                    | 12 |
| 7  | ROS2-Node Implementierung für Geschwindigkeitsübertragung      | 13 |
| 8  | CRC-Berechnung im Konstruktur                                  | 13 |
| 9  | FreeRTOS-Task für Encoderwertabfrage und -übertragung          | 14 |
| 10 | Queue-Objekte in FreeRTOS                                      | 15 |
| 11 | Initialisierung von FreeRTOS-Tasks                             | 15 |
| 12 | Dymanische Allokation eines FreeRTOS-Tasks                     | 16 |
| 13 | Dymanische Allokation eines FreeRTOS-Tasks                     | 16 |
| 14 | Dymanische Allokation einer FreeRTOS-Queue                     | 16 |
| 15 | Modifizierung des ST-Treiber-Quellcode in Diffansicht          | 19 |
| 16 | Schreib-API von der Senke                                      | 22 |
| 17 | Implementierung der Task zur Datenverarbeitung                 | 22 |
| 18 | Callback zur Task-Notification                                 | 23 |
| 19 | Initialisierung der Senke mit DMA                              | 24 |
| 20 | Initialisierung der Senke mit blockierender IO                 | 24 |
| 21 | Benchmark DMA                                                  | 25 |
| 22 | Benchmark IO-gebunden                                          | 25 |
| 23 | Aktivierung der DWT [Plo]                                      | 26 |

# Abkürzungsverzeichnis

**DWT** Data Watchpoint and Trace Unit

**RTOS** Real-Time Operating System

**ROS 2** Robot Operating System 2

**DDS** Data Distribution Service

**SRAM** Static Random Access Memory

**AXI** Advanced eXtensible Interface

**AHB** High-performance Bus

**TCM** Tightly Coupled Memory

**HAL** Hardware Abstraction Library

**MPU** Memory Protection Unit

MPSC Multi Producer Single Consumer

MPMC Multi Producer Multi Consumer

## **Einleitung**

Die vorliegende Arbeit beschäftigt sich mit der Analyse der Echtzeitfähigkeit von Micro-ROS und FreeRTOS am Beispiel einer Robotersteuerungssoftware. Ziel ist es, die Performance beider Systeme hinsichtlich der Ausführungszeiten, Ressourcenverbrauch sowie Echtzeitverhalten zu untersuchen, um ihre Eignung für Roboteranwendungen zu bewerten.

Die Arbeit beinhaltet schwerpunktmäßig die Entwicklung einer Methode zum Profiling der Steuerungssoftware eines mobilen Roboters. Dabei wird zunächst die bestehende Firmware, die auf Micro-ROS basiert, im Rahmen dieser Arbeit auf FreeRTOS portiert. Anschließend wird die Methodik zur Generierung von Profiling-Daten für die Analyse festgelegt und implementiert, und die resultierende Ergebnisse evaluiert.

Zu Beginn wird ein Überblick über die grundlegenden Konzepte gegeben. Darauffolgend werden die Implementierungen detailliert beschrieben. Abschließend werden die erzielten Ergebnisse vorgestellt und bewertet, und es wird ein Ausblick auf weitere Anwendungsmöglichkeiten und Optimierungspotenziale gegeben.

## 1 Hintergrund

Die vorliegende Bachelorarbeit hat zum Ziel, die Robotersteuerungssoftware, die derzeit auf Micro-ROS basiert, auf FreeRTOS zu portieren, um einen vergleichenden Leistungsanalyse zwischen beiden Plattformen durchzuführen. Beide Systeme sind für die Steuerung eines mobilen Roboters auf einem Cortex-M7 Mikrocontroller von Arm konzipiert, unterscheiden sich jedoch in ihrer grundlegenden Architektur, was sich auch in ihrer Echtzeitfähigkeit und Ressourcennutzung widerspiegelt. Während Micro-ROS auf der Robot Operating System 2 (ROS 2) aufbaut und eine höhere Abstraktionsebene sowie standardisierte Kommunikationsschnittstellen mittels der Data Distribution Service (DDS)-Middleware bietet, basiert Micro-ROS selbst auf FreeRTOS. Die Portierung der Robotersteuerungssoftware von Micro-ROS auf FreeRTOS kann daher als eine Reduzierung der Abhängigkeitsebene betrachtet werden. Dies ermöglicht eine direktere und effizientere Nutzung der zugrunde liegenden Echtzeit-, sowie Speicherressourcen.



Abbildung 1: Micro-ROS Architektur [Kou23, S. 6]

Nach dem Wechsel zu FreeRTOS wird die Echtzeitleistung der Steuerungssoftware analysiert mit einem besonderen Fokus auf den Overhead, der durch die Micro-ROS-Schicht verursacht wird. Der Vergleich soll aufzeigen, inwiefern FreeRTOS durch die Eliminierung dieser zusätzlichen Abhängigkeit eine effizientere und leichtgewichtige Lösung für kritische Roboteranwendungen darstellt. Dabei soll der Einsatz einer zyklengenaue Messung des Programmablaufs ermöglichen, fundierte Aussagen über die Echtzeitfähigkeit beider Plattformen zu treffen, und den Leistungsgewinn anhand von diesem Beispiel für eine Steuerungssoftware quantitativ zu belegen.

#### 1.1 FreeRTOS

FreeRTOS ist ein Open-Source, leichtgewichtiges Real-Time Operating System (RTOS), das speziell für eingebettete Systeme entwickelt wurde. Es zeichnet sich unter anderem durch deterministisches Verhalten mit Echtzeitgarantie sowie Konfigurierbarkeit der Heap-Allokation aus. Diese Eigenschaften machen es zu einer geeigneten Wahl für Robotersteuerungssoftware, insbesondere wenn Echtzeitanforderungen und effiziente Ressourcennutzung im Vordergrund stehen.

#### 1.1.1 Konzepte

FreeRTOS unterscheidet sich von der Bare-Metal-Programmierung dadurch, dass es eine nützliche Abstraktionsebene für den Nutzer bereitstellt. Diese Abstraktionen ermöglichen es, komplexere Echtzeitanforderungen zu bewältigen, ohne dass der Nutzer diese Funktionalitäten selbst implementieren muss. Beispiele hierfür sind Timer mit konfigurierbarer Genauigkeit (basierend auf den sogenannten Tick [Fred, Frem]), threadsichere Queues sowie Semaphore und Mutexe [Frec]. Diese Komponenten bieten fertige Lösungen für häufige Herausforderungen in der Entwicklung eingebetteter Systeme, sodass der Nutzer solche Werkzeuge nicht mehr selbst anfertigen muss.

Im Fokus dieser Arbeit stehen Queues und "Direct Task Notifications", die in der Robotersteuerungssoftware zum Einsatz kommen, sowie Semaphore und die sogenannten "Trace Hooks" für die darauffolgende Echtzeitanalyse. Diese Komponenten werden im Folgenden detailliert erläutert.

**Queues** Queues sind eine der Kernkomponenten von FreeRTOS und dienen der Interprozesskommunikation zwischen Tasks. Sie ermöglichen den threadsicheren Austausch von Daten, und können sowohl zur Datenübertragung als auch zur Synchronisation von Tasks verwendet werden, da dedizierte (Ressourcen-)

Synchronisationsmechanismen wie Semaphore und Mutexe sind auf Queues aufgebaut [Fref].

Semaphore Wie bereits kurz erwähnt, sind Semaphore und Mutexe Tools, die den Zugriff auf gemeinsame Ressourcen koordinieren, wobei Semaphore auch zur Synchronisation von Tasks genutzt werden können. Semaphoren sind einfache Mechanismen ohne Unterstützung von Prioritätsvererbung, bei der eine Task mit Besitz von einem Mutex mit einer niedrigeren Priorität künstlich auf die gleiche Priorität der auf den Mutex wartenden Task angehoben wird [Wika]. Wenn eine Ressource dann nur mit

einem Semaphor geschützt ist, kann dies zu Prioritätsinversion führen, bei der eine höher priorisierte Task aufgrund einer blockierten gemeinsam genutzten Ressource nicht ausgeführt werden kann, sodass der Scheduler stattdessen eine niedriger priorisierte Task auswählen muss, bis die Ressource freigegeben ist. [Wikb].



Abbildung 2: Prioritätsinversion

**Mutexe** Im Gegensatz dazu sind Mutexe (Mutual Exclusion) Synchronisationsmechanismen, die Prioritätsvererbung implementieren [Freb]. Wenn eine Task auf einen Mutex wartet, der von einer niedriger priorisierten Task gehalten wird, wird diese Task temporär auf die Priorität der wartenden Task erhöht [Frea], so dass er den Mutex und damit die von der watenden Task benötigte Ressource so schnell wie möglich wieder freigeben kann.



Abbildung 3: Prioritätsvererbung

Direct Task Notifications Direct Task Notifications sind ein effizienterer und ressourcenschonenderer Mechanismus zur Task-Synchronisation [Freh]. Im Gegensatz zu Semaphoren senden sie direkte Signale an eine Task, ohne die zugrunde liegenden Queues zu benötigen, indem sie einfach einen internen Zähler einer Task verändern [Frej]. Analog zu Semaphoren wird mittels Funktionen wie zum Beispiel ulTaskNotifyGive() dieser Zähler inkrementiert [Frek], während Funktionen wie ulTaskNotifyTake() ihn wieder dekrementieren [Frel]. Das Entblocken einer Task mittels Direct Task Notifications soll bis zu 45% schneller sein und benötigt weniger RAM [Frei].

**Trace Hooks** "Trace Hooks" sind spezielle Macros von der FreeRTOS-API, deren Nutzung es beispielsweise ermöglicht, Ereignisse im System zu verfolgen und zu protokollieren. Diese Macros werden innerhalb von Interrupts beim Schedulen aufgerufen und müssen immer vor der Einbindung von FreeRTOS.h definiert werden [Free].

### 1.2 Nutzung von Caches

Caches sind schnelle Speicherkomponenten, die dazu dienen, Zugriffe auf häufig verwendete Daten und Befehle zu beschleunigen und den Energieverbrauch zu reduzieren [Lim]. In vielen modernen Mikrocontrollern, wie dem Cortex-M7, ist der L1-Cache (Level 1 Cache) jeweils in einen Datencache (D-Cache) und einen Instruktionscache (I-Cache) unterteilt [STMd, S. 6]. Da der Zugriff auf den Hauptspeicher sowie auf den Flash generell viel langsamer ist und mehrere Taktzyklen dauert [Sch19], kann mit L1-Caches Null-Waitstate ermöglicht werden [STMd, S. 6], wodurch der Prozessor ohne zusätzliche Wartezyklen auf die Daten zugreift [Wik24].

Der L1-Cache kann nur mit Speicherschnittstellen auf der Advanced eXtensible Interface (AXI)-Busarchitektur genutzt werden [STMc, S. 4]. Hierzu zählen unter anderem der Flash, der Static Random Access Memory (SRAM) sowie die beiden Highperformance Bus (AHB)-Busse, die alle an den AXI-Bus angebunden sind (4).



Abbildung 4: STM32F7 Systemarchitektur [STMd, S. 9]

Aus der Matrix wird deutlich, dass für den Speicher zwischen SRAM und TCM-RAM unterschieden wird. Der Tightly Coupled Memory (TCM) verfügt jeweils für Instruktionen und Daten über einen dedizierten Kanal zum Prozessor und ist nicht cachefähig, bietet aber als Besonderheit niedrigere Zugriffszeiten als SRAM. Während bei SRAM

die Zugriffszeit variieren kann (schnell aus dem Cache oder langsam aus dem Speicher), ist die Zugriffszeit bei TCM konsistent und deterministisch. Dies macht sie besonders geeignet für zeitkritische Routinen wie Interrupt-Handler oder Echtzeitaufgaben. ([Armg])

Zusammenfassend lässt sich sagen, dass jeder normale, nicht gemeinsam genutzte (nonshared) Speicherbereich gecacht werden kann, sofern er über das AXI-Bus zugänglich ist [STMc, S. 4] [STMd, S. 7].

Aus der Tabelle für den internen Speicher wird deutlich, dass der Flash ab der Adresse 0x08000000 über das AXI-Bus angesprochen wird (5). Diese Adresse ist auch im Linker-Skript standardmäßig für den Flash festgelegt. Daher kann der I-Cache über den AXI-Bus für den Flash genutzt werden, sofern der Boot-Pin sowie die assoziierten BOOT\_ADDx Option unverändert bleiben und die Firmware an die Standardadresse geflasht wird [STMe, S. 28].

| Memory type | Memory<br>region | Address start | Address end | Size                    | Access<br>interfaces         |
|-------------|------------------|---------------|-------------|-------------------------|------------------------------|
|             | FLASH-ITCM       | 0x0020 0000   | 0x003F FFFF |                         | ITCM (64-bit)                |
| FLASH       | FLASH-AXIM       | 0x0800 0000   | 0x081F FFFF | 2 Mbytes <sup>(1)</sup> | AHB (64-bit)<br>AHB (32-bit) |
|             | DTCM-RAM         | 0x2000 0000   | 0x2001 FFFF | 128 Kbytes              | DTCM (64-bit)                |
| RAM         | ITCM-RAM         | 0x0000 0000   | 0x0000 3FFF | 16 Kbytes               | ITCM (64-bit)                |
| IXAWI       | SRAM1            | 0x2002 0000   | 0x2007 BFFF | 368 Kbytes              | AHB (32-bit)                 |
|             | SRAM2            | 0x2007 C000   | 0x2007 FFFF | 16 KBytes               | AHB (32-bit)                 |

Abbildung 5: STM32F7 Systemarchitektur [STMd, S. 14]

Quellcode 1: Definition Speicherbereich im Linker-Script für STM32F7

Um Caches zu nutzen, bietet die STM-Hardware Abstraction Library (HAL) dedizierte Funktionsaufrufe in der API an [STMc, S. 4]:

```
void SCB_EnableICache(void)
void SCB_EnableDCache(void)
suid SCB_DisableICache(void)
void SCB_DisableDCache(void)
void SCB_InvalidateICache(void)
```

```
void SCB_InvalidateDCache(void)

void SCB_CleanDCache(void)

void SCB_CleanInvalidateDCache(void)
```

Quellcode 2: Cache-Funktionen

Bei einer Cache-Clean werden modifizierte Cache-Zeilen (Dirty Cache Lines), die durch das Programm aktualisiert wurden, zurück in den Hauptspeicher geschrieben [STMc, S. 4]. Dieser Vorgang wird gelegentlich auch als "flush" bezeichnet. Eine Cache-Invalidierung markiert den Inhalt des Caches als ungültig, sodass bei einem erneuten Zugriff auf dieselben Daten der Speicher neu ausgelesen und der Cache aktualisiert werden muss.

Allerdings kann beim Aktivieren von Caches für Speicherbereiche, die vom DMA-Controller genutzt werden, ein Problem der Cache-Kohärenz (Cache Coherency) entstehen, da der Prozessor in diesem Fall nicht mehr der einzige Master ist, der auf diese Speicherbereiche zugreift.

#### 1.2.1 Cache-Clean bei DMA

Damit der DMA-Controller stets auf korrekte Daten zugreifen kann, ist eine Cache-Clean nach jeder Modifikation der Daten erforderlich [STMc, S. 6]. Ohne diesen Schritt würden die Änderungen nicht im SRAM widergespiegelt, und der DMA-Controller würde weiterhin veraltete Daten verwenden.

#### 1.2.2 Cache-Invalidierung bei DMA

Bei Daten, die aus dem Speicher gelesen werden, auf die auch der DMA-Controller zugreift und modifiziert, muss vor jedem Lesevorgang eine Cache-Invalidierung erfolgen [Emb]. Da der DMA-Controller die Daten jederzeit ändern kann, sind die gecachten Daten per se ungültig und müssen immer durch Aktualisierung ersetzt werden.

## 1.3 Methode zur Echtzeitanalyse

Um die Echtzeitanalyse der Steuerungssoftware durchzuführen, ist eine Methode erforderlich, mit der beliebige Ausführungsabschnitte der Software flexibel, präzise und threadsicher gemessen werden können. Da die Software multithreaded ist, muss ebenfalls sichergestellt werden, dass die Messungen trotz preemptivem Scheduling sowie Interrupts korrekt und zyklengetreu durchgeführt werden können.

Basierend auf den oben genannten Herausforderungen bietet die Data Watchpoint and Trace Unit (DWT) als eine geeignete Lösung [ARMf]. Die DWT ist ein Debug-Einheit in Prozessoren inklusive ARMv7-M [ARMd], die das Profiling mittels verschiedener Zähler unterstützen [ARMa]. Ein für diese Arbeit zentraler Teil der DWT ist der Zyklenzähler DWT\_CYCCNT, der bei jedem Takt inkrementiert wird, solange sich der Prozessor nicht im Debug-Zustand befindet [ARMb]. Dadurch ermöglicht die DWT beispielsweise die Erfassung von Echtzeitaspekten mit zyklengenauer Präzision under normaler Operation [ARMc].

#### 1.3.1 Beispiel: Segger SystemView

Ein Beispiel hierfür ist Segger SystemView, ein Echtzeit-Analysewerkzeug, das die DWT einsetzt, um Live-Code-Profiling auf eingebetteten Systemen durchzuführen [SEGb].

Das Segger SystemView nutzt den DWT-Zyklenzähler, indem die Funktion segger\_sysview\_get\_timestamp() für Cortex-M3/4/7-Prozessoren einfach die hardkodierte Registeradresse des Zyklenzählers zurückgibt [SEGa, S. 65][Arme], anstatt die interne Funktion segger\_sysview\_x\_GetTimestamp() aufzurufen.

## 2 Vorbereitung

Die Vorbereitungsphase umfasst die Umstellung auf FreeRTOS und damit die vollständige Ablösung von Micro-ROS. Der Datenaustausch wird intern über FreeRTOS-Queues realisiert, während die Task-Synchronisation auf Direct-Task-Notification anstatt von Semaphoren basiert. Zusätzlich wird die Eingabe von Sollgeschwindigkeiten über UART mit CRC implementiert. Die Aktivierung des Caches bildet den Abschluss dieser Vorbereitungen. Die Details zu diesen Maßnahmen werden in den folgenden Abschnitten erläutert.

### 2.1 Umstellung auf FreeRTOS

#### 2.1.1 Geschwindigkeitsempfang über UART auf Mikrocontroller

In der bisherigen Implementierung wurde der Geschwindigkeitssollwert vom Host über ROS2 von dem Micro-ROS-Agent an den Client auf den MCU übertragen. Um die Abhängigkeit von Micro-ROS komplett zu beseitigen, muss die Übertragung und Interpretierung der Geschwindigkeitssollwerte manuell implementiert werden.

Es wird zunächst ein einfacher Struct Vel2d definiert, um die Geschwindigkeitswerte zu interpretieren, die vom Benutzer an den MCU gesendet werden.

```
struct Vel2d {
   double x;
   double y;
   double z;
};
```

Quellcode 3: Definition der Struktur für die Sollgeschwindigkeit

Darauf aufbauend wird eine weitere Struct Vel2dFrame definiert, die als UART-Daten-Frame dient. Dieser enthält ein zusätzliches Feld crc für die CRC-Überprüfung und eine Methode compare(), die einen lokal kalkulierten CRC-Wert als Parameter entgegennimmt, um diesen mit dem empfangenen zu vergleichen. Mit dem Attribut \_\_attribute\_\_((packed)) wird verhindert, dass zusätzliches Padding für die Speicherausrichtung dieses Typs eingefügt wird, Damit die über UART empfangenen Bytes direkt als Objekt dieses Typs interpretiert werden können.

```
struct Vel2dFrame {
   Vel2d vel;
   uint32_t crc;
```

```
bool compare(uint32_t rhs) { return crc == rhs; }

-attribute__((packed));

inline constexpr std::size_t VEL2D_FRAME_LEN = sizeof(Vel2dFrame);
```

Quellcode 4: Definition der Data-Frame für die Sollgeschwindigkeit

Für die Übertragung über UART kann die Setup-Funktion HAL\_UARTEx\_ReceiveToldle\_IT() aus der STM32-HAL-Bibliothek verwendet werden, um die serialisierten Bytes eines Data-Frames zu empfangen. Sie nimmt das UART-Handle, die Adresse eines Datenpuffers und dessen Größe entgegen und empfängt die eingehenden Daten über Interrupts in diesen vorab zugewiesenen Puffer.

Dies ist gepaart mit einer Interrupt-Callback HAL\_UARTEx\_RxEventCallback(), die entweder ausgelöst wird, wenn - wie der Name der UART-Setup-Funktion bereits andeutet die UART-Leitung feststellt, dass die Übertragung für eine bestimmte Zeit (abhängig von der Baudrate) inaktiv war, oder wenn der Puffer für die Übertragung voll ist, was darauf hinweist, dass der gesamte Inhalt des Puffers verarbeitet werden kann [STMa]. Der zweite Parameter dieser Interrupt-Callback gibt die Größe der in den Puffer geschriebenen Daten an [STMb].

Mit diesem Setup kann die Software nun Bytes beispielsweise über UART direkt von einem Linux-Host-Rechner empfangen, der mit dem MCU-Board verbunden ist.

```
// preallocated buffer with the exact size of a data frame
1
    static uint8_t uart_rx_buf[VEL2D_FRAME_LEN];
2
    volatile static uint16_t rx_len;
3
    void HAL_UARTEx_RxEventCallback(UART_HandleTypeDef* huart, uint16_t size) {
5
      if (huart->Instance != huart3.Instance) return;
      rx_len = size;
      static BaseType_t xHigherPriorityTaskWoken;
      configASSERT(task_handle != NULL);
10
      vTaskNotifyGiveFromISR(task_handle, &xHigherPriorityTaskWoken);
11
      portYIELD_FROM_ISR(xHigherPriorityTaskWoken);
12
      // reset reception from UART
14
      HAL_UARTEx_ReceiveToIdle_IT(&huart3, uart_rx_buf, sizeof(uart_rx_buf));
15
    }
16
17
    // setup reception from UART in task init
18
    HAL_UARTEx_ReceiveToIdle_IT(&huart3, uart_rx_buf, sizeof(uart_rx_buf));
19
```

Quellcode 5: Nutzung STM32-API für den Datenempfang über UART via Interrupt

Um die empfangenen Bytes zu parsen, ohne dies aber während der Ausführung der Interrupt-Callback zu tun, wird eine eigenständige FreeRTOS-Task erstellt. Dieser Task wird von der Interrupt-Callback mittels vTaskNotifyGiveFromISR() signalisiert 1.1.1 und die empfangenen Bytes werden wieder in ein Data-Frame deserialisiert, um die Geschwindigkeit und die CRC zu extrahieren.

Demnach kann dann eine CRC zur Kontrolle lokal aus den empfangenen Geschwindigkeitswert berechnet werden und sie mit der empfangenen vergleichen. Durch die Nutzung der dedizierten CRC-Peripherie ist die Berechnung beispielsweise auf einem STM32-F37x-Gerät das 60-fache schneller, und verwendet dabei nur 1,6% der Taktzyklen im Vergleich zur Softwareberechnung [STMf, S. 9].

```
while (true) {
1
        ulTaskNotifyTake(pdTRUE, portMAX_DELAY);
3
        len = rx_len; // access atomic by default on ARM
        if (len != VEL2D_FRAME_LEN) {
          ULOG_ERROR("parsing velocity failed: insufficient bytes received");
6
          continue;
        }
        auto frame = *reinterpret_cast<const Vel2dFrame*>(uart_rx_buf);
10
        auto* vel_data = reinterpret_cast<uint8_t*>(&frame.vel);
11
        if (!frame.compare(HAL_CRC_Calculate(
12
                 &hcrc, reinterpret_cast<uint32_t*>(vel_data), sizeof(frame.vel)))) {
13
          ULOG_ERROR("crc mismatch!");
14
15
          ++crc_err;
16
          continue;
        }
17
18
        frame.vel.x *= 1000; // m to mm
        frame.vel.y *= 1000; // m to mm
20
21
        xQueueSend(freertos::vel_sp_queue, &frame.vel, NO_BLOCK);
22
      }
23
```

Quellcode 6: FreeRTOS-Task Dauerschleife

#### 2.1.2 Geschwindigkeitsübertragung über UART auf Host

Um den vom Benutzer festzulegenden Geschwindigkeitssollwert für den mobilen Roboter zu übertragen, ist dem MCU-Board, auf dem die Steuerungssoftware läuft, physisch per UART mit einem Linux-Host (einem Raspberry Pi 5) verbunden. Auf dem

Host wird das vorhandene ROS2-Paket teleop\_twist\_keyboard weiter verwendet, um Geschwindigkeitseingaben des Benutzers über die Tastatur zu interpretieren. Um die Werten dann über UART zu übertragen, wird ein kleiner ROS2-Node als Brücke erstellt, der die Funktion des Micro-ROS-Agents ersetzt.

Dabei empfängt der Node über das ROS2-Framework die Geschwindigkeitssollwerte und überträgt sie zusammen mit der im Konstruktur kalkulierten CRC an die UART-Schnittstelle, die auf Linux als abstrahierter serieller Port geöffnet ist.

```
class Vel2dBridge : public rclcpp::Node {
     public:
2
      Vel2dBridge() : Node{"vel2d_bridge"} {
3
        twist_sub_ = create_subscription<Twist>(
             "cmd_vel", 10, [this](Twist::UniquePtr twist) {
               auto frame =
                   Vel2dFrame{{twist->linear.x, twist->linear.y, twist->angular.z}};
               if (!uart.send(frame.data())) {
9
                 RCLCPP_ERROR(this->get_logger(), "write failed");
10
                 return;
11
               }
12
13
              RCLCPP_INFO(this->get_logger(), "sending [%f, %f, %f], crc: %u",
                           frame.vel.x, frame.vel.y, frame.vel.z, frame.crc);
14
            });
15
      }
16
17
     private:
18
      rclcpp::Subscription<Twist>::SharedPtr twist_sub_;
19
      SerialPort<VEL2D_FRAME_LEN> uart =
20
          SerialPort<VEL2D FRAME LEN>(DEFAULT PORT, B115200);
21
    };
22
```

Quellcode 7: ROS2-Node Implementierung für Geschwindigkeitsübertragung

Die CRC-Berechnung auf dem Host erfolgt mithilfe einer C++-Bibliothek von Daniel Bahr [Bah22]. Der Algorithmus CRC::CRC\_32\_MPEG2() entspricht demjenigen, der von der CRC-Peripherie des STM32-Boards verwendet wird.

```
Vel2dFrame::Vel2dFrame(Vel2d vel)
: vel{std::move(vel)},
crc{CRC::Calculate(&vel, sizeof(vel), CRC::CRC_32_MPEG2())} {}
```

Quellcode 8: CRC-Berechnung im Konstruktur

Mithilfe dieser Implementierungen werden die Übertragung der Geschwindigkeitssollwerte vom Host und deren Empfang auf dem MCU ermöglicht. Dadurch, dass der

Empfang detektiert, dass keine weiteren Bytes übertragen werden, und ebenso durch die Überprüfung der CRC, werden unvollständige oder fehlerhafte Bytes erkannt und verworfen, ohne den Programmablauf zu blockieren.

### 2.1.3 Steuerungskomponenten als FreeRTOS-Tasks

Analog zur Implementierung basierend auf Micro-ROS, bei der alle logischen Komponenten als Single-Threaded-Executor abstrahiert werden, sind diese Komponenten in FreeRTOS ebenfalls als eigenständige Tasks implementiert. Der Fokus liegt hierbei darauf, den grundlegenden Datenaustausch in Form einer Publisher-Subscriber-Architektur mittels Queues zu realisieren. Dadurch müssen die Daten nicht mehr durch Semaphoren oder Mutexe geschützt werden, welche in FreeRTOS auch nur mittels Queue-Objekte abstrahiert sind.

Zunächst wird eine eigenständige Task zur Abfrage und Übertragung der Encoderwerte erstellt, die von der Hardware bzw. der Hardwareabstraktion durch Timer bereitgestellt werden, damit die anderen Tasks bei jeder Iteration auf einheitliche Encoderwerte zugreifen können.

```
static void task_impl(void*) {
      constexpr TickType_t NO_BLOCK = 0;
2
      TickType_t xLastWakeTime = xTaskGetTickCount();
3
      const TickType_t xFrequency = pdMS_TO_TICKS(WHEEL_CTRL_PERIOD_MS.count());
5
      while (true) {
6
        auto enc_delta = FourWheelData(hal_encoder_delta_rad());
        xQueueSend(freertos::enc_delta_wheel_ctrl_queue, &enc_delta, NO_BLOCK);
9
        xQueueOverwrite(freertos::enc_delta_odom_queue, &enc_delta);
10
11
        vTaskDelayUntil(&xLastWakeTime, xFrequency);
12
      }
13
    }
14
```

Quellcode 9: FreeRTOS-Task für Encoderwertabfrage und -übertragung

Die Empfänger-Task, welche mit xQueueSend() addressiert wird, läuft mit einer höhreren Frequenz, sodass er die Daten immer schneller verarbeitet und auf neue Daten wartet. Im Gegensatz dazu ist xQueueOverwrite() eine spezielle Funktion, die ausschließlich für Queues mit einer maximalen Kapazität von einem Objekt vorgesehen ist. Sie überschreibt das vorhandene Objekt in der Queue, falls es existiert. In diesem Kontext ist dies jedoch irrelevant, da die zugehörige Empfänger-Task, der mit der gleichen Frequenz wie die Encoderwert-Task läuft, die Daten synchron verarbeitet. Dennoch

dient die Überschreibbarkeit als zusätzliche Sicherheitsmaßnahme für den Fall einer Verzögerung.

Darauf basierend kann die Kommunikation als Matrix wie folgt illustriert werden:

| Empfängertask<br>Sendertask | Odometrie     | Drehzahlregelung | Posenregelung |
|-----------------------------|---------------|------------------|---------------|
| Encoderwerte                | $\rightarrow$ | $\rightarrow$    |               |
| Geschwindigkeitssollwert    |               |                  | $\rightarrow$ |
| Odometrie                   |               |                  | $\rightarrow$ |
| Drehzahlregelung            |               |                  | $\rightarrow$ |

Tabelle 1: Kommunikationskanal-Matrix

Die Kanäle werden dementsprechend durch Queue-Objekte repräsentiert.

```
extern QueueHandle_t enc_delta_odom_queue;
extern QueueHandle_t enc_delta_wheel_ctrl_queue;
extern QueueHandle_t vel_sp_queue;
extern QueueHandle_t odom_queue;
extern QueueHandle_t vel_wheel_queue;
```

Quellcode 10: Queue-Objekte in FreeRTOS

Die grundlegende Implementierung der jeweiligen Steuerungstasks bleibt größententeils von der Micro-ROS-Struktur erhalten. Die Initialisierung der jeweiligen Steuerungstasks erfolgt in freertos::init():

```
void init() {
   hal_init();
   queues_init();

   task_hal_fetch_init();

   task_vel_recv_init();

   task_pose_ctrl_init();

   task_wheel_ctrl_init();

   task_odom_init();

}
```

Quellcode 11: Initialisierung von FreeRTOS-Tasks

Eine üblicher Ansatz in einem FreeRTOS-System, um unter anderem sowohl den Speicherverbrauch zu optimieren als auch die Programmdeterminiertheit zu verbessern, besteht darin, die Erstellung der FreeRTOS-Objekte statisch durchzuführen [Freg].

Um diese zu realisieren, wird im Makefile ein Macro -derettos\_static\_init definiert, das zur Übersetzungszeit festlegt, ob die Objekte dynamisch innerhalb der FreeRTOS-API oder statisch mit benutzerdefinierten Speicherorten zugewiesen werden sollen.

Für eine Task, der dynamisch allokiert wird, ist der Funktionsaufruf so einfach wie der folgende:

Quellcode 12: Dymanische Allokation eines FreeRTOS-Tasks

Wenn eine Task statisch allokiert werden soll, muss der Benutzer manuell jeweils einen Speicherpuffer für den Task-Stack und für die Task selbst deklarieren und an die API übergeben.

Quellcode 13: Dymanische Allokation eines FreeRTOS-Tasks

Analog dazu muss der Benutzer für die statische Allokation einer Queue auch jeweils einen Speicherpuffer mit der maximalen Kapazität für die Queue und die Queue-Struktur selbst deklarieren:

```
constexpr size_t QUEUE_SIZE = 10;
static FourWheelData buf[QUEUE_SIZE];
static StaticQueue_t static_queue;
return xQueueCreateStatic(QUEUE_SIZE, sizeof(*buf),
reinterpret_cast<uint8_t*>(buf), &static_queue);
```

Quellcode 14: Dymanische Allokation einer FreeRTOS-Queue

Damit schließt der Abschnitt zur Umstellung auf FreeRTOS. Der Code für die MCU-Software sowie für den ROS2-Node auf dem Host ist im Repository [Xu25] verfügbar.

## 2.2 Aktivierung von Instruktionscache

Zum Aktivieren des Instruktionscaches muss die Funktion SCB\_EnableICache() aufgerufen werden. Da der Instruktionscache ausschließlich schreibgeschützte Befehle zwischenspeichert, ist keine Synchronisation mit modifizierbaren Daten erforderlich.

### 2.3 Aktivierung von Datencache

Obwohl der Datencache durch den einfachen Funktionsaufruf SCB\_EnableDCache() aktiviert wird, stellt dies jedoch noch nicht den abschließenden Schritt dar.

Die Transportfunktionen für Micro-ROS nutzen die Ethernet-Schnittstelle, deren Funktionalität durch die Integration des LwIP-Stacks, der intern DMA verwendet, erweitert wird. Um sicherzustellen, dass die Daten korrekt verarbeitet werden, müssen sowohl der Heap für LwIP als auch die Speicherbereiche für die Ethernet-RX- und TX-Deskriptoren mittels Memory Protection Unit (MPU) so konfiguriert werden, dass sie nicht gecacht werden [hot23].

 Cortex Memory Protection Unit Region 1 Settings MPU Region Enabled MPU Region Base Address 0x30004000 MPU Region Size 16KB MPU SubRegion Disable 0x0 MPU TEX field level level 0 MPU Access Permission ALL ACCESS PERMITTED MPU Instruction Access **DISABLE** MPU Shareability Permission DISABLE MPU Cacheable Permission DISABLE MPU Bufferable Permission DISABLE Cortex Memory Protection Unit Region 2 Settings MPU Region Enabled 0x2007c000 MPU Region Base Address MPU Region Size 512B 0x0 MPU SubRegion Disable MPU TEX field level level 0 MPU Access Permission ALL ACCESS PERMITTED MPU Instruction Access **DISABLE** MPU Shareability Permission **ENABLE** MPU Cacheable Permission DISABLE MPU Bufferable Permission **ENABLE** 

Abbildung 6: MPU-Konfiguration aus STM32CubeMX

Hierbei werden die Anfangsadressen sowie die Größe der RX- und TX-Deskriptoren und des LwIP-Heaps aus CubeMX entnommen. Wichtig ist es, die Zugriffsrechte (Access Permission) korrekt zu konfigurieren und sicherzustellen, dass der Cache (Cacheable Permission) deaktiviert ist.

Obwohl die MPU konfiguriert wurde, um die Speicherbereiche für LwIP und die Ethernet-Deskriptoren als nicht-cachebar zu markieren, tritt dennoch ein Fehler auf, sobald die Verbindung zum Micro-ROS-Agent auf dem Host hergestellt wird. Der Fehler (7), der in den Debugausgaben des Micro-ROS-Agents sichtbar ist, deutet darauf hin, dass auf der Low-Level-Ebene bei der Übertragung der Daten über UDP weiterhin Probleme

mit der Cache-Kohärenz auftreten. Insbesondere scheint das client\_key oder die assoziierten Daten nicht korrekt gecacht zu werden.

```
ros2 run micro_ros_agent micro_ros_agent udp4 --port 8888 -v6
[1742552565.083969] info
[1742552565.084433] info
                                    | UDPv4AgentLinux.cpp | init
| Root.cpp | set_verbose_level
                                                                                                  | running..
                                                                                                                                 | port: 8888
                                    | Root.cpp | set_verbose_le
| UDPv4AgentLinux.cpp | recv_message
                                                                                                                                | verbose_level: 6
| client_key: 0x00000000, len: 16, data:
0000: 80 00 00 00 02 01 08 00 00 0A FF FD 02 00 00 00
[1742552565.562472] debug | UDPv4AgentLinux.cpp | send_message | [** <<UDP>> **]
0000: 80 00 00 00 06 01 1C 00 00 0A FF FD 00 00 01 0D 58 52 43 45 01 00 01 0F 00 01 0D 00 01 00 00 00
                                                                                                                                | client_key: 0x00000000, len: 36, data:
0020: 00 00 00 00
[1742552565.562845] debug | UDPv4AgentLinux.cpp | recv_message
0000: 80 00 00 00 00 01 10 00 58 52 43 45 01 00 01 0F 6D C9 35 70 81 00 FC 01
                                                                                                                                 | client_key: 0x00000000, len: 24, data:
[1742552565.563041] info
[1742552565.563109] info
[1742552565.563207] debug
                                    | Root.cpp | create_client
| SessionManager.hpp | establish_session
| UDPv4AgentLinux.cpp | send_message
                                                                                                                                | client key: 0x6DC93570, session id: 0x81
                                                                                                | create
                                                                                                                                | client_key: 0x6DC93570, address: 192.168.1.249:19956
| client_key: 0x6DC93570, len: 19, data:
                                                                                                | session established
                                                                                                 [** <<UDP>> **]
0000: 81 00 00 00 04 01 0B 00 00 00 58 52 43 45 01 00 01 0F 00
                                                                                                                                | client_key: 0x6DC93570, len: 48, data:
[1742552565.563611] info
[1742552565.563698] info
                                                                                                                                | client_key: 0x6DC93570
| client_key: 0x6DC93570, address: 192.168.1.249:19956
                                      Root.cpp | delete_client
SessionManager.hpp | destroy_session
[1742552565.563714] warning | Root.cpp
[1742552565.563794] debug | UDPv4Agen
                                                              | create_client
                                                                                                I invalid client key
                                                                                                                                | client kev: 0x00000000
1742525255.563794] debug | UDPVARgentLinux.cpp | send_message
0000: 00 00 00 00 00 00 00 00 00 4 01 08 00 85 00 58 52 43 45 01 00 01 0F 00
                                                                                                                                | client_key: 0x00000000, len: 23, data:
                                                                                                 [1742552565.663542] debug
                                    | UDPv4AgentLinux.cpp | recv_message
                                                                                                                                | client key: 0x00000000, len: 13, data:
0000: 81 00 00 00 0B 01 05 00 00 00 00 08 08 [1742552565.763587] debug | UDPv4AgentLinu
                                      UDPv4AgentLinux.cpp | recv_message
                                                                                                 | [==>> UDP <<==]
[1742552565.763587] debug | UDPv4AgentLinu
0000: 81 00 00 00 0B 01 05 00 00 00 00 00 80
                                                                                                                                | client_key: 0x00000000, len: 13, data:
[1742552565.863514] debug | UDPv4AgentLinux.cpp | recv_message 0000: 81 00 00 00 0B 01 05 00 00 00 00 80
                                                                                                 | [==>> UDP <<==]
                                                                                                                                | client_key: 0x00000000, len: 13, data:
                                                                                                 | [==>> UDP <<==]
                                                                                                                                | client key: 0x00000000, len: 13, data:
                                    | UDPv4AgentLinux.cpp | recv message
0000: 81 00 00 00 0B 01 05 00 00 00 00 00 80
                                      UDPv4AgentLinux.cpp | recv_message
                                                                                                 Ι Γ==>> UDP <<==1
                                                                                                                                | client kev: 0x00000000, len: 13, data:
0000: 81 00 00 00 0B 01 05 00 00 00 00 00 80
                                                 ntLinux.cpp | recv_message
                                                                                                 [==>> UDP <<==]
                                                                                                                                | client_key: 0x00000000, len: 13, data:
0000: 81 00 00 00 0B 01 05 00 00 00 00 00 80
                                                                                                 [==>> UDP <<==]
                                                                                                                                | client kev: 0x00000000, len: 13, data:
[1742552566.263505] debug
                                    | UDPv4AgentLinux.cpp | recv message
0000: 81 00 00 00 0B 01 05 00 00 00 00 00 80
                                      UDPv4AgentLinux.cpp | recv_message
                                                                                                 [==>> UDP <<==]
                                                                                                                                | client_key: 0x00000000, len: 13, data:
0000: 81 00 00 00 0B 01 05 00 00 00 00 00 80
                                    | UDPv4AgentLinux.cpp | recv_message
                                                                                                 | [==>> UDP <<==]
                                                                                                                                | client_key: 0x00000000, len: 13, data:
```

Abbildung 7: Micro-ROS-Agent Fehlermeldung mit Debugausgaben

Bei der Recherche zu diesem Problem wurde ein Issue auf GitHub identifiziert, welches genau das selbe Verhalten beschrieb. In diesem Kontext wurde dann der Autor um eine Lösung gebeten, die daraufhin bereitgestellt wurde und sich als effektiv erwies, um das Problem zu beheben [Mau24].

```
@@ -54,6 +54,10 @@
1
     /* USER CODE BEGIN 1 */
2
     /* address has to be aligned to 32 bytes */
3
    +#define ALIGN_ADDR(addr) ((uintptr_t)(addr) & ~0x1F)
    +#define ALIGN_SIZE(addr, size) ((size) + ((uintptr_t)(addr) & 0x1f))
5
    +#define FLUSH_CACHE_BY_ADDR(addr, size) \
6
      SCB_CleanDCache_by_Addr((uint32_t *)ALIGN_ADDR(addr), ALIGN_SIZE(addr, size))
     /* USER CODE END 1 */
8
9
     /* Private variables -----
10
    @@ -404,6 +408,8 @@
11
         Txbuffer[i].buffer = q->payload;
12
         Txbuffer[i].len = q->len;
13
14
15
         FLUSH_CACHE_BY_ADDR(Txbuffer[i].buffer, Txbuffer[i].len);
16
         if(i>0)
17
           Txbuffer[i-1].next = &Txbuffer[i];
19
```

#### Quellcode 15: Modifizierung des ST-Treiber-Quellcode in Diffansicht

Die Lösung ist in Bezug auf den Codeumfang recht simple: Für jede Übertragung muss nur der Cache für die Payload jedes Paketpuffers (pbuf) in low\_level\_output() mittels den Funktionsaufruf SCB\_CleanDCache\_by\_Addr() geleert werden, um einen sogenannten Cache-Writeback auszulösen (1.2.1), so dass die Änderungen tatsächlich in den Speicher geschrieben und somit auch beim DMA-Controller korrekt widergespiegelt werden. Diese Lösung ist ebenfalls in einem Beitrag aus dem Jahr 2018 im ST-Forum dokumentiert [Alm].

Da die Größe jeder Cacheline auf allen Cortex-M7-Prozessoren 32 Byte beträgt [STMc, S. 4] und bei jedem Caching die gesamte Cacheline gefüllt wird, selbst wenn die Daten weniger als 32 Byte umfassen, muss die angegebene Adresse der Daten, deren Cache geleert werden soll, durch eine bitweise AND-Operation mit -0x1F auf eine 32-Byte-Grenze ausgerichtet werden [CMS23]. Nach der Anpassung der Adresse für die 32-Byte-Ausrichtung muss auch die Größe entsprechend ergänzt werden, um die fehlenden Bytes nach der Ausrichtung zu berücksichtigen.

Hierbei ist zu beachten, dass ein Teil der Modifizierung direkt im generierten ST-Treiber-Quellcode vorgenommen wird, der bei jeder Neugenerierung überschrieben wird. In der Funktion <code>low\_level\_output()</code> ist kein durch ST bereitgestellter User-Code-Guard vorhanden, und ein manuell hinzugefügter User-Code-Guard wird ebenfalls überschrieben. Um dieses Problem zu umgehen, wurde eine Patch-Datei erstellt, die nach jeder Generierung der Konfigurationsdateien auf die Quelldatei <code>LWIP/Target/ethernetif.c</code> angewendet werden muss.

## 3 Implementierung zur Echtzeitanalyse

Nachdem die Steuerungssoftware auf zwei verschiedenen Architekturen, nämlich FreeR-TOS und Micro-ROS, aufgebaut wurde, kann nun eine konkrete Implementierung der Echtzeitanalyse basierend auf FreeRTOS erfolgen, um die Portabilität auf Micro-ROS zu ermöglichen. Ziel der Analyse ist es, Informationen darüber zu gewinnen, wie lange eine bestimmte Task oder eine bestimmte zeitkritische Funktion benötigt. Die daraus resultierenden Daten müssen mit einer angemessenen Genauigkeit erfasst werden, um sicherzustellen, dass die Echtzeitaspekte korrekt widergespiegelt werden.

Aufgrund von Hardwarebeschränkungen sowie Einfachheit wurde UART als Kommunikationsschnittstelle zur Übertragung der Echtzeitdaten vom Mikrocontroller zum Host gewählt. Mit einer theoretischen Übertragungsrate von bis zu 12,5 Mbit/s bietet UART ausreichende Bandbreite [STMe, S. 2], um die Profiling-Daten zu übertragen, ohne Überlastung zu verursachen.

Daraus ergibt sich als Erstes die Notwendigkeit, eine threadsichere Multi Producer Single Consumer (MPSC) Queue, oder besser gesagt eine Multi Producer Senke, zu implementieren, welche die Profiling-Daten kontinuierlich in Echtzeit konsumiert und sie über UART ausgibt. Die FreeRTOS Stream- oder Messagebuffer sind für den Fall mit mehreren Producers nicht geeignet [Fre21].

#### 3.1 Threadsichere Senke

Da FreeRTOS und dementsprechend auch Micro-ROS multithreaded sind und zur Echtzeitanalyse Daten von beliebiger Stelle beim Programmlauf durch IO übertragen werden, muss dabei die Thread-Sicherheit gewährleistet werden, damit die zu übertragenden Daten nicht durch Race Conditions neu geordnet, überschrieben oder zu unbrauchbaren Daten werden.

Die grundlegende Idee besteht darin, dass Daten aus mehreren Threads in die Senke gepusht, oder besser gesagt in einen internen Puffer gespeichert werden und dann darauf warten, von einem einzelnen Verbraucher verarbeitet zu werden. Da der Speicher begrenzt ist, muss die Senke in der Lage sein zu erkennen, wann sie das weitere Schreiben von Daten in den Puffer blockieren muss, um zu verhindern, dass zuvor geschriebene, aber noch nicht verarbeitete Daten überschrieben werden.

Inspiriert von einem C++-Konferenzvortrag über eine Multi Producer Multi Consumer (MPMC)-Warteschlange aus dem Jahr 2024 [Str24], in dem jede Position des Datenpuffers eine eindeutige Sequenznummer besitzt, diese bei der Entnahme der Da-

ten atomar um die Gesamtlänge des Datenpuffers N erhöht, wodurch angezeigt wird, dass die Daten an dieser Position bereits in der Iteration N verarbeitet wurden und somit in der nächsten Iteration N+1 vom Schreiber überschrieben werden können, was durch den Vergleich mit der globalen Schreibsequenznummer ermöglicht wird, die ebenfalls nach jedem Schreibvorgang atomar erhöht wird.

Für den Fall einer Senke mit aber nur einem einzigen Verbraucher reicht es aus, den Zustand als bool zu speichern, der angibt, ob die Daten an einer bestimmten Position noch verarbeitet werden müssen oder bereits überschrieben werden können.

Durch die Verwendung von DMA gepaart mit einem Interrupt-Callback ausgelöst bei jedem Abschluss einer DMA-Übertragung wird die typische IO-gebundene Zeit eliminiert, da in diesem Fall das Schreiben von Daten in das IO einfach zum Schreiben in einen In-Memory-Puffer wird, während die eigentlichen IO-Operationen auf den DMA-Controller verlagert werden. Wenn das tatsächliche IO die Daten schnell genug überträgt, um mit den eingehenden Daten Schritt zu halten, entsteht keine Situation, in der eine Task darauf warten muss, dass die Senke Speicherplatz freigibt, um den Schreibvorgang weiter durchzuführen.

#### 3.1.1 Schreibvorgang in die Senke

Um das Schreiben in die Senke threadsicher zu machen, wird ein Mutex verwendet. Dies stellt sicher, dass ein Thread, der ein Mutex hält, niemals vom Scheduler ausgeschlossen wird (1.1.1). Bei jedem zu schreibenden Byte in den Puffer wird überprüft, ob die Daten an der aktuellen Position bereits verarbeitet wurden. Falls dies nicht der Fall ist, verzögert sich der Thread durch präemptives Warten und gibt die Kontrolle an den Scheduler zurück, um Polling to vermeiden. Nachdem das Byte in den Puffer geschrieben wurde, wird der globale Schreibindex samt dem Zustand dieser Position aktualisiert. Erst nachdem alle Bytes in den Puffer geschrieben wurden, wird das Mutex freigegeben.

```
void tsink_write(const char* ptr, size_t len) {
      xSemaphoreTake(write_mtx, portMAX_DELAY);
2
      for (size_t i = 0; i < len; ++i) {</pre>
3
        while (consumable[write_idx]) vTaskDelay(1);
5
        sink[write_idx] = ptr[i];
6
        taskENTER_CRITICAL();
        consumable[write_idx] = true;
8
        write_idx = (write_idx + 1) % SINK_SIZE;
9
        taskEXIT_CRITICAL();
10
11
```

```
xSemaphoreGive(write_mtx);
}
```

Quellcode 16: Schreib-API von der Senke

#### 3.1.2 Lesevorgang aus der Senke

Eine kleine, statisch allokierte FreeRTOS-Task wird erstellt, um kontinuierlich zu versuchen, verfügbare Daten aus der Senke zu entnehmen und verarbeiten. Mithilfe des Lese- und Schreibzeigers kann die Größe der verarbeitbaren Daten berechnet werden, und zusammen mit dem Lesezeiger auf die Daten werden diese in die vom Benutzer bereitgestellte Verarbeitungsfunktion übergeben.

```
using tsink_consume_f = void (*)(const uint8_t* buf, size_t size);
1
    tsink_consume_f consume;
2
    void consume_and_wait(size_t pos, size_t size) {
      auto update_for_writer = [](size_t pos, size_t size) static {
5
         for (size_t i = 0; i < size; ++i) consumable[pos + i] = false;</pre>
      };
8
      consume(sink + pos, size);
9
      ulTaskNotifyTake(pdFALSE, portMAX_DELAY);
      update_for_writer(pos, size);
11
12
13
    void task_impl(void*) {
14
      size_t pos = 0;
15
      while (true) {
16
         auto end = write_idx;
17
         if (pos == end && !consumable[pos]) {
18
           vTaskDelay(1);
19
           continue;
20
        }
21
22
        auto size = (pos < end ? end : SINK_SIZE) - pos;</pre>
23
         consume_and_wait(pos, size);
         if (pos >= end && end) consume_and_wait(0, end);
25
26
         pos = end;
27
      }
28
29
```

Quellcode 17: Implementierung der Task zur Datenverarbeitung

Nachdem die Daten mittels consume() verarbeitet wurden, blockiert sich die Task selbst und gibt wieder die Kontrolle über ulTaskNotifyTake() an den Scheduler zurück, um sich mit den tatsächlichen IO-Operationen zu synchronisieren. Diese Vorgehensweise ist besonders effizient, wenn consume() intern DMA nutzt: Die DMA-Übertragungsinstruktion signalisiert dabei lediglich der Hardware den Transfervorgang und kehrt sofort zurück [HAL]. Konkret werden die Daten zur Verarbeitung für den DMA eingereiht, während der Programmfluss unmittelbar fortgesetzt wird.

Erst nachdem das Signal durch den Aufruf von tsink\_consume\_complete() empfangen wurde, beispielsweise von einer ISR, die durch den DMA nach Abschluss der Übertragung ausgelöst wird, wird das Zustandsarray für die Positionen, von denen Daten gelesen wurden, aktualisiert, so dass diese sicher mit neuen Daten überschrieben werden können.

```
enum struct TSINK_CALL_FROM { ISR, NON_ISR };
2
    template <TSINK_CALL_FROM callsite>
3
    void tsink_consume_complete() {
      if constexpr (callsite == TSINK_CALL_FROM::ISR) {
5
        static BaseType_t xHigherPriorityTaskWoken;
6
        vTaskNotifyGiveFromISR(task_hdl, &xHigherPriorityTaskWoken);
        portYIELD_FROM_ISR(xHigherPriorityTaskWoken);
      } else {
9
        xTaskNotifyGive(task_hdl);
10
      }
11
    }
12
```

Quellcode 18: Callback zur Task-Notification

Auf der ARM-Architektur sind alle ausgerichteten Byte-, Halbwort- und Wortzugriffe standardmäßig atomar [ARM21, S. A3-79]. Daher ist der direkte Zugriff auf Variablen wie size\_t write\_idx oder Elemente des Arrays bool consumable[] standardmäßig threadsicher, ohne dass es zu Schreib-Lese-Konflikten kommt.

#### 3.1.3 Nutzung der Senke per DMA

Um diese Senke mit DMA und aktiviertem Daten-Cache zu verwenden, muss zunächst eine benutzerdefinierte Interrupt-Callback HAL\_UART\_TxCpltCallback() definiert werden, die bei Abschluss des DMA-Transfers ausgelöst wird. Anschließend ist die Initialisierungsfunktion der Senke aufzurufen, die eine Verarbeitungsfunktion vom Typtsink\_consume\_f (17) sowie eine Priorität als Argumente entgegennehmen.

```
void HAL_UART_TxCpltCallback(UART_HandleTypeDef* huart) {
```

```
if (huart->Instance != huart3.Instance) return;
2
      tsink_consume_complete<TSINK_CALL_FROM::ISR>();
3
4
5
    void main() {
      auto tsink_consume_dma = [](const uint8_t* buf, size_t size) static {
        auto flush_cache_aligned = [](uintptr_t addr, size_t size) static {
8
          constexpr auto align_addr = [](uintptr_t addr) { return addr & ~Ox1F; };
9
          constexpr auto align_size = [](uintptr_t addr, size_t size) {
10
            return size + ((addr) & 0x1F);
11
          };
12
13
          SCB_CleanDCache_by_Addr(reinterpret_cast<uint32_t*>(align_addr(addr)),
14
                                   align_size(addr, size));
15
        };
16
17
        flush_cache_aligned(reinterpret_cast<uintptr_t>(buf), size);
18
        HAL_UART_Transmit_DMA(&huart3, buf, size);
19
      };
21
      tsink_init(tsink_consume_dma, osPriorityAboveNormal);
22
23
```

Quellcode 19: Initialisierung der Senke mit DMA

#### 3.1.4 Nutzung der Senke IO-gebunden

Ähnlich wie bei der Initialisierung über DMA, entfällt hier aber der Interrupt-Callback, und die Verarbeitungsfunktion wird durch die Verwendung der blockierenden API vereinfacht. Dies ist möglich, da ohne DMA keine manuelle Sicherstellung der Cache-Kohärenz notwendig ist.

```
int main() {
    auto tsink_consume = [](const uint8_t* buf, size_t size) static {
        HAL_UART_Transmit(&huart3, buf, size, HAL_MAX_DELAY);
        tsink_consume_complete<TSINK_CALL_FROM::NON_ISR>();
    };

tsink_init(tsink_consume_dma, osPriorityAboveNormal);
}
```

Quellcode 20: Initialisierung der Senke mit blockierender IO

#### 3.1.5 Benchmark

Ein Benchmark für die Senke wurde entwickelt, um deren Leistung und Zuverlässigkeit unter paralleler Last zu testen. Der Benchmark lässt eine Anzahl von BENCHMARK\_N = 4 Tasks parallel laufen, die jeweils eine Anzahl von iteration = 5000 Nachrichten hintereinander über die Senke ausgeben. Die Zeitmessung erfolgt über den Zykluszähler des Prozessors, um die exakte Ausführungszeit zu erfassen.

Nach Abschluss der Benchmarks werden die gemessenen Zeiten und die Laufzeitstatistiken der jeweiligen Tasks mittels der Funktion vTaskGetRunTimeStats() aus FreeRTOS ausgegeben.

| time in ms: 4 | 174   |        | time in ms: 7 | 524   |        |
|---------------|-------|--------|---------------|-------|--------|
| time in ms: 5 | 995   |        | time in ms: 7 | 530   |        |
| time in ms: 6 | 017   |        | time in ms: 7 | 692   |        |
| time in ms: 6 | 102   |        | time in ms: 7 | 806   |        |
| time elapsed: | 6102  |        | time elapsed: | 7805  |        |
|               |       | ====== | ===========   |       | ====== |
| Task          | Time  | %      | Task          | Time  | %      |
| IDLE          | 43211 | 71%    | IDLE          | 0     | <1%    |
| benchmark     | 4165  | 6%     | benchmark     | 4133  | 5%     |
| benchmark     | 4172  | 6%     | benchmark     | 4153  | 5%     |
| benchmark     | 4173  | 6%     | benchmark     | 4150  | 5%     |
| benchmark     | 4090  | 6%     | benchmark     | 4155  | 5%     |
| tsink         | 632   | 1%     | tsink         | 60752 | 78%    |
| print_bench   | 1     | <1%    | print_bench   | 0     | <1%    |
| Tmr Svc       | 0     | <1%    | Tmr Svc       | 0     | <1%    |

Quellcode 21: Benchmark DMA

Quellcode 22: Benchmark IO-gebunden

## 3.2 Aktivierung der DWT

Wie im vorherigen Abschnitt erläutert 1.3, stellt die DWT einen geeigneten Ansatz zur Generierung von Analysedaten dar. Sie ist standardmäßig auf Cortex-M7-Prozessoren verfügbar und kann durch die folgenden Konfigurationsschritte aktiviert werden:

```
void enable_dwt() {
CoreDebug->DEMCR |= CoreDebug_DEMCR_TRCENA_Msk;

DWT->LAR = OxC5ACCE55; // software unlock

DWT->CYCCNT = 1;

DWT->CTRL |= DWT_CTRL_CYCCNTENA_Msk;

}
```

Quellcode 23: Aktivierung der DWT [Plo]

4 Abschluss 27

# 4 Abschluss

- 4.1 Fazit
- 4.2 Ausblick

### Literaturverzeichnis

[Alm] ALMGREN, Sven: STM32H7 LwIP Cache Bug Fix. https://community.st.com/t5/stm32-mcus-embedded-software/stm32h7-lwip-cache-bug-fix/m-p/383712, . - Zugriff: 21. März 2025

- [ARMa] ARM LIMITED: ARMv7-M Architecture Reference Manual. https://developer.arm.com/documentation/ddi0403/d/Debug-Architecture/ARMv7-M-Debug/The-Data-Watchpoint-and-Trace-unit/Profiling-counter-support?lang=en. Zugriff: 14. März 2025
- [ARMb] ARM LIMITED: ARMv7-M Architecture Reference Manual. https://developer.arm.com/documentation/ddi0403/d/Debug-Architecture/ARMv7-M-Debug/The-Data-Watchpoint-and-Trace-unit/CYCCNT-cycle-counter-and-related-timers?lang=en. Zugriff: 14. März 2025
- [ARMc] ARM LIMITED: ARMv7-M Architecture Reference Manual. https://developer.arm.com/documentation/ddi0403/d/Debug-Architecture/ARMv7-M-Debug/The-Data-Watchpoint-and-Trace-unit?lang=en. Zugriff: 14. März 2025
- [ARMd] ARM LIMITED: Data Watchpoint and Trace Unit (DWT), https://developer.arm.com/documentation/ddi0439/b/Data-Watchpoint-and-Trace-Unit/About-the-DWT. Zugriff: 14. März 2025
- [Arme] ARM LIMITED: Data Watchpoint and Trace Unit (DWT) Programmer's Model. https://developer.arm.com/documentation/ddi0439/b/Data-Watchpoint-and-Trace-Unit/DWT-Programmers-Model. Zugriff: 14. März 2025
- [ARMf] ARM LIMITED: Summary: How many instructions have been executed on a Cortex-M processor? https://developer.arm.com/documentation/ka001499/latest/. Zugriff: 14. März 2025
- [Armg] ARM LIMITED; ARM (Hrsg.): Tightly Coupled Memory. Arm, https://developer.arm.com/documentation/den0042/a/Tightly-Coupled-Memory. Document ID: DEN0042A
- [ARM21] ARM LIMITED (Hrsg.): ARM Architecture Reference Manual: ARMv7-A and ARMv7-R edition. ARM Limited, 2021. Zugriff: 28. März 2025
- [Bah22] BAHR, Daniel: CRCpp. https://github.com/d-bahr/CRCpp. Version: 2022. Zugriff: 16. März 2025
- [CMS23] CMSIS: CMSIS Core Cache Functions. https://docs.contiking.org/en/release-v4.5/\_api/group\_\_CMSIS\_\_Core\_\_CacheFunctions. html#ga696fadbf7b9cc71dad42fab61873a40d, 2023. Zugriff: 21. März 2025
- [Emb] Embedded Systems.

- Blog post. https://blog.embeddedexpert.io/?p=2707. Zugriff: 19. März 2025
- [Frea] FREERTOS: Mutex or Semaphore. https://forums.freertos.org/t/mutex-or-semaphore/14644/3. Zugriff: 15. März 2025
- [Freb] FREERTOS: Mutexes. https://www.freertos.org/Documentation/02-Kernel/02-Kernel-features/02-Queues-mutexes-and-semaphores/04-Mutexes. Zugriff: 15. März 2025
- [Frec] FREERTOS: Queues. https://www.freertos.org/Documentation/02-Kernel/02-Kernel-features/02-Queues-mutexes-and-semaphores/01-Queues. Zugriff: 15. März 2025
- [Fred] FREERTOS: The RTOS Tick. https://www.freertos.org/Documentation/02-Kernel/05-RTOS-implementation-tutorial/02-Building-blocks/03-The-RTOS-tick. Zugriff: 15. März 2025
- [Free] FREERTOS: RTOS Trace Feature. https://freertos.org/Documentation/02-Kernel/02-Kernel-features/09-RTOS-trace-feature#defining. Zugriff: 15. März 2025
- [Fref] FREERTOS: semphr.h. https://github.com/kylemanna/freertos/blob/125e48f028767ed04a7b27f8ceeec3210a7f1c98/FreeRTOS/Source/include/semphr.h#L138. Zugriff: 15. März 2025
- [Freg] FREERTOS: Static vs Dynamic Memory Allocation. https://www.freertos.org/Documentation/02-Kernel/02-Kernel-features/09-Memory-management/03-Static-vs-Dynamic-memory-allocation. Zugriff: 19. März 2025
- [Freh] FREERTOS: Task Notifications. https://www.freertos.org/Documentation/02-Kernel/02-Kernel-features/03-Direct-to-task-notifications/01-Task-notifications#description. Zugriff: 15. März 2025
- [Frei] FREERTOS: Task Notifications Performance Benefits and Usage Restrictions. https://www.freertos.org/Documentation/02-Kernel/02-Kernel-features/03-Direct-to-task-notifications/01-Task-notifications#performance-benefits-and-usage-restrictions. Zugriff: 15. März 2025
- [Frej] FREERTOS: tasks.c. https://github.com/jameswalmsley/FreeRTOS/blob/a7152a969b2b49fce50d759b3972f17bf3b18ed7/FreeRTOS/Source/tasks.c#L213. Zugriff: 15. März 2025
- [Frek] FREERTOS: tasks.c. https://github.com/jameswalmsley/FreeRTOS/blob/a7152a969b2b49fce50d759b3972f17bf3b18ed7/FreeRTOS/Source/tasks.c#L4296. Zugriff: 15. März 2025
- |Free| FreeRTOS: tasks.c. https://github.com/jameswalmsley/FreeRTOS/

- blob/a7152a969b2b49fce50d759b3972f17bf3b18ed7/FreeRTOS/Source/tasks.c#L3926. Zugriff: 15. März 2025
- [Frem] FREERTOS: Tick Resolution. https://mobile.freertos.org/Documentation/02-Kernel/05-RTOS-implementation-tutorial/02-Building-blocks/11-Tick-Resolution. Zugriff: 15. März 2025
- [Fre21] FREERTOS: FreeRTOS Kernel: stream\_buffer.h. https://github.com/FreeRTOS/FreeRTOS-Kernel/blob/0030d609a4b99118d9a400340d88c3c3c4816f2b/include/stream\_buffer. h#L41. Version: 2021. Zugriff: 27. März 2025
- [HAL] ; SourceVu (Veranst.): HAL\_UART\_Transmit\_DMA Documentation. https://sourcevu.sysprogs.com/stm32/HAL/symbols/HAL\_UART\_Transmit\_DMA. Zugriff: 28. März 2025
- [hot23] HOTSPOT stm32: STM32H7-LwIP-Examples. https://github.com/stm32-hotspot/STM32H7-LwIP-Examples, 2023. Zugriff: 21. März 2025
- [Kou23] Koubaa, Anis: Robot Operating System (ROS) The Complete Reference. Volume 7. Springer Verlag, 2023. ISBN 978–3–031–09061–5
- [Lim] LIMITED, ARM: Cortex-M7 Documentation Arm Developer. https://developer.arm.com/documentation/ka001150/latest/. Zugriff: 19. März 2025
- [Mau24] MAUBEUGE, Nicolas de: Issue #139: Cache Coherency Problems in STM32CubeMX Integration. https://github.com/micro-ROS/micro\_ros\_stm32cubemx\_utils/issues/139, 2024. Zugriff: 21. März 2025
- [Plo] PLOUCH, Howard: Activation of DWT on Cortex-M7. https://stackoverflow.com/a/37345912, . Zugriff: 21. März 2025
- [Sch19] SCHLAIKJER, Ross: Memories and Latency. Blog post. https://rhye.org/post/stm32-with-opencm3-4-memory-sections/. Version: 2019. Zugriff: 19. März 2025
- [SEGa] SEGGER: SEGGER System View User Manual, https://www.segger.com/downloads/jlink/UM08027\_System View.pdf. Zugriff: 14. März 2025
- [SEGb] SEGGER MICROCONTROLLER: What is SystemView? https://www.segger.com/products/development-tools/systemview/technology/what-is-systemview#how-does-it-work. Zugriff: 14. März 2025
- [STMa] STMICROELECTRONICS: HAL\_UARTEx\_ReceiveToIdle\_IT. https://sourcevu.sysprogs.com/stm32/HAL/symbols/HAL\_UARTEx\_ ReceiveToIdle\_IT. Zugriff: 16. März 2025
- [STMb] STMICROELECTRONICS: HAL\_UARTEx\_RxEventCallback Documentation. https://sourcevu.sysprogs.com/stm32/HAL/symbols/HAL\_UARTEx\_RxEventCallback. Zugriff: 16. März 2025

[STMc] STMICROELECTRONICS: Level 1 Cache on STM32F7 Series and STM32H7 Series. Application Note. https://www.st.com/resource/en/application\_note/an4839-level-1-cache-on-stm32f7-series-and-stm32h7-series-stmicroelectronics.pdf. - Zugriff: 19. März 2025

- [STMd] STMICROELECTRONICS: STM32F7 Series System Architecture and Performance. Application Note. https://www.st.com/resource/en/application\_note/an4667-stm32f7-series-system-architecture-and-performance-stmicroelectronics.pdf. Zugriff: 19. März 2025
- [STMe] STMICROELECTRONICS: STM32F767ZI Datasheet. https://www.st.com/resource/en/datasheet/stm32f767zi.pdf. Zugriff: 20. März 2025
- [STMf] STMICROELECTRONICS: Using the CRC Peripheral on STM32 Microcontrollers, https://www.st.com/resource/en/application\_note/an4187-using-the-crc-peripheral-on-stm32-microcontrollers-stmicroelectronics.pdf. Zugriff: 16. März 2025
- [Str24] STRAUSS], [Erez: User API & C++ Implementation of a Multi Producer, Multi Consumer, Lock Free, Atomic Queue, 2024. Zugriff: 27. März 2025
- [Wika] WIKIPEDIA: Priority Inheritance. https://en.wikipedia.org/wiki/ Priority inheritance. - Zugriff: 15. März 2025
- [Wikb] WIKIPEDIA: Priority Inversion. https://en.wikipedia.org/wiki/ Priority\_inversion. - Zugriff: 15. März 2025
- [Wik24] WIKIPEDIA: Waitstate. https://de.wikipedia.org/wiki/Waitstate. Version: 2024. Zugriff: 19. März 2025
- [Xu25] Xu, Zijian: Mecarover FreeRTOS Profiling Branch. https://github.com/zijian-x/mecarover/tree/freertos-profiling. Version: 2025. Zugriff: 19. März 2025