# SIMT/GPGPU - CUDA & OpenCL

#### Tobias Schiffmann

Betreuer: Gregor Daiß

Zusammenfassung Ein schöner Abstract. Das ist einfach die Kurzzusammenfassung.

# 1 Gliederung

- Motivation / kurzer einstieg in motivation für GPUs 1 entworfen für Grafikanwendungen mit sehr großen Datenmengen -> im Grafikbereich: hohes Potential an Datenparallelität! -> keine Abhängigkeiten ==> heutiges Beispiel NNs 1 sehr hoher FP-Operation durchsatz, verteilt auf große Anzahl Threads 1 Damals noch mit komplexer Programmierumgebung (DirectX / OpenGL!! G!) 1 sollen GPU Programmierung vereinfachen -> 4 durch diese vereinfachung ist GPU programmierung zugänglicher und wird für andere Aufgaben als Grafikberechnung ausgeführt -> General Purpose GPU
- GPU Architektur(en) -> Basics des Aufbaus -> nur die neuste Architektur -> was verwenden Unterschiedliche Hersteller 1 multi-threaded SIMD-Prozessoren (NVIDEA: Streaming Multiprocessors [SMX]), können als unabhängige MIMD-Kerne betrachtet werden 1 jeder SIMD Prozessor hat mehrere SIMD-Funktionseinheiten jede hat Int und FP Einheit) (1 Fermi und Kepler architecture) 3 Turing architecture!
- Programmier Frameworks (CUDA / OpenCL) -> beide sehr ähnlich -> erst CUDA erklären und dann Unterschiede zu OpenCL eingehen 1 beide: Program Separierung in Host-Program(CPU [IO + User]) und Device-Program (GPU)
- 1Interaktion: Host-Programm kopiert Daten in GPU Speicher und Device Funktionen aufrufen
- CUDA 1 NVIDIA 1 device program = kernel-functions/kernels 1 Program startet mit host-Programm bis Kernel-Funktionsaufruf -> Kernel und Host laufen parallel Aufruf erzeugt CUDA-Threads (zusammengefasst als Grid) CUDA ist nutzbar in verschiedenen PLs (C/C++/Fortran/Python) 1 erklärungen für C sind hier drin 1 Kernelaufruf enthält execution configuration -> gibt die organisation der generierten Threads im Grid der Kernel-Funktion an unterteile Threads des Grids in Blöcke von Threads (3-dim, blockIDx.xyz) -> Blöcke sind in threads aufgeteilt (3-dim, threadIDx.xyz) -> jeder einzelne Thread des Grids kann aufgerufen werden eine Kernel-Funktion auszuführen um Threads zu synchronisieren gibt es synchronisationsfunktionen nur innerhalb eines Blocks 1 verschiedene Speichertypen global memory(host-RW, Device-RW) constant memory (host-RW, device-R) register(nur thread kann drauf zu greifen) and shared memory(alle threads eines Blocks) (kurze Zugriffszeit) -> Schaubild !! (1) 1 Thread Scheduling passiert nicht auf der Ebene einzelner Threads, sondern "Warps-> mehrere Threads eines Blocks (aufsteigende threadIDx) zusammengefasst eine Instruktion nach der anderen für alle Threads eines Warps ausführen -> SIMT ->

Instruktionen auf verschiedenen Kontrollflüssen, wenn gleich, dann kann schnell sein Falls, unterschiedlich SIMT nur beschränkt möglich, kann sich auch bei if-else aufteilen

- SIMT 2 introduced here !!!
- OpenCL 1 Mehrere partner (u.a. NVIDIA) 1 standardisiertes Programmiermodel 1 heterogene zugrunde liegende Plattform muss explizit spezifiziert werden ("Kontext") -> etwas komplexer als CUDA, aber Vielfalt diverser HW möglich 1 Work-Items (CUDA-Threads) < Work-Groups < globaler NDRanges (Grid) Vergleich von CU-DA, OpenCL und (MIMD oder Sequentiell) Beispiel für hohe Datenparallelität 1 hier werden einige Beispiele gennant Beispiel mit geringer Datenparallelität -> Schaubilder für execution time aller Beispiele Conclusion / Discussion
- 1. [RR12] (1)
- 2. [LNOM08] (2)
- 3. [Bur20] (3)
- 4. [HHWP08] (4)
- 5. [BS16] (5)
- 6. [Khr19] (6)
- 7. [WGW19] (7)

# 2 Einleitung

Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet. Lorem ipsum dolor sit amet, consetetur sadipscing elitr, sed diam nonumy eirmod tempor invidunt ut labore et dolore magna aliquyam erat, sed diam voluptua. At vero eos et accusam et justo duo dolores et ea rebum. Stet clita kasd gubergren, no sea takimata sanctus est Lorem ipsum dolor sit amet.

#### 2.1 Anmerkungen zur Einleitung

Hier kommt noch mehr Text. Wir verweisen dazu auf

Eine schöne Formel ist

$$u(\vec{x}) = \sum_{i=1}^{N} \alpha_i \varphi_i(\vec{x}) ,$$

aber das geht auch inline als  $u(\vec{x}) = \sum_{i=1}^{N} \alpha_i \varphi_i(\vec{x})$ , also mitten im Text.

Was noch fehlt ist ein Bild, z.B. das aus Abbildung 1 oder Abbildung 2. Wir können dazu prima die tollen Makros, die oben im Vorspann definiert wurden, verwenden. Beispielsweise mit folgenden Befehlen:

\bild{figures/grid\_12\_brd}{fig:grid1}{Dies ist ein sogenanntes dünnes

Gitter zum Level 2.}{Die Kurzform lasse ich meist leer} \bildbreite{figures/grid\_12\_brd\_B}{2cm}{fig:grid2}{Dies ist ein sogenanntes dünnes Gitter zum Level 2 in 2cm Breite.}{}

Die Bilder werden automatisch nach vernünftigen Kriterien platziert, daher immer im Text mit \ref{} drauf verweisen (bei den Beispielen mit \ref{fig:grid1} und \ref{fig:grid2}).



Abbildung 1. Dies ist ein sogenanntes dünnes Gitter zum Level 2.



Abbildung 2. Dies ist ein sogenanntes dünnes Gitter zum Level 2 in 2cm Breite.

Was wir hin und wieder noch brauchen ist eine Tabelle, wie z.B. Tabelle 1.

Tabelle 1. Diese Tabelle zeigt nicht die Daten von etwas Sinnvollem, sondern einfach irgend etwas. Tabellenbeschriftungen sind oft drüber.

|             | Spalten        |           | Absatz $5cm$                                                                       |
|-------------|----------------|-----------|------------------------------------------------------------------------------------|
| linksbündig | g rechtsbündig | zentriert |                                                                                    |
| 1.0         | -1.1           | 1.2       | toller Text, der nach 5cm umbricht<br>und dafür brauchen wir einfach<br>mehr Text. |
| 4321.1      | 6543.2         | 7654.3    | mehr Text                                                                          |
| 2.44        | 4.66           | 6.88      | 8.00                                                                               |

### 2.2 Quellcode

Code-Beispiele können mittels lstlisting-Environment eingebunden werden. Siehe Listing 1 als Beispiel. Alternativen wie minted sind selbstverständlich auch erlaubt, solange sie Features wie Syntax-Highlighting und Zeilennummern mitbringen. Code-Beispiele sollten minimal sein, d.h. auf den Punkt gebracht und keinen überflüssigen Code beinhalten. Es muss standardkonformer Code sein und mit hinzugefügtem Boilerplate-Code (main, Auslassungen von Überflüssigem, ...) ohne Fehler compilierbar sein.

Quellcode aus Dateien kann per lstinputlisting einbezogen werden. Für Inline-Code lstinline verwenden. Für abstrakte Algorithmen (kein C++-Code) besser eines der algorithm-Packages verwenden.

Listing 1. Example using Lstlisting

#### 2.3 Zum Schluss

... viel Spaß!

## Literatur

- BS16. Bialas, Piotr; Strzelecki, Adam: Benchmarking the Cost of Thread Divergence in CUDA. Version: 2016. http://dx.doi.org/10.1007/978-3-319-32149-3{\_}53. In: Wyrzykowski, Roman (Hrsg.): Parallel processing and applied mathematics. Part I Bd. 9573. Switzerland: Springer, 2016, S. 570-579. DOI 10.1007/978-3-319-32149-3 53. ISBN 978-3-319-32148-6
- Bur20. Burgess, John: RTX on—The NVIDIA Turing GPU. In: *IEEE Micro* 40 (2020), Nr. 2, S. 36-44. http://dx.doi.org/10.1109/MM.2020.2971677. DOI 10.1109/MM.2020.2971677. ISSN 0272-1732
- HHWP08. Huang, Qihang; Huang, Zhiyi; Werstein, Paul; Purvis, Martin: GPU as a General Purpose Computing Resource. In: Huang, Zhiyi (Hrsg.): *Proceedings*. Los Alamitos Calif.: IEEE Computer Society, 2008. ISBN 978-0-7695-3443-5, S. 151-158
- Khr19. Khronos OpenCL Working Group: The OpenCL Specification. www.khronos.org/registry/OpenCL/specs/2.2/html/OpenCL\_API.html#\_introduction. Version: 2019
- LNOM08. LINDHOLM, Erik; NICKOLLS, John; OBERMAN, Stuart; MONTRYM, John: NVIDIA Tesla: A Unified Graphics and Computing Architecture. In: *IEEE Micro* 28 (2008), Nr. 2, S. 39-55. http://dx.doi.org/10.1109/MM.2008.31. DOI 10.1109/MM.2008.31. ISSN 0272-1732
- RR12. RAUBER, Thomas; RÜNGER, Gudula: *Parallele Programmierung*. Berlin, Heidelberg: Springer Berlin Heidelberg, 2012. http://dx.doi.org/10.1007/978-3-642-13604-7. http://dx.doi.org/10.1007/978-3-642-13604-7. ISBN 978-3-642-13603-0
- WGW19. Wang, Tongli; Guo, Wei; Wei, Jizeng: An Optimization Scheme for Demosaicing Algorithm on GPU Using OpenCL. Version: 2019. http://dx.doi.org/10.1007/978-981-13-5919-4{\_}14. In: Xu, Weixia (Hrsg.); Xiao, Liquan (Hrsg.); Li, Jinwen (Hrsg.); Zhu, Zhenzhen (Hrsg.): Computer engineering and technology Bd. 994. Singapore: Springer, 2019, S. 142-152. DOI 10.1007/978-981-13-5919-4 14. ISBN 978-981-13-5918-7