## **PMPP 2015/16**



## Intro





#### lecturers

 Prof. Dr.-Ing. Michael Goesele goesele@cs.tu-darmstadt.de office: Room 2.7, Rundeturmstrasse 12 (Building S3|19)

 Dr. Stefan Guthe stefan.guthe@gris.informatik.tu-darmstadt.de office: Room 2.10, Rundeturmstrasse 12 (Building S3|19)

 Dominik Wodniok dominik.wodniok@gris.informatik.tu-darmstadt.de office: Room 2.1, Rundeturmstrasse 12 (Building S3|19)





- tutors
  - Daniel Thul daniel.thul@gris.informatik.tu-darmstadt.de
  - Max von Bülow max.von.buelow@gris.informatik.tu-darmstadt.de





- "Integrierte Lehrveranstaltung" (IV4)
  - Integrierte Lehrveranstaltungen bieten dem Lehrenden die Möglichkeit je nach Erfordernis des Stoffes zwischen verschiedenen Lehrformen wie Vorlesung, Übung, Multimedia-/Teleteaching usw. frei hin und her zu schalten. Z.B. besteht auch die Möglichkeit, dass die Studierenden zuerst einen Text lesen und anschließend darüber diskutiert wird. [Studienordnung Informatik, TU Darmstadt, FB Informatik]

## **Course Concept**



- lectures
  - theoretical and practical introduction into the topic of programming massively parallel processors (e.g., including algorithms, architectural aspects)
- exercises
  - practical programming exercises based on NVIDIAs CUDA framework (on Linux)
- final projects
  - Topics for the final project will be proposed and co-advised by researchers from different fields. Final projects will be group projects, typically with 2 students per group.
- potentially other elements
- it is important that you can attend both weekly slots (but not all slots will be used)





- class meetings
  - Monday 11:40 13:10
     Room 074, Fraunhofer IGD, Building S3|05
     Room S103/223, Altes Hauptgebäude (with some exceptions)
  - Tuesday 11:40 13:10 Room 074, Fraunhofer IGD, Building S3|05 subject to changes





- prerequisites
  - solid programming experience in C/C++
  - basic algorithms and data structures
  - no knowledge in CUDA required
- course web page(s)
  - http://www.gris.tu-darmstadt.de/teaching/ courses/ws1516/pmpp/index.en.htm
     mostly static content
  - lecture slides and additional information will be available in the HRZ Moodle https://moodle.tu-darmstadt.de/course/view.php?id=6733



## **Final Projects**



- possibility to choose among different projects
- topics from several areas
  - details TBA
- each project will have one or two supervisors
  - one from the specific field
  - one for CUDA related questions
- learn massively parallel programming not from toy examples but from real problems



## **Grades, Final Exam**



- written final exam
  - details and date TBA
- exercises/final projects
  - bonus system with up to one full grade improvement
  - in total 10 points (2 for exercises, 8 for final project)
  - algorithm if X BP achieved
    - $X < 4 BP \rightarrow no change$
    - 4 BP  $\leq$  X  $\leq$  6 BP  $\rightarrow$  1/3 grade improvement
    - 6 BP  $\leq$  X < 8 BP  $\rightarrow$  2/3 grade improvement
    - 8 BP  $\leq$  X  $\rightarrow$  1 grade improvement



## (Preliminary) Course Schedule



## you are here

| 12.10.2015 | Introduction to PMPP                                        |  |  |
|------------|-------------------------------------------------------------|--|--|
|            |                                                             |  |  |
| 13.10.2013 | Lecture CUDA Programming 1                                  |  |  |
| 19.10.2015 | Lecture CUDA Programming 2                                  |  |  |
| 20.10.2015 | Lecture CUDA Programming 3                                  |  |  |
| 26.10.2015 | Introduction Final Projects, Exercise 1 assigned            |  |  |
| 27.10.2015 | Questions and Answers (Q&A)                                 |  |  |
| 02.11.2015 | Lecture, Final Projects assigned, Ex. 1 due, Ex. 2 assigned |  |  |
| 03.11.2015 | Questions and Answers (Q&A)                                 |  |  |
| 09.11.2015 | Lecture, Exercise 2 due                                     |  |  |
| 10.11.2015 | Lecture                                                     |  |  |
| 16.11.2015 | Questions and Answers (Q&A)                                 |  |  |
| 17.11.2015 | Questions and Answers (Q&A)                                 |  |  |
| 23.11.2015 | 1st Status Presentation Final Projects                      |  |  |
| 24.11.2015 | 1st Status Presentation Final Projects (continued)          |  |  |



## (Preliminary) Course Schedule



30.11.2015

01.12.2015

07.12.2014

08.12.2014

14.12.2014

15.12.2014

Christmas Break

11.01.2015 2<sup>nd</sup> Presentation Status Final Projects (1)

12.01.2015 2<sup>nd</sup> Presentation Status Final Projects (2)

. . .

01.02.2015

02.02.2015

08.02.2015 final Presentation Status Final Projects (1)

09.02.2015 final Presentation Status Final Projects (2)



### **Hardware and Accounts**



- all exercises and projects will be solved using NVIDIA CUDA on Linux systems
  - all exercises and projects will run on the HHLR
  - register in TuCAN ASAP so that we can create your accounts
  - fill in and sign account form
- also possible but not really recommended to run CUDA on your own system
  - no support provided
  - all exercises and projects must run on HHLR for grading



## **HHLR**







### **HHLR Account**



Nutzungsordung des Hochleistungsrechners der TU Darmstadt **Nutzung durch Studierende im Rahmen** einer Lehrveranstaltung



rdnung legt fest, nach welchen Regeln der Hochleistungsrechner von Studierenden im Rahmen einer Lehrveranstaltung der TU Darmstadt benutz

Der Hochleistungsrechner steht überdies den Wissenschaftlerinnen und Wissenschaftlern der TU Darmstadt und den Wissenschaftlerinnen und Wissenschaftlern anderer Universitäten zur Verfügung. Wissenschaftliches Rechnen ist genatute, sofern die eingesetzte Software dies erhaubt. Jegliche rein kommerzielte Natzung ist unsersag. Bestandteil dieser Natzungsordnung sind die Bestämmungen in der Allgemeinen. Benatzungserdnung. für die Informorrerbeitungs- und versag des der der die Bestämmungen in der Allgemeinen. Benatzungserdnung für die Informorrerbeitungs- und Kommunikations-Infrastruktur [1] der TU Darmstadt.

Ein Verstoß gegen diese Nutzungsordnung kann zum Entzug der Nutzungsberechtigung führen.

Alle ausgefüllten Nutzungsanträge (dieses Formular) müssen vom Veranstalter gemeinsam mit dem gesonderten Nutzungsantrag zur Lehrveranstaltung beim HRZ eingereicht werden. Für Fragen stehen wir Ihnen gerne auch per E-Mail: hhlr@hzz.u-darmstadt.de zur Verfügung.

#### 2. Aufgaben des Hochschulrechenzentrums der TU Darmstadt

Der Hochleistungsrechner wird vom Hochschulrechenzentrum (HRZ) der Technischen Universität Darmstadt betrieben. Zu den Aufgaben des HRZ gehören unter anderem die Zuteilung von Rechenzeit, Hilfestellung bei der Softwareinstallation und das Einrichten von Nutzerkonten.

Die Zuseilung der Rechenzeit erfolgt nach festgelegten Regeln (siehe Abschnitt 3.c) ohne Ausgleichsampruch. Für den Fall, dass einem Nutzer/einer Nutzerin Rechenzeit ertsgelt (z.B. wegen einer Systemauszeit oder durch Abbruch eines Rechenjobs auf Grund eines Feblern), gibt es keinen Auspruch auf Ausgleich. Im Zweifelsfall entscheider der Leiter des Hills der TU Darmatatst.

Das HRZ speichert ausschließlich Logio-Daten der Nutzer/-innen. Diese sindt: a) Personen- und Projekt-informationen (Abschnitt 5) und b) die Betriebsdaten (z.B. verbrauche Ressourcen oder Logio-Zeiten). Diese Daten dienen allein der internen Verwaltung und sind für das Management des Hochleisungsrechners notwendigt die Zweckblindung des § 13 Abs. 5 Hößen für ab schaften.

#### 2.c. Speicherung von Arbeitsdaten \*Bitte BETA-Hinweis unten beachten!

Ein Ziel ist aussezhließlich die Weiterbildung im Rahmen der unter 5 angegebenen Veranstaltung, deshalb ist die Speicherung und Verarbeitung von privaten Daten des Nutzers (z.B. persönliche Bilder oder E-Mails etc.) auf der Infrastruktur des HPC-Clusters untersagt.

Pür die Arbeitsdaten stehen dem/der Nutzert/-in der Bereich des Home-Verzeichnisses "nome\_na/«TU-ID»" zur Verlügung. Eine Sicherung der Daten im Home (nome\_na/«TU-ID») wird für Accounts im Rahmen der Lehrveranstaltung nicht durchgeführt. Der Speicherplatz des Home-Bereichs ist für jeden Nutzer/ jede

Sollte der/die Nutzer/-in bereits ein reguläres Nutzer-Konto (z.B. im Rahmen seiner HiWi-Tätigkeit) besitzen, bleibt dieses Home-Verzeichnis (/home/<TU-ID>) ngetastet. Für die hier beantragte Veranstaltung wurde ein gesondertes Home-Verzeichnis unter "/home na/<TU-ID>" eingrichtet.

#### 2.d. Ende der Nutzungsberechtigung

Beim Auslaufen oder beim Enztug der Nutzungsberechtigung schließt das HRZ das Nutzerkonto. Nach Beendigung der Nutzungsberechtigung des Antragstellers/det Antragstellerin werden die Nutzer-Daten (nome\_na/eTu-tD-) unwiderruflich gelöscht.

#### Aufgaben der Nutzer-/innen

#### 3.a. Allgemeine Nutzungsbedingungen

Das HPC-Cluster des Hochschulrechenzentrums der TU Darmstadt steht den Studierenden ausschließlich für Arbeiten im Rahmen der beantragten Lehrveranstaltung zur Verfügung. Eine anderweitige Nutzung, z.B. kommerzieller Art, ist untersag:

#### 3.b. Umgang mit dem Nutzerkonto

Für die Nutzung des Hochleistungsrechners wird dem/der Antragsteller/-in ein persönliches Nutzerkonto eingerichtet. Das Nutzerkonto gehört zum ID-System der TU

#### 3.c. Faire Nutzung

Es ist untersagt, zum Beispiel durch das bewusste Ausmutzen von Systemiehlern, sich a) unerlaubten Zugang zu Daten anderer Nutzer/innen zu verschaffen, b) sich am "lär gestung" vorleit mehr Brehemeit zustelnen oder c) den Speicherplatz für nicht zur Nutzung des Systems notwendige Zwecke zu misobrauchen. Das kann zum Ezuzug der Nutzungsberechtigung fühlen.

Die genauen Regeln für die Rechenzeitverteilung nach dem Prinzip des "fair-queuing" werden auf der Webseite des Hochleistungsrechners [2] bekanntgegeben.

#### 3.d. Lizenzbedingungen

Der/die Nutzer/-in darf lizenzpflichtige Software ausschließlich unter Einhaltung der Lizenzbedingungen einsetzen, insbesondere sind ggf. Beschränkungen hinsichtlich rein wissenschaftlicher Anwendung zu beachten. Der/die Nutzer/-in ist für die Prüfung und Einhaltung selbst verantwortlich.

- [1] Allgemeine Benutzungsordnung für die Informationsverarbeitungs- und Kommunikations-Infrastruktur
- http://www.hrz.tu-darmstadt.de/itsicherheit/regelwerke/allgemeinebenutzerordnung.de.jsp
- [2] Hauptseite des hessischen Hochleistungsrechners an der TU Darmstadt

\*Achtung BETA: Die Adresse des Homeverzeichnisses kann sich noch ändern. Ein Update wird ggf in der Vorlesung bekanntgegeben.

09.01.14 Technische Universität Darmstadt, Hochschulrechenzentrum Seite 1 von 2

| s. Antrag auf Nutzung des Ho                                  | ochleistungsrechners im Rahmen einer Lehry                                                                       | veranstaltung          |
|---------------------------------------------------------------|------------------------------------------------------------------------------------------------------------------|------------------------|
| Informationen über den/die An                                 | tragsteller/-in                                                                                                  |                        |
|                                                               | e <mark>auch unter "Nutzerantrag für Studierende (Leh</mark><br>nlr.tu-darmstadt.de/hhlr/lichtenberg/zugang/lich |                        |
| Nachname, Vorname:                                            |                                                                                                                  |                        |
| E-Mail:                                                       |                                                                                                                  |                        |
| TU-ID (auch Externe):                                         |                                                                                                                  |                        |
| Universität/wiss.Einrichtung:                                 | TU-Darmstadt                                                                                                     |                        |
| Titel der Lehrveranstaltung:                                  | Grundlagen der Informatik 3 (Gdl 3)                                                                              |                        |
| Semester / Jahr:                                              | Wintersemester 2013/14                                                                                           |                        |
| Die maximale Laufzeit der N<br>Lehrveranstaltung (aber max. 6 | iutzungsberechtigung richtet sich nach dem Monate).                                                              | Nutzungsantrag für die |
|                                                               | ntigkeit meiner Angaben und verpflichte mich<br>der Verarbeitung meiner personenbezogenen Da                     |                        |
|                                                               |                                                                                                                  |                        |
|                                                               |                                                                                                                  |                        |
| Ort, Datum                                                    | Unterschrift                                                                                                     |                        |
| (Wird vom HRZ ausgefüllt)                                     |                                                                                                                  |                        |
| Wurde genehmigt und eingerich                                 | tet: ja/nein                                                                                                     |                        |
| Laufzeit des Nutzerkontos: - si                               | iehe Hauptformular des/der Lehrenden -                                                                           |                        |
|                                                               |                                                                                                                  |                        |
| Datum Un                                                      | iterschrift                                                                                                      |                        |
| Anmerkungen:                                                  |                                                                                                                  |                        |
|                                                               |                                                                                                                  |                        |
|                                                               |                                                                                                                  |                        |
| 09.01.14 Technische U                                         | niversität Darmstadt. Hochschulrechenzentrum                                                                     | Seite 2 von 2          |





- literature and web references (see also web page)
  - CUDA Programming Guide and material from NVIDIA website
  - CUDA forums at NVIDIA
  - D. Kirk, W, Hwu: Programming Massively Parallel Processors
  - T. Mattson, B. Sanders, B. Massingill: Patterns for Parallel Programming, Addison Wesley
  - J. Keller, C. Kessler, J. Larsson Traeff: Practical PRAM Programming, Wiley-Interscience (out-of-print but available as ebook)
  - Hubert Nguyen: GPU Gems 3, Addison Wesley
  - publications in the field
- will be updated during the lecture





discussion inspired by
 The Landscape of Parallel
 Computing Research: A View from Berkeley
 by Asanivic et al., December 18, 2006
 Technical Report UCB/EECS-2006-183

### The Landscape of Parallel Computing Research: A View from Berkeley



Krste Asanovic
Ras Bodik
Bryan Christopher Catanzaro
Joseph James Gebis
Parry Husbands
Kurt Keutzer
David A. Patterson
William Lester Plishker
John Shalf
Samuel Webb Williams
Katherine A. Yelick

Electrical Engineering and Computer Sciences University of California at Berkeley

Technical Report No. UCB/EECS-2006-183 http://www.eecs.berkeley.edu/Pubs/TechRpts/2006/EECS-2006-183.html

December 18, 2006







**Figure 2**. Processor performance improvement between 1978 and 2006 using integer SPEC [SPEC 2006] programs. RISCs helped inspire performance to improve by 52% per year between 1986 and 2002, which was much faster than the VAX minicomputer improved between 1978 and 1986. Since 2002, performance has improved less than 20% per year. By 2006, processors will be a factor of three slower than if progress had continued at 52% per year. This figure is Figure 1.1 in [Hennessy and Patterson 2007].

from [Asanovic et al. 2006]





- historically, single processor performance doubled every 18 months (1986-2002)
- shift to multi-core architecture with 2, 4, 8, ... cores
- prediction that many-core systems with 100s or 1000s or processors will dominate in the future
- →some conventional wisdoms (CW) do no longer apply (see [Asanovic et al. 2006])





- Old CW #1: Power is free, but transistors are expensive.
- New CW #1: "Power Wall": Power is expensive, but transistors are "free". That is, we can put more transistors on a chip than we have power to turn on.



- Old CW #7: Multiply is slow, but load and store is fast.
- New CW #7: "Memory Wall": Load and store is slow, but multiply is fast. Modern microprocessors can take 200 clocks to access Dynamic Random Access Memory (DRAM), but even floating-point multiplies may take only four clock cycles.



- Old CW #8: "ILP Wall": We can reveal more instruction-level parallelism (ILP) via compilers and architecture innovation. Examples from the past include branch prediction, out-of-order execution, speculation, and Very Long Instruction Word systems.
- New CW #8: There are diminishing returns on finding more ILP.
   [Hennessy and Patterson 2007]



- Old CW #9: Uniprocessor performance doubles every 18 months.
- New CW #9: Power Wall + Memory Wall + ILP Wall = Brick Wall. [...] In 2006, performance is a factor of three below the traditional doubling every 18 months that we enjoyed between 1986 and 2002. The doubling of uniprocessor performance may now take 5 years.



- Old CW #10: Don't bother parallelizing your application, as you can just wait a little while and run it on a much faster sequential computer.
- New CW #10: It will be a very long wait for a faster sequential computer (see above).



- Old CW #11: Increasing clock frequency is the primary method of improving processor performance.
- New CW #11: Increasing parallelism is the primary method of improving processor performance. [...]







Why you should take this course even if you are not an architect: See graph. Your world is now very different. If you can't program parallel machines (and to first order, no one can), then you'll be unable to utilize the new machines coming down the pike.

Mark Oskin about a course at UW with the informal title "Will parallelism save the world or are we doomed?"





## Single-Threaded Integer Performance Based on adjusted SPECint® results



graph from Jeff Preshing, updated 02/2014 by Henk Poley

http://preshing.com/20120208/a-look-back-at-single-threaded-cpu-performance/









graph from Jeff Preshing, updated 02/2014 by Henk Poley

http://preshing.com/20120208/a-look-back-at-single-threaded-cpu-performance/







Chuck Moore, AMD Corporate Fellow and CTO of Technology Group "DATA PROCESSING IN EXASCALE-CLASS COMPUTER SYSTEMS" The Salishan Conference on High Speed Computing, 2011



## **Example System**



- NVIDIA GPU with CUDA
  - data-parallel compute device
  - shift from fixed graphics pipeline to flexible setup with general purpose processors
  - multiple SIMD multi-processors with on-chip shared memory on a single GPU





## **Example System**



- NVIDIA GPU with CUDA capability
  - massive economies of scale
  - massively parallel
- two versions
  - "graphics series":GeForce/Quadro
  - "compute series:"Tesla



### **HHLR Cluster**



- 44 Nodes (IBM System x iDataPlex dx360 M4) with
  - 2x Intel Sandy Bridge Processors (each 8 Cores at 2.6 GHz)
  - Infiniband FDR-10 Interconnect
  - 32 GByte (Node-) Main Memory
  - 2x 500 GByte Hard disks
  - 2x NVIDIA Kepler (K20X), each
    - Peak Performance: 1.31 TFlop/s (Double Precision)
    - Linpack Performance: 1TFlop/s per card
    - 6 GByte GDDR5 Memory
    - Memory Performance: 250GByte/s
- 2 additional nodes with 2x NVIDIA K40m each
  - 1.43 TFlop/s peak(Double Precision)



## **Comparing GPU and CPU**



### floating point operations per second

Theoretical GFLOP/s





## **Comparing GPU and CPU**



### memory bandwidth

Theoretical GB/s





### **GPU Performance Growth**



# Tesla K20x, K40m (HHLR)



SGEMM - perform one of the matrix-matrix operations

C := alpha \* op(A) \* op(B) + beta \* C



### **Maxwell**



- GPU-Generation released September 2014
- New features for HPC
  - Improved power efficiency est. 50% more GFlops / Watt
  - Redistribution of warp schedulers for fine-grained resource allocation
  - Compute Capability 5.2
  - 64 kB shared memory per multiprocessor
  - 34 kB cache for read-only and constant memory
- Might be added to HHLR in the future









**April 2008** 







**April 2010** 







April 2011, GTX 480







April 2013, K20C







October 2015, Titan X



### Faster is not "Just Faster"



- 2-3X faster is "just faster"
  - do a little more, wait a little less
  - doesn't change how you work
- 5-10x faster is "significant"
  - worth upgrading
  - worth re-writing (parts of) the application
- 100x (or more!) faster is "fundamentally different"
  - worth considering a new platform
  - worth re-architecting the application
  - makes new applications possible
  - drives "time to discovery"
  - creates fundamental changes in science



## **Debunking this Speed-Up?**



- some discussions about achievable speed-up
  - depends a lot on the implementations used for CPU and GPU
  - raw floating point performance as a rough guideline
  - problem must be matched to architecture

#### Debunking the 100X GPU vs. CPU Myth: An Evaluation of Throughput Computing on CPU and GPU

Victor W Lee<sup>†</sup>, Changkyu Kim<sup>†</sup>, Jatin Chhugani<sup>†</sup>, Michael Deisher<sup>†</sup>, Daehyun Kim<sup>†</sup>, Anthony D. Nguyen<sup>†</sup>, Nadathur Satish<sup>†</sup>, Mikhail Smelyanskiy<sup>†</sup>, Srinivas Chennupaty<sup>\*</sup>, Per Hammarlund<sup>\*</sup>, Ronak Singhal<sup>\*</sup> and Pradeep Dubey<sup>†</sup>

victor.w.lee@intel.com

<sup>†</sup>Throughput Computing Lab, Intel Corporation \*Intel Architecture Group, Intel Corporation

#### two decades earlier:

Twelve Ways to Fool the Masses When Giving Performance Results on Parallel Computers. D. H. Bailey. Supercomputing Review, Aug. 1991, 54-55.





### **Course Goals**



- efficient programming of massively parallel (MP) systems
  - naïve parallel approaches
  - advanced algorithms
  - using NVIDIA GPU with CUDA as example
- requires
  - architecture basics
  - parallel algorithms suitable for the hardware
  - practical programming experience
- understanding the (real) limitations

