# Вопросы программирования и оптимизации приложений на CUDA.

#### **Ж**Лекторы:

- Обухов А.Н. (Nvidia)
- **№** Боресков А.В. (ВМиК МГУ)
- △Харламов A.A. (Nvidia)

ЖПроцесс разработки программ CUDA
ЖРабота с различными типами памяти
ЖПаттерны программирования на CUDA
ЖСтратегии распределения работы
ЖРазное

- **ЖПроцесс разработки программ CUDA** 
  - □Портирование части приложения
  - Общие рекомендации по оптимизации
  - Мнструментарий
- **ЖРабота с различными типами памяти**
- **Ж**Паттерны программирования на CUDA
- **ЖСтратегии распределения работы**
- **ЖРазное**

### Процесс разработки программ CUDA Портирование части приложения

- **Ж** Определение класса портируемой задачи
  - Уровень параллелизма. SIMD
  - Классы задач, которые в общем случае невозможно распараллелить

# **Процесс разработки программ СUDA**Портирование части приложения

1\_ Оригинальный код

```
for (int i=0; i<maxIter; i++)
{
    int SAD = SAD64(data1 + i * 64, data2 + i * 64);
    processDataChunkDivergent(data1 + i * 64, SAD);
}</pre>
```

2. Вынос портируемой части из-под цикла

```
int SADvals[maxIter];
for (int i=0; i<maxIter; i++)
{
    SADvals[i] = SAD64(data1 + i * 64, data2 + i * 64);
}
for (int i=0; i<maxIter; i++)
{
    int SAD = SADvals[i];
    processDataChunkDivergent(data1 + i * 64, SAD);
}</pre>
```

Портирование вынесенной части на CUDA

```
cudaMemcpy(devdata1, data1, maxIter * 64, cudaMemcpyHostToDevice);
cudaMemcpy(devdata2, data2, maxIter * 64, cudaMemcpyHostToDevice);
SAD64_CUDA<<<maxIter, 64>>>(devdata1, devdata2, devSADvals);
cudaMemcpy(SADvals, devSADvals, maxIter, cudaMemcpyDeviceToHost);
```

- **ЖПроцесс разработки программ CUDA** 
  - Портирование части приложения
  - Общие рекомендации по оптимизации
  - Мнструментарий
- **Ж**Работа с различными типами памяти
- **ЖПаттерны** программирования на CUDA
- **#**Стратегии распределения работы
- **Ж**Разное

### **Процесс разработки программ СUDA**Общие рекомендации по оптимизации

- **Ж** Переосмысление задачи в терминах параллельной обработки данных
  - № Выявляйте параллелизм
  - Максимизируйте интенсивность вычислений
  - № Избегайте лишних транзакций по памяти
- **ж** Эффективное использование вычислительной мощи
  - № Разбивайте вычисления с целью поддержания сбалансированной загрузки SM'ов
  - Параллелизм потоков vs. параллелизм по данным

### **Процесс разработки программ СUDA** Общие рекомендации по оптимизации

#### **#Occupancy**

- □Покрытие латентностей: инструкции потока выполняются последовательно
- Мсполнение других потоков необходимо для покрытия латентностей

### **Процесс разработки программ СUDA**Общие рекомендации по оптимизации

#### **#Occupancy**

- Увеличение занятости приводит к лучшему покрытию латентностей
- □После определенной точки (~50%), происходит насыщение
- - **Регистры**
  - Разделяемая память

#### **ЖПроцесс** разработки программ CUDA

- Портирование части приложения
- Общие рекомендации по оптимизации
- **Мнструментарий**
- **ЖРабота с различными типами памяти**
- **Ж**Паттерны программирования на CUDA
- **ЖСтратегии распределения работы**
- **ЖРазное**

#### Процесс разработки программ CUDA

Инструментарий: Компилятор



# **Процесс разработки программ СUDA** Инструментарий: Компилятор

- Ж Статическая компиляция: IDE(MS Visual Studio + cuda.rules), Makefile, CL
- **Ж** PTX JIT-компиляция

```
.entry myCUfunction name(.param .u32 dst)
//Device Code, file: myKernel.cu
 global void myCUfunction name(int *dst)
                                                                .reg .u16 %rh<4>;
                                                                .reg .u32 %r<12>;
   int addr = blockIdx.x * blockDim.x + threadIdx.x;
                                                                .loc 14 2 0
   dst[addr] = addr >> 1;
                                                                mov.u16 %rh1, %ctaid.x;
                                                                                From resource
                nvcc myKernel.cu -ptx
                                                                        const unsigned char
                myKernel.ptx
                                                                        PTXdump[] = \{0x00, 0x01\};
                            -cuModuleLoad
                                                  PTX JIT
                                                                      -cuModuleLoadData
```

### **Процесс разработки программ СUDA** Инструментарий: Компилятор

#### Device code

```
global__ void myCUfunction_name(int *dst)
{
   int addr = blockIdx.x * blockDim.x + threadIdx.x;
   dst[addr] = addr >> 1;
}
```

Host code: driver API + PTX JIT compilation

```
extern unsigned char PTXdump[];
```

```
cuModuleLoadData(&myCUmodule,
PTXdump);
```

```
cuFuncSetBlockShape(myCUfunction, blockDimX);
cuParamSeti(myCUfunction, 0, srcDevPtr);
cuParamSetSize(myCUfunction, 4);
```

```
cuLaunchGrid (myCUfunction, gridDimX, gridDimY);
cuCtxSynchronize();
```

# Процесс разработки программ CUDA Инструментарий: Отладчик

#### # GPU debugger

Wednesday, April 08: Today NVIDIA announces an industry milestone for GPU Computing. With CUDA 2.2 beta we are including the industries 1st GPU HW Debugger to our developer community.

Debua

)ebuaEmu

Configuration Manager...

#### # GPU emulation

- -deviceemu D DEVICEEMU
- Запускает по одному host-процессу на каждый CUDA-поток
- Работоспособность в режиме эмуляции не всегда кореллирует с работоспособностю на GPU
- **Ж** Два инструмента не конкурируют, а дополняют друг друга
  - Oдин из интересных сценариев: Boundchecker + Emulation

# Процесс разработки программ CUDA Инструментарий: Отладчик

#### **Ж**Достоинства эмуляции

- Исполняемый файл, скомпилированный в режиме эмуляции работает целиком на CPU
  - Не требуется драйвер CUDA и GPU
  - Каждый поток GPU эмулируется потоком CPU
- При работе в режиме эмуляции можно:
  - Использовать средства отладки СРО (точки останова и т.д.)
  - Обращаться к любым данным GPU с CPU и наоборот
  - Делать любые CPU-вызовы из код GPU и наоборот (например printf())

## **Процесс разработки программ СUDA** Инструментарий: Отладчик

#### **Ж**Недостатки эмуляции

- △ Часто работает очень медленно
- Неумышленное разыменование указателей GPU на стороне CPU или наоборот
- Результаты операций с плавающей точкой СРU и «настоящего» GPU почти всегда различаются из-за:
  - Разного порядка выполняемых операций



#### **Visual Profiler**

Global-to-SMEM 128-bit r/w bank optimized convolution: 3.040 ms. Memory Only: 0.519 ms.

Global-to-SMEM 128-bit r/w bank optimized unrolled convolution: 2.892 ms. Memory Only: 0.533 ms.

Program run #3 completed.

Read profiler output file for run #1, Number of rows=29

lead profiler output file for run #2, Number of rows=29

and profiler output file for run #3. Number of rows-20.







#### Profiler Counter Plot

# **Процесс разработки программ СUDA** Инструментарий: Профилировщик

- **Ж** CUDA Profiler, позволяет отслеживать:
  - Время исполнения на CPU и GPU в микросекундах
  - Конфигурацию grid и thread block
  - Количество статической разделяемой памяти на блок
  - Количество регистров на блок

  - Количество объединенных и индивидуальных запросов к глобальной памяти (coalescing)
  - Количество дивергентных путей исполнения (branching)
  - Количество выполненных инструкций
  - Количество запущенных блоков
- Ж Вся эта информация собирается с первого SM или TPC. Профилирование Uber-kernel'ов с осторожностью



#### Occupancy Calculator Spreadsheet

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
  - Константная
  - Текстурная
  - Глобальная
  - Разделяемая
- **Ж**Паттерны программирования на CUDA
- **ЖСтратегии распределения работы**
- **ж** Разное

#### Работа с константной памятью

- Ж Быстрая, кешируемая, только для чтения
- **Ж** Данные должны быть записаны до вызова кернела (например при помощи **cudaMemcpyToSymbol**)
- Ж Объявление при помощи слова <u>\_\_constant\_\_</u>
- # Доступ из device кода простой адресацией
- **Ж** Срабатывает за 4 такта на один адрес внутри варпа
  - 4 такта на всю транзакцию в случае если все потоки внутри варпа читают один адрес
  - В худшем случае 64 такта

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
  - Константная
  - Текстурная
  - Глобальная
  - Разделяемая
- **ЖПаттерны** программирования на CUDA
- **Ж**Стратегии распределения работы
- **ж** Разное

#### Работа с текстурной памятью

- # Данные должны быть записаны при помощи cudaMemcpyToArray, либо возможно прикрепление к глобальной памяти через cudaBindTexture2D
- **Ж** Объявление при помощи текстурных ссылок
- # Доступ из device кода при помощи tex1D, tex2D, tex1Dfetch
- Ж Лучшая производительность при условии что потоки одного варпа обращаются к локализованной окрестности в 2D

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
  - Константная
  - Текстурная
  - Глобальная
  - Разделяемая
- **Ж**Паттерны программирования на CUDA
- **Ж**Стратегии распределения работы
- **ж** Разное

#### Работа с глобальной памятью

- Ж Медленная, некешируемая (G80), чтение/запись
- **Запись данных с/на хост через cudaMemcpy\***
- Ж Транзакции по PCI-е медленные: макс. 4GB/s vs. 80 GB/s при копировании device-device
- **Ж** Возможность асинхронных транзакций

- **ж** Доступ простой индексацией
- Время доступа от 400 до 600 тактов на транзакцию высокая патентность

# Работа с глобальной памятью Coalescing, Compute Capability 1.0, 1.1

- **ж** 16 потоков. Типы транзакций:
  - 4-байтовые слова, одна 64-байтовая транзакция
  - 8-байтовые слова, одна 128-байтовая транзакция
  - № 16-байтовые слова, две 128-байтовых транзакции
- Ж Строгий порядок доступа: k-й поток обращается к k-му элементу в сегменте
- **Ж** При нарушении порядка вместо одной транзакции получается 16
- Некоторые из потоков могут не участвовать

# Работа с глобальной памятью Coalescing, Compute Capability 1.0, 1.1





Coalescing

No coalescing

### Работа с глобальной памятью Coalescing, Compute Capability 1.2, 1.3

- **Ж** Объединенная транзакция получается, если все элементы лежат в сегментах:
  - размера 32 байта, потоки обращаются к 1-байтовым элементам
  - 应 размера 64 байта, потоки обращаются к 2-байтовым элементам
  - □ размера 128 байт, потоки обращаются к 4- и 8-байтовым элементам
- **Ж** Нестрогий порядок доступа. Возможно обращение несколькими потоками к одному адресу
- **Ж** При выходе за границы сегмента число транзакций увеличивается минимально

# Работа с глобальной памятью Coalescing, Compute Capability 1.2, 1.3



# Pабота с глобальной памятью Coalescing. Рекомендации

- # Используйте cudaMallocPitch для работы с 2Dмассивами
- **ж** Конфигурируйте блоки с большей протяженностью по **ж**
- **Ж** Параметризуйте конфигурацию, экспериментируйте
- **Ж** В сложных случаях используйте привязку сегмента глобальной памяти к текстуре в случае если Compute Capability < 1.2
  - cudaBindTexture, tex1Dfetch
  - CudaBindTexture2D, tex2D



- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
  - Константная
  - Текстурная
  - Глобальная
  - Разделяемая
- **Ж**Паттерны программирования на CUDA
- **Ж**Стратегии распределения работы
- **ж** Разное

#### Работа с разделяемой памятью

- **Ж** Быстрая, некешируемая, чтение/запись
- # Объявление при помощи слова \_\_shared\_\_
- # Доступ из device кода при помощи индексирования
- Ж Самый быстрый тип памяти после регистров, низкая латентность доступа
- ж Можно рассматривать как полностью открытый L1-кеш
- При работе с разделяемой памятью следует помнить о ее разбиении на банками памяти

#### Работа с разделяемой памятью Банки памяти

- **Ж** Память разделена на 16 банков памяти, по числу потоков в варпе
- **Ж** Каждый банк может обратиться к одному адресу за 1 такт
- Ж Максимальное число адресов, к которым может обратиться память одновременно совпадает с числом банков
- Ж Одновременное обращение нескольких потоков из одного полуварпа к одному банку приводит к конфликту банков и сериализации запросов (кроме broadcast)

Bank 0
Bank 1
Bank 2
Bank 3
Bank 4
Bank 5
Bank 6
Bank 7

•

Bank 15

#### Работа с разделяемой памятью Банки памяти

#### **ж** Доступ без конфликтов банков



Прямой доступ

Смешанный доступ 1:1

#### Работа с разделяемой памятью Банки памяти

#### **ж** Доступ с конфликтами банков



2-кратный конфликт

8-кратный конфликт



## Содержание

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
- **Ж**Паттерны программирования на CUDA
  - Приоритеты оптимизации
  - Сценарий работы с shared памятью

  - Обработка в shared памяти
- **ЖСтратегии распределения работы**
- **Ж** Разное

### Паттерны программирования на CUDA Приоритеты оптимизации

- **Ж** Объединение запросов к глобальной памяти
  - № Ускорение до 20 раз
- **Ж** Использование разделяемой памяти
  - № Высокая скорость работы
  - № Удобство взаимодействия потоков
- Эффективное использование параллелизма

  - № Преобладание вычислений над операциями с памятью
  - Много блоков и потоков в блоке
- **ж** Банк-конфликты

## Содержание

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
- **Ж**Паттерны программирования на CUDA
  - Приоритеты оптимизации
  - Сценарий работы с shared памятью

  - Обработка в shared памяти
- **ЖСтратегии распределения работы**
- **Ж** Разное

### Паттерны программирования на CUDA Сценарий работы с shared памятью

- 1. Загрузка данных из глобальной памяти в разделяемой
- 2.\_\_syncthreads();
- 3. Обработка данных в разделяемой памяти
- 4. \_\_syncthreads(); //если требуется
- 5. Сохранение результатов в глобальной памяти
- ₩ Шаги 2—4 могут быть обрамлены в условия и циклы
- # Шаг 4 может быть ненужен в случае если выходные данные независимы между собой

### Содержание

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
- **Ж**Паттерны программирования на CUDA
  - Приоритеты оптимизации
  - Сценарий работы с shared памятью

  - Обработка в shared памяти
- **ЖСтратегии распределения работы**
- **ж** Разное

### Паттерны программирования на CUDA Копирование global <-> shared: 32-bit

```
dim3 block (64);
 shared float dst[64];
global void kernel(float *data)
{//coalescing, no bank conflicts
   dst[threadIdx.x] = data[threadIdx.x];
```

### Паттерны программирования на CUDA Копирование global <-> shared: 8-bit

```
dim3 block(64);
shared byte dst[64];
 global void kernel bad(byte *data)
{//no coalescing, 4-way bank conflicts present
    dst[threadIdx.x] = data[threadIdx.x];
 global void kernel good(byte *data)
{//coalescing, no bank conflicts, no branching
    if (threadIdx.x < 16)
        int tx = threadIdx.x * 4;
        *((int *)(dst + tx)) = *((int *)(data + tx));
```

## Содержание

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
- **Ж**Паттерны программирования на CUDA
  - Приоритеты оптимизации
  - Сценарий работы с shared памятью

  - Обработка в shared памяти
- **ЖСтратегии распределения работы**
- **ж** Разное

### Паттерны программирования на CUDA Обработка в shared памяти

```
__shared__ byte buf[64];
dim3 block(64);
```

Независимая обработка элементов. Прямой доступ будет вызывать 4-кратный конфликт банков.

Задача: переформировать потоки в 4 группы по 16 индексов так, чтобы при новой косвенной адресации не было конфликтов банков.



### Паттерны программирования на CUDA Обработка в shared памяти

#### Одно из решений:

```
__device__ int permute64by4(int t)
{
    return (t >> 4) + ((t & 0xF) << 2);
}</pre>
```



# **Паттерны программирования на СUDA**Обработка в shared памяти (2)

```
__shared__ int buf[16][16];
dim3 block(16,16);
```

Независимая обработка элементов. Прямой доступ будет вызывать 16-кратный конфликт банков.

Задача: свести число банк-конфликтов до нуля.

# **Паттерны программирования на СUDA**Обработка в shared памяти (2)

#### Одно из решений:

```
__shared__ int buf[16][17];
dim3 block(16,16);
```

#### **Bank Indices without Padding**



#### **Bank Indices with Padding**



### Содержание

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
- **Ж**Паттерны программирования на CUDA
- **ж** Стратегии распределения работы
  - Command & Conquer
  - Uber-kernel
  - Persistent threads
- **ж** Разное

# Стратегии распределения работы

- #Задачи с нерегулярным параллелизмом
- **Ж**Переменное кол-во итераций
- **Ж**Большое кол-во ветвлений

# Стратегии распределения работы: С & С

- **Ж**Разделить ядра на более простые
  - □ Позволяет выявить bottleneck

  - Возможность перераспределять работу между ядрами

## Содержание

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
- **Ж**Паттерны программирования на CUDA
- **ж** Стратегии распределения работы
  - Command & Conquer
  - Uber-kernel
  - Persistent threads
- **ж** Разное

# Стратегии распределения работы: Uber-kernel

```
#Uber-kernel
  if (A)
      Exec A();
  Else if ( B )
     Exec B();
```

# Стратегии распределения работы: Uber-kernel (2)



# Стратегии распределения работы: Uber-kernel (3)



# Стратегии распределения работы: Uber-kernel (3)



### Содержание

- #Процесс разработки программ CUDA
- **Ж**Работа с различными типами памяти
- **Ж**Паттерны программирования на CUDA
- **ж** Стратегии распределения работы
  - Command & Conquer
  - Uber-kernel
  - Persistent threads
- **ж** Разное



# Стратегии распределения работы



Блок 6

Блок 7

# работы: Persistent threads



# работы: Persistent threads



# Стратегии распределения работы: Persistent threads (2)



# Стратегии распределения работы: Persistent threads (3)



### Содержание

ЖПроцесс разработки программ CUDAЖРабота с различными типами памятиЖПаттерны программирования на CUDAЖСтратегии распределения работыЖРазное

#### Ветвление

**Ж**Если происходит ветвление внутри варпа, то разные ветви исполнения сериализуются

# **ЖУвеличивается общее количество инструкций**

**Ж**Если ветвление происходит между варпами, то штраф минимальный





### Оптимизация



PTX

# **ЖПромежуточный ассемблер может** показать много интересного

# **ЖПромежуточный ассемблер может** показать много интересного

# **ЖПромежуточный ассемблер может** показать много интересного

```
<u>∽</u>--keep
```

```
float3 f3()
{
    return make_float3(0,0,0);
}

__global__
void kernel(float3 *pData)
{
    pData[threadIdx.x] = f3();
}

float4 f4()
{
    return make_float4(0,0,0);
}

    return make_float4(0,0,0);
}

ploata__
ploata__
void kernel(float4 *pData)
{
    pData[threadIdx.x] = f4();
}
```

# **ЖПромежуточный ассемблер может** показать много интересного

```
{ // ...
 mov.u16
                 %rh1, %tid.x;
                                  //
                 %r1, %rh1, 12;
 mul.wide.u16
                                  //
 ld.param.u32 %r2, [ cudaparm kernel f3 pD]
                 %r3, %r2, %r1;
 add.u32
 mov.f32
                 %f1, 0f00000000; // 0
 st.global.f32 [%r3+0], %f1;
                                  // id:14
 mov. f32
                 %f2, 0f00000000; // 0
 st.global.f32 [%r3+4], %f2;
                                  // id:15
 mov.f32
                 %f3, 0f00000000; // 0
 st.global.f32
                [%r3+8], %f3;
                                   // id:16
 .loc 14
 exit:
                                  //
 $LDWend Z9kernel P6float3:
} // Z9kernel P6float3
```

```
{ // ...
  mov.u16
               %rh1, %tid.x;
 mul.wide.u16 %r1, %rh1, 16;
 ld.param.u32 %r2,[ cudaparm kernel f4 pD
               %r3, %r2, %r1;
 add.u32
 mov.f32
               %f1, 0f00000000;
 mov.f32
               %f2, 0f00000000;
                                           // 0
 mov.f32
               %f3, 0f00000000;
                                           // 0
 mov. f32
               %f4, 0f00000000;
                                           // 0
 st.global.v4.f32 [%r3+0], {%f1,%f2,%f3,%f4};
  .loc 14
                 23
 exit;
                                   //
  $LDWend Z9kernel P6float4:
} // Z9kernel P6float4
```

# Инструкции

- **Ж**Следить за ветвлением
- **\*\***Заменить часть вычислений на look-up таблицу
- **Ж**Интринсики
  - \_\_\_sinf(); \_\_\_cosf(); expf()
  - <u>└</u>\_[u]mul24()
  - \_\_fdividef()
  - $\triangle$ \_\_[u]sad()

#### Разное

- **ж mu124** и **umu124** работают быстрее, чем \*
- **Ж** Возможно увеличение числа регистров после применения
- # На будущих архитектурах ситуация может развернуться наоборот и \_\_mul24 станет медленнее
- **Ж** Использование флагов
- **Ж** В остальном целочисленная арифметика работает примерно с такой же скоростью, как и с плавающей точкой (за исключением целочисленного деления)

### Размеры CTA и GRID

**Ж** Конфигурация gridDim и blockDim возможно во время исполнения:

```
void callKernel(dim3 grid, dim3 threads)
{
    kernel<<<grid, threads>>>();
}
```

### Шаблоны

**Ж** Исользование template

```
template <int tx, int ty, int tz>
 global void kernel()
    int x = threadIdx.x + blockIdx.x * tx;
void callKernel(dim3 grid)
    kernel<16, 16, 1><<<grid, threads>>>();
```

#### Разное

**Ж** Математика FPU (на GPU в частности) не ассоциативна

 $\Re(x+y)+z$  не всегда равно x+(y+z)

 $\mathbf{H}$  Например при  $x = 10^30$ ,  $y = -10^30$ , z = 1

## Ресурсы нашего курса

#### **#CUDA.CS.MSU.SU**

- Место для вопросов и дискуссий
- Место для материалов нашего курса
- Место для ваших статей!
  - Если вы нашли какой-то интересный подход!
- ₩ www.steps3d.narod.ru
- ₩ www.nvidia.ru

# Вопросы



### Спасибо!

- **Ж**Александр Гужва
- **Ж**Антон Обухов
- **ЖВладимир** Фролов
- **Ж**Дмитрий Ватолин
- **Ж**Дмитрий Микушин
- **Ж**Евгений Перепелкин
- **Ж**Михаил Смирнов
- **Ж**Николай Сахарных