<a href="https://colab.research.google.com/github/lsteffenel/NumbaCuda/blob/main/Effective_Memory_Use.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

#Avant de commencer
L'ex√©cution de ces notebooks sur Colab n√©cessite deux choses (au 4/2/2025) :

1. des resources GPU
  * Menu "Ex√©cution" -> "Modifier le type d'ex√©cution"
2. D'utiliser une version plus ancienne de Colab en raison de certaines incompatibilit√©s du pilote Nvidia
  * Connecter l'environnement d'ex√©cution
  * Menu "Outils" -> "Pallette de commandes". Cherchez "version" dans la barre et s√©lectionnez l'option "Utiliser la version d'environnement d'ex√©cution de remplacement"


# Utilisation efficace du sous-syst√®me de m√©moire

Maintenant que vous savez √©crire des noyaux CUDA  et que vous comprenez l'importance de lancer des grilles pour donner suffisamment de travail au GPU afin de masquer la latence, vous allez apprendre des techniques pour utiliser efficacement la m√©moire du GPU. Ces techniques sont largement applicables √† une vari√©t√© d'applications CUDA et sont parmi les plus importantes lorsqu'il s'agit d'acc√©l√©rer votre code CUDA.

Vous allez commencer par en apprendre davantage sur la coalescence de m√©moire (regroupement/organisation de blocs m√©moire). Pour tester votre capacit√© √† raisonner sur la coalescence, vous d√©couvrirez ensuite les grilles bidimensionnelles et les blocs de threads. Ensuite, vous d√©couvrirez comment utiliser la m√©moire partag√©e, qui sera utilis√©e pour faciliter la coalescence l√† o√π cela n'aurait pas √©t√© possible autrement. Enfin, vous d√©couvrirez les conflits qui peuvent arriver avec la m√©moire partag√©e et une technique pour les r√©soudre.


## Le probl√®me : l'acc√®s "√©parpill√©" √† la m√©moire nuit les performances

Avant d‚Äôapprendre les d√©tails sur la coalescence, ex√©cutez les cellules suivantes pour observer les implications en termes de performances d‚Äôun changement apparemment trivial du mode d‚Äôacc√®s aux donn√©es.

### Imports

In [None]:
import numpy as np
from numba import cuda

### Data Creation

Dans cette cellule, nous d√©finissons `n` et cr√©ons une grille avec `n` threads. Nous cr√©ons √©galement un vecteur de sortie de longueur `n`. Pour les entr√©es, nous cr√©ons des vecteurs de taille `stride * n` pour des raisons qui seront expliqu√©es ci-dessous :

In [None]:
n = 1024*1024 # 1M

threads_per_block = 1024
blocks = int(n / threads_per_block)

stride = 16

# Input Vectors of length stride * n
a = np.ones(stride * n).astype(np.float32)
b = a.copy().astype(np.float32)

# Output Vector
out = np.zeros(n).astype(np.float32)

d_a = cuda.to_device(a)
d_b = cuda.to_device(b)
d_out = cuda.to_device(out)

### Kernel Definition

Dans `add_experiment`, chaque thread de la grille ajoutera un √©l√©ment dans `a` et un √©l√©ment dans `b` puis √©crira le r√©sultat dans `out`. Le noyau a √©t√© √©crit de telle sorte que nous puissions passer une valeur `coalesced` de `True` ou `False` pour affecter la fa√ßon dont il indexe dans les vecteurs `a` et `b`. Vous verrez la comparaison des performances des deux modes ci-dessous.

In [None]:
@cuda.jit
def add_experiment(a, b, out, stride, coalesced):
    i = cuda.grid(1)
    # The above line is equivalent to
    # i = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x
    if coalesced == True:
        out[i] = a[i] + b[i]
    else:
        out[i] = a[stride*i] + b[stride*i]

### Lancement d'un kernet avec un acc√®s "coalesced"

Ici, nous passons ¬´ True ¬ª comme valeur ¬´ coalesced ¬ª et observons les performances du noyau sur plusieurs ex√©cutions¬†:

In [None]:
%timeit add_experiment[blocks, threads_per_block](d_a, d_b, d_out, stride, True); cuda.synchronize

91.5 ¬µs ¬± 44.8 ¬µs per loop (mean ¬± std. dev. of 7 runs, 1 loop each)


V√©rifions si le noyau s'ex√©cute comme attendu :

In [None]:
result = d_out.copy_to_host()
truth = a[:n] + b[:n]

In [None]:
np.array_equal(result, truth)

True

### Lancement d'un noyau sans acc√®s coalescent

Dans cette cellule, nous passons "¬†False¬†" pour observer les performances du mod√®le d'acc√®s aux donn√©es non coalescents¬†:

In [None]:
%timeit add_experiment[blocks, threads_per_block](d_a, d_b, d_out, stride, False); cuda.synchronize

536 ¬µs ¬± 136 ns per loop (mean ¬± std. dev. of 7 runs, 10000 loops each)


V√©rifions si le noyau s'ex√©cute comme attendu :

In [None]:
result = d_out.copy_to_host()
truth = a[::stride] + b[::stride]

In [None]:
np.array_equal(result, truth)

True

### R√©sultats

Les performances du mode d'acc√®s "non coalescent" sont bien pires. Vous allez maintenant d√©couvrir pourquoi et comment r√©fl√©chir aux modes d'acc√®s aux donn√©es pour obtenir des noyaux tr√®s performants.

## Pr√©sentation : Global Memory Coalescing

Regardez la pr√©sentation ci-dessous :

In [None]:
from IPython.display import IFrame
IFrame('https://view.officeapps.live.com/op/view.aspx?src=https://developer.download.nvidia.com/training/courses/C-AC-02-V1/coalescing-v3.pptx', 800, 450)

## Exercice : Somme des Colonnes et Lignes

Pour cet exercice, il vous sera demand√© d'√©crire un noyau pour faire la somme des colonnes, utilisant le mode d'acc√®s m√©moire coalesc√©s. Pour commencer, vous observerez les performances sans ce mode d' acc√®s m√©moire.

### Somme des lignes

**Imports**

In [None]:
import numpy as np
from numba import cuda

**Data Creation**

Dans ce paragraphe nous cr√©ons une matrice pour l'entr√©e ainsi qu'un vecteur pour stocker la solution, et nous transf√©rons chacun d'eux vers le p√©riph√©rique. Nous d√©finissons √©galement les dimensions de la grille et du bloc √† utiliser lorsque nous lan√ßons le noyau.


In [None]:
n = 16384 # matrix side size
threads_per_block = 256
blocks = int(n / threads_per_block)

# Input Matrix
a = np.ones(n*n).reshape(n, n).astype(np.float32)
# Here we set an arbitrary row to an arbitrary value to facilitate a check for correctness below.
a[3] = 9

# Output vector
sums = np.zeros(n).astype(np.float32)

d_a = cuda.to_device(a)
d_sums = cuda.to_device(sums)

**Le noyau**

`row_sums` utilisera chaque thread pour parcourir une ligne de donn√©es, effectuer la somme, puis stockera la somme des lignes dans `sums`.

In [None]:
@cuda.jit
def row_sums(a, sums, n):
    idx = cuda.grid(1)
    sum = 0.0

    for i in range(n):
        # Each thread will sum a row of `a`
        sum += a[idx][i]

    sums[idx] = sum

**Performance**

In [None]:
%timeit row_sums[blocks, threads_per_block](d_a, d_sums, n); cuda.synchronize()



12.6 ms ¬± 206 ¬µs per loop (mean ¬± std. dev. of 7 runs, 10 loops each)


**V√©rification du r√©sultat**

In [None]:
result = d_sums.copy_to_host()
truth = a.sum(axis=1)

In [None]:
np.array_equal(truth, result)

True

### Somme des colonnes

**Imports**

In [None]:
import numpy as np
from numba import cuda

**Data Creation**

On reprend le m√™me format pr√©c√©dent, mais avec des valeurs sur les colonnes

In [None]:
n = 16384 # matrix side size
threads_per_block = 256
blocks = int(n / threads_per_block)

a = np.ones(n*n).reshape(n, n).astype(np.float32)
# Here we set an arbitrary column to an arbitrary value to facilitate a check for correctness below.
a[:, 3] = 9
sums = np.zeros(n).astype(np.float32)

d_a = cuda.to_device(a)
d_sums = cuda.to_device(sums)

**D√©finition du noyau**

`col_sums` utilisera chaque thread pour parcourir une colonne de donn√©es, en la sommant, puis stockera la somme de sa colonne dans `sums`. Compl√©tez la d√©finition du noyau pour y parvenir (c'est √† vous de le faire üòÄ)

In [None]:
@cuda.jit
def col_sums(a, sums, ds):
    # TODO: Write this kernel to store the sum of each column in matrix `a` to the `sums` vector.
    pass

**V√©rification de la Performance**

En supposant que vous ayez √©crit `col_sums` pour utiliser l'acc√®s coalescent, vous devriez voir une acc√©l√©ration significative (presque 2x) par rapport aux `row_sums` "non coalescent" que vous avez ex√©cut√©s ci-dessus¬†:

In [None]:
%timeit col_sums[blocks, threads_per_block](d_a, d_sums, n); cuda.synchronize()

NameError: name 'col_sums' is not defined

**V√©rification des r√©sultats**

Confirm your kernel is working as expected.

In [None]:
result = d_sums.copy_to_host()
truth = a.sum(axis=0)

In [None]:
np.array_equal(truth, result)

## Des blocs et grilles √† 2 et 3 dimensions

Les grilles et les blocs peuvent √™tre configur√©s pour contenir respectivement une collection bidimensionnelle ou tridimensionnelle de blocs ou de threads. Cela est fait principalement pour des raisons de commodit√© pour les programmeurs qui travaillent avec des donn√©es bidimensionnels ou tridimensionnels. Voici un exemple tr√®s simple pour mettre en √©vidence la syntaxe. Il faudra comprendre la d√©finition du noyau et comme il est lanc√© pour que le concept n'ait un sens.

In [None]:
import numpy as np
from numba import cuda

In [None]:
A = np.zeros((4,4)) # A 4x4 Matrix of 0's
d_A = cuda.to_device(A)

# Here we create a 2D grid with 4 blocks in a 2x2 structure, each with 4 threads in a 2x2 structure
# by using a Python tuple to signify grid and block dimensions.
blocks = (2, 2)
threads_per_block = (2, 2)

Ce noyau prendra une matrice d'entr√©e de 0 et √©crira chacun de ses √©l√©ments directement dans la grille au format `X.Y`` :

In [None]:
@cuda.jit
def get_2D_indices(A):
    # By passing `2`, we get the thread's unique x and y coordinates in the 2D grid
    x, y = cuda.grid(2)
    # The above is equivalent to the following 2 lines of code:
    # x = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x
    # y = cuda.blockIdx.y * cuda.blockDim.y + cuda.threadIdx.y

    # Write the x index followed by a decimal and the y index.
    A[x][y] = x + y / 10

In [None]:
get_2D_indices[blocks, threads_per_block](d_A)



In [None]:
result = d_A.copy_to_host()
result

array([[0. , 0.1, 0.2, 0.3],
       [1. , 1.1, 1.2, 1.3],
       [2. , 2.1, 2.2, 2.3],
       [3. , 3.1, 3.2, 3.3]])

## Exercice : Somme de matrices 2D en mode coalescent

### Imports

In [None]:
import numpy as np
from numba import cuda

### Data Creation

Dans cette cellule, nous d√©finissons des matrices d'entr√©e d'√©l√©ments 2048x2048 `a` et `b`, ainsi qu'une matrice de sortie initialis√©e de 2048x2048. Nous copions ces matrices sur le GPU.

Nous d√©finissons √©galement les dimensions de bloc et de grille √† 2 dimensions. Notez que nous cr√©ons une grille avec le m√™me nombre total de threads que d'√©l√©ments d'entr√©e et de sortie, de sorte que chaque thread de la grille calculera la somme pour un seul √©l√©ment de la matrice de sortie.

In [None]:
n = 2048*2048 # 4M

# 2D blocks
threads_per_block = (32, 32)
# 2D grid
blocks = (64, 64)

# 2048x2048 input matrices
a = np.arange(n).reshape(2048,2048).astype(np.float32)
b = a.copy().astype(np.float32)

# 2048x2048 0-initialized output matrix
out = np.zeros_like(a).astype(np.float32)

d_a = cuda.to_device(a)
d_b = cuda.to_device(b)
d_out = cuda.to_device(out)

### Somme pour une matrice 2D

Votre t√¢che consiste √† compl√©ter les t√¢ches √† effectuer dans `matrix_add` pour additionner correctement `a` et `b` dans `out`. Pour vous aider √† comprendre les modes d'acc√®s, `matrix_add` acceptera un bool√©en `coalesced` indiquant si les mod√®les d'acc√®s doivent √™tre coalescents ou non. Les deux modes (coalesced et uncoalesced) devraient produire des r√©sultats corrects, cependant, vous devriez observer des acc√©l√©rations significatives ci-dessous lors de l'ex√©cution avec `coalesced` d√©fini sur `True`.

In [None]:
@cuda.jit
def matrix_add(a, b, out, coalesced):
    # TODO: set x and y to index correctly such that each thread
    # accesses one element in the data.
    x, y = pass

    if coalesced == True:
        # TODO: write the sum of one element in `a` and `b` to `out`
        # using a coalesced memory access pattern.
    else:
        # TODO: write the sum of one element in `a` and `b` to `out`
        # using an uncoalesced memory access pattern.

### V√©rification de la performance

Ex√©cutez les deux cellules ci-dessous pour lancer `matrix_add` avec les mod√®les d'acc√®s que vous avez √©crits, et observez la diff√©rence de performances. Des cellules suppl√©mentaires ont √©t√© fournies pour confirmer l'exactitude de votre noyau.

**Coalesced**

In [None]:
%timeit matrix_add[blocks, threads_per_block](d_a, d_b, d_out, True); cuda.synchronize

In [None]:
result = d_out.copy_to_host()
truth = a+b

In [None]:
np.array_equal(result, truth)

**Uncoalesced**

In [None]:
%timeit matrix_add[blocks, threads_per_block](d_a, d_b, d_out, False); cuda.synchronize

In [None]:
result = d_out.copy_to_host()
truth = a+b

In [None]:
np.array_equal(result, truth)

## M√©moire Partag√©e

Jusqu'√† pr√©sent, nous avons fait la distinction entre la m√©moire de l'h√¥te et celle de la GPU, comme si la m√©moire GPU √©tait un seul type de m√©moire. Mais en fait, CUDA a une [hi√©rarchie de m√©moire](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#memory-hierarchy) encore plus fine. La m√©moire du dispositif que nous avons utilis√©e jusqu'√† pr√©sent est appel√©e **m√©moire globale**, disponible pour n'importe quel thread ou bloc sur l'appareil, et qui peut persister pendant toute la dur√©e de vie de l'application. Naturellement, c'est un espace m√©moire relativement grand.

Nous allons maintenant discuter de la mani√®re d'utiliser une r√©gion de la m√©moire appel√©e **m√©moire partag√©e**. La m√©moire partag√©e est un cache d√©fini par le programmeur, et de taille limit√©e qui [d√©pend du GPU](https://docs.nvidia.com/cuda/cuda-c-programming-guide/index.html#compute-capabilities). Elle est **partag√©e** entre tous les threads d'un bloc. Il s'agit d'une ressource rare, √† laquelle les threads ext√©rieurs au bloc ne peuvent pas acc√©der et qui ne persiste pas apr√®s la fin de l'ex√©cution d'un noyau. La m√©moire partag√©e a cependant une bande passante beaucoup plus √©lev√©e que la m√©moire globale et peut √™tre utilis√©e avec plus d'efficacit√© dans de nombreux noyaux, en particulier pour optimiser les performances.

Voici quelques cas d'utilisation courants de la m√©moire partag√©e¬†:

* Mise en cache de la m√©moire lue √† partir de la m√©moire globale qui devra √™tre lue plusieurs fois dans un bloc.
* Mise en m√©moire tampon de la sortie des threads afin qu'elle puisse √™tre fusionn√©e (coalescence) avant de la r√©√©crire dans la m√©moire globale.
* Stockage temporaire de donn√©es utilis√©s dans des op√©rations gather/scatter dans un bloc.


### La syntaxe ppour la m√©moire partag√©e

Numba fournit des [fonctions](https://numba.pydata.org/numba-doc/dev/cuda/memory.html#shared-memory-and-thread-synchronization) pour l'allocation de m√©moire partag√©e ainsi que pour la synchronisation entre les threads d'un bloc, ce qui est souvent n√©cessaire apr√®s que des threads parall√®les ont lu ou √©crit dans la m√©moire partag√©e.

Lorsque vous d√©clarez une m√©moire partag√©e, vous fournissez la forme du tableau partag√©, ainsi que son type, √† l'aide d'un [type Numba](https://numba.pydata.org/numba-doc/dev/reference/types.html#numba-types). **La forme du tableau doit √™tre une valeur constante**, et par cons√©quent, vous ne pouvez pas utiliser d'arguments pass√©s √† la fonction ni des variables fournies comme `numba.cuda.blockDim.x`, ou les valeurs calcul√©es de `cuda.griddim`.

Comme ce concepte est un peu plus compliqu√©, voici un exemple pour d√©montrer la syntaxe avec des commentaires soulignant le mouvement de la m√©moire h√¥te vers la m√©moire globale du dispositif, vers la m√©moire partag√©e, vers la m√©moire globale du p√©riph√©rique et enfin vers la m√©moire h√¥te¬†:


**Imports**

Nous utiliserons `numba.types` pour d√©finir les types de valeurs dans la m√©moire partag√©e.

In [None]:
import numpy as np
from numba import types, cuda

**<Echange (swap) d'√©l√©ments avec la m√©moire partag√©e**

Le noyau suivant prend un vecteur d'entr√©e, o√π chaque thread √©crira d'abord un √©l√©ment dans la m√©moire partag√©e puis, apr√®s avoir synchronis√© de telle sorte que tous les √©l√©ments aient √©t√© √©crits dans la m√©moire partag√©e, √©crira un √©l√©ment de la m√©moire partag√©e dans le vecteur de sortie.

Il convient de noter que chaque thread √©crira une valeur √† partir d'une position de la m√©moire partag√©e, laquelle a √©t√© √©crite par un autre thread.

In [None]:
@cuda.jit
def swap_with_shared(vector, swapped):
    # Allocate a 4 element vector containing int32 values in shared memory.
    temp = cuda.shared.array(4, dtype=types.int32)

    idx = cuda.grid(1)

    # Move an element from global memory into shared memory
    temp[idx] = vector[idx]

    # cuda.syncthreads will force all threads in the block to synchronize here, which is necessary because...
    cuda.syncthreads()
    #...the following operation is reading an element written to shared memory by another thread.

    # Move an element from shared memory back into global memory
    swapped[idx] = temp[3 - cuda.threadIdx.x] # swap elements

**Data Creation**

In [None]:
vector = np.arange(4).astype(np.int32)
swapped = np.zeros_like(vector)

# Move host memory to device (global) memory
d_vector = cuda.to_device(vector)
d_swapped = cuda.to_device(swapped)

In [None]:
vector

array([0, 1, 2, 3], dtype=int32)

**Ex√©cution du Kernel**

In [None]:
swap_with_shared[1, 4](d_vector, d_swapped)

ERROR:numba.cuda.cudadrv.driver:Call to cuLinkAddData results in CUDA_ERROR_UNSUPPORTED_PTX_VERSION


LinkerError: [222] Call to cuLinkAddData results in CUDA_ERROR_UNSUPPORTED_PTX_VERSION
ptxas application ptx input, line 9; fatal   : Unsupported .version 8.5; current version is '8.4'

**V√©rifier les R√©sultats**

In [None]:
# Move device (global) memory back to the host
result = d_swapped.copy_to_host()
result

## Pr√©sentation : M√©moire partag√©e en mode coalescence

Ex√©cutez la cellule suivante pour charger les diapositives, puis cliquez sur ¬´¬†D√©marrer le diaporama¬†¬ª pour les mettre en plein √©cran.

In [None]:
from IPython.display import IFrame
IFrame('https://view.officeapps.live.com/op/view.aspx?src=https://developer.download.nvidia.com/training/courses/C-AC-02-V1/shared_coalescing.pptx', 800, 450)

## Exercice¬†: Utilisation de la m√©moire partag√©e pour les lectures et √©critures fusionn√©es avec transposition de matrice

Dans cet exercice, vous allez mettre en ≈ìuvre ce qui vient d'√™tre d√©montr√© dans la pr√©sentation en √©crivant un noyau pour la transposition d'une matrice qui, en utilisant la m√©moire partag√©e, effectue des lectures et des √©critures coalesc√©es dans la matrice de sortie localis√©e dans la m√©moire globale.

### Lectures coalescentes, √©critures non-coalescentes

√Ä titre de comparaison des performances, voici un noyau de transposition de matrice na√Øf qui effectue des lectures coalesc√©es √† partir de l'entr√©e, mais des √©critures non coalesc√©es vers la sortie.

**Imports**

In [None]:
from numba import cuda
import numpy as np

**Data Creation**

Ici, nous cr√©ons une matrice d'entr√©e 4096x4096 `a` ainsi qu'une matrice de sortie 4096x4096 `transpos√©e`, et les copions sur l'appareil.

Nous d√©finissons √©galement une grille bidimensionnelle avec des blocs bidimensionnels √† utiliser ci-dessous. Notez que nous avons cr√©√© une grille avec un nombre total de threads √©gal au nombre d'√©l√©ments dans la matrice d'entr√©e.

In [None]:
n = 4096*4096 # 16M

# 2D blocks
threads_per_block = (32, 32)
#2D grid
blocks = (128, 128)

# 4096x4096 input and output matrices
a = np.arange(n).reshape((4096,4096)).astype(np.float32)
transposed = np.zeros_like(a).astype(np.float32)

d_a = cuda.to_device(a)
d_transposed = cuda.to_device(transposed)

**Naive Matrix Transpose Kernel**

Ce noyau transpose correctement ¬´ a ¬ª, en √©crivant la transposition dans ¬´ transposed ¬ª. Il effectue des lectures depuis ¬´ a ¬ª de mani√®re coalesc√©e, cependant, ses √©critures dans ¬´ transposed ¬ª ne sont pas coalesc√©es.

In [None]:
@cuda.jit
def transpose(a, transposed):
    x, y = cuda.grid(2)

    transposed[x][y] = a[y][x]

**Check Performance**

In [None]:
%timeit transpose[blocks, threads_per_block](d_a, d_transposed); cuda.synchronize()

**Check Correctness**

In [None]:
result = d_transposed.copy_to_host()
expected = a.T

In [None]:
np.array_equal(result, expected)

### Exercice : r√©√©crire le code pour que les lectures et √©critures soient coalescentes

Votre travail consistera √† refactoriser le noyau ¬´¬†transpose¬†¬ª pour utiliser la m√©moire partag√©e et effectuer √† la fois des lectures et des √©critures depuis la m√©moire globale de mani√®re fusionn√©e.

**Imports**

In [None]:
import numpy as np
from numba import cuda, types as numba_types

**Data Creation**

In [None]:
n = 4096*4096 # 16M

# 2D blocks
threads_per_block = (32, 32)
#2D grid
blocks = (128, 128)

# 4096x4096 input and output matrices
a = np.arange(n).reshape((4096,4096)).astype(np.float32)
transposed = np.zeros_like(a).astype(np.float32)

d_a = cuda.to_device(a)
d_transposed = cuda.to_device(transposed)

**√âcrire un noyau de transposition qui utilise la m√©moire partag√©e**

Compl√©tez les `TODO` dans la d√©finition du noyau `tile_transpose`.

In [None]:
@cuda.jit
def tile_transpose(a, transposed):
    # `tile_transpose` assumes it is launched with a 32x32 block dimension,
    # and that `a` is a multiple of these dimensions.

    # 1) Create 32x32 shared memory array.

    # TODO: Your code here.

    # Compute offsets into global input array. Recall for coalesced access we want to map threadIdx.x increments to
    # the fastest changing index in the data, i.e. the column in our array.
    # Note: `a_col` and `a_row` are already correct.
    a_col = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x
    a_row = cuda.blockIdx.y * cuda.blockDim.y + cuda.threadIdx.y

    # 2) Make coalesced read from global memory (using grid indices)
    # into shared memory array (using thread indices).

    # TODO: Your code here.

    # 3) Wait for all threads in the block to finish updating shared memory.

    # TODO: Your code here.

    # 4) Calculate transposed location for the shared memory array tile
    # to be written back to global memory. Note that blockIdx.y*blockDim.y
    # and blockIdx.x* blockDim.x are swapped (because we want to write to the
    # transpose locations), but we want to keep access coalesced, so match up the
    # threadIdx.x to the fastest changing index, i.e. the column./
    # Note: `t_col` and `t_row` are already correct.
    t_col = cuda.blockIdx.y * cuda.blockDim.y + cuda.threadIdx.x
    t_row = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.y

    # 5) Write from shared memory (using thread indices)
    # back to global memory (using grid indices)
    # transposing each element within the shared memory array.

    # TODO: Your code here.

**Check Performance**

V√©rifiez les performances de votre noyau de transposition refactoris√©. Vous devriez constater une acc√©l√©ration par rapport aux performances de transposition de base ci-dessus.

In [None]:
%timeit tile_transpose[blocks, threads_per_block](d_a, d_transposed); cuda.synchronize()

**Check Correctness**

In [None]:
result = d_transposed.copy_to_host()
expected = a.T

In [None]:
np.array_equal(result, expected)

### Pourquoi si peu de gains ?

Bien qu'il s'agisse d'une acc√©l√©ration significative pour seulement quelques lignes de code, vous pourriez penser que l'am√©lioration des performances n'est pas aussi marqu√©e que vous l'esp√©riez par rapport aux exp√©riences pr√©c√©dentes. Il y a deux raisons principales √† cela¬†:

1. Le noyau de transposition na√Øf effectuait des lectures fusionn√©es, donc votre version refactoris√©e n'a optimis√© que la moiti√© de l'acc√®s √† la m√©moire globale tout au long de l'ex√©cution du noyau.
2. Votre code tel qu'il est √©crit souffre de conflits de m√©moire partag√©e, un sujet sur lequel nous allons maintenant porter notre attention.


## Pr√©sentation : Conflits de m√©moire

Ex√©cutez la cellule suivante pour charger les diapositives, puis cliquez sur ¬´¬†D√©marrer le diaporama¬†¬ª pour les mettre en plein √©cran.

In [None]:
from IPython.display import IFrame
IFrame('https://view.officeapps.live.com/op/view.aspx?src=https://developer.download.nvidia.com/training/courses/C-AC-02-V1/bank_conflicts.pptx', 800, 450)

## Exercice : R√©sourdre les conflits de m√©moire

En guise d'exercice final, vous refactoriserez le noyau de transposition en utilisant la m√©moire partag√©e pour qu'il soit exempt de conflit de banque de m√©moire partag√©e.

### Imports

In [None]:
import numpy as np
from numba import cuda, types as numba_types

### Data Creation

In [None]:
n = 4096*4096 # 16M
threads_per_block = (32, 32)
blocks = (128, 128)

a = np.arange(n).reshape((4096,4096)).astype(np.float32)
transposed = np.zeros_like(a).astype(np.float32)

d_a = cuda.to_device(a)
d_transposed = cuda.to_device(transposed)

### Rendre le noyau sans conflit

Le noyau `tile_transpose_conflict_free` est un noyau de transposition de matrice qui utilise la m√©moire partag√©e de sorte que les lectures et les √©critures dans la m√©moire globale soient fusionn√©es. Votre travail consiste √† refactoriser le noyau afin qu'il ne souffre plus ces conflits.

In [None]:
@cuda.jit
def tile_transpose_conflict_free(a, transposed):
    # `tile_transpose` assumes it is launched with a 32x32 block dimension,
    # and that `a` is a multiple of these dimensions.

    # 1) Create 32x32 shared memory array.
    tile = cuda.shared.array((32, 32), numba_types.int32)

    # Compute offsets into global input array.
    x = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.x
    y = cuda.blockIdx.y * cuda.blockDim.y + cuda.threadIdx.y

    # 2) Make coalesced read from global memory into shared memory array.
    # Note the use of local thread indices for the shared memory write,
    # and global offsets for global memory read.
    tile[cuda.threadIdx.y, cuda.threadIdx.x] = a[y, x]

    # 3) Wait for all threads in the block to finish updating shared memory.
    cuda.syncthreads()

    # 4) Calculate transposed location for the shared memory array tile
    # to be written back to global memory.
    t_x = cuda.blockIdx.y * cuda.blockDim.y + cuda.threadIdx.x
    t_y = cuda.blockIdx.x * cuda.blockDim.x + cuda.threadIdx.y

    # 5) Write back to global memory,
    # transposing each element within the shared memory array.
    transposed[t_y, t_x] = tile[cuda.threadIdx.x, cuda.threadIdx.y]

### Check Performance

En supposant que vous ayez correctement r√©solu les conflits, ce noyau devrait s'ex√©cuter beaucoup plus rapidement que le noyau de transposition na√Øf et que le noyau de transposition √† m√©moire partag√©e (avec conflits). Pour r√©ussir l'√©valuation, votre noyau devra s'ex√©cuter en moyenne en moins de 840 ¬µs.

La premi√®re valeur imprim√©e en ex√©cutant la cellule suivante vous donnera le temps d'ex√©cution moyen de votre noyau.

In [None]:
%timeit tile_transpose_conflict_free[blocks, threads_per_block](d_a, d_transposed); cuda.synchronize()