<a id="1"></a>
# <div style="text-align:center; border-radius:15px 50px; padding:15px; color:white; margin:0; font-size:150%; font-family:Pacifico; background-color:#2a6199; overflow:hidden"><b>  🧠  TP 3.1 -  Calcul Accélérée avec CUDA Python (NUMBA) </b> 



<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:10px; color:white; margin:10px 0; font-size:110%; font-family:Arial, sans-serif; background-color: #4682b4;"><b>1. Introduction à CUDA en Python avec Numba</b></div>


<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #f17c12; color:black; font-family:Arial, sans-serif;">

## <div style="  background-color:rgba(136, 125, 125, 0.15); text-align:left; border-radius:6px; padding:px; color:white; margin:5px 0; font-size:70%; font-family:Arial, sans-serif; background-color: #f17c12;"><b>1.1 CUDA </b> </div>


**[CUDA](https://fr.wikipedia.org/wiki/CUDA)**  (Compute Unified Device Architecture)** est une plateforme de calcul parallèle et un modèle de programmation développé par **NVIDIA**. Elle permet aux développeurs d'exploiter la puissance des **GPU (Graphics Processing Units)** pour exécuter des calculs massivement parallèles, bien au-delà du rendu graphique.

###  📌 Principales caractéristiques de CUDA :
- **Exécution parallèle massive** : CUDA permet d’exécuter des milliers de threads en parallèle, optimisant ainsi les performances pour les calculs intensifs.
- **Modèle de programmation basé sur C/C++ et Python** : CUDA offre une interface de programmation proche du langage C/C++, et peut être utilisé avec des bibliothèques Python comme **Numba** et **CuPy**.
- **Hiérarchie des threads et mémoire optimisée** : CUDA organise l’exécution en blocs et grilles de threads, et exploite différentes mémoires (globale, partagée, constante) pour maximiser l’efficacité.
- **Interopérabilité avec des bibliothèques d’IA et de calcul scientifique** : CUDA est utilisé dans de nombreuses applications, notamment en **deep learning (TensorFlow, PyTorch)**, **simulation numérique**, **traitement d’image** et **finance quantitative**.

### 🚀 Pourquoi utiliser CUDA ?
- Accélération des calculs par rapport aux CPU traditionnels.
- Optimisation des performances pour des applications exigeantes.
- Large écosystème et support des bibliothèques de calcul parallèle.

CUDA est aujourd’hui une référence en matière de **calcul haute performance (HPC)** et est utilisé dans des domaines variés comme la **science des données, l’intelligence artificielle, la simulation physique et la vision par ordinateur**.
</div>

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #f17c12; color:black; font-family:Arial, sans-serif;">

## <div style="text-align:left; border-radius:6px; padding:px; color:white; margin:5px 0; font-size:70%; font-family:Arial, sans-serif; background-color: #f17c12;"><b>1.2 🔹 Numba : Un Compilateur Just-In-Time (JIT) pour Python </b></div> 



[**Numba**](http://numba.pydata.org/) est un **compilateur Just-In-Time (JIT)** pour **Python**, conçu pour accélérer les fonctions Python orientées **calcul numérique**. Il offre une interface simple permettant d'améliorer considérablement les performances d’exécution, en **remplaçant l’interpréteur Python standard par du code machine optimisé**.

Numba permet d’accélérer les fonctions Python de deux manières :
- **Sur CPU** : En générant du code natif optimisé pour l’architecture du processeur.
- **Sur GPU NVIDIA** : En exploitant CUDA pour exécuter du code massivement parallèle sur le GPU.

### 🔹 Concepts de Numba :

- **Compilateur de fonctions** : Numba compile uniquement des **fonctions Python**, et non des applications entières ni des parties de fonctions. Il ne remplace pas l’interpréteur Python, mais agit comme un module Python qui transforme une fonction en une version (généralement) plus rapide.

- **Spécialisation par type** : Numba accélère l’exécution en générant une **implémentation optimisée** pour les **types de données spécifiques** utilisés. Contrairement à Python, qui gère des types génériques (et donc plus lents), Numba génère un code hautement optimisé pour chaque ensemble de types rencontrés.

- **Compilation Just-In-Time (JIT)** : Numba traduit les fonctions **au moment de leur première exécution**, garantissant ainsi une adaptation aux types d’arguments utilisés. Cette approche permet une utilisation interactive dans un **notebook Jupyter**, tout comme dans une application classique.

- **Focalisé sur le calcul numérique** : Numba est principalement optimisé pour les types de données **numériques** (`int`, `float`, `complex`). Le support des chaînes de caractères est **très limité**, et leur utilisation sur GPU n’est pas recommandée. Pour tirer le meilleur parti de Numba, il est conseillé d’utiliser des **tableaux NumPy**.

🚀 **En résumé, grâce à son intégration fluide avec **NumPy**, Numba est un outil puissant pour accélérer les calculs scientifiques en Python sans nécessiter de programmation en C/C++ ou CUDA.**



</div>


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### <img src="https://img.icons8.com/ios-filled/20/1e90ff/info--v1.png" style="vertical-align:middle;"/> 🎯 Objectifs de TP


L'objectif de ce TP est d’explorer les techniques fondamentales permettant d’accélérer les applications Python sur GPU en utilisant Numba. À la fin de ce TP, vous serez capable de :

- Utiliser Numba pour compiler des fonctions Python sur le CPU.
- Comprendre comment Numba compile les fonctions Python.
- Accélérer sur GPU les **ufuncs NumPy**.
- Accélérer sur GPU des fonctions vectorisées écrites à la main.
- Optimiser les transferts de données entre l’hôte (CPU) et le périphérique (GPU).

</div>

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>🔍 2. 🚀 Premiers pas : Compilation pour le CPU </b></div>

Numba peut être utilisé pour optimiser du code aussi bien pour un **CPU** que pour un **GPU**. Avant d’aborder l’accélération GPU, nous allons commencer par écrire notre première fonction Numba et la compiler pour le **CPU**. Cela nous permettra de nous familiariser avec la syntaxe de Numba et, un peu plus tard, de comparer les performances entre un code optimisé pour le CPU et un code accéléré sur GPU.

Le compilateur Numba s'active généralement en appliquant un [**décorateur de fonction**](https://en.wikipedia.org/wiki/Python_syntax_and_semantics#Decorators) à une fonction Python. Les décorateurs sont des modificateurs de fonction qui transforment les fonctions Python qu’ils décorent, en utilisant une syntaxe très simple. 



<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

🔍 Ici, nous allons utiliser le décorateur de compilation CPU de Numba : **`@jit`**.




In [None]:
from numba import jit
import math

# This is the function decorator syntax and is equivalent to `hypot = jit(hypot)`.
# The Numba compiler is just a function you can call whenever you want!
@jit
def hypot(x, y):
    # Implementation from https://en.wikipedia.org/wiki/Hypot
    x = abs(x);
    y = abs(y);
    t = min(x, y);
    x = max(x, y);
    t = t / x;
    return x * math.sqrt(1+t*t)

hypot(3.0, 4.0)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">




<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🔍 Détails sur l'exécution de `hypot` avec Numba

Nous allons explorer plus en détail ce qui se passe lorsqu'on appelle `hypot`, mais pour l'instant, retenez que **lors du premier appel à `hypot`**, le compilateur Numba est déclenché et **génère une version optimisée en code machine** pour les entrées de type `float`.

Numba conserve également l'implémentation Python originale de la fonction dans l'attribut `.py_func`, ce qui nous permet d'appeler la version Python d'origine afin de vérifier que nous obtenons le même résultat :

In [None]:
hypot.py_func(3.0, 4.0)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### ⏱️ Évaluation des performances

Une partie essentielle de l'utilisation de Numba est la **mesure des performances** de votre nouveau code. Voyons si nous avons réellement accéléré l'exécution.

La manière la plus simple de mesurer les performances dans un **notebook Jupyter**, comme celui utilisé dans cette session, est d'utiliser la fonction  [`%timeit`](https://ipython.readthedocs.io/en/stable/interactive/magics.html#magic-timeit). 

Commençons par mesurer la vitesse de la version originale en Python :
</div></div>

In [None]:
%timeit hypot.py_func(3.0, 4.0)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">




<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

La fonction  `%timeit` exécute l'instruction plusieurs fois afin d'obtenir une **estimation précise du temps d'exécution**.  

Par défaut, `%timeit` retourne **le meilleur temps mesuré**, ce qui permet de réduire l'impact d'éventuels événements aléatoires en arrière-plan sur les mesures.  

De plus, la **meilleure exécution sur 3 essais** garantit que le temps de compilation lors du premier appel n'influence pas les résultats finaux.

</div></div>

In [None]:
%timeit hypot(3.0, 4.0)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Numba a fait du bon travail avec cette fonction. Elle est **clairement plus rapide** que la version purement Python.  

Cependant, la fonction `hypot` existe déjà dans le module standard de Python. Voyons comment elle se compare en termes de performance :
</div></div>

In [None]:
%timeit math.hypot(3.0, 4.0)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

La fonction intégrée de Python est **encore plus rapide** que celle optimisée avec Numba !  

Cela s'explique par le fait que Numba introduit un **léger surcoût à chaque appel de fonction**, ce qui peut être plus important que celui de Python lui-même. Les **fonctions extrêmement rapides** (comme celle-ci) peuvent être **pénalisées** par cet overhead.  

🔹 **Remarque importante** : Si une fonction Numba appelle une autre fonction Numba, le surcoût est **très faible**, voire **nul** si le compilateur décide d'**inliner** la fonction dans l'autre.  

📌 **Conclusion** : **Toujours mesurer les performances** de vos fonctions pour **vérifier le gain réel** en vitesse !
</div>

<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

### **🏋️‍♂️  Consigne  : Compiler une fonction pour le CPU avec Numba**

La fonction ci-dessous utilise la **[Méthode de Monte-Carlo pour estimer Pi](https://academo.org/demos/estimating-pi-monte-carlo/)** (extrait de la [page officielle de Numba](http://numba.pydata.org/)).  

📌 La fonction est **déjà fonctionnelle**, donc inutile de se soucier des détails mathématiques.

🔹 **Votre tâche** : Complétez les deux sections marquées `TODO` afin de **compiler `monte_carlo_pi` avec Numba** avant d'exécuter les cellules suivantes.

Les cellules suivantes permettront de :

1️⃣ **Vérifier que la version compilée donne le même résultat** que la version Python d'origine.  
2️⃣ **Mesurer les performances de la version non compilée**.  
3️⃣ **Mesurer les performances de la version compilée avec Numba**.  


</div></div>




In [6]:
nsamples = 1000000

In [7]:
# TODO: Import Numba's just-in-time compiler function
import random

# TODO: Use the Numba compiler to compile this function

def monte_carlo_pi(nsamples):
    acc = 0
    for i in range(nsamples):
        x = random.random()
        y = random.random()
        if (x**2 + y**2) < 1.0:
            acc += 1
    return 4.0 * acc / nsamples

In [None]:
# We will use numpy's `testing` library to confirm compiled and uncompiled versions run the same
from numpy import testing

# This assertion will fail until you successfully complete the exercise one cell above
testing.assert_almost_equal(monte_carlo_pi(nsamples), monte_carlo_pi.py_func(nsamples), decimal=2)

In [None]:
%timeit monte_carlo_pi(nsamples)

In [None]:
%timeit monte_carlo_pi.py_func(nsamples)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### ⚙️ Comment fonctionne Numba ?

Lorsque nous avons appelé notre fonction `hypot` décorée avec Numba pour la première fois, le processus suivant a été initié. L'image ci-dessous illustre le processus de compilation déclenché par Numba lorsque vous utilisez un décorateur comme `@jit` :


![Numba Flowchart](./numba_flowchart.png "The compilation process")


 **🛠️ Le processus de compilation avec Numba**


1. **Python Function** : La fonction Python est définie normalement.
2. **Bytecode Analysis** : Le code bytecode Python est analysé pour en extraire la logique.
3. **Numba IR (Intermediate Representation)** : Une représentation intermédiaire spécifique à Numba est générée.
4. **Type Inference** : Les types des arguments de la fonction sont inférés lors de l'appel pour générer du code spécialisé.
5. **Rewrite IR** : Le code intermédiaire est réécrit et optimisé.
6. **Lowering** : La représentation intermédiaire est traduite en instructions de bas niveau (LLVM IR).
7. **LLVM/NVVM JIT** : Le code est compilé Just-In-Time par LLVM (ou NVVM pour CUDA).
8. **Machine Code** : Le code machine est généré et peut être exécuté directement.
9. **Cache** : Le code compilé est mis en cache pour les appels futurs.
10. **Execute!** : La fonction compilée est exécutée.

Numba permet ainsi de transformer une fonction Python ordinaire en une version optimisée, capable de s'exécuter sur CPU ou GPU avec des performances bien meilleures.

Nous pouvons observer le **résultat de l'inférence de types** en utilisant la méthode `.inspect_types()`, qui affiche une version annotée du code source.

</div></div>

In [None]:
hypot.inspect_types()

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 📝 Remarque sur les types de données dans Numba

Les noms des types dans Numba reflètent généralement ceux de **[NumPy](https://docs.scipy.org/doc/numpy-1.13.0/user/basics.types.html)**. Par exemple :

- Un `float` en Python correspond à un `float64`.
  
### ⚠️ Importance des types de données en code GPU
Dans le code GPU, il peut être important de prêter attention aux types de données car les performances des calculs en `float32` et `float64` peuvent varier **considérablement** selon le GPU.

- Si votre algorithme peut produire des résultats corrects avec des `float32`, il est **recommandé d'utiliser ce type de données**, car :
  - Le passage à `float64` peut entraîner une **diminution importante des performances**.
  - Certains GPU CUDA sont optimisés pour les calculs en `float32`, rendant ces derniers beaucoup plus rapides.

### 🚀 Bonne pratique :
**Privilégiez `float32` si possible** pour maximiser les performances tout en garantissant la précision nécessaire à vos calculs.

</div></div>

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">


### 🚦 Modes Object et nopython

Numba ne peut pas compiler tout le code Python. Certaines fonctions n'ont pas encore d'équivalent traduit par Numba, et certains types Python ne peuvent pas être compilés efficacement (du moins pour l'instant).  Par exemple, **Numba ne prend pas en charge les dictionnaires** (à la date de rédaction de ce document).  

Essayons de compiler ce morceau de code Python avec Numba :
</div></div>


In [None]:
@jit
def cannot_compile(x):
    return x['key']

cannot_compile(dict(key='value'))

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Étant donné ce qui a été dit, vous pourriez être surpris que la cellule précédente se soit exécutée sans aucun problème. Cela s'explique par le fait qu'en l'absence de type-spécialisation, **Numba bascule par défaut dans un mode appelé "object mode"**.  

Dans ce mode, aucune optimisation via type-spécialisation n'est effectuée. Bien que ce mode existe pour permettre d'autres fonctionnalités de Numba, il est souvent préférable que Numba vous signale une erreur si l'inférence de types échoue.

### 🔹 Forcer le mode `nopython`
Pour obliger Numba à échouer lorsque l'inférence de types ne fonctionne pas, vous pouvez activer explicitement le **mode "nopython"** en passant l'argument `nopython=True` au décorateur :

```python
@jit(nopython=True)
def my_function(...):
    ...
```
Le mode nopython garantit que votre code est entièrement optimisé et ne tombe pas en mode interprété.


</div></div>


In [None]:
@jit(nopython=True)
def cannot_compile(x):
    return x['key']

cannot_compile(dict(key='value'))

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Maintenant, une exception est levée lorsque Numba essaie de compiler la fonction. Si vous faites défiler jusqu'à la fin du message d'erreur, vous verrez une description du problème sous-jacent :
    
    • argument 0: cannot determine Numba type of <class ‘dict’>

### 🔹 Mode `nopython` : Bonne pratique recommandée
L'utilisation du mode **`nopython`** est la **meilleure pratique recommandée** pour utiliser le décorateur `jit`, car elle garantit les meilleures performances en éliminant le mode interprété.

### 🔹 Simplification avec `njit`
Numba propose un autre décorateur, **`njit`**, qui est un alias pour **`jit(nopython=True)`**. Cela rend le code plus concis et garantit que Numba fonctionne toujours en mode `nopython` :

```python
from numba import njit

@njit
def my_function(...):
    ...
```
Utiliser `njit` est le moyen le plus simple d’assurer des performances optimales avec Numba.

### 💡 Ressource :

Pour une liste exhaustive des fonctionnalités Python prises en charge par Numba, veuillez consulter **[la documentation officielle de Numba](https://numba.pydata.org/numba-doc/dev/reference/pysupported.html)**.

</div></div>


In [None]:
from numba import njit

@njit
def cannot_compile(x):
    return x['key']

cannot_compile(dict(key='value'))

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>🔍 2. 🚀 Numba pour le GPU avec les fonctions universelles (ufuncs) de NumPy </b></div>


Nous allons commencer notre exploration de la programmation GPU avec Numba en apprenant à compiler les **[fonctions universelles de NumPy (ou ufuncs)](https://docs.scipy.org/doc/numpy-1.15.1/reference/ufuncs.html)** pour le GPU.


La chose la plus importante à comprendre à propos de la programmation GPU, au début, est que le matériel GPU est conçu pour le **parallélisme des données**. Le débit maximal est atteint lorsque le GPU effectue les **mêmes opérations sur de nombreux éléments simultanément**.

Les fonctions universelles de NumPy (ufuncs), qui appliquent la même opération à chaque élément d’un tableau NumPy, sont **naturellement parallèles**, ce qui en fait un excellent choix pour la programmation GPU.




<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">


### 🔍 Rappel sur les fonctions universelles (ufuncs) de NumPy


Si, après cette introduction, vous ne vous sentez pas à l’aise avec les mécanismes de base de NumPy pour la **création de tableaux et l’utilisation des ufuncs**, il est recommandé de suivre le **[tutoriel rapide sur NumPy](https://docs.scipy.org/doc/numpy/user/quickstart.html)**.

### 📌 Qu'est-ce qu'une ufunc ?
NumPy introduit le concept de **fonctions universelles ("ufuncs")**, qui sont des fonctions capables de :
- Manipuler des tableaux NumPy de différentes dimensions.
- Effectuer des opérations **élément par élément** sur les données.
- Accepter aussi bien des **scalaires** que des **tableaux**.


Pour illustrer le fonctionnement de base des ufuncs, nous allons utiliser la fonction universelle `add` de NumPy :


</div></div>


In [None]:
import numpy as np

a = np.array([1, 2, 3, 4])
b = np.array([10, 20, 30, 40])

np.add(a, b) # Returns a new NumPy array resulting from adding every element in `a` to every element in `b`

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">


Les **ufuncs** peuvent également combiner des **scalaires** avec des **tableaux**.  


</div></div>




In [None]:
np.add(a, 100) # Returns a new NumPy array resulting from adding 100 to every element in `a`

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 📌 Diffusion automatique des dimensions (*Broadcasting*)

Les tableaux de **dimensions différentes mais compatibles** peuvent être combinés grâce à une technique appelée **[*broadcasting*](https://docs.scipy.org/doc/numpy-1.15.0/user/basics.broadcasting.html)**.  

Dans ce processus, le tableau ayant la **plus petite dimension** est **répliqué automatiquement** pour correspondre à la dimension du tableau le plus grand, permettant ainsi d'effectuer des opérations sans boucle explicite.



### 📚 Ressources utiles :

Ces fonctions NumPy seront utilisées plusieurs fois au cours de cette formation :

- [`numpy.arange`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.arange.html) : Génère des séquences numériques.
- [`numpy.ndarray.reshape`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.ndarray.reshape.html) : Reformatage de tableaux NumPy.


Le broadcasting est une technique essentielle pour optimiser les calculs et améliorer les performances des opérations vectorisées, notamment sur GPU avec Numba. 🚀





</div></div>




In [None]:
c = np.arange(4*4).reshape((4,4))
print('c:', c)

np.add(b, c)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🚀 Création de ufuncs pour le GPU

Numba permet de créer des **ufuncs compilées**, un processus qui, sans Numba, nécessite généralement d'écrire du code en C.  

Avec Numba, il suffit :
1. D'implémenter une **fonction scalaire** qui sera appliquée à chaque élément des entrées.
2. De la décorer avec `@vectorize`.

Numba s’occupe ensuite de **gérer automatiquement les règles de diffusion (*broadcasting*)**.

Si vous êtes familier avec [`numpy.vectorize`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.vectorize.html), le décorateur `vectorize` de Numba vous semblera très similaire, mais avec **une accélération notable grâce à la compilation JIT**. 


Dans ce premier exemple, nous allons utiliser le décorateur `@vectorize` pour **compiler et optimiser une ufunc pour le CPU**. 🚀
</div></div>






In [None]:
from numba import vectorize

@vectorize
def add_ten(num):
    return num + 10 # This scalar operation will be performed on each element

In [None]:
nums = np.arange(10)
add_ten(nums) # pass the whole array into the ufunc, it performs the operation on each element

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Nous allons générer une **ufunc optimisée pour le GPU avec CUDA** en utilisant une **signature de type explicite** et en définissant l’attribut `target`.  

### 📌 Définition de la signature de type :
L’argument de signature de type indique **les types de données utilisés** pour les arguments et la valeur de retour de la ufunc, sous la forme suivante :
```python
'return_value_type(argument1_value_type, argument2_value_type, ...)'
```

Pour plus d’informations, consultez la documentation Numba :

- 🔗 [Types disponibles](https://numba.pydata.org/numba-doc/dev/reference/types.html)
- 🔗 [Écriture de ufuncs avec plusieurs signatures](https://numba.pydata.org/numba-doc/dev/user/vectorize.html)

### ✨ Exemple : Compilation d’une ufunc pour le GPU avec CUDA

L’exemple ci-dessous montre une ufunc qui sera compilée pour un périphérique GPU compatible CUDA. Elle prend en entrée deux valeurs int64 et retourne également un int64 :
</div></div>

In [None]:
@vectorize(['int64(int64, int64)'], target='cuda') # Type signature and target are required for the GPU
def add_ufunc(x, y):
    return x + y

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🔍 Explication de l'exemple :

- La fonction `add_ufunc` est **vectorisée** pour une **exécution parallèle sur GPU**.
- La signature **`int64(int64, int64)`** spécifie que les **entrées et la sortie** sont de type `int64`.
- L’attribut **`target='cuda'`** indique que la fonction doit être **compilée pour CUDA** et exécutée sur un **GPU**.
Avec cette approche, Numba génère automatiquement du code optimisé pour le GPU, sans nécessiter d’écriture en CUDA natif !
</div></div>




In [None]:
add_ufunc(a, b)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Pour un simple appel de fonction, **beaucoup de choses viennent de se produire !** 🚀  

Numba a automatiquement réalisé les étapes suivantes :  

- 🛠 **Compilation d’un noyau CUDA** pour exécuter l’opération ufunc en parallèle sur tous les éléments d'entrée.  
- 📦 **Allocation de mémoire sur le GPU** pour les entrées et la sortie.  
- ⬆️ **Copie des données d’entrée vers le GPU**.  
- ⚡ **Exécution du noyau CUDA** avec les dimensions adaptées aux tailles des entrées.  
- ⬇️ **Copie du résultat du GPU vers le CPU**.  
- 📤 **Renvoi du résultat sous forme d’un tableau NumPy sur l’hôte (CPU).**  

Par rapport à une implémentation en **C/CUDA natif**, cette approche est **beaucoup plus concise** et évite la gestion manuelle des ressources GPU.  

#### 🚀 Quelle est la vitesse de notre simple exemple sur GPU ? Voyons cela ! ⏱

</div></div>

In [None]:
%timeit np.add(b, c)   # NumPy on CPU

In [None]:
%timeit add_ufunc(b, c) # Numba on GPU

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🚀 Pourquoi notre exemple est-il plus lent sur le GPU ? 

😲 **Le GPU est beaucoup plus lent que le CPU ??**  

C’est un comportement **prévisible** car nous avons **délibérément** mal utilisé le GPU dans cet exemple.  

Comprendre **pourquoi** le GPU est mal exploité ici nous aidera à identifier **quels types de problèmes sont adaptés au calcul GPU** et **quels calculs restent plus efficaces sur le CPU**.

---

#### ❌ **Mauvaises pratiques dans notre exemple :**

1️⃣ **Nos entrées sont trop petites**  
   - Le GPU excelle en exécutant **des milliers de calculs en parallèle**.  
   - Ici, nos tableaux contiennent **seulement 4 ou 16 entiers**, ce qui est **insuffisant pour saturer le GPU**.  

2️⃣ **Notre calcul est trop simple**  
   - L'envoi d'un calcul vers le GPU introduit un **coût fixe important**.  
   - Si le calcul est trop rapide (faible **intensité arithmétique**), le **temps d’attente** pour les transferts de données **domine** le gain de parallélisation.  

3️⃣ **Nous copions inutilement les données entre CPU et GPU**  
   - Le transfert mémoire entre CPU et GPU est **coûteux**.  
   - **Bonne pratique** : **Garder les données sur le GPU** et **enchaîner plusieurs opérations** avant de les récupérer.  

4️⃣ **Nous utilisons des types de données trop volumineux**  
   - L’exemple utilise **`int64`**, mais **un `int32` suffirait**.  
   - Le coût en performance des types **`float64`** sur le GPU peut être **énorme** :
     - **2× plus lent** (Tesla - Pascal)
     - **Jusqu’à 24× plus lent** (GeForce - Maxwell)
   - **Bonne pratique** : Utiliser **`float32`** si la précision est suffisante.  
     - ⚠️ **NumPy utilise `float64` par défaut**, pensez à définir le [`dtype`](https://docs.scipy.org/doc/numpy-1.14.0/reference/arrays.dtypes.html) ou à utiliser [`ndarray.astype()`](https://docs.scipy.org/doc/numpy-1.15.0/reference/generated/numpy.ndarray.astype.html).

---

#### ✅ **Comment mieux exploiter le GPU ?**  
Nous allons maintenant essayer un **exemple plus rapide sur le GPU** en appliquant ces **bonnes pratiques** :
- Une **opération avec une plus grande intensité arithmétique** 🧮  
- Une **taille d'entrée bien plus grande** 📊  
- L'utilisation d'un **type de données `float32`** 

---

#### ⚠️ **Attention : certaines opérations NumPy ne fonctionnent pas sur le GPU !**
Dans l'exemple suivant, nous devrons **remplacer** les fonctions NumPy `pi` et `exp` par leurs équivalents du module **`math`**.  

📌 Pour plus d’informations, consultez **[la documentation Numba](https://numba.pydata.org/numba-doc/latest/reference/numpysupported.html)** sur la prise en charge de NumPy sur GPU.

</div></div>

In [None]:
import math # Note that for the CUDA target, we need to use the scalar functions from the math module, not NumPy

SQRT_2PI = np.float32((2*math.pi)**0.5)  # Precompute this constant as a float32.  Numba will inline it at compile time.

@vectorize(['float32(float32, float32, float32)'], target='cuda')
def gaussian_pdf(x, mean, sigma):
    '''Compute the value of a Gaussian probability density function at x with given mean and sigma.'''
    return math.exp(-0.5 * ((x - mean) / sigma)**2) / (sigma * SQRT_2PI)

In [None]:
import numpy as np
# Evaluate the Gaussian a million times!
x = np.random.uniform(-3, 3, size=1000000).astype(np.float32)
mean = np.float32(0.0)
sigma = np.float32(1.0)

# Quick test on a single element just to make sure it works
gaussian_pdf(x[0], 0.0, 1.0)

In [None]:
import scipy.stats # for definition of gaussian distribution, so we can compare CPU to GPU time
norm_pdf = scipy.stats.norm
%timeit norm_pdf.pdf(x, loc=mean, scale=sigma)

In [None]:
%timeit gaussian_pdf(x, mean, sigma)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🚀 Un gain de performance significatif !

Nous avons obtenu **une amélioration considérable**, **même en tenant compte du coût des transferts de données** entre le CPU et le GPU.  

Les **ufuncs utilisant des fonctions spéciales** (`exp`, `sin`, `cos`, etc.) sur **de grands ensembles de données** sont particulièrement **efficaces sur GPU**, car ces opérations sont massivement parallélisées.

---



<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

### **🏋️‍♂️  Consigne  :  🕒 Comparons avec une optimisation CPU**


Pour compléter notre comparaison, définissons et **mesurons le temps d'exécution** de la fonction `gaussian_pdf` lorsqu'elle est optimisée par **Numba pour le CPU**.  

</div>
</div>

In [None]:
@vectorize
def cpu_gaussian_pdf(x, mean, sigma):
    '''Compute the value of a Gaussian probability density function at x with given mean and sigma.'''
    return math.exp(-0.5 * ((x - mean) / sigma)**2) / (sigma * SQRT_2PI)

In [None]:
%timeit cpu_gaussian_pdf(x, mean, sigma)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">


### ⚡ Comparaison des performances : CPU vs GPU

L’optimisation de `gaussian_pdf` avec Numba pour le **CPU** est **beaucoup plus rapide** que la version Python non compilée. 

Cependant, elle reste **nettement plus lente** que l’exécution **accélérée sur GPU**, qui tire parti du calcul massivement parallèle pour traiter de **grands ensembles de données** de manière optimale.  

</div></div>

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### ⚙️ Fonctions de périphérique CUDA (*CUDA Device Functions*)

Les **ufuncs** sont **très efficaces** lorsqu'il s'agit d'effectuer des **opérations élément par élément**, une tâche extrêmement courante.  

Cependant, certains calculs **ne correspondent pas** à ce modèle vectorisé.  

#### 🚀 Compiler des fonctions GPU non vectorisées
Pour compiler des **fonctions non vectorisées** sur le **GPU**, nous utilisons `numba.cuda.jit`.  

Dans la prochaine section, nous approfondirons l'utilisation de `numba.cuda.jit`, mais pour l’instant, voyons **comment l’utiliser pour décorer une fonction auxiliaire**, qui sera ensuite utilisée dans une ufunc accélérée sur GPU.  Cela permet d'**éviter de surcharger une seule ufunc** avec toute la logique de calcul.

---

#### 📌 Exemple : Fonction auxiliaire GPU avec `device=True`
Dans l'exemple ci-dessous, la fonction `polar_to_cartesian` :
- **Ne nécessite pas de signature de type** (contrairement aux ufuncs vectorisées).
- **Prend deux valeurs scalaires** en entrée, contrairement aux **ufuncs vectorisées** qui manipulent des tableaux NumPy.
- **Ne peut être appelée que depuis une fonction exécutée sur le GPU** grâce à `device=True`.

📌 L’argument device=True indique que cette fonction ne peut être appelée que depuis un code exécuté sur le GPU, et non depuis le CPU.

Cela permet une meilleure modularité en créant des fonctions réutilisables au sein de calculs plus complexes sur le GPU. 🚀



</div></div>

In [None]:
from numba import cuda

@cuda.jit(device=True)
def polar_to_cartesian(rho, theta):
    x = rho * math.cos(theta)
    y = rho * math.sin(theta)
    return x, y

@vectorize(['float32(float32, float32, float32, float32)'], target='cuda')
def polar_distance(rho1, theta1, rho2, theta2):
    x1, y1 = polar_to_cartesian(rho1, theta1) # We can use device functions inside our GPU ufuncs
    x2, y2 = polar_to_cartesian(rho2, theta2)
    
    return ((x1 - x2)**2 + (y1 - y2)**2)**0.5

In [None]:
n = 1000000
rho1 = np.random.uniform(0.5, 1.5, size=n).astype(np.float32)
theta1 = np.random.uniform(-np.pi, np.pi, size=n).astype(np.float32)
rho2 = np.random.uniform(0.5, 1.5, size=n).astype(np.float32)
theta2 = np.random.uniform(-np.pi, np.pi, size=n).astype(np.float32)

In [None]:
polar_distance(rho1, theta1, rho2, theta2)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 📌 **Remarque importante**
Le **compilateur CUDA** applique une **inlining agressive** aux **fonctions de périphérique (`device=True`)**.  

Cela signifie que :
- Il n’y a **généralement aucun surcoût** pour les appels de fonction.
- Les **tuples retournés** (comme dans `polar_to_cartesian`) **ne sont pas réellement créés** en tant qu'objets Python.  
  - Ils sont temporairement représentés comme une **structure (`struct`)**.
  - Cette structure est ensuite **optimisée et supprimée** par le compilateur.

####  💡 **Conclusion** :
 L’utilisation de **fonctions auxiliaires sur GPU** avec `device=True` ne **ralentit pas** l’exécution et permet une meilleure **organisation du code** sans perte de performance. 


### ✅ Python autorisé sur le GPU

L’exécution de Python sur GPU avec Numba est **plus limitée** que sur CPU.  
Bien que Numba sur CPU soit déjà restreint, la version GPU impose **encore plus de contraintes**.  

#### 🔹 Fonctions et structures Python prises en charge :
- **Conditions** : `if` / `elif` / `else`
- **Boucles** : `while` et `for`
- **Opérateurs mathématiques de base**
- **Certaines fonctions** des modules `math` et `cmath`
- **Tuples**

📌 Pour une liste détaillée des fonctionnalités prises en charge, consultez **[le manuel de Numba](http://numba.pydata.org/numba-doc/latest/cuda/cudapysupported.html)**. 

</div>
</div>

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🏋️‍♂️ Exercice : Accélérer une fonction sur GPU

Nous allons accélérer sur **GPU** une fonction de **suppression des valeurs faibles ("zero suppression")**.  

📌 **Contexte** :  
Lors du traitement de **signaux** ou de **formes d'onde**, il est courant de **forcer à zéro** toutes les valeurs dont l'**amplitude absolue** est inférieure à un certain seuil.  
Cela permet de **réduire le bruit de faible amplitude** dans les mesures.

Voyons d'abord comment **générer des données d'exemple** pour tester notre fonction :

</div>
</div>

In [None]:
# This allows us to plot right here in the notebook
%matplotlib inline

# Hacking up a noisy pulse train
from matplotlib import pyplot as plt

n = 100000
noise = np.random.normal(size=n) * 3
pulses = np.maximum(np.sin(np.arange(n) / (n / 23)) - 0.3, 0.0)
waveform = ((pulses * 300) + noise).astype(np.int16)
plt.plot(waveform)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🚀 Accélération GPU de `zero_suppress`

Nous allons maintenant **décorer la fonction `zero_suppress`** pour qu'elle s'exécute comme une **ufunc vectorisée sur un périphérique CUDA**.

<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

### **🏋️‍♂️  Consigne  :**

- Transformer `zero_suppress` en une **ufunc compatible GPU**.
- Exploiter la **parallélisation massive** du GPU pour traiter efficacement de grands ensembles de données.



</div>

💡 **Astuce** : Utilisez le décorateur `@vectorize` avec `target='cuda'` pour que Numba compile la fonction pour **une exécution parallèle sur le GPU**.

</div>

In [None]:
def zero_suppress(waveform_value, threshold):
    if waveform_value < threshold:
        result = 0
    else:
        result = waveform_value
    return result

In [None]:
# This will throw an error until you successfully vectorize the `zero_suppress` function above.
# The noise on the baseline should disappear when zero_suppress is implemented
plt.plot(zero_suppress(waveform, 15))

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>🔍 3. 🚀 Gestion de la mémoire GPU </b></div>


Jusqu'à présent, nous avons utilisé des **tableaux NumPy sur le CPU** comme **entrées et sorties** de nos fonctions GPU.  
Numba a automatiquement **transféré ces données vers le GPU**, afin qu'elles puissent être traitées.  

Cependant, **ce transfert automatique a un coût élevé** :  
Après chaque exécution, **Numba renvoie automatiquement les résultats sur le CPU**, ce qui peut considérablement ralentir le programme.

---

#### ⚠️ **Pourquoi minimiser les transferts de données ?**
📌 Le **[Guide des meilleures pratiques CUDA](https://docs.nvidia.com/cuda/cuda-c-best-practices-guide/index.html)** recommande :

> **Haute priorité** : Minimiser les transferts de données entre l’hôte (CPU) et le périphérique (GPU),  
> même si cela signifie exécuter certains noyaux sur le GPU qui n’apportent pas de gain de performance immédiat.

---

#### ✅ **Solution : Utiliser les CUDA Device Arrays**
Une **approche optimisée** consiste à utiliser des **CUDA Device Arrays**, qui :
- ❌ **Ne sont pas automatiquement copiés vers le CPU** après traitement.
- ✅ **Peuvent être réutilisés** pour d'autres calculs **directement sur le GPU**.
- 🔄 **Ne sont transférés vers le CPU que lorsque c’est réellement nécessaire**, réduisant ainsi le temps d’exécution.

---

#### ✨ Démonstration : Création d’une ufunc d’addition avec CUDA Device Arrays
Voyons comment créer une **ufunc d’addition** tout en gérant **efficacement la mémoire GPU**. 🚀


In [None]:
@vectorize(['float32(float32, float32)'], target='cuda')
def add_ufunc(x, y):
    return x + y

In [None]:
n = 100000
x = np.arange(n).astype(np.float32)
y = 2 * x

In [None]:
%timeit add_ufunc(x, y)  # Baseline performance with host arrays

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### 🚀 Transfert des données du CPU vers le GPU avec `numba.cuda`

Le module **`numba.cuda`** propose une fonction permettant de **copier des données du CPU vers le GPU** et de les stocker sous forme de **CUDA Device Arrays**.  

📌 **Remarque importante** :
- Lorsque nous affichons une **Device Array**, nous obtenons uniquement **des informations sur l’objet**.
- Nous **ne voyons pas directement son contenu**, car les données sont stockées **sur le GPU**.
- Pour afficher les valeurs, **il faut d'abord les transférer vers le CPU**, ce que nous verrons plus tard.


</div>
</div>


In [None]:
from numba import cuda

x_device = cuda.to_device(x)
y_device = cuda.to_device(y)

print(x_device)
print(x_device.shape)
print(x_device.dtype)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Les **CUDA Device Arrays** peuvent être **passés directement** en argument aux fonctions CUDA, **exactement comme des tableaux NumPy**.  
En évitant les transferts de mémoire inutiles, **nous optimisons les performances** et **maximisons l’efficacité du GPU**. 
</div>
</div>

In [None]:
%timeit add_ufunc(x_device, y_device)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Étant donné que `x_device` et `y_device` sont **déjà stockés sur le GPU**, notre **benchmark est bien plus rapide**. ⚡

#### ❌ **Problème : allocation et copie inutiles**
- Actuellement, une **Device Array de sortie** est **automatiquement allouée**.
- Après le calcul, elle est **copiée vers le CPU**, **même si nous ne l’assignons pas à une variable**.

#### ✅ **Solution : créer manuellement le tableau de sortie**
Nous pouvons éviter cette **allocation et copie inutiles** en créant le tableau de sortie directement sur le **GPU** à l’aide de [`numba.cuda.device_array()`](https://numba.pydata.org/numba-doc/dev/cuda-reference/memory.html#numba.cuda.device_array).

Cela permet de :
- **Contrôler l’allocation mémoire** sur le GPU.
- **Éviter les transferts de données inutiles** entre GPU et CPU.
- **Réutiliser le tableau de sortie** pour plusieurs opérations GPU avant de le rapatrier sur le CPU.

Voyons comment mettre cela en pratique ! 🚀

</div>
</div>

In [None]:
out_device = cuda.device_array(shape=(n,), dtype=np.float32)  # does not initialize the contents, like np.empty()

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

Nous pouvons ensuite utiliser le mot-clé spécial **`out`** dans l’**ufunc** afin de **spécifier un tampon de sortie**.  

Cela permet de **contrôler où le résultat est stocké** et **d'éviter les copies inutiles** entre le GPU et le CPU. 

</div>
</div>

In [None]:
%timeit add_ufunc(x_device, y_device, out=out_device)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

L’appel à **`add_ufunc`** dans ce cas **ne génère aucun transfert de données** entre l’hôte (**CPU**) et le périphérique (**GPU**), ce qui garantit une **exécution ultra-rapide**. 🚀

Si nous avons besoin de récupérer une **Device Array** sur le CPU, nous pouvons utiliser la méthode **`copy_to_host()`** :


</div>
</div>


In [None]:
out_host = out_device.copy_to_host()
print(out_host[:10])

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">

### ⚖️ Comparaison équitable des performances 

Vous pourriez penser que notre **comparaison n'est pas totalement équitable**, car nous **n’avons pas inclus les appels à `to_device` dans le benchmark** des Device Arrays, alors que les **transferts implicites** sont comptabilisés lorsque nous utilisons des tableaux hôte (`a` et `b`).  
 

Cependant, notre fonction **`add_func`** n’est **pas un bon candidat pour l’accélération GPU**, comme mentionné précédemment.  
L’objectif ici était **uniquement de démontrer** comment éliminer **les transferts inutiles** entre le **CPU et le GPU**.

#### 📌 **Bonne pratique : mesurer l’impact des transferts**
🔹 **Toujours benchmarker les transferts de données** pour évaluer si **l’accélération GPU est réellement bénéfique**.  
🔹 **Dans certains cas, le coût des transferts peut annuler le gain en calcul parallèle**.  

---

#### 📚 **Gestion avancée de la mémoire GPU**
Numba propose **d’autres méthodes** pour gérer la mémoire et les transferts entre le **CPU et le GPU**.  
Consultez la **[documentation officielle](https://numba.pydata.org/numba-doc/dev/cuda/memory.html)** pour découvrir **toutes les options disponibles**. 🚀
</div>
</div>


<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">



### **🏋️‍♂️  Consigne  : Optimiser les transferts de mémoire**

Étant donné ces **ufuncs** :


In [None]:
import math

@vectorize(['float32(float32, float32, float32)'], target='cuda')
def make_pulses(i, period, amplitude):
    return max(math.sin(i / period) - 0.3, 0.0) * amplitude

n = 100000
noise = (np.random.normal(size=n) * 3).astype(np.float32)
t = np.arange(n, dtype=np.float32)
period = n / 23

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color: #e6f7ff; border-radius:8px; padding:15px; border-left:6px solid #1e90ff; color:black; font-family:Arial, sans-serif;">


<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">


### **⚡ Optimisation : Éviter les transferts de données inutiles**

Actuellement, dans la cellule ci-dessous, un **transfert de données superflu** a lieu entre le **CPU (hôte)** et le **GPU (périphérique)** :
1. **Après** l’appel à `make_pulses`, les données sont **renvoyées au CPU**.
2. **Avant** l’appel à `add_ufunc`, elles sont **recopiées sur le GPU**.

### 📌 **Objectif : Réduire les transferts CPU-GPU**

🔹 **Effectuer une seule copie** des données vers le GPU **avant** `make_pulses`.  
🔹 **Garder les données sur le GPU** jusqu'à ce que tous les calculs soient terminés.  
🔹 **Rapatrier les données vers le CPU** **seulement après** `add_ufunc`.

💡 **Mise à jour à effectuer** :
- **Utiliser les allocations GPU** (`numba.cuda.device_array`) pour stocker les données sur le **GPU** entre les appels de fonction.  
- **Remplacer les copies intermédiaires** par une gestion plus efficace de la mémoire.




In [None]:
pulses = make_pulses(t, period, 100.0)
waveform = add_ufunc(pulses, noise)

In [None]:
%matplotlib inline
from matplotlib import pyplot as plt
plt.plot(waveform)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>🔍 4. ⚡ Accélérer les calculs des réseaux neuronaux sur GPU </b></div>

Dans cet exercice, vous devrez **mettre en pratique toutes les techniques** apprises jusqu'à présent pour **accélérer les calculs d’un réseau de neurones sur GPU**. 

Nous allons **réécrire et optimiser** une version simplifiée du code effectuant les calculs nécessaires à la création d’une **couche cachée dans un réseau de neurones**.  

#### 📌 **Travail effectué par le code :**
- **Normalisation** des valeurs en niveaux de gris.
- **Application des poids** aux neurones.
- **Application d’une fonction d’activation**.

#### 🎯 **Objectif : Accélérer ces calculs avec le GPU**
Votre tâche consiste à **déplacer ces opérations sur le GPU** en utilisant les **techniques d’accélération avec Numba** que vous avez apprises, **tout en garantissant l’exactitude des calculs**.  

🚀 **Optimisation attendue** :
- ✅ Utiliser **les ufuncs et la vectorisation GPU**.
- ✅ Minimiser **les transferts CPU-GPU** pour éviter les ralentissements.
- ✅ Exploiter **les CUDA Device Arrays** pour une gestion efficace de la mémoire.

### **📥 Importation des bibliothèques et initialisation des valeurs**

Avant de commencer, exécutez cette cellule pour **importer les bibliothèques nécessaires** et **initialiser les valeurs** requises pour l’exercice.  


🚀 **Exécutez la cellule ci-dessous avant de poursuivre !**

In [None]:
# You should not modify this cell, it contains imports and initial values needed to do work on either
# the CPU or the GPU.

import numpy as np
from numba import cuda, vectorize

# Our hidden layer will contain 1M neurons.
# When you assess your work below, this value will be automatically set to 100M.
n = 1000000

greyscales = np.floor(np.random.uniform(0, 255, n).astype(np.float32))
weights = np.random.normal(.5, .1, n).astype(np.float32)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">


## 🚀 Accélération GPU

Dans cette section, vous devrez **modifier chacune des 3 cellules** pour optimiser les calculs sur **GPU** avant d'évaluer vos résultats.

📌 **Instructions :**
- **Suivez les commentaires** dans chaque cellule pour savoir où apporter des modifications.
- **Utilisez les techniques apprises** : `@vectorize`, `@cuda.jit`, `device_array`, etc.
- **Optimisez les transferts de mémoire** entre le **CPU et le GPU**.
- **Vérifiez l’exactitude des résultats** après optimisation.

💡 **Astuce** : Testez **chaque modification progressivement** pour s’assurer que les calculs restent corrects.

🔥 **À vous de jouer !**

In [None]:
# As you will recall, `numpy.exp` works on the CPU, but, cannot be used in GPU implmentations.
# This import will work for the CPU-only boilerplate code provided below, but
# you will need to modify this import before your GPU implementation will work.
from numpy import exp

In [None]:
def normalize(grayscales):
    return grayscales / 255

def weigh(values, weights):
    return values * weights
        
def activate(values):
    return ( exp(values) - exp(-values) ) / ( exp(values) + exp(-values) )

In [None]:
# Modify these 3 previous function calls to run on the GPU.


        

In [None]:

def create_hidden_layer(n, greyscales, weights, exp, normalize, weigh, activate):
    
    normalized = normalize(greyscales)
    weighted = weigh(normalized, weights)
    activated = activate(weighted)
    
    return activated

In [None]:
# Modify the body of this function to optimize data transfers and therefore speed up performance.
# As a constraint, even after you move work to the GPU, make this function return a host array.
# Modify the body of this function to optimize data transfers and therefore speed up performance.
# As a constraint, even after you move work to the GPU, make this function return a host array.



<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">
<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

### 🛠️ Vérifiez votre travail

**Vérifier votre implémentation**.


In [None]:
# You probably don't need to edit this cell, unless you change the name of any of the values being passed as
# arguments to `create_hidden_layer` below.
arguments = {"n":n,
            "greyscales": greyscales,
            "weights": weights,
            "exp": exp,
            "normalize": normalize,
            "weigh": weigh,
            "activate": activate}

In [None]:
%timeit a = create_hidden_layer(**arguments)
%timeit b = create_hidden_layer_gpu(**arguments)
print(a)
print(b)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>✅ 5. Conslusion</b></div>




À présent que vous avez terminé ce TP, vous êtes capable de :

- ✅ Utiliser **Numba** pour compiler des fonctions Python sur le **CPU**.
- ✅ Comprendre le processus de compilation des fonctions avec **Numba**.
- ✅ **Accélérer sur GPU** des **ufuncs NumPy**.
- ✅ **Accélérer sur GPU** des fonctions vectorisées écrites manuellement.
- ✅ Optimiser les **transferts de mémoire** entre l’hôte **CPU** et le périphérique **GPU**.


</div></div>



<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b> 🎁 6. 📚 Annexe : Ufuncs généralisées (*Generalized Ufuncs*)</b></div>


Les **ufuncs** appliquent une fonction scalaire à des **entrées sous forme de tableaux**, mais que faire si vous voulez appliquer une **fonction sur des tableaux de dimensions inférieures** à des **tableaux de dimensions supérieures** ? Cela s'appelle une **ufunc généralisée** (*generalized ufunc* ou **gufunc**), et cela ouvre un tout nouveau champ d'applications pour les ufuncs.

---

#### 🔹 **Pourquoi les gufuncs sont-elles utiles ?**
Les **gufuncs** permettent de :
- Diffuser des **fonctions plus complexes** sur des tableaux de dimensions variées.
- Gérer des **modèles complexes d'indexation** pour plusieurs entrées.
- Effectuer des calculs comme la normalisation L2 ou les sommes par lignes sur des tableaux de grandes dimensions.

---

#### 🔸 **Signature des gufuncs**
Contrairement aux ufuncs classiques, les gufuncs nécessitent une **signature** (différente de la signature de type Numba). Cette signature :
- Décrit l'**ordre des index** pour les entrées et sorties.
- Permet de gérer **des opérations multidimensionnelles**.

ℹ️ **Explication complète des signatures** :
- [Docs NumPy sur les gufuncs](https://docs.scipy.org/doc/numpy/reference/c-api.generalized-ufuncs.html)
- [Docs Numba sur les gufuncs](http://numba.pydata.org/numba-doc/latest/user/vectorize.html#the-guvectorize-decorator)
- [Docs Numba sur les CUDA gufuncs](http://numba.pydata.org/numba-doc/latest/cuda/ufunc.html#generalized-cuda-ufuncs)

---

#### ✨ Exemple : Fonction de normalisation
Créons une fonction de normalisation qui :
- Accepte un tableau en entrée.
- Calcule la **norme L2** le long de la dernière dimension.

#### ⚠️ Remarque :
- Les **gufuncs** prennent le tableau de sortie comme **dernier argument**, au lieu de retourner une valeur.
- Si la sortie est un scalaire, elle sera représentée comme un tableau d'une dimension inférieure à celle de l'entrée.

#### 🔍 Exemple de résultats :
1. **Somme des lignes d'un tableau 2D** : Retourne un tableau 1D.
2. **Somme des matrices d'un tableau 3D** : Retourne un tableau 2D.


</div></div>


In [None]:
from numba import guvectorize
import math

@guvectorize(['(float32[:], float32[:])'], # have to include the output array in the type signature
             '(i)->()',                 # map a 1D array to a scalar output
             target='cuda')
def l2_norm(vec, out):
    acc = 0.0
    for value in vec:
        acc += value**2
    out[0] = math.sqrt(acc)

---

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

**🧪 Tester la fonction : Construire des points sur le cercle unité**
</div>

In [None]:
angles = np.random.uniform(-np.pi, np.pi, 10)
coords = np.stack([np.cos(angles), np.sin(angles)], axis=1)
print(coords)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

**✅ Résultat attendu : La norme L2 est égale à 1.0**
</div>

In [None]:
l2_norm(coords)

<hr style="height: 5px; background: linear-gradient(to right, #007BFF, #00C3FF); border: none;">

<hr style="height: 5px; background: linear-gradient(to right, #007BFF, #00C3FF); border: none;">


# <div style="text-align:center; border-radius:15px 50px; padding:15px; color:white; margin:0; font-size:150%; font-family:Pacifico; background-color:#2a6199; overflow:hidden"><b>  🧠  TP 3.2 -  Calcul Accélérée avec CUDA Python (NUMBA) </b> 



<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:10px; color:white; margin:10px 0; font-size:110%; font-family:Arial, sans-serif; background-color: #4682b4;"><b>1. Introduction aux Kernels CUDA avec Numba </b></div>


Dans cette section, nous approfondirons notre compréhension du **modèle de programmation CUDA** pour organiser le travail parallèle. Nous utiliserons ces connaissances pour écrire des **kernels CUDA personnalisés**, des fonctions exécutées en parallèle sur les GPU CUDA.

### 🎯 **Qu'est-ce qu'un kernel CUDA personnalisé ?**
Un **kernel CUDA** est une fonction qui :
- S’exécute directement sur un **GPU CUDA**.
- Permet de répartir les calculs **massivement parallèles**.
- Offre une flexibilité et des performances optimales dans des cas où les **ufuncs** ne suffisent pas.

### 🛠️ **Pourquoi utiliser des kernels personnalisés ?**
Bien que plus complexes à implémenter (par rapport à un simple décorateur `@vectorize`), les kernels personnalisés permettent de :
- Réaliser des calculs parallèles dans des scénarios où les **ufuncs ne peuvent pas être appliquées**.
- Exploiter pleinement la **puissance du GPU** en optimisant l'organisation des threads et blocs.
- Gérer des cas d'utilisation complexes nécessitant un contrôle total sur les calculs parallèles.

---

### 📚 **Contenu de cette partie 2 :**
- **Organisation du travail parallèle** avec le modèle de programmation CUDA.
- **Écriture et exécution de kernels CUDA personnalisés** avec Numba.
- Exploration des **meilleures pratiques** pour optimiser les calculs sur GPU.

---


🎯 **Objectif final :** Apprendre à écrire des kernels CUDA personnalisés pour **déverrouiller le potentiel maximal du GPU** dans vos applications ! 



In [None]:
from IPython.display import IFrame

IFrame('./AC_CUDA_Python_1.pptx', width=640, height=390)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>✅ 2. Premier Kernel CUDA : Addition de Tableaux 1D</b></div>



Nous allons commencer par un **exemple simple et concret** en **réécrivant notre fonction d'addition** pour des **tableaux NumPy 1D** sur GPU.

#### 🔹 **Compilation avec `numba.cuda.jit`**
Les **kernels CUDA** sont **compilés** à l'aide du **décorateur `numba.cuda.jit`**, qui :
- 🔹 Génère un **code machine optimisé pour le GPU**.
- 🔹 Ne doit **pas être confondu** avec `numba.jit`, qui est destiné **à l’optimisation CPU**.

---

#### 🎯 **Objectif**
- ✅ Comprendre **comment structurer un kernel CUDA** en Python avec **Numba**.
- ✅ Apprendre à **exécuter un kernel sur le GPU** en définissant une **configuration de threads et de blocs**.
- ✅ Poser les bases pour **des kernels plus avancés**, adaptés à des calculs massivement parallèles.

---

💡 **Lisez attentivement les commentaires** dans le code, ils expliquent des **concepts essentiels** sur la structure et l’exécution des kernels CUDA ! 🚀

In [None]:
from numba import cuda

# Note the use of an `out` array. CUDA kernels written with `@cuda.jit` do not return values,
# just like their C counterparts. Also, no explicit type signature is required with @cuda.jit
@cuda.jit
def add_kernel(x, y, out):
    
    # The actual values of the following CUDA-provided variables for thread and block indices,
    # like function parameters, are not known until the kernel is launched.
    
    # This calculation gives a unique thread index within the entire grid (see the slides above for more)
    idx = cuda.grid(1)          # 1 = one dimensional thread grid, returns a single value.
                                # This Numba-provided convenience function is equivalent to
                                # `cuda.threadIdx.x + cuda.blockIdx.x * cuda.blockDim.x`

    # This thread will do the work on the data element with the same index as its own
    # unique index within the grid.
    out[idx] = x[idx] + y[idx]

In [None]:
import numpy as np

n = 4096
x = np.arange(n).astype(np.int32) # [0...4095] on the host
y = np.ones_like(x)               # [1...1] on the host

d_x = cuda.to_device(x) # Copy of x on the device
d_y = cuda.to_device(y) # Copy of y on the device
d_out = cuda.device_array_like(d_x) # Like np.array_like, but for device arrays

# Because of how we wrote the kernel above, we need to have a 1 thread to one data element mapping,
# therefore we define the number of threads in the grid (128*32) to equal n (4096).
threads_per_block = 128
blocks_per_grid = 32

In [None]:
add_kernel[blocks_per_grid, threads_per_block](d_x, d_y, d_out)
cuda.synchronize()
print(d_out.copy_to_host()) # Should be [1...4096]

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

## 🏋️‍♂️ Exercice : Modifier le Code et Observer les Effets

Expérimentez avec la configuration des threads et des blocs dans le kernel CUDA.  
Avant d’exécuter chaque modification, **faites une hypothèse** sur son impact sur l'exécution.

---

### 🔹 **Modifications à tester :**
1. 📉 **Diminuer** la variable `threads_per_block`.
2. 📉 **Diminuer** la variable `blocks_per_grid`.
3. 📈 **Augmenter** `threads_per_block` et/ou `blocks_per_grid`.
4. ❌ **Commenter ou supprimer** l’appel à `cuda.synchronize()`.

---




In [None]:
# to be modified
import numpy as np

n = 4096
x = np.arange(n).astype(np.int32) # [0...4095] on the host
y = np.ones_like(x)               # [1...1] on the host

d_x = cuda.to_device(x) # Copy of x on the device
d_y = cuda.to_device(y) # Copy of y on the device
d_out = cuda.device_array_like(d_x) # Like np.array_like, but for device arrays

# Because of how we wrote the kernel above, we need to have a 1 thread to one data element mapping,
# therefore we define the number of threads in the grid (128*32) to equal n (4096).
threads_per_block = 128
blocks_per_grid = 32

In [None]:
add_kernel[blocks_per_grid, threads_per_block](d_x, d_y, d_out)
cuda.synchronize()
print(d_out.copy_to_host()) # Should be [1...4096]

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


### 🧐 Résultats et Explications

#### 🏗️ **1 & 2 - Réduction du nombre total de threads**
- **Effet** : Certains éléments du tableau `d_out` ne seront pas mis à jour.
- **Pourquoi ?** Le kernel est conçu pour que **chaque thread traite un élément unique**.
  - Moins de threads = certains éléments restent non modifiés.
  - Si **`threads_per_block` diminue**, des **éléments répartis** dans `d_out` sont manquants.
  - Si **`blocks_per_grid` diminue**, les **derniers éléments** de `d_out` sont ignorés.

---

#### 🏗️ **3 - Augmentation du nombre total de threads**
- **Effet** : Peut provoquer des accès mémoire hors limites (*out of bounds*).
- **Pourquoi ?** Le kernel **essaie d’accéder à des indices de mémoire inexistants**.
  - Actuellement, cette erreur ne s'affichera pas directement.
  - Plus tard, nous verrons comment utiliser `cuda-memcheck` pour **détecter ces erreurs**.

---

#### 🏗️ **4 - Suppression de `cuda.synchronize()`**
- **Effet attendu** : Peut-être un affichage incorrect, des calculs incomplets ?
- **Effet réel** : **Aucun impact**.
- **Pourquoi ?** Les **copies de mémoire entre CPU et GPU impliquent une synchronisation implicite**.
  - L’appel à `cuda.synchronize()` **n'est pas strictement nécessaire** ici.
  - Il reste cependant **utile dans d’autres scénarios** pour s’assurer que les calculs sont bien terminés.

---

### 🎯 **Conclusion**
- ✅ Ajuster **`threads_per_block` et `blocks_per_grid`** est crucial pour **garantir que tous les éléments sont traités**.
- ⚠️ Augmenter **trop de threads** sans contrôle peut entraîner **des erreurs d’accès mémoire**.
- 💡 La **synchronisation implicite** via les transferts mémoire **évite le besoin d’un `cuda.synchronize()` dans ce cas**.


---

<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

### 🏋️‍♂️ Exercice : Accélérer une Fonction CPU en un Kernel CUDA

Nous avons ci-dessous une **fonction scalaire CPU** `square_device`, qui pourrait être utilisée comme **ufunc** sur CPU.  
Votre mission est de **la transformer en un kernel CUDA** avec le décorateur `@cuda.jit`.

#### ❓ **Pourquoi transformer cette fonction en kernel CUDA ?**
✅ Bien que l'on puisse utiliser `@vectorize` pour simplifier cette tâche, cet exercice vous permet :
- **D'appliquer toutes les notions introduites** sur l’écriture et l’exécution d’un kernel CUDA.
- **D'apprendre à gérer la configuration des threads et des blocs**.
- **De manipuler la mémoire GPU** en utilisant **des CUDA device arrays**.

---

#### 🎯 **Tâches à réaliser :**
1. **Refactoriser** `square_device` pour en faire un **kernel CUDA** :
   - ✅ Il doit traiter **un seul élément** par thread.
   - ✅ Il doit utiliser la **hiérarchie des threads** (thread ID global).
   
2. **Convertir** `d_a` et `d_out` en **CUDA device arrays**.

3. **Modifier** les variables `blocks` et `threads` pour avoir une **configuration adaptée** à la taille `n` :
   - ✅ Définir le **nombre optimal de threads par bloc**.
   - ✅ Définir **le nombre de blocs nécessaires**.

4. **Lancer** `square_device` avec une **configuration d’exécution** correcte :
   ```python
   square_device[blocks, threads](d_a, d_out)

✅ Validation de votre solution
	•	Un test d’assertion est inclus à la fin du code.
	•	Tant que l’implémentation n’est pas correcte, le test échouera.
	•	Une fois votre solution fonctionnelle, le test passera avec succès. 🎉




In [None]:

def square_device(a):
    return a**2

In [None]:
# Refactor to be a CUDA kernel doing one thread's work.
# Don't forget that when using `@cuda.jit`, you must provide an output array as no value will be returned.


In [None]:
# Leave the values in this cell fixed for this exercise
n = 4096

a = np.arange(n)
out = a**2 # `out` will only be used for testing below

In [None]:
d_a = a                  # TODO make `d_a` a device array
d_out = np.zeros_like(a) # TODO: make d_out a device array

# TODO: Update the execution configuration for the amount of work needed
blocks = 0
threads = 0

# TODO: Launch as a kernel with an appropriate execution configuration
d_out = square_device(d_a)

In [None]:
from numpy import testing
testing.assert_almost_equal(d_out, out)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>✅ 3. Gérer la Latence et Optimiser la Configuration des Threads CUDA</b></div>




### 🔹 **Comprendre l'architecture des GPU NVIDIA**
Les **GPU NVIDIA compatibles CUDA** sont constitués de plusieurs **Streaming Multiprocessors (SMs)**, chacun contenant :
- 💡 **Plusieurs cœurs CUDA** pour exécuter les instructions en parallèle.
- 📌 **Une mémoire DRAM attachée** pour stocker les données nécessaires.
- 🔄 **Une capacité à gérer plusieurs blocs de threads simultanément**.

---

### 🎯 **Le concept clé : cacher la latence avec des warps**
📌 Lorsqu'une instruction prend **plusieurs cycles d'horloge** pour s'exécuter (**expire**), le SM peut continuer d'exécuter d'autres instructions **si des warps sont disponibles**.

✅ **Pourquoi est-ce important ?**
- Les SMs utilisent **de grands fichiers de registres** qui permettent un **changement de contexte ultra-rapide**.
- Un **SM bien occupé** maximise les performances en **évitant les temps morts**.

🛠️ **Conclusion : Pour utiliser pleinement le GPU, il faut fournir aux SMs un nombre suffisant de warps prêts à être exécutés !**

---

### 📌 **Heuristiques pour choisir la bonne configuration des threads**
Il n'existe **pas de configuration unique idéale**, mais voici **des règles empiriques** pour bien débuter :

1️⃣ **Taille d’un bloc de threads (block size)** :
   - ✅ **Un multiple de 32 threads** (taille d’un warp).
   - ✅ En général entre **128 et 512 threads par bloc**.

2️⃣ **Taille de la grille (grid size)** :
   - ✅ **Utiliser un nombre de blocs suffisant pour occuper tout le GPU**.
   - ✅ **Bon point de départ** : lancer **2x à 4x le nombre de SMs** présents sur le GPU.
   - ✅ En général, **20 - 100 blocs** est une bonne configuration initiale.

3️⃣ **Gestion des très grandes entrées** :
   - 📌 **Éviter de lancer autant de threads que d’éléments d’entrée**.
   - 📌 Trop de **petits blocs** augmente la **surcharge de lancement des kernels**.
   - ✅ **Solution** : Utiliser une **stratégie d’accès optimisée** (que nous allons explorer ensuite).

---

### 🚀 **Résumé : Bonnes pratiques pour optimiser un kernel CUDA**
✔️ **Utiliser des blocs de threads multiples de 32 (warp size).**  
✔️ **Maximiser le nombre de warps actifs pour cacher la latence.**  
✔️ **Choisir une grille qui occupe bien tous les SMs.**  
✔️ **Éviter un trop grand nombre de petits blocs.**  

💡 **Prochaine étape** : Explorer **les patterns d’accès optimisés** pour **traiter efficacement de grandes entrées** ! 🔥

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>✅ 4. Gérer de Très Grandes Données avec les Grid Stride Loops</b></div>



Lorsqu'on travaille avec **d'énormes ensembles de données**, une approche naïve consistant à lancer **un thread par élément** devient rapidement inefficace.  

### 🎯 **Solution : les Grid Stride Loops**
Cette technique permet de :
- ✅ **Optimiser l’utilisation des threads CUDA** en leur attribuant **plusieurs éléments à traiter**.
- ✅ **Gérer efficacement des datasets de grande taille** en évitant d’allouer un thread unique par élément.
- ✅ **Éviter les limitations sur le nombre de threads** en réutilisant ceux déjà actifs.

---

### 📌 **Comment ça fonctionne ?**
Un **Grid Stride Loop** permet à chaque thread de :
1️⃣ **Travailler sur plusieurs éléments de l’entrée**, au lieu d’un seul.  
2️⃣ **Boucler à travers les indices** en incrémentant de **gridDim.x * blockDim.x**.  
3️⃣ **Maximiser l’occupation du GPU** sans nécessiter un nombre excessif de threads.

---





In [None]:
from IPython.display import IFrame
IFrame('./AC_CUDA_Python_2.pptx', 640, 390)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

## Premier Grid Stride Loop : Optimisation du Kernel `add_kernel`

Nous allons **réécrire** notre kernel `add_kernel` pour **intégrer une Grid Stride Loop**.  
Cette technique permet d'exécuter le kernel **sur de grands ensembles de données**, tout en optimisant l'accès mémoire.

---

### 🎯 **Pourquoi utiliser une Grid Stride Loop ?**
1️⃣ **Évolutivité** : Permet d’exécuter un kernel **sans contrainte** sur la taille des données.  
2️⃣ **Réduction des accès mémoire** : Optimise le **coalescement mémoire global** (global **memory coalescing**).  
3️⃣ **Meilleure utilisation du GPU** : Exploite **au maximum** les threads actifs en leur attribuant **plusieurs éléments** à traiter.

---

### 🏗️ **Comment fonctionne une Grid Stride Loop ?**
Un thread CUDA **ne traite plus un seul élément**, mais :
- 🏎️ **Itère à travers plusieurs éléments** en incrémentant de **gridDim.x * blockDim.x**.
- 🔄 **Travaille sur les données en mémoire globale** de manière optimisée.
- 🚀 **Réduit les opérations mémoire inutiles**, améliorant ainsi les performances.

---

<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

### 🏋️‍♂️ Exercice :

✅ Modifier `add_kernel` pour **qu’il utilise une Grid Stride Loop**.  
✅ Tester le nouveau kernel **avec des ensembles de données de grande taille**.  
✅ Observer les **gains de performances** en comparant avec la version précédente.



In [None]:
from numba import cuda

@cuda.jit
def add_kernel(x, y, out):
    

    start = cuda.grid(1)
    
    # This calculation gives the total number of threads in the entire grid
    stride = cuda.gridsize(1)   # 1 = one dimensional thread grid, returns a single value.
                                # This Numba-provided convenience function is equivalent to
                                # `cuda.blockDim.x * cuda.gridDim.x`

    # This thread will start work at the data element index equal to that of its own
    # unique index in the grid, and then, will stride the number of threads in the grid each
    # iteration so long as it has not stepped out of the data's bounds. In this way, each
    # thread may work on more than one data element, and together, all threads will work on
    # every data element.
    for i in range(start, x.shape[0], stride):
        # Assuming x and y inputs are same length
        out[i] = x[i] + y[i]

In [None]:
import numpy as np

n = 100000 # This is far more elements than threads in our grid
x = np.arange(n).astype(np.int32)
y = np.ones_like(x)

d_x = cuda.to_device(x)
d_y = cuda.to_device(y)
d_out = cuda.device_array_like(d_x)

threads_per_block = 128
blocks_per_grid = 30

In [None]:
add_kernel[blocks_per_grid, threads_per_block](d_x, d_y, d_out)
print(d_out.copy_to_host()) # Remember, memory copy carries implicit synchronization

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">



<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">




### 🏋️‍♂️ Exercice : 📌 **Implémenter une Grid Stride Loop**

Nous allons **refactoriser** la fonction scalaire CPU `hypot_stride` pour la **transformer en un kernel CUDA** utilisant une **Grid Stride Loop**.

1️⃣ **Transformer la fonction** en un kernel CUDA (`@cuda.jit`).  
2️⃣ **Déterminer l’ID global du thread** pour accéder aux données.  
3️⃣ **Utiliser une Grid Stride Loop** :
   - 📌 Le thread doit **itérer** sur plusieurs éléments avec un pas de `gridDim.x * blockDim.x`.  
   - 📌 **Optimiser l'accès mémoire** pour tirer parti du **coalescement mémoire global**.
  
4️⃣ **Configurer correctement** les `blocks` et `threads` pour tester la performance du kernel.

---






In [None]:
from math import hypot

def hypot_stride(a, b, c):
    c = hypot(a, b)

In [None]:
#Tap your solution here


In [None]:
# You do not need to modify the contents in this cell
n = 1000000
a = np.random.uniform(-12, 12, n).astype(np.float32)
b = np.random.uniform(-12, 12, n).astype(np.float32)
d_a = cuda.to_device(a)
d_b = cuda.to_device(b)
d_c = cuda.device_array_like(d_b)

blocks = 128
threads_per_block = 64

hypot_stride[blocks, threads_per_block](d_a, d_b, d_c)

In [None]:
from numpy import testing
# This assertion will fail until you successfully implement the hypot_stride kernel above
testing.assert_almost_equal(np.hypot(a,b), d_c.copy_to_host(), decimal=5)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

## ⏱️ Mesurer la Performance du Kernel `hypot_stride`

Maintenant que nous avons optimisé `hypot_stride` avec une **Grid Stride Loop**, il est temps d’évaluer **ses performances** sur GPU. 

### 🏁 Référence CPU : Mesurer la Performance de `np.hypot`

Avant d’analyser l’accélération GPU, nous devons d’abord **établir une base de référence** en mesurant la performance de la version CPU avec **`np.hypot`**.


In [None]:
%timeit np.hypot(a, b)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

### Accélération CPU avec Numba

Après avoir mesuré la performance de `np.hypot`, nous allons maintenant tester une **version optimisée pour le CPU** avec **Numba**.

In [None]:
from numba import jit

@jit
def numba_hypot(a, b):
    return np.hypot(a, b)

In [None]:
%timeit numba_hypot(a, b)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

### Exécution Monothread sur le GPU

Avant d’évaluer l’accélération parallèle du GPU, **lançons notre kernel avec un seul thread** pour observer son comportement.

1️⃣ **Lancer le kernel avec une grille de 1 bloc et 1 thread**.  
2️⃣ **Utiliser `%time` au lieu de `%timeit`**, car CUDA a une file d’attente limitée.  
3️⃣ **Ajouter un `cuda.synchronize()`** pour éviter que l’horloge CPU ne mesure du temps avant la fin du kernel.  


In [None]:
%time hypot_stride[1, 1](d_a, d_b, d_c); cuda.synchronize()

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

Sans surprise, **exécuter un kernel CUDA avec un seul thread** est **bien plus lent** que l’exécution sur CPU.  

###  Exécution Parallèle sur le GPU

Après avoir observé les limites d’un kernel exécuté **avec un seul thread**, lançons-le maintenant en **mode massivement parallèle** sur le GPU ! 

In [None]:
%time hypot_stride[128, 64](d_a, d_b, d_c); cuda.synchronize()

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">


#### ⚡ Résultat : Une Exécution GPU Massivement Plus Rapide !

Nous avons maintenant une accélération significative grâce au parallélisme GPU !

### 📌 **Comparaison des performances**
| Version           | Temps d’exécution ⏱️  | Observations 📌 |
|------------------|-------------------|----------------|
| **CPU (NumPy)**  | 🐌 Lent             | Bonne référence de base |
| **Numba (CPU JIT)**  | ⚡ Plus rapide que NumPy | Accélération CPU |
| **CUDA (1 thread)** | 🚨 Très lent    | Mauvaise utilisation du GPU |
| **CUDA (Parallèle)** | 🚀 Ultra rapide !  | **Optimisation maximale** |

---

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>⚠️ 4.  Opérations Atomiques et Éviter les Conditions de Concurrence (Race Conditions)</b></div>



### 🔍 **Pourquoi les race conditions sont-elles un problème en CUDA ?**
En programmation parallèle, **plusieurs threads accèdent simultanément à la même mémoire globale**, ce qui peut créer des **problèmes de concurrence** appelés **race conditions**.

Deux types de conflits majeurs peuvent survenir :

1️⃣ **Read-After-Write (RAW) hazard** :
   - 🔹 Un thread **lit** une variable pendant qu'un autre **écrit** dessus.
   - 🔹 La valeur lue peut être incorrecte ou incohérente.
  
2️⃣ **Write-After-Write (WAW) hazard** :
   - 🔹 Deux threads **écrivent en même temps** sur la même adresse mémoire.
   - 🔹 Une seule des écritures sera visible après l’exécution, rendant l’autre perdue.

---

### ✅ **Stratégies pour éviter les race conditions**
✔️ **Assigner des éléments mémoire uniques à chaque thread**  
✔️ **Éviter d'utiliser un même tableau comme entrée et sortie** dans un seul appel kernel  
✔️ **Utiliser le double-buffering** pour alterner entre deux tableaux mémoire dans des algorithmes itératifs  
✔️ **Utiliser des opérations atomiques si plusieurs threads doivent modifier une même valeur**  

---

### ⚡ **Pourquoi utiliser des opérations atomiques en CUDA ?**
💡 **Exemple : Chaque thread incrémente un compteur global**  

Pour cela, chaque thread doit :

1️⃣ **Lire la valeur actuelle du compteur**  
2️⃣ **Calculer `counter + 1`**  
3️⃣ **Écrire la nouvelle valeur en mémoire globale**  

👉 **Problème :** Un autre thread peut **modifier le compteur entre l’étape 1 et 3**, entraînant des erreurs.

---

### 🔒 **Solution : les Opérations Atomiques CUDA**
Une **opération atomique** garantit que **la lecture, la modification et l’écriture** d’une variable partagée s’effectuent **en une seule étape indivisible**, empêchant ainsi les conflits entre threads.

Numba prend en charge plusieurs **opérations atomiques** en CUDA, que vous pouvez retrouver ici :  
📖 [Liste des opérations atomiques CUDA dans Numba](http://numba.pydata.org/numba-doc/dev/cuda/intrinsics.html#supported-atomic-operations)

---

In [None]:
@cuda.jit
def thread_counter_race_condition(global_counter):
    global_counter[0] += 1  # This is bad
    
@cuda.jit
def thread_counter_safe(global_counter):
    cuda.atomic.add(global_counter, 0, 1)  # Safely add 1 to offset 0 in global_counter array

In [None]:
# This gets the wrong answer
global_counter = cuda.to_device(np.array([0], dtype=np.int32))
thread_counter_race_condition[64, 64](global_counter)

print('Should be %d:' % (64*64), global_counter.copy_to_host())

In [None]:
# This works correctly
global_counter = cuda.to_device(np.array([0], dtype=np.int32))
thread_counter_safe[64, 64](global_counter)

print('Should be %d:' % (64*64), global_counter.copy_to_host())

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">



<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

###  **Exercice : Implémenter un Kernel CUDA pour un Histogramme Accéléré**

Dans cet exercice, vous allez **écrire un kernel CUDA optimisé** pour **calculer un histogramme en parallèle** sur le GPU.  



✅ Prendre un **tableau de données en entrée**  
✅ Définir une **plage et un nombre de bins**  
✅ **Compter le nombre d’éléments** qui tombent dans chaque bin  
✅ **Optimiser** l’algorithme pour **éviter les conflits de threads**  

</div>

In [None]:
def cpu_histogram(x, xmin, xmax, histogram_out):
    '''Increment bin counts in histogram_out, given histogram range [xmin, xmax).'''
    # Note that we don't have to pass in nbins explicitly, because the size of histogram_out determines it
    nbins = histogram_out.shape[0]
    bin_width = (xmax - xmin) / nbins
    
    # This is a very slow way to do this with NumPy, but looks similar to what you will do on the GPU
    for element in x:
        bin_number = np.int32((element - xmin)/bin_width)
        if bin_number >= 0 and bin_number < histogram_out.shape[0]:
            # only increment if in range
            histogram_out[bin_number] += 1

In [None]:
x = np.random.normal(size=10000, loc=0, scale=1).astype(np.float32)
xmin = np.float32(-4.0)
xmax = np.float32(4.0)
histogram_out = np.zeros(shape=10, dtype=np.int32)

cpu_histogram(x, xmin, xmax, histogram_out)

histogram_out

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">



<div style="background-color:#fae1e1; border-radius:8px; padding:15px; border-left:6px solid#bf2929; color:black; font-family:Arial, sans-serif;">

## 📝 Instructions

En utilisant une **Grid Stride Loop** et des **opérations atomiques**, implémentez votre solution dans la cellule ci-dessous.  


In [None]:
# Tap your solution here


In [None]:

# Allocate memory on the GPU
d_x = cuda.to_device(x)
d_histogram_out = cuda.to_device(np.zeros(shape=10, dtype=np.int32))

# Define execution configuration
blocks = 128
threads_per_block = 64

# Launch kernel
cuda_histogram[blocks, threads_per_block](d_x, xmin, xmax, d_histogram_out)

# Copy result back to host
histogram_cuda = d_histogram_out.copy_to_host()

In [None]:
# This assertion will fail until you correctly implement `cuda_histogram`
np.testing.assert_array_almost_equal(d_histogram_out.copy_to_host(), histogram_out, decimal=2)
# Print results
print("CPU Histogram:", histogram_out)
print("CUDA Histogram:", histogram_cuda)

<div style="background-color:#eaf6fb; border-radius:8px; padding:20px; border-left:6px solid #4682b4; color:black; font-family:Arial, sans-serif;">

# <div style="text-align:center; border-radius:8px; padding:8px; color:white; margin:10px 0; font-size:100%; font-family:Arial, sans-serif; background-color:#4682b4;"><b>📝 5. Conslusion</b></div>



Dans cette partie TP 3.2, vous avez appris à :

✅ **Écrire des kernels CUDA personnalisés** en Python et les exécuter avec une **configuration d’exécution**.  
✅ **Utiliser les Grid Stride Loops** pour traiter efficacement **de grands ensembles de données** tout en optimisant **l’accès mémoire (memory coalescing)**.  
✅ **Exploiter les opérations atomiques** afin d’**éviter les conditions de course** (*race conditions*) lors de calculs parallèles.  


