# Graph Attention Networks (GAT): Mathematical Background

This document provides a mathematical overview of Graph Attention Networks (GAT), as introduced by Veličković et al. (2018). It includes key equations and the official paper link.

---

## Table of Contents
1. [Introduction](#introduction)
2. [Mathematical Formulation](#mathematical-formulation)
3. [Attention Mechanism](#attention-mechanism)
4. [Multi-Head Attention](#multi-head-attention)
5. [Official Paper](#official-paper)
6. [Conclusion](#conclusion)

---

## Introduction

Graph Attention Networks (GAT) leverage attention mechanisms to learn on graph-structured data by assigning different weights to neighbor nodes.

Les Graph Attention Networks (GAT) utilisent des mécanismes d'attention pour apprendre à partir de données structurées en graphe en attribuant des poids différents aux nœuds voisins.

---

## Mathematical Formulation

Given a graph with $$ \N  $$ nodes and node features $$  \{ \mathbf{h}_1, \mathbf{h}_2, \dots, \mathbf{h}_N \} $$ where each $$ \mathbf{h}_i \in \mathbb{R}^F $$, the first step is to apply a shared linear transformation:

$$
\mathbf{h}'_i = W \mathbf{h}_i,\quad W \in \mathbb{R}^{F' \times F}
$$

This maps the features into a new \( F' \)-dimensional space.

Étant donné un graphe avec $$ ( \N ) $$ nœuds et des caractéristiques $$ \{ \mathbf{h}_1, \mathbf{h}_2, \dots, \mathbf{h}_N \} $$ où chaque $$ \mathbf{h}_i \in \mathbb{R}^F $$, la première étape consiste à appliquer une transformation linéaire partagée :

$$
\mathbf{h}'_i = W \mathbf{h}_i,\quad W \in \mathbb{R}^{F' \times F}
$$

Cela permet de projeter les caractéristiques dans un nouvel espace de dimension \( F' \).

---

## Attention Mechanism

For each node \( i \) and its neighbor \( j \) (i.e., \( j \in \mathcal{N}_i \)), compute the unnormalized attention coefficient:

$$
 e_{ij} = \text{LeakyReLU}\left( \mathbf{a}^T \left[ \mathbf{h}'_i \, \Vert \, \mathbf{h}'_j \right] \right)
$$

where \( \mathbf{a} \in \mathbb{R}^{2F'} \) is a learnable weight vector and \( \Vert \) denotes concatenation.

Pour chaque nœud \( i \) et son voisin \( j \) (c'est-à-dire \( j \in \mathcal{N}_i \)), on calcule le coefficient d'attention non normalisé :

$$
 e_{ij} = \text{LeakyReLU}\left( \mathbf{a}^T \left[ \mathbf{h}'_i \, \Vert \, \mathbf{h}'_j \right] \right)
$$

où \( \mathbf{a} \in \mathbb{R}^{2F'} \) est un vecteur de poids appris et \( \Vert \) désigne la concaténation.

These coefficients are then normalized using the softmax function:

$$
\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k \in \mathcal{N}_i} \exp(e_{ik})}
$$

Ces coefficients sont ensuite normalisés avec la fonction softmax :

$$
\alpha_{ij} = \frac{\exp(e_{ij})}{\sum_{k \in \mathcal{N}_i} \exp(e_{ik})}
$$

The output feature for node \( i \) is computed as:

$$
\mathbf{h}_i^* = \sigma \left( \sum_{j \in \mathcal{N}_i} \alpha_{ij} \mathbf{h}'_j \right)
$$

where \( \sigma \) is a non-linear activation function.

La caractéristique de sortie pour le nœud \( i \) est calculée comme suit :

$$
\mathbf{h}_i^* = \sigma \left( \sum_{j \in \mathcal{N}_i} \alpha_{ij} \mathbf{h}'_j \right)
$$

où \( \sigma \) est une fonction d'activation non linéaire.

---

## Multi-Head Attention

To improve model capacity and stability, GAT uses multi-head attention:

$$
\mathbf{h}_i^* = \mathbin\Vert_{k=1}^K \sigma \left( \sum_{j \in \mathcal{N}_i} \alpha_{ij}^{(k)} W^{(k)} \mathbf{h}_j \right)
$$

Each head \( k \) computes its own set of attention coefficients \( \alpha_{ij}^{(k)} \) and weight matrix \( W^{(k)} \), and the results are concatenated or averaged.

Pour améliorer la capacité du modèle et sa stabilité, les GAT utilisent l'attention multi-têtes :

$$
\mathbf{h}_i^* = \mathbin\Vert_{k=1}^K \sigma \left( \sum_{j \in \mathcal{N}_i} \alpha_{ij}^{(k)} W^{(k)} \mathbf{h}_j \right)
$$

Chaque tête \( k \) calcule son propre ensemble de coefficients d'attention \( \alpha_{ij}^{(k)} \) et sa matrice de poids \( W^{(k)} \), et les résultats sont concaténés ou moyennés.

---

## Official Paper

For more detailed information, please refer to the official paper:

Pour plus d'informations détaillées, veuillez consulter l'article officiel :

**Graph Attention Networks**  
[Veličković et al., 2018](https://arxiv.org/abs/1710.10903)

---

## Conclusion

GAT offers a powerful framework to integrate both node features and graph structure by learning the importance of neighboring nodes via attention. This leads to improved performance on a variety of graph-based tasks.

Les GAT offrent un cadre puissant pour intégrer à la fois les caractéristiques des nœuds et la structure du graphe en apprenant l'importance relative des nœuds voisins via un mécanisme d'attention. Cela conduit à de meilleures performances sur diverses tâches liées aux graphes.