# **Les bases mathématiques de l'apprentissage automatique (ou Machine Learning): L'aventure d'un débutant**

<!-- I've hosted the image on my own google drive, this embed link is possibly a bit brittle. The image is here: https://drive.google.com/file/d/15S_hS_3Hil_zuJQwWqquOa0RwfXNSBDM/ and the embedding code comes from here
https://www.labnol.org/embed/google/drive/
-->
<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-x2E9J_9vDgyiiiVWaqbF5eVDc2ULDTdHSfx9ggmhnHwBokyFI6M4H5H3wfoOogWtmOPKvB0LfFP_mapLkDFRVPltg5=s2560"
width="60%" />

### *Avant de commencer*
Utilisez ce lien pour accéder au guide pratique, puis sauvegardez une copie personnelle avant de commencer à travailler.

<a href="https://colab.research.google.com/drive/1SSOmG-qnnuVwn8Mv0gUB_pHR7H-MsCOV?usp=sharing" target="_parent">
<img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/>
</a>

© Deep Learning Indaba 2023. Apache License 2.0.

**Auteurs:** Abdel Mfougouon Njupoun, Joseph Romaric Cheuteu Tazopap, Geraud Nangue Tasse

**Examinateurs:** Ulrich Mbou Sob, Espoir Murhabazi

# Introduction

Lorsque l'on se lance dans le monde de l'apprentissage automatique, il est essentiel de comprendre les bases mathématiques fondamentales qui constituent le fondement de ce domaine passionnant. Imaginez ces concepts mathématiques comme les blocs de construction au cœur de l'image ci-dessus. Bien que cette liste ne soit pas exhaustive, elle donne un bon aperçu des concepts essentiels qui sous-tendent les efforts d'apprentissage automatique. Dans ce tutoriel, nous nous concentrerons sur plusieurs fondements essentiels : `algèbre linéaire`, `géométrie analytique`, `décomposition matricielle` et `calcul vectoriel`. Nous n'aborderons pas les probabilités, les distributions et l'optimisation, mais ces notions jouent un rôle essentiel dans les applications les plus avancées des exemples que nous explorerons.

Il est important de reconnaître l'interconnexion de ces domaines mathématiques dans le cadre de l'apprentissage automatique. Par exemple, le processus d'optimisation s'entrelace parfaitement avec le calcul vectoriel, une relation évidente lors de l'entraînement des réseaux neuronaux par des techniques telles que la descente de gradient. Le diagramme présente les quatre piliers de l'apprentissage automatique, qui représentent les principales catégories de modèles : `regression`, `classification`, `la réduction de la dimensionnalité` et `l'estimation de la densité`. Bien que vous soyez peut-être familier avec <font color='green'>`Régression`</font> et <font color='orange'>`Réduction de la dimensionnalité`</font>, ces quatre piliers font partie intégrante du paysage plus large de la science des données. Rejoignez-nous pour découvrir l'essence mathématique qui fait avancer l'apprentissage automatique.

## Motivation

**Pourquoi les mathématiques sous-jacentes sont-elles importantes pour vous ?**
Il existe actuellement une pléthore d'outils et de bibliothèques qui font le gros du travail à votre place. Cependant,

- Un outil en soi ne vous dit pas
 - Pourquoi une technique a fonctionné ou non ;
 - ce que la technique fait réellement ;
 - Si une technique est susceptible d'être efficace pour votre problème ;
 - Les hypothèses sous-jacentes que la technique utilise ;
- La plupart des approches prêtes à l'emploi ne sont pas à la pointe de la technologie.
 - Si vous voulez vraiment repousser les limites, vous devez innover, mais sans une réelle compréhension des composants fondamentaux, c'est presque impossible.
 - L'absence de connaissances fondamentales implique de toujours travailler à partir des premiers principes.

# Organisation de ce tutoriel

## Algèbre linéaire I <font color='green'>`Debutant`</font>

### Overview
Ce cours donne une introduction très basique à l'algèbre linéaire. Nous couvrons les bases des vecteurs et des matrices (ce qu'ils sont et comment les calculer) ainsi que les produits scalaires et les normes. Nous soulignons l'utilisation de ces sujets dans l'apprentissage automatique dans l'exemple de la régression ridge. [Conduisez-moi là-bas!!]
(#scrollTo=dTbUZzMpogjx)

#### Sections
Dans ce parcours, vous couvrirez les sujets suivants:
- [ ] Vecteurs
- [ ] Notions de base sur les matrices
- [ ] Produits scalaires
- [ ] Nores
- [ ] Exemple: Régression linéaire

#### Prérequis
Cette séance pratique n'exige pratiquement aucune condition préalable, si ce n'est des connaissances de base en mathématiques (niveau secondaire). Pour l'exemple de la régression linéaire, il sera utile de connaître un peu de calcul vectoriel, mais ce n'est pas nécessaire.

> <font color='red'>`Astuce`</font> pour suivre vos progrès, assurez-vous de cocher les cases au fur et à mesure que vous terminez chaque sujet en éditant cette cellule et en changeant la case
- [ ] ...
- [x] ...

## Algèbre linéaire II <font color='orange'>`Intermédiaire`</font>

### Overview
Cette séance pratique part du principe que vous avez couvert les bases et vous propose des sujets plus avancés. [Conduisez-moi là-bas!!](#scrollTo=dTbUZzMpogjx)

#### Sections
 - [ ] Bases orthonormées et projections orthogonales
 - [ ] Déterminant, trace
 - [ ] Vecteurs propres et valeurs propres
 - [ ] Décomposition en valeurs propres et diagonalisation
 - [ ] Analyse en composantes principales (ACP)

#### Prérequis
Soyez confortable avec l'algèbre linéaire I. <font color='green'>`Debutant`</font>.

<!-- We will cover the minimal mathematics for
- <font color='green'>`Regression`</font>:
<font color='green'>`Beginner`</font> `Section 1`
 - What is a vector, basic vector operations `Linear Algebra`
 - What is a matrix, basic matrix operations `Linear Algebra`
 - Norms and Inner products `Analytic Geometry`
 - Univariate differentiation `vector calculus`
 - Differentiating a multivariate function `vector calculus`
 - Taking a gradient and some basic gradient operations `vector calculus`
 - Linear regression `Example`

- <font color='orange'>`Dimensionality Reduction`</font>: <font color='orange'>`Intermediate`</font> `Section 2`
 - Orthonormal bases and orthogonal projections `Analytic Geometry`
 - Determinant, trace `Matrix Decomposition`
 - Eigenvectors and eigenvalues `Matrix Decomposition`
 - Eigendecomposition and diagonalisation `Matrix Decomposition`
 - Principal component analysis (PCA) `Example` -->

# Ressources Additionnelles

Le matériel pour cette séance pratique est basé sur le livre "[Mathematics for Machine Learning](https://mml-book.github.io)".
Nous vous recommandons de consulter le livre pour plus de détails et une exploration approfondie de chaque sujet.
Pour les parcours d'Algèbre Linéaire I et Algèbre Linéaire II, consultez les chapitres 2, 3 et 4.
Pour les notions de calcul vectoriel, référez-vous au chapitre 5.

Tout au long des sections, nous mettrons en évidence des ressources supplémentaires.
Souvent, nous recommanderons des vidéos ou des leçons de [3Blue1Brown](https://www.3blue1brown.com), car elles peuvent être utiles pour développer votre intuition.
Ces vidéos suivent un ordre différent de nos parcours, il se peut donc que vous rencontriez des concepts que nous n'avons pas encore introduits.
Lorsque cela se produit, lisez soit la suite de cette séance pratique, soit consultez la leçon pertinente de 3Blue1Brown [ici](https://www.3blue1brown.com/topics/linear-algebra) (par exemple, les vecteurs de base sont mentionnés dans le Chapitre 2 mais n'apparaissent pas dans l'Algèbre Linéaire I).

De manière plus générale, il existe de nombreuses bonnes ressources pour l'algèbre linéaire :

- [Cours 3Blue1Brown](https://www.3blue1brown.com/topics/linear-algebra)
- Gilbert Strang (célèbre pour l'enseignement de l'Algèbre Linéaire)
  - [Vidéos des conférences de Gilbert Strang](https://www.youtube.com/playlist?list=PL49CF3715CB9EF31D)
  - [Introduction to Linear Algebra (livre), Gilbert Strang](https://math.mit.edu/~gs/linearalgebra/)
- Pour tout ce que vous pourriez vouloir savoir sur les matrices, essayez le livre "Matrix Analysis" de Johnson et Horn. (Une excellente référence).
- Pour une perspective plus mathématique, vous pouvez utiliser des notes de cours,
comme [celles du cursus de mathématiques de l'Université de Cambridge](https://dec41.user.srcf.net/notes). Les cours pertinents sont _Vectors and Matrices_ et _Linear Algebra_.

Les vidéos peuvent être utiles pour développer l'intuition, mais si vous souhaitez vraiment comprendre en profondeur, vous devrez également utiliser les cours magistraux ou les livres. En particulier, vous devrez travailler sur des exemples et faire les exercices associés.
Comparées aux vidéos, les notes de cours et les livres seront plus autonomes et plus utiles à long terme, mais probablement plus exigeants et offrant moins d'intuition.
Comme toujours, vous obtenez ce que vous investissez.

# Installer et importer les packages requis. (Exécutez-moi)

In [None]:
# Install and import anything required. Capture hides the output from the cell.
import jax
import jax.numpy as jnp

import matplotlib.pyplot as plt
import numpy as np

import timeit
import matplotlib as mpl
mpl.use('Agg')
plt.style.use('fivethirtyeight')
from ipywidgets import interact
import sklearn.datasets
from sklearn.datasets import load_digits
from sklearn.datasets import fetch_openml

#Section 1 <font color='green'>Débutant</font>

Ce que vous apprendrez dans cette section : Vecteurs, Bases des matrices, Produits internes, Normes, Bases du calcul, Exemple de régression Ridge.

<font color='red'>Astuce</font> : Vous pouvez masquer les sections que vous n'étudiez pas actuellement en basculant le bouton de réduction de $\blacktriangledown$ à $\blacktriangleright$.

## Vecteurs

Les tableaux numériques sont la structure de données fondamentale dans la plupart des codes d'apprentissage automatique.
De manière intuitive, un vecteur est un tableau de nombres en colonne
qui est accompagné d'opérations algébriques
telles que l'addition et la soustraction (avec d'autres tableaux de la même forme)
et la multiplication par un scalaire (en multipliant tous les éléments du tableau
par le même nombre).

Les vecteurs apparaissent très régulièrement à la fois dans l'apprentissage automatique théorique et appliqué.
Le sujet de l'algèbre linéaire, qui concerne des collections particulières de vecteurs appelées espaces vectoriels et les transformations entre eux, est fondamental non seulement
pour l'apprentissage automatique, mais aussi pour les mathématiques et les sciences physiques.

Les vecteurs sont utilisés en apprentissage automatique pour représenter et manipuler des données.
Les vecteurs sont couramment utilisés comme ensemble de caractéristiques d'entrée pour un modèle, telles que
`(superficie, nombre de salles de bains, âge de la propriété, ...)`
dans une tâche de régression des prix des maisons.
Les vecteurs sont également utilisés pour contenir des représentations de données, comme dans les modèles de langage modernes ou le classique `Word2Vec`.

### Vecteurs en tant que tableaux numériques

La définition la plus simple d'un vecteur est un tableau (1D) de nombres en colonne comme
$$\begin{pmatrix} 1\\4\\2\end{pmatrix}
\quad \text{ ou } \quad
\begin{pmatrix} 0.5\\6\\7\\4.9\\2.1\end{pmatrix}$$

La _longueur_ du vecteur correspond simplement à la longueur du tableau.
Ainsi, dans les exemples ci-dessus, les vecteurs ont des longueurs respectives de 3 et 5.
(La _dimension_ du vecteur est parfois utilisée pour signifier sa longueur.)
Nous écrirons les vecteurs en police grasse, donc
$\mathbf{a}, \mathbf{b}, \mathbf{c},$ etc.

Les éléments du tableau sont appelés les _composantes_ du vecteur.
Nous écrivons $\mathbf{a}_i$ pour la i<sup>ème</sup> composante du vecteur
$\mathbf{a}$. Ainsi, $\mathbf{a}_2$ est le nombre en position 2
(en partant du haut) dans le tableau. Il s'agit de 4 (dans le premier exemple) et de 6 (dans le deuxième exemple ci-dessus).
Par convention, l'indexation commence à partir de 1 en mathématiques, mais à partir de 0 en Python (désolé !).


Dans cette séance pratique, nous considérerons spécifiquement des vecteurs réels, qui sont des tableaux dont les éléments sont des nombres réels.
Deux vecteurs réels de même longueur peuvent être ajoutés ou soustraits l'un de l'autre en ajoutant ou en soustrayant les éléments correspondants, tout comme les tableaux.
Par exemple,
$$
\begin{pmatrix} 1\\4\\2\end{pmatrix} +
\begin{pmatrix} 3\\1\\6\end{pmatrix}
=
\begin{pmatrix} 4\\5\\8\end{pmatrix}
$$
et
$$
\begin{pmatrix} 3\\1\\6\end{pmatrix}
-
\begin{pmatrix} 1\\4\\2\end{pmatrix}
=
\begin{pmatrix} 2\\-3\\4\end{pmatrix}
$$
Cependant, les longueurs doivent correspondre. L'expression suivante n'a pas de sens mathématique
$$
\begin{pmatrix} 1\\3\\2\end{pmatrix} +
\begin{pmatrix} 3\\1\\6\\4\end{pmatrix}
$$

De plus, tout vecteur réel peut être multiplié par un nombre réel pour obtenir un autre vecteur réel, où la multiplication se fait élément par élément. Par exemple
$$
2 \times \begin{pmatrix} 1\\4\\2\end{pmatrix}
=
\begin{pmatrix} 2\\8\\4\end{pmatrix}
$$
>Dans le contexte de l'algèbre linéaire, les nombres sont souvent appelés _scalaires_ et le calcul ci-dessus est appelé _multiplication scalaire_.

L'ensemble de tous les vecteurs réels de longueur $n$ est écrit $\mathbb{R}^{n}$, c'est-à-dire l'ensemble de tous les $n$-uplets de nombres réels.

**Note** :
À partir de maintenant, sauf indication contraire, le terme _vecteur_ se référera spécifiquement aux vecteurs réels.

#### Exemples en Code
En utilisant JAX, nous pouvons représenter des vecteurs à l'aide de `jnp.array`. Ce qui suit représente le vecteur
$$\mathbf{a} = \begin{pmatrix} 1\\4\\2\end{pmatrix}$$

In [None]:
a = jnp.array([1, 4, 2])
a

Les éléments des vecteurs peuvent être accédés à l'aide de crochets carrés.
Rappelez-vous que l'indexation des éléments de vecteurs en mathématiques commence généralement à partir de 1, mais l'indexation des tableaux
en Python commence à partir de 0, alors soyez prudent !

In [None]:
# Print the first component of a. In math this component would be written a_1
print(a[0])

Leur dimension peut être calculée à l'aide de `len` ou de `.shape`

L'addition, la soustraction et la multiplication par un scalaire peuvent toutes être effectuées à l'aide des opérations standard de Python.

In [None]:
a = jnp.array([1, 4, 2])
b = jnp.array([3, 1, 6])
a + b

In [None]:
2 * a

In [None]:
b - a

> Si les longueurs ne correspondent pas, JAX générera une erreur, mais cela touche un sujet informatique appelé _broadcasting_ qui dépasse le cadre de cette séance pratique.

#### Exercice

Soit
$$
\mathbf{a} = \begin{pmatrix} 1\\1\\0.9\\0.6\end{pmatrix}
\quad\text{ et }\quad
\mathbf{b}
=
\begin{pmatrix} 0\\1\\3\\ 2.718\end{pmatrix}
$$
Utilisez JAX pour calculer $3\mathbf{a} - \mathbf{b}$

In [None]:
# Placez votre réponse ici

### Solution

In [None]:
a = jnp.array([1., 1., 0.9, 0.6])
b = jnp.array([0., 1., 3., 2.718])

resultat = 3 * a - b
resultat

### Définition Mathématique: Espace vectoriel

Mathématiquement, un vecteur est défini comme tout élément d'un _espace vectoriel_.
Un espace vectoriel (réel) $V$ est un ensemble d'objets avec deux opérations : l'addition vectorielle et la multiplication par un scalaire.

L'addition vectorielle doit satisfaire, pour tous $\mathbf{a}, \mathbf{b}, \mathbf{c} \in V$ :
- Loi de composition interne : $\mathbf{a} + \mathbf{b} \in V$
- commutativité : $\mathbf{a} + \mathbf{b} = \mathbf{b} + \mathbf{a}$
- associativité : $\mathbf{a} + (\mathbf{b} + \mathbf{c}) = (\mathbf{a} + \mathbf{b}) + \mathbf{c}$
- élément neutre : Il existe un vecteur nul $\mathbf{0}$ tel que pour tout $\mathbf{a}\in V$,
$\mathbf{a} + \mathbf{0} = \mathbf{a}$.
- inverse : Pour tout $\mathbf{a}\in V$, il existe un vecteur $\mathbf{-a} \in V$
tel que $\mathbf{a} + \mathbf{-a} = \mathbf{0}$.

La multiplication par un scalaire doit satisfaire, pour tous $\mathbf{a}, \mathbf{b} \in V$
et pour tous $\lambda, \mu \in \mathbb{R}$ :
- $\lambda(\mathbf{a}+\mathbf{b}) = \lambda \mathbf{a} + \lambda \mathbf{b}$
- $(\lambda+ \mu)\mathbf{a} = \lambda \mathbf{a} + \mu \mathbf{a}$
- $\lambda(\mu \mathbf{a}) = (\lambda \mu)\mathbf{a}$
- $1 \mathbf{a} = \mathbf{a}$

### Exemples d'Espaces Vectoriels

- L'ensemble de tous les $n$-uplets de nombres réels $\mathbb{R}^n$ avec une addition élément par élément et une multiplication par des scalaires réels.
- L'ensemble de tous les polynômes de degré $n$ avec des coefficients réels
$$f(x) = a_0 + a_1 x + a_2 x^2 + \cdots + a_n x^n$$
est un espace vectoriel. Le polynôme $f$ peut être représenté par
$$
\begin{pmatrix}
a_0\\
a_1\\
a_2\\
\vdots\\
a_n
\end{pmatrix}
$$
- L'ensemble de toutes les fonctions $f : \mathcal{X} \rightarrow \mathbb{R}$ pour n'importe quel ensemble fini $\mathcal{X}$.

### Limitations de l'Intuition des Tableaux
_Cette section est facultative. Si elle est confuse, ignorez-la.
Elle est présente uniquement pour vous informer que,
bien que la compréhension intuitive des vecteurs que nous utilisons soit utile,
elle a ses limites._

La définition d'un vecteur comme un tableau de nombres en colonne est suffisante pour la plupart de l'apprentissage automatique moderne.
L'intuition géométrique en tant que flèche depuis l'origine est également utile.
En effet, ces notions sont probablement ce que beaucoup de scientifiques ont à l'esprit lorsqu'ils pensent au mot « vecteur ».

>Cependant, la définition mathématique d'un vecteur permet d'avoir
des vecteurs qui _ne peuvent pas_ être écrits comme des tableaux de nombres en colonne.
Un espace vectoriel dans lequel chaque vecteur peut être représenté comme un tableau de nombres en colonne est appelé un _espace vectoriel de dimension finie_.
Un espace vectoriel où cela n'est pas possible est appelé un
_espace vectoriel de dimension infinie_.

Nous n'aborderons pas les espaces vectoriels de dimension infinie dans cette séance pratique car ils nécessitent
des mathématiques plus avancées, mais ils sont d'une importance fondamentale en mathématiques, en physique et même en apprentissage automatique.
En particulier, une compréhension adéquate des méthodes de noyau nécessite
de rencontrer ces vecteurs. Un exemple d'un espace vectoriel de dimension infinie
est l'ensemble de toutes les fonctions
$f : \mathcal{X} \rightarrow \mathbb{R}$ pour un ensemble infini $\mathcal{X}$.

Mis à part l'exemple que nous venons de donner, tous les espaces vectoriels
dans cette séance pratique seront de dimension finie.

### Exercices

_Ces exercices se concentrent sur la compréhension de la définition mathématique d'un espace vectoriel. Ils vous aideront à mieux comprendre à long terme, mais n'hésitez pas à les ignorer pour le moment si vous le souhaitez._

1. Convainquez-vous que l'intuition computationnelle des vecteurs en tant qu'ensembles de nombres réels est un espace vectoriel en utilisant la définition ci-dessus.
   - Indication : vérifiez que les règles que nous avons données pour l'addition, la soustraction et la multiplication scalaire des ensembles satisfont toutes les règles de la définition d'un espace vectoriel.

2. Vérifiez que l'ensemble de tous les polynômes de degré $n$ avec des coefficients réels est un espace vectoriel.
   - Indication : Montrez que la représentation d'un polynôme sous forme d'ensemble donnée dans les exemples ci-dessus est une correspondance bijective, c'est-à-dire que chaque polynôme de degré $n$ a exactement une représentation sous forme d'ensemble et que chaque représentation sous forme d'ensemble correspond à un polynôme. Ensuite, appliquez l'exercice 1.

3. Démontrez que $0 \mathbf{a} = \mathbf{0}$ pour n'importe quel vecteur $\mathbf{a}$.

4. Utilisez les règles de l'espace vectoriel pour prouver que $(-1) \mathbf{a} = \mathbf{-a}$.
   - Indication : Prouvez que la multiplication de $\mathbf{a}$ par le scalaire $-1$ donne le vecteur $\mathbf{b}$ tel que $\mathbf{a} + \mathbf{b} = 0$ et montrez qu'il n'existe qu'un tel $\mathbf{b}$.

5. Utilisez les axiomes ci-dessus pour prouver que $\lambda \mathbf{0} = \mathbf{0}$ pour tous les
$\lambda \in \mathbf{R}$.

### Solution

3. Nous avons
$$
0\mathbf{a} + 0\mathbf{a} = (0+0) \mathbf{a} = 0\mathbf{a}
$$
donc en soustrayant $0\mathbf{a}$ des deux côtés, nous obtenons
$$
0\mathbf{a} = \mathbf{0}
$$

4. Aux fins de cet exercice, nous dirons que tout vecteur $\mathbf{b}$ qui satisfait
$$
\mathbf{a} + \mathbf{b} = 0
$$
est un _inverse de $\mathbf{a}$_. Nous montrerons d'abord que les inverses sont uniques. Supposons que $\mathbf{c}$ soit un autre inverse de $\mathbf{a}$, de sorte que
$$
\mathbf{a} + \mathbf{c} = 0
$$
En soustrayant les équations, nous obtenons
$$
\mathbf{b} - \mathbf{c} = 0
$$
donc $\mathbf{b} = \mathbf{c}$ et les inverses sont uniques. Maintenant, nous montrerons que $(-1)\mathbf{a}$ est un inverse de $\mathbf{a}$, et l'unicité des inverses impliquera que $(-1) \mathbf{a}= \mathbf{-a}$.
Cela se fait en:
$$
\mathbf{a} + (-1) \times \mathbf{a} = (1 + (- 1))\mathbf{a} = \mathbf{0}
$$
et la preuve est terminée.

5. Cela ressemble à l'exercice 3. Nous avons
$$
\lambda \mathbf{0}
=\lambda (\mathbf{0} + \mathbf{0}) = \lambda \mathbf{0} + \lambda \mathbf{0}
$$
puis soustrayez $\lambda \mathbf{0}$ des deux côtés.

### Ressources Recommandées

- [Livre Mathematics for Machine Learning](https://mml-book.github.io/book/mml-book.pdf) Le chapitre 1 offre une excellente introduction à ces perspectives également.
- [Leçon 3Blue1Brown sur les Vecteurs](https://www.3blue1brown.com/lessons/vectors) est utile pour développer l'intuition.
- [Vidéo 3Blue1Brown sur les Espaces Vectoriels Abstraits](https://www.3blue1brown.com/lessons/abstract-vector-spaces) pour une perspective plus mathématique de l'intuition.
- Chapitre 2 du cours de Cambridge [Vectors and Matrices](https://dec41.user.srcf.net/notes/IA_M/vectors_and_matrices.pdf) pour des lectures plus avancées sur les bases.
- Chapitre 1 du cours de Cambridge [Linear Algebra](https://dec41.user.srcf.net/notes/IB_M/linear_algebra.pdf) pour une perspective plus mathématique.

### Fondamentaux des Matrices

### Les Matrices en tant que Tableaux Informatiques

Une matrice réelle $m\times n$ est simplement un tableau $(m\times n)$-dimensionnel de nombres réels
$$
\begin{pmatrix}
  a_{11} & a_{12} & \dots \\
  \vdots & \ddots & \\
  a_{m1} &        & a_{mn}
\end{pmatrix}
$$

L'ensemble de toutes les matrices réelles $m\times n$ est souvent écrit $\mathbb{R}^{m\times n}$ ou $\text{Mat}_{m\times n}(\mathbb{R})$. Pour le reste de cette séance pratique, nous dirons simplement "matrice" au lieu de "matrice réelle".
Elle est appelée une matrice $m\times n$ car le tableau a $m$ lignes et $n$ colonnes.

> <font color='grey'>`Note`</font> Dans certains manuels, cela est appelé une matrice $n\times m$ ce qui signifie qu'elle a $n$ lignes et $m$ colonnes. Cela peut parfois être déroutant, en particulier pour les <font color='green'>`débutants`</font>. Il est donc important de comprendre ce que le symbole représente exactement dans le contexte donné en consultant la définition fournie par l'auteur. Bien, revenons au tutoriel.

Nous appelons le nombre $a_{ij}$ _le composant $(i, j)$ de la matrice_. La matrice ci-dessus a des _composants_ $a_{ij}$ pour $i=1, \dots, m$ et $j=1, \dots, n$.
Nous écrivons les matrices en majuscules en gras,
par exemple
$$
\mathbf{A}
=
\begin{pmatrix}
  1 & 3 \\
  2 & 4 \\
\end{pmatrix}
$$
Les composants de n'importe quelle matrice $\mathbf{A}$ sont souvent écrits $\mathbf{A}_{ij}$.

Une tranche horizontale complète (-) d'entrées d'une matrice est appelée une _ligne_, tandis qu'une tranche verticale complète (|) est appelée une _colonne_.
Nous appelons une matrice de dimension $(1\times n)$ un _vecteur ligne_ et
une matrice de dimension $(n\times 1)$ un _vecteur colonne_.
Une matrice de dimension $(n\times n)$ est une _matrice carrée_ (car le tableau de nombres forme un carré). Par exemple, la matrice ($\mathbf{A}$) ci-dessus a 2 lignes et 2 colonnes. Sa première ligne a des composants $[1, 3]$, et sa deuxième colonne a des composants $[3, 4]$.

Les matrices sont une méthode très courante de représentation des données en apprentissage automatique et en statistiques.
Très souvent, on doit représenter les caractéristiques de chaque exemple d'entraînement
par un vecteur.
Supposons que nous ayons $m$ exemples, chacun ayant $n$ caractéristiques, donc pour chaque exemple, nous avons un vecteur de longueur $n$.
Ces vecteurs peuvent être empilés en lignes dans une matrice $m\times n$ appelée
_matrice de conception_. Nous verrons cela plus tard dans l'exemple de la régression linéaire.

Les matrices peuvent être additionnées et soustraites élément par élément, tout comme les vecteurs, tant que les matrices ont les mêmes dimensions
$$
\begin{pmatrix}
  1 & 3 \\
  2 & 4 \\
  6 & 8 \\
\end{pmatrix}
+
\begin{pmatrix}
  8 & -2 \\
  2 & 0.5 \\
  -3 & 0 \\
\end{pmatrix}
=
\begin{pmatrix}
  9 & 1 \\
  4 & 4.5 \\
  3 & 8 \\
\end{pmatrix}
$$
et elles peuvent également être multipliées par des scalaires réels
$$
3 \times \begin{pmatrix}
  1 & 3 \\
  2 & 4 \\
\end{pmatrix}
=
\begin{pmatrix}
  3 & 9 \\
  6 & 12 \\
\end{pmatrix}
$$

En composantes, si $\mathbf{A}$ et $\mathbf{B}$ sont toutes deux des matrices $m\times n$
alors $\mathbf{A}+\mathbf{B}$ est une matrice $m\times n$ avec
$$
(\mathbf{A}+\mathbf{B})_{ij}
=
\mathbf{A}_{ij} +\mathbf{B}_{ij}
$$
et pour tout scalaire $\lambda \in \mathbb{R}$, $\lambda \mathbf{A}$ est une matrice
$m\times n$ avec des composants
$$
(\lambda \mathbf{A})_{ij}
= \lambda \times \mathbf{A}_{ij}
$$

### Les Matrices dans Jax

Les matrices peuvent être représentées à l'aide d'arrays `jax`, tout comme les vecteurs.

In [None]:
jnp.array([[1, 3], [2, 4], [6, 8]])

### Exercice


- Soit
$$
\mathbf{A} =
\begin{pmatrix}
  1 & 3 \\
  2 & 4 \\
\end{pmatrix}
\quad\text{ et }\quad
\mathbf{B} =
\begin{pmatrix}
  8 & -2 \\
  2 & 0.5 \\
\end{pmatrix}
$$
Utilisez `jax` pour calculer $2\mathbf{A} - \mathbf{B}$.

In [None]:
# Place your answer here

- (Optionnel, plus mathématique) : Montrez que l'ensemble de toutes les matrices réelles $m\times n$ est un espace vectoriel selon la définition mathématique.

> Bloc indenté

### Multiplication des matrices

##### Multiplication Matrice-Matrice

La multiplication des matrices est définie comme suit.
Soit $\mathbf{A}$ une matrice $m\times k$ et $\mathbf{B}$ une matrice $k\times n$, la multiplication de $\mathbf{B}$ par $\mathbf{A}$ par la gauche produit
une matrice $\mathbf{C}$ de dimensions $m\times n$
$$
\mathbf{C} = \mathbf{A}\mathbf{B}
$$
qui a des composants
$$
\mathbf{C}_{ij} = \sum_{l=1}^k \mathbf{A}_{il}\mathbf{B}_{lj}
$$

Voici un exemple
$$
\begin{pmatrix}
0 & 1 & 2 & 3 \\
4 & 5 & 6 & 7 \\
\end{pmatrix}
\begin{pmatrix}
1 & 1 & 1  \\
0 & 1 & 1  \\
0 & 0 & 1  \\
1 & 0 & 1  \\
\end{pmatrix}
=
\begin{pmatrix}
(0\times1) + (1\times0) + (2\times0) + (3\times1) & ... & ... \\
(4\times1) + (5\times0) + (6\times0) + (7\times1) & ... & ...
\end{pmatrix}
=
\begin{pmatrix}
3 & 1 & 6 \\
11 & 9 & 22
\end{pmatrix}
$$

La multiplication n'est définie que lorsque les dimensions adjacentes des deux matrices correspondent.
Le cas ci-dessus est valide car la deuxième dimension de $\mathbf{A}$ est $k$, tout comme la première dimension de $\mathbf{B}$.

>Même si nous pouvons multiplier les matrices $\mathbf{A}\mathbf{B}$, le produit $\mathbf{B}\mathbf{A}$ _n'est pas défini (c'est-à-dire impossible) sauf si $m=n$_. Plus de détails à ce sujet dans la sous-section "Matrices Commutatives" ci-dessous.

Notez également que la dimension de la matrice résultante n'est pas nécessairement la même que la dimension de l'un des arguments.

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-zPXr2BVQaeIMGXkD9QURdyLS8BCDsP6Yx4L0KgiRh05tKsiOTJ6DmDmDhZiZnDJS0KlCHKTQ0mfUM7Mn88RdILeFIMDw=s2560"
width="30%"  class="center"/>

Les images suivantes peuvent vous être utiles pour la visualisation.
Si vous n'avez jamais vu la multiplication de matrices auparavant, cela deviendra rapidement
facile une fois que vous aurez pratiqué quelques exemples.

<img src="
https://lh3.googleusercontent.com/drive-viewer/AITFw-ykpJ8ShB0EfJeuzB9xqZsmzSEAZUbPbAFfTvcctojVcRgssi1wYHMvjLL2qyMBU_l2qPtxs3XMQEEf6C312kVgX2Hd=s2560"
width="50%"  class="center"/>

<img src=
"https://assets.tivadardanka.com/2022_matrix_multiplication_def_01_1b4c6d7211.png
"
width="75%"  class="center"/>

##### Multiplication de matrices dans `jax`

La multiplication de matrices peut être calculée en utilisant `jnp.matmul` ou l'opérateur binaire `@`.

In [None]:
A = jnp.array([[1, 2], [3, 4]])
B = jnp.array([[5, 6], [7, 8]])
jnp.matmul(A, B)



Array([[19, 22],
       [43, 50]], dtype=int32)

In [None]:
A @ B

Array([[19, 22],
       [43, 50]], dtype=int32)

##### Propriétés Algébriques

**Note**

Le symbole `@` a une autre utilisation (complètement différente !) en Python, qui concerne les _décorateurs_.
Ne vous en préoccupez pas dans cette pratique, mais il est bon de le savoir pour éviter toute confusion.

La multiplication de matrices est toujours _associative_. Cela signifie que, tant que les dimensions sont appropriées,
$$
(\mathbf{AB})\mathbf{C}
=
\mathbf{A}(\mathbf{BC})
$$
Elle est également _distributive_, ce qui signifie que (encore une fois, en supposant que les dimensions sont appropriées)
$$
\mathbf{A}(\mathbf{B} +\mathbf{C})
=
\mathbf{A}\mathbf{B}
+
\mathbf{A}\mathbf{C}
$$
et
$$
(\mathbf{A} + \mathbf{B})\mathbf{C}
=
\mathbf{A}\mathbf{C}
+
\mathbf{B}\mathbf{C}
$$

Cependant, elle **n'est pas** toujours _commutative_, ce qui signifie que $\mathbf{AB}\ne\mathbf{BA}$ en général, même si les deux expressions sont bien définies. Plus à ce sujet plus tard.

##### Exercices

- Soit
$$
\mathbf{A} =
\begin{pmatrix}
1 & 2 & 3\\
3 & 2 & 1
\end{pmatrix}
\quad \text{ et } \quad
\mathbf{B} =
\begin{pmatrix}
1 & 2 \\
3 & 2 \\
4 & 5
\end{pmatrix}
$$
  - $\mathbf{AB}$ est-il défini ? Si oui, calculez-le. Sinon, expliquez pourquoi.
  - $\mathbf{BA}$ est-il défini ? Si oui, calculez-le. Sinon, expliquez pourquoi.

- Soit
$$
\mathbf{A} =
\begin{pmatrix}
1 & 2\\
3 & 2
\end{pmatrix}
\quad \text{ et } \quad
\mathbf{B} =
\begin{pmatrix}
0 & 1 \\
1 & 0
\end{pmatrix}
$$
  - $\mathbf{AB}$ est-il défini ? Si oui, calculez-le. Sinon, expliquez pourquoi.
  - $\mathbf{BA}$ est-il défini ? Si oui, calculez-le. Sinon, expliquez pourquoi.

- Utilisez `jax` pour vérifier les calculs que vous avez effectués.

In [None]:
# Placez votre code ici

#### Multiplication Matrice-Vecteur

Vous avez peut-être remarqué que les vecteurs que nous avons définis précédemment comme des tableaux de nombres verticaux sont simplement un cas particulier des matrices. En particulier, un vecteur de longueur $n$ est simplement une matrice $n\times 1$.

Cela signifie que nous avons automatiquement une formule pour multiplier des vecteurs par des matrices.
Encore une fois, il est important que les dimensions voisines correspondent.

Soit $\mathbf{v}$ un vecteur de longueur $n$ et $\mathbf{A}$ une matrice $m\times n$.
En multipliant $\mathbf{v}$ par $\mathbf{A}$, on obtient un vecteur de longueur $m$
$$
\mathbf{u} = \mathbf{Av}
$$
où $\mathbf{u}$ a des composantes
$$
\mathbf{u}_i = \sum_{j=1}^n\mathbf{A}_{ij}\mathbf{v}_j
$$
Cette opération n'est valide que lorsque la deuxième dimension de $\mathbf{A}$ (dans ce cas $n$) est égale à la longueur du vecteur.
En d'autres termes, le nombre de colonnes dans la matrice $\mathbf{A}$ doit correspondre au nombre de lignes dans le vecteur $\mathbf{v}$.

##### Matrice-Vecteur en Jax

La multiplication matrice-vecteur est réalisée de la même manière en utilisant `jax` que la multiplication matrice-matrice.

In [None]:
A = jnp.array([[1, 2, 3], [4, 5, 6]])
b = jnp.array([1, 2, 3])
jnp.matmul(A, b)

Array([14, 32], dtype=int32)

In [None]:
A @ b

Array([14, 32], dtype=int32)

##### Exercice

Pour quelles combinaisons de matrice-vecteur parmi les suivantes l'expression
$
\mathbf{Ab}
$
est-elle valide ? Si ce n'est pas le cas, pourquoi ? Si c'est le cas, calculez le résultat et utilisez `jax` pour vérifier votre réponse.
- $$
\mathbf{A}
= \begin{pmatrix}
1 & 2 \\
3 & 4 \\
5 & 6
\end{pmatrix}
\quad\text{ et }\quad
\mathbf{b}
= \begin{pmatrix}
9\\8\\7
\end{pmatrix}
$$
- $$
\mathbf{A}
= \begin{pmatrix}
1 & 0 & 1\\
0 & 1 & 0 \\
1 & 0 & 1\\
\end{pmatrix}
\quad\text{ et }\quad
\mathbf{b}
= \begin{pmatrix}
3\\ 50 \\6
\end{pmatrix}
$$

In [None]:
# Placez votre code ici

#### Multiplication Élément par Élément de Matrices

Une opération alternative de multiplication entre matrices
(ou tableaux en général)
est la _multiplication élément par élément_. Ne la confondez pas avec la multiplication de matrices !

La multiplication élément par élément de matrices est très simple. Prenez deux matrices de mêmes dimensions et créez une nouvelle matrice en multipliant les éléments correspondants.
Si $\mathbf{A}$ et $\mathbf{B}$ sont deux matrices $m\times n$
alors le produit élément par élément est défini par
$$
\mathbf{C} = \mathbf{A} \odot \mathbf{B}
$$
où $\mathbf{C}$ est une matrice $m\times n$ avec des composantes
$$
\mathbf{C}_{ij} = \mathbf{A}_{ij}\mathbf{B}_{ij}
$$

Notez que, contrairement à la multiplication de matrices, la multiplication élément par élément
nécessite que _les deux_ dimensions des matrices correspondent, pas seulement les dimensions voisines.

La multiplication élément par élément est utilisée en apprentissage automatique,
comme lors de l'application d'un masque sur les poids d'un réseau neuronal
dans [l'article sur l'hypothèse du ticket de loterie](https://arxiv.org/abs/1803.03635),
mais elle est généralement moins courante dans les sciences que la multiplication de matrices.
Nous ne la mentionnons ici que pour souligner la différence par rapport à la multiplication de matrices.

##### La multiplication élément par élément de tableaux peut être réalisée en python en utilisant l'opérateur `*`.

Par exemple,

In [None]:
A = jnp.array([[1,  2], [3, 4]])
B = 2 * jnp.ones((2, 2)) # look this function up if you don't know it!
B

Array([[2., 2.],
       [2., 2.]], dtype=float32)

In [None]:
A * B

Array([[2., 4.],
       [6., 8.]], dtype=float32)

Notez que ceci est différent de la multiplication matricielle.

In [None]:
jnp.matmul(A, B)

Array([[ 6.,  6.],
       [14., 14.]], dtype=float32)

##### Exercice

- La multiplication élément-par-élément des matrices est-elle commutative ? Autrement dit, est-il vrai que
$$
\mathbf{A}\odot\mathbf{B} = \mathbf{B}\odot\mathbf{A}
$$
pour toutes les matrices $\mathbf{A}$ et $\mathbf{B}$ de dimensions $m\times n$ ? Justifiez votre réponse.

### Commutativité des matrices

Les matrices carrées sont celles dont les dimensions sont de la forme $n\times n$ (elles forment donc un tableau carré).
Si $\mathbf{A}$ et $\mathbf{B}$ sont toutes deux des matrices carrées de dimensions $n\times n$, alors les produits $\mathbf{AB}$ et $\mathbf{BA}$ sont toujours définis.

Cependant, et c'est un point important, ils ne sont pas toujours égaux !
Cela est très différent de la multiplication de nombres réels !

Si $\mathbf{A}$ et $\mathbf{B}$ sont toutes deux des matrices carrées de dimensions $n\times n$ telles que
$$
\mathbf{AB} = \mathbf{BA}
$$
alors nous disons que $\mathbf{A}$ et $\mathbf{B}$ _commutent_.
(Cela ne se produit pas toujours !)

Les matrices qui commutent ont des propriétés importantes les unes par rapport aux autres, mais cela dépasse le cadre de ce didacticiel.
Si vous êtes intéressé : consultez [la page Wikipédia sur les matrices commutatives](https://en.wikipedia.org/wiki/Commuting_matrices), demandez à un enseignant ou consultez l'une des ressources de lecture complémentaires.

### Exercice

- Soit
$$
\mathbf{A} =
\begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
\quad \text{ et } \quad
\mathbf{B} =
\begin{pmatrix}
0 & 1 \\
1 & 0 \\
\end{pmatrix}
$$
  - Est-ce que $\mathbf{A}$ et $\mathbf{B}$ commutent ?
  - Vérifiez vos calculs à l'aide de `jax`.

- Soient $a, b, c, d \in \mathbb{R}$ des nombres réels arbitraires et définissons
$$
\mathbf{A} =
\begin{pmatrix}
a & b \\
c & d
\end{pmatrix}
\quad \text{ et } \quad
\mathbf{I} =
\begin{pmatrix}
1 & 0 \\
0 & 1 \\
\end{pmatrix}
$$
Prouvez que $\mathbf{A}$ et $\mathbf{B}$ commutent.

In [None]:
# Place any code here

### La Matrice Identité

La _matrice identité_ est la matrice $n \times n$ $\mathbf{I}$ avec des composantes

$$
I_{ij}
= \begin{cases}
  0 \quad \text{si } \; i \ne j \\
  1 \quad \text{si } \; i = j
  \end{cases}
$$

Sous forme de tableau, cela ressemble à

$$
\mathbf{I}
=
\begin{pmatrix}
1 & 0 & 0 & \cdots & 0 \\
0 & 1 & 0 & \cdots & 0 \\
0 & 0 & 1 & \cdots & 0 \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
0 & 0 & 0 & \cdots & 1 \end{pmatrix}
$$

Parfois, vous verrez $\mathbf{I}_n$ lorsque l'auteur souhaite souligner que c'est la matrice identité de taille $n \times n$. Par exemple, $\mathbf{I}_2$ serait

$$
\mathbf{I}_2 =
\begin{pmatrix}
1 & 0 \\
0 & 1 \\
\end{pmatrix}
$$

Cependant, la dimension est souvent claire dans le contexte, donc nous ne l'écrirons pas sauf si nécessaire.

Qu'est-ce qui est spécial à propos de la matrice identité ? C'est dans le nom : lorsque vous multipliez par l'identité, rien ne se passe. En particulier, si $\mathbf{A}$ est une matrice carrée $n \times n$ et $\mathbf{I}$ est la matrice identité $n \times n$, alors

$$
\mathbf{IA} = \mathbf{AI} = \mathbf{A}
$$

et $\mathbf{I}$ est la _seule_ matrice ayant cette propriété. Notez que cela signifie également que la matrice identité commute avec toutes les matrices ayant les mêmes dimensions.

La matrice identité $n \times n$ peut être obtenue dans `jax` en utilisant `jnp.eye(n)`. Par exemple, avec $n = 3$.

In [None]:
jnp.eye(3)

#### Exercice
- Choisissez une matrice carrée $\mathbf{A}$ et utilisez `jax` pour vérifier que la matrice identité (de la dimension appropriée) satisfait
$$
\mathbf{IA} = \mathbf{AI} = \mathbf{A}
$$

In [None]:
# Place code here

### Inverse d'une Matrice

#### Qu'est-ce que l'Inverse d'une Matrice ?
Nous avons couvert l'addition et la soustraction de matrices ainsi que la multiplication de matrices. Existe-t-il une opération de division de matrices ?
La réponse est oui, mais ce n'est pas toujours possible.

Étant donné une matrice carrée $\mathbf{A}$ de dimension $n \times n$, nous disons que $\mathbf{A}$ est _inversible_ ou _non singulière_ s'il existe une matrice $\mathbf{A}^{-1}$ de même dimension $n \times n$ telle que la multiplication par $\mathbf{A}$ donne la matrice identité $n \times n$. Autrement dit,
$$
\mathbf{A}^{-1}\mathbf{A} =
\mathbf{A}\mathbf{A}^{-1} = \mathbf{I}
$$
Si une telle matrice $\mathbf{A}^{-1}$ existe, alors nous l'appelons l'inverse de la matrice $\mathbf{A}$. Toutes les matrices n'ont pas un inverse, mais lorsqu'un inverse existe, il est unique.

#### Quand l'Inverse Existe-t-il ?
Il est important de noter que _toutes les matrices n'ont pas d'inverse_.
Par exemple, il n'existe pas de matrice $2 \times 2$ $\mathbf{B}$ telle que
$$
\mathbf{B}
\begin{pmatrix}
0 & 0 \\
0 & 0
\end{pmatrix}
=
\begin{pmatrix}
1 & 0 \\
0 & 1
\end{pmatrix}
$$
(Pouvez-vous voir pourquoi ?)
Lorsqu'une matrice n'a pas d'inverse, on dit qu'elle est _non inversible_ ou _singulière_.

Lorsque l'inverse d'une matrice existe, cela nous permet de résoudre certaines équations matricielles. Par exemple, si $\mathbf{A}$ est inversible, alors
$$
\mathbf{C} = \mathbf{AB}
\quad\implies\quad
\mathbf{B} = \mathbf{A}^{-1}\mathbf{C}
$$
De même, si $\mathbf{b}$ et $\mathbf{c}$ sont des vecteurs de longueur $n$ et que $\mathbf{A}$ est inversible, alors
$$
\mathbf{c} = \mathbf{Ab}
\quad\implies\quad
\mathbf{b} = \mathbf{A}^{-1}\mathbf{c}
$$

Il existe de nombreuses façons équivalentes de vérifier si une matrice est inversible. Par exemple, consultez [la page wiki sur les matrices inversibles](https://en.wikipedia.org/wiki/Invertible_matrix#The_invertible_matrix_theorem). Parfois, vous pouvez même le voir par simple inspection, comme avec la matrice de tous les zéros ci-dessus.
Une méthode importante consiste à vérifier le _déterminant_ de la matrice, qui est une quantité scalaire associée à une matrice carrée. Une matrice est inversible si et seulement si son déterminant est différent de zéro. Nous aborderons le déterminant plus tard dans ce tutoriel.

#### Propriétés Algébriques
Soient $\mathbf{A}$ et $\mathbf{B}$ des matrices carrées inversibles $n \times n$. Alors, la matrice $\mathbf{AB}$ est inversible avec pour inverse
$$
(\mathbf{AB})^{-1} = \mathbf{B}^{-1}\mathbf{A}^{-1}
$$
En général, même si les deux côtés existent,
$$
(\mathbf{A} + \mathbf{B})^{-1} \ne \mathbf{A}^{-1} + \mathbf{B}^{-1}
$$
Cela peut sembler un peu décevant, mais nous ne sommes pas complètement démunis. Un cas particulier de l'identité matricielle de Woodbury est
$$
(\mathbf{A} + \mathbf{B})^{-1}
=
\mathbf{A}^{-1} - \mathbf{A}^{-1}(\mathbf{A}^{-1}
+ \mathbf{B}^{-1})^{-1}\mathbf{A}^{-1}
=
\mathbf{A}^{-1} - (\mathbf{A} + \mathbf{A}\mathbf{B}^{-1}\mathbf{A})^{-1}
$$
qui est valable tant que les inverses pertinents existent.

#### Exercices
- La matrice suivante est-elle inversible ?
  $$
\begin{pmatrix}
0 & 0 \\
0 & 1
\end{pmatrix}
$$
- La matrice identité $n \times n$ est-elle inversible ? Si oui, quel est son inverse ?
- (Optionnel) Démontrez que les inverses de matrices sont uniques. Autrement dit, prouvez que pour toute matrice $\mathbf{A}$ de taille $n \times n$, il existe au plus une matrice $\mathbf{A}^{-1}$ telle que
$$
\mathbf{A}^{-1}\mathbf{A} =
\mathbf{A}\mathbf{A}^{-1} = \mathbf{I}
$$
- (Optionnel) Trouvez un contre-exemple (où les deux côtés de l'équation existent) à
$(\mathbf{A} + \mathbf{B})^{-1}
=
\mathbf{A}^{-1} + \mathbf{B}^{-1}$.

#### Calcul de l'Inverse

Calculer l'inverse d'une matrice est intensif en termes de calcul (voir [ici](https://en.wikipedia.org/wiki/Computational_complexity_of_mathematical_operations#Matrix_algebra)).
Il existe des formules pour calculer les inverses à la main, mais le faire est fastidieux même pour les matrices de $3 \times 3$, et cela devient bien pire lorsque les dimensions augmentent.
La formule pour l'inverse d'une matrice $2 \times 2$ est relativement simple, mais elle ne vous mènera pas loin en apprentissage automatique. Nous la donnons ici au cas où vous ne l'auriez jamais vue.

Si
$$
\mathbf{A}
=
\begin{pmatrix}
a & b\\
c & d
\end{pmatrix}
$$
avec $ad - bc \neq 0$, alors
$$
\mathbf{A}^{-1}
=
\frac{1}{ad - bc}
\begin{pmatrix}
d & -b\\
-c & a
\end{pmatrix}
$$

#### Exercice (Optionnel)
- Vérifiez que la formule ci-dessus donne $\mathbf{A}^{-1}\mathbf{A} = \mathbf{I}$.
- Calculez l'inverse de
$$
\mathbf{A} = \begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
$$

#### Calcul de l'inverse à l'aide de `jax`
Comme la plupart des bibliothèques d'algèbre linéaire, `jax` offre une manière de calculer les inverses de matrices.

In [None]:
A = jnp.array([[1, 3], [2, 4]])
jnp.linalg.inv(A)

Cependant, cela peut être numériquement instable pour les matrices de grande taille. De plus, ce que l'on veut souvent à la fin n'est pas $\mathbf{A}^{-1}$, mais en réalité $\mathbf{A}^{-1} \mathbf{b}$ pour un vecteur $\mathbf{b}$. Par exemple, nous pourrions vouloir résoudre l'équation

$$
\mathbf{b} = \mathbf{A}\mathbf{c}
$$

pour $\mathbf{c}$. Dans ces cas, il est bien meilleur (à la fois plus stable et plus rapide) d'utiliser `jnp.linalg.solve` plutôt que de calculer l'inverse et effectuer la multiplication. Notez que cette fonction suppose que $\mathbf{A}$ est inversible. Pour une application simple à la résolution de systèmes d'équations linéaires, consultez la section 2.1 du [Livre de mathématiques pour l'apprentissage automatique](https://mml-book.github.io/book/mml-book.pdf).

In [None]:
A = jnp.array([[1, 3], [2, 4]])
b = jnp.array([1, 1])
c = jnp.linalg.inv(A) @ b # bad way
c = jnp.linalg.solve(A, b) # good way

Nous pouvons faire une comparaison sommaire pour évaluer la différence de vitesse.

In [None]:
# générer des données aléatoires
rng = np.random.RandomState(seed=0)
A = jnp.eye(100) + 0.01 * jnp.array(rng.randn(100, 100))
b = jnp.array(rng.randn(100))

# vérifier si la matrice générée A est inversible (c'est-à-dire que son déterminant n'est pas nul)
# il est également intéressant de s'assurer qu'il n'est pas trop proche de 0 lors de ce test pour des raisons de stabilité
print(jnp.linalg.det(A))

In [None]:
%%timeit
c1 = jnp.linalg.inv(A) @ b

In [None]:
%%timeit
c2 = jnp.linalg.solve(A, b)

In [None]:
# Vérifiez si rien n'a été cassé et si les résultats sont les mêmes (dans une tolérance numérique) :
c1 = jnp.linalg.inv(A) @ b
c2 = jnp.linalg.solve(A, b)
assert all(np.isfinite(c1))
assert np.allclose(c1, c2)

#### Exercice

Soit
$$
\mathbf{A} =
\begin{pmatrix}
1 & 2 & 3 & 4 \\
4 & 3 & 2 & 1 \\
5 & 0 & 0 & 8 \\
8 & 1 & 1 & 5
\end{pmatrix}
\quad\text{ et }\quad
\mathbf{b} =
\begin{pmatrix}
1 \\ 0 \\ 0 \\ 1
\end{pmatrix}
$$
Utilisez `jax` pour résoudre
$$
\mathbf{Ac} = \mathbf{b}
$$
pour $\mathbf{c}$.

In [None]:
A = jnp.array([
    [1, 2, 3, 4],
    [4, 3, 2, 1],
    [5, 0, 0, 8],
    [8, 1, 1, 5],
  ])
b = jnp.array([1, 0, 0, 1])

# Put your code here

### La Transposée

Une opération importante sur les matrices est la _transposée_.
Si vous ne l'avez pas encore rencontrée, la transposée d'une matrice vous semblera probablement une opération inhabituelle et arbitraire, sans beaucoup d'intuition derrière elle. Cependant, elle a une signification profonde en mathématiques (liée aux espaces duaux, que nous n'aborderons pas ici) et aussi une interprétation géométrique (liée aux produits intérieurs, que nous aborderons plus tard). Indépendamment de sa signification plus profonde, la transposée se produit régulièrement, il est donc important de savoir comment la calculer.

#### Calcul de la transposée

Soit $\mathbf{A}$ une matrice de dimensions $m \times n$. Alors, la transposée de $\mathbf{A}$, notée $\mathbf{A}^\top$, est la matrice de dimensions $n \times m$ obtenue en utilisant les colonnes de $\mathbf{A}$ comme lignes à la place. La première colonne de $\mathbf{A}$ devient la première ligne de $\mathbf{A}^\top$, la deuxième colonne de $\mathbf{A}$ devient la deuxième ligne de $\mathbf{A}^\top$, et ainsi de suite.

Quelques exemples :
- $$
\mathbf{A} =
\begin{pmatrix}
1 & 2 \\
3 & 4 \\
5 & 6
\end{pmatrix}
\quad\implies\quad
\mathbf{A}^\top =
\begin{pmatrix}
1 & 3 & 5 \\
2 & 4 & 6
\end{pmatrix}
$$

- $$
\mathbf{A} =
\begin{pmatrix}
1 & 2 \\
3 & 4
\end{pmatrix}
\quad\implies\quad
\mathbf{A}^\top =
\begin{pmatrix}
1 & 3  \\
2 & 4
\end{pmatrix}
$$

- $$
\mathbf{A} =
\begin{pmatrix}
1 & -1 & 0 \\
-1 & 1 & -1 \\
0 & -1 & 1 \\
\end{pmatrix}
\quad\implies\quad
\mathbf{A}^\top =
\begin{pmatrix}
1 & -1 & 0 \\
-1 & 1 & -1 \\
0 & -1 & 1 \\
\end{pmatrix}
$$

Remarquez que la transposée d'une matrice non carrée est une matrice de forme différente, mais qu'une matrice carrée a autant de lignes que de colonnes, donc sa forme reste la même que celle de sa transposée.

La formule générale pour calculer la transposée d'une matrice est la suivante. Si $\mathbf{A}$ est une matrice $m \times n$ avec des composantes $\mathbf{A}_{ij}$, alors la transposée de $\mathbf{A}$ est la matrice $n \times m$ $\mathbf{B} = \mathbf{A}^\top$ avec des composantes $\mathbf{B}_{ij} = \mathbf{A}_{ji}$. Le changement d'ordre des indices représente l'échange des lignes avec les colonnes.

Si une matrice est égale à sa transposée, c'est-à-dire $\mathbf{A} = \mathbf{A}^\top$, alors on dit qu'elle est _symétrique_.

Une classe importante de matrices sont les _matrices orthogonales_, ce sont des matrices pour lesquelles $\mathbf{A}^\top = \mathbf{A}^{-1}$. Autrement dit, des matrices pour lesquelles la transposée est égale à l'inverse. Encore une fois, cela peut sembler arbitraire, mais cela a une signification algébrique et géométrique importante. Nous aborderons certains de ces aspects plus tard.

La transposée d'une matrice peut être calculée facilement dans `jax` en utilisant `A.T` ou `A.transpose()`.

In [None]:
A = jnp.array([[1, 2], [3, 4], [5, 6]])
A

In [None]:
A.T

In [None]:
A.transpose()

Calculez la transposée de la matrice
$$
\mathbf{A}
=
\begin{pmatrix}
1 & 0 \\
0 & 1 \\
-1 & -2
\end{pmatrix}
$$
et vérifiez le résultat avec `jax` ci-dessous.

In [None]:
A =  jnp.array([[1, 0], [0, 1], [-1, -2]])
# Place your code here

#### Propriétés algébriques

Tout comme pour l'inverse de la matrice, nous avons des règles pour manipuler les transposées de matrices qui sont utiles et faciles à prouver (essayez-le !).

Pour toutes matrices $\mathbf{A}$ et $\mathbf{B}$ de dimensions $m\times n$ :
- $(\mathbf{A}^\top)^\top = \mathbf{A}$
- $(\mathbf{A} + \mathbf{B})^\top = \mathbf{A}^\top + \mathbf{B}^\top$

Si $\mathbf{A}$ est une matrice $m\times n$ et $\mathbf{B}$ est une matrice $n\times k$, alors
$$
\mathbf{AB}^{\top} = \mathbf{B}^\top\mathbf{A}^\top
$$

Si $\mathbf{A}$ est une matrice carrée inversible, alors $\mathbf{A}^\top$ l'est également, et
$$
{(\mathbf{A}^\top)}^{-1}
=
{(\mathbf{A}^{-1})}^{\top}
$$

### Matrices en tant qu'applications linéaires

Jusqu'à présent, nous avons considéré les matrices comme des tableaux avec certaines opérations telles que les multiplications, les additions, les inversions et les transpositions. Cette vue computationnelle offre une littératie suffisante pour les utilisations de base en apprentissage automatique, et elle est même solide d'un point de vue mathématique. Cependant, elle manque d'intuition.

Une perspective alternative, plus géométrique, sur les matrices est qu'elles représentent des _transformations linéaires de vecteurs_. Soient $U$ et $V$ des espaces vectoriels, alors une fonction $f : U \to V$ est une _application linéaire_ si elle satisfait
$$
f(\lambda \mathbf{a} + \mu \mathbf{b})
= \lambda f(\mathbf{a}) + \mu f(\mathbf{b})
$$
pour tous les $\mathbf{a}, \mathbf{b} \in V$ et tous les $\lambda, \mu \in \mathbb{R}$.

Vous pouvez vérifier à partir de la formule que la multiplication matricielle est linéaire. En particulier, si $\mathbf{A}$ est une matrice $m \times k$ et $\mathbf{B}$ et $\mathbf{C}$ sont des matrices $k \times n$, alors
$$
\mathbf{A}(\lambda \mathbf{B} + \mu \mathbf{C})
= \lambda \mathbf{AB} + \mu \mathbf{AC}
$$
Cela vaut également pour les vecteurs $\mathbf{b}, \mathbf{c} \in \mathbb{R}^n$ (qui correspondent au cas $n=1$) :
$$
\mathbf{A}(\lambda \mathbf{b} + \mu \mathbf{c})
= \lambda \mathbf{Ab} + \mu \mathbf{Ac}
$$

L'ensemble des transformations linéaires est important car elles préservent la structure de l'espace vectoriel. Elles mappent les vecteurs en vecteurs (éventuellement dans un espace différent) sans perturber l'addition et la multiplication scalaire. Par exemple, une transformation linéaire appliquée à une somme est simplement la somme des transformations linéaires appliquées aux termes individuels.

Toute application linéaire $f : \mathbb{R}^n \to \mathbb{R}^n$ peut être représentée par une matrice $n \times n$. Ce fait peut être vérifié en considérant une _base_ de l'espace vectoriel $\mathbb{R}^n$, qui sera introduite plus tard. Par "représentée", nous entendons qu'il existe une matrice $\mathbf{A}$ telle que $f(\mathbf{v}) = \mathbf{A}\mathbf{v}$ pour tous les vecteurs $\mathbf{v} \in \mathbb{R}^n$. Pour être clair, c'est _une seule_ matrice $\mathbf{A}$ qui fonctionne pour _tous_ les vecteurs $\mathbf{v} \in \mathbb{R}^n$ simultanément. La fonction identité $f(\mathbf{v}) = \mathbf{v}$ est représentée par la matrice identité $\mathbf{I}$.

Suppose que la transformation linéaire $f$ est représentée par la multiplication par la matrice $\mathbf{A}$. Alors, $f$ est inversible (en tant que fonction) si et seulement si l'inverse matriciel $\mathbf{A}^{-1}$ existe. Lorsque $f$ est inversible, $f^{-1}$ est représentée par la matrice $\mathbf{A}^{-1}$.

Les transformations linéaires, par exemple de $\mathbb{R}^n$ à $\mathbb{R}^n$, ont une interprétation géométrique. Cela est plus facilement visualisé pour les transformations linéaires $\mathbb{R}^2 \to \mathbb{R}^2$, qui sont des transformations linéaires du plan 2D. Elles sont représentées par des matrices $2 \times 2$. Par exemple,
$$
\mathbf{R}_\theta
=
\begin{pmatrix}
\cos\theta & -\sin\theta \\
\sin\theta & \cos\theta
\end{pmatrix}
$$
effectue une rotation des points dans le sens des aiguilles d'une montre d'un angle $\theta$ autour de l'origine, tandis que
$$
\mathbf{P}
=
\begin{pmatrix}
1 & 0 \\
0 & 0
\end{pmatrix}
$$
projette les points sur l'axe des abscisses.

Ci-dessous, vous trouverez une animation d'une transformation linéaire de l'espace en 2D.

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-wsDUmp9EDNYWUacsbx7oTpHqe9xh6XcWSNGwP9CdX9VkMhO6zzgsv-sXv7zMTbElTzwLHMKAjSxUz5oKiTQC_RT0g7AQ=s1600"
width="60%" />

#### Exercices
- Montrez que pour tout espace vectoriel $V$, toute application linéaire $f : V \to V$ satisfait $f(\mathbf{0}) = \mathbf{0}$.
- Calculez $\mathbf{R}_\theta^\top$.
  - Comment cela se rapporte-t-il à $\mathbf{R}_{-\theta}$ ? En pensant géométriquement, quelle transformation représente $\mathbf{R}_\theta^\top \mathbf{R}_\theta$ ?
  - Argumentez (en essayant d'éviter de nouveaux calculs) que $\mathbf{R}_\theta$ est une matrice orthogonale.
  - Si vous le souhaitez, vous pouvez également vérifier directement que $\mathbf{R}_\theta$ est orthogonal.
- Calculez la matrice $2 \times 2$ donnant la transformation dans l'animation.
  - Astuce : À partir de l'animation, la transformation envoie
  $$
  \begin{pmatrix} 2\\2\end{pmatrix}
  \mapsto
  \begin{pmatrix} 6\\-2 \end{pmatrix}
  \quad\text{ et }\quad
  \begin{pmatrix} 1\\2\end{pmatrix}
  \mapsto
  \begin{pmatrix} 5\\0 \end{pmatrix}
  $$
- Convainquez-vous que résoudre le problème ci-dessus est équivalent à résoudre l'équation matricielle
$$
\mathbf{A}
\begin{pmatrix}
2 & 1\\
2 & 2
\end{pmatrix}
=
\begin{pmatrix}
6 & 5\\
-2 & 0
\end{pmatrix}
$$
pour $\mathbf{A}$ et utilisez `jax` pour calculer la solution.

In [None]:
# Place any code here

### Ressources recommandées

- **3Blue1Brown** (bon pour l'intuition)
  - [Leçon sur les transformations linéaires](https://www.3blue1brown.com/lessons/linear-transformations)
  - [Vidéo sur les transformations en 3D](https://www.3blue1brown.com/lessons/3d-transformations)
  - [Leçon sur la multiplication de matrices](https://www.3blue1brown.com/lessons/matrix-multiplication)
  - [Vidéo sur les matrices non carrées](https://www.3blue1brown.com/lessons/nonsquare-matrices)
- Chapitres 3 et 4 du cours de l'Université de Cambridge [Vecteurs et Matrices](https://dec41.user.srcf.net/notes/IA_M/vectors_and_matrices.pdf) pour des lectures plus avancées sur les bases.
- Chapitre 2 du cours de l'Université de Cambridge [Algèbre Linéaire](https://dec41.user.srcf.net/notes/IB_M/linear_algebra.pdf) pour un point de vue plus mathématique.

## Produits scalaires

Le _produit scalaire_ fournit une méthode de multiplication entre vecteurs pour produire un scalaire. Étant donné $\mathbf{a}, \mathbf{b}\in\mathbb{R}^n$, leur produit scalaire est noté $\mathbf{a}\cdot\mathbf{b}$ ou $\mathbf{a}^\top\mathbf{b}$ et est calculé à l'aide de la formule
$$
\mathbf{a}\cdot\mathbf{b}
= \sum_{i=1}^n \mathbf{a}_i\mathbf{b}_i
$$
ce qui équivaut à la somme des produits des entrées correspondantes dans les vecteurs. Le produit scalaire est défini uniquement si les deux vecteurs ont la même dimension. Le produit scalaire est parfois appelé _produit scalaire_ ou _produit intérieur euclidien_.

Voici quelques exemples :

$$
\begin{pmatrix}
1\\2\\3\\4
\end{pmatrix}
\cdot
\begin{pmatrix}
5\\6\\7\\8
\end{pmatrix}
=
5 + 12 + 21 + 32
=  70
$$

$$
\begin{pmatrix}
1\\1\\1\\1
\end{pmatrix}
\cdot
\begin{pmatrix}
1\\2\\3\\4
\end{pmatrix}
=
1 + 2 + 3 + 4
=  10
$$

$$
\begin{pmatrix}
1\\0
\end{pmatrix}
\cdot
\begin{pmatrix}
0\\ 1
\end{pmatrix}
=
0 + 0
=  0
$$

### Notation

Il est très important de noter que lorsque $\mathbf{a}$ et $\mathbf{b}$ sont des vecteurs dans $\mathbb{R}^n$, alors les deux notations
$$\mathbf{a}\cdot\mathbf{b}$$
et
$$
\mathbf{a}^\top \mathbf{b}
$$
_signifient exactement la même chose_. Cela peut ne pas sembler idéal si vous voyez le produit scalaire pour la première fois, mais les deux notations sont utilisées de manière interchangeable dans la littérature, vous les verrez donc toutes les deux.

Vous pouvez vérifier la formule
$$
\mathbf{a}^\top\mathbf{b}
= \sum_{i=1}^n \mathbf{a}_i\mathbf{b}_i
$$
en considérant $\mathbf{a}^\top$ comme une matrice $1\times n$ (parfois appelée vecteur ligne)
et $\mathbf{b}$ comme une matrice $n\times 1$
(parfois appelée vecteur colonne), puis en appliquant la formule
de multiplication de matrices (essayez-le !).

Conformément à la littérature, **nous utiliserons les deux notations dans cette séance pratique**.

### Produit scalaire en Machine Learning

Le produit scalaire est très courant en apprentissage automatique.
- La prédiction d'un modèle linéaire avec des poids $\mathbf{w}$ et des caractéristiques $\mathbf{x}$ est
$$
\mathbf{w}^\top \mathbf{x}
$$
- La sortie d'une couche de réseau de neurones à propagation avant avec une fonction d'activation $\sigma$,
des poids $\mathbf{w}$, un biais $b$ et des entrées $\mathbf{x}$
est
$$
\sigma(\mathbf{w}^\top \mathbf{x} + b)
$$
- Le mécanisme d'attention est calculé en prenant le produit scalaire
des vecteurs clé et valeur. Par exemple, consultez
[L'attention est tout ce dont vous avez besoin](https://arxiv.org/pdf/1706.03762.pdf).

### Calcul du produit scalaire avec `jax`
- Calcul du produit scalaire avec `jax` : jnp.dot

In [None]:
a = jnp.array([1, 2, 3, 4])
b = jnp.array([5, 6, 7, 8])
jnp.dot(a, b)

Array(70, dtype=int32)

### Exercice
Calculez $\mathbf{a}\cdot\mathbf{b}$ lorsque

$$
\mathbf{a} =
\begin{pmatrix}
1\\0\\2\\-1
\end{pmatrix}
\quad\text{ et }\quad
\mathbf{b} =
\begin{pmatrix}
-2\\100\\0.5\\3
\end{pmatrix}
$$
et vérifiez votre réponse en utilisant `jax`.

In [None]:
# Placez votre code ici

### Propriétés

Il y a quelques propriétés du produit scalaire qui sont importantes de connaître. Toutes sont faciles à vérifier en utilisant la formule (essayez !).

Soient $\mathbf{a}, \mathbf{b}\in \mathbb{R}^n$
des vecteurs, alors
- $\mathbf{a}\cdot\mathbf{b} = \mathbf{b}\cdot\mathbf{a}$ (commutativité)
- $\mathbf{a}\cdot\mathbf{a} \ge 0$
- $\mathbf{a}\cdot\mathbf{a} = 0$ si et seulement si $\mathbf{a}=\mathbf{0}$

### Exercice

Soient $\mathbf{a}, \mathbf{b}, \mathbf{c} \in \mathbb{R}^n$
et soient $\lambda, \mu\in\mathbb{R}$.

Utilisez la formule du produit scalaire pour prouver que
1. $\mathbf{a}\cdot(\mathbf{b} + \mathbf{c}) =
\mathbf{a}\cdot\mathbf{b} + \mathbf{a}\cdot\mathbf{c}$
2. $(\lambda \mathbf{a})\cdot (\mu \mathbf{b}) = (\lambda \mu)  (\mathbf{a}\cdot\mathbf{b})$

### Solution

1. Solution :
$$
\begin{align*}
\mathbf{a}\cdot(\mathbf{b} + \mathbf{c})
&= \sum_{i=1}^n
\mathbf{a}_i(\mathbf{b}+\mathbf{c})_i\\
&= \sum_{i=1}^n
\mathbf{a}_i(\mathbf{b}_i+\mathbf{c}_i)\\
&= \sum_{i=1}^n \mathbf{a}_i\mathbf{b}_i
 + \sum_{i=1}^n \mathbf{a}_i\mathbf{c}_i\\
&=
\mathbf{a}\cdot\mathbf{b} + \mathbf{a}\cdot\mathbf{c}
\end{align*}
$$

2. Solution :
$$
\begin{align*}
(\lambda \mathbf{a})\cdot(\mu\mathbf{b})
&= \sum_{i=1}^n
\lambda\mathbf{a}_i\mu\mathbf{b}\\
&= \lambda \mu\sum_{i=1}^n
\mathbf{a}_i\mathbf{b}\\
&= (\lambda\mu)(\mathbf{a}\cdot\mathbf{b})
\end{align*}
$$

### Relation à la Transposition de Matrice [Optionnel]

Le produit scalaire offre une interprétation de la transposition de matrice.
Soient $\mathbf{a}$ et $\mathbf{b}$ des vecteurs dans $\mathbb{R}^n$, et $\mathbf{M}$ une matrice $n \times n$.

Alors nous avons la relation
$$
(\mathbf{Ma}) \cdot \mathbf{b}
=
\mathbf{a} \cdot (\mathbf{M}^\top\mathbf{b})
$$

Ainsi, si vous appliquez une matrice d'un côté du produit scalaire, c'est équivalent à appliquer la transposée de cette matrice de l'autre côté du produit scalaire.

Une autre façon d'écrire la même chose (en utilisant la notation de la transposée)
est
$$
(\mathbf{Ma})^\top \mathbf{b}
=
\mathbf{a}^\top (\mathbf{M}^\top\mathbf{b})
=
\mathbf{a}^\top \mathbf{M}^\top\mathbf{b}
$$

Cela signifie que les matrices orthogonales préservent le produit scalaire.
Rappelez-vous que la matrice $\mathbf{R}$ est orthogonale si $\mathbf{R}^\top \mathbf{R} = \mathbf{I}$, alors
$$
\mathbf{Ra} \cdot \mathbf{Rb}
=
\mathbf{a} \cdot (\mathbf{R}^\top\mathbf{R})\mathbf{b}
=
\mathbf{a} \cdot \mathbf{b}
$$

### Vecteurs Orthogonaux

Si $\mathbf{a}\cdot\mathbf{b}=0$, alors nous disons que $\mathbf{a}$ et $\mathbf{b}$ sont _orthogonaux_.

L'orthogonalité est l'un des concepts les plus importants en algèbre linéaire intermédiaire/avancée, mais au niveau débutant, vous avez juste besoin de connaître la signification du mot et d'avoir une intuition de base.
Nous entrerons dans plus de détails dans la section intermédiaire du module pratique.

L'intuition de l'orthogonalité provient d'une intuition géométrique pour le produit scalaire que nous aborderons plus tard dans la section "Géométrie vectorielle de base".
En apprentissage automatique, le produit scalaire est souvent utilisé comme mesure de similarité ou de dépendance statistique entre des caractéristiques, des représentations ou des plongements représentés par des vecteurs.
Vous verrez cela régulièrement dans la littérature, par exemple dans les applications de regroupement.
Dans ce contexte, les représentations correspondant à des vecteurs orthogonaux sont aussi indépendantes que possible.

**Note [Optionnelle]**

Plus tôt, nous avons appris les matrices orthogonales.
Une définition équivalente d'une matrice orthogonale est une matrice dont les colonnes (considérées comme des vecteurs) sont orthogonales les unes aux autres.
(Pouvez-vous le prouver ?)

### Ressources recommandées

- [Vidéo 3Blue1Brown sur les produits scalaires](https://www.3blue1brown.com/lessons/dot-products)
- Sections 3.1-3.4 du livre [Math for ML Book](https://mml-book.github.io/book/mml-book.pdf) sur les normes et les produits internes
- Chapitres 2 du cours de Cambridge [Vectors and Matrices](https://dec41.user.srcf.net/notes/IA_M/vectors_and_matrices.pdf) pour une lecture plus avancée sur les bases
- (Avancé) Chapitre 8 du cours de Cambridge [Linear Algebra](https://dec41.user.srcf.net/notes/IB_M/linear_algebra.pdf) pour une perspective plus mathématique

## La magnitude d'un vecteur

### Definition

La _magnitude_ d'un vecteur est une mesure de sa taille.
Soit $\mathbf{a}\in\mathbb{R}^n$, sa magnitude est définie comme
$$
||\mathbf{a}||
=
\sqrt{\mathbf{a}\cdot\mathbf{a}}
$$
La magnitude d'un vecteur est parfois appelée
la _norme euclidienne_ du vecteur ou
la _longueur_ du vecteur (ne confondez pas cela avec le nombre d'éléments dans le tableau !).

Rappelez-vous des propriétés du produit scalaire que pour tous les vecteurs
$\mathbf{a}\in \mathbb{R}^n$
$$
\mathbf{a}\cdot\mathbf{a} \ge 0
$$
Cela signifie que la racine carrée dans la définition est toujours valide.

### Notation


Notez que
$$
||\mathbf{a}||^2
=
\mathbf{a}^\top\mathbf{a}
$$
Vous verrez souvent la magnitude d'un vecteur ecrit de cette facon.


### Exemple


- Soit
$$\mathbf{a} = \begin{pmatrix} 1\\2\\3\\4 \end{pmatrix}$$
Alors
$$
||\mathbf{a}||
= \sqrt{\mathbf{a}\cdot\mathbf{a}}
= \sqrt{1 + 2^2 + 3^2 + 4^2}
= \sqrt{30}
$$

- Soit
$$\mathbf{a} = \begin{pmatrix} 1\\0\\0 \end{pmatrix}$$
Alors
$$
||\mathbf{a}||
= 1
$$

- Soit
$$\mathbf{a} = \begin{pmatrix} 1\\-1 \end{pmatrix}$$
Alors
$$
||\mathbf{a}||
= \sqrt{1^2 + (-1)^2} = \sqrt{2}
$$


### Exercice

Utilisez la formule du produit scalaire pour montrer que
$$
||\mathbf{a}||
= \sqrt{\sum_{i=1}^n \mathbf{a}_i^2}
$$

Ceci est une formule très importante et utile !
Elle est parfois utilisée comme définition de la magnitude du vecteur.

### Solution

$$
||\mathbf{a}||^2 = \mathbf{a}\cdot\mathbf{a} = \sum_{i=1}^n \mathbf{a}_i^2
$$
donc
$$
||\mathbf{a}|| = \sqrt{\sum_{i=1}^n \mathbf{a}_i^2}
$$

### Exercice

Utilisez la formule ci-dessus pour montrer que si $\mathbf{a} \in \mathbb{R}^n$ est le vecteur de tous les $1$, c'est-à-dire $\mathbf{a}_i = 1$ pour $i=1, 2, \dots, n$, alors
$$
||\mathbf{a}|| = \sqrt{n}
$$

Par exemple, cela implique que si
$$
\mathbf{a}
=
\begin{pmatrix}
1\\1
\end{pmatrix}
$$
alors $||\mathbf{a}|| = \sqrt{2}$.

### Solution

$$
||\mathbf{a}||
= \sqrt{\sum_{i=1}^n \mathbf{a}_i^2}
= \sqrt{\sum_{i=1}^n 1^2}
= \sqrt{n}
$$

### Calcul de la magnitude d'un vecteur avec `jax`


La magnitude d'un vecteur peut de calculer facilement avec `jax` en utilisant la fonction `jnp.linalg.norm`

In [None]:
a = jnp.array([3, 4])
jnp.linalg.norm(a)

Array(5., dtype=float32)

In [None]:
a = jnp.array([0.1, 0.5, 0.6, 50])
jnp.linalg.norm(a)

Array(50.0062, dtype=float32)

### Exercice

Choisir un vecteur $\mathbf{a}$ et
utilise `jax` pour verifier la formule suivante dans ce cas
$$
||\mathbf{a}||
=
\sqrt{\sum_{i=1}^n \mathbf{a}_i^2}
$$

In [None]:
# Placer votre code ici

### Solution

In [None]:
a = jnp.array([1, 2, 3, 4, 5]) # any old vector
lhs = jnp.linalg.norm(a) # calculate the magnitude, left hand side of the formula
rhs = jnp.sqrt(jnp.sum(a**2)) # calculate the right hand side of the formula
assert jnp.allclose(lhs, rhs) # assert that the formula holds within numerical tolerance

### Propriétés de la Magnitude du Vecteur

### La magnitude d'un vecteur est toujours positive

Pour tout $\mathbf{a}\in\mathbb{R}^n$
$$
||\mathbf{a}|| \ge 0
$$



##### Preuve

D'après les propriétés du produit scalaire, nous savons que pour tout $\mathbf{a}\in \mathbb{R}^n$, nous avons $\mathbf{a}\cdot\mathbf{a} \ge 0$. Ainsi,
$$
||\mathbf{a}|| = \sqrt{\mathbf{a}\cdot\mathbf{a}} \ge 0
$$

#### La magnitude vaut $0$ si et seulement si le vecteur is $\mathbf{0}$



Pour tout $\mathbf{a}\in\mathbb{R}^n$
$$
||\mathbf{a}|| = 0
\quad\text{if and only if}\quad
\mathbf{a}=\mathbf{0}
$$


##### Preuve

D'après les propriétés du produit scalaire, nous savons que pour tout $\mathbf{a}\in \mathbb{R}^n$, nous avons $\mathbf{a}\cdot\mathbf{a} = 0$ si et seulement si $\mathbf{a}=\mathbf{0}$, puis utilisons la formule $||\mathbf{a}||=\mathbf{a}\cdot\mathbf{a}$.

### Normalisation d'un vecteur

La magnitude du vecteur satisfait la propriété suivante. Pour tout $\lambda \in \mathbb{R}$ et tous les vecteurs $\mathbf{a}$, nous avons
$$
||\lambda \mathbf{a}|| = |\lambda| \times||\mathbf{a}||
$$
Cela signifie que _n'importe quel vecteur peut être mis à l'échelle pour avoir une magnitude de 1_.
En particulier, le vecteur
$$
{\mathbf{\hat{a}}}= \frac{1}{||\mathbf{a}||}\mathbf{a}
$$
a toujours $||{\mathbf{\hat{a}}}|| = 1$.
Un vecteur de magnitude 1 est parfois appelé un _vecteur de norme unitaire_.

##### Preuve

$$
\begin{align*}
||\lambda \mathbf{a}||
&=
\sqrt{
  \sum_{i=1}^n \lambda^2 \mathbf{a}_i^2
}\\
&=
|\lambda|
\sqrt{
  \sum_{i=1}^n \mathbf{a}_i^2
}\\
&=
|\lambda| \times ||\mathbf{a}||
\end{align*}
$$

#### Inégalité triangulaire [Optionnel]

Pour tout vecteurs $\mathbf{a}, \mathbf{b} \in \mathbb{R}^n$, nous avons
$$
||\mathbf{a} + \mathbf{b}|| \le ||\mathbf{a}|| + ||\mathbf{b}||
$$
avec égalité si et seulement si $\mathbf{a}$ et $\mathbf{b}$ sont orthogonaux.

La règle du triangle est une inégalité incroyablement importante.

#### Inégalité de Cauchy-Schwarz [Optionnel]

Pour tout vecteurs $\mathbf{a}, \mathbf{b} \in \mathbb{R}^n$, nous avons
$$
|\mathbf{a}\cdot \mathbf{b}| \le ||\mathbf{a}||||\mathbf{b}||
$$
avec égalité si et seulement si $\mathbf{a} = \lambda \mathbf{b}$
pour un scalaire $\lambda \in \mathbf{R}$ (c'est-à-dire que les vecteurs sont _parallèles_).

L'inégalité de Cauchy-Schwarz est également une inégalité incroyablement importante.

### Ressources recommandées

- Sections 3.1-3.4 de [Math for ML Book](https://mml-book.github.io/book/mml-book.pdf) sur les nromes et produits scalaires

## Géométrie de Base des Vecteurs [Optionnel] [À CONFIRMER]

(pour fournir une certaine intuition géométrique sur les vecteurs...)

définition de l'angle avec le produit scalaire

- interprétation géométrique en 2D et 3D en termes d'angles
- utilisation dans les projections (peut-être cela viendra plus tard ?), calcul de la
composante d'un vecteur dans une certaine direction
- transformations orthogonales ?
- magnitude du vecteur en tant que longueur du vecteur dans l'espace

#### Les vecteurs en tant qu'objets géométriques

À l'école, vous avez peut-être été introduit aux vecteurs en tant qu'objets géométriques représentant une ligne dirigée de l'origine à une position dans l'espace. Ces vecteurs géométriques peuvent être représentés sous forme de tableaux en exprimant leurs composantes par rapport à un système de coordonnées. Par exemple,
$$\begin{pmatrix} 1\\4\\2\end{pmatrix}$$
représente une ligne dirigée de l'origine au point de coordonnées $x=1$, $y=4$, $z=2$. Les opérations vectorielles d'addition, de soustraction et de multiplication par un scalaire ont la signification géométrique indiquée dans la figure ci-dessous.

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-zIgBFg0YE3LHIMjTbnv-gXsY9wHuKggmrJ3wl9exGr4xE5Z7bo__3gypuiuSvZJw4lrRgNGMWiiNyez-A8YUivC1ns=s1600"
width="30%" />

Tous les vecteurs ne peuvent pas être pensés de cette manière, mais presque tous les cas que vous traitez en apprentissage automatique sont compatibles avec cette interprétation.

## Exemple : Régression Ridge

Il est temps de mettre en œuvre tous les outils que nous avons développés jusqu'à présent ! Cette section sera structurée comme suit : Dans chaque sous-section, nous illustrerons les mathématiques suivies d'un exemple pratique.

### Un peu de contexte sur la régression linéaire

Supposons que nous ayons $n$ échantillons $\{ x_i, y_i \}^n_{i=1}$ où chaque $x_i= (x_{i1}, \dots x_{ip})$ est un vecteur d'entrée avec $p$ caractéristiques et chaque $y_i \in \mathbb{R}$ est la cible correspondante à chaque $x_i$. Le problème de la régression linéaire consiste ensuite à approximer la valeur cible en tant que combinaison linéaire de ses caractéristiques.

$$ \eta(x_i) = \beta_0 + \sum_{j=1}^p x_{ij} \beta_j $$

Ici, $\eta$ est notre modèle et ses paramètres sont les poids de régression $\beta = (\beta_1, \dots, \beta_p) \in \mathbb{R}^N$ et le terme de biais $\beta_0 \in \mathbb{R}$.

#### Quelque chose à noter ici

Supposons que nous n'ayons qu'une seule caractéristique par variable d'entrée, $p=1$, et que nous essayions de la faire correspondre à une variable cible correspondante. L'équation de régression linéaire pour une seule entrée devient simplement :

$$\eta(x_i) = \beta_0 + x \beta_1$$

En remplaçant les noms des variables $\eta \rightarrow y$, $\beta_0 \rightarrow b$ et $\beta_1 \rightarrow m$ ici, cela devient l'équation familière d'une ligne droite !

$$ y = mx + b $$

En fait, c'est exactement ce que nous essayons de faire dans la régression linéaire. Notre objectif est de trouver une 'ligne' qui correspond au mieux à nos données ! C'est bien sûr une simplification excessive car nous essayons en réalité de trouver une 'combinaison linéaire' de chaque entrée de manière à pouvoir produire la sortie correspondante. Mais l'équation de la ligne droite démontre d'où vient le terme 'linéaire' dans la régression linéaire.

### La fonction objective de régression linéaire

Pour quantifier à quel point notre ligne s'adapte aux données, nous avons besoin d'une métrique. La plus courante est l'erreur quadratique moyenne, qui n'est rien d'autre que la norme euclidienne moyenne entre la valeur prédite par notre modèle et la vraie valeur cible. Cette fonction objectif $J(\beta)$ peut être exprimée comme suit :

$$ J(\beta) = \frac{1}{n} \sum_{i=1}^n \left( y_i - \beta_0 - \sum_{j=1}^p x_{ij} \beta_j \right)^2 $$

L'objectif est alors de trouver un ensemble de paramètres pour notre modèle qui minimiseront cette fonction objectif. Cela peut être exprimé comme suit :

$$ \underset{\beta_0, \beta}{\text{arg min}} \left\{ \frac{1}{n} \sum_{i=1}^n \left( y_i - \beta_0 - \sum_{j=1}^p x_{ij} \beta_j \right)^2 \right\} $$

En d'autres termes, nous cherchons les valeurs de $\beta_0$ et $\beta$ qui rendent cette expression aussi petite que possible. Cela signifie que nous cherchons les coefficients qui minimisent l'écart entre les valeurs prédites par notre modèle et les valeurs réelles dans le jeu de données.

### Fonction objectif de la régression Ridge

La régression Ridge étend la notion de régression linéaire en ajoutant un terme supplémentaire à la fonction objectif que nous essayons de minimiser. Nous n'entrerons pas ici dans les détails de la raison pour laquelle cela est fait, mais le terme ajouté est le carré de la norme L2 (ou le carré de la norme euclidienne) des paramètres du modèle à l'exception du terme de biais. Notre fonction de coût devient alors :

$$ J(\beta) = \left\{ \frac{1}{n} \sum_{i=1}^n \left( y_i - \beta_0 - \sum_{j=1}^p x_{ij} \beta_j \right)^2 \right\} + \lambda \sum_{j=1}^p \beta_j^2$$

L'objectif est de trouver $\beta$ de manière à ce que :

$$ \underset{\beta_0, \beta}{\text{arg min}} \left\{ \frac{1}{n} \sum_{i=1}^n \left( y_i - \beta_0 - \sum_{j=1}^p x_{ij} \beta_j \right)^2 \right\} + \lambda \sum_{j=1}^p \beta_j^2$$

Cela revient à ajuster les paramètres $\beta$ de manière à ce que le modèle s'adapte bien aux données tout en limitant les valeurs des coefficients grâce à la régularisation L2.

### Fonction objectif de la régression Ridge en tant qu'équation matricielle

Nous avons jusqu'à présent exprimé notre fonction objectif de régression Ridge uniquement sous forme de sommes explicites. Vous avez peut-être remarqué que certaines de ces sommes ressemblent beaucoup à celles que nous avons vues dans la section sur les matrices. Comme nous regroupons généralement nos vecteurs d'entrée dans une matrice de conception $X$ et que nous aurons un vecteur de cibles $Y$, nous pouvons réexprimer notre fonction objectif en utilisant la notation matricielle :
$$ \begin{equation}
\begin{aligned}
J(\beta) &= \left\{ \frac{1}{n} \sum_{i=1}^n \left( y_i - \beta_0 - \sum_{j=1}^p x_{ij} \beta_j \right)^2 \right\} + \lambda \sum_{j=1}^p \beta_j^2 \\
& = (Y - X \beta)^T (Y - X \beta) + \lambda \beta^T \beta\\
& = \| Y - X \beta \|_2^2 + \lambda \| \beta \|_2^2
\end{aligned}
\end{equation} $$

Ici, lorsque nous utilisons le terme $\beta$, nous faisons référence uniquement aux paramètres du modèle, en excluant le terme de biais $\beta_0$. Le terme de biais doit être traité avec soin.

### Tache de groupe

Discutez avec les personnes autour de vous de la manière dont nous pouvons gérer le terme de biais.

### Minimisation de la fonction objectif de la régression Ridge

### Minimiser la fonction objectif de la régression Ridge

Pour minimiser une fonction, nous devons annuler sa première dérivée. Nous le faisons de la manière suivante. Nous commençons par développer la fonction objectif pour qu'elle devienne :
$$\begin{equation}
\begin{aligned}
J(\beta)&=(Y - X \beta)^T (Y - X \beta) + \lambda \beta^T \beta \\
J(\beta)&=Y^T Y - Y^T X \beta - \beta^T X^T Y +  \beta^T X^T X \beta + \lambda \beta^T \beta
\end{aligned}
\end{equation}$$

Puisque $Y^T X \beta$ et $\beta^T X^T Y$ sont des valeurs scalaires, elles sont égales. Ainsi, nous pouvons simplifier ce qui précède comme suit :

$$\begin{equation}
\begin{aligned}
J(\beta)&=Y^T Y - 2 \beta^T X^T Y +  \beta^T X^T X \beta + \lambda \beta^T \beta
\end{aligned}
\end{equation}$$

Nous prenons maintenant la dérivée de ce qui précède par rapport à $\beta$ et l'égalons à zéro pour obtenir
$$\begin{equation}
\begin{aligned}
\frac{\partial J(\beta)}{\partial \beta}  
&= - 2 X^T Y +  2X^T X \beta + 2\lambda \beta = 0
\end{aligned}
\end{equation}$$

Voyez si vous pouvez résoudre l'équation linéaire dérivée ci-dessus : $$ - 2 X^T Y +  2X^T X \beta + 2\lambda \beta = 0 $$ pour les paramètres optimaux du modèle $\beta$.

### Solution

En partant de l'équation linéaire que nous avons dérivée :
$$ - 2 X^T Y +  2X^T X \beta + 2\lambda \beta = 0 $$
qui peut être réarrangée comme suit :
$$2X^T X \beta + 2\lambda \beta = 2 X^T Y $$
En divisant par 2, on obtient :
$$X^T X \beta + \lambda \beta = X^T Y $$
Nous introduisons maintenant la matrice identité $I$ :
$$X^T X \beta + \lambda I \beta = X^T Y $$
En regroupant les termes similaires, on obtient :
$$(X^T X + \lambda I) \beta = X^T Y $$
Comme $X^T X + \lambda I$ est une matrice inversible, nous pouvons multiplier notre équation par l'inverse de la matrice à gauche pour obtenir :
$$(X^T X + \lambda I)^{-1}(X^T X + \lambda I) \beta =(X^T X + \lambda I)^{-1} X^T Y $$
Ce qui donne notre résultat pour $\beta$ :
$$\beta =(X^T X + \lambda I)^{-1} X^T Y $$

### Exercice d'application pratique

Supposons que nous ayons 3 exemples avec 3 caractéristiques chacun, donnés comme suit : $x_1 = [1.2, 3.2, 0.9]$, $x_2 = [0.2, 3.1, 2.4]$ et $x_3 = [10.9, 4.0, 2.1]$. Regroupons-les dans une matrice de conception.

### Solution

$$\mathbf{X} =
\begin{bmatrix}
1.2 & 3.2 & 0.9\\
0.2 & 3.1 & 2.4 \\
10.9 & 4.0 & 2.1
\end{bmatrix}$$

### Exercice de code :
Essayons maintenant de créer cette matrice de conception sous forme de code :

In [None]:
x_1 = jnp.array([1.2, 3.2, 0.9])
x_2 = jnp.array([0.2, 3.1, 2.4])
x_3 = jnp.array([10.9, 4.0, 2.1])

X = ...

### Solution

In [None]:
X = jnp.stack([x_1, x_2, x_3])

### Exercice

Maintenant, étant donné un vecteur cible $Y = [3.95, 15.62, 130.07]$, voyez si vous pouvez résoudre l'équation que nous avons précédemment dérivée :
$$\beta = (X^T X + \lambda I)^{-1}X^T Y$$
pour obtenir les paramètres optimaux du modèle $\beta$ afin d'ajuster la fonction en utilisant JAX. Pour cet exemple, utilisez une valeur $\lambda$ de 0.01.

In [None]:
Y = jnp.array([3.95, 15.62,130.07])
lambda_ = 0.01
X_T = ...
I = ...

beta = ...

### Solution

In [None]:
# Compute X transpose
X_T = X.T
# Create an identity matrix with the correct shape.
# Since we have 3 examples, with 3 features each calling `X.shape` will
# yield a tuple of shape (3, 3). Hence we can construct the identity matrix
# by using the first dimension of `X.shape`
I = np.eye(X.shape[0])

beta = jnp.linalg.inv(X_T @ X + lambda_ * I) @ (X_T @ Y)

# Algèbre Linéaire II <font color='orange'>`Intermédiaire`</font>

<!--
<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-wdkXm3HR6ycdwKX5C7Mu2pvqHXSqXDzHn8rN_F4xWXRANc-5Upq9A9mjBEL3vyYA-VcWZ-9oyb35Pq1zFkuVD5kK49=s1600"
width="100%" /> -->

Imaginez-vous face à un dédale de données - d'innombrables points qui défient une compréhension facile. La réduction de la dimensionnalité est votre carte pour naviguer dans ce labyrinthe. C'est comme regarder un grand tableau à travers un prisme, capturant son essence en se concentrant sur les couleurs et les formes clés.

Avec des techniques comme l'ACP, nous réduisons des données complexes en dimensions essentielles, simplifiant tout en préservant les motifs. Pensez à un ensemble de données sur les fruits : la réduction de la dimensionnalité pourrait révéler que la couleur, la taille et la douceur capturent la plupart des variations.

`Projections`, `déterminants et traces`, `décomposition en valeurs propres` et `ACP` tiennent chacun une pièce du puzzle. Les projections condensent les données, les déterminants dévoilent les transformations, la décomposition en valeurs propres révèle les structures, et l'ACP réunit ces idées.

## **Projections**


**Intuition de la Projection**

> Imaginez que vous ayez une lampe de poche qui ne peut éclairer que dans une direction. Maintenant, disons que vous avez un faisceau de lumière (que nous appellerons un vecteur) et un mur (notre sous-espace). Vous voulez diriger la lumière vers le mur de manière à ce qu'elle soit aussi proche que possible du mur. C'est là que réside l'essence de la projection !
1. **Obtenir le Plus Proche :** Lorsque vous voulez placer le faisceau lumineux aussi près que possible du mur, vous devez minimiser la distance qui le sépare du mur. Nous mesurons cette distance en utilisant une règle spéciale.
2. **Convivialité Orthogonale :** Le faisceau se rapproche beaucoup lorsque le chemin qu'il emprunte (faisceau moins l'ombre du mur) forme un angle droit avec le mur. C'est comme si vous teniez la lampe de poche juste à côté du mur, sans laisser la lumière le toucher directement.
3. **Langage Mathématique :** Lorsque nous parlons en chiffres, cela signifie que le chemin de la lumière (faisceau moins l'ombre) n'entraîne pas de déplacement du mur. En termes mathématiques, c'est comme si l'on multipliait le faisceau par un nombre (λ) de sorte qu'il s'adapte parfaitement au mur.
4. **Création d'un Outil :** Pour nous aider à réaliser cela pour n'importe quel faisceau lumineux (vecteur) et n'importe quel mur (sous-espace), nous créons un outil spécial appelé la "matrice de projection". Cet outil prend n'importe quel faisceau lumineux et l'ajuste pour qu'il soit très proche du mur, sans changer sa direction.
>
> Ainsi, la projection revient à tenir votre lampe de poche de manière à ce qu'elle éclaire aussi près que possible du mur, tout en respectant les règles du mur. Cela nous aide à comprendre comment les vecteurs et les espaces interagissent de manière organisée et élégante.

**Projection Mathématiquement**

> ***
> <font color='Yellow'>`DÉFINITION`</font> `Projection`
>
> Soit $V$ un espace vectoriel et $U \subseteq V$ un sous-espace de $V$.
>
> - Une application linéaire $\pi : V \rightarrow U$ est appelée une projection si $\pi^2 := \pi \circ \pi = \pi$.
> - $\mathbf{P}_\pi$ est une matrice de projection si $\mathbf{P}_\pi^2 = \mathbf{P}_\pi$.
> ***

**Tâche de Groupe :**

Discutez en groupe de ce que cette définition signifie et pourquoi elle a du sens, en gardant à l'esprit l'intuition donnée.

>Indice : La notation $\pi^2$ ou $\pi \circ \pi$ signifie appliquer la fonction $\pi$ deux fois (c'est-à-dire $\pi^2 := \pi \circ \pi := \pi(\pi(x))$).

### 1.1 Projection sur les Sous-espaces Unidimensionnels (Ligne, $\mathbb{R}^1$) - <font color='green'>`Débutant`</font>


<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-yth8ydsmqZyqNZBNDktk9plo8525uElAtDf3KTt3MT_uCh8FPGp0z_yDiY2qZj3Y_QowAxvyP5_vVNkb3X-gw4ifs-GA=s1600"
width="60%" />

La projection $\pi_U(\mathbf{x})$ est la plus proche de $\mathbf{x}$ lorsque la distance $\left\|\mathbf{x}-\pi_U(\mathbf{x})\right\|$ entre eux est minimale. Cela se produit lorsque la différence $\pi_U(\mathbf{x})-\mathbf{x}$ est perpendiculaire (orthogonale) au sous-espace $U$. Cette perpendicularité est évidente dans le fait que leur produit scalaire $\left\langle\pi_U(\mathbf{x})-\mathbf{x}, \mathbf{b}\right\rangle$ est nul.

Étant donné que la projection $\pi_U(\mathbf{x})$ mappe $\mathbf{x}$ dans le sous-espace $U$, elle peut être représentée comme un multiple scalaire du vecteur de base $\mathbf{b}$, noté $\lambda \mathbf{b}$, où $\lambda$ est un nombre réel.

Ainsi, pour construire la matrice de projection $\mathbf{P}_\pi$ qui mappe n'importe quel $\mathbf{x} \in \mathbb{R}^n$ sur $U$, les étapes suivantes sont utilisées :
- Déterminer la coordonnée $\lambda$
- Déterminer $\pi_U(\mathbf{x}) \in U$
- Enfin, construire $\mathbf{P}_\pi$

> Trouver la coordonnée $\lambda$
- En utilisant la condition d'orthogonalité, nous avons
$$
\begin{aligned}
0 & =\left\langle\mathbf{x}-\pi_u(\mathbf{x}), \mathbf{b}\right\rangle \\
& =\langle\mathbf{x}-\lambda \mathbf{b}, \mathbf{b}\rangle \\
& =\langle\mathbf{x}, \mathbf{b}\rangle-\lambda\langle\mathbf{b}, \mathbf{b}\rangle \text { d'après la bilinéarité de }\langle\cdot, \cdot\rangle
\end{aligned}
$$
- Nous pouvons réorganiser pour obtenir
$$
\begin{aligned}
\lambda & =\frac{\langle\mathbf{x}, \mathbf{b}\rangle}{\langle\mathbf{b}, \mathbf{b}\rangle}=\frac{\langle\mathbf{b}, \mathbf{x}\rangle}{\|\mathbf{b}\|^2}
\end{aligned}
$$
- En termes plus simples, le coefficient $\lambda$ est trouvé en divisant le produit scalaire de $\mathbf{x}$ et $\mathbf{b}$ par le produit scalaire de $\mathbf{b}$ avec lui-même, ce qui est équivalent à la longueur au carré de $\mathbf{b}$.

> Trouver le point de projection $\pi_U(\mathbf{x}) \in U$
- Étant donné que $\pi_U(\mathbf{x})=\lambda \mathbf{b}$, il en découle immédiatement que
$$
\pi_U(\mathbf{x})=\lambda \mathbf{b}=\frac{\langle\mathbf{b}, \mathbf{x}\rangle}{\|\mathbf{b}\|^2} \mathbf{b}\\
\quad\quad\quad\quad~ =\frac{\mathbf{b}^T \mathbf{x}}{\|\mathbf{b}\|^2} \mathbf{b} \quad \text{(en supposant le produit scalaire)}
$$

> Trouver la matrice de projection $\mathbf{P}_\pi$
- En utilisant le produit scalaire, nous pouvons faire l'observation suivante
$$
\begin{aligned}
\pi_U(\mathbf{x})=\lambda \mathbf{b} & =\mathbf{b} \lambda \\
& =\mathbf{b} \frac{\mathbf{b}^T \mathbf{x}}{\|\mathbf{b}\|^2} \\
& =\frac{\mathbf{b} \mathbf{b}^T}{\|\mathbf{b}\|^2} \mathbf{x}
\end{aligned}
$$
Rappelez-vous que $\mathbf{b}$ est une matrice $n \times 1$ et $\mathbf{b}^T$ est une matrice $1 \times n$, donc $\mathbf{b b}^T$ est une matrice $n \times n$ (et est également symétrique). Nous appelons $\mathbf{b b}^T$ un "produit extérieur" (similaire au produit intérieur $\mathbf{b^T b}$).
- Il s'ensuit que
$$
\mathbf{P}_\pi=\frac{\mathbf{b} \mathbf{b}^T}{\|\mathbf{b}\|^2}
$$

***
<font color='Yellow'>`EXEMPLE`</font>

Prenons l'exemple que nous avons donné précédemment où nous voulons projeter un point en 2D $x=(64,17.76)$ sur la ligne engendrée par le vecteur de base
$b = \left[\begin{array}{c}
1 \\
0.41
\end{array}\right]$.

Matrice de projection :
$$
\begin{aligned}
& \boldsymbol{P}_\pi=\frac{\boldsymbol{b} b^T}{\|b\|^2}=\frac{1}{\boldsymbol{b}^T \boldsymbol{b}} \boldsymbol{b} \boldsymbol{b}^{\boldsymbol{T}} \\
& \boldsymbol{P}_\pi=\frac{1}{\left[\begin{array}{ll}
1 & 0.41
\end{array}\right]\left[\begin{array}{c}
1 \\
0.41
\end{array}\right]}\left(\left[\begin{array}{c}
1 \\
0.41
\end{array}\right]\left[\begin{array}{ll}
1 & 0.41
\end{array}\right]\right) \\
& \boldsymbol{P}_\pi=\frac{1}{1.17}\left(\left[\begin{array}{cc}
1 & 0.41 \\
0.41 & 0.17
\end{array}\right]\right) \\
& \boldsymbol{P}_\pi=\left[\begin{array}{ll}
0.85 & 0.35 \\
0.35 & 0.15
\end{array}\right]
\end{aligned}
$$
Point projeté :
$$
\begin{aligned}
\pi_U(x)=\boldsymbol{P}_\pi x=\left[\begin{array}{ll}
0.85 & 0.35 \\
0.35 & 0.15
\end{array}\right]\left[\begin{array}{c}
64 \\
17.76
\end{array}\right] & =\left[\begin{array}{c}
60.62 \\
25.06
\end{array}\right] \\
& =60.62\left[\begin{array}{c}
1 \\
0.41
\end{array}\right]
\end{aligned}
$$

***

**Tâche Mathématique :**

Dans un projet d'apprentissage automatique, un data scientist souhaite réduire la dimensionnalité de son ensemble de données en projetant chaque point de données sur un sous-espace euclidien engendré par un ensemble de vecteurs de base. Supposons qu'un point de données $x=\left[\begin{array}{c}-1 \\ 3 \\ 1\end{array}\right]$ soit donné, et que le sous-espace $U$ soit engendré par le vecteur de base $b=\left[\begin{array}{c}0 \\ -2 \\ 3\end{array}\right]$.

a) Déterminez la projection orthogonale $\pi_U(x)$ de $\mathrm{x}$ sur $U$

b) Déterminez la distance $d(x, U)$.

Bien sûr, je peux vous aider à résoudre ce problème étape par étape.

a) Pour déterminer la projection orthogonale $\pi_U(x)$ du vecteur $x$ sur le sous-espace $U$ engendré par les vecteurs de base $u_1$ et $u_2$, nous suivons le même processus qu'auparavant.

Matrice de projection :
$$
\begin{aligned}
& \boldsymbol{P}_\pi=\frac{\boldsymbol{b} b^T}{\|b\|^2}=\frac{1}{\boldsymbol{b}^T \boldsymbol{b}} \boldsymbol{b} \boldsymbol{b}^{\boldsymbol{T}} \\
& \boldsymbol{P}_\pi=\frac{1}{\left[\begin{array}{lll}
0 & -2 & 3
\end{array}\right]\left[\begin{array}{c}
0 \\
-2 \\
3
\end{array}\right]}\left(\left[\begin{array}{c}
0 \\
-2 \\
3
\end{array}\right]\left[\begin{array}{lll}
0 & -2 & 3
\end{array}\right]\right) \\
& \boldsymbol{P}_\pi=\frac{1}{13}\left(\left[\begin{array}{ccc}
0 & 0 & 0 \\
0 & 4 & -6 \\
0 & -6 & 9
\end{array}\right]\right) \\
& \boldsymbol{P}_\pi=\left[\begin{array}{lll}
0 & 0 & 0 \\
0 & \frac{4}{13} & \frac{-6}{13} \\
0 & \frac{-6}{13} & \frac{9}{13}
\end{array}\right]
\end{aligned}
$$
Point projeté :
$$
\begin{aligned}
\pi_U(x)=\boldsymbol{P}_\pi x=\left[\begin{array}{lll}
0 & 0 & 0 \\
0 & \frac{4}{13} & \frac{-6}{13} \\
0 & \frac{-6}{13} & \frac{9}{13}
\end{array}\right]\left[\begin{array}{c}
-1 \\
3 \\
1
\end{array}\right] & =\left[\begin{array}{c}
0 \\
\frac{6}{13} \\
\frac{-9}{13}
\end{array}\right]
\end{aligned}
$$

Ainsi, la projection orthogonale $\pi_U(x)$ du vecteur $x$ sur le sous-espace $U$ est $\left[\begin{array}{c}
0 \\
\frac{6}{13} \\
\frac{-9}{13}
\end{array}\right]$.

b) Pour déterminer la distance $d(x, U)$ entre le vecteur $x$ et le sous-espace $U$, nous pouvons utiliser la formule :

$$d(x, U) = \|x - \pi_U(x)\|$$

Où $\|\cdot\|$ représente la norme euclidienne (magnitude) d'un vecteur.

Tout d'abord, calculez la différence entre $x$ et sa projection :

$$x - \pi_U(x) = \left[\begin{array}{c}-1 \\ 3 \\ 1\end{array}\right] - \left[\begin{array}{c}0 \\ \frac{6}{13} \\ \frac{-9}{13}\end{array}\right] = \left[\begin{array}{c}-1 \\ \frac{33}{13} \\ \frac{4}{13}\end{array}\right]$$

Ensuite, calculez la norme euclidienne de cette différence :

$$\|x - \pi_U(x)\| = \sqrt{(-1)^2 + \left(\frac{33}{13}\right)^2 + \left(\frac{4}{13}\right)^2} = 2.75$$

Ainsi, la distance entre le vecteur $x$ et le sous-espace $U$ est d'environ 3.

### 1.2 Projection sur des sous-espaces généraux ($\mathbb{R}^n$) - <font color='orange'>Intermédiaire</font>

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-zEGASdI7YZJ-iaHSysatou2W2FwdIochnElA5cNw6QHlP2vElrjCh86dAd-__wHiwd_dfRZUFh3DuhOoQjtxrsNXxJNQ=s1600"
width="60%" />

Assumez que $\left(\mathbf{b}_1, \ldots, \mathbf{b}_m\right)$ est une base ordonnée de l'espace $U$
- Nous savons que pour tout $\mathbf{x} \in \mathbb{R}^n$, $\pi_U(\mathbf{x}) \in U$,
$$
\begin{aligned}
& \pi_U(\mathbf{x})=\sum_{i=1}^m \lambda_i \mathbf{b}_i=\mathbf{B} \boldsymbol{\lambda}, \\
& \mathbf{B}=\left[\mathbf{b}_1, \ldots, \mathbf{b}_m\right] \in \mathbb{R}^{n \times m}, \lambda=\left[\lambda_1, \ldots, \lambda_m\right]^T \in \mathbb{R}^m
\end{aligned}
$$

Ainsi, nous pouvons suivre la même procédure qu'auparavant pour trouver la matrice de projection, généralisée aux sous-espaces de dimension $n$. Cela signifie,
- Déterminer la coordonnée $\lambda$
- Déterminer $\pi_U(\mathbf{x}) \in U$
- Enfin construire $\mathbf{P}_\pi$.

> Trouver la coordonnée $\lambda$
- À partir de la condition d'orthogonalité, nous avons que
$$
\begin{aligned}
\mathbf{b}_1^T(\mathbf{x}-\mathbf{B} \boldsymbol{\lambda}) & =0 \\
\vdots & \\
\mathbf{b}_m^T(\mathbf{x}-\mathbf{B} \boldsymbol{\lambda}) & =0
\end{aligned}
$$
forme un système d'équations linéaires homogènes. Par conséquent,
$$
\begin{aligned}
& {\left[\begin{array}{c}
\mathbf{b}_1^T \\
\vdots \\
\mathbf{b}_m^T
\end{array}\right][\mathbf{x}-\mathbf{B} \boldsymbol{\lambda}]=\mathbf{0} } \\
\Longleftrightarrow & \mathbf{B}^T(\mathbf{x}-\mathbf{B} \boldsymbol{\lambda})=\mathbf{0} \\
\Longleftrightarrow & \mathbf{B}^T \mathbf{B} \boldsymbol{\lambda}=\mathbf{B}^T \mathbf{x} \\
\lambda & =\left(\mathbf{B}^T \mathbf{B}\right)^{-1} \mathbf{B}^T \mathbf{x}
\end{aligned}
$$

> Trouver le point de projection $\pi_U(\mathbf{x}) \in U$ :
$$
\begin{aligned}
\pi_U(\mathbf{x})=\sum_{i=1}^m \lambda_i \mathbf{b}_i & =\mathbf{B} \boldsymbol{\lambda} \\
& =\mathbf{B}\left(\mathbf{B}^T \mathbf{B}\right)^{-1} \mathbf{B}^T \mathbf{x}
\end{aligned}
$$

> Trouver la matrice de projection $\mathbf{P}_\pi$ :
$$
\begin{gathered}
\mathbf{P}_\pi \mathbf{x}=\pi_U(\mathbf{x}) \\
\mathbf{P}_\pi=\mathbf{B}\left(\mathbf{B}^T \mathbf{B}\right)^{-1} \mathbf{B}^T
\end{gathered}
$$

Cette capacité à effectuer des projections nous offre une perspective intéressante pour résoudre des systèmes d'équations linéaires $Ax=b$.
- Si $\boldsymbol{A}$ est inversible :
 - $\mathrm{x}=\mathrm{A}^{-1} \mathrm{~b}$
- Si $\mathbf{A}$ n'est pas inversible :
 - $\mathbf{A}^{\mathrm{T}} \mathbf{A x}=\mathbf{A}^{\mathrm{T}} \mathrm{b}$
 - $\left(\mathbf{A}^{\mathrm{T}} \mathbf{A}\right)^{-1} \mathbf{A}^{\mathrm{T}} \mathbf{A x}=\left(\mathbf{A}^{\mathrm{T}} \mathbf{A}\right)^{-\mathbf{1}} \mathbf{A}^{\mathrm{T}} \mathrm{b}$
 - $\mathrm{x}=\left(\mathbf{A}^{\mathrm{T}} \mathbf{A}\right)^{-\mathbf{1}} \mathbf{A}^{\mathrm{T}} \mathrm{b}$ sous des hypothèses raisonnables.
- $\left(\mathbf{A}^{\mathrm{T}} \mathbf{A}\right)^{-\mathbf{1}} \mathbf{A}^{\mathrm{T}}$ est appelée pseudo-inverse de Moore-Penrose et $\mathrm{x}$ est la meilleure solution approximative.
- Perspective de projection : $\boldsymbol{\lambda}=\left(\mathbf{A}^{\mathrm{T}} \mathbf{A}\right)^{-\mathbf{1}} \mathbf{A}^{\mathrm{T}} \mathrm{b}$ est la solution des moindres carrés du système.

**Tâche de code :**

In [None]:
def projection_matrix(B):
    """Compute the projection matrix onto the space spanned by `B`
    Args:
        B: ndarray of dimension (D, M), the basis for the subspace

    Returns:
        P: the projection matrix
    """
    return np.eye(B.shape[0]) # <-- EDIT THIS to compute the projection matrix


In [None]:
# @title Exécutez-moi pour tester votre code.

def test_projection_matrix(B):
  assert (projection_matrix(B) == (B @ np.linalg.inv(B.T @ B) @ B.T)).all(), "The projection matrix is incorrect"
  print("Nice! Your answer looks correct.")

B = np.array([[1,2,3],[4,5,6]])
test_projection_matrix(B)

In [None]:
# @title Réponse à la tâche de code (Essayez de ne pas jeter un coup d'œil avant d'avoir essayé sérieusement !)

def projection_matrix(B):
    """Compute the projection matrix onto the space spanned by `B`
    Args:
        B: ndarray of dimension (D, M), the basis for the subspace

    Returns:
        P: the projection matrix
    """
    return (B @ np.linalg.inv(B.T @ B) @ B.T)

test_projection_matrix(B)

### 1.3 Base Orthonormale - <font color='green'>`Avancé`</font>

En utilisant notre nouvelle capacité à projeter des vecteurs sur des sous-espaces, nous pouvons transformer n'importe quelle base (ensemble de vecteurs de base) en un ensemble de vecteurs de base orthonormaux.

***
<font color='Yellow'>`DÉFINITION`</font> `Base Orthonormale`

Considérons un espace vectoriel $V$ de dimension $n$ et une base $\left\{\mathbf{b}_1, \ldots, \mathbf{b}_n\right\}$ de $V$. Si
$$
\begin{aligned}
& \left\langle\mathbf{b}_i, \mathbf{b}_j\right\rangle=0 \text { pour } i \neq j \\
& \left\langle\mathbf{b}_i, \mathbf{b}_j\right\rangle=1 \text { pour } i=j
\end{aligned}
$$
est vrai pour tout $i, j=1, \ldots, n$, alors la base est appelée une base orthonormale (BON).
***

Elles sont très utiles dans plusieurs situations. Par exemple, si nous projetons des vecteurs en utilisant une base orthonormale pour $U$, alors
$$
\begin{aligned}
\pi_U(\mathbf{x}) & =\mathbf{B} \boldsymbol{\lambda} \\
& =\mathbf{B}\left(\mathbf{B}^T \mathbf{B}\right)^{-1} \mathbf{B}^T \mathbf{x} \\
& =\mathbf{B I}^{-1} \mathbf{B}^T \mathbf{x} \\
& =\mathbf{B} \mathbf{B}^T \mathbf{x}
\end{aligned}
$$

ce qui nécessite beaucoup moins de calculs.

Maintenant, comment obtenir une base orthonormale ? Une approche populaire est l'`orthogonalisation de Gram-Schmidt`. Elle permet d'obtenir une base orthogonale $\left(\mathbf{u}_1, \ldots, \mathbf{u}_n\right)$ à partir de n'importe quelle base $\left(\mathbf{b}_1, \ldots, \mathbf{b}_n\right)$ de $V$ comme suit :
$$
\begin{aligned}
& \mathbf{u}_1:=\mathbf{b}_1 \\
& \mathbf{u}_k:=\mathbf{b}_k-\pi_{\text {span }\left[\mathbf{u}_1, \ldots, \mathbf{u}_{k-1}\right]}\left(\mathbf{b}_k\right), k=2, \ldots, n
\end{aligned}
$$
Si nous allons plus loin et utilisons plutôt $\hat{\mathbf{u}}_k=\frac{\mathbf{u}_k}{\left\|\mathbf{u}_k\right\|}$ nous obtenons une base orthonormale !

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-xuvxK1QVMSvjcRLoPDShh8MIBV4lpEug8HedPtJvbYfrnIKjgN0e5CthxgJLEmwAEJMoUInVAHt_2vfYForMSojggu8w=s1600"
width="60%" />

***
<font color='Yellow'>`EXEMPLE`</font>

Considérons une base $\left(\boldsymbol{b}_1, \boldsymbol{b}_2\right)$ de $\mathbb{R}^2$, où
$$
\boldsymbol{b}_1=\left[\begin{array}{l}
2 \\
0
\end{array}\right], \quad \boldsymbol{b}_2=\left[\begin{array}{l}
1 \\
1
\end{array}\right].
$$
Alors
$$
\boldsymbol{u}_1:=\boldsymbol{b}_1=\left[\begin{array}{l}
2 \\
0
\end{array}\right], \\
\boldsymbol{u}_2:=\boldsymbol{b}_2-\pi_{\operatorname{span}\left[\boldsymbol{u}_1\right]}\left(\boldsymbol{b}_2\right)=\left[\begin{array}{l}
1 \\
1
\end{array}\right]-\left[\begin{array}{ll}
1 & 0 \\
0 & 0
\end{array}\right]\left[\begin{array}{l}
1 \\
1
\end{array}\right]=\left[\begin{array}{l}
0 \\
1
\end{array}\right]
$$

Vérifiez que $u_1$ et $u_2$ sont effectivement orthogonaux en vérifiant si leur produit scalaire est nul (ce qui signifie que leur angle est de 90 degrés). C'est-à-dire, si $u_1^Tu_2=0$.
***

**Tâche mathématique :**

Dans un projet financier, un data scientist souhaite construire un portefeuille d'actions qui minimise les risques et maximise les rendements. Pour ce faire, le data scientist peut utiliser une technique appelée analyse en composantes principales, qui implique de projeter les rendements des actions individuelles sur une base orthogonale. Supposons que les rendements de 4 actions soient représentés par la base de vecteurs linéairement indépendants $b_1=\left[\begin{array}{c}3 \\ 6 \\ -1 \\ -3\end{array}\right]$ et $b_2=\left[\begin{array}{c}-2 \\ -3 \\ -4 \\ 6\end{array}\right]$. Utilisez la méthode de Gram-Schmidt pour convertir cette base en une base orthogonale $\left(c_1, c_2\right)$.


**Réponse :**

**1. Trouver $c_1$ :**
$c_1$ est simplement $b_1$, donc nous pouvons le conserver tel quel :
$$c_1 = \begin{bmatrix} 3 \\ 6 \\ -1 \\ -3 \end{bmatrix}$$

**2. Trouver la projection orthogonale de $b_2$ sur $c_1$ :**
La projection orthogonale de $b_2$ sur $c_1$ peut être calculée comme suit :
$$c_2 = b_2 - \frac{b_2 \cdot c_1}{c_1 \cdot c_1} c_1 = b_2 - \frac{b_2^T c_1}{c_1^T c_1} c_1$$

En substituant les valeurs, en calculant les produits scalaires et en simplifiant :
$$c_2 = \left[\begin{array}{c}
\frac{4}{55} \\
\frac{63}{55} \\
-\frac{258}{55} \\
\frac{216}{55}
\end{array}\right]$$

Ainsi, la base orthogonale est $\{c_1, c_2\}$ :
$$c_1 = \begin{bmatrix} 3 \\ 6 \\ -1 \\ -3 \end{bmatrix}, \quad c_2 = \left[\begin{array}{c}
\frac{4}{55} \\
\frac{63}{55} \\
-\frac{258}{55} \\
\frac{216}{55}
\end{array}\right]$$

Note : Les vecteurs $c_1$ et $c_2$ ne sont pas normalisés dans cette approche.

## **Déterminants et Traces**

Imaginez que vous êtes un jardinier occupé à entretenir une paire de parterres de fleurs. Vous avez deux types de fleurs, des roses et des tulipes, et vous voulez comprendre comment la croissance des fleurs est influencée par la lumière du soleil et l'eau. Vous enregistrez les données suivantes dans une matrice :

$$
A = \begin{bmatrix}
1 & 1 \\
1 & 0
\end{bmatrix}
$$

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-yYjQcoB7PLHmdOmhIAEZj4UZP40ZeCB8bJb1RQ_-PJRbm6vkdiVMNqC_BQX0vscvE1EHOXgolBdZDoBIzW8tXQqGxoTA=s1600"
width="60%" />

Dans ce contexte de jardinage, le déterminant de la matrice pourrait représenter une mesure de la santé globale et de la vitalité des parterres de fleurs. Une valeur de déterminant positive, comme 10, pourrait signifier que à la fois la lumière du soleil et l'eau contribuent positivement à la croissance à la fois des roses et des tulipes, ce qui se traduit par des parterres de fleurs florissants. En revanche, une valeur de déterminant négative comme -10 pourrait indiquer un déséquilibre dans les facteurs de croissance, ce qui pourrait conduire à une croissance non saine ou entravée des fleurs.

Le déterminant de cette matrice est -1.

### 2.1 Déterminant - <font color='blue'>`Débutant`</font>

Géométriquement, le déterminant d'une matrice représente le facteur d'échelle par lequel la matrice transforme la surface (ou le volume dans des dimensions supérieures) d'une forme. Il indique dans quelle mesure la forme est étirée ou comprimée lors de la transformation. Si le déterminant est positif, la forme se dilate ; s'il est négatif, la forme s'inverse et se dilate ; et s'il est nul, la transformation réduit la forme dans des dimensions inférieures.

Supposons que nous soyons dans l'espace en 2D ($n=2$), et nous cherchons le déterminant de la matrice
$\boldsymbol{A}=\left[\begin{array}{ll}a_{11} & a_{12} \\ a_{21} & a_{22}\end{array}\right]$.

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-xIyfDYWTJ0bK2pBIvUTmEPNuceXe4Z89vck6wKY0kgq_lhckkHpuETS9qfXIlxwghpFnBaprLVf-bZs2SLWj3juz0X5Q=s1600"
width="40%" />

Alors, $\operatorname{det}(\boldsymbol{A})=\left|\begin{array}{ll}a_{11} & a_{12} \\ a_{21} & a_{22}\end{array}\right|=a_{11} a_{22}-a_{12} a_{21}$

***
<font color='Yellow'>`EXEMPLE`</font>

$\begin{aligned} \operatorname{det}(\boldsymbol{A})=\left|\begin{array}{ll}1 & 2 \\ 3 & 4\end{array}\right| =(1*4-2*3) =(4-6) =-2\end{aligned}$

$\begin{aligned} \operatorname{det}(\boldsymbol{A})=\left|\begin{array}{ll}1 & 0 \\ 3 & 4\end{array}\right| =(1*4-0*3) =(4-0) =4\end{aligned}$

$\begin{aligned} \operatorname{det}(\boldsymbol{A})=\left|\begin{array}{ll}1 & 2 \\ 3 & 0\end{array}\right| =(1*0-2*3) =(1-6) =-6\end{aligned}$
***

En général,


$\begin{aligned} \text{ Si } n=1,& \\ & \operatorname{det}(A)=\left|a_{11}\right|=a_{11}\end{aligned}$

$\begin{aligned} \text{ Si } n=2,& \\ & \operatorname{det}(\boldsymbol{A})=\left|\begin{array}{ll}a_{11} & a_{12} \\ a_{21} & a_{22}\end{array}\right|=a_{11} a_{22}-a_{12} a_{21}\end{aligned}$

$\begin{aligned} \text{ Si } n=3,& \\ & \operatorname{det}(\boldsymbol{A})=\left|\begin{array}{lll}a_{11} & a_{12} & a_{13} \\ a_{21} & a_{22} & a_{23} \\ a_{31} & a_{32} & a_{33}\end{array}\right| \\ & =(-1)^{1+1} a_{11}\left|\begin{array}{ll}a_{22} & a_{23} \\ a_{32} & a_{33}\end{array}\right|+(-1)^{1+2} a_{12}\left|\begin{array}{ll}a_{21} & a_{23} \\ a_{31} & a_{33}\end{array}\right|+(-1)^{1+3} a_{13}\left|\begin{array}{ll}a_{21} & a_{22} \\ a_{31} & a_{32}\end{array}\right| \\ & \end{aligned}$

Enfin, le déterminant peut également être utilisé pour déterminer si une matrice est inversible.
Cela est dû au fait que le déterminant d'une matrice et de son inverse sont inversement proportionnels. À mesure que le déterminant d'une matrice augmente, l'échelle de sa transformation augmente également, et l'échelle de son inverse diminue en conséquence. Si une matrice a un grand déterminant, son inverse aura un déterminant plus petit, et vice versa. Lorsque le déterminant est nul, la matrice n'est pas inversible.
Pour comprendre précisément pourquoi, dérivons la formule pour l'inverse d'une matrice $2\times2$ en utilisant l'élimination gaussienne.

$\boldsymbol{A}=\left[\begin{array}{ll}a_{11} & a_{12} \\ a_{21} & a_{22}\end{array}\right]$

$\left[\begin{array}{ll|ll}a_{11} & a_{12} & 1 & 0 \\ a_{21} & a_{22} & 0 & 1\end{array}\right]$

$\left[\begin{array}{cc|cc}1 & 0 & \frac{a_{22}}{a_{11} a_{22}-a_{12} a_{21}} & -\frac{a_{12}}{a_{11} a_{22}-a_{12} a_{21}} \\ 0 & 1 & \frac{-a_{21}}{a_{11} a_{22}-a_{12} a_{21}} & \frac{a_{11}}{a_{11} a_{22}-a_{12} a_{21}}\end{array}\right]$

$\begin{aligned} \boldsymbol{A}^{-\mathbf{1}} & =\frac{1}{a_{11} a_{22}-a_{12} a_{21}}\left[\begin{array}{cc}a_{22} & -a_{12} \\ -a_{21} & a_{11}\end{array}\right] \\ \boldsymbol{A}^{-\mathbf{1}} & =\frac{1}{\operatorname{det}(\boldsymbol{A})}\left[\begin{array}{cc}a_{22} & -a_{12} \\ -a_{21} & a_{11}\end{array}\right]\end{aligned}$

Nous pouvons voir comment le déterminant d'une matrice et de son inverse sont inversement proportionnels, et pourquoi l'inverse n'existe pas

 lorsque $det(A)=0$.

***
<font color='Yellow'>`THÉORÈME`</font> `Inversibilité`

Pour toute matrice carrée $\mathbf{A} \in \mathbb{R}^{n \times n}$, on a $\mathbf{A}$ est inversible si et seulement si $\operatorname{det}(\mathbf{A}) \neq 0$.
***

**Tâche mathématique :**

Vous êtes un astronaute explorant une planète lointaine réputée pour ses formations de cristaux particulières. Dans votre analyse, vous tombez sur une magnifique matrice de cristaux qui semble détenir les secrets de l'énergie de la planète. La matrice décrit la relation entre deux types de sources d'énergie : les rayons solaires et les impulsions magnétiques.

La matrice de cristaux que vous avez rassemblée ressemble à ceci :

$$
\begin{bmatrix}
5 & 2 \\
-3 & 7
\end{bmatrix}
$$

Votre directive de mission est de calculer le déterminant de cette matrice de cristaux pour déterminer l'équilibre énergétique et la stabilité potentielle de l'écosystème de la planète. Calculez le déterminant pour dévoiler les forces énigmatiques qui gouvernent l'harmonie énergétique de ce monde extraterrestre.

### 2.2 Trace - <font color='blue'>`Débutant`</font>

Le trace est une autre propriété importante d'une matrice de transformation. Le trace d'une matrice représente la somme de ses éléments diagonaux. Il correspond à la somme des étirements le long des axes principaux d'une transformation. Le trace capture l'effet global d'échelle de la transformation.

***
<font color='Yellow'>`DÉFINITION`</font> `TRACE`

Le trace d'une matrice carrée $\mathbf{A} \in \mathbb{R}^{n \times n}$ est défini comme
$$
\operatorname{tr}(\mathbf{A})=\sum_{i=1}^n a_{i i}
$$
***

***
<font color='Yellow'>`EXEMPLE`</font>

$\begin{aligned} \operatorname{tr}(\boldsymbol{A})=\operatorname{tr}\left[\begin{array}{ll}1 & 2 \\ 3 & 4\end{array}\right] = 1+4 =5\end{aligned}$

$\begin{aligned} \operatorname{tr}(\boldsymbol{A})=\operatorname{tr}\left[\begin{array}{ll}1 & 0 \\ 3 & 4\end{array}\right] = 1+4 =5\end{aligned}$

$\begin{aligned} \operatorname{tr}(\boldsymbol{A})=\operatorname{tr}\left[\begin{array}{ll}1 & 2 \\ 3 & 0\end{array}\right] = 1+0 = 1\end{aligned}$
***

**Tâche mathématique :**

Calculez le trace de la matrice suivante à partir de la tâche précédente :
$$
A=\begin{bmatrix}
5 & 2 \\
-3 & 7
\end{bmatrix}
$$

`ANSWER`
Pour calculer le trace d'une matrice, il suffit de faire la somme de ses éléments diagonaux. Dans ce cas, le trace de la matrice $A$ serait :

$$
\operatorname{tr}(A) = 5 + 7 = 12
$$

Ainsi, le trace de la matrice $A$ est égal à $12$.

## **Valeurs propres et vecteurs propres**

Imaginez que vous êtes un archéologue enquêtant sur une collection de poteries d'une ancienne civilisation. Pour comprendre les motifs sous-jacents dans les designs, vous décidez d'appliquer l'analyse en composantes principales (PCA) aux motifs de la collection. Chaque pièce de poterie est ornée de combinaisons uniques de deux motifs : des spirales et des formes géométriques.

Après des mesures minutieuses, vous construisez la matrice de covariance suivante basée sur les occurrences de ces motifs :

$$
\boldsymbol{A}=\left[\begin{array}{cc}
0.5 & 0 \\
0 & 2
\end{array}\right]
$$

Pour effectuer une PCA, vous devez d'abord effectuer une décomposition en valeurs propres de cette matrice de covariance afin de révéler les composants artistiques fondamentaux (vecteurs propres) qui façonnent l'esthétique des poteries ainsi que leur importance artistique correspondante (valeurs propres).

L'illustration suivante représente la transformation représentée par $A$ - les points sur la figure de gauche sont transformés en ceux montrés sur la figure de droite. Les flèches au milieu montrent les deux vecteurs propres et chaque $\lambda$ est leur valeur propre respective.

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-yhWf-K5IS6rw0jpuR20SAjxpGTWTJ6WtGtoY2dNrQoiGuwR9Msld8I_ZeEAiepWOk2kfuRlpfR--QKQyujOxj6RapwGg=s1600"
width="60%" />

Une valeur propre de 2 suggère que le motif des formes géométriques présente plus de variation par rapport au motif des spirales, qui a une valeur propre de 0.5. Les vecteurs propres fournissent des informations sur la manière dont les motifs sont liés et sur la manière dont ils contribuent aux variations globales observées dans la collection de poteries.

Supposons que la matrice de covariance était
$\boldsymbol{A}=\left[\begin{array}{cc}
1 & -1 \\
-1 & 1
\end{array}\right]$
à la place. Alors la figure serait comme indiquée ci-dessous.

<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-yxfZ21Sf782jxEJTAX0X7FRKG7O5ByeA3DZO292dBor33Wjpgt6BTwtZEwg0uWSM65grEiFjmQvnavrgCrg2N7pCiWmA=s1600"
width="60%" />

Les valeurs propres de 0 et 2 impliquent que la transformation de la matrice s'étire dans une direction (associée à la valeur propre 2) tout en s'effondrant complètement dans une autre direction (associée à la valeur propre 0).

Dans le contexte des motifs de poterie, cela signifierait que l'un des motifs (représenté par le vecteur propre associé à la valeur propre 0) n'a pas de variabilité et ne contribue pas aux différences de motifs dans la collection. Cela pourrait signifier qu'un des motifs est constant sur toutes les pièces de poterie.

Le motif associé au vecteur propre correspondant à la valeur propre 2 serait responsable de toute la variabilité et des différences de motifs observées dans la collection de poterie. Ce motif serait le contributeur principal aux variations de conception.

En termes plus simples, l'un des motifs reste inchangé sur toutes les pièces, tandis que l'autre motif présente des motifs variables qui conduisent aux différences observées. Cette situation pourrait indiquer une situation où l'un des motifs est constant (ou peut-être simplement un élément d'arrière-plan), et l'autre motif est la principale source d'expression artistique et de variation dans la collection.

***
<font color='Yellow'>`DÉFINITION`</font> `Valeurs Propres et Vecteurs Propres`

Soit $\mathbf{A} \in \mathbb{R}^{n \times n}$ une matrice carrée.
- Alors $\lambda$ est une valeur propre de $\mathbf{A}$ et $\mathbf{x} \in \mathbb{R}^n \backslash\{\mathbf{0}\}$ est le vecteur propre correspondant de $\mathbf{A}$ si
$$
\mathbf{A x}=\lambda \mathbf{x}.
$$
Nous appelons cette équation l'"équation des valeurs propres".
***

### 2.1 Valeurs Propres - <font color='blue'>`Débutant`</font>

Géométriquement, la valeur propre d'une matrice représente le facteur d'échelle selon lequel une transformation de matrice étire ou compresse un vecteur (vecteur propre). Elle indique dans quelle mesure la direction du vecteur change sous la transformation.

Pour calculer la valeur propre en utilisant le sens géométrique fourni :

1. Commencez avec l'équation : $A x = \lambda x$, où $A$ est la matrice, $\lambda$ est la valeur propre et $x$ est le vecteur propre.
2. Réarrangez pour obtenir $A x - \lambda x = 0$.
3. Factorisez $x$ pour obtenir $A x - \lambda I x = 0$, où $I$ est la matrice identité.
4. Factorisez à nouveau $x$ pour obtenir $(A - \lambda I) x = 0$.
5. Pour une solution non triviale ($x \neq 0$), la matrice $A - \lambda I$ doit être singulière, ce qui signifie que son déterminant est 0.
6. Mettez en place l'équation $\text{det}(A - \lambda I) = 0$ et résolvez pour $\lambda$. Cette équation vous donne les valeurs propres de la matrice $A$.

En résumé, la valeur propre est une valeur qui satisfait l'équation $A x = \lambda x$, ce qui signifie que lorsqu'une transformation de matrice est appliquée à un vecteur propre, le vecteur résultant est mis à l'échelle par la valeur propre. La valeur propre peut être trouvée en résolvant l'équation du déterminant $\text{det}(A - \lambda I) = 0$.


***
<font color='Yellow'>`EXEMPLE`</font>

$$
\boldsymbol{A}=\begin{bmatrix}
0.5 & 0 \\
0 & 2
\end{bmatrix}
$$
Trouver les valeurs propres $\left(\lambda_1, \lambda_2\right)$ :
$$
\begin{aligned}
& \operatorname{det}(\boldsymbol{A}-\lambda I)=0 \\
& \operatorname{det}\left(\begin{bmatrix}
0.5 & 0 \\
0 & 2
\end{bmatrix}-\lambda\begin{bmatrix}
1 & 0 \\
0 & 1
\end{bmatrix}\right)=0 \\
& \operatorname{det}\left(\begin{bmatrix}
0.5-\lambda & 0 \\
0 & 2-\lambda
\end{bmatrix}\right)=0 \\
& (0.5-\lambda)(2-\lambda)=0 \\
& 0.5-\lambda=0 \text { ou } 2-\lambda=0 \\
& \lambda_1=0.5 \text { et } \lambda_2=2
\end{aligned}
$$
***

**Tâche mathématique**

Calcul des valeurs propres de la matrice suivante :
$$
\boldsymbol{A}=\begin{bmatrix}
1 & 0.5 \\
0 & 1
\end{bmatrix}
$$

`Solution`


<img src=
"https://lh3.googleusercontent.com/drive-viewer/AITFw-xdFyBFBO8I9XX2FFN6VnD4DK_rKJxneSdhDAh8XtM70qfuMJmxOaFiqCV3doIl6W0gQTNJzmxVYuB9MuW9IXxl9dVEng=s1600"
width="60%" />

### 2.1 Vecteurs propres - <font color='orange'>`Intermédiaire`</font>

Géométriquement, un vecteur propre d'une matrice représente une direction dans l'espace qui reste inchangée en direction (à une mise à l'échelle près) lorsque la matrice est appliquée en tant que transformation. En d'autres termes, c'est un vecteur qui est seulement étiré ou comprimé par la matrice, sans changer son orientation.

Pour calculer le vecteur propre correspondant à une valeur propre donnée d'une matrice $A$ :

1. Commencez par l'équation $A x = \lambda x$, où $A$ est la matrice, $\lambda$ est la valeur propre, et $x$ est le vecteur propre.
2. Réarrangez pour obtenir $(A - \lambda I) x = 0$, où $I$ est la matrice identité.
3. Résolvez le système d'équations linéaires $(A - \lambda I) x = 0$ pour $x$.
4. Le vecteur solution $x$ est le vecteur propre correspondant à la valeur propre donnée $\lambda$.

En résumé, le vecteur propre est trouvé en résolvant l'équation $(A - \lambda I) x = 0$ pour le vecteur $x$, qui satisfait la relation de transformation $A x = \lambda x$ avec la valeur propre donnée.

***
<font color='Yellow'>`EXEMPLE`</font>

Souvenez-vous de l'exemple précédent
$\boldsymbol{A}=\left[\begin{array}{cc}
0.5 & 0 \\
0 & 2
\end{array}\right]$
avec les valeurs propres $\lambda_1 =0.5, \lambda_2 =2$.

Trouver les vecteurs propres $\left(v_1, v_2\right)$ :
$$
\begin{aligned}
& (A-\lambda I) x=0 \\
& {\left[\begin{array}{cc}
0.5-\lambda & 0 \\
0 & 2-\lambda
\end{array}\right] x=0}
\end{aligned}
$$
Pour $\lambda=0.5$
$$
\left[\begin{array}{cc}
0 & 0 \\
0 & 1.5
\end{array}\right] x=0, \quad \text { Donc } v_1=\left[\begin{array}{l}
1 \\
0
\end{array}\right]
$$
Pour $\lambda=2$
$$
\left[\begin{array}{cc}
-1.5 & 0 \\
0 & 0
\end{array}\right] x=0, \quad \text { Donc } v_2=\left[\begin{array}{l}
0 \\
1
\end{array}\right]
$$

***

**Tâche mathématique :**

Supposons que vous travailliez sur un projet de vision par ordinateur et que vous souhaitiez réduire la dimensionnalité des données d'image pour améliorer la précision de la classification. Vous pouvez utiliser l'analyse en composantes principales (PCA) pour trouver les directions les plus importantes de variation dans les données. Étant donné la matrice de covariance suivante d'un ensemble de 3 images :

$$
\boldsymbol{A}=\left[\begin{array}{lll}
1 & 0 & 0 \\
4 & 5 & 6 \\
7 & 8 & 9
\end{array}\right]
$$
Effectuez une décomposition en valeurs propres sur la matrice de covariance de l'ensemble de données pour identifier les composantes principales (vecteurs propres) et leurs valeurs propres associées.

a) Quelles sont ses valeurs propres $\lambda_1, \lambda_2, \lambda_3$ ?

b) Quels sont ses vecteurs propres $v_1, v_2, v_3$ ?

**RÉPONSE**

Calcul des valeurs propres $\left(\lambda_1, \lambda_2, \lambda_3\right)$ :
$$
\operatorname{det}(\boldsymbol{A}-\lambda I)=\mathbf{0}
$$
$$
\begin{aligned}
& \operatorname{det}\left(\left[\begin{array}{lll}
1 & 0 & 0 \\
4 & 5 & 6 \\
7 & 8 & 9
\end{array}\right]-\lambda\left[\begin{array}{lll}
1 & 0 & 0 \\
0 & 1 & 0 \\
0 & 0 & 1
\end{array}\right]\right)=0 \\
& \operatorname{det}\left(\left[\begin{array}{ccc}
1-\lambda & 0 & 0 \\
4 & 5-\lambda & 6 \\
7 & 8 & 9-\lambda
\end{array}\right]\right)=0 \\
& (-1)^{1+1}(1-\lambda)\left|\begin{array}{cc}
5-\lambda \\
8 & 6-\lambda
\end{array}\right|=0 \\
& (1-\lambda)((5-\lambda)(9-\lambda)-48)=0 \\
& (1-\lambda)\left(45-5 \lambda-9 \lambda+\lambda^2-48\right)=0 \\
& (1-\lambda)\left(\lambda^2-14 \lambda-3\right)=0 \\
& 1-\lambda=0 \quad \text { ou } \lambda^2-14 \lambda-3=0 \\
& \lambda_1=1, \quad \lambda_2=7+2 \sqrt{13}, \quad \lambda_3=7-2 \sqrt{13}
\end{aligned}
$$

Calcul des vecteurs propres $\left(v_1, v_2, v_3\right)$ :
$$
\begin{aligned}
& (A-\lambda I) x=0 \\
& {\left[\begin{array}{ccc}
1-\lambda & 0 & 0 \\
4 & 5-\lambda & 6 \\
7 & 8 & 9-\lambda
\end{array}\right] x=0}
\end{aligned}
$$
$$
\left[\begin{array}{ccc}
1-\lambda & 0 & 0 \\
4 & 5-\lambda & 6 \\
7 & 8 & 9-\lambda
\end{array}\right] \boldsymbol{x}=\mathbf{0}
$$
Pour $\lambda=1$
$$
\left[\begin{array}{lll}
0 & 0 & 0 \\
4 & 4 & 6 \\
7 & 8 & 8
\end{array}\right] x=0, \quad \text { Ainsi } \quad v_1=\left[\begin{array}{c}
4 \\
-\frac{5}{2} \\
-1
\end{array}\right]
$$
$$
\begin{aligned}
& \text { Pour } \lambda=7+2 \sqrt{13} \\
& {\left[\begin{array}{ccc}
-6-2 \sqrt{13} & 0 & 0 \\
4 & -2-2 \sqrt{13} & 6 \\
7 & 8 & 2-2 \sqrt{13}
\end{array}\right] x=0, \quad \text { Ainsi } v_2=\left[\begin{array}{c}
\mathbf{0} \\
\mathbf{1}-\sqrt{\mathbf{1 3}} \\
\hline \mathbf{4} \\
\mathbf{- 1}
\end{array}\right]}
\end{aligned}
$$
Pour $\lambda=7-2 \sqrt{13}$
$$
\left[\begin{array}{ccc}
-6+2 \sqrt{13} & 0 & 0 \\
4 & -2+2 \sqrt{13} & 6 \\
7 & 8 & 2+2 \sqrt{13}
\end{array}\right] x=0, \quad \text { Ainsi } v_3=\left[\begin{array}{c}
\mathbf{0} \\
\mathbf{1}+\sqrt{\mathbf{1 3}} \\
\hline \mathbf{4} \\
\mathbf{- 1}
\end{array}\right]
$$

### 2.1 Décomposition en Valeurs Propres - <font color='orange'>`Intermédiaire`</font>

La décomposition en valeurs propres d'une matrice implique l'expression de la matrice comme une combinaison de ses vecteurs propres et de ses valeurs propres. Elle nous permet de décomposer une transformation complexe en transformations plus simples le long de directions spécifiques, représentées par les vecteurs propres, chacune étant mise à l'échelle par sa valeur propre correspondante. Cela nous donne un aperçu de la façon dont la matrice déforme et met à l'échelle l'espace dans différentes directions.

***
<font color='Yellow'>`DÉFINITION`</font> `Décomposition en Valeurs Propres`

$\mathbf{A} \in \mathbb{R}^{n \times n}$ peut être factorisée en
$$
\mathbf{A}=\mathbf{P D P}^{-1}
$$
où $\mathbf{P} \in \mathbb{R}^{n \times n}$ est une matrice dont les colonnes sont tous les vecteurs propres, et $\mathbf{D}$ est une matrice diagonale dont les entrées diagonales sont les valeurs propres de $\mathbf{A}$
- si et seulement si les vecteurs propres de $\mathbf{A}$ forment une base de $\mathbf{R}^n$.

En bref, seules les matrices non défectueuses peuvent être diagonalisées de cette manière.
***

***
<font color='Yellow'>`EXEMPLE`</font>

\begin{aligned}
& \boldsymbol{A}=\left[\begin{array}{cc}
0,5 & 0 \\
0 & 2
\end{array}\right] ; \quad \text { Valeurs Propres } \lambda_1=0,5, \lambda_2=2 ; \quad \text { Vecteurs Propres } \boldsymbol{v}_{\mathbf{1}}=\left[\begin{array}{l}
1 \\
0
\end{array}\right], \boldsymbol{v}_2=\left[\begin{array}{l}
0 \\
1
\end{array}\right] \\
& \boldsymbol{A}=\boldsymbol{P} \boldsymbol{D P}^{-1}=\left[\begin{array}{ll}
v_1 & v_2
\end{array}\right]\left[\begin{array}{cc}
\lambda_1 & 0 \\
0 & \lambda_2
\end{array}\right]\left[\begin{array}{ll}
v_1 & v_2
\end{array}\right]^{-1}=\left[\begin{array}{cc}
1 & 0 \\
0 & 1
\end{array}\right]\left[\begin{array}{cc}
0,5 & 0 \\
0 & 2
\end{array}\right]\left[\begin{array}{ll}
1 & 0 \\
0 & 1
\end{array}\right]^{-1}
\end{aligned}
***

Imaginez que vous explorez une maison hantée remplie d'objets effrayants. Pour mieux comprendre l'aspect lugubre, vous décidez d'utiliser la décomposition en valeurs propres. Vous collectez des données sur les occurrences de deux types d'objets effrayants : les chauves-souris et les chats noirs.

Vous obtenez la matrice de covariance suivante qui résume les relations entre les apparitions de chauves-souris et de chats noirs dans vos données sur plusieurs jours :

$$
\begin{bmatrix}
1 & 3 \\
3 & 1
\end{bmatrix}
$$

Effectuez une décomposition en valeurs propres sur cette matrice de covariance pour révéler les composantes spectrales (vecteurs propres) qui définissent les vibrations inquiétantes et leurs intensités spectrales correspondantes (valeurs propres).

a) Quelles sont ses valeurs propres $\lambda_1, \lambda_2$ ?

b) Quels sont ses vecteurs propres $v_1, v_2$ ?

c) Quelle est sa décomposition en valeurs propres $A = PDP^{-1}$ ?

`SOLUTION`
>\begin{aligned}
\lambda_1=-2,
\lambda_2=4,
v_1 = {\left[\begin{array}{c}
1 \\
-1
\end{array}\right]} ,
v_2 = {\left[\begin{array}{c}
1 \\
1
\end{array}\right]} ,
A = {\left[\begin{array}{cc}
1 & 1 \\
-1 & 1
\end{array}\right]}
 {\left[\begin{array}{cc}
-2 & 0 \\
0 & 4
\end{array}\right]}
 {\left[\begin{array}{cc}
\frac{1}{2} & -\frac{1}{2} \\
\frac{1}{2} & \frac{1}{2}
\end{array}\right]}
\end{aligned}

## **Exemple : Analyse en Composantes Principales (ACP)**

Nous mettrons en œuvre l'algorithme de l'ACP en utilisant la perspective de la projection. Nous implémenterons d'abord l'ACP, puis nous l'appliquerons à l'ensemble de données des chiffres MNIST.

Imaginez que vous ayez un tas de points de données, comme des images de chiffres manuscrits provenant de différentes personnes (c'est l'ensemble de données MNIST). Chaque point de données ressemble à une petite flèche dans un espace multidimensionnel. Mais parfois, cet espace est trop compliqué, et il est difficile de voir les vrais motifs.

L'ACP vient à la rescousse ! C'est comme un tour de magie qui nous aide à simplifier les choses. Voici comment cela fonctionne :

1. **Collectez Vos Données :** Supposons que vous ayez des données d'images montrant comment différentes personnes écrivent les chiffres de 0 à 9 (comme l'ensemble de données MNIST). Vous organisez ces données dans une matrice appelée "X" où chaque ligne est un vecteur de pixels pour chaque image de chiffre manuscrit :

   $$ X = images = \begin{bmatrix}
   \text{pixel}_1 & \text{pixel}_1 & \text{pixel}_1 \\
   \text{pixel}_2 & \text{pixel}_2 & \text{pixel}_2 \\
   \vdots & \vdots & \vdots \\
   \text{pixel}_n & \text{pixel}_n & \text{pixel}_n \\
   \end{bmatrix} $$

In [None]:
# Loding MNIST dataset
digits = load_digits(n_class=6) # low-dimensional MNIST dataset
images, labels = digits.data, digits.target
size = 8
if True: # Make it True to use the high-dimensional MNIST dataset
    images, labels = fetch_openml('mnist_784', version=1, return_X_y=True)
    size = 28
print("Matix shape:", images.shape)
print("Dimension of each image vector is:", size*size)
get_ipython().run_line_magic('matplotlib', 'inline')

In [None]:
# Plotting the first digit from the dataset:
plt.figure(figsize=(4,4))
images = images.to_numpy()
plt.imshow(images[0].reshape((size,size)), cmap='gray');
plt.axis("off")
plt.title(f"First digit from the {size*size}-dimensional digits dataset", fontsize=16)

# Plotting the first 25 digits from the dataset:
fig, axs = plt.subplots(nrows=10, ncols=10, figsize=(6, 6))
for idx, ax in enumerate(axs.ravel()):
    ax.imshow(images[idx].reshape((size, size)), cmap=plt.cm.binary)
    ax.axis("off")
_ = fig.suptitle(f"A selection from the {size*size}-dimensional digits dataset", fontsize=16)

2. **Normalisation des Données :** Avant de mettre en œuvre l'ACP, nous devrons effectuer un prétraitement des données pour garantir que les points de données sont plus centrés autour de l'origine.
Les étapes de prétraitement que nous allons effectuer sont les suivantes :
 1. Convertir l'encodage en entier non signé 8 (uint8) des pixels en un nombre à virgule flottante compris entre 0 et 1.
 2. Soustraire de chaque image la moyenne $\boldsymbol \mu$.
 3. Mettre à l'échelle chaque dimension de chaque image par $\frac{1}{\sigma}$ où $\sigma$ est l'écart type.

 Les étapes ci-dessus garantissent que nos images auront une moyenne nulle et une variance de un. Ces étapes de prétraitement sont également connues sous le nom de [normalisation des données ou mise à l'échelle des caractéristiques](https://fr.wikipedia.org/wiki/Normalisation_de_donn%C3%A9es).

In [None]:
def normalize(X):
    """Normalize the given dataset X
    Args:
        X: ndarray, dataset

    Returns:
        (Xbar, mean, std): tuple of ndarray, Xbar is the normalized dataset
        with mean 0 and standard deviation 1; mean and std are the
        mean and standard deviation respectively.

    Note:
        You will encounter dimensions where the standard deviation is
        zero, for those when you do normalization the normalized data
        will be NaN. Handle this by setting using `std = 1` for those
        dimensions when doing normalization.
    """
    mu = np.mean(X, axis=0)
    std = np.std(X, axis=0)
    std_filled = std.copy()
    std_filled[std==0] = 1.
    Xbar = ((X-mu)/std_filled)
    return Xbar, mu, std

3. **Calcul de la Matrice de Covariance :** Vous calculez la "covariance" entre les différentes colonnes de vos données centrées. La covariance vous indique comment les colonnes changent ensemble. Mathématiquement, vous calculez la matrice de covariance en multipliant la matrice transposée $X^T$ avec $X$ :

   $$ \text{Matrice de Covariance (S)} = X^T \cdot X $$

4. **Trouver les Vecteurs Propres et les Valeurs Propres :** Cette partie semble complexe, mais suivez-moi. Les vecteurs propres sont des directions spéciales dans l'espace de vos données, et les valeurs propres vous indiquent l'importance de ces directions. Lorsque vous les calculez, vous trouvez les composantes principales. Heureusement, nous savons maintenant comment les calculer à partir des sections précédentes.

5. **Trier les Vecteurs Propres par les Valeurs Propres :** Vous arrangez les vecteurs propres dans l'ordre de leurs valeurs propres correspondantes, de la plus grande à la plus petite. De cette manière, vous placez d'abord les composantes les plus importantes.

6. **Choisir Combien de Composantes Garder :** Selon la quantité d'informations que vous souhaitez conserver, vous décidez combien de vecteurs propres (composantes principales) à garder. Généralement, vous conservez les premiers qui capturent la majeure partie de la variation des données.

7. **Projeter Vos Données :** Vous multipliez maintenant vos données centrées par la matrice de projection des vecteurs propres sélectionnés. Cela transforme vos données en un nouvel espace, où chaque point de données est décrit avec moins de dimensions, les composantes principales.

Et voilà ! Vous comprenez maintenant comment utiliser l'ACP pour simplifier vos données. Ces nouvelles dimensions (composantes principales) sont comme de nouvelles façons de regarder vos données qui mettent en évidence l'essentiel. C'est comme transformer un puzzle complexe en une image plus simple.

N'oubliez pas, l'ACP est comme un outil qui vous aide à vous concentrer sur l'histoire principale que vos données veulent raconter, sans vous embourber dans tous les détails supplémentaires. Essayons maintenant de la mettre en œuvre.

### 2.1 ACP pour un ensemble de données de faible dimension - <font color='blue'>`Débutant`</font>

Maintenant, nous allons mettre en œuvre l'ACP en suivant le processus décrit ci-dessus. C'est-à-dire, commencez par normaliser les données (`normaliser`). Ensuite, trouvez les valeurs propres et les vecteurs propres correspondants de la matrice de covariance $S$.
Triez selon les plus grandes valeurs propres et les vecteurs propres correspondants (`valeurs_propres`).
Après ces étapes, nous pouvons ensuite calculer la projection et la reconstruction des données sur l'espace engendré par les $n$ premiers vecteurs propres.

**Tâche de code :**

In [None]:
def PCA(X, num_components):
    """
    Args:
        X: ndarray of size (N, D), where D is the dimension of the data,
           and N is the number of datapoints
        num_components: the number of principal components to use.
    Returns:
        X_reconstruct: ndarray of the reconstruction
        of X from the first `num_components` principal components.
    """
    # your solution should take advantage of the functions we have given you and that you have implemented above.

    # first perform normalization on the digits so that they have zero mean and unit variance
    # Then compute the data covariance matrix S (remember the convariance matrix is given by the dot product)
    ### TODO

    # Next find eigenvalues and corresponding eigenvectors for S
    ### TODO

    # find indices for the largest eigenvalues, use them to sort the eigenvalues and
    # corresponding eigenvectors. Take a look at the documenation fo `np.argsort`
    # (https://docs.scipy.org/doc/numpy/reference/generated/numpy.argsort.html),
    # which might be useful
    ### TODO

    # dimensionality reduction of the original data
    ### TODO

    # reconstruct the images from the lower dimensional representation
    ### TODO

    return X # <-- EDIT THIS to return the reconstruction of X

In [None]:
# @title Exécutez-moi pour tester votre code.

NUM_DATAPOINTS = 1024
X = (images.reshape(-1, size * size)[:NUM_DATAPOINTS]) / 255.
Xbar, mu, std = normalize(X)

def test_PCA(PCA):
  for num_component in range(1, 20):
    from sklearn.decomposition import PCA as SKPCA
    # We can compute a standard solution given by scikit-learn's implementation of PCA
    pca = SKPCA(n_components=num_component, svd_solver='full')
    sklearn_reconst = pca.inverse_transform(pca.fit_transform(Xbar))
    reconst = PCA(Xbar, num_component)
    np.testing.assert_almost_equal(reconst, sklearn_reconst)
    print("number of components:",num_component,"reconstruction error:", np.square(reconst - sklearn_reconst).sum())

test_PCA(PCA)

In [None]:
# @title Réponse à la tâche de code (Essayez de ne pas regarder avant d'avoir bien essayé !)

def PCA(X, num_components):
    """
    Args:
        X: ndarray of size (N, D), where D is the dimension of the data,
           and N is the number of datapoints
        num_components: the number of principal components to use.
    Returns:
        X_reconstruct: ndarray of the reconstruction
        of X from the first `num_components` principal components.
    """
    # first perform normalization on the digits so that they have zero mean and unit variance
    # Then compute the data covariance matrix S
    S = 1.0/len(X) * np.dot(X.T, X)

    # Next find eigenvalues and corresponding eigenvectors for S
    eig_vals, eig_vecs = eig(S)

    # find indices for the largest eigenvalues, use them to sort the eigenvalues and
    # corresponding eigenvectors. Take a look at the documenation fo `np.argsort`
    # (https://docs.scipy.org/doc/numpy/reference/generated/numpy.argsort.html),
    # which might be useful
    eig_vals, eig_vecs = eig_vals[:num_components], eig_vecs[:, :num_components]

    # dimensionality reduction of the original data
    B = np.real(eig_vecs)
    # Z = X.T.dot(W)
    # reconstruct the images from the lower dimensional representation
    reconst = (projection_matrix(B) @ X.T)
    return reconst.T

test_PCA(PCA)

FÉLICITATIONS !!! Vous comprenez maintenant et savez comment mettre en œuvre l'ACP (une version simplifiée où nous utilisons la décomposition en valeurs propres au lieu de la décomposition en valeurs singulières plus générale), l'une des techniques de réduction de dimension les plus populaires.

Plus nous utilisons de composantes principales, plus notre erreur de reconstruction sera faible. Maintenant, répondons à la question suivante :

> Combien de composantes principales avons-nous besoin afin d'atteindre une erreur quadratique moyenne (EQM) de moins de 100 pour notre ensemble de données ?

Nous avons fourni une fonction dans la cellule suivante qui calcule l'erreur quadratique moyenne (EQM), ce qui sera utile pour répondre à la question ci-dessus.

In [None]:
def mse(predict, actual):
    """Helper function for computing the mean squared error (MSE)"""
    return np.square(predict - actual).sum(axis=1).mean()

Nous pouvons maintenant calculer l'erreur de reconstruction pour chaque nombre de composantes principales utilisées.

In [None]:
loss = []
reconstructions = []
# iterate over different numbers of principal components, and compute the MSE
for num_component in range(1, 100):
    reconst = PCA(Xbar, num_component)
    error = mse(reconst, Xbar)
    reconstructions.append(reconst)
    # print('n = {:d}, reconstruction_error = {:f}'.format(num_component, error))
    loss.append((num_component, error))

reconstructions = np.asarray(reconstructions)
reconstructions = reconstructions * std + mu # "unnormalize" the reconstructed image
loss = np.asarray(loss)
print("Loss/Error: ", loss)

Nous pouvons également mettre ces nombres en perspective en les représentant graphiquement.

In [None]:
fig, ax = plt.subplots()
ax.plot(loss[:,0], loss[:,1]);
ax.axhline(10**len(str(size)), linestyle='--', color='r', linewidth=2)
ax.xaxis.set_ticks(np.arange(1, 100, 5));
ax.set(xlabel='num_components', ylabel='MSE', title='MSE vs number of principal components');

Mais les chiffres ne nous disent pas tout ! Qu'est-ce que cela signifie qualitativement pour la perte de passer d'environ 55.0 à moins de 10.0 ? (ou de 550 à 100 pour l'ensemble de données à haute dimension)

Découvrons-le ! Dans la cellule suivante, nous dessinons l'image la plus à gauche qui est le chiffre original. Ensuite, nous montrons la reconstruction de l'image à droite, en fonction du nombre décroissant de composantes principales utilisées.

In [None]:
@interact(image_idx=(0, 1000))
def show_num_components_reconst(image_idx):
    fig, ax = plt.subplots(figsize=(20., 20.))
    actual = X[image_idx]
    # concatenate the actual and reconstructed images as large image before plotting it
    x = np.concatenate([actual[np.newaxis, :], reconstructions[:, image_idx]])
    ax.imshow(np.hstack(x.reshape(-1, size, size)[np.arange(10)]),
              cmap='gray');
    ax.axvline(size, color='orange', linewidth=2)

Nous pouvons également parcourir les reconstructions pour d'autres chiffres. Une fois de plus, l'interaction devient pratique pour visualiser la reconstruction.

In [None]:
@interact(i=(0, 10))
def show_pca_digits(i=1):
    """Show the i th digit and its reconstruction"""
    plt.figure(figsize=(4,4))
    actual_sample = X[i].reshape(size,size)
    reconst_sample = (reconst[i, :] * std + mu).reshape(size, size)
    plt.imshow(np.hstack([actual_sample, reconst_sample]), cmap='gray')
    plt.show()

### 2.2 PCA pour un ensemble de données à haute dimension - <font color='orange'>`Intermédiaire`</font>

Parfois, la dimension de notre ensemble de données peut être plus grande que le nombre d'échantillons que nous avons. Dans ce cas, il peut être inefficace d'effectuer la PCA avec notre mise en œuvre ci-dessus. À la place, nous pouvons mettre en œuvre la PCA de manière plus efficace, que nous appelons "PCA pour les données à haute dimension" (PCA_high_dim).

Voici les étapes pour effectuer la PCA sur un ensemble de données à haute dimension :
 1. Calculer la matrice $\boldsymbol X\boldsymbol X^T$ (une matrice de taille $N$ par $N$ avec $N \ll D$)
 2. Calculer les valeurs propres $\lambda$ et les vecteurs propres $V$ pour $\boldsymbol X\boldsymbol X^T$
 3. Calculer les vecteurs propres pour la matrice de covariance d'origine comme $\boldsymbol X^T\boldsymbol V$. Choisir les vecteurs propres associés aux M plus grandes valeurs propres pour former la base du sous-espace principal $U$.
 4. Calculer la projection orthogonale des données sur le sous-espace engendré par les colonnes de $\boldsymbol U$.

**Tâche de code :**

In [None]:
def PCA_high_dim(X, n_components):
    """Compute PCA for small sample size but high-dimensional features.
    Args:
        X: ndarray of size (N, D), where D is the dimension of the sample,
           and N is the number of samples
        num_components: the number of principal components to use.
    Returns:
        X_reconstruct: (N, D) ndarray. the reconstruction
        of X from the first `num_components` pricipal components.
    """
    return X # <-- EDIT THIS to return the reconstruction of X

Étant donné le même jeu de données, `PCA_high_dim` et `PCA` devraient donner la même sortie. En supposant que nous ayons correctement implémenté `PCA`, nous pouvons alors utiliser `PCA` pour tester la justesse de `PCA_high_dim`. Nous pouvons utiliser cette __invariance__ pour tester notre implémentation de `PCA_high_dim`, en supposant que nous ayons correctement implémenté `PCA`.

In [None]:
# @title Exécutez-moi pour tester votre code.
def test_PCA_high_dim(PCA_high_dim):
  np.testing.assert_almost_equal(PCA(Xbar, 2), PCA_high_dim(Xbar, 2))
  print("Nice! Your answer looks correct.")

test_PCA_high_dim(PCA_high_dim)

In [None]:
# @title Réponse à la tâche de code (Essayez de ne pas regarder avant d'avoir bien essayé !)

def PCA_high_dim(X, n_components):
    """Compute PCA for small sample size but high-dimensional features.
    Args:
        X: ndarray of size (N, D), where D is the dimension of the sample,
           and N is the number of samples
        num_components: the number of principal components to use.
    Returns:
        X_reconstruct: (N, D) ndarray. the reconstruction
        of X from the first `num_components` pricipal components.
    """
    N, D = X.shape
    M = np.dot(X, X.T) / N
    eig_vals, eig_vecs = eig(M)
    eig_vals, eig_vecs = eig_vals[:n_components], eig_vecs[:, :n_components]
    U = (X.T @ (eig_vecs))
    answer = np.zeros((N, D))
    answer = ((U @ np.linalg.inv(U.T @ U) @ U.T) @ X.T).T
    return answer

test_PCA_high_dim(PCA_high_dim)

Maintenant comparons le temps d'exécution entre `PCA` et `PCA_high_dim`.

**Conseils pour exécuter des tests de performances ou du code computationnellement coûteux** :
Lorsque vous avez des calculs qui prennent un temps non négligeable, essayez de séparer le code qui génère la sortie du code qui analyse les résultats (par exemple, tracez les résultats, calculez les statistiques des résultats). De cette manière, vous n'avez pas besoin de recalculer lorsque vous souhaitez produire davantage d'analyses.

In [None]:
NUM_DATAPOINTS = 100
X = (images.reshape(-1, size * size)[:NUM_DATAPOINTS]) / 255.
Xbar, mu, std = normalize(X)

%time PCA(Xbar, 2)
%time PCA_high_dim(Xbar, 2)
pass

## Retour

Veuillez fournir des commentaires que nous pouvons utiliser pour améliorer nos travaux pratiques à l'avenir.

In [None]:
# @title Générer un formulaire de commentaires. (Exécuter la cellule)
from IPython.display import HTML

HTML(
    """
<iframe
	src="https://forms.gle/Cg9aoa7czoZCYqxF7",
  width="80%"
	height="1200px" >
	Loading...
</iframe>
"""
)

<img src="https://baobab.deeplearningindaba.com/static/media/indaba-logo-dark.d5a6196d.png" width="50%" />