# Notions d'algèbre linéaire


## Introduction

Ce document est un traduction "libre" et approximative du cours de Zico Kolter : [Linear Algebra Review and Reference](https://see.stanford.edu/materials/aimlcs229/cs229-linalg.pdf), aggrémenté de quelques exemples Python. Les lecteurs sont fortement encouragés à se référer au document d'origine!


## Concepts de base et notation

L'algèbre linéaire fournit les outils permettant de représenter et manipuler simplement des ensembles d'équations linaires.

\begin{align}
     4 x_1 - 5 x_2 & = -13 \\
    -2 x_1 + 3 x_2 & =  9  
\end{align}

Il est possible à partir de ces deux équiations à deux variables de trouver une unique solution pour $x_1$ et $x_2$ (à moins que les équations soient en quelque sorte dégénérées, par exemple si la seconde équation est un multiple de la première). Dans notre exemple il n'y a une solution unique. En notation matricielle, le système précédent peut être écrit de manière plus compacte :

\begin{equation*}
Ax=b \\
\text{ avec } A = \begin{bmatrix}
    4  & -5 \\
    -2 & 3
\end{bmatrix} 
\text{ , }
b = \begin{bmatrix}
-13 \\
9
\end{bmatrix} 
\end{equation*}

### Exemple de définition numpy

L'exemple précédent peut s'écrire de la manière suivante avec numpy :

In [2]:
import numpy as np
A = np.matrix([[4,-5], [-2, 3]])
b = np.matrix([-13,9]).transpose()
print("A = \n",A)
print("b = \n",b)

A = 
 [[ 4 -5]
 [-2  3]]
b = 
 [[-13]
 [  9]]




## Notations de base

Nous utilisons les notations suivantes:

- $A \in \mathbb{R}^{m \times n}$ définit une matrice ayant $m$ lignes et $n$ colonnes dans laquelle les élements sont des nombres réels.

- $x \in \mathbb{R}^n$ définit un vecteur à $n$ éléments. Généralement un vecteur $x$ est un **vecteur en colonne**, c'est à dire une matrice ayant une ligne et $n$ colonnes (soit une matrice $\mathbb{R}^{1 \times n}$). Si l'on veut décrire un **vecteur ligne** ayant 1 ligne et $n$ colonnes, on écrit $x^T$ ($x^T$ veut dire la transposée de $x$, que nous allons décrire bientôt). 

- Le $i^{eme}$ élément d'un vecteur $x$ se note $x_i$ :

\begin{equation*}
x = \begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix}
\end{equation*}

- La notation $a_ij$ (ou $A_{ij}$, $A_{i,j}$, etc) définit l'élément de $A$ présent à la $i^{eme}$ ligne et à la $j^{ieme}$ colonne:

\begin{equation*}
A = \begin{bmatrix}
a_{11} & a_{12} & \dots & a_{1n} \\
a_{21} & a_{22} & \dots & a_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
a_{m1} & a_{m2} & \dots & a_{mn}
\end{bmatrix}
\end{equation*}

- La $j^{eme}$ colonne de A se note $a_j$ ou $A_{:,j}$ :

\begin{equation*}
A = \begin{bmatrix}
\rvert & \rvert	&       & \rvert \\
a_1 & a_2 & \dots & a_n \\
\rvert & \rvert	&       & \rvert 
\end{bmatrix}
\end{equation*}

- La $i^{eme}$ ligne de A se note $a_i^T$ ou $A_{i,:}$ :

\begin{equation*}
A = \begin{bmatrix}
- & a_1^T & - \\
- & a_2^T & - \\
  & \vdots & \\
- & a_m^T & - 
\end{bmatrix}
\end{equation*}


### Manipulation avec numpy 

> Dans numpy la première ligne et la premiere colonne commencent à 0 et non à 1 comme dans les conventions mathématiques classiques.

In [3]:
a22 = A[1,1]
print("La valeur de l'element a22 est :\n",a22)

a2 = A[:,1]
print("Le vecteur de la deuxieme colonne a2 est :\n",a2)

aT2 = A[1,:]
print("Le vecteur de la deuxieme ligne aT2 est :\n",aT2)

La valeur de l'element a22 est :
 3
Le vecteur de la deuxieme colonne a2 est :
 [[-5]
 [ 3]]
Le vecteur de la deuxieme ligne aT2 est :
 [[-2  3]]


## Multiplication matricielle

Le produit de deux matrices $A \in \mathbb{R}^{m \times n}$ et  $B \in \mathbb{R}^{n \times p}$ donne la matrice:

\begin{equation*}
C = AB \in \mathbb{R}^{m \times p}, \\
\end{equation*}

où

\begin{equation*}
C_{ij} = \sum_{k = 1}^n A_{ik}B_{kj}
\end{equation*}

Notez que pour que le produit matriciel existe le nombre de colonnes de $A$ doit être égal au nombre de lignes de $B$. Etudions maintenant quelques cas particuliers:

### Multiplication de deux vecteurs entre eux

#### Produit scalaire 

Etant donnés deux vecteurs $x,y \in \mathbb{R}^{n}$, la quantité $x^Ty$ est un nombre réel appelé le produit scalaire des deux vecteurs. Cette opération est aussi appelée **dot product** ou **inner product** en anglais.

\begin{equation*}
x^Ty \in \mathbb{R} = \sum_{i = 1}^n x_{i}y_{i}
\end{equation*}

Notez que l'égalité suivante est toujours vérifiée : $x^Ty = y^Tx$
On note aussi le produit scalaire de $x$ et $y$: $x \centerdot y$.

#### Produit extérieur

Etant donnés deux vecteurs $x \in \mathbb{R}^{m}$ et $y \in \mathbb{R}^{n}$ (ils n'ont pas à être de la même dimension), $xy^T$ est appelé **le produit extérieur** des deux vecteurs (on le note aussi $x \otimes y$). Le résultat est une matrice :

\begin{equation*}
xy^T \in \mathbb{R}^{m \times n} = \begin{bmatrix}
x_1y_1 & x_1y_2 & \dots & x_1y_n \\
x_2y_1 & x_2y_2 & \dots & x_2y_n \\
\vdots & \vdots & \ddots & \vdots \\
x_my_1 & x_my_2 & \dots & x_my_n
\end{bmatrix}
\end{equation*}


In [4]:
import numpy as np

x = np.matrix([2,3,4])
y = np.matrix([5,6,7]).transpose()
s = np.dot(x,y)
print ("Le produit scalaire de x et y est ",s[0,0])

Le produit scalaire de x et y est  56


### Multiplication d'une matrice et d'un vecteur

#### Matrice multiplié par un vecteur

Etant donné une matrice $A \in \mathbb{R}^{m \times n}$ et un vecteur $x \in \mathbb{R}^n$, leur produit est un vecteur $y = Ax \in \mathbb{R}^m$.

Il y a deux manière d'appréhender la multiplication d'une matrice et d'un vecteur, nous allons étudier les deux:

- Si nous écrivons $A$ selon ses lignes, alors nous pouvous exprimer $Ax$ comme:

\begin{equation*}
y = \begin{bmatrix}
- & a_1^T & - \\
- & a_2^T & - \\
  & \vdots & \\
- & a_m^T & - 
\end{bmatrix} x = \begin{bmatrix}
a_1^Tx \\
a_2^Tx \\
\vdots \\
a_m^Tx
\end{bmatrix}
\end{equation*}

Autrement dit, le $i^{eme}$ élément de $y$ est égal au produit scalaire de la $i^{eme}$ ligne de $A$ et de $x$, $y_i = a_i^Tx = a_i \centerdot x$.

- Nous pouvons aussi écrire $A$ sous forme de colonnes. Dans ce cas nous voyons que:

\begin{equation*}
y = \begin{bmatrix}
\rvert & \rvert	&       & \rvert \\
a_1 & a_2 & \dots & a_n \\
\rvert & \rvert	&       & \rvert 
\end{bmatrix} \begin{bmatrix}
x_1 \\
x_2 \\
\vdots \\
x_n
\end{bmatrix} =  \begin{bmatrix} a_1 \end{bmatrix} x_1 + \begin{bmatrix} a_2 \end{bmatrix} x_2 +
\dots + \begin{bmatrix} a_n \end{bmatrix} x_n
\end{equation*}

En d'autres termes, $y$ est une **combinaison linéaire** des colonnes de $A$, dans laquelle les coefficients de la combinaison linéaire sont données par les éléments de $x$.

#### Vecteur multiplié par une matrice

Jusqu'alors nous avons mutliplié à droite par un vecteur colonne, mais il est aussi possible de multiplier à gauche par un vecteur ligne. Cette opération s'écrit : $y^T = x^TA$ avec $A \in \mathbb{R}^{m \times n }$, $x \in \mathbb{R}^m$ et $y \in \mathbb{R}^n$. Comme auparavant, on peut exprimer $y^T$ de deux façons:

- Exprimons $A$ selon ses colonnes:

\begin{equation*}
y^T = x^T \begin{bmatrix}
\rvert & \rvert	&       & \rvert \\
a_1 & a_2 & \dots & a_n \\
\rvert & \rvert	&       & \rvert 
\end{bmatrix} = \begin{bmatrix} x^Ta_1 & x^Ta_2 & \dots & x^Ta_n \end{bmatrix}
\end{equation*}

Cette forme démontre que le $i^{eme}$ élément de $y^T$ est égal au produit scalaire de $x$ et de la $i^{eme}$ colonne de $A$.

- Exprimons $A$ selon ses lignes:

\begin{align}
y^T &= \begin{bmatrix} x_1 & x_2 & \dots & x_n \end{bmatrix} \begin{bmatrix}
- & a_1^T & - \\
- & a_2^T & - \\
  & \vdots & \\
- & a_m^T & - 
\end{bmatrix} \\
 &= x_1 \begin{bmatrix} - & a_1^T & - \end{bmatrix} +
 x_2 \begin{bmatrix} - & a_2^T & - \end{bmatrix} +
 \dots +
 x_n \begin{bmatrix} - & a_n^T & - \end{bmatrix}
\end{align}

Nous voyons ici que $y^T$ est une combinaison linéaire des lignes de $A$, où les coefficients de la combinaison linéaire sont donnés par les éléments de $x$.

In [5]:
import numpy as np

A = np.matrix([[2,3,4],[5,6,6]])
x = np.matrix([1,6,9]).transpose()
y = A*x
print ("Le produit de la matrice A et de x est:\n y= ",y)


Le produit de la matrice A et de x est:
 y=  [[56]
 [95]]


### Produit de deux matrices

Armés de nos nouvelles connaissances, nous pouvons voir 4 différentes (mais bien etendu équivalentes) façons de comprendre la multiplication matrice à matrice $C = AB$ comme défini dans le début de ce chapitre. Premièrement nous pouvons voir la multiplication matrice à matrice comme un ensemble de produits de vecteurs. Le point de vue le plus évidents, qui découle immédiatement de la définition, est que l'élément $i,j$ de $C$ est égal au produit scalaire de la $i^{eme}$ ligne de $A$ et de la $j^{eme} colonne de $B$. Ceci peut être vu de la manière suivante:

\begin{align}
C & = AB \\
    & = \begin{bmatrix} 
            - & a_1^T & - \\ 
            - & a_2^T & - \\ 
              & \vdots & \\
            - & a_m^T & - 
        \end{bmatrix} \begin{bmatrix}
            \rvert & \rvert &       & \rvert \\
            b_1    & b_2    & \dots & b_p    \\
            \rvert & \rvert &       & \rvert 
        \end{bmatrix} \\
    & = \begin{bmatrix} 
        a_1^Tb_1 & a_1^Tb2 & \dots & a_1^Tb_p \\
        a_2^Tb_1 & a_2^Tb2 & \dots & a_2^Tb_p \\
        \vdots   & \vdots  & \ddots & \vdots \\
        a_m^Tb_1 & a_m^Tb2 & \dots & a_m^Tb_p 
        \end{bmatrix} 
\end{align}

Remarquez que comme $A \in \mathbb{R}^{m \times n}$ et $B \in \mathbb{R}^{n \times p}$, $a_i \in \mathbb{R}^n$ et $b_j \in \mathbb{R}^n$, tous le produits scalaires ont du sens. Cette représentation de la multiplication est la plus naturelle. Il est cependant possible de représenter $A$ sous forme de colonnes et $B$ par lignes, ce qui nous emmène à l'interprétation de $AB$ comme la somme de produits externes.

\begin{align}
    C &= AB  \\
      &= \begin{bmatrix}
           \rvert & \rvert &       & \rvert \\
           a_1    & a_2    & \dots & a_n    \\
           \rvert & \rvert &       & \rvert 
         \end{bmatrix} \begin{bmatrix}
           - & b_1^T & - \\
           - & b_2^T & - \\
             & \vdots & \\
           - & b_n^T & -  
         \end{bmatrix} \\
      &=\sum_{i = 1}^n a_{i}b_{i}^T
\end{align}

Dit d'une autre manière, $AB$ est égal à la somme sur $i$ des produits externes de la $i^{eme}$ colonne de $A$ et de la $i^{eme}$ ligne de $B$. Comme, dans ce cas, $a_i \in  \mathbb{R}^m$ et $b_i \mathbb{R}^p$, la dimension du produit externe $a_ib_i^T$ est $m \times p$, ce qui coïncide avec la dimension de $C$.

Nous pouvons voir la multiplication de matrices comme un ensemble de multiplications de matrices à vecteurs. Si nous représentons $B$ en colonnes, nous pouvons voir les colonnes de $C$ comme un produit matrice-vecteur entre $A$ et les colonnes de $B$.

\begin{align}
    C &= AB \\
      &= A \begin{bmatrix}
               \rvert & \rvert &       & \rvert \\
               b_1    & b_2    & \dots & b_p    \\
               \rvert & \rvert &       & \rvert 
           \end{bmatrix} \\
      &= \begin{bmatrix}
               \rvert & \rvert &       & \rvert \\
               Ab_1    & Ab_2    & \dots & Ab_p    \\
               \rvert & \rvert &       & \rvert 
         \end{bmatrix}
\end{align}

Ici les $i^{eme}$ colonne de $C$ est donné par le produit matrice à vecteur de droite, $c_i = Ab_i$. De la même manière, nous pouvons représenter $A$ en lignes:

\begin{align}
    C &= AB \\
      &=  \begin{bmatrix}
          - & a_1^T & - \\
          - & a_2^T & - \\
          - & \vdots & - \\
          - & a_m^T & -
           \end{bmatrix} B \\
      &=  \begin{bmatrix}
          - & a_1^TB & - \\
          - & a_2^TB & - \\
          - & \vdots & - \\
          - & a_m^TB & -
           \end{bmatrix} \\
\end{align}

Dans ce cas la $i^{eme}$ ligne de $C$ est donnée par le produit matrice à vecteur avec le vecteur à gauche, $c_i^T = a_i^TB$.

Quelques propriétés utiles de la multiplication matricielle:

- La multiplication de matrice est associative: $(AB)C = A(BC)$
- La multiplication de matrice est distributive: $A(B+C) = AB+AC$
- La multiplication de matrice n'est en **général** pas commutative: $AB \ne BA$


In [6]:
import numpy as np

A = np.matrix([[2,3,4],[5,6,6]])
B = np.matrix([[1,6],[5,9],[0,8]])
C = A*B
print ("Le produit de la matrice A et de B est:\n C= ",C)

Le produit de la matrice A et de B est:
 C=  [[ 17  71]
 [ 35 132]]


## Opérations et propriétés

Dans ce chapitre sont pésentés différentes opérations et propriétés des matrices et des vecteurs.


### La matrice identité et les matrices diagonales

La matrice **identité**, notée $I \in \mathbb{R}^{n \times n}$, est une matrice carrée ne contenant que des 1 sur la diagonales et des 0 partout ailleurs. C'est à dire:

\begin{align}
I = 
\begin{cases}
1 & \text{ si } i = j \\
0 & \text{ si } i \ne j
\end{cases}
\end{align}

Elle a pour propriété que pour tout $A \in \mathbb{R}^{m \times n}$,

\begin{align}
AI = A = IA
\end{align}

Où la dimension de $I$ est déterminée par la dimension de $A$ de manière à ce que la mutiplication soit possible.

Une **matrice diagonale** est une matrice pour laquelle tous les éléments qui ne sont pas sur la diagonale sont 0. Elle est généralement noté $D = diag(d_1,d_2,\dots,d_n)$, avec: 

\begin{align}
D_ij = 
\begin{cases}
d_i & \text{ si } i = j \\
0 & \text{ si } i \ne j
\end{cases}
\end{align}

On a évidemment: $I = diag(1,1,\dots,1)$.

In [7]:
import numpy as np

I = np.identity(3)
print ("La matrice identité de taille 3 est:\n I= ",I)

La matrice identité de taille 3 est:
 I=  [[ 1.  0.  0.]
 [ 0.  1.  0.]
 [ 0.  0.  1.]]


### La transposée

La **transposée** d'une matrice s'obtient en inversant les lignes et les colonnes de la matrice. Soit un matrice $A \in \mathbb{R}^{m \times n}$, sa transposée, notée $A^T$, est définie comme:

\begin{align}
A^T \in \mathbb{R}^{n \times m}, (A^T)_{ij} = A_{ji}
\end{align}

Nous avons déjà utilisé la transposée quand nous avons décrit les vecteurs lignes comme la transposée d'un vecteur colonne.

Les propriétés suivantes peuvent être facilement vérifiées:

- $(A^T)^T = A$
- $(AB)^T=B^TA^T$
- $(A+B)^T = A^T + B^T$



In [8]:
import numpy as np

A = np.matrix([[2,3,4],[5,6,6],[1,9,-1]])
B = np.matrix([[1,6,7],[5,9,4],[0,8,1]])
ATT = A.transpose().transpose()
print ("====== Propriété 1:\n A= ",A,"\n ATT=",ATT)

ABT=(A*B).transpose()
BTAT=B.transpose() * A.transpose()
print ("====== Propriété 2:\n ABT= ",ABT,"\n BTAT=",BTAT)

AplusBT= (A+B).transpose()
ATplusBT= A.transpose()+B.transpose()
print ("====== Propriété 3:\n AplusBT= ",AplusBT,"\n ATplusBT=",ATplusBT)


 A=  [[ 2  3  4]
 [ 5  6  6]
 [ 1  9 -1]] 
 ATT= [[ 2  3  4]
 [ 5  6  6]
 [ 1  9 -1]]
 ABT=  [[ 17  35  46]
 [ 71 132  79]
 [ 30  65  42]] 
 BTAT= [[ 17  35  46]
 [ 71 132  79]
 [ 30  65  42]]
 AplusBT=  [[ 3 10  1]
 [ 9 15 17]
 [11 10  0]] 
 ATplusBT= [[ 3 10  1]
 [ 9 15 17]
 [11 10  0]]


### Les matrices symétriques

Une matrice carrée $A \in  \mathbb{R}^{n \times n}$ est **symétrique** si $A = A^T$. Elle est **anti-symétrique** si $A = -A^T$. Il est aisé de montrer que pour toute matrice $A \in  \mathbb{R}^{n \times n}$, la matrice $A + A^T$ est symétrique et la matrice $A - A^T$ est anti-symétrique. De cette propriété découle que toute matrice $A \in  \mathbb{R}^{n \times n}$ peut être décomposée comme la somme d'une matrice symétrique et d'une matrice anti-symétrique car:

\begin{align}
A = \frac{1}{2}(A + A^T)+\frac{1}{2}(A - A^T)
\end{align}

La matrice de droite est symétrique, alors que la matrice de gauche est anti-symétrique. Il est courant de noter n'ensemble des matrices symétriques de taille $n$ comme étant $\mathbb{S}^{n}$. Si $A \in \mathbb{S}^{n}$ alors A est une matrice symétrique de dimension $n$.

In [9]:
import numpy as np

A = np.matrix([[2,3,4],[5,6,6],[1,9,-1]])

AplusAT = A + A.transpose()
AmoinsAT = A - A.transpose()
print ("====== Propriété 1:\nAplusAT=\n",AplusAT)
print ("====== Propriété 2:\nAmoinsAT=\n",AmoinsAT)

Formule=(1/2)*AplusAT + (1/2)*AmoinsAT
print ("====== Propriété 3:\Formule=\n",Formule)


AplusAT=
 [[ 4  8  5]
 [ 8 12 15]
 [ 5 15 -2]]
AmoinsAT=
 [[ 0 -2  3]
 [ 2  0 -3]
 [-3  3  0]]
 [[ 2.  3.  4.]
 [ 5.  6.  6.]
 [ 1.  9. -1.]]


### La trace

La trace d'une matrice $A \in \mathbb{R}^{n \times n}$, notée $tr(A)$ ou juste $tr A$ est la somme des éléments de la diagonale de la matrice:

\begin{align}
tr(A) = \sum_{i=1}^n A_{ii}
\end{align}

Le trace d'une matrice a les propriétés suivantes:

- Pour $A \in \mathbb{R}^{n \times n}$, $tr A = tr A^T$
- Pour $A,B \in \mathbb{R}^{n \times n}$, $tr(A+B) = tr A + tr B$
- Pour $A \in \mathbb{R}^{n \times n}$, $t \in \mathbb{R}$, $tr(tA)=t\text{ } tr A$
- Pour $A,B$ tels que $AB$ est carré, $tr AB = tr BA$
- Pour $A,B,C$ tels que $ABS$ est carré, $tr ABC = tr BCA = tra CAB$, cette propriété se généralise pour un ensemble quelconque de matrice.

In [10]:
import numpy as np

A = np.matrix([[2,3,4],[5,6,6],[1,9,-1]])
B = np.matrix([[2,6,4],[1,5,6],[2,9,8]])
C = np.matrix([[1,2,9],[2,3,1],[9,1,8]])

trA = np.trace(A)
trAT = np.trace(A.transpose())
print ("====== Propriété 1: trA=",trA," trAT=",trAT)

trAplusB = np.trace(A+B)
trAplustrB = np.trace(A) + np.trace(B)
print ("====== Propriété 2: trAplusB=",trAplusB," trAplustrB=",trAplustrB)
t = 8
trtA= np.trace(t*A)
ttrA= t * np.trace(A)
print ("====== Propriété 3: trtA=",trtA," ttrA=",ttrA)

trAB=np.trace(A*B)
trBA=np.trace(B*A)
print ("====== Propriété 4: trAB=",trAB," trBA=",trBA)

trABC=np.trace(A*B*C)
trBCA=np.trace(B*C*A)
trCAB=np.trace(C*A*B)
print ("====== Propriété 5: trABC=",trABC," trBCA=",trBCA," trCAB=",trCAB)




### Normes

#### Définitions

La **norme** d'un vecteur $\|x\|$ est une mesure de la "longueur" d'un vecteur. Par exemble, nous avons la norme euclidienne courammment utilisée (ou norme $\ell_2$) :

\begin{align}
\|x\|_2 = \sqrt{ \sum_{i = 1}^n x_i^2 }
\end{align}

Remarquez que : $\|x\|_2^2= x^Tx$

Plus formellement, une norme est une fonction $f: \mathbb{R}^n \to \mathbb{R}$ qui satisfait 4 propriétés:

1. Pour tout $x \in \mathbb{R}^n$, $f(x) \geq 0$
2. $f(x) = 0$ si et seulement si $x=0$
3. Pour tout $x \in \mathbb{R}^n$, $t \in \mathbb{R}$, $f(tx)=|t| f(x)$
4. Pour tout $x,y \in \mathbb{R}^n$, $f(x+y) \leq f(x)+f(y)$

Autres exemple de normes:

#### Norme $\ell_1$

\begin{align}
\|x\|_1 = \sum_{i=1}^n|x_i|
\end{align}

#### Norme $\ell_\infty$

\begin{align}
\|x\|_\infty = max_i|x_i|
\end{align}

#### Généralisation: norme $\ell_p$

En réalité les trois normes présentées précédemment, sont des exemples de norme de la famille des normes $\ell_p$. Ces normes sont paramétrées par un nombre réel $p \geq 1$, et définies comme suit:

\begin{align}
\|x\|_p = \left(\sum_{i=1}^n |x_i|^{p}\right)^\frac{1}{p}
\end{align}

#### Norme de matrices

Des normes peuvent aussi être définies pour des matrices, comme par exemple la norme de Frobenius:

\begin{align}
\| A \|_F = \sqrt{\sum_{i=1}^m \sum_{j=1}^n A_ij^2} = \sqrt{ tr (A^TA) }
\end{align}


In [11]:
import numpy as np
from numpy import linalg as LA

A = np.matrix([[2,3,4],[5,6,6],[1,9,-1]])
lF = LA.norm(A,'fro')
print("Norme de Frobenius de A: ",lF)

V= np.matrix([1,2,3])
print ("Norme de L1 de V: ",LA.norm(V,2))
print ("Norme de Linf de V: ",LA.norm(V,1))

Norme de Frobenius de A:  14.4568322948
Norme de L1 de V:  3.74165738677
Norme de Linf de V:  3.0


### Indépendance linéaire et rang

Un ensemble de vecteurs $\{x_1,x_2,\dots,x_n\}$ est dit (linéairement) **indépendant** si aucun des vecteurs ne peut être représenté comme combinaison linéaire des autres vecteurs. Réciproquement, si un vecteur  peut être représenté comme une combinaison linéaire des autres vecteurs, il est dit (linéairement) **dépendant**. Par exemple si:

\begin{align}
x_n=\sum_{i=1}^{n-1} \alpha_i x_i
\end{align}

pour les coefficients $\{\alpha_1,\dots,\alpha_{n-1}\}$ alors $x_n$ est dépendant de $\{x_1,\dots,x_{n-1}\}$; sinon il est indépendant de $\{x_1,\dots,x_{n-1}\}$.

Le rang des colonnes d'une matrice $A$ est le plus grand nombre de colonnes de $A$ qui constitue un ensemble linéairement indépendant. De la même manière, le rang des lignes d'une matrice $A$ est le plus grand nombre de lignes de $A$ qui constitue un ensemble linéairement indépendant. En réalité $rangcolonne(A) = rangligne(A)$, cette quantité est donc simplement appelée **rang** de $A$, notée $rang(A)$. Quelques propriétés du rang:

- Pour $A \in \mathbb{R}^{m \times n}$, $rang(A) \leq min(m,n)$. Si $rang(A) = min(m,n)$, alors $A$ est dit **de rang plein**.
- Pour $A \in \mathbb{R}^{m \times n}$, $rang(A) = rang(A^T)$.
- Pour $A \in \mathbb{R}^{m \times n}$, $B \in \mathbb{R}^{n \times p}$, $rang(AB) \leq min(rang(A),rang(b))$.
- Pour $A,B \in \mathbb{R}^{m \times n}$, $rang(A+B) \leq rang(A)+rang(B)$.


In [12]:
import numpy as np
from numpy.linalg import matrix_rank

A = np.matrix([[2,3,4],[5,6,6],[1,9,-1]])
print ("Rang de A: ",matrix_rank(A))
B = np.matrix([[2,3,4],[5,6,6]])
print ("Rang de B: ",matrix_rank(B))
print ("Rang de B: ",matrix_rank(B.transpose()))


Rang de A:  3
Rang de B:  2
Rang de B:  2


### L'inverse d'une matrice

L'**inverse** d'une matrice carrée $A \in \mathbb{R}^{m \times n}$, est notée $A^{-1}$ et est l'unique matrice telle que:

\begin{align}
A^{-1}A= I = AA^{-1}
\end{align}

Il en suit que $A^{-1}$ peut ne pas exister pour certaines matrices $A$. Nous disons que $A$ est **inversible** ou **non-singulière** si $A^{-1} $ existe,  et **non-inversible** ou **singulière** sinon. 

$A^{-1}$ existe si et seulement si $A$ est de rang plain. Nous verrons par la suite qu'il existe d'autres conditions nécessaires et suffisantes pour le caractère inversible des matrices. Les propriétés suivantes partent de l'hypothèse que $A,B \in \mathbb{R}^{m \times n}$ sont non singulières.

- $(A^{-1})^{-1} = A$
- Si $Ax = b$ , nous pouvons multiplier par $A^{-1}$ des deux cés pour obtenir $x = A^{-1}b$. 
- $(AB)^{-1}=B^{-1}A^{-1}$
- $(A^{-1})^T = (A^T)^{-1}$. Pour cette raison cette matrice est souvent notée $A^{-T}$.

In [13]:
import numpy as np
from numpy.linalg import inv

A = np.matrix([[2,3,4],[5,6,6],[1,9,-1]])
Ainv = inv(A)
print("La matrice inverse de A est:\nAinv=\n",Ainv)
print("La matrice A*Ainv est:\nA*Ainv=\n",A*Ainv)

La matrice inverse de A est:
Ainv=
 [[-0.86956522  0.56521739 -0.08695652]
 [ 0.15942029 -0.08695652  0.11594203]
 [ 0.56521739 -0.2173913  -0.04347826]]
La matrice A*Ainv est:
A*Ainv=
 [[  1.00000000e+00  -1.11022302e-16   0.00000000e+00]
 [  2.22044605e-16   1.00000000e+00  -6.93889390e-17]
 [  3.33066907e-16  -1.11022302e-16   1.00000000e+00]]


### Matrice othogonale

Deux vecteurs sont $x,y \in \mathbb{R}^n$ sont **orthogonaux** si $x^Tx=0$. Un vecteur $x \in \mathbb{R}$ est **normalisé** si $\|x\|_2 = 1$. Une matrice $U \in \mathbb{R}^{n times n}$ est dite **orthogonale**  si toutes ses colonnes sont orthogonales entre elles et sont normalisées (les colonnes sont dites **orthonormales**).

Il s'en suit immédiatement de la définition de l'orthogonalité et de la normalité que: 

\begin{align}
U^TU = I = UU^T
\end{align}

En d'autres mots, l'inverse d'une matrice orthogonale est sa transposée. Notez que si $U$ n'est pas carrée - i.e., $U \in \mathbb{R}^{m \times n}, n < m$ - mais que ses colonnes sont quand même orthonormales, alors $U^TU = I$ mais $UU^T \ne I$. En général, nous n'utilisons le terme orthogonal que pour décrire des matrices $U$ carrées.

Une autre propriété intéressante des matrices othogonales est que multiplier un vecteur par un matrice orthogonale ne change pas la norme euclidienne du vecteur, i.e.:

\begin{align}
\|Ux\|_2 = \|x\|_2
\end{align}

pour tout $x \in \mathbb{R}^n, U \in \mathbb{R}^{n \times n}$ orthogonale.

### Sous-espace vectoriel engendré, projection, image, noyau

#### Sous espace vectoriel engendré
Le **sous-espace vectoriel engendré** d'un ensemble de vecteurs $\{x_1,x_2,\dots,x_n\}$ est l'ensemble des vecteurs qui peuvent être exprimés sous forme d'une combinaison linéaire de $\{x_1,x_2,\dots,x_n\}$. C'est à dire:

\begin{align}
Vect(\{x_1,x_2,\dots,x_n\}) = 
\left\lbrace v : v = \sum_{i=1}^n \alpha_ix_i, \text{  }\alpha_i \in \mathbb{R}\right\rbrace
\end{align}

On peut démontrer que si $\{x_1,x_2,\dots,x_n\}$ est un ensemble de $n$ vecteurs linéairement indépendants, où chaque $x_i \in\mathbb{R}^n$, alors $Vect(\{x_1,x_2,\dots,x_n\}) = \mathbb{R}^n$. En d'autre mots, tout vecteur $v \in \mathbb{R}^n$ peut être écrit comme une combinaison des vecteurs $x_1$ à $x_n$. 

__Note__: le sous-espace vectoriel engendré est appelé "span" en anglais et noté $span(\{x_1,x_2,\dots,x_n\})$.

#### Projection
La **projection** d'un vecteur $y \in \mathbb{R}^m$ dans l'espace vectoriel engendré par $\{x_1,x_2,\dots,x_n\}$ (nous considérons que $x_i \in \mathbb{R}^m$) est le vecteur $v \in Vect(\{x_1,x_2,\dots,x_n\})$, tel que $v$ soit aussi proche que possible de $y$, comme mesuré par la norme euclidienne $\|v-y\|_2$. On note cette projection: $Proj(y;\{x_1,x_2,\dots,x_n\})$, et plus formellement:

\begin{align}
Proj(y;\{x_1,x_2,\dots,x_n\}) = \text{argmin}_{v \in Vect(\{x_1,x_2,\dots,x_n\})} \|y-v\|_2
\end{align}

#### Image
L'**image** (parfois appelée espace des colonnes) d'une matrice $A \in \mathbb{R}^{m \times n}$, noté $\mathcal{Im}(A)$ est le sous-espace vectoriel engendré par les colonnes de $A$. En d'autres mots:

\begin{align}
\mathcal{Im}(A)=\{v \in \mathbb{R}^m: v = Ax, \text{  } x \in \mathbb{R}^n\}
\end{align}

Si nous faisons quelques hypothèses (principalement que $A$ est une matrice pleine et que $n < m$), la projection d'un vecteur $y \in \mathbb{R}^m$ dans l'image de $A$ s'exprime de la manière suivante:

\begin{align}
Proj(y;A) = argmin_{v \in \mathcal{R}(A)}\|v-y\|_2 = A(A^TA)^{-1}A^Ty
\end{align}

__Note__: l'image est appelée "Range" en anglais et est notée $\mathcal{R}(A)$.

#### Noyau (kernel ou nullspace)

Le **noyau** d'une matrice $A \in \mathbb{R}^{m \times n}$, noté $\mathcal{N}(A)$  est l'ensemble des vecteurs égaux à 0 lorsqu'ils sont multipliés par $A$, i.e.:

\begin{align}
\mathcal{N}(A) = \{ x \in \mathbb{R}^n : Ax = 0 \}
\end{align}

Les vecteurs dans $\mathcal{Im}(A)$ sont de taille $m$, alors que les vecteurs dans $\mathcal{N}(A)$ sont de taille $n$, les vecteurs dans $\mathcal{Im}(A^T)$ et dans $\mathcal{N}(A)$ sont quant-à eux tous dans $\mathbb{R}^n$. En réalité nous pouvons en dire beaucoup plus, il s'avère que:

\begin{align}
\{ w: w = u + v, u \in \mathcal{Im}(A^T), v \in \mathcal{N}(A) \} = \mathbb{R}^n \text{ and } \mathcal{Im}(A^T) \cap \mathcal{N}(A) = \emptyset	
\end{align}

En d'autres mots, $\mathcal{Im}(A^T)$  et $ \mathcal{N}(A)$ sont deux sous-espaces disjoint qui convrent entièrement l'espace $\mathbb{R}^n$. Les ensembles de ce type sont appelés des **compléments orthogonaux**, et ils sont notés  $\mathcal{Im}(A^T) = \mathcal{N}(A)^\perp$

__Note__: le noyau est appelée "nullspace" en anglais et est notée $\mathcal{N}(A)$.

### Le déterminant

Le **déterminant** d'une matrice carrée $A \in \mathbb{R}^{n \times n}$, est une fonction $det :  \mathbb{R}^{n \times n} \to \mathbb{R}$, et est noté $\left\vert A\right\vert$ ou $det(A)$, ou en supprimant les parenthèses $det A$. La formule complète de calcul du déterminant ne donne que peu d'intuition sur son sens, nous allons donc à la place donner trois propriétés définissant le déterminant, desquelles découle le reste (ainsi que la formule générale). 

1. Le déterminant de la matrice identité est 1: $\left\vert I\right\vert = 1$.
2. Etant donnée une matrice $A \in \mathbb{R}^{n \times n}$, si on multiplie une ligne de $A$ par $t \in \mathbb{R}$, alors les déterminant de la nouvelle matrice est $t\left\vert A\right\vert$.
\begin{equation*}
\left\vert \text{ } \begin{bmatrix}
- & a_1^T & - \\
- & a_2^T & - \\
  & \vdots & \\
- & a_m^T & - 
\end{bmatrix} \text{ } \right\vert = t \left\vert A \right\vert
\end{equation*}
3. Si nous échangeons deux lignes $a_i^T$ et $a_j^T$ de $A$, le déterminant de la nouvelle matrice est $-\left\vert A\right\vert$, par exemple:
\begin{equation*}
\left\vert \text{ } \begin{bmatrix}
- & a_2^T & - \\
- & a_1^T & - \\
  & \vdots & \\
- & a_m^T & - 
\end{bmatrix} \text{ } \right\vert =  -t \left\vert A \right\vert
\end{equation*}

Ces propriétés ne nous donnent cependant que peu d'intuition sur la nature du déterminant, nous allons donc ajouter quelques propriétés qui découlent des 3 précédentes.

- Pour $A \in \mathbb{R}^{n \times n}$, $|A|=|A^T|$.
- Pour $A,B \in \mathbb{R}^{n \times n}$, $|AB|=|A||B|$.
- Pour $A \in \mathbb{R}^{n \times n}$, $|A|=0$ si et seulement si $A$ est singulière (non inversible).
- Pour $A \in \mathbb{R}^{n \times n}$, et $A$ non-singulière, $|A|^{-1} = \frac{1}{|A|}$.

Avant de donner une définition générale du déterminant, nous définissons, pour $A \in \mathbb{R}^{n \times n}$, $A_{\setminus i,\setminus j} \in \mathbb{R}^{(n-1) \times (n-1)}$ comme étant la matrice résultant de la suppression de la $i^{eme}$ ligne et de la $j^{eme}$ colonne de $A$. La formule générale (récursive) du déterminant devient:

\begin{align}
|A| &= \sum_{i=1}^n (-1)^{i+j} a_{ij} \left\vert A_{\setminus i,\setminus j} \right\vert & (\text{pour tout  } j \in 1,\dots,n)\\
 &= \sum_{j=1}^n (-1)^{i+j} a_{ij} \left\vert A_{\setminus i,\setminus j} \right\vert & (\text{pour tout  } i \in 1,\dots,n)\\
\end{align}

avec le cas spécial $|A| = a_{11}$ pour $A \in \mathbb{R}^{1 \times 1}$. Si nous procédons à une expansion de cette formule complètement pour $A \in \mathbb{R}^{n \times n}$, il y aurait un total de $n!$ (n factoriel)termes. C'est pour cette raison que nous n'allons pas écrire la formule explicite au-delà de matrices 3x3.

\begin{align}
\left\vert \text{ } \begin{bmatrix}
a_{11} 
\end{bmatrix} \text{ } \right\vert & = a_{11} \\
\left\vert \text{ } \begin{bmatrix}
a_{11} & a_{12} \\
a_{21} & a_{22} 
\end{bmatrix} \text{ } \right\vert & = a_{11}a_{22} - a_{12}a_{21} \\
\left\vert \text{ } \begin{bmatrix}
a_{11} & a_{12} & a_{13}\\
a_{21} & a_{22} & a_{23}\\
a_{31} & a_{32} & a_{33}
\end{bmatrix} \text{ } \right\vert & = \begin{array} 
+ a_{11}a_{22}a_{21} + a_{12}a_{23}a_{31} + a_{13}a_{21}a_{32} \\
- a_{11}a_{23}a_{32} - a_{12}a_{21}a_{33} - a_{13}a_{22}a_{31} \end{array}
\end{align}

La matrice **adjointe**, aussi appelée **comatrice** d'une matrice $A \in \mathbb{R}^{n \times n}$, notée $adj(A)$, est définie comme suit:

\begin{align}
adj(A) \in \mathbb{R}^{n \times n}, (adj(A))_{ij}=(-1)^{i + j}|A_{\setminus j,\setminus i}|
\end{align}

Il peut être démontré que pour toute matrice $A \in \mathbb{R}^{n \times n}$ non singulières:

\begin{align}
A^{-1}= \frac{1}{|A|}adj(A)
\end{align}

En pratique:

\begin{align}
B &=\begin{bmatrix}
1 & 2 & 3 \\
1 & 1 & 2 \\
-1 & -4 & -1
\end{bmatrix} \\
det(B) &= +6 \\
adj(B) &=\begin{bmatrix}
+ \begin{vmatrix} 1 & 2 \\ -4 & -1 \end{vmatrix} &
- \begin{vmatrix} 0 & 2 \\ -1 & -1 \end{vmatrix} &
+ \begin{vmatrix} 0 & 1 \\ -1 & -4 \end{vmatrix} \\
- \begin{vmatrix} 2 & 3 \\ -4 & -1 \end{vmatrix} &
+ \begin{vmatrix} 1 & 3 \\ -1 & -1 \end{vmatrix} &
- \begin{vmatrix} 1 & 2 \\ -1 & -4 \end{vmatrix} \\
+ \begin{vmatrix} 2 & 3 \\ 1 & 2 \end{vmatrix} &
- \begin{vmatrix} 1 & 3 \\ 0 & 2 \end{vmatrix} &
+ \begin{vmatrix} 1 & 2 \\ 0 & 1 \end{vmatrix} \\
\end{bmatrix} \\
adj(B) &=\begin{bmatrix}
7 & -2 & 1 \\
-10 & 2 & 2 \\
1 & -2 & 1
\end{bmatrix} \\
adj(B)^T &=\begin{bmatrix}
7 & -10 & 1 \\
-2 & 2 & -2 \\
1 & 2 & 1
\end{bmatrix} \\
\text{d'où } B^{-1} &= \frac{1}{6}\begin{bmatrix}
7 & -10 & 1 \\
-2 & 2 & -2 \\
1 & 2 & 1
\end{bmatrix}
\end{align}


Bien que que cette formule soit élégante, il existe des méthodes bien plus efficaces (numériquement) pour calculer l'inverse d'une matrice. 

### Forme quadratique et matrices positives semi définies

Etant donnée une matrice carrée $A \in \mathbb{R}^{n \times n}$ et un vecteur $x \in \mathbb{R}^n$, la valeur scalaire $x^TAx$ est appelée **la forme quadratique**. En écrivant explicitement cette forme, nous voyons que:

\begin{align}
x^TAx = \sum_{i=1}^n \sum_{j=1}^n A_{ij}x_ix_j
\end{align}

Exemple:

\begin{align}
x &= \begin{bmatrix}x_1\\x_2\end{bmatrix}\\
A &= \begin{bmatrix}a_{11} & a_{12}\\ a_{21} & a_{22} \end{bmatrix} \\
x^TAx &= \begin{bmatrix}x_1 & x_2\end{bmatrix}
\begin{bmatrix}a_{11} & a_{12}\\ a_{21} & a_{22} \end{bmatrix} 
\begin{bmatrix}x_1\\x_2\end{bmatrix}\\
x^TAx &= \begin{bmatrix}x_1 & x_2\end{bmatrix}
\begin{bmatrix}a_{11}x_1 + a_{12}x_2\\ a_{21}x1 + a_{22}x_2 \end{bmatrix}  \\
x^TAx &= x_1 \times (a_{11}x_1 + a_{12}x_2)+x_2\times (a_{21}x_1 + a_{22}x_2) \\
x^TAx &= a_{11}x_1^2 + (a_{12} + a_{21}) x_1x_2 + a_{22}x_2^2
\end{align}

Notez que:

\begin{align}
x^TAx = (x^TAx)^T = x^TA^Tx = x^T(\frac{1}{2}A+\frac{1}{2}A^T)x
\end{align}

i.e., seule la partie symétrique de $A$ contribue à la forme quadratique. C'est pour cette raison que nous partons souvent du principe implicite que les matrices impliquées dans les formes quadratiques sont symétriques.

Donnons les définitions suivantes:

- Une matrice symétrique $A \in \mathbb{S}^{n}$ est **positive  définie** (PD) si pour tous les vecteurs non nuls $x^TAx \ge 0$. Cette propriété est notée $A \succ 0$ (ou juste $A > 0$). L'ensemble des matrices PD est souvent notée $\mathbb{S}_{++}^{n}$
- Une matrice symétrique $A \in \mathbb{S}^{n}$ est **positive semi définie** (PSD) si pour tous les vecteurs $x^TAx \ge 0$. Cette propriété est notée $A \succeq 0$ (ou juste $A \ge 0$). L'ensemble des matrices PSD est souvent notée $\mathbb{S}_{+}^{n}$
- Une matrice symétrique $A \in \mathbb{S}^{n}$ est **negative définie** (ND) si pour tous les vecteurs non nuls $x^TAx < 0$. Cette propriété est notée $A \prec 0$ (ou juste $A < 0$).
- Une matrice symétrique $A \in \mathbb{S}^{n}$ est **negative semi définie** (NSD) si pour tous les vecteurs $x^TAx \le 0$. Cette propriété est notée $A \preceq 0$ (ou juste $A \le 0$).
- Une matrice symétrique $A \in \mathbb{S}^{n}$ est **indéfinie**, si elle n'est ni PSD di NSD - i.e., si il existe $x_1,x_2 \in \mathbb{R}^n$ tel que $x_1^TAx_1 > 0$ et $x_2^TAx_2 < 0$ 

Il est évident que si $A$ est PD, alors $-A$ est ND et vice versa. De la même manière si $A$ est PSD, alors $-A$ est NSD et vice versa. Si $A$ est indéfinie, alors $-A$ est indéfinie. Il peut être montré que les matrices PD et ND sont toujours inversibles.

Enfin, il y a un type de matrice positive définie qui apparait fréquemment: soit une matrice $A \in \mathbb{R}^{m \times n}$ (pas nécessairement symétrique ou carré), la matrice $G = A^TA$ (parfois appelée **matrice de Gram** ) est toujours positive et semi définie. Plus encore, si $m \ge n$ (et nous partons de l'hypothèse que $A$ est de rang plein), alors $G = A^TA$ est positive et définie.

### Valeurs et vecteurs propres

Soit une matrice $A \in \mathbb{R}^{n \times n}$, nous disons que $\lambda \in \mathbb{C}$ est une **valeur propre** de $A$ et que $x \in \mathbb{C}^n$ est le **vecteur propre** correspondant si:

\begin{align}
Ax= \lambda x, \text{    } x \ne 0
\end{align}

Intuitivement, cette définition signifie de la multiplication de $A$ par le vecteur $x$ résulte un nouveau vecteur pointant dans la même direction que $x$, mais dilaté d'un facteur $\lambda$. Notez aussi que pour tout vecteur propre $x \in \mathbb{C}^n$ et scalaire $c \in \mathbb{C}$, $A(cx) = cAx = c\lambda x = \lambda(cx)$, donc $cx$ est aussi un vecteur propre de $A$. C'est pour cela que lorsque l'on parle **du** vecteur propre associé à $\lambda$, nous partons du principe que le vecteur propre est normalisé de longueur 1.

Nous pouvons alors réécrire l'équation précédente pour définir que $(\lambda,x)$ est un couple de valeur et vecteur propre de $A$:

\begin{align}
(\lambda I - A)x = 0, \text{  } x \ne 0
\end{align}

Mais $(\lambda I - A)x = 0$ a un solution non nulle pour $x$ si et seulement si $(\lambda I - A)$ a un un noyau non null, ce qui est seulement le cas si $(\lambda I - A)$ est une matrice singulière, i.e.,

\begin{align}
\left\vert(\lambda I - A)\right\vert = 0
\end{align}

Nous pouvons maitenant utiliser la définition du déterminant pour développer cette expression en une (très grande) équation polynomiale en $\lambda$, de degré maximum $n$. Nous pouvons trouver les $n$ racines de cette équation polynomiale (éventuellement complexes) qui sont les $n$ valeurs propres recherchées $\lambda_1, \lambda_2, \dots, \lambda_n$. 
Pour trouver le vecteur propre de la valeur propre $\lambda_i$, nous n'avons qu'à résoudre l'équation linéaire $(\lambda_i I - A)x = 0$. Cette méthode n'est cependant pas utilisée en pratique pour le calcul numérique des valeurs propres et des vecteurs propres (l'expension complète du déterminant est en complexité $n!$).

La suite définit les propriétés des valeurs propres et des vecteurs propres. Toutes les propriétés partent des hypothèses suivantes: $A \in \mathbb{R}^{n \times n}$, $A$ a comme valeurs propres $\lambda_1, \lambda_2, \dots, \lambda_n$, et comme vecteurs propres associés $x_1, x_2, \dots, x_n$.

- La trace de $A$ est égale à la somme de ses valeurs propres,

\begin{align}
    tr A = \sum_{i=1}^n \lambda_i
\end{align}

- Le déterminand de $A$ est égal au produit des ses valeurs propres,

\begin{align}
    |A| = \prod_{i=1}^n \lambda_i
\end{align}

- Le rang de $A$ est égal au nombre de valeurs propres non nulles de $A$.
- Si $A$ n'est pas singulière, alors $1/\lambda_i$ est une valeur propre de $A^{-1}$ avec comme vecteur propre associé $x_i$, i.e., $A^{-1}c_i = (1/\lambda_i)x_i$.
- Les valeurs propres d'une matrice diagonale $D= diag(d_1,d_2,\dots,d_n)$ sont simplement les éléments de la diagonale $d_1,d_2,\dots,d_n$.

Nous pouvons écrire l'équation de tous les vecteurs propres simultanément comme:

\begin{align}
    AX = X\Lambda
\end{align}

Où les colonne de $X \in \mathbb{R}^{n \times n}$ sont les vecteurs propres de $A$ et $\Lambda$ est la matrice diagonale dont les éléments sont les valeurs propres de $A$, i.e.,

\begin{align}
    X \in  \mathbb{R}^{n \times n} = \begin{bmatrix}
\rvert & \rvert	&       & \rvert \\
x_1 & x_2 & \dots & x_n \\
\rvert & \rvert	&       & \rvert 
\end{bmatrix}\text{ , } \Lambda = diag(\lambda_1, \lambda_2, \dots, \lambda_n)
\end{align}

Si les vecteurs propres de $A$ sont linéairement indépendants, alors la matrice $X$  est inversible, donc $A = X \Lambda X^{-1}$. Une matrice qui peut sécrire sous cette forme est dite **diagonalisable**.


### Valeurs et vecteurs propres des matrices symétriques

Deux propriété remarquables apparaissent lorsque nous étudions les valeurs propres et les vecteurs propres de matrice symétrique $A \in \mathbb{S}^n$. Premièrement, il peut être montré que les valeurs propres de $A$ sont réelles. Deuxièmement, les vecteurs propres forment une base orthonormale, i.e., la matrice $X$ définie précédemment est une matrice orthogonale (pour cette raison, nous notons la matrice des vecteurs propres $U$ dans ce cas). Nous pouvons alors écrire $A$  comme $A = U\Lambda U^T$ (car l'inverse d'une matrice orthogonale est sa transposée).

En utilisant cette définition, on peut montrer que la "définition" d'une matrice dépend entièrement du signe de ses valeurs propres: Soit $A \in \mathbb{S}^n = U\Lambda U^T$. Alors:

\begin{align}
x^TAx = x^TU\Lambda U^T x= y^T\Lambda y = \sum_{i=1}^n \lambda_iy_i^2 \end{align}

Où $y = U^Tx$ et comme $U$ est de rang plein, tous les vecteurs $y \in \mathbb{R}^{n}$, peuvent s'écrire sous cette forme. Comme $y_i^2$ est toujours positif, alors le signe de cette expression dépend entièrement des $\lambda_i$.

- Si tous les $\lambda_i > 0$, alors $A$ est de type PD. 
- Si tous les $\lambda_i \ge 0$, alors $A$ est de type PSD. 
- Si tous les $\lambda_i < 0$, alors $A$ est de type ND. 
- Si tous les $\lambda_i \le 0$, alors $A$ est de type NSD. 
- Si $A$ a des valeurs propres positives et négatives, $A$ est indéfinie.

Une application fréquente des valeurs et vecteurs propres est la maximisation de fonctions d'une matrice. En particulier, pour une matrice $A \in \mathbb{S}^n$, étudions les problême de maximisation suivant:

\begin{align}
    \text{max}_{x \in \mathbb{R}^n} x^TAx \text{ tel que } \|x\|_2^2=1
\end{align}

i.e., nous voulons trouver les vecteur (de norme 1) qui maximise la forme quadratique. Si nous considérons les valeurs propres ordonnées telles que $\lambda_1 \ge \lambda_1 \ge \dots \ge \lambda_n$, le vecteur $x$ optimal pour ce probleme d'optimisation est $x_1$. Dans ce cas la valeur maximum de la forme quadratique est $\lambda_1$.  

Par symétrie, la solution optimale pour le problème :

\begin{align}
    \text{min}_{x \in \mathbb{R}^n} x^TAx \text{ tel que } \|x\|_2^2=1
\end{align}

est le vecteur $x_n$ et a pour valeur minimale $\lambda_n$.

## Calcul matriciel

### Le gradient

Soit $f : \mathbb{R}^{m \times n} \to \mathbb{R}$ une fonction prenant en paramètre une matrice $A$ de dimension $m \times n$ et retournant une valeur réelle. Alors le **gradient** de $f$ (selon $A \in  \mathbb{R}^{m \times n}$) est la matrice des dérivées partielles définie comme:

\begin{align}
\nabla_A f(A) \in  \mathbb{R}^{m \times n} &= \begin{bmatrix}
\frac{\delta f(A)}{\delta A_{11}} &
\frac{\delta f(A)}{\delta A_{12}} &
\dots &
\frac{\delta f(A)}{\delta A_{1n}} \\
\frac{\delta f(A)}{\delta A_{21}} &
\frac{\delta f(A)}{\delta A_{22}} &
\dots &
\frac{\delta f(A)}{\delta A_{2n}} \\
\vdots   & \vdots  & \ddots & \vdots \\
\frac{\delta f(A)}{\delta A_{m1}} &
\frac{\delta f(A)}{\delta A_{m2}} &
\dots &
\frac{\delta f(A)}{\delta A_{mn}} \\
\end{bmatrix} \\
\text{i.e.} \\
(\nabla_A f(A))_{ij} &= \frac{\delta f(A)}{\delta A_{ij}}
\end{align}

Notez que la dimension de $\nabla_A f(A)$ est toujours de la même dimension que $A$. Donc si, en particulier, $A$ est juste un vecteur $x \in \mathbb{R}^n$,


\begin{align}
\nabla_x f(x) &= \begin{bmatrix}
\frac{\delta f(x)}{\delta x_1} \\
\frac{\delta f(x)}{\delta x_2} \\
\vdots \\
\frac{\delta f(x)}{\delta x_n}
\end{bmatrix} 
\end{align}

Il est très important de se souvenir que le gradient d'une fonction est seulement définie si elle retourne une valeur scalaire. Il n'est pas possible par exemple de calculer les gradient de $Ax, A \in \mathbb{R}^{n \times n}$ selon $x$, puisque la fonction retourne un vecteur.

Il s'en suit que:

- $\nabla_x(f(x)+g(x) =  \nabla_x f(x) + \nabla_x g(x)$  
- $\nabla_x(f(x)g(x) =  f(x) \nabla_x g(x) + g(x) \nabla_x f(x)$  
- Pour $t \in \mathbb{R}, \nabla_x(t f(x)) = t\nabla_x(f(x))$

### Le Hessien

Soit $f : \mathbb{R}^{n} \to \mathbb{R}$ une fonction prenant en paramètre un vecteur dimension $n$ et retournant une valeur réelle. Alors le **hessien** de $f$ selon $x$ est la matrice de dimension $n \times n$ notée $\nabla_x^2f(x)$ ou simplement $H$:

\begin{align}
\nabla_x^2 f(x) \in  \mathbb{R}^{n \times n} &= \begin{bmatrix}
\frac{\delta f(x)}{\delta x_1^2} &
\frac{\delta f(x)}{\delta x_1 \delta x_2} &
\dots &
\frac{\delta f(x)}{\delta x_1 \delta x_n} \\
\frac{\delta f(x)}{\delta x_2 \delta x_1} &
\frac{\delta f(x)}{\delta x_2^2} &
\dots &
\frac{\delta f(x)}{\delta x_2 \delta x_n} \\
\vdots   & \vdots  & \ddots & \vdots \\
\frac{\delta f(x)}{\delta x_n \delta x_1 } &
\frac{\delta f(x)}{\delta x_n \delta x_2} &
\dots &
\frac{\delta f(x)}{\delta x_n^2} \\
\end{bmatrix} \\
\text{i.e.} \\
(\nabla_x^2 f(x))_{ij} &= \frac{\delta^2 f(x)}{\delta x_i \delta x_j}
\end{align}

Notez que le Hessien est une matrice symétrique, car:

\begin{align}
\frac{\delta^2 f(x)}{\delta x_i \delta x_j} = \frac{\delta^2 f(x)}{\delta x_j \delta x_i}
\end{align}

Comme pour le gradient, le hessien n'est défini que si $f(x)$ retourne un scalaire.

Il est naturel de considérer les gradient, comme analogue à la dérivée pour les fonctions de vecteurs, et le hessien comme la dérivée seconde. Cette intuition est en général correcte, mais il y a quand même une mise en garde à garder à l'esprit.

Premièrement, pour des fonctions à une variable de type $f: \mathbb{R} \to \mathbb{R}$, la dérivée seconde est bien la dérivée de la dérivée première (par définition).

\begin{align}
\frac{\delta^2 f(x)}{\delta x^2} = \frac{\delta}{\delta x} \frac{\delta}{\delta x} f(x)
\end{align}

Cependant pour une fonction de vecteur, le gradient d'un fonction est un vecteur, et il n'est pas possible de calculer le gradient d'un vecteur. Le hessien n'est donc pas le gradient d'un gradient. C'est "presque vrai" dans un sens : si nous regardons le $i^{eme}$ élément du gradient $(\nabla_x f(x))_i = \frac{\delta f(x)}{\delta x_i}$, et que nous en prenons le gradient selon $x$, nous obtenons:

\begin{align}
\nabla_x \frac{\delta f(x)}{\delta x_i} = \begin{bmatrix}
\frac{\delta^2 f(x)}{\delta x_i \delta x_1} \\
\frac{\delta^2 f(x)}{\delta x_i \delta x_2} \\
\vdots \\
\frac{\delta^2 f(x)}{\delta x_i \delta x_n} 
\end{bmatrix}
\end{align}

Ce résultat est la $i^{eme}$ colonne du hessien. D'où:

\begin{align}
\nabla_x^2 f(x) = \begin{bmatrix}
\nabla_x(\nabla_x f(x))_1 &
\nabla_x(\nabla_x f(x))_2 &
\dots &
\nabla_x(\nabla_x f(x))_n 
\end{bmatrix}
\end{align}

Finalement, noter que bien que nous ayons évoqué le gradient d'une matrice $A \in \mathbb{R}^n$ et le Hessien d'un vecteur $x \in \mathbb{R}$. Il est bien sûr possible de calculer le hessien d'une matrice, mais le hessien consiste à représenter toutes les dérivée partielles ce qui dans le cas d'une matrice s'avère laborieux $\frac{\delta^2 f(A)}{\delta A_{ij}\delta A_{kl}}$ .


### Le gradient et le hessien des fonctions linéaires et quadratiques

Essayons maintenant de déterminer les gradient et le hessien de quelques fonctions simples.

Pour $x \in \mathbb{R}^n$, soit $f(x)=b^Tx$ avec $b \in \mathbb{R}^n$. Alors:

\begin{align}
f(x) = \sum_{i=1}^n b_ix_i
\end{align}

alors:

\begin{align}
\frac{\delta f(x)}{\delta x_k} &= \frac{\delta}{\delta x_k}  \sum_{i=1}^n b_ix_i \\
 &= b_k
\end{align}

De ce résultat, nous pouvons déduire que $\nabla_xb^Tx = b$. Cette situation est comparable au calcul d'une seule variable, où $\frac{\delta}{\delta x}ax=a$.

Considérons maintenant la fonction quadratique $f(x) = x^TAx$ pour $A \in \mathbb{S}^n$. Souvenez vous que:

\begin{align}
    f(x)=\sum_{i=1}^n \sum_{j=1}^n A_{ij}x_ix_j
\end{align}

alors:

\begin{align}
\frac{\delta f(x)}{\delta x_k} &= \frac{\delta}{\delta x_k}  \sum_{i=1}^n \sum_{j=1}^n A_{ij}x_i x_j \\
 &= \sum_{i=1}^n A_{ik}x_i + \sum_{i=1}^n A_{kj}x_j  \\
 &= 2 \sum_{i=1}^n A_{ik}x_i 
\end{align}

La dernière égalité est vrai car $A$ est symétrique. Notez que le $k^{eme}$ élément de $\nabla_x f(x)$ est juste le produit scalaire de la $k^{eme}$ ligne de $A$ et de $x$, d'où: $\nabla_xx^TAx=2Ax$. Encore un fois, cette équation doit vous rappeler le cas d'une fonction d'une variable: $\frac{\delta}{\delta x}ax^2=2ax$

Finalement, étudions les Hessien des fonction quadratiques $f(x) = x^TAx$ (il est évident que le Hessien d'une fonction linéaire $b^T$ est 0). Le Hessien est encore plus simple que déterminer le gradient:

\begin{align}
\frac{\delta^2 f(x)}{\delta x_k \delta x_l} &=
\frac{\delta^2}{\delta x_k \delta x_l} \sum_{i=1}^n \sum_{j=1}^n  A_{ij} x_i x_j \\
 &= A_{kl} + A_{lk} \\
 &= 2A_{kl}
\end{align}

De là, il doit être clair que $\nabla_x^2x^TAx=2A$, ce qui devait être attendu et analogue au cas d'une fonction à une variable: $\frac{\delta^2}{\delta x^2}ax^2=2a$.

Pour récapituler:

- $\nabla_xb^Tx=b$
- $\nabla_xx^TAx=2Ax$ (Si $A$ est symétrique)
- $\nabla_x^2x^TAx=2A$ (Si $A$ est symétrique)

### Les moindres carrés
