# Partie 3 : Evaluation par arbitrage (Arbitrage pricing theory)

Le CAPM aboutit au resultat suivant, pour tout actif j:

$$E(r_j) = r_f + \beta_j*(E(r_M)-r_f)$$
avec $$\beta_j = \frac{Cov(r_j, r_M)}{\sigma_M^2}$$

On peut étendre ce résultat à tout portefeuille d'actif p :

$$E(r_p) = \sum_j w_jE(r_j) = \sum_j w_j*r_f + \sum_j w_j*\beta_j*(E(r_M)-r_f)$$
C'est-à-dire : 
$$E(r_p) = r_f + \beta_p * (E(r_M)-r_f)$$
avec $$\beta_p = \sum_j w_j*\beta_j$$

L'objectif du modèle d'évaluation par arbitrage est de s'intéresser à la même idée de séparation entre risque systémique et risque spécifique, mais en se libérant de plusieurs suppositions encombrantes nécessaires au CAPM :
- la normalité des rendements
- la forme quadratique de la fonction d'utilité, basée sur l'espérance de rendements d'une part et sur la variance d'autre part.

Référence : 
Ross, Stephen A. « The arbitrage theory of capital asset pricing ». Journal of economic theory 13, nᵒ 3 (1976): 341–360.

L'argument formulé par Ross est d'abord conduit avec un seul facteur, puis généralisé à plusieurs.

## Un seul facteur

Comme le CAPM et l'APT (Arbitrage Pricing Theory) partagent la même idée de séparation entre risque systémique et risque spécifique, la supposition de départ de l'APT est très similaire au CAPM.

Supposons que le risque pur d'un rendement d'un actif $j$ puisse se décomposer en risque pur lié à un facteur unique (systémique, donc) et à un risque spécifique. On a alors:

$$r_j = E(r_j) + \beta_j\bar \delta + \bar \epsilon_j$$

avec $\bar \delta$ désignant le risque pur systémique (donc d'espérance 0) et $\bar \epsilon_j$ le risque pur spécifique. Les risques spécifiques sont indépendants. (Techniquement : suffisamment indépendants pour que la loi des grands nombres s'applique).

La logique de l'APT tourne autour de l'idée d'arbitrage:

La définition de l'arbitrge retenue habituellement est la possibilité de réaliser un profit sans risque, sans investir de richesse (la position doit-être nulle). Un exemple simple est celui d'un actif ayant deux prix différents sur deux marchés: l'achat du titre au prix le moins cher et sa revente au prix le plus cher constitue une opération d'arbitrage : le risque est nul, l'investissement total aussi, et le gain est certain (égal à la différence de prix). Les arbitrageurs garantissent ainsi *la loi du prix unique*. 

Il suffit d'un faible nombre d'arbitrageurs pour faire disparaître les opportunités d'arbitrage, car l'absence de risque et d'investissement permet de multiplier les opérations tant que l'oportunité existe. Tout investisseur voudra prendre une position infinie sur une opportunité d'arbitrage.

C'est le caractère général de ce principe et sa rapidité d'exécution qui rendent l'arbitrage séduisant pour justifier théoriquement un modèle : c'est un avantage que ne possède pas le CAPM.

Pour prendre en compte la notion d'arbitrage, il faut prendre en compte deux aspects:
1. La richesse investie dans un portefeuille d'arbitrage est nulle : les achats de certains actifs sont compensés par les ventes par ailleurs.
2. Le risque systémique est nul. Les arbitrages parfaits disposent d'un risque (tout court) nul; mais l'APT ne nécessite que la supposition que le risque systémique soit nul, et que le risque spécifique soit bien équilibré entre les actifs, de sorte qu'il sera diversifié en augmentant le nombre d'actifs, et donc tendre vers 0 à l'aide de la loi des grands nombres.

Comme précédemment, un portefeuille est entièrement défini par les poids $w_j$ :
$$
w = \left( \begin{array}{c}
w_1 \\
w_2 \\
\vdots \\
w_n \\
\end{array} \right)
$$

On note $e$ le vecteur identité :
$$
e = \left( \begin{array}{c}
1 \\
1 \\
\vdots \\
1 \\
\end{array} \right)
$$

On note r le vecteur des rendements :
$$
r = \left( \begin{array}{c}
r_1 \\
r_2 \\
\vdots \\
r_n \\
\end{array} \right)
$$

On a de la même manière le vecteur de l'espérance des rendements $E$:
$$
E = \left( \begin{array}{c}
\mathrm{E}(r_1) \\
\mathrm{E}(r_2) \\
\vdots \\
\mathrm{E}(r_n) \\
\end{array} \right)
$$

... et le vecteur des bêtas:
$$
\beta = \left( \begin{array}{c}
\beta_1 \\
\beta_2 \\
\vdots \\
\beta_n \\
\end{array} \right)
$$

La richesse (en proportion de la richesse disponible) investie dans le portefeuille est donc :
$$w'e = \sum_j w_j * 1$$

Jusqu'à présent, on considérait les portefeuilles d'investissements qui réunissent nécéssairement toute la richesse disponible (quitte à placer une bonne partie dans l'actif sans risque). On avait alors :
$$w'e = \sum_j w_j * 1 = 1$$

Nous nous intéressons ici à une forme particulière de portefeuille, qui implique que la richesse investie sous au contraire égale à 0 au total :
$$w'e = w_j * 1 = 0$$
Ce que l'on appelle un portefeuille d'arbitrage.

Le raisonnement est le suivant :

Etape 1 : Constituer un portefeuille d'arbitrage de richesse investie nulle ($w'e = 0$) et suffisamment bien équilibré pour que le risque spécifique tende vers 0 avec la loi des grands nombres.

Etape 2 : Considérons notre portefeuille d'arbitrage :
$$r_p = w'r = \sum_j w_j r_j = \sum_j w_j [E(r_j) + \beta_j\bar \delta + \bar \epsilon_j]$$
$$r_p = w'r = \sum_j w_jE(r_j) + \sum_j w_j\beta_j\bar \delta + \sum_j w_j\bar \epsilon_j$$
$$r_p = w'r = w'E + (w'\beta) \bar \delta + w'\bar \epsilon$$

D'après la loi des grands nombres, pour un grand nombre d'actifs n, le rendement du portefeuille devient:

$$r_p = w'r \approx w'E + (w'\beta) \bar \delta$$

Etape 3 : Nous avons également le fait que le portefeuille n'ait pas de risque systémique, ce que l'on peut traduire par :
$$w'\beta = 0$$

Ce qui nous donne :
$$r_p = w'r \approx w'E$$

Ce que l'on peut interpréter comme un retour certain si le portefeuille est suffisamment diversifié pour faire disparaître le risque spécifique. En résumé, en n'utilisant aucune richesse, nous sommes à même ne nous assurer un rendement certain: c'est ce qui caractérise un portefeuille d'arbitrage.

Nécessairement, ce rendement certain doit être égal à 0. S'il est différent de 0, un petit nombre d'arbitrageurs suffira à faire revenir ce rendement à 0 très rapidement. Nous avons donc nécessairement:
$$w'E = 0$$

Nous avons donc :
$$\forall w \in \mathbb{R}^n, w'e = w'\beta=0 \Rightarrow w'E = 0  $$

En faisant un peu d'algèbre, on peut tirer de ce résultat quelque chose d'intéressant.

Nous nous situons dans $\mathbb{R}^n$, ce qui signifie que :
$$\forall w \in \mathbb{R}^n,$$
$$
w = \left( \begin{array}{c}
w_1 \\
w_2 \\
\vdots \\
w_n \\
\end{array} \right)
$$
d'où 
$$w = \sum_j w_j * e_j$$
avec 
$$
e_j = \left( \begin{array}{c}
0 \\
0 \\
\vdots \\
1 \\
\vdots \\
0 \\
\end{array} \right)
$$
(sur la ligne n°j)

Il s'agit de la décomposition de $w$ dans la base canonique de $\mathbb{R}^n$.

Néanmoins il existe une infinité de bases de $\mathbb{R}^n$, et l'on pourrait décomposer $w$ dans n'importe laquelle.

Etant donné qu'il existe $n$ dimensions dans $\mathbb{R}^n$, les bases de $\mathbb{R}^n$ comprennent $n$ éléments.

Ces éléments forment une [famille libre](https://fr.wikipedia.org/wiki/Ind%C3%A9pendance_lin%C3%A9aire), c'est-à-dire qu'on ne peut écrire aucun élément de cette famille comme une combinaison linéaire des autres éléments:
$$z = 1x + 2y$$

C'est logique, car cela signifierait que cette dimension n'en est pas vraiment une. On dit qu'il existe une indépendance linéaire entre les éléments de la base. 
Formellement, pour une famille $(v_{i})_{{1\leq i\leq n}}$ cela s'écrit comme ceci:

$\forall (a_{1},\ldots ,a_{n})\in \mathbb{R}^{n}$ non tous nuls, on a:
$$\quad \left(a_{1}v_{1}+\cdots +a_{n}v_{n}=0\Rightarrow a_{1}=a_{2}=\cdots =a_{n}=0\right)$$

Ce qui peut se traduire par : s'il existe des coefficient $a_i$ non tous nuls tels que l'on peut écrire une relation linéaire entre les éléments de la famille, alors c'est que tous les coefficients $a_i$ valent 0, car sinon la famille ne serait pas libre (il n'y aurait pas d'indépendance linéaire).

Parmi les bases de $\mathbb{R}^n$, il en existe qui dont les vecteurs sont orthogonaux entre eux. C'est-à dire que le produit scalaire de deux vecteurs est nuls : la projection d'un vecteur sur l'autre vaut 0. Le produit scalaire dans $\mathbb{R}^n$ est simplement:
$$\langle x,y\rangle =\sum _{{i=1}}^{n}x_{i}y_{i}= x'y$$
Rappelons nous que le produit scalaire est bilinéaire, que l'on peut donc séparer les sommes et sortir les facteurs.

Commençons par observer que la famille $(e, \beta)$ forme une famille libre (sinon les betas seraient tous égaux, situation que l'on peut écarter).

Le produit scalaire de $e$ et de $\beta$ est:
$$\langle e,\beta\rangle = \sum _{{i=1}}^{n}1*\beta_i$$

Pour obtenir un produit scalaire nul, il suffit simplement de centrer le vecteur $\beta$, c'est-à-dire de soustraire chaque élément par sa moyenne $\bar \beta = \frac1n\sum _{{i=1}}^{n}\beta_i$:
$$\langle e,\beta - \bar \beta e\rangle = \sum _{{i=1}}^{n}1*(\beta_i - \bar \beta) = \sum _{{i=1}}^{n}\beta_i - n\bar \beta = \sum _{{i=1}}^{n}\beta_i - \frac nn\sum _{{i=1}}^{n}\beta_i=0$$

Nous avons donc deux vecteurs qui forment une famille libre, et ils sont orthogonaux entre eux.

C'est un bon début pour une base de $\mathbb{R}^n$. Il serait possible de trouver $(v_3, v_4, ..., v_n)$ pour compléter $(e, \beta - \bar \beta e)$ et former une famille libre et dont les vecteurs sont orthogonaux entre eux.

$(e, \beta - \bar \beta e, v_3, ..., v_n)$ est alors une famille libre de $n$ vecteurs: elle forme alors une base de $\mathbb{R}^n$. Il est possible d'écrire n'impore quel élément de $\mathbb{R}^n$ comme une combinaison linéaire de ces éléments. Prenons le vecteur E des espérance de rendements:
$$
E = \left( \begin{array}{c}
\mathrm{E}(r_1) \\
\mathrm{E}(r_2) \\
\vdots \\
\mathrm{E}(r_n) \\
\end{array} \right)
$$

On a donc :
$$\exists (a_{1},\ldots ,a_{n})\in \mathbb{R}^{n}, E= a_1e + a_2(\beta - \bar \beta e) + a_3v_3 + ... + a_nv_n$$
et
$$\forall w \in \mathbb{R}^{n}, \exists (b_{1},\ldots ,b_{n})\in \mathbb{R}^{n}, w= b_1e + b_2(\beta - \bar \beta e) + b_3v_3 + ... + b_nv_n$$

Or si on se limite au portefeuille d'arbitrage $w$ tel que défini précédemment, on a :
$$\langle w,e\rangle =w'e =  0$$
$$\langle b_1e + b_2(\beta - \bar \beta e) + b_3v_3 + ... + b_nv_n, e\rangle = 0$$
or 
$$\langle b_1e + b_2(\beta - \bar \beta e) + b_3v_3 + ... + b_nv_n, e\rangle = \langle b_1e, e\rangle$$ car la base est composée de vecteur orthogonaux entre eux.
On a donc:
$$\langle b_1e, e\rangle = b_1||e||=0$$
D'où $b_1 = 0$.

De la même manière on a $$\langle w,\beta - \bar \beta e\rangle = \langle w,\beta \rangle - \langle w,\bar \beta e\rangle=w'\beta - \bar \beta w'e=  0$$
et on a donc $b_2 = 0$

On a donc $$w= b_3v_3 + ... + b_nv_n$$

On peut repartir de:
$$E= a_1e + a_2\beta + a_3v_3 + ... + a_nv_n$$
et multiplier par $w'$:
$$w'E = a_1w'e + a_2w'\beta + w'(a_3v_3 + ... + a_nv_n)$$
$$0 = w'(a_3v_3 + ... + a_nv_n)$$
$$0 = \langle w,a_3v_3 + ... + a_nv_n\rangle$$
$$0 = \langle b_3v_3 + ... + b_nv_n, a_3v_3 + ... + a_nv_n\rangle$$

Le fait que les vecteur soient orthogonaux deux-à-deux permet d'aboutir à:
$$0 = a_3b_3||v_3|| + ... + a_nb_n||v_n||$$

Or on sait que $||v_i|| \neq 0$ et que l'égalité précédente reste vraie pour tous les $(b_3, ..., b_n) \in \mathbb{R}^n$.
On a donc:
$$a_3 = ... = a_n = 0$$
et donc 
$$E= a_1e + a_2(\beta - \bar \beta e)$$
ce que l'on peut réécrire comme :
$$E= (a_1 - a_2\bar \beta)e + a_2\beta$$
d'où le résultat fondamental de l'Arbitrage Pricing Theory:
$$E= \rho e + \lambda\beta$$

C'est une égalité vectorielle que l'on peut dérouler au niveau des espérance de rendements des actifs individuels:
$$E(r_j) = \rho + \lambda\beta_j, \quad j=(1, ..., n)$$

Pour l'actif sans risque $r_n$, on a $\beta_{n} = 0$, et donc :
$$E(r_n) = r_f = \rho$$
L'égalité devient:
$$E(r_j) = r_f + \lambda\beta_j, \quad j=(1, ..., n)$$

On observe là-encore que cette égalité s'applique aux portefeuilles:
$$E(r_p) = \sum_j w_jE(r_j) = \sum_j w_j*r_f + \sum_j w_j\beta_j \lambda$$
$$E(r_p) = w'E = r_f + \lambda \beta_p$$

En particulier au portefeuille de marché:
$$E(r_m) = w_m'E = r_f + \lambda\beta_m$$

Or on a :
$$r_j = E(r_j) + \beta_j\bar \delta + \bar \epsilon_j$$
donc pour le marché :
$$r_m = E(r_m) + \beta_m\bar \delta $$
D'où $\beta_m = 1$, logiquement.

On a donc :
$$E(r_m) = r_f + \lambda$$
$$\lambda = E(r_m) - r_f$$

Le résultat devient donc :
$$E(r_j) = r_f + (E(r_m) - r_f)\beta_j, \quad j=(1, ..., n)$$

### Risque spécifique négligeable

On a vu à l'étape 2 que:
$$r_p = w'r = \sum_j w_jE(r_j) + \sum_j w_j\beta_j\bar \delta + \sum_j w_j\bar \epsilon_j$$
Ce qui nous permet d'écrire la variance du portefeuille:
$$\sigma_p^2 =  \beta_p^2 \sigma^2(\bar \delta) + \sum_j w_j^2\sigma^2(\bar \epsilon_j)$$

Le fait que la part de la variance du portefeuille spécifique aux actifs $\sum_j w_j^2\sigma^2(\bar \epsilon_j)$ deviennent négligeable dépend de plusieurs suppositions et de l'application de la loi des grands nombres. Mais nous pouvons avoir une intuition du phénomène en prenant un portefeuille avec des poids égaux a $\frac1n$:

$$\sum_j w_j^2\sigma^2(\bar \epsilon_j) = \sum_j (\frac1n)^2\sigma^2(\bar \epsilon_j) = \frac1n \sum_j \frac1n\sigma^2(\bar \epsilon_j) = \frac1n \bar \sigma^2(\bar \epsilon_j)$$

Si la variance des actifs est bornée (ce qui constitue une hypothèse du modèle), alors la diversification fera tendre la composante spécifique de la variance du portefeuille vers 0.

Dans le cas général, il faut que le portefeuille soit suffisamment diversifié pour que cette quantité devienne négligeable. Si chaque actif reste présent dans le portfeuille avec un magnitude de 1/n (comme présenté par Ross, 1976), alors cela s'applique. On peut définir de manière plus générale un portefeuille comme bien diversifié si cette quantité est négligeable.

En pratique, cela constitue le principal raccourci (et donc la faiblesse) du modèle APT. 

In [14]:
import numpy as np
sigma_2_j = 0.5
for n in [4, 60, 200, 1000, 10000]:
    sd = (1 / n) * sigma_2_j ** 2
    print("N: " + str(n) + " Risque spécifique : " + str(np.sqrt(sd) * 100) + "%")

N: 4 Risque spécifique : 25.0%
N: 60 Risque spécifique : 6.454972243679028%
N: 200 Risque spécifique : 3.5355339059327378%
N: 1000 Risque spécifique : 1.5811388300841895%
N: 10000 Risque spécifique : 0.5%


Les fonds et les index contiennent généralement moins de 1000 actifs, les plus gros peuvent monter jusqu'à 5000. En situation idéale (diversification a 1/n), le risque spécifique n'est pas négligeable.

### CAPM ou APT a un facteur ?

L'APT a plusieurs arguments a faire valoir contre le CAPM:
- Pas de normalité des rendements
- Pas d'homogénéité des comportements (le CAPM suppose que tout le monde optimise à la Markowitz)
- Caractère indiscutable et universel de l'arbitrage
- Rapidité d'exécution ; les opportunités d'arbitrages sont comblées aussi vite que possible, tandis que les écarts à l'équilibre dans le CAPM sont réajustés par l'aggrégation de gros volumes d'opérations conduites par les investisseurs qui modifient leurs portefeuilles.
- Nécessite peu d'arbitrageurs, tandis que l'ensemble des investisseurs doivent réajuster leurs portefeuilles pour que le système reviennent à l'équilibre dans le CAPM. 
- Un portefeuille suffisamment bien diversifié suffit dans l'APT, tandis que le CAPM nécessite un portefeuille optimal composé de tous les actifs d'un marché supposé unique et accessible entièrement à tous.

Il a cependant plusieurs inconvénients:
- La supposition de risque spécifique négligeable peut être violée même pour de très grands portefeuilles. Les portefeuilles actifs ont une taille plus limitée, et peuvent donc manifester un risque spécifique persistant.
- Mathématiquement, les conclusions de l'APT sont valables pour l'ensemble des actifs sauf peut-être quelques-uns. Ces exceptions ne sont pas possibles dans le CAPM, car les agents shortent ou achètent les actifs qui ne possèdent pas le bon ratio contribution au rendement / contribution au risque systémique.

Mais les deux modèles arrivent à la même conclusion, ce qui renforce sa pertinence.

## Le modèle a plusieurs facteurs

Il est possible de supposer que le risque ne provient pas d'une seule source, mais de plusieurs. A l'inverse du CAPM, il n'y a pas de notion d'équilibre et donc de marché comme facteur unique. On peut imaginer plusieurs source  de facteurs systémiques affectant les actifs.

Prenons par exemple deux facteurs:

$$r_j = E(r_j) + \beta_{j1}\bar \delta_1 + \beta_{j2}\bar \delta_2+ \bar \epsilon_j$$

On peut imaginer que le premier facteur désigne un décaage entre la croissance mondiale et les prévisions, tandis que le second désigne un changement innattendu de taux d'intérêts. Les deux facteurs sont toujours d'espérance nulle car ils désignent le risque pur, la surprise : ce qui était attendu est déjà intégré dans l'espérance de $r_j$.

Les facteurs peuvent être intégrés dans le modèle à l'aide de *tracking portfolios*, des portefeuilles conçus pour avoir un beta de 1 vis-à-vis du facteur considéré.

Il pourrait être démontré que l'absence d'arbitrage implique le résultat suivant :
$$E(r_j) = r_f + (E(r_{p1}) - r_f)\beta_{p1} + (E(r_{p2}) - r_f)\beta_{p2}$$

Intuitivement, cela se traduit par le fait le concept d'arbitrage s'étend aisèment à plusieurs facteurs. Pour l'actif $r_j$ vu précédemment, il est possible de constituer un portefeuille Q répliquant le rendement attendu, en investissant $\beta_{p1}$ dans le portefeuille du facteur 1, $\beta_{p2}$ dans le portefeuille du facteur 2 et $1 - \beta_{p1} - \beta_{p2}$ dans l'actif sans risque. On obtient:

$$E(r_Q) = \beta_{p1}E(r_1) + \beta_{p2}E(r_2) + (1 - \beta_{p1} - \beta_{p2})r_f$$
$$E(r_Q) = r_f + (E(r_{p1}) - r_f)\beta_{p1} + (E(r_{p2}) - r_f)\beta_{p2}$$

Si le rendement d'un actif dévie de la valeur prédite par les facteurs qui le composent, une opportunité d'arbitrage apparaît.

## Le modèle Fama-French a trois facteurs

## Estimation de données réelles