# **Séance 5 : Loi de Pareto et extrapolations**
### **Professeur** : Christophe Ancey
#### **Assistants** : 
- Yanan Chen
- Sofi Farazande
- Clemente Gotelli
---

## Ajustements et extrapolations

Nous allons comparer ici la pluie centennale à Davos obtenue par extrapolation grâce aux quatre méthodes vues en cours, à savoir :

- **Méthodes à seuils:** Méthode du renouvellement et loi généralisée de Pareto
- **Méthodes par blocs :** Méthodes des moments et du maximum de vraisemblance

In [None]:
%load_ext jupyter_black

## **1. Méthode du renouvellement**

On rappelle que la méthode du renouvellement cherche à représenter les évènements extrêmes grâce à une loi de Poisson (comptabilisant le nombre d'évènements pour une période donnée) et une loi exponentielle (traduisant la distribution de ces évènements dans le temps). 

Pour une période de retour $T$ très grande, on obtient le quantile en fonction de la période de retour grâce à la formule suivante:

\begin{equation*}
C=s+\frac{\mbox{ln}\lambda}{\mu}+\frac{1}{\mu}\mbox{ln}T+O(T^{-1})
\label{eq:1} \tag{1}
\end{equation*}

Avec les paramètres :
- $\lambda=n_s/n_a$
- $\mu=1/(\tilde{C}-s)$
1. Tracer l'histogramme des précipitations à Davos couvrant $n_a$ années et déterminer à priori une valeur $s$ du seuil possible. Ne retenir que les $n_s$ précipitations dépassant le seuil par la suite. `[sns.histplot]`

**Solution:**  

2. Classer les valeurs de l'échantillon par ordre croissant et calculer $\tilde{C}$, sa moyenne empirique. `[sort_values(), mean()]`

**Solution:**  

3. A chaque valeur de l'échantillon de rang $i$, on affecte la période de retour :

\begin{equation*}
T_i=\frac{n_a}{n_s}\frac{n_s+1}{i}
\label{eq:2} \tag{2}
\end{equation*}

> Make $i$ go from 1 to the length of the filtered values over the threshold. `[count(), nunique()]`

**Solution:**  

4. Calculer les paramètres $\lambda$ et $\mu$, puis tracer dans un diagramme $(T,C)$: La variation du quantile $C$ en fonction de la période de retour $T$, grâce à la l'équation 1. Comparer avec les valeurs empiriques. `Make a graph of Pluie vs Période de retour T [années]`

**Solution:**  

5. Quel est la valeur de la pluie centennale ? $C_{100}=$ 

**Solution:**  

6. Changer le seuil tel que $s_2>s$ puis $s_3<s$, et tracer les lois obtenues sur la même fenêtre. Quelle influence cela a t-il sur l'extrapolation? Comment choisir un « bon~» seuil selon vous? 

**Solution:**  

---

## 2. Loi de Pareto
>_*Vilfredo Pareto, né le 15 juillet 1848 à Paris et mort le 19 août 1923 à Céligny (Suisse), est un sociologue et économiste italien. Il demeure célèbre pour son observation des 20 \% de la population qui possèdent 80 \% des richesses en Italie, généralisée plus tard en distribution de Pareto. Cette observation a été étendue à d'autres domaines sous le terme de « principe de Pareto ».  Il définit la notion d'optimum paretien comme une situation d'ensemble dans laquelle un individu ne peut améliorer sa situation sans détériorer celle d'un autre individu.*_

La loi de Pareto s'exprime ainsi :

$$
 G(x)=1-{\left(1+\frac{\tilde{\xi}x}{\tilde{\sigma}}\right)}^{-1/\tilde{\xi}} \tag{3}
$$

On cherche à déterminer ses paramètres. On peut obtenir que pour tout seuil $s>s_0$, l'équation suivante est vérifiée :

$$
E[X-s|X>s] = \frac{\tilde{\sigma_s}}{1-\tilde{\xi}} = \frac{\tilde{\sigma_{s_0}} +
\tilde{\xi}(s-s_0)}{1-\tilde{\xi}} =  \frac{\tilde{\sigma_{s_0}}-\tilde{\xi}\cdot s_0}{1-\tilde{\xi}}+ \frac{\tilde{\xi}}{1-\tilde{\xi}}\cdot s \tag{4}
$$

$\tilde{\xi}/(1-\tilde{\xi})$ est donc la pente et $(\tilde{\sigma_{s_0}} - \tilde{\xi}s_0)/(1-\tilde{\xi})$ l'ordonnée à l'origine de la fonction $f(s)=E[X-s|X>s]$ 

1. Tracer $E(X-s|X>s)$ en fonction de $s$ et déterminer a priori sur quel domaine le paramètre $\tilde{\xi}$ pourra être ajusté. *(calculer la moyenne de la distance des valeurs qui dépassent le seuil par rapport à ce même seuil)*. `[mean()]`

> Calcul de la moyenne (i.e. de l'espérence $E$) de $X-s$ sachant que $X>s$ $\rightarrow$ $(E(X-s|X>s)$) pour différentes valeurs de seuil s, X étant la variable aléatoire donnant les pluies journalières.

**Solution:**  

2. Pour un domaine fixé, calculer les paramètres de la loi de Pareto qui approchent le mieux cette distribution (vous pouvez utiliser la commande `np.polyfit`). Tracer la droite ajustée sur le même graphique que $f(s)$. A quelle type de loi de valeurs extrêmes peut-on comparer la loi de Pareto ?

> Ajustement des paramètres de la loi de Pareto par une régression linéaire sur la fonction $E(X-s|X>s)$.

**Solution:**  

3. Tracer le quantile $x_{p}(T)$ ainsi ajusté et comparer le aux données de l'échantillon.

$$si\,\,\, \tilde{\xi}\ne 0, x_p(T) = s+ \frac{\tilde{\sigma}}{\tilde{\xi}}\left(\left(T\frac{n_s}{n_a}\right)^{\tilde{\xi}}-1\right)$$

$$si\,\,\, \tilde{\xi} =0, x_p(T) = s+\tilde{\sigma}\mbox{ln}\left(T\frac{n_s}{n_a}\right) \tag{5}$$

**Solution:**  

4. Ajuster maintenant les paramètres de la loi de Pareto grâce à la méthode d'optimisation de votre choix (max. de vraisemblance, Hasting-Metropolis, méthode des moments, etc.) pour 3 seuils différents  [`[stats.genpareto,`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.genpareto.html#scipy.stats.genpareto)`fit()]`

> **Attention!** Les valeurs à ajuster selon cette loi sont les pluies $P_0$ qui sont supérieures au seuil moins la valeur du seuil $s_0$.

**Solution:**  

5. Reproduire ces résultats sur un même graphique et les comparer (quantiles théoriques, quantiles empiriques, quantiles théoriques avec la méthode d'optimisation).

**Solution:**  

6. Donner la valeur du quantile extrapolé $C_{100}=$ 

> Use the parameters obtained with both the linear fit and distribution fit.

**Solution:**  

---

lll## 3. Maximum de vraisemblance
1. Calculer les maxima annuels. `[df.groupby(), max()]`

**Solution:**  

2. Ajuster une loi de valeurs extrêmes grâce au maximum de vraisemblance. [`[scipy.stats.genextreme,`](https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.genextreme.html)`fit(), cdf(),`[`statsmodels.distributions.empirical_distribution.ECDF]`](https://www.statsmodels.org/dev/generated/statsmodels.distributions.empirical_distribution.ECDF.html)

> Remember that:  $T=\dfrac{1}{1-genextreme.cdf(X)}$

**Solution:**  

3. Tracer sur la même figure, le quantile obtenu $x_{ev}(T)$ via la méthode par bloc et les quantiles $x_{p}(T)$ et $C_s(T)$ obtenus via les méthodes à seuil. Conclure.

**Solution:**  