# Séance 3 : Ajustement de lois
### Professeur : Christophe Ancey
#### Assistants : 
- Yanan Chen
- Sofi Farazande
- Clemente Gotelli
---

# 1. Méthode des moments 

L'ajustement le plus simple est de chercher la loi ayant les mêmes moments que les données. Les moments des données sont :  

| Moyenne ($1^{er}$ moment) | $E=\int X dP = \frac 1N \sum x_i$                            |  
|:-|:-|
| **Variance ($2^{e}$ moment)**| $\sigma^2=\int (X-\mu)^{2} dP = \frac 1N \sum (x_i-\mu)^{2}$ |  

Le nombre de paramètres de la loi donne le nombre de moments à égaliser. Trois séries de données (*serie01.txt, serie02.txt et serie03.txt*) ont été obtenues lors d'expériences et on cherche à leur affecter l'une des lois de probabilité suivante : loi log-normale, loi binomiale négative et loi de Poisson.  
#### Exercices

1. Donner les principales caractéristiques de ces trois lois (on pourra s'aider d'internet), à savoir le nombre de paramètres, la moyenne et la variance. Quelles sont leurs particularités respectives ?

**Solution:**

2. Calculer les densités de probabilité (pdf) de ces trois séries et tracer les avec leurs pdf théoriques ajustées à l'aide de la méthode des moments.`[hist/histplot, scipy.stats.nbinom.pmf, scipy.stats.poisson.pmf, scipy.stats.lognorm.pdf]`

**Solution:**

3. Pour chacune de ces séries, tracer un diagramme quantile experimental/quantile théorique ainsi que la droite $y=x$. `[scipy.stats.nbinom.ppf, scipy.stats.poisson.ppf, scipy.stats.lognorm.ppf]`

**Solution:**

4. Que dire de ce diagramme pour la série 3 ?

**Solution:**

# 2. Méthode du maximum de vraisemblance
 
Nous allons dans cette section appliquer la méthode du maximum de vraisemblance aux données *seriegamma.txt*. Nous voulons ici caler une loi Gamma à deux paramètres.
#### Exercices
1. Pour commencer nous allons créer une fonction Python qui calcule l'opposée de la log-vraisemblance $l(\kappa,\lambda)$ lorsqu'on lui donne les paramètres $(\kappa,\lambda)$ et les données $x_i$. La vraisemblance est définie de la manière suivante:
$$
L(\kappa,\lambda) = \prod_{i=1}^N G_a[\lambda,\kappa](x_i).
$$
  
- Calculer **analytiquement** la fonction $l(\kappa,\lambda,x_i)=-$ln$(L)$ et simplifier au maximum son expression.  

**Solution:**

- Pour créer une fonction dans Python, il faut créer un fonction **mafonction**. (cf premier TD) La syntaxe est ensuite du type : `def` `scipy.special.gamma`

    ```python
    def mafonction(kappa, Lambda, x):
        lvrai = ...;
        return Lvrai
    ```
    
Une fois que cette fonction est créée, la commande fonction `mafonction`$(k,l,x)$ vous donne l'opposé de la valeur de la log-vraisemblance correspondant au triplet $(k,l,x)$.

Insérer l'expression analytique trouvée dans `mafonction`. 

**Solution:**

2. Nous allons ensuite chercher le minimum de la fonction créée avec la fonction: `mafonction`$(k,l,x)$

Ici, on cherche la valeur qui minimise `mafonction`. Comme notre fonction a deux paramètres, nous allons effectuer une recherche par itérations. L'algorithme est le suivant :


- Fixer un paramètre $k$ arbitrairement
- Pour i=1...100:
    - Utiliser `lambda` pour créer une nouvelle fonction qui ne contient que la variable $l$:
    
        ```python
        lambda l: mafonction(k, l, data)
        ```
    
    Calculer la borne inférieure de $l$ avec la fonction `scipy.optimize.fminbound` dans l'interval [0, 10].
    - Utiliser `lambda` pour créer une nouvelle fonction qui ne contient que la variable $k$:
    
        ```python
        lambda k: mafonction(k, l, data)
        ```
    
    Calculer la borne inférieure de $k$ avec la fonction `scipy.optimize.fminbound` dans l'interval [0, 10].
 
- Fin de la boucle.

Coder cet algorithme.

**Solution:**

3. L'algorithme converge t'il ? Tracer la densité de probabilité de la loi ajustée, et la comparer à celle obtenue grâce à la méthode des moments et la méthode des empiriques. `scipy.stats.gamma.pdf`

**Solution:**

# 3. Ajustement de lois de valeurs extrêmes sur des données

Nous allons maintenant faire un ajustement de loi de valeurs extrêmes sur les données de températures et de précipitations à Davos. Il s'agit de déterminer le type de loi de valeurs extrêmes (Weibull, Gumbel ou Fréchet) qui décrit le mieux le comportement des maxima de chaque série. Dans cette exercice, nous utiliserons directement la fonction `scipy.stats.genextreme.gev.fit` qui estime les paramètres de la loi généralisée des valeurs extrêmes par la méthode du maximum de vraisemblance vue dans l'exercice précédent.
Nous procédons de la manière suivante :  
- Définir des blocs (classiquement des années)
- Calculer le maximum de chaque bloc (donc par exemple le maximum annuel)
- Utiliser ces maxima pour caler la loi des valeurs extrêmes
- Tracer cette loi et comparer avec la courbe empirique.
#### Exercices

1. **Précipitations**  
De quel type (Gumbel, Fréchet ou Weibull) est la distribution de la dernière colonne? `numpy.where` `scipy.stats.genextreme.gev.fit`

**Solution:**

2. **Températures**  
Le fichier possède plusieurs colonnes de données, les trois dernières colonnes représentent la température à 7h, 13h et 21h. Choisissez-en une et trouver la loi de valeurs extrêmes qui convient le mieux pour décrire la distribution des maxima:
- Tracer les densités de probabilité (pdf) et les fonctions de distribution cumulative (cdf) `scipy.stats.genextreme.gev.pdf` `scipy.stats.genextreme.gev.cdf`  

**Solution:**

- Calculer le temps de retour de différentes températures

**Solution:**

3. **Trouver la meilleure distribution**  
La distribution de Weibull est-elle la meilleure solution? Nous n'en sommes pas sûrs. Dans cette question, nous allons essayer de trouver la distribution la mieux adaptée aux données.
Ici, nous utilisons le package fitter pour le faire (voir plus d'informations sur [ce site](https://fitter.readthedocs.io/en/latest/index.html)). Il faut l'installer (`!pip install fitter`) et l'importer `Fitter` à partir de celui-ci.

Utiliser `Fitter` pour ajuster l'ensemble de données. Vous pouvez utiliser la distribution de votre choix.

**Solution:**