<img src="Images/Logo.png" alt="Logo NSI" style="float:right">

<h1 style="text-align:center">TP : Moindres carrés, par segments</h1>

Nous allons nous intéresser à un problème géométrique qui peut se résoudre à l'aide d'une technique de **programmation dynamique**.  
Ce problème est connu sous le nom de *segmented least squares* dans la littérature.  
En français, nous dirions *moindres carrés par segments*. Les explications ci-dessous reprennent en grande partie le contenu de la [vidéo présentant le TP](Fichiers/Segments.mp4).

## Description du problème
Nous avons une suite de points dans le plan décrits par leurs coordonnées.

$$(x_1,y_1),...,(x_n,y_n)$$
Les $x_i$ et $y_i$ seront représentés par des nombres flottants.  
Plus précisément, nous aurons deux tableaux de double nommés `xtab` et `ytab`, de même longueur.  
Pour chaque point $i$, ses deux coordonnées seront données par `xtab[i]` et `ytab[i]`.  
On suppose que `xtab` est trié par ordre croissant, c'est-à-dire que les points $1, 2, ... , n$ sont placés de gauche à droite dans le plan.

<div style="text-align: center">
<img src="Images/regression1.jpg" alt="Regression">
</div>

On suppose que les points sont à peu près placés sur un certain nombre de segments.  
Par exemple dans le cas de la figure ci-dessus, les points sont placés sur 2 segments ; dans le cas de la figure ci-dessous, sur 3 segments.

<div style="text-align: center">
<img src="Images/regression2.jpg" alt="Regression">
</div>

Le but est d'écrire un programme qui détermine le nombre de segments.

## Structure du sujet
Dans un premier temps, pour nous familiariser avec le problème, nous allons parler de régression linéaire, c'est-à-dire du cas où il n'y a qu'un seul segment. Nous verrons comment trouver la formule analytique de ce segment et l'erreur qui en découle.  
Nous pourrons ensuite étendre le problème et nous intéresser au cas où plusieurs segments doivent être trouvés. Nous verrons alors en quoi ce problème relève de la programmation dynamique.

### Problème à un segment : régression linéaire
Pour déterminer le nombre de segments, nous aurons besoin de quelques formules simples de statistiques. Commençons par celles qui permettent de trouver une droite qui passe le plus près possible d'un ensemble de points. C'est la technique de la formule de la régression linéaire.

**Ces formules peuvent être utilisées sans chercher à en comprendre tous les détails.**

Une droite est donnée par la formule:

$$y=a⋅x+b$$

Si on a l'ensemble de points suivant :

$$(x_1,y_1),(x_2,y_2), ... ,(x_n,y_n)$$

alors les coefficients $a$ et $b$ de la droite passant au plus près des points sont donnés par les formules :


$$a=\frac{ n \sum\limits_{i=1}^{n} x_i y_i−\left(\sum\limits_{i=1}^{n} x_i\right) \left(\sum\limits_{i=1}^{n} y_i\right)}{n \sum\limits_{i=1}^{n} x_i^2 −\left(\sum\limits_{i=1}^{n} x_i\right)^2}$$

$$b=\frac{\sum\limits_{i=1}^{n}y_i−a \sum\limits_{i=1}^{n} x_i}{n}$$

Cette droite passe au plus près des points, en ce qu'elle minimise l'erreur.  
L'erreur est obtenue en additionnant pour chaque $(x_i, y_i)$ la différence entre $y_i$ et $a·x_i + b$, ou plutôt les carrés des erreurs :


$$err=\sum\limits_{i=1}^{n}(y_i−a x_i−b)^2$$

L'utilisation d'un carré permet de ne pas accorder trop d'importance à des points isolés présentant de gros écarts.



### Calcul de l'erreur
Écrivez une fonction `erreur(xtab: list, ytab:list, d: int, f: int)`

Cette fonction opère sur les points situés dans l'intervalle `[d, f]`, c'est-à-dire allant des points `d` à `f` inclus.

Cette fonction calcule les coefficients `a` et `b` sur le sous-ensemble de points, ce qui permet ensuite de calculer l'erreur que fait la droite passant au plus près des points :

$$(x_d,y_d),...,(x_f,y_f)$$

qui sont donnés par les tableaux `xtab` et `ytab`.  
La fonction doit donc renvoyer un tableau de trois `float` qui contient, dans l'ordre: `a`, `b`, et l'`erreur`.


La fonction devra lancer une exception de votre choix si les tableaux sont de longueurs différentes, si `d` et `f` sont en dehors des bornes du tableau, ou si `f` est plus petit que `d`.

In [None]:
def erreur(xtab: list, ytab:list, d: int, f: int) -> list:
    """Cette fonction effectue une régression linéaire sur les points allant des
    indices d (début) à f (fin). 
    Elle calcule les coefficients "a" et "b"
    et renvoie également la somme des carrés des erreurs.
    """
    pass    

Voici quelques tests, pour vous aider à débugger votre code.

In [None]:
# Un segment qui relie deux points ; l'erreur sera donc nulle. 
xtab1 = [0, 1]
ytab1 = [-1, 1]
assert erreur(xtab1, ytab1, 0, 1) == [2.0, -1.0, 0.0]

In [None]:
# La solution n'est pas celle à laquelle on pourrait penser intuitivement (droite y = 0). 
# En effet, la méthode des moindres carrés va accorder moins d'importance au point situé en (1, 1).
xtab2 = [0, 1, 2]
ytab2 = [-1, 1, -1]
a, b, e = erreur(xtab2, ytab2, 0, 2)
assert round(a, 2) == 0.0
assert round(b, 2) == -0.33
assert round(e, 2) == 2.67

In [None]:
# Jeu de points situés vaguement autour d'une droite de pente 10. 
# Votre coefficient a devrait donc se trouver aux alentours de 10.
xtab3 = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10]
ytab3 = [7.153, 12.555, 25.835, 40.771, 42.252, 54.797, 67.178, 76.227, 83.967, 92.970, 106.734]
a, b, e = erreur(xtab3, ytab3, 0, 2)
assert round(a, 2) == 9.34
assert round(b, 2) == 5.84
assert round(e, 2) == 10.34

## Problème général
Dans le cas de la figure 

<div style="text-align: center">
<img src="Images/regression1.jpg" alt="Regression">
</div>

si l'on cherche la droite approximant tous les points, on aura une erreur très grande. En revanche, si on partage l'ensemble des points entre $p_1$ à $p_5$ d'une part, et $p_6$ et $p_{12}$ d'autre part, on aura deux segments qui donneront des erreurs faibles.

Si l'on s'autorise un trop grand nombre de segments, le problème devient trop facile, car en faisant passer les segments juste par deux points successifs à chaque fois, on a une erreur nulle. On va donc compter une pénalité `C` pour chaque droite supplémentaire.  
La valeur de `C` dépend du problème. Dans le cas de ce devoir, on prendra `C = 200`.

Le but est donc de trouver une manière de découper l'ensemble des points en séquence successives de segments $S_1, ..., S_k$ tel que la sommes des erreurs pour chaque segment, plus la pénalité, c'est-à-dire $k·C$ pour les $k$ segments soit minimale. En d'autre termes, si $err_1$ est l'erreur du $i-ième$ segment, on veut minimiser :


$$k \times C+ \sum\limits_{i=1}^{k} err_i$$

### Calcul du nombre de segments
Écrivez une fonction `nbSeg(xtab: list, ytab: list, c: float)` qui retourne le nombre de séquences (presque) alignées dans les points donnés par les tableaux `xtab` et `ytab`, en utilisant le coût `c` pour chaque ligne supplémentaire.

Voici quelques indications.

Le dernier point $p_n$ appartient à la dernière séquence. Appelons $p_i$ le premier point de cette dernière séquence.  
Alors, le coût de la meilleure manière de découper les points est la somme de :

* la valeur calculée par la fonction erreur pour les points `i` à `n`,
* la pénalité `C` pour ce segment de `i` à `n`,
* le coût pour le meilleur découpage possible des points `1` à `i-1`.

Voici quelques conseils pratiques.

* Le sujet est formulé avec des indices allant de `1` à `n`. En informatique, les indices vont de `0` à `n-1`, attention à ne pas confondre !
* Essayez de bien spécifier vos fonctions. Il est plus simple de raisonner pour les indices allant de `0` à `i` inclus.

In [None]:
def nbSeg(xtab: list, ytab: list, c: float) -> int:
    pass

Voici quelques tests :

In [None]:
# Doit renvoyer, naturellement, un seul segment, puisqu'il n'y a que deux points.
xtab1 = [0, 1]
ytab1 = [-1, 1]
assert nbSeg(xtab1, ytab1, 200) == 1

On remarque que, dans la formulation du problème ci-dessus, nous ne connectons pas les segments. En d'autres termes, nous n'imposons une *ligne brisée* (fonction linéaire par morceaux), mais une succession de segments. En effet, la solution optimale s'arrête au point `i-1`, et nous faisons commencer le segment suivant au point `i`.

Le jeu de tests suivant est constitué de quatre points. La fonction commence par calculer l'erreur associée à un segment couvrant tous les points : vous devez trouver `3.20`. Le coût total de cette solution est donc $3.20 + 1×C$ où $C$ est la pénalité.  
Une autre solution que votre algorithme doit envisager est une succession de deux segments reliant les points 1 et 2, puis les points 3 et 4. Les segments, puisqu'ils sont constitués de deux points, ont chacun une erreur de 0.  
Le coût total est donc $0 + 0 + 2×C$.

* Le premier appel à `nbSeg` prend `C = 3`. La solution à 1 segment (coût `6.2`) est donc moins bonne que la solution à 2 segments (coût `6`).
* Le second appel, en revanche, choisit `C = 4`. La solution à 1 segment (coût `7.2`) devient donc plus économe que la solution à 2 segments (coût `8`).

In [None]:
xtab2 = [0, 1, 2, 3]
ytab2 = [-1, 1, -1, 1]
assert erreur(xtab2, ytab2, 0, 3) == [0.4, -0.6, 3.2]
assert nbSeg(xtab2, ytab2, 3) == 2
assert nbSeg(xtab2, ytab2, 4) == 1

## Source :
Coursera, *Conception et mise en œuvre d'algorithmes*, Ecole Polytechnique