#Ajustement de modèles et régression linéaire

De façon générale, les données en sciences servent au moins 2 objectifs :

1. Valider des modèles théoriques, et véridier leur adéquation avec des mesures expérimentales.
1. Analyser des mesures complexes, et essayer d'en tirer des relations, des correlations etc, et les utiliser pour inférer et prédire de nouvelles choses.

Le sujet est particulièrement vaste, et nous n'avons pas le temps de rentrer dans toutes les subtilités théoriques et pratiques.

Nous allons plutôt illustrer quelques principes fondamentaux à l'aide de nos nouvelles connaissances en Python. La régression linéaire est l'exemple royal pour cet exercice, et nous permettra de nous familiariser avec de nombreux sujets, sans être noyés par la complexité du modèle, qui reste l'un des plus simple.

**De nombreux rappels mathématiques et statistiques** seront faits durant les prochaines séances. N'hésitez pas cependant à aller vous-mêmes vous rafraichir la mémoire, et à explorer de nouveaux concepts connexes.

## Modèle linéaire

$$y \sim f_{\theta}(x)$$

avec comme fonction f une forme linéaire

$$f_{\theta}(x) = \theta_0 + \theta_1 x +\epsilon $$


On introduit $\epsilon$ un terme d'erreur qui prend en compte la nature probabiliste des données, et leur déviation du modèle idéal.


### Hypothèses du modèle linéaire

* les erreurs suivent une loi normale de moyenne nulle
* la variance est la même pour tous (homoscédasticité) : la variance est la même pour l'ensemble des termes d'erreures gaussiens
$Var(\epsilon_i)=\sigma$
* les termes d'erreurs pour les différents $x_i$ sont indépendants les uns des autres


### Pourquoi régression ?

<img src='img/Galton-height-regress.png'>



## Simulation de données

Nous allons commencer par générer une distribution de points au voisinge d'une droite, afin de contrôler

In [None]:
from random import random
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

Commençons par définir un vecteur X qui est notre variable indépendante, variant entre 0 et 10, nous pouvons procéder de différentes façons
1. Avec une boucle
1. Avec une list comprehension
1. En utilisant le module numpy

**A vous de jouer**

In [None]:
# Votre code ici pour le cas 1

In [None]:
# Votre code ici pour le cas 2

In [None]:
# Votre code ici pour le cas 3

###Visualisation de données avec matplotlib. 

Nous allons générer les ordonnées avec l'équation d'une droite.

In [None]:
plt.scatter(x, 3*x+2) #/!\ 3*x fonctionne parce que x est un numpy array
plt.show()

In [None]:
plt.scatter([1,2,3], 2*[1,2,3]) #que va-t-il se passer avec une liste python standard ?
plt.show()

In [None]:
plt.scatter(np.array([1,2,3]), 2*np.array([1,2,3]))
plt.show()

Nous allons maintenant ajouter un bruit gaussien

Densité de probabilité gaussienne/normale :  
$$p(x) = \frac{1}{\sqrt{2 \pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}$$

Nous pouvons échantiller depuis une loi normale avec la fonction `normalvariate` du module `random` standard, ou utiliser encore une fois `numpy`

In [None]:
from random import normalvariate
y_normal = [normalvariate(0,1) for i in range(10000)] #list comprehension pour boucler et générer une liste
plt.hist(y_normal, bins=50, normed=True)
plt.show()

`normalvariate` génère une valeur à chaque fois (théoriquement entre $-\infty$ et $+\infty$). La probabilité que cette valeur soit dans un certain intervalle est donnée par $Pr(x_1<x<x_2) = \int_{x_1}^{x_2} p(x).dx $

<img src="img/Standard_deviation_diagram.svg.png">

Refaisons le même exercice avec `numpy`

In [None]:
# Votre code ici

In [None]:
def linear(x, params=(0,1)):
    """Generate a linear function f(x)=a*x+b+N(0,1)
    
    Args:
        x (numpy.array()) : vector used to generate the output
        params (tuple of size 2) : b=params[0] and a=params[1]
    
    Returns:
        numpy.array()
    """
    # votre code ici

In [None]:
help(linear)

In [None]:
plt.scatter(x, linear(x))
plt.show()

## Inférence

Le but de l'exercice maintenant est d'aller dans l'autre sens, et de trouver une droite qui modélise nos données, soit parce que nous savons que c'est une loi linéaire (exemple en physique où cherche à valider des modèles mathématiques), soit pour faire de l'analyse statistique et trouver une loi qui nous permet de mieux comprendre des données issues du monde réel.

Comment fixer nos paramètres ?  
Quelle droite décrit le mieux nos données ?

La suite au prochain épisode ...

In [None]:
plt.scatter(x, linear(x))
plt.plot(x, 1*x, 'red')
plt.plot(x, 1.2*x-0.8, 'blue')
plt.plot(x, 0.8*x+0.8, 'green')