# Librairies scientifiques

A l'issue de cette séance, vous serez plus à l'aise avec deux des  librairies que nous utiliserons régulièrement : numpy et matplotlib.

Nous allons commencer par voir comment la structure numpy.array facilite certaines opérations courantes, en reprenant les exercices vu précédemment.

In [None]:
# La cellule suivante reviendra régulièrement dans les différents notebooks
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline 

`%matplotlib inline ` : cette ligne permet de générer les graphes au sein du notebook au lieu d'ouvrir une nouvelle fenêtre

In [None]:
v = np.arange(20)
print(v)

In [None]:
v.shape

In [None]:
print(v.reshape(10,2))

In [None]:
print(v.reshape(2,10))

In [None]:
print(v.reshape(2,10).T)

In [None]:
# afficher la moyenne de v
pass

In [None]:
# afficher la mediane de v
pass

In [None]:
# calculer le produit scalaire de v et de u, et l'angle entre les 2 vecteurs
u = v - 1
pass

`np.median` s'utilise comme une méthode de classe, ie elle est à partir du module numpy et non à partir de l'instance `v`.

`np.mean` peut également être utilisé comme méthode de classe, mais dans ce cas il faut préciser l'argument

Notez la différence entre
```
v.mean()
np.mean(v)
```

Dans le premier cas, `mean` est appelé depuis l'instance `v`, à laquelle sont déjà associée des données. La fonction sait donc quelles valeurs elle prend en paramètre

Numpy permet d'opérer directement sur l'array pour des opérations algébriques, au lieu de boucler sur tous les éléments.

Il fournit également des fonctions "vectorialisée", qui prennnent un array en entrée et retourne un array en sortie avec la fonction appliquée à chaque entrée

In [None]:
from math import sqrt
print([sqrt(x) for x in range(10)])

In [4]:
# utiliser la fonction sqrt de numpy
pass

## Modèle linéaire

Nous allons illustrer quelques principes fondamentaux à l'aide de nos nouvelles connaissances en Python. La régression linéaire est l'exemple royal pour cet exercice, et nous permettra de nous familiariser avec de nombreux sujets, sans être noyés par la complexité du modèle, qui reste l'un des plus simple.

$$y \sim f_{\theta}(x)$$

avec comme fonction f une forme linéaire

$$f_{\theta}(x) = \theta_0 + \theta_1 x +\epsilon $$


On introduit $\epsilon$ un terme d'erreur qui prend en compte la nature probabiliste des données, et leur déviation du modèle idéal.


### Hypothèses du modèle linéaire

* les erreurs suivent une loi normale de moyenne nulle
* la variance est la même pour tous (homoscédasticité) : la variance est la même pour l'ensemble des termes d'erreures gaussiens
$Var(\epsilon_i)=\sigma$
* les termes d'erreurs pour les différents $x_i$ sont indépendants les uns des autres



Afin de nous familiariser avec ce modèle, nous allons générer des points qui obéissent aux équations définies ci-dessus, et les représenter graphiquement

Commençons par définir un vecteur X qui est notre variable indépendante, **variant aléatoirement entre 0 et 10**, nous pouvons procéder de différentes façons
1. Avec une boucle
1. Avec une list comprehension
1. En utilisant le module numpy

In [None]:
from random import random
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

avec une boucle

In [None]:
pass

avec une compréhension de liste

In [None]:
pass

avec numpy

In [None]:
pass

Représenter l'histogramme des valeurs prises par la variable aléatoire X

In [None]:
pass

Représenter la droite y = 5x + 1

In [None]:
pass

### Bruit gaussien

Dans le monde réel les données sont toujours entachées de bruits. Nous considérons ici que le bruit est gaussien.

Pour rappel, la densité de probabilité gaussienne/normale :  
$$p(x) = \frac{1}{\sqrt{2 \pi \sigma^2}}e^{-\frac{(x-\mu)^2}{2 \sigma^2}}$$

Nous pouvons échantiller depuis une loi normale avec la fonction `normalvariate` du module `random` standard, ou utiliser encore une fois `numpy`

In [None]:
from random import normalvariate
y_normal = [normalvariate(0,1) for i in range(10000)] #ceci est une boucle
plt.hist(y_normal, bins=50, normed=True)
plt.show()

`normalvariate` génère une valeur à chaque fois (théoriquement entre $-\infty$ et $+\infty$). La probabilité que cette valeur soit dans un certain intervalle est donnée par $Pr(x_1<x<x_2) = \int_{x_1}^{x_2} p(x).dx $

<img src="img/Standard_deviation_diagram.svg.png">

Refaisons le même exercice avec numpy et sans boucle

In [5]:
pass

Ajoutons maintenant la composante linéaire et la composante gaussienne au sein d'une fonction

In [None]:
def linear(x, params=(0,1)):
    """Generate a linear function f(x)=a*x+b+N(0,1)
    
    Args:
        x (numpy.array()) : vector used to generate the output
        params (tuple of size 2) : b=params[0] and a=params[1]
    
    Returns:
        numpy.array()
    """
    pass

In [None]:
plt.scatter(x, linear(x))
plt.show()

In [None]:
plt.scatter(x, linear(x, (0,10)))
plt.scatter(x, linear(x, (20,10)))
plt.figure() #on instancie un nouvel objet figure, pour ne pas mélanger les prochains graphes avec les précédents
plt.scatter(x, linear(x, (20,100)))
plt.show()

## Synthèse

À l'issue de ce cours, vous savez manipulez des array de numpy (et faites la distinction avec les listes, les sets et les tuples), faire des opérations algébriques, afficher des scatter plot et des histogrammes et générer des échantillons aléatoires de points.