Entrer nom, prenom et groupe ici

# TP3: Vraisemblance

In [None]:
# Chargement des bibliothèques
# Graphiques
from matplotlib import pyplot as plt
# Maths
import numpy as np
# Générations des données aléatoires
from sklearn.datasets import make_blobs
print('Bibliothèques chargées')

## Problème A

On considère les données $X_j=(X_{j1},X_{j2})\mapsto Y_j$, pour $j\in\{1,2,3,4\}$, avec :

$X_1=(2,0)$, $X_2=(3,2)$, $X_3=(0,3)$. $X_3=(3,4)$, et

$Y_1=0$, $Y_2=0$, $Y_3=1$, $Y_4=1$.

Ces données seront représentées ci-dessous.

Dans la suite, on va chercher des coefficients $b$ et $W=\begin{pmatrix}w_1\\w_2\end{pmatrix}$ maximisant la *vraisemblance* de la loi de probabilité $$X\mapsto \Pr(Y=1|X)=\sigma(b+w_1x_1+w_2x_2),$$
où $\sigma$ est la fonction sigmoïde, définie pour tout $x$ dans $R$ par $$\sigma(x)=\frac{1}{1+e^{-x}}.$$

On a vu en cours que :
-  $\sigma(x)\simeq 1$ dès que $x>>0$ ($x$ très supérieur à $0$),
-  $\sigma(x)\simeq 0$ dès que $x<<0$ ($x$ très inférieur à $0$),
-  $\sigma(x)=0.5$ lorsque $x=0$.

La *vraisemblance* de la loi $X\mapsto \Pr(Y=1|X)=\sigma(b+w_1x_1+w_2x_2)$ est définie par :
$$L(b,w_1,w_2)=\prod\limits_{j:Y_j=1}\sigma(b+w_1X_{j1}+w_2X_{j2})\times\prod\limits_{j:Y_j=0}(1-\sigma(b+w_1X_{j1}+w_2X_{j2})).$$

D'après la propriété rappelée ci-dessus, la vraisemblance $L(b,w_1,w_2)$ est comprise entre $0$ et $1$, et elle est grande lorsque les coefficients $b$, $w_1$ et $w_2$ vérifient pour tout $j\in\{1,2,3,4\}$ :
$$(C_j):\left\{\begin{array}{l}b+w_1x_{j1}+w_2x_{j2}>>0\text{ si }Y_j=1\\b+w_1x_{j1}+w_2x_{j2}<<0\text{ si }Y_j=0\end{array}\right.$$

In [None]:
# Enregistrement des données
X1=[2,3,0,3]
X2=[0,2,3,4]
Y=[0,0,1,1]
print('Données en mémoire')

In [None]:
#Représentation graphique des données
plt.axis([-1,5,-1,5]) #xmin,xmax,ymin,ymax
for i in range(len(X1)):
    if Y[i]==0:
        color='blue'
    else:
        color='red'
    plt.plot([X1[i]],[X2[i]],'o',c=color)
plt.show()

**Exercice**

Ecrire ci-dessous les 4 conditions $(C_j)$ que doivent satisfaire $b$, $w_1$ et $w_2$ compte tenu des données $(X_{j1},X_{j2})$ et $Y_j$, ainsi que les 4 valeurs de la probabilité correspondantes.

Réponses :
- Donnée $(X_{11},X_{12},Y_1)$:
  - Condition (C1) issue de la donnée : $b+w_1X_{11}+w_2X_{12}$ ...
  - Valeur vraisemblable de la probabilité : $\sigma(b+w_1X_{11}+w_2X_{12})=$...

- Donnée $(X_{21},X_{22},Y_1)$:
  - Condition (C1) issue de la donnée : $b+w_1X_{21}+w_2X_{22}$ ...
  - Valeur vraisemblable de la probabilité : $\sigma(b+w_1X_{21}+w_2X_{22})=$...

- Donnée $(X_{31},X_{32},Y_1)$:
  - Condition (C1) issue de la donnée : $b+w_1X_{31}+w_2X_{32}$ ...
  - Valeur vraisemblable de la probabilité : $\sigma(b+w_1X_{31}+w_2X_{32})=$...

- Donnée $(X_{41},X_{42},Y_1)$:
  - Condition (C1) issue de la donnée : $b+w_1X_{41}+w_2X_{42}$ ...
  - Valeur vraisemblable de la probabilité : $\sigma(b+w_1X_{41}+w_2X_{42})=$...


### Exploration graphique

**Exercice**

La cellule suivante permet de représenter les courbes de niveaux de la fonction $(x_1,x_2)\mapsto \sigma(b+w_1x_1+w_2x_2)$.

Modifier les valeurs de $b$, $w1$ et $w2$ dans la cellule ci-dessous afin que la fonction $(x_1,x_2)\mapsto \sigma(b+w_1x_1+w_2x_2)$ vérifient les 4 conditions précédentes.

*Auparavent, pour vous aider dans votre exploration, vous pourrez répondre aux questions suivantes :*

a) Le gradient d'une fonction indique la direction dans laquelle cette fonction augmente. Quelles sont les coordonnées du gradient de la fonction $(x_1,x_2)\mapsto b+w_1x_1+w_2x_2$ ?

b) Puisque la fonction sigmoïde est croissante, dans quelle direction la fonction $(x_1,x_2)\mapsto \sigma(b+w_1x_1+w_2x_2)$ augmente-t-elle ?

c) En augmentant simultanément tous les coefficients $b$, $w_1$ et $w_2$, comment varie la variation de la fonction $(x_1,x_2)\mapsto \sigma(b+w_1x_1+w_2x_2)$ ?

d) Lorsque $b$ augmente, comment le niveau de $(x_1,x_2)\mapsto \sigma(b+w_1x_1+w_2x_2)$ en un point donné varie-t-il ? Dans quelle direction se déplace alors la courbe de niveau $0.5$ ?

In [None]:
def sigma(x):
    return 1/(1+np.exp(-x))

#  Tableau de valeurs (changer b, w1, w2)
b=1
w1=2
w2=3
X1list=np.linspace(-1,5,50)
X2list=np.linspace(-1,5,50)
sigmalist=[[sigma(b+w1*x1+w2*x2) for x1 in X1list] for x2 in X2list]

# Courbes de niveau de la fonction sigma(b+w1x1+w2x2)
plt.contour(X1list,X2list,sigmalist,100) # dessine 100 courbes de niveau de sigma(b+w1x1+w2x2)
plt.colorbar() # dessine la légende 

# Nuage de points
plt.axis([-1,5,-1,5])
for i in range(len(X1)):
    if Y[i]==0:
        color='blue'
    else:
        color='red'
    plt.plot([X1[i]],[X2[i]],'o',c=color)

plt.show()

**Exercice**

Compléter le code ci-dessous afin de représenter le nuage de points ainsi que la droite d'équation $b+w_1x_1+w_2x_2=0$, pour les valeurs de $b$, $w_1$, $w_2$ trouvées précédemment. Quelle est la valeur de $\sigma(b+w_1x_1+w_2x_2)$ sur cette droite et de part et d'autre de cette droite ?

In [None]:
plt.axis([-1,5,-1,5]) #xmin,xmax,ymin,ymax
for i in range(len(X1)):
    if Y[i]==0:
        color='blue'
    else:
        color='red'
    plt.plot([X1[i]],[X2[i]],'o',c=color)

# Droite b+w1x1+w2x2=0 <=> x2=(-b-w1*x1)/w2
plt.plot([-1,5],[...,...])

plt.show()

**Exercice**

La cellule suivante permet de calculer et d'afficher la vraisemblance $L(b,w_1,w_2)$ associée à $b$, $w_1$ et $w_2$ pour les données .

1) Calculer la vraisemblance associée aux $b$, $w_1$ et $w_2$ trouvés précédemment :

Réponse : L(...,...,...)=...

2) Comment varie la vraisemblance lorsqu'on multiplie chacune des valeurs de $b$, $w_1$ et $w_2$ par $10$ ? par $100$ ?

Réponse : ...

3) D'après vous, la fonction $L$ possède-t-elle un maximum ? Pourquoi ?

Réponse : ...

In [None]:
b=1
w1=2
w2=3

l=1
for i in range(len(X1)):
    if Y[i]==1:
        l=l*sigma(b+w1*X1[i]+w2*X2[i])
    else:
        l=l*(1-sigma(b+w1*X1[i]+w2*X2[i]))
print('L(',b,',',w1,',',w2,')=',l)

# Problème B #

Dans la suite, on généralise les résultats précédents avec un nuage de 40 données

In [None]:
# Cette cellule n'est à exécuter qu'une fois, afin de générer des données aléatoires,
# et afin de les recopier dans la cellule suivante

# Création aléatoire des données :
# on génère 40 données (Xj,Yj), avec Xj=(xj1,xj2), Y=0 ou 1
# données centrées autour de 2 centres
X, Y = make_blobs(n_samples=40, centers=[[-0.3,-0.3],[0.3,0.3]], n_features=2, cluster_std=0.5,center_box=(-1,1))
print('Liste X1 des Xj1 (à copier coller dans la cellule ci-dessous): \n\n',np.array2string(X[:,0],separator=',',max_line_width=10000).replace('\n', ''),'\n')
print('Liste X2 des Xj2 (à copier coller dans la cellule ci-dessous): \n\n',np.array2string(X[:,1],separator=',',max_line_width=10000).replace('\n', ''),'\n')
print('\nListe Y des Yj (à copier coller dans la cellule ci-dessous): \n\n',np.array2string(Y,separator=',',max_line_width=10000).replace('\n', ''),'\n')

In [None]:
# Modifier en copiant collant avec les données générées aléatoirement ci-dessus.

X1=[...]
X2=[...]
Y=[...]

**Exercice**

Modifier les valeurs de $b$, $w_1$, $w_2$ en sorte que $\Pr(Y=1|X)=\sigma(b+w_1x_1+w_2x_2)$ sépare au mieux les données telles que $Y_j=0$ des données telles que $Y_j=1$.

In [None]:
#  Tableau de valeurs (changer b, w1, w2)
b=1
w1=2
w2=3
X1list=np.linspace(min(X1)-0.5,max(X1)+0.5,50)
X2list=np.linspace(min(X2)-0.5,max(X2)+0.5,50)
sigmalist=[[sigma(b+w1*x1+w2*x2) for x1 in X1list] for x2 in X2list]

# Courbes de niveau de la fonction sigma(b+w1x1+w2x2)
plt.contour(X1list,X2list,sigmalist,100) # dessine 100 courbes de niveau de sigma(b+w1x1+w2x2)
plt.colorbar()

# Nuage de points
plt.axis([min(X1)-0.5,max(X1)+0.5,min(X2)-0.5,max(X2)+0.5])
for i in range(len(X1)):
    if Y[i]==0:
        color='blue'
    else:
        color='red'
    plt.plot([X1[i]],[X2[i]],'o',c=color)

plt.show()

**Exercice**

Combien la loi $\Pr(Y=1|X)=\sigma(b+w_1x_1+w_2x_2)$ ainsi déterminée produit-elle de faux positifs (tels que $\sigma(b+w_1X_{j1}+w_2X_{j2})>0.5$ alors que $Y_j=0$) et combien produit-elle de faux négatifs (tels que $\sigma(b+w_1X_{j1}+w_2X_{j2})<0.5$ alors que $Y_j=1$) ?

Réponse :

- Nombre de faux positifs : ...
- Nombre de faux négatifs : ...