# TD noté, 16 décembre 2016

In [None]:
from jyquickhelper import add_notebook_menu
add_notebook_menu()

## Exercice 1

On suppose qu'on dispose d'un ensemble d'observations $(X_i, Y_i)$ avec $X_i, Y_i \in \mathbb{R}$. La régression linéaire consiste une relation linéaire $Y_i = a X_i + b + \epsilon_i$ qui minimise la variance du bruit. On pose :

$$E(a, b) = \sum_i (Y_i - (a X_i + b))^2$$

On cherche $a, b$ tels que :

$$a^*, b^* = \arg \min E(a, b) = \arg \min \sum_i (Y_i - (a X_i + b))^2$$

La fonction est dérivable et on trouve :

$$\frac{\partial E(a,b)}{\partial a} = - 2 \sum_i X_i ( Y_i - (a X_i + b)) \text{ et } \frac{\partial E(a,b)}{\partial b} = - 2 \sum_i ( Y_i - (a X_i + b))$$

Il suffit alors d'annuler les dérivées. On résoud un système d'équations linéaires. On note :

$$\begin{array}{l} \mathbb{E} X = \frac{1}{n}\sum_{i=1}^n X_i \text{ et } \mathbb{E} Y = \frac{1}{n}\sum_{i=1}^n Y_i \\ \mathbb{E}(X^2) = \frac{1}{n}\sum_{i=1}^n X_i^2 \text{ et } \mathbb{E}(XY) = \frac{1}{n}\sum_{i=1}^n X_i Y_i \end{array}$$

Finalement :

$$\begin{array}{l} a^* = \frac{ \mathbb{E}(XY) - \mathbb{E} X \mathbb{E} Y}{\mathbb{E}(X^2) - (\mathbb{E} X)^2} \text{ et } b^* = \mathbb{E} Y - a^* \mathbb{E} X \end{array}$$

### Q1

On génère un nuage de points avec le code suivant :

In [None]:
import random
def generate_xy(n=100, a=0.5, b=1):
    res = []
    for i in range(0, n):
        x = random.uniform(0, 10)
        res.append((x, x*a + b + random.gauss(0,1)))
    return res

generate_xy(10)

[(4.67717330017681, 4.012715314443071),
 (9.93100650771524, 6.420949444917619),
 (6.489763851288829, 4.046405861424122),
 (6.78546059711203, 3.9898555884018347),
 (8.008328212200073, 4.751483072244763),
 (2.2410717228726194, 2.1101433975248227),
 (6.721819258658939, 4.148787835552756),
 (4.524600225088246, 4.126629241751369),
 (6.5417215274623, 4.158742717993151),
 (0.07172772747924272, 3.663550865658417)]

### Q2

Ecrire une fonction qui calcule $\mathbb{E} X, \mathbb{E} Y, \mathbb{E}(XY), \mathbb{E}(X^2)$. Plusieurs étudiants m'ont demandé ce qu'était ``obs``. C'est simplement le résultat de la fonction précédente.

In [None]:
def calcule_exyxyx2(obs):
    sx = 0
    sy = 0
    sxy = 0
    sx2 = 0
    for x, y in obs:
        sx += x
        sy += y
        sxy += x * y
        sx2 += x * x
    n = len(obs)
    return sx/n, sy/n, sxy/n, sx2/n

obs = generate_xy(10)
calcule_exyxyx2(obs)

(4.1360605688594045, 3.718299775367224, 21.128229108028652, 25.820865266504303)

### Q3

 Calculer les grandeurs $a^*$, $b^*$. A priori, on doit retrouver quelque chose d'assez proche des valeurs choisies pour la première question : $a=0.5$, $b=1$.

In [None]:
def calcule_ab(obs):
    sx, sy, sxy, sx2 = calcule_exyxyx2(obs)
    a = (sxy - sx * sx)  / (sx2 - sx**2)
    b = sy - a * sx
    return a, b

calcule_ab(obs)

(0.4614749694715401, 1.8096113506203892)

### Q4

Compléter le programme.

In [None]:
import random
def generate_caty(n=100, a=0.5, b=1, cats=["rouge", "vert", "bleu"]):
    res = []
    for i in range(0, n):
        x = random.randint(0,2)
        cat = cats[x]
        res.append((cat, 10*x**2*a + b + random.gauss(0,1)))
    return res

generate_caty(10)

[('rouge', 1.2697826888437203),
 ('bleu', 21.804432033016926),
 ('bleu', 21.004665828438558),
 ('rouge', 1.012069310223001),
 ('bleu', 22.410307249777002),
 ('bleu', 20.71226871677489),
 ('bleu', 21.052668355433838),
 ('bleu', 20.528196942186543),
 ('rouge', 2.1452680913051445),
 ('bleu', 21.671276056013674)]

### Q5

On voudrait quand même faire une régression de la variable $Y$ sur la variable catégorielle. On construit une fonction qui assigne un numéro quelconque mais distinct à chaque catégorie. La fonction retourne un dictionnaire avec les catégories comme clé et les numéros comme valeurs.

In [None]:
def numero_cat(obs):
    mapping = {}
    for color, y in obs:
        if color not in mapping:
            mapping[color] = len(mapping)
    return mapping

obs = generate_caty(100)
numero_cat(obs)

{'bleu': 0, 'rouge': 2, 'vert': 1}

### Q6 

On construit la matrice $M_{ic}$ tel que : $M_{ic}$ vaut 1 si $c$ est le numéro de la catégorie $X_i$, 0 sinon.

In [None]:
import numpy
def construit_M(obs):
    mapping = numero_cat(obs)
    M = numpy.zeros((len(obs), 3))
    for i, (color, y) in enumerate(obs):
        cat = mapping[color]
        M[i, cat] = 1.0
    return M
    
M = construit_M(obs)
M[:5]

array([[ 1.,  0.,  0.],
       [ 0.,  1.,  0.],
       [ 0.,  0.,  1.],
       [ 1.,  0.,  0.],
       [ 1.,  0.,  0.]])

### Q7 

Il est conseillé de convertir la matrice $M$ et les $Y$ au format *numpy*. On ajoute un vecteur constant à la matrice $M$. La requête *numpy add column* sur un moteur de recherche vous directement à ce résultat : [How to add an extra column to an numpy array](http://stackoverflow.com/questions/8486294/how-to-add-an-extra-column-to-an-numpy-array).

In [None]:
def convert_numpy(obs):
    M = construit_M(obs)
    Mc = numpy.hstack([M, numpy.ones((M.shape[0], 1))])
    Y = numpy.array([y for c, y in obs])
    return M, Mc, Y.reshape((M.shape[0], 1))

M, Mc, Y = convert_numpy(obs)
Mc[:5], Y[:5]

(array([[ 1.,  0.,  0.,  1.],
        [ 0.,  1.,  0.,  1.],
        [ 0.,  0.,  1.,  1.],
        [ 1.,  0.,  0.,  1.],
        [ 1.,  0.,  0.,  1.]]), array([[ 21.8428991 ],
        [  6.39999366],
        [ -1.32500646],
        [ 20.78801346],
        [ 21.6534503 ]]))

### Q8 

On résoud la régression multidimensionnelle en appliquant la formule $C^* = (M'M)^{-1}M'Y$. La question 7 ne servait pas à grand chose excepté faire découvrir la fonction [hstack](https://docs.scipy.org/doc/numpy/reference/generated/numpy.hstack.html) car le rang de la matrice ``Mc`` est 3 < 4.

In [None]:
alpha = numpy.linalg.inv(M.T @ M) @ M.T @ Y
alpha

array([[ 20.82662251],
       [  6.08090399],
       [  0.65915746]])

### Q9 

La régression détermine les coefficients $\alpha$ dans la régression $Y_i = \alpha_{rouge} \mathbb{1}_{X_i = rouge} + \alpha_{vert}  \mathbb{1}_{X_i = vert} + \alpha_{bleu} \mathbb{1}_{X_i = bleu} + \epsilon_i$.

Construire le vecteur $\hat{Y_i} = \alpha_{rouge} \mathbb{1}_{X_i = rouge} + \alpha_{vert} \mathbb{1}_{X_i = vert} + \alpha_{bleu} \mathbb{1}_{X_i = bleu}$.

In [None]:
Yp = numpy.zeros((M.shape[0], 1))
for i in range(3):
    Yp[ M[:,i] == 1, 0] = alpha[i, 0]
Yp[:5]

array([[ 20.82662251],
       [  6.08090399],
       [  0.65915746],
       [ 20.82662251],
       [ 20.82662251]])

### Q10

Utiliser le résultat de la question 3 pour calculer les coefficients de la régression $Y_i = a^* \hat{Y_i} + b^*$.

In [None]:
obs = [(x, y) for x, y in zip(Yp, Y)]
calcule_ab( obs )

(array([ 1.]), array([  2.13162821e-14]))

On aboutit au résultat $Y = \hat{Y} + \epsilon$. On a associé une valeur à chaque catégorie de telle sorte que la régression de $Y$ sur cette valeur soit cette valeur. Autrement dit, c'est la meilleur approximation de $Y$ sur chaque catégorie. A quoi cela correspond-il ? C'est le second énoncé qui répond à cette question.

## Exercice 2

### Q1 - Q2 - Q3

Ce sont les mêmes réponses.

### Q4

Un moyen très simple de simuler une [loi multinomiale](https://fr.wikipedia.org/wiki/Loi_multinomiale) est de partir d'une loi uniforme et discrète à valeur dans entre 1 et 10. On tire un nombre, s'il est inférieur ou égal à 5, ce sera la catégorie 0, 1 si c'est inférieur à 8, 2 sinon.

In [None]:
def generate_caty(n=100, a=0.5, b=1, cats=["rouge", "vert", "bleu"]):
    res = []
    for i in range(0, n):
        # on veut 50% de rouge, 30% de vert, 20% de bleu
        x = random.randint(1, 10)
        if x <= 5: x = 0
        elif x <= 8: x = 1
        else : x = 2
        cat = cats[x]
        res.append((cat, 10*x**2*a + b + random.gauss(0,1)))
    return res

obs = generate_caty(10)
obs

[('rouge', 1.6113396232493944),
 ('bleu', 20.988454801926085),
 ('vert', 5.567578139267583),
 ('vert', 4.435716742187722),
 ('vert', 6.473489439183762),
 ('vert', 6.164046836045364),
 ('rouge', 3.1717934686058467),
 ('vert', 6.206863432065256),
 ('bleu', 20.047578122999752),
 ('bleu', 21.909583653698377)]

### Q5 

On voudrait quand même faire une régression de la variable $Y$ sur la variable catégorielle. On commence par les compter. Construire une fonction qui compte le nombre de fois qu'une catégorie est présente dans les données (un histogramme).

In [None]:
def histogram_cat(obs):
    h = dict()
    for color, y in obs:
        h[color] = h.get(color, 0) + 1
    return h

histogram_cat(obs)

{'bleu': 3, 'rouge': 2, 'vert': 5}

### Q6

Construire une fonction qui calcule la moyenne des $Y_i$ pour chaque catégorie : $\mathbb{E}(Y | rouge)$, $\mathbb{E}(Y | vert)$, $\mathbb{E}(Y | bleu)$. La fonction retourne un dictionnaire ``{couleur:moyenne}``. 

In [None]:
def moyenne_cat(obs):
    h = dict()
    sy = dict()
    for color, y in obs:
        h[color] = h.get(color, 0) + 1
        sy[color] = sy.get(color, 0) + y
    for k, v in h.items():
        sy[k] /= v
    return sy

moyenne_cat(obs)

{'bleu': 20.981872192874736,
 'rouge': 2.3915665459276205,
 'vert': 5.769538917749938}

L'énoncé induisait quelque peu en erreur car la fonction suggérée ne permet de calculer ces moyennes. Il suffit de changer.

### Q7

Construire le vecteur $Z_i = \mathbb{E}(Y | rouge)\mathbb{1}_{X_i = rouge} + \mathbb{E}(Y | vert) \mathbb{1}_{X_i = vert} + \mathbb{E}(Y | bleu) \mathbb{1}_{X_i = bleu}$.

In [None]:
moys = moyenne_cat(obs)
Z = [moys[c] for c, y in obs]
Z[:5]

[2.3915665459276205,
 20.981872192874736,
 5.769538917749938,
 5.769538917749938,
 5.769538917749938]

### Q8

Utiliser le résultat de la question 3 pour calculer les coefficients de la régression $Y_i = a^* Z_i + b^*$.

In [None]:
obs2 = [(z, y) for (c, y), z in zip(obs, Z)]
calcule_ab( obs2 )

(1.0, 0.0)

On aboutit au résultat $Y = \hat{Y} + \epsilon$. On a associé une valeur à chaque catégorie de telle sorte que la régression de $Y$ sur cette valeur soit cette valeur.

### Q9 

Calculer la matrice de variance / covariance pour les variables $(Y_i)$, $(Z_i)$, $(Y_i - Z_i)$, $\mathbb{1}_{X_i = rouge}$, $\mathbb{1}_{X_i = vert}$, $\mathbb{1}_{X_i = bleu}$. 

In [None]:
bigM = numpy.empty((len(obs), 6))
bigM[:, 0] = [o[1] for o in obs]
bigM[:, 1] = Z
bigM[:, 2] = bigM[:, 0] - bigM[:, 1]
bigM[:, 3] = [ 1 if o[0] == "rouge" else 0 for o in obs]
bigM[:, 4] = [ 1 if o[0] == "vert" else 0 for o in obs]
bigM[:, 5] = [ 1 if o[0] == "bleu" else 0 for o in obs]
bigM[:5]

array([[  1.61133962e+00,   2.39156655e+00,  -7.80226923e-01,
          1.00000000e+00,   0.00000000e+00,   0.00000000e+00],
       [  2.09884548e+01,   2.09818722e+01,   6.58260905e-03,
          0.00000000e+00,   0.00000000e+00,   1.00000000e+00],
       [  5.56757814e+00,   5.76953892e+00,  -2.01960778e-01,
          0.00000000e+00,   1.00000000e+00,   0.00000000e+00],
       [  4.43571674e+00,   5.76953892e+00,  -1.33382218e+00,
          0.00000000e+00,   1.00000000e+00,   0.00000000e+00],
       [  6.47348944e+00,   5.76953892e+00,   7.03950521e-01,
          0.00000000e+00,   1.00000000e+00,   0.00000000e+00]])

On utilise la fonction [cov](https://docs.scipy.org/doc/numpy/reference/generated/numpy.cov.html).

In [None]:
c = numpy.cov(bigM.T)
c

array([[  6.35007124e+01,   6.28770001e+01,   6.23712301e-01,
         -1.61468397e+00,  -2.16005862e+00,   3.77474259e+00],
       [  6.28770001e+01,   6.28770001e+01,   1.00660221e-14,
         -1.61468397e+00,  -2.16005862e+00,   3.77474259e+00],
       [  6.23712301e-01,   1.00660221e-14,   6.23712301e-01,
         -9.25185854e-17,  -5.42775701e-16,   6.53798003e-16],
       [ -1.61468397e+00,  -1.61468397e+00,  -9.25185854e-17,
          1.77777778e-01,  -1.11111111e-01,  -6.66666667e-02],
       [ -2.16005862e+00,  -2.16005862e+00,  -5.42775701e-16,
         -1.11111111e-01,   2.77777778e-01,  -1.66666667e-01],
       [  3.77474259e+00,   3.77474259e+00,   6.53798003e-16,
         -6.66666667e-02,  -1.66666667e-01,   2.33333333e-01]])

On affiche un peu mieux les résultats :

In [None]:
import pandas
pandas.DataFrame(c).applymap(lambda x: '%1.3f' % x)

Unnamed: 0,0,1,2,3,4,5
0,63.501,62.877,0.624,-1.615,-2.16,3.775
1,62.877,62.877,0.0,-1.615,-2.16,3.775
2,0.624,0.0,0.624,-0.0,-0.0,0.0
3,-1.615,-1.615,-0.0,0.178,-0.111,-0.067
4,-2.16,-2.16,-0.0,-0.111,0.278,-0.167
5,3.775,3.775,0.0,-0.067,-0.167,0.233


### Q10 

On permute rouge et vert. Construire le vecteur $W_i = \mathbb{E}(Y | rouge)\mathbb{1}_{X_i = vert} + \mathbb{E}(Y | vert)\mathbb{1}_{X_i = rouge} + \mathbb{E}(Y | bleu)\mathbb{1}_{X_i = bleu}$. Utiliser le résultat de la question 3 pour calculer les coefficients de la régression $Y_i = a^* W_i + b^*$. Vérifiez que l'erreur est supérieure.

In [None]:
moys = moyenne_cat(obs)
moys["rouge"], moys["vert"] = moys["vert"], moys["rouge"]
W = [moys[c] for c, y in obs]
obs3 = [(w, y) for (c, y), w in zip(obs, W)]
calcule_ab( obs3 )

(1.0021154917263324, 0.9951048664491058)

In [None]:
def calcule_erreur(obs):
    a, b = calcule_ab(obs)
    e = [(a*x + b - y)**2 for x, y in obs]
    return sum(e) / len(obs)

calcule_erreur(obs2), calcule_erreur(obs3)

(0.561341071314548, 7.558630680856206)

C'est carrément supérieur.

## Conclusion

L'[analyse des correspondances multiples](https://fr.wikipedia.org/wiki/Analyse_des_correspondances_multiples) est une façon d'étudier les modalités de variables catégorielles mais cela ne fait pas de la prédiction. Le modèle [logit - probit](https://fr.wikipedia.org/wiki/Mod%C3%A8le_Probit) prédit une variable binaire à partir de variables continue mais dans notre cas, c'est la variable à prédire qui est continue. Pour effectuer une prédiction, il convertit les catégories en variables numériques (voir [Categorical Variables](https://en.wikipedia.org/wiki/Categorical_variable)). Le langage R est plus outillé pour cela : [Regression on categorical variables](https://www.r-bloggers.com/regression-on-categorical-variables/). Le module [categorical-encoding](https://github.com/scikit-learn-contrib/categorical-encoding) est disponible en python. Cet examen décrit une méthode parmi d'autres pour transformer les catégories en variables continues.