#### Université de Bordeaux,  Master Mention Informatique

# Analyse, classification et indexation des données : feuille 1
### Rappels : Probabilités et statistiques, Algèbre linéaire avec Python

### Présentation

L’objectif de ce premier TD est de rassembler des outils et bibliothèques <code>Python</code> nécessaires pour la suite. Vous travaillerez dans ce fichier td00.ipynb en ajoutant le code à écrire, ainsi que tous les commentaires qui vous permettront d'utiliser efficacement ces outils dans les TD suivants.

Le code est écrit dans une suite de cellules. Pour ajouter une cellule utilisez l'item *Insérer* du menu.  

Pour exécuter les instructions d'une cellule, il suffit de placer le curseur dans la cellule souhaitée et d'exécuter la cellule (en cliquant sur <code>Exécuter</code> ou avec <code>Ctrl + Return</code>). 

<em>Remarque :</em> le choix a été fait de travailler sur des <code>jupyter notebooks</code> mais vous pouvez tout à fait utiliser votre IDE préféré pour écrire/exécuter vos instructions et vos programmes <code>Python</code>.

# 1. Vecteurs et matrices

Un élément unique, un vecteur ligne ou colonne sont des cas particuliers de matrice (tableau 2D).

Une des bibliothèques de <code>Python</code> les plus utilisées en algèbre linéaire est la bibliothèque <code>numpy</code>. On commence par l'importer pour pouvoir l'utiliser pour la suite.

In [1]:
import numpy as np

### Exercice 1.

Création de tableaux, accès à un élément d'un tableau 

Création d'un vecteur ligne :

In [2]:
L1 = np.array([10, 20, 30, 40])
L1

array([10, 20, 30, 40])

Création d'un vecteur colonne :

In [3]:
C1 = np.array([[10], [20], [30], [40]])
C1

array([[10],
       [20],
       [30],
       [40]])

<b>Question : </b> Comment obtenir <code>C1</code> à partir de <code>L1</code> ?

In [4]:
C2 = L1.reshape((4, 1))
C2

array([[10],
       [20],
       [30],
       [40]])

Accès à un élément d'un tableau. Les indices commencent à <code>0</code>.

In [5]:
L1[2]

30

In [6]:
C1[2]

array([30])

In [7]:
C1[2][0]

30

Création d'une matrice :

In [8]:
M1 = np.array([[10, 20, 30], [40, 50, 60], [70, 80, 90]])
M1

array([[10, 20, 30],
       [40, 50, 60],
       [70, 80, 90]])

La matrice est <code>3 x 3</code> :

In [9]:
M1.shape

(3, 3)

Taille d'une matrice, d'un vecteur, d'un tableau :

In [10]:
np.size(L1)

4

In [11]:
np.size(C1)

4

In [12]:
np.size(M1)

9

In [13]:
np.size(M1[1])

3

 Accéder aux éléments d'un tableau 2D (indiceLigne, indiceColonne) :

In [14]:
iL = 1
iC = 2
M1[iL, iC]

60

Extraire une ligne, une colonne :

In [15]:
print(M1[1, :])
print(M1[:, 2])

[40 50 60]
[30 60 90]


Extraire une sous-matrice :

In [27]:
M1[1:2, 0:1]

array([[40]])

Fonctions prédéfinies de création de tableaux :

In [28]:
M2 = np.zeros(3) 
M2

array([0., 0., 0.])

In [29]:
M3 = np.zeros((1,3))
M3

array([[0., 0., 0.]])

In [30]:
M4 = np.zeros((2, 3))
M4

array([[0., 0., 0.],
       [0., 0., 0.]])

In [31]:
M5 = np.ones((2,4))
M5

array([[1., 1., 1., 1.],
       [1., 1., 1., 1.]])

In [32]:
Id = np.eye(3) 
Id

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Créer un tableau à partir de ses lignes :

In [33]:
L1 = np.array([5, 1, 3])
L2 = np.array([10, 4, 2])
L3 = np.array([3, 5, 0])
M6 = np.concatenate(([L1], [L2], [L3]))
M6

array([[ 5,  1,  3],
       [10,  4,  2],
       [ 3,  5,  0]])

Redimensionner une matrice :

    - le nombre d'élements est le même avant et après
    - le parcours ligne par ligne donne la même suite d'éléments

In [34]:
L1 = np.array([5, 1, 3])
L2 = np.array([10, 4, 2])
M7 = np.concatenate(([L1], [L2]))
M7

array([[ 5,  1,  3],
       [10,  4,  2]])

In [35]:
M8 = np.reshape(M7, (3, 2))
M8

array([[ 5,  1],
       [ 3, 10],
       [ 4,  2]])

##### Opérations sur les matrices 

Produit scalaire de deux vecteurs :

In [36]:
L1 = np.array([1, 2, 3])
L2 = np.array([1, 2, 3])
prod = np.dot(L1, L2)
prod

14

Soit <code>M</code> la matrice définie comme suit :

In [37]:
L = np.linspace(0, 10, 9)
M = np.array([L, L, L])
M

array([[ 0.  ,  1.25,  2.5 ,  3.75,  5.  ,  6.25,  7.5 ,  8.75, 10.  ],
       [ 0.  ,  1.25,  2.5 ,  3.75,  5.  ,  6.25,  7.5 ,  8.75, 10.  ],
       [ 0.  ,  1.25,  2.5 ,  3.75,  5.  ,  6.25,  7.5 ,  8.75, 10.  ]])

Somme de deux matrices :

In [38]:
M + M

array([[ 0. ,  2.5,  5. ,  7.5, 10. , 12.5, 15. , 17.5, 20. ],
       [ 0. ,  2.5,  5. ,  7.5, 10. , 12.5, 15. , 17.5, 20. ],
       [ 0. ,  2.5,  5. ,  7.5, 10. , 12.5, 15. , 17.5, 20. ]])

Produit élément par élément de deux matrices :

In [39]:
M * M

array([[  0.    ,   1.5625,   6.25  ,  14.0625,  25.    ,  39.0625,
         56.25  ,  76.5625, 100.    ],
       [  0.    ,   1.5625,   6.25  ,  14.0625,  25.    ,  39.0625,
         56.25  ,  76.5625, 100.    ],
       [  0.    ,   1.5625,   6.25  ,  14.0625,  25.    ,  39.0625,
         56.25  ,  76.5625, 100.    ]])

Produit de deux matrices (compatibles) :

In [40]:
np.matmul(M, M) #erreur : pourquoi ? Parce que pour multiplier 2 matrices rectangulaires il faut
# qu'elles soient sous la forme _ | sinon ça ne marche pas (d'où le M.T (transposition) )

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 3 is different from 9)

In [41]:
np.matmul(M, M.T)

array([[318.75, 318.75, 318.75],
       [318.75, 318.75, 318.75],
       [318.75, 318.75, 318.75]])

A présent, nous allons illustrer la puissance de la bibliothèque <code>numpy</code>. Pour cela nous allons d'abord définir notre propre fonction <code>prod_matrices</code> calculant le produit en utilisant des boucles imbriquées : 

In [46]:
def prod_matrices(M1, M2):
    M = np.zeros((M1.shape[0], M2.shape[1]))
    for i in range(M1.shape[0]):
        for j in range(M2.shape[1]):
            for k in range(M1.shape[1]):
                M[i, j] += M1[i, k] * M2[k,j] 
    return M

Test de la fonction :

In [47]:
M1 = np.array([[2, 1, 1], [4, 5, 7]])
M2 = np.array([[3, 2], [2, 1], [5, 4]])
prod_matrices(M1, M2)

array([[13.,  9.],
       [57., 41.]])

Avec un peu plus d'éléments :

In [48]:
L = np.linspace(0, 1000, 1000)
M = np.array([L, L, L])

In [49]:
P = prod_matrices(M, M.T)
P

array([[3.33500167e+08, 3.33500167e+08, 3.33500167e+08],
       [3.33500167e+08, 3.33500167e+08, 3.33500167e+08],
       [3.33500167e+08, 3.33500167e+08, 3.33500167e+08]])

La fonction <code>time</code> permet d'afficher des statistiques sur le temps d'exécution d'une instruction <code>Python</code>. Exécutez les instructions suivantes et observez les résultats :

In [50]:
%time P = prod_matrices(M, M.T) 

CPU times: user 5.15 ms, sys: 0 ns, total: 5.15 ms
Wall time: 5.12 ms


In [51]:
%time P= np.matmul(M, M.T)

CPU times: user 49 µs, sys: 43 µs, total: 92 µs
Wall time: 100 µs


La différence est encore plus flagrante si on utilise des matrices creuses : 

In [52]:
L1 = np.linspace(0, 1000, 1000)
L2 = np.zeros(1000)
M = np.array([L2, L2, L1])

In [53]:
%time P = prod_matrices(M, M.T) 

CPU times: user 6.44 ms, sys: 0 ns, total: 6.44 ms
Wall time: 6.38 ms


In [54]:
%time P= np.matmul(M, M.T)

CPU times: user 47 µs, sys: 42 µs, total: 89 µs
Wall time: 97 µs


### Exercice 2.

Chercher des éléments dans un tableau

1. A tester : 

In [55]:
from random import sample, choices

In [56]:
V1 = np.reshape(choices(range(1, 25), k=200), (200, ))
V1

array([14, 13,  6,  6,  2,  3, 16, 21, 11, 17,  2, 10, 12, 21,  9, 24,  2,
       17,  2,  6, 13,  4, 11, 13, 24, 14, 15, 22, 11, 18, 16,  4,  3,  2,
        5,  8, 11,  6, 19, 10, 11,  5, 15,  2,  9, 14, 17, 12,  3, 14,  3,
       22,  5,  6, 14, 13,  7,  7, 15, 17, 17, 23, 16, 24, 16,  1,  9,  1,
       19,  6, 12, 15,  6, 18,  3,  7, 21, 22,  4, 10, 16,  8,  8, 15, 17,
       23, 20, 24,  8,  2,  4,  5,  2, 23,  3,  5,  8, 23, 11,  5,  8,  7,
       14, 18, 16, 10, 15, 16,  5,  5, 14, 11, 24, 10,  3,  5, 24, 11, 24,
       21,  1, 21, 17, 15,  2, 14,  1,  4, 21,  7, 21, 24, 15, 16, 21,  1,
       21, 19, 13, 11, 12,  4,  5, 15, 13, 18, 23,  1,  3, 18, 10, 17,  8,
       23, 16, 19, 10, 22,  6,  6, 18,  9, 16, 15,  8,  3, 23, 19, 15, 20,
       22, 23, 16,  8, 23, 24, 21, 24, 23, 19, 17,  4,  8, 11,  6,  1, 15,
        1, 17,  1,  8,  7,  7,  6, 24, 22,  7,  4, 21,  6])

In [57]:
V2 = V1[V1>20]
V2

array([21, 21, 24, 24, 22, 22, 23, 24, 21, 22, 23, 24, 23, 23, 24, 24, 24,
       21, 21, 21, 21, 24, 21, 21, 23, 23, 22, 23, 22, 23, 23, 24, 21, 24,
       23, 24, 22, 21])

2. Créer deux vecteurs ligne d’entiers <code>Va</code> et <code>Vb</code>, de même taille, contenant des valeurs entières aléatoires.

3. Tester le code suivant. Que contient <code>V</code>?

In [None]:
V = np.array([Va[i] if Va[i] > Vb[i] else Vb[i] for i in range(Va.shape[0])])
V

4. Quelle est la fonction de <code>numpy</code> qui permet d'obtenir le même résultat? Tester.

# 2. Probabilités et statistiques, lois usuelles

Dans cette section, nous allons passer en revue quelques éléments de probabilités et statistiques. Nous allons essentiellement faire de l'inférence statistique et manipuler la loi normale.

#### Loi des grands nombres

On lance une pièce biaisée. On obtient pile avec probabilité $p\in[0, 1]$ et face avec probabilité $q = 1 - p$.

Ecrire une fonction <code>lancer(n, p)</code> qui simule le lancer de ce dé <code>n</code> fois avec la probabilité <code>p</code> d'obtenir pile et qui retourne le nombre de fois où pile est obtenu.

<em>Indication :</em> <code>uniform(0,1)</code> de la bibliothèque <code>random</code> retourne un nombre réel aléatoire tiré uniformément dans l'intervalle $[0, 1]$. 

Essayer avec différentes valeurs $p$ et des valeurs de $n$ croissantes. Qu'observez-vous ?

#### Loi normale

La loi normale est très utilisée en statistiques. Elle est, entre autre, la loi limite pour d'autres lois. 

Commençons par générer des nombres suivant une loi normale mais avec différentes valeurs pour les paramètres $\mu$ et $\sigma$.

Exécutez la cellule suivante et observez le résultat : 

In [None]:
from scipy.stats import norm
import matplotlib.pyplot as plt
%matplotlib inline

mu = [0, 1, 2, 3]
sigma = [1, 2, 3, 4]

x_min = -16
x_max = 16
x_nb = 100

x = np.linspace(x_min, x_max, x_nb)

for i in range(len(mu)):
    y = norm.pdf(x, mu[i], sigma[i])
    plt.plot(x, y, label='mu='+str(mu[i])+', sigma='+str(sigma[i]))
plt.legend(loc='upper right')
plt.show()

Commentez les courbes et observez l'impact des valeurs de $\sigma$.

#### Inférence des paramètres d'une loi normale

On insère une bannière publicitaire dans une page web. On trace les connexions à cette page auprès de $50$ utilisateurs et ce pendant $1000$ jours. Pour chaque visite on note si l'utilisateur a cliqué sur la bannière ou non. 

Les chiffres des clics (par jour) sont donnés dans le fichier <code>baniere.csv</code> disponible à l'adresse https://www.labri.fr/perso/zemmari/datasets/baniere.csv.

1. Charger les données dans une variable de nom <code>data</code> en utilisant la fonction <code>read_csv</code> de la bibliothèque <code>pandas</code> (elle accepte les urls).

2. Donner une estimation de la probabilité qu'un visiteur du site (choisi au hasard) clique sur la bannière. 

3. Le code suivant permet de tracer l'histogramme des données comme une courbe. Qu'observez-vous pour la forme de la courbe ? 

In [None]:
from collections import Counter

compteur = Counter(list(data[0]))
#print(compteur)

x = list(compteur.keys())
print(x)
y = [compteur[val] for val in x]
print(y)
plt.scatter(x, y, c='red', marker='+')

4. Calculez l'estimateur $\hat\mu$ de la moyenne et $\hat\sigma$ de la variance. 

<em>Indication :</em> des estimateurs non biaisés de la moyenne et de la variance d'une série $(x_i)_{1\leq i\leq n}$ sont donnés par :
$$
\hat\mu = \frac 1 n \sum_{i=1}^n x_i, \,\,\,\, \hat\sigma^2 = \frac 1 {n} \sum_{i=1}^n \left(x_i - \hat\mu\right)^2.
$$
On peut néanmoins utiliser directement les fonctions <code>average</code> et <code>std</code> de la bibliothèque <code>numpy</code>.

5. Dessinez la courbe de la fonction de répartition de la loi normale de paramètres $\hat\mu$ et $\hat\sigma$ sur la même figure que celle de la question 4. Qu'observez vous ?