In [1]:
import numpy as np

# Jouer avec des points

On considère $Y$ les points sur la droite aux valeurs  1, 3, 7, 2 (c'est juste un vecteur).

In [156]:
Y = np.array([1, 3, 7, 2])

On va calculer toute les différences entre ces valeurs. On construit un matrice `M` telle que `M[i,j] = Y[i] - Y[j]` et `i` et `j` sont deux indices pour tous les identifiants de points possibles. Pour cela, on peut utiliser le broadcasting... 

On constuit `Y - Y.T`, mais il faut transformer le vecteurs 1d `Y` en matrices `a` et `b` de taille (4, 1) et (1, 4)

In [157]:
a = Y.reshape((4,1))
b = Y.reshape((1,4))
a, b

(array([[1],
        [3],
        [7],
        [2]]), array([[1, 3, 7, 2]]))

Une autre façon de procéder est d'ajouter un axe avec `np.newaxis`. Observer `Y[:, np.newaxis]`. En déduire comment construire `a` et `b` autrement.

In [158]:
a = Y[:, np.newaxis]
b = Y[np.newaxis, :]
a , b

(array([[1],
        [3],
        [7],
        [2]]), array([[1, 3, 7, 2]]))

On peut calculer les distances au carré de chaque point vers chaque autre point.

In [159]:
(a - b)

array([[ 0, -2, -6, -1],
       [ 2,  0, -4,  1],
       [ 6,  4,  0,  5],
       [ 1, -1, -5,  0]])

In [160]:
d = (a-b)**2

In [161]:
d

array([[ 0,  4, 36,  1],
       [ 4,  0, 16,  1],
       [36, 16,  0, 25],
       [ 1,  1, 25,  0]])

Quel est le point le plus proche de chaque point ? Regardez la documentation de `np.argsort`. Voyez par exemple 

    np.argsort(np.array([1, 0, 12, 2]))
    
Appliquez cela sur la matrice des distance en prenant le bon axe!

In [2]:
np.argsort?

In [153]:
np.argsort(np.array([1, 0, 12, 2]))

array([1, 0, 3, 2])

In [163]:
np.argsort(d, axis=1)

array([[0, 3, 1, 2],
       [1, 3, 0, 2],
       [2, 1, 3, 0],
       [3, 0, 1, 2]])

On recommence avec maintenant des points en dimension 2. On va alors calculer toutes les distances au carré entre ces points.  

Tirer aléatoirement $X$, un jeu de données de 10 points dans $[0, 1]^2$. On utilise `np.random.rand`.

In [3]:
X = np.random.rand(10,2)
X

array([[0.81546868, 0.85180719],
       [0.70565975, 0.91508627],
       [0.7719203 , 0.42144073],
       [0.19325904, 0.12872268],
       [0.59580633, 0.03080627],
       [0.41284524, 0.68774458],
       [0.67692441, 0.32978359],
       [0.79091439, 0.74994827],
       [0.11352269, 0.0750615 ],
       [0.26153314, 0.78520481]])

On peut les tracer sur un petit diagramme.

In [4]:
plt.scatter(X[:, 0], X[:, 1])

NameError: name 'plt' is not defined

Dans `X` la première dimension représente le numéro du point et la deuxième dimension les coordonnées de ce point ($x_1$, $x_2$). 

Maintenant on calcule les `a` et `b` comme tout à l'heure. On ajoute une dimension pour créer un objet en 3 dimensions ($n1=10$, $n2=10$, $x$) à partir de $X$ qui était en dimensions $n=10$ et $x=2$. 

Par la somme ou la différence, on aura dans a[i, j, k] - b[i, j, k] = X[i, k] - X[j, k] 

In [5]:
a = X[:, np.newaxis, :]

In [6]:
a.shape

(10, 1, 2)

In [178]:
b = X[np.newaxis, :, :]

On peut calculer la différence au carré pour chaque coordonnée. 

In [179]:
d_comp = (a-b)**2

La distance au carré est la somme pour toutes ces coordonnées. Donc la somme sur la troisième composante. 

In [180]:
d = d_comp.sum(axis=2)

In [181]:
d.shape

(10, 10)

Quels 2 points les plus proches du point 0 ?  On peut utiliser `np.argsort` sur les distances au premier point... 

In [182]:
d[0,:]

array([0.        , 0.84053244, 0.45463701, 0.26149475, 0.60346346,
       0.33475277, 0.72132395, 0.19708302, 0.69418443, 0.43343543])

In [183]:
np.argsort?

In [184]:
np.argsort(d[0,:])

array([0, 7, 3, 5, 9, 2, 4, 8, 6, 1])

In [185]:
np.argsort(d, axis=1)

array([[0, 7, 3, 5, 9, 2, 4, 8, 6, 1],
       [1, 6, 8, 3, 9, 7, 2, 4, 5, 0],
       [2, 4, 5, 7, 8, 3, 1, 0, 6, 9],
       [3, 7, 9, 6, 1, 8, 0, 2, 5, 4],
       [4, 2, 5, 7, 8, 3, 1, 0, 6, 9],
       [5, 2, 4, 7, 8, 0, 3, 1, 6, 9],
       [6, 1, 9, 3, 8, 7, 2, 0, 4, 5],
       [7, 2, 3, 5, 4, 8, 0, 1, 9, 6],
       [8, 2, 1, 7, 4, 3, 5, 6, 9, 0],
       [9, 6, 3, 1, 7, 0, 8, 2, 5, 4]])