In [1]:
import numpy as np

# Jouer avec des points

On considère $Y$ les points sur la droite aux valeurs  1, 3, 7, 2 (c'est juste un vecteur).

In [2]:
Y = np.array([1, 3, 7, 2])

On va calculer toute les différences entre ces valeurs. On construit un matrice `M` telle que `M[i,j] = Y[i] - Y[j]` et `i` et `j` sont deux indices pour tous les identifiants de points possibles. Pour cela, on peut utiliser le broadcasting... 

On constuit `Y - Y.T`, mais il faut transformer le vecteurs 1d `Y` en matrices `a` et `b` de taille (4, 1) et (1, 4)

In [3]:
a = Y.reshape((4,1))
b = Y.reshape((1,4))
a, b

(array([[1],
        [3],
        [7],
        [2]]),
 array([[1, 3, 7, 2]]))

Une autre façon de procéder est d'ajouter un axe avec `np.newaxis`. Observer `Y[:, np.newaxis]`. En déduire comment construire `a` et `b` autrement.

In [4]:
a = Y[:, np.newaxis]
b = Y[np.newaxis, :]
a , b

(array([[1],
        [3],
        [7],
        [2]]),
 array([[1, 3, 7, 2]]))

On peut calculer les distances au carré de chaque point vers chaque autre point.

In [5]:
(a - b)

array([[ 0, -2, -6, -1],
       [ 2,  0, -4,  1],
       [ 6,  4,  0,  5],
       [ 1, -1, -5,  0]])

In [6]:
d = (a-b)**2

In [7]:
d

array([[ 0,  4, 36,  1],
       [ 4,  0, 16,  1],
       [36, 16,  0, 25],
       [ 1,  1, 25,  0]])

Quel est le point le plus proche de chaque point ? Regardez la documentation de `np.argsort`. Voyez par exemple 

    np.argsort(np.array([1, 0, 12, 2]))
    
Appliquez cela sur la matrice des distance en prenant le bon axe!

In [8]:
np.argsort?

In [9]:
np.argsort(np.array([1, 0, 12, 2]))

array([1, 0, 3, 2])

In [10]:
np.argsort(d, axis=1)

array([[0, 3, 1, 2],
       [1, 3, 0, 2],
       [2, 1, 3, 0],
       [3, 0, 1, 2]])

On recommence avec maintenant des points en dimension 2. On va alors calculer toutes les distances au carré entre ces points.  

Tirer aléatoirement $X$, un jeu de données de 10 points dans $[0, 1]^2$. On utilise `np.random.rand`.

In [11]:
X = np.random.rand(10,2)
X

array([[0.17158651, 0.96330693],
       [0.23372001, 0.619848  ],
       [0.13157907, 0.42670654],
       [0.47070394, 0.94409548],
       [0.09506814, 0.62633861],
       [0.16624844, 0.12553281],
       [0.14882276, 0.18744707],
       [0.98385796, 0.16776744],
       [0.91961167, 0.60610079],
       [0.84301301, 0.7173363 ]])

On peut les tracer sur un petit diagramme.

In [12]:
plt.scatter(X[:, 0], X[:, 1])

NameError: name 'plt' is not defined

Dans `X` la première dimension représente le numéro du point et la deuxième dimension les coordonnées de ce point ($x_1$, $x_2$). 

Maintenant on calcule les `a` et `b` comme tout à l'heure. On ajoute une dimension pour créer un objet en 3 dimensions ($n1=10$, $n2=10$, $x$) à partir de $X$ qui était en dimensions $n=10$ et $x=2$. 

Par la somme ou la différence, on aura dans a[i, j, k] - b[i, j, k] = X[i, k] - X[j, k] 

In [13]:
a = X[:, np.newaxis, :]

In [14]:
a.shape

(10, 1, 2)

In [15]:
b = X[np.newaxis, :, :]

On peut calculer la différence au carré pour chaque coordonnée. 

In [16]:
d_comp = (a-b)**2

La distance au carré est la somme pour toutes ces coordonnées. Donc la somme sur la troisième composante. 

In [17]:
d = d_comp.sum(axis=2)

In [18]:
d.shape

(10, 10)

Quels 2 points les plus proches du point 0 ?  On peut utiliser `np.argsort` sur les distances au premier point... 

In [19]:
d[0,:]

array([0.        , 0.12182461, 0.28954057, 0.08984032, 0.11940271,
       0.70189398, 0.60247671, 1.29266799, 0.68713786, 0.5113151 ])

In [20]:
np.argsort?

In [21]:
np.argsort(d[0,:])

array([0, 3, 4, 1, 2, 9, 6, 8, 5, 7])

In [22]:
np.argsort(d, axis=1)

array([[0, 3, 4, 1, 2, 9, 6, 8, 5, 7],
       [1, 4, 2, 0, 3, 6, 5, 9, 8, 7],
       [2, 4, 1, 6, 5, 0, 3, 9, 8, 7],
       [3, 0, 1, 9, 4, 8, 2, 6, 5, 7],
       [4, 1, 2, 0, 6, 3, 5, 9, 8, 7],
       [5, 6, 2, 1, 4, 7, 0, 3, 8, 9],
       [6, 5, 2, 1, 4, 0, 3, 7, 9, 8],
       [7, 8, 9, 5, 6, 1, 2, 3, 4, 0],
       [8, 9, 7, 3, 1, 2, 4, 0, 6, 5],
       [9, 8, 3, 7, 1, 0, 4, 2, 6, 5]])