In [2]:
import numpy as np

# Jouer avec des points

On considère $Y$ les points sur la droite aux valeurs  1, 3, 7, 2 (c'est juste un vecteur).

In [586]:
Y = np.array([1, 3, 7, 2])
Y

array([1, 3, 7, 2])

On va calculer toute les différences entre ces valeurs. On construit un matrice `M` telle que `M[i,j] = Y[i] - Y[j]` et `i` et `j` sont deux indices pour tous les identifiants de points possibles. Pour cela, on peut utiliser le broadcasting... 

On constuit `Y - Y.T`, mais il faut transformer le vecteurs 1d `Y` en matrices `a` et `b` de taille (4, 1) et (1, 4)

In [591]:
a = Y.reshape(4, 1)
b = Y.reshape(1, 4)
M = a - b
M

array([[ 0, -2, -6, -1],
       [ 2,  0, -4,  1],
       [ 6,  4,  0,  5],
       [ 1, -1, -5,  0]])

Une autre façon de procéder est d'ajouter un axe avec `np.newaxis`. Observer `Y[:, np.newaxis]`. En déduire comment construire `a` et `b` autrement.

In [592]:
a = Y[:, np.newaxis]
b = Y[np.newaxis, :]
M

array([[ 0, -2, -6, -1],
       [ 2,  0, -4,  1],
       [ 6,  4,  0,  5],
       [ 1, -1, -5,  0]])

On peut calculer les distances au carré de chaque point vers chaque autre point.

In [593]:
np.power(M, 2)

array([[ 0,  4, 36,  1],
       [ 4,  0, 16,  1],
       [36, 16,  0, 25],
       [ 1,  1, 25,  0]])

Quel est le point le plus proche de chaque point ? Regardez la documentation de `np.argsort`. Voyez par exemple 

    np.argsort(np.array([1, 0, 12, 2]))
    
Appliquez cela sur la matrice des distance en prenant le bon axe!

In [594]:
np.argsort(M, axis=0)

array([[0, 0, 0, 0],
       [3, 3, 3, 3],
       [1, 1, 1, 1],
       [2, 2, 2, 2]])

On recommence avec maintenant des points en dimension 2. On va alors calculer toutes les distances au carré entre ces points.  

Tirer aléatoirement $X$, un jeu de données de 10 points dans $[0, 1]^2$. On utilise `np.random.rand`.

In [614]:
X = np.array([[i+1, (np.power(np.random.rand(), 2), np.power(np.random.rand(), 2))] for i in range(10)])
# je n'ai pas réussi à reprendre les coordonnées, peut-être un mauvais typage de ma part

array([[1, (0.0019286852002316284, 0.9394025440767068)],
       [2, (0.011909983545580694, 0.24553810774561635)],
       [3, (0.7704414070704332, 0.22035550797617687)],
       [4, (6.914331323461507e-05, 0.35299625080717656)],
       [5, (0.035704151304177374, 0.21801445862636387)],
       [6, (0.052302007010697676, 0.2558101762190301)],
       [7, (0.014938833484361324, 0.0007302308437902423)],
       [8, (0.34685737633364244, 0.09208640470547859)],
       [9, (0.05784591144902477, 0.16155325281001012)],
       [10, (0.2537844258871078, 0.34495925075512784)]], dtype=object)

On peut les tracer sur un petit diagramme.

In [609]:
import matplotlib.pyplot as plt
plt.scatter(X[:, 1][:, 0], X[:, 1][:, 1])

IndexError: too many indices for array: array is 1-dimensional, but 2 were indexed

Dans `X` la première dimension représente le numéro du point et la deuxième dimension les coordonnées de ce point ($x_1$, $x_2$). 

Maintenant on calcule les `a` et `b` comme tout à l'heure. On ajoute une dimension pour créer un objet en 3 dimensions ($n1=10$, $n2=10$, $x$) à partir de $X$ qui était en dimensions $n=10$ et $x=2$. 

Par la somme ou la différence, on aura dans a[i, j, k] - b[i, j, k] = X[i, k] - X[j, k] 

In [570]:
a = np.array([[[i+1, j+1, X[i][1]] for j in range(10)] for i in range(10)])
b = np.array([[[i+1, j+1, X[i][1]] for j in range(10)] for i in range(10)])
a.shape
a # pas réussi

array([[[1, 1, (0.33080496230247025, 0.4811124861077231)],
        [1, 2, (0.33080496230247025, 0.4811124861077231)],
        [1, 3, (0.33080496230247025, 0.4811124861077231)],
        [1, 4, (0.33080496230247025, 0.4811124861077231)],
        [1, 5, (0.33080496230247025, 0.4811124861077231)],
        [1, 6, (0.33080496230247025, 0.4811124861077231)],
        [1, 7, (0.33080496230247025, 0.4811124861077231)],
        [1, 8, (0.33080496230247025, 0.4811124861077231)],
        [1, 9, (0.33080496230247025, 0.4811124861077231)],
        [1, 10, (0.33080496230247025, 0.4811124861077231)]],

       [[2, 1, (0.27185411744934534, 0.784694009805609)],
        [2, 2, (0.27185411744934534, 0.784694009805609)],
        [2, 3, (0.27185411744934534, 0.784694009805609)],
        [2, 4, (0.27185411744934534, 0.784694009805609)],
        [2, 5, (0.27185411744934534, 0.784694009805609)],
        [2, 6, (0.27185411744934534, 0.784694009805609)],
        [2, 7, (0.27185411744934534, 0.784694009805609)],
 

In [615]:
a # pas réussi

array([[1],
       [3],
       [7],
       [2]])

On peut calculer la différence au carré pour chaque coordonnée. 

La distance au carré est la somme pour toutes ces coordonnées. Donc la somme sur la troisième composante. 

Quels 2 points les plus proches du point 0 ?  On peut utiliser `np.argsort` sur les distances au premier point... 