“Python Data Science Handbook by Jake VanderPlas (O’Reilly). Copyright 2017 Jake VanderPlas, 978-1-491-91205-8.”

## Бібліотека NumPy (Numerical Python). Частина 3

### "Примхлива" індексація (fancy indexing)

"Примхлива" індексація полягає в передачі масиву індексів з метою одночасного доступу до декількох елементів масиву.

In [None]:
import numpy as np
np.random.seed(42)
x = np.random.randint(100, size=10) #масив розміром size=10 випадкових цілих чисел на [1, 100)
print(x)

In [None]:
#1 спосіб. Звичайний доступ до декілької елементів масиву
[x[3],x[7],x[4],x[5]] 

In [None]:
#2 спосіб. "Примхлива індексація"
ind = np.array([3,7,4,5])
x[ind] 

Важливо пам'ятати, що у випадку "примхливої" індексації форма результату відображає форму масиву індексів, а не форму індексованого масиву.

In [None]:
ind = np.array([[3,7],[4,5]])
x[ind]

"Примхлива" індексація застосовується і у випадку багатовимірних масивів.

In [None]:
X = np.arange(12).reshape((3,4))
print(X)
row = np.array([0,1,2])
col = np.array([2,1,3])
X[row, col]  #перше значення -це X[0,2], друге значення - це X[1,1], третє значення - це X[2,3]

### Комбінована індексація

Можна застосовувати спільно "примхливі" та прості індекси:

In [None]:
X = np.arange(12).reshape((3,4))
print(X)
X[2, [2,0,1]]

Можна застосовувати спільно "примхливі" індекси та зрізи:

In [None]:
X[1:, [2,0,1]]

Можна застосовувати спільно "примхливу" індексацію та маски:

In [None]:
mask = np.array([True, False, True, False])
print(mask)
X[:, mask]

### Приклад. Вибірка випадкових точок

Змоделюємо вибірку точок з двовимірного нормального розподілу з вектором середніх mean та коваріаційною матрицею cov.

In [None]:
mean = [0,0]
cov = [[1,0],[0,1]]
X = np.random.multivariate_normal(mean, cov, 100)
#print(X)
X.shape

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()
plt.scatter(X[:,0], X[:,1])
plt.title('Normally distributed points')
plt.xlabel('x1')
plt.ylabel('x2')

Скористаємося "примхливою" індексацією для вибору 20 випадкових точок.

In [None]:
indices = np.random.choice(X.shape[0], size=20, replace=False)
indices
selection=X[indices]
#print(selection)
selection.shape

Візуалізація вибраних точок

In [None]:
plt.scatter(X[:,0], X[:,1])
plt.scatter(selection[:,0], selection[:,1], facecolor='red')
plt.title('Normally distributed points')
plt.xlabel('x1')
plt.ylabel('x2')

### Зміна значень за допомогою "примхливої" індексації

In [None]:
x = np.arange(10)
i = np.array([2,1,8,4])
x[i] = 99
print(x)

In [None]:
x[i] -= 10
print(x)

### Сортування масивів

### Швидке сортування: функції np.sort, np.argsort

Функція np.sort повертає відсортовані елементи масиву.

In [None]:
x = np.array([2,1,4,3,6,5])
np.sort(x)

Функція np.argsort повертає індекси відсортованих елементів масиву.

In [None]:
x = np.array([2,1,4,3,6,5])
i = np.argsort(x)  
print(i)
x[i]  #ці індекси можна використати для сортування масиву

Сортування багатовимірного масиву за рядками або стовбцями проводиться за допомогою задання аргументу axis.

In [None]:
np.random.seed(42)
X = np.random.randint(0, 10, size=(4,6)) #масив розміром size випадкових цілих чисел на [0, 10)
print(X)

In [None]:
np.sort(X, axis=0) #сортування за стовбцями

In [None]:
np.sort(X, axis=1) #сортування за рядками

### Часткове сортування: функції np.partition, np.argsort

Функція np.partition приймає на вхід масив і число K. Результатом буде новий масив з K найменшими значеннями ліворуч від точки розбиття та іншими значеннями праворуч від неї в довільному порядку.

In [None]:
x = np.array([7,2,3,1,6,5,4])
print(x)
np.partition(x, kth=3)

In [None]:
np.random.seed(42)
X = np.random.randint(0, 10, size=(4,6)) #масив розміром size випадкових цілих чисел на [0, 10)
print(X)
np.partition(X, kth=2, axis=1) #часткове сортування за рядками

In [None]:
np.partition(X, kth=2, axis=0) #часткове сортування за стовбцями

Функція np.argpartition повертає індекси елементів масиву в кожній секції.

In [None]:
x = np.array([7,2,3,1,6,5,4])
#print(np.partition(x, kth=3)) #[2 1 3 4 6 5 7]
np.argpartition(x, kth=3)

### Приклад. K найближчих сусідів

В квадрат [0,1]x[0,1] навмання кидать 10 точок. Для кожної точки знайти двох її найближчих сусідів.

In [None]:
import numpy as np
np.random.seed(22)
X = np.random.random_sample(size=(10,2)) #масив розміром size випадкових цілих чисел на [0,1]x[0,1]
print(X)
X.shape

Візуалізація точок

In [None]:
%matplotlib inline
import matplotlib.pyplot as plt
import seaborn; seaborn.set()
plt.scatter(X[:,0], X[:,1])
plt.title('Visualization of points')
plt.xlabel('x1')
plt.ylabel('x2')

Обчислимо відстань між усіма парами точок.

In [None]:
differences = X[:, np.newaxis, :] - X[np.newaxis, :, :] #для кожної пари точок обчислюємо різниці їхніх координат
differences.shape
sq_differences = differences**2 #підносимо різниці координат в квадрат
sq_differences.shape
dist_sq = np.sum(sq_differences, axis=-1) #If axis is negative it counts from the last to the first axis
#print(dist_sq)
dist_sq.shape

Завдання. Пояснити операцію обчислення різниці координат для кожної пари точок згідно з правилами транслювання масивів

Скористаємося функцією np.argsort для повернення індексів відсортованих елементів масиву.
Перший стовбець - це числа від 0 до 9 в порядку зростання: це відбувається через те, що найближчий сусід кожної точки - вона сама.

In [None]:
nearest = np.argsort(dist_sq, axis=1)
print(nearest)

Нам цікаві K найближчих сусідів, тому достатньо побудувати масив з K+1 найменшими значеннями ліворуч від точки розбиття та іншими значеннями праворуч від неї в довільному порядку.

In [None]:
K = 2
nearest_partition = np.argpartition(dist_sq, kth=K+1, axis=1)
nearest_partition

In [None]:
plt.scatter(X[:,0], X[:,1])
K = 2
for i in range(X.shape[0]): # від 0 до 9
    for j in nearest_partition[i, :K+1]:
        plt.plot(*zip(X[j],X[i]), color='red')
plt.title('Visualization of the neighbors of each point')
plt.xlabel('x1')
plt.ylabel('x2')