In [None]:
import numpy as np

In [None]:
vec_a = np.random.random(size=(150, 100))
vec_b = np.random.random(size=(250, 100))

vec_a.shape, vec_b.shape

### Нативная реализация на Python

In [None]:
def euclidean_distances_py(a, b):
    num_a, dim = a.shape
    num_b, dim = b.shape
    
    distances = np.zeros(shape=(num_a, num_b, ))
    
    for i_a in range(num_a):
        for i_b in range(num_b):
            row_a = a[i_a]
            row_b = b[i_b]
            
            d = 0
            for j in range(dim):
                d += (row_a[j] - row_b[j]) ** 2
            distances[i_a, i_b] = d ** 0.5

    return distances

In [None]:
%%timeit

_ = euclidean_distances_py(vec_a, vec_b)

### Реализация на NumPy

Для начала сделаем реализацию в лоб через мезанизм `broadcasting`. Какие минусы у такого подхода?

In [None]:
def euclidean_distances_np(a, b):
    a = a[:, np.newaxis, :]
    b = b[np.newaxis, :, :]
    return np.sqrt(((a - b) ** 2).sum(axis=-1))

In [None]:
%%timeit

_ = euclidean_distances_np(vec_a, vec_b)

Выполним оптимизацию – для этого рассмотрим, как можно эффективно вычислить попарное евклидово расстояние.

$$
\rho^2(x, z) = \sum_{s=1}^{d} (x^s - z^s) ^ 2 =
\sum_{s=1}^{d} (x^s)^2 + \sum_{s=1}^{d} (z^s)^2 - 2 \sum_{s=1}^{d} x^s z^s =
\left\| x \right\| ^ 2 _ 2 + \left\| z \right\| ^ 2 _ 2 - \left\langle x, z \right\rangle
$$

Отсюда вытекает любопытный факт для нормированных векторов: 

$$ \rho^2(x, z) = 2 (1 - \cos(x, z)) $$

https://scikit-learn.org/stable/modules/generated/sklearn.metrics.pairwise.euclidean_distances.html

In [None]:
def euclidean_distances_np(a, b):
    a_norm = (a ** 2).sum(axis=1, keepdims=True) 
    b_norm = (b ** 2).sum(axis=1)[np.newaxis, :]
    return np.sqrt(a_norm - 2 * np.dot(a, b.T) + b_norm)

In [None]:
%%timeit

_ = euclidean_distances_np(vec_a, vec_b)

Давайте убедимся, что новое решнеи эффективно не только по времени, но и по памяти.

https://jakevdp.github.io/PythonDataScienceHandbook/01.07-timing-and-profiling.html

In [None]:
!ls -l scripts/

In [None]:
%%bash

python -m memory_profiler scripts/euclidean_distances_01.py

In [None]:
%%bash

python -m memory_profiler scripts/euclidean_distances_02.py

Удивительно, что при некоторых условиях, наша реализация может работать быстрее, чем реализация из `scipy`.

In [None]:
from scipy.spatial.distance import cdist

In [None]:
%%timeit

_ = cdist(vec_a, vec_b)

### Реализация на numba

In [None]:
import numba

Возьмем нативную реализацию и навесим на функцию декоратор `numba.jit(nopython=True)`.

In [None]:
@numba.jit(nopython=True)
def euclidean_distances_nb(a, b):
    num_a, dim = a.shape
    num_b, dim = b.shape
    
    distances = np.zeros(shape=(num_a, num_b, ))
    
    for i_a in range(num_a):
        for i_b in range(num_b):
            row_a = a[i_a]
            row_b = b[i_b]
            
            d = 0
            for j in range(dim):
                d += (row_a[j] - row_b[j]) ** 2
            distances[i_a, i_b] = d ** 0.5

    return distances

In [None]:
%%timeit

_ = euclidean_distances_nb(vec_a, vec_b)

Попробуем совместить `numpy` и `numba`.

In [None]:
@numba.jit(nopython=True)
def euclidean_distances_nb(a, b):
    num_a, dim = a.shape
    num_b, dim = b.shape
    
    distances = np.zeros(shape=(num_a, num_b, ))
    
    for i_a in range(num_a):
        for i_b in range(num_b):
            row_a = a[i_a]
            row_b = b[i_b]
            
            d = ((row_a - row_b) ** 2).sum()
            distances[i_a, i_b] = d ** 0.5

    return distances

In [None]:
%%timeit

_ = euclidean_distances_nb(vec_a, vec_b)

Два внешних цикла можно расчитывать независимо друг от друга. Только в самом внутрнеем цикле есть разделяемая переменная `d`. Не забываем заменить `range` на `numba.prange`.

In [None]:
@numba.jit(nopython=True)
def pair_euclidean_distances_nb(a, b):
    dim = len(a)

    d = 0
    for j in range(dim):
        d += (a[j] - b[j]) ** 2
    return d ** 0.5


@numba.jit(nopython=True, parallel=True)
def euclidean_distances_nb(a, b):
    num_a, dim = a.shape
    num_b, dim = b.shape
    
    distances = np.zeros(shape=(num_a, num_b, ))
    
    for i_a in numba.prange(num_a):
        for i_b in numba.prange(num_b):
            distances[i_a, i_b] = pair_euclidean_distances_nb(a[i_a], b[i_b])

    return distances

In [None]:
%%timeit

_ = euclidean_distances_nb(vec_a, vec_b)

### Реализация на Cython

In [None]:
# !pip install cython

Запустим реализацию на `cython` прямо внутри ноутбука.

In [None]:
%load_ext cython

In [None]:
%%cython

import numpy as np

cimport cython
cimport numpy as np

from libc.math cimport sqrt

@cython.boundscheck(False)
@cython.wraparound(False)
def euclidean_distances_cy(np.ndarray[np.float_t, ndim=2] a,
                           np.ndarray[np.float_t, ndim=2] b):
    cdef int num_a = a.shape[0]
    cdef int num_b = b.shape[0]
    cdef int dim = a.shape[1]

    cdef double d
    cdef double[:, ::1] distances = np.empty((num_a, num_b), dtype=np.float64)
 
    for i in range(num_a):
        for j in range(num_b):
            d = 0
            for k in range(dim):
                d += (a[i, k] - b[i, k]) ** 2
            distances[i, j] = sqrt(d)
            
    return np.asarray(distances)

In [None]:
%%timeit

_ = euclidean_distances_cy(vec_a, vec_b)

Если есть необходимость делать переносимый пакет (бибилиотеку), то можно скомпилировать код в shared library и добавить ее в python-пакет. Либо в настройках установки пакета прописать, что библиотеку нужно скомпилировать на машине при установке через `pip`.

При вызове функции внутри будет вызываться скомпилированный Си код.

In [None]:
%%bash

cd impl/cython/
make clean
make
ls -l euclidean_distance.cpython-37m-darwin.so

In [None]:
from impl.cython.euclidean_distance import euclidean_distances_cy

In [None]:
%%timeit

_ = euclidean_distances_cy(vec_a, vec_b)

Можно добавить паралеллизацию через [openmp](https://cython.readthedocs.io/en/latest/src/userguide/parallelism.html).

### Реализация на языке C

Если Cython Вам не очень по душе, можно самостоятельно написать функции с необходимой логикой. В Python нужно будет написать специальную функцию обертку, которая вызовет Си код с правильными аргументами и типизацией.

In [None]:
!cat impl/ctypes/euclidean_distance.c

In [None]:
%%bash

cd impl/ctypes
make clean
make
ls -l euclidean_distance.so

In [None]:
import ctypes

In [None]:
# грузим библиотеку

cpp_lib = ctypes.cdll.LoadLibrary('./impl/ctypes/euclidean_distance.so')

In [None]:
cpp_lib.euclidean_distances

In [None]:
# устанавливаем правильную типизацию

p_double_t = ctypes.POINTER(ctypes.c_double)

cpp_lib.euclidean_distances.argtypes = [
    p_double_t,
    p_double_t,
    p_double_t,
    ctypes.c_size_t,
    ctypes.c_size_t,
    ctypes.c_size_t,
]

cpp_lib.euclidean_distances.restype = p_double_t

In [None]:
def euclidean_distance_cpp(a, b):
    num_a, dim = a.shape
    num_b, dim = b.shape
    
    distances = np.zeros(shape=(num_a, num_b, ))
    
    _ = cpp_lib.euclidean_distances(
        distances.ctypes.data_as(p_double_t),
        a.ctypes.data_as(p_double_t),
        b.ctypes.data_as(p_double_t),
        num_a, num_b, dim,
    )
    
    return distances

In [None]:
%%timeit

_ = euclidean_distance_cpp(vec_a, vec_b)

### Реализация на языке C с OpenMP

Можно пойти дальше и воспользоваться библиотеками для параллелизации вычислений: [OpenMP](https://www.openmp.org/) и MPI.

Для CLang на MacOS:
```bash
brew install llvm libomp
```

In [None]:
!cat impl/ctypes_omp/euclidean_distance.c

In [None]:
%%bash

cd impl/ctypes_omp
make clean
make
ls -l euclidean_distance.so

In [None]:
import ctypes

In [None]:
cpp_lib = ctypes.cdll.LoadLibrary('./impl/ctypes_omp/euclidean_distance.so')

In [None]:
cpp_lib.euclidean_distances

In [None]:
p_double_t = ctypes.POINTER(ctypes.c_double)

cpp_lib.euclidean_distances.argtypes = [
    p_double_t,
    p_double_t,
    p_double_t,
    ctypes.c_size_t,
    ctypes.c_size_t,
    ctypes.c_size_t,
]

cpp_lib.euclidean_distances.restype = p_double_t

In [None]:
def euclidean_distance_cpp(a, b):
    num_a, dim = a.shape
    num_b, dim = b.shape
    
    distances = np.zeros(shape=(num_a, num_b, ))
    
    _ = cpp_lib.euclidean_distances(
        distances.ctypes.data_as(p_double_t),
        a.ctypes.data_as(p_double_t),
        b.ctypes.data_as(p_double_t),
        num_a, num_b, dim,
    )
    
    return distances

In [None]:
%%timeit

_ = euclidean_distance_cpp(vec_a, vec_b)