# Numpy

Для работы с массивами и математическими операциями в Python есть библиотека NumPy

In [3]:
# установка numpy

#!pip install numpy

# если библиотека была установлена, можно обновить 

!pip install --upgrade numpy

Looking in indexes: https://pypi.org/simple, https://pypi.ngc.nvidia.com


Это библиотека языка Python для работы с массивами и матрицами. Он создан для эффективной работы с многомерными массивами и имеет множество функций для выполнения различных математических операций, таких как матричные операции, статистические операции и т.д. с полиномами, линейной алгеброй и многомерными матрицами (тензорами). 

Библиотека NumPy содержит структуры данных многомерных массивов и матриц. Она предоставляет ndarray, однородный объект n-мерного массива, с методами для эффективной работы с ним. NumPy можно использовать для выполнения широкого спектра математических операций над массивами. Он добавляет в Python мощные структуры данных, которые гарантируют эффективные вычисления с массивами и матрицами, и предоставляет огромную библиотеку математических функций высокого уровня, которые работают с этими массивами и матрицами.

Причем многие операции выполняются в скомпилированном коде для повышения производительности. 

In [4]:
# обычно импортируется так с привязкой к короткому имени np

import numpy as np

## Создание массивов

Array - это центральная структура данных библиотеки NumPy. Array представляет собой сетку значений и содержит информацию об исходных данных, о том, как найти элемент и как интерпретировать элемент. Он имеет сетку элементов, которые могут быть проиндексированы различными способами. Все элементы имеют один и тот же тип, называемый dtype массива.

- **Array** может быть проиндексирован кортежем неотрицательных целых чисел, булевыми числами, другим массивом или целыми числами. 
- **Rank массива** - это количество измерений. 
- **Shape массива** - это кортеж целых чисел, задающий размер массива по каждому измерению.

Один из способов инициализации массивов NumPy - из списков Python.

In [5]:
a = np.array([1, 2, 3])               # одномерный массив
a

array([1, 2, 3])

In [6]:
b = np.array([(1, 2, 3), (4, 5, 6)])  # двумерный массив
b

array([[1, 2, 3],
       [4, 5, 6]])

In [4]:
c = np.zeros((3, 4))                  # массив заполненный нулями размером 3 на 4
c

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [6]:
d = np.ones((2,3,4))   # массив заполненный единицами размером 2 на 3 на 4
d

array([[[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]],

       [[1., 1., 1., 1.],
        [1., 1., 1., 1.],
        [1., 1., 1., 1.]]])

In [7]:
d.ndim

3

Функция `empty` создает массив, начальное содержимое которого случайно и зависит от состояния памяти. Причиной использования `empty` вместо нулей (или чего-то подобного) является скорость - просто нужно не забыть добавить элементы после этого

In [7]:
np.empty(2)

array([-3.91708872e-229,  1.56552850e-244])

Можно создать массив с диапазоном элементов (как `range`)


In [8]:
np.arange(10)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

И даже массив, содержащий диапазон элементов с определенным интервалом. Для этого нужно указать первое число, последнее число и размер шага.

In [9]:
np.arange(0, 10, 2)

array([0, 2, 4, 6, 8])

Можно еще создать массив со значениями, линейно распределенными в заданном интервале:

In [10]:
np.linspace(0, 10, 20)

array([ 0.        ,  0.52631579,  1.05263158,  1.57894737,  2.10526316,
        2.63157895,  3.15789474,  3.68421053,  4.21052632,  4.73684211,
        5.26315789,  5.78947368,  6.31578947,  6.84210526,  7.36842105,
        7.89473684,  8.42105263,  8.94736842,  9.47368421, 10.        ])

Также можно указать тип данных

Хотя типом данных по умолчанию является `np.float64`, можно указать необходимый тип данных, используя ключевое слово dtype.

In [11]:
np.ones(2, dtype=np.int64)

array([1, 1], dtype=int64)

## Cортировка элементов

Сортировка элемента осуществляется с помощью `np.sort()`. При вызове функции можно указать ось, вид и порядок.

Создадим элемент и перемешаем его с помощью `shuffle`

In [14]:
arr = np.arange(0, 10, 1)
np.random.shuffle(arr) 
arr

array([6, 7, 0, 4, 2, 9, 5, 3, 1, 8])

Можно быстро отсортировать числа в порядке возрастания с помощью:

In [15]:
np.sort(arr)

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

- `argsort` - возвращает индексы, которые будут сортировать массив.
- `lexsort` - cортировка по нескольким массивам

In [16]:
np.argsort(arr)

array([2, 8, 4, 7, 3, 6, 0, 1, 9, 5], dtype=int64)

In [17]:
arr[np.argsort(arr)]

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

In [21]:
data = np.array([['Алиса', 25, 4.5],
                 ['Евгений', 30, 4.0],
                 ['Владимир', 31, 4.2],
                 ['Андрей', 21, 3.7]])

# Сортировка по двум признакам: имени и возрасту
indices = np.lexsort((data[:, 0], data[:, 1]))
print('Сортированные индексы:', indices)
print('Сортированный массив:\n', data[indices])

Сортированные индексы: [3 0 1 2]
Сортированный массив:
 [['Андрей' '21' '3.7']
 ['Алиса' '25' '4.5']
 ['Евгений' '30' '4.0']
 ['Владимир' '31' '4.2']]


## Конкатенация

Объединить столбцы можно с помощью `np.concatenate()`

In [23]:
a = np.array([1, 2, 3, 4])
b = np.array([5, 6, 7, 8])
np.concatenate((a, b))

array([1, 2, 3, 4, 5, 6, 7, 8])

In [25]:
x = np.array([[1, 2], [3, 4]])
y = np.array([[5, 6]])
np.concatenate((x, y), axis=0).ndim

2

## Shape, size

- `ndarray.ndim` отображает количество осей, или размеров массива.
- `ndarray.size` отображает общее количество элементов массива. Это произведение всего shape.
- `ndarray.shape` отображает количество элементов, хранящихся вдоль каждого измерения массива. Если, например, двумерный массив с 2 строками и 3 столбцами, то форма вашего массива будет (2, 3).

In [22]:
array_example = np.array([[[0, 1, 2, 3],
                           [4, 5, 6, 7]],
                          [[0, 1, 2, 3],
                           [4, 5, 6, 7]],
                          [[0 ,1 ,2, 3],
                           [4, 5, 6, 7]]])

In [23]:
array_example.ndim

3

In [24]:
array_example.size

24

In [25]:
array_example.shape

(3, 2, 4)

## Как преобразовать одномерный массив в двумерный массив

Можно использовать `np.newaxis` и `np.expand_dims` для увеличения размеров существующего массива.

При однократном использовании `np.newaxis` размеры массива увеличиваются на одно измерение. Это означает, что одномерный массив станет двумерным, двумерный массив станет трехмерным и так далее.

In [26]:
a = np.array([1, 2, 3, 4, 5, 6])
a.shape

(6,)

In [27]:
a.ndim

1

In [28]:
a2 = a[np.newaxis, :]
a2

array([[1, 2, 3, 4, 5, 6]])

In [29]:
a2.ndim

2

In [30]:
col_vector = a[:, np.newaxis]
col_vector

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6]])

## Reshape

Массивы `numpy` также можно переформатировать, сделав `reshape`. Рассмотрим пример:

In [31]:
a = np.arange(6)
a

array([0, 1, 2, 3, 4, 5])

In [32]:
a.reshape(3, 2)

array([[0, 1],
       [2, 3],
       [4, 5]])

In [36]:
a.reshape(2, 3)

array([[0, 1, 2],
       [3, 4, 5]])

In [34]:
a.reshape(6, 1)

array([[0],
       [1],
       [2],
       [3],
       [4],
       [5]])

## Индексирование и срезы массивов

Можно индексировать и выводить срезы NumPy теми же способами, что и списки Python.

In [27]:
data = np.array([[1, 2, 3], [4, 5, 6]])

In [28]:
data.ndim

2

In [29]:
data[1]

array([4, 5, 6])

In [30]:
data[0:1]

array([[1, 2, 3]])

In [31]:
data[1:]

array([[4, 5, 6]])

In [32]:
data[-1:]

array([[4, 5, 6]])

In [33]:
data[0][2]

3

In [34]:
data[:, 0]

array([1, 4])

In [35]:
data[0, -1:]

array([3])

Можно выделить значения из массива, удовлетворяющих условию

In [36]:
data[data > 5]

array([6])

И также, создав заранее условие (булева маска):

In [37]:
five_up = (data >= 5)
data[five_up]

array([5, 6])

Или можно выбрать элементы, удовлетворяющие двум условиям, используя операторы `&` и `|`:

In [38]:
data[(data < 2) | five_up]

array([1, 5, 6])

## Как создать массив из существующих данных

Можно создать новый массив из среза существующего массива

In [54]:
a = np.array([1,  2,  3,  4,  5,  6,  7,  8,  9, 10])
arr = a[3:8]
arr

array([4, 5, 6, 7, 8])

Также можно собрать (стакнуть) два существующих массива как вертикально, так и горизонтально.

In [39]:
a1 = np.array([[1, 1],
               [2, 2]])

a2 = np.array([[3, 3],
               [4, 4]])

Вертикально:

In [40]:
np.vstack((a1, a2))

array([[1, 1],
       [2, 2],
       [3, 3],
       [4, 4]])

Горизонтально:

In [41]:
np.hstack((a1, a2))

array([[1, 1, 3, 3],
       [2, 2, 4, 4]])

## Операции с массивами

In [42]:
a = np.array([[1, 1],
              [2, 2]])

b = np.array([[-3, 3],
              [-4, 4]])

In [43]:
a + b              # сумма массивов a и b
np.add(a, b)       # альтернативный способ суммирования

array([[-2,  4],
       [-2,  6]])

In [44]:
a - b              # разность массивов
np.subtract(a, b)  # альтернативный способ нахождения разности

array([[ 4, -2],
       [ 6, -2]])

In [45]:
a * b              # поэлементное умножение массивов
np.multiply(a, b)  # альтернативный способ умножения

array([[-3,  3],
       [-8,  8]])

In [46]:
a / b              # поэлементное деление массивов
np.divide(a, b)    # альтернативный способ деления

array([[-0.33333333,  0.33333333],
       [-0.5       ,  0.5       ]])

In [47]:
np.sqrt(a)         # квадратный корень из каждого элемента массива a

array([[1.        , 1.        ],
       [1.41421356, 1.41421356]])

In [48]:
np.exp(a)          # экспоненциальная функция каждого элемента массива a

array([[2.71828183, 2.71828183],
       [7.3890561 , 7.3890561 ]])

In [49]:
np.log(a)     # натуральный логарифм каждого элемента массива a

array([[0.        , 0.        ],
       [0.69314718, 0.69314718]])

In [50]:
np.abs(a) # абсолютное значение каждого элемента массива a

array([[1, 1],
       [2, 2]])

In [51]:
a.max()     # максимальный элемент в массиве a (можно через a.max())

2

In [52]:
a.min()     # минимальный элемент в массиве a

1

In [53]:
a.mean()    # среднее значение в массиве a

1.5

In [54]:
np.median(a)  # медианное значение в массиве a

1.5

In [55]:
a.std()     # стандартное отклонение массива a

0.5

In [56]:
a.var()     # дисперсия массива a

0.25

## Другие функции NumPy

In [60]:
a = np.random.rand(3)                           # случайное число от 0 до 1 в виде одномерного массива
a

array([0.73747776, 0.55419576, 0.32908578])

In [59]:
np.random.rand(3, 3, 4)                        # случайные числа от 0 до 1 в виде двумерного массива размером 3 на 4

array([[[0.87794915, 0.66271414, 0.69949802, 0.14923839],
        [0.67220679, 0.83182765, 0.40960317, 0.89561644],
        [0.53082543, 0.15508662, 0.09953168, 0.512759  ]],

       [[0.10487488, 0.44068853, 0.33365966, 0.77383551],
        [0.31125701, 0.02382445, 0.80347967, 0.81495103],
        [0.67842973, 0.41537083, 0.77419517, 0.47751701]],

       [[0.31228921, 0.95575299, 0.1402084 , 0.82027681],
        [0.47920581, 0.03457382, 0.46823399, 0.89329004],
        [0.86996412, 0.64512681, 0.98346767, 0.7424964 ]]])

In [63]:
np.random.randint(1, 10, size=(5,3))            # случайные целые числа от 1 до 10 в виде одномерного массива размером 5 

array([[3, 1, 6],
       [5, 1, 7],
       [8, 6, 6],
       [6, 5, 6],
       [6, 8, 2]])

In [64]:
np.random.choice(a, size=3, replace=False)  # случайный выбор 3 уникальных элементов из массива a 

array([0.32908578, 0.55419576, 0.73747776])

In [81]:
b = np.array([[1, 2, 3], [4, 5, 6], [7, 8, 10]])

np.linalg.inv(b)                            # обратная матрица a (для квадратных матриц) 

array([[-0.66666667, -1.33333333,  1.        ],
       [-0.66666667,  3.66666667, -2.        ],
       [ 1.        , -2.        ,  1.        ]])

In [82]:
np.dot(a, b)                                # матричное умножение матриц a и b (для двумерных массивов) 
a @ b                                       # можно записать короче

array([5.25786126, 6.87862056, 8.82846564])

In [83]:
np.histogram(a)                             # вычисление гистограммы массива a 

(array([1, 0, 0, 0, 0, 1, 0, 0, 0, 1], dtype=int64),
 array([0.32908578, 0.36992498, 0.41076418, 0.45160337, 0.49244257,
        0.53328177, 0.57412097, 0.61496017, 0.65579937, 0.69663856,
        0.73747776]))

In [84]:
np.corrcoef(a, b)                           # вычисление коэффициента корреляции между векторами a и b

array([[ 1.        , -0.99825622, -0.99825622, -0.99142373],
       [-0.99825622,  1.        ,  1.        ,  0.98198051],
       [-0.99825622,  1.        ,  1.        ,  0.98198051],
       [-0.99142373,  0.98198051,  0.98198051,  1.        ]])

In [85]:
b.transpose()                               # создание транспонированной матрицы
b.T

array([[ 1,  4,  7],
       [ 2,  5,  8],
       [ 3,  6, 10]])

In [87]:
b.flatten()                                # создание 1d матрицы из многомерной (сплющить)

array([ 1,  2,  3,  4,  5,  6,  7,  8, 10])

## Broadcasting (транслирование)

In [98]:
a = np.array([1,2,3,1,5,9])
b = np.array([5])

In [99]:
a * b

array([ 5, 10, 15,  5, 25, 45])

In [100]:
a + b

array([ 6,  7,  8,  6, 10, 14])

In [101]:
b = np.array([2, 3])
a * b

ValueError: operands could not be broadcast together with shapes (6,) (2,) 

1. Если массивы разных размерностей, то к меньшему добавляются новые, чтобы размерности совпали
2. Оси с одним элементом расширяются так, чтобы их размерности совпали

In [102]:
a.ndim

1

In [103]:
b.ndim

1

Из старого `b` массив превращается в `[5, 5, 5, 5, 5, 5]` - это и есть транслирование массивов

In [97]:
a = np.array([
    [1, 2, 3],
    [4, 5, 6],
    [7, 8, 9]
])

b = np.array([[1, 2, 3]])

a + b

array([[ 2,  4,  6],
       [ 5,  7,  9],
       [ 8, 10, 12]])

## Ссылка на документацию Numpy

https://numpy.org/doc/stable/