## Массивы `NumPy`

### Проверка условий на массивах

Давайте посмотрим, каким образом можно проверять условия на массивах и отбирать элементы по условию. Создадим массив со значениями возраста:

In [233]:
ages = np.array([[15, 23, 32, 45, 52], 
               [68, 34, 55, 78, 20], 
               [25, 67, 33, 45, 14]])

Давайте попробуем узнать, какие значения массива соответствуют людям трудоспособного возраста: от 16 лет и старше:

In [234]:
ages >= 16  # больше или равно

array([[False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False]])

Все элементы, кроме первого в первом списке и кроме последнего в последнем списке: на всех позициях, кроме указанных, стоят значения `True`, что означает, что условие выполняется. То, что мы получили сейчас – это булев массив, массив, состоящий из булевых (логических) значений, значений `True` и `False`. 

Теперь попробуем сформулировать более сложное условие: проверим, какие элементы соответствуют людям старше 18, но младше 60 лет:

In [235]:
(ages > 18) & (ages < 60) # & - одновременное условие

array([[False,  True,  True,  True,  True],
       [False,  True,  True, False,  True],
       [ True, False,  True,  True, False]])

Как посчитать, сколько элементов массива удовлетворяют некоторым условиям?

Суммируем значения по всему массиву: Python понимает, что значение `True` – это 1, а `False` – это 0, поэтому нет необходимости превращать все значения в числовые, мы можем просто сложить все «единички»:

In [256]:
((ages > 18) & (ages < 60)).sum()

10

In [257]:
ages.size

15

А теперь проверим, какие значения соответствуют людям либо младше 18, либо старше 60:

In [258]:
(ages < 18) | (ages > 60)  # | - или - хотя бы одно условие верно

array([[ True, False, False, False, False],
       [ True, False, False,  True, False],
       [False,  True, False, False,  True]])

А как увидеть сами значения, которые удовлетворяют определенным условиям? Заключить условие в квадратные скобочки:

In [259]:
ages

array([[15, 23, 32, 45, 52],
       [68, 34, 55, 78, 20],
       [25, 67, 33, 45, 14]])

In [260]:
ages >= 16

array([[False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False]])

In [261]:
ages[ages >= 16]

array([23, 32, 45, 52, 68, 34, 55, 78, 20, 25, 67, 33, 45])

In [262]:
ages[(ages >= 16) & (ages < 60)]

array([23, 32, 45, 52, 34, 55, 20, 25, 33, 45])

Внимание: не забудьте круглые скобки для каждого условия, иначе Python поймёт всё неправильно и вернёт ошибку:

In [263]:
ages[ages >= 16 & ages < 60]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

https://numpy.org/doc/stable/reference/generated/numpy.where.html

### Запись списков в файл и чтение файлов со списками

Чтобы было проще работать, сначала обсудим запись списков, тем самым сохранив списки себе на компьютер, а потом будем загружать их в Python. Это удобно для хранения больших списков с данными + например, для сохранения результатов разных моделей.

Запишем массив `ages` в файл формата `.npy`: сначала укажем название файла, а затем – сам массив, который сохраняем.

In [264]:
import os
os.getcwd()

'C:\\Users\\mbbur\\HSE\\Ростелеком\\14марта'

In [265]:
np.save("ages.npy", ages)

Теперь этот файл можно увидеть во вкладке *Home* в Jupyter Notebook, в рабочей папке. Попробуем выполнить обратную операцию: считаем массив из numpy-файла:

In [266]:
np.load("ages.npy")

array([[15, 23, 32, 45, 52],
       [68, 34, 55, 78, 20],
       [25, 67, 33, 45, 14]])

Выгружать списки можно в разные форматы. Например, можно просто сохранить массив в текстовый файл с расширением `.txt`:

In [267]:
np.savetxt("ages.txt", ages)

И аналогичным образом считать:

In [268]:
np.loadtxt("ages.txt")

array([[15., 23., 32., 45., 52.],
       [68., 34., 55., 78., 20.],
       [25., 67., 33., 45., 14.]])

Если нет необходимости работать с файлами, можем просто превратить массив в другой объект Python. Например, в обычный список:

In [269]:
ages.tolist()

[[15, 23, 32, 45, 52], [68, 34, 55, 78, 20], [25, 67, 33, 45, 14]]

In [270]:
list(ages)

[array([15, 23, 32, 45, 52]),
 array([68, 34, 55, 78, 20]),
 array([25, 67, 33, 45, 14])]

In [271]:
ages

array([[15, 23, 32, 45, 52],
       [68, 34, 55, 78, 20],
       [25, 67, 33, 45, 14]])

Или строку:

In [272]:
np.array2string(ages)

'[[15 23 32 45 52]\n [68 34 55 78 20]\n [25 67 33 45 14]]'

# Операции с векторами и матрицами в нампай

#### Скалярное произведение векторов

In [273]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4])
# <a, b> = 3*2 + 1*5 + 5*2 + 2*4
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

29
29
29


In [274]:
a = np.array([3, 1, 5, 2])
b = np.array([2, 5, 2, 4, 4])
print(a @ b)    # python 3 style

ValueError: matmul: Input operand 1 has a mismatch in its core dimension 0, with gufunc signature (n?,k),(k,m?)->(n?,m?) (size 5 is different from 4)

#### Умножение матриц
  
Операция умножения определена для двух матриц, таких что число столбцов первой равно числу строк второй. 

Пусть матрицы $A$ и $B$ таковы, что $A \in \mathbb{R}^{n \times k}$ и $B \in \mathbb{R}^{k \times m}$.    
__Произведением__ матриц $A$ и $B$ называется матрица $C$, такая что 
$$c_{ij} = \sum_{r=1}^{k} a_{ir}b_{rj}$$, 
где  $c_{ij}$ — элемент матрицы $C$, стоящий на пересечении строки с номером $i$ и столбца с номером $j$.

<img src="https://habrastorage.org/webt/ou/_g/wg/ou_gwgmqlsqlzlelu93s1q7vetw.png" width=300>

In [275]:
a = np.array([[1, 2], [2, 0]])
b = np.array([[2, 5], [1, 3]])
# print(a)
# print(b)
print(a @ b)    # python 3 style
print(a.dot(b)) 
print(np.dot(a, b))

[[ 4 11]
 [ 4 10]]
[[ 4 11]
 [ 4 10]]
[[ 4 11]
 [ 4 10]]


In [276]:
# c[0][0] = 1 * 2 + 2 * 1 = 4
# c[0][1] = 1 * 5 + 2 * 3 = 11
# c[1][0] = 2 * 2 + 0 * 1 = 4
# c[1][1] = 2 * 5 + 0 * 3 = 10

In [277]:
a

array([[1, 2],
       [2, 0]])

In [278]:
b

array([[2, 5],
       [1, 3]])

In [279]:
a = np.array([[1, 2], [2, 0]])
b = np.array([1, 2])
print(a @ b)

[5 2]


**!!!Не путайте поокординатное умножение с матричным!!!**

In [280]:
print(a * b)

[[1 4]
 [2 0]]


#### Умножение матриц и векторов

<img src="https://dev.opera.com/articles/understanding-the-css-transforms-matrix/5.png">

In [281]:
m = np.array([[1, 2], [0, 1], [2, 4]])
print(m)
v = np.array([2, 5])
print("v = ",v)
m @ v

[[1 2]
 [0 1]
 [2 4]]
v =  [2 5]


array([12,  5, 24])

## Полезные фукнции и методы для работы с массивами



**1. Замена элементов по индексу**

In [284]:
np.put(a, ind=[0, 2], v=[-44, -55])
a

array([-44.,  25., -55.,  50.,   9.,  26.,   2.,  20.,  28.,  47.])

**2. Выделение массива по условию**

In [285]:
# замена элементов массива по условию: a if a < 0 else 0
np.where(a < 0, a, 0)

array([-44.,   0., -55.,   0.,   0.,   0.,   0.,   0.,   0.,   0.])

In [286]:
# выбор элементов по условию
a[np.where(a < 0)]

array([-44., -55.])

**3. Сортировка**

In [287]:
# сортировка
np.sort(a)

array([-55., -44.,   2.,   9.,  20.,  25.,  26.,  28.,  47.,  50.])

In [288]:
# индексы сортированного списка
np.argsort(a)

array([2, 0, 6, 4, 7, 1, 5, 8, 9, 3], dtype=int64)

**4. Any и All для сложных логических условий**

`Any` возвращает True, если хотя бы один элемент `True`   
`All` возвращает True, если все эедементы `True`

In [289]:
any([True, True, False, True, False, False, False])

True

In [290]:
all([True, True, False, True, False, False, False])

False

In [291]:
# сравнение векторов
np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2])

array([ True,  True,  True, False])

In [292]:
all(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

False

In [293]:
any(np.array([1, 1, 0, 0]) == np.array([1, 1, 0, 2]))

True