# Numpy

[NumPy](https://numpy.org/) это open-source модуль для python, который предоставляет общие математические и числовые операции.

NumPy - один из ключевых модулей в экосистеме Python, в том числе при решении задач машинного обучения и искусственного интеллекта.

NumPy является наследником Numeric и NumArray. Основан NumPy на библиотеке LAPAC, которая написана на Fortran. Когда-то numpy была частью SciPy. Да, это напоминает мыльную оперу. 

Мы подробно разбираем особенности библиотеки, так как на работе с ней основаны все остальные библиотеки, работающие с искусственным интеллектом.

Текст урока опирается на небольшой, но полезный [мануал](https://sites.engineering.ucsb.edu/~shell/che210d/numpy.pdf).

## Установка

Если вы используете Google Colab, то numpy уже установлен на виртуальном сервере и вы можете им пользоваться.

Если вы открыли собственный ноутбук, то можете воспользоваться командой установки, записанной через восклицательный знак


```
!comand
```
Так запущенная команда в среде ipy вызывает системную команду pip, которая сама установит данный модуль в вашу виртуальную среду. 

Обратите внимание, что каждый ноутбк имеет свой набор используемых библиотек и системных установок. 


In [None]:
!pip install numpy



## Подключение

Для подключения модулей в Python используется команда `import` или её вариации. В случае с numpy есть традиционная и привычная всем команда импорта с использованием алиаса (as) np

Алиас - это встроенная команда интерпретатора для сокращения команд и их последовательностей.

In [None]:
# классический вариант
import numpy

In [None]:
# традиционный вариант 
import numpy as np

При таком импорте к любым командам из модуля numpy придётся дописывать название модуля

```
numpy.comand
np.comand
```
Есть другой вариант, в котором можно использовать только команду без указания модуля. Но так как в разных модулях могут быть одинаковые функции, использовать такой вариант не рекомендуется.


In [None]:
from numpy import *

## Особые константы

Numpy реализует несколько особых значнений через контстанты. Например:

In [None]:
np.NaN
# not a number - Не число

nan

In [None]:
np.Inf
# infinity - бесконечно 

inf

## Массивы

Главная особенность и элемент, с которым необходимо работать, в numpy - это массивы. Создаются массивы разными способами, которые мы сейчас разберём. 

При этом всем элементы в array должны быть одного типа, что отличает его от классического списка (list) Python. 

In [None]:
a = np.array([1, 2, 3, 4], float)
print('Array:', a)
print('Тип: ',type(a))
# обратное преобразование
print(a.tolist())

Array: [1. 2. 3. 4.]
Тип:  <class 'numpy.ndarray'>
[1.0, 2.0, 3.0, 4.0]


In [None]:
# показыаем, что можно также работать с np.array, как и с обычным list
a = np.array([1, 2, 4, 4])

print('1: ', a[0])
print('2: ', a[1:3])
print('3: ', a[-1])
a[0] = 5
print('4: ', a[0])

1:  1
2:  [2 4]
3:  4
4:  5


### Многомерные массивы 

Большая ценность numpy в том, что можно работать и многомерными массивами. Например, любое изображение - как минимум двумерный массив. А при обучении нейронных сетей для работы с компьютерным зрением используются по сути четырёхмерные массивы.

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], int)
print('0: ', a)
print('1: ', a[0,0])
print('2: ', a[1,0])
print('3: ', a[0,1])

0:  [[1 2 3]
 [4 5 6]]
1:  1
2:  4
3:  2


In [None]:
# срезы (сленг - слайсы) с двмерным массивом
print('4: ', a[1,:])
print('5: ', a[:,2])
print('6: ', a[-1:, -2:])

4:  [4 5 6]
5:  [3 6]
6:  [[5 6]]


### Характеристики объектов numpy

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]], int)
a

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
# размеры
a.shape

(2, 3)

In [None]:
# тип данных внутри
# напоминаем, массив numpy может хранить только один тип данных
a.dtype

dtype('int64')

### Изменение размеров массива

In [None]:
a

array([[1, 2, 3],
       [4, 5, 6]])

In [None]:
a = a.reshape(3,2)

In [None]:
# обратите внимание, что в процессе изменения размера создан новый массив, а не изменён старый
a

array([[1, 2],
       [3, 4],
       [5, 6]])

In [None]:
# с помощью этой команды можно вытянуть массив в одномерную "строку"
a.flatten()

array([1, 2, 3, 4, 5, 6])

In [None]:
# обратите внимание, что в процессе изменения размера создан новый массив, а не изменён старый
a

array([[1, 2],
       [3, 4],
       [5, 6]])

### Создание по-разному заполненных массивов

In [None]:
# аналог range для массивов
print(np.arange(5))
print(np.arange(1, 6, 2))

[0 1 2 3 4]
[1 3 5]


In [None]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [None]:
np.zeros((5,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [None]:
np.identity(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [None]:
# k - номер диагонали, заполненный единицами
np.eye(5,4, k=2)

array([[0., 0., 1., 0.],
       [0., 0., 0., 1.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

### Перебор элементов массива

In [None]:
a = np.array([1, 4, 5], int)

In [None]:
# простой перебор для одномерного случая
for x in a:
   print(x)

1
4
5


In [None]:
# простой перебор для многомерного случая срабаотает плохо, он перебирает по первой размерности
a = np.array([[1, 2], [3, 4], [5, 6]], float)
for x in a:
   print(x)

[1. 2.]
[3. 4.]
[5. 6.]


In [None]:
# перебор правильным способом
for x in range(a.shape[0]):
  for y in range(a.shape[1]):
    print(a[x, y])

1.0
2.0
3.0
4.0
5.0
6.0


## Операции над массивами

### Математические операции над массивами

С массивами можно применять стандартные математические операции. Они будут работать так, как будето происходит поэлементая работа одной и той же операции. Для матричных операций есть специальные команды.

**Стандартные математические операции применимы только к массивам одинаковых размеров.**

In [None]:
a = np.arange(1, 4, 1, dtype=int)
b = np.arange(6, 9, 1, dtype=int)
print('a: ', a)
print('b: ', b)

a:  [1 2 3]
b:  [6 7 8]


In [None]:
a + b

array([ 7,  9, 11])

In [None]:
a - b

array([-5, -5, -5])

In [None]:
a * b

array([ 6, 14, 24])

In [None]:
b / a

array([6.        , 3.5       , 2.66666667])

In [None]:
a % b

array([1, 2, 3])

In [None]:
b**a

array([  6,  49, 512])

In [None]:
a // b

array([0, 0, 0])

Кроме того, поэлементно могут быть применены другие математические операции

In [None]:
# корень
np.sqrt(a)

array([1.        , 1.41421356, 1.73205081])

In [None]:
a = np.array([1.1, 1.5, 1.9], float)

In [None]:
# округление вниз
np.floor(a)

array([1., 1., 1.])

In [None]:
# округление вврех
np.ceil(a)

array([2., 2., 2.])

In [None]:
# округление по правилам математики
np.rint(a)

array([1., 2., 2.])

### Простые операции над массивами

#### Одномерные массивы

In [None]:
a = np.arange(1, 6, 1)
print(a)
print('Сумма: ', a.sum())
print('Перемножение: ', a.prod())

[1 2 3 4 5]
Сумма:  15
Перемножение:  120


In [None]:
# среднее (математическое ожидание)
a.mean()

3.0

In [None]:
# дисперсия (смещенная - это будет важно в дальнейшем)
a.var()

2.0

In [None]:
# стандартное отклонение (несмещенное - это тоже будет важно в дальнейшем)
a.std()

1.4142135623730951

In [None]:
a.min()

1

In [None]:
a.argmin()

0

In [None]:
# clip позволяет "отрезать" значения сверху и снизу
a = np.array([6, 2, 5, -1, 0, 6, 2, 5, 4], float)
a.clip(0, 5)

array([5., 2., 5., 0., 0., 5., 2., 5., 4.])

In [None]:
np.unique(a)

array([-1.,  0.,  2.,  4.,  5.,  6.])

#### Многомерные массивы
Для работы с многомерными массивами можно использовать параметр `axis`.

In [None]:
a = np.array([[5, 2], [4, 1], [3, -1]])
print(a)
print(a.mean(axis=0))
print(a.mean(axis=1))
a.mean()

[[ 5  2]
 [ 4  1]
 [ 3 -1]]
[4.         0.66666667]
[3.5 2.5 1. ]


2.3333333333333335

### Логические операции над массивами

In [None]:
a = np.array([1, 3, 0])
b = np.array([0, 3, 2])

print(a > b, type(a>b))

[ True False False] <class 'numpy.ndarray'>


In [None]:
c = a > 2
c

array([False,  True, False])

In [None]:
# проверяем, что хотя бы один элемент истинен
print(any(c))
# проверяем, что все элементы истинны
print(all(c))

True
False


Если вы хотите провести сравнение логическим И или лолгическим ИЛИ, то необходимо воспользоваться специальнымыми методами:


```
np.logical_and(_, _)
np.logical_or(_, _)
np.logical_not(_)
```



In [None]:
(a < 3) * (a > 0)

array([[False,  True],
       [False,  True],
       [False, False]])

In [None]:
np.logical_and(a > 0, a < 3)

array([ True, False, False])

С помощью `np.where` можно создать массив на основании условий. 
Синтаксис:


```
where(boolarray, truearray, falsearray)
```



In [None]:
a = np.array([1, 3, 0])
a

array([1, 3, 0])

In [None]:
np.where(a != 0, 1 / a, a)

  """Entry point for launching an IPython kernel.


array([1.        , 0.33333333, 0.        ])

Можно проверять элементы массива на наличие NaN и бесконечностей.

In [None]:
a = np.array([1, np.NaN, np.Inf], float)
a

array([ 1., nan, inf])

In [None]:
np.isnan(a)

array([False,  True, False])

In [None]:
np.isfinite(a)

array([ True, False, False])

### Выбор элементов массива по условию

Очень важной особенностью массивов является то, что элементы в них можно брать на основании других массивов. Это особенно полезно при реализации свёрточных нейронных сетей.

In [None]:
# это результат применения логической операции к многомерному массиву
a = np.array([[6, 4], [5, 9]], float)
a >= 6

array([[ True, False],
       [False,  True]])

In [None]:
# а это результат фильтрации элементов
# обратите внимание, получился одномерный массив, содержащий только элементы, удовлетворяющие условию 
a[a >= 6]

array([6., 9.])

In [None]:
a[np.logical_and(a > 5, a < 9)]

array([6.])

Обратите внимание, что если передать целочисленные значения, в качестве условий, то результат будет другой. Будут выбраные соответствующие элементы. 

In [None]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2], int)
a[b]

array([2., 2., 4., 8., 6.])

In [None]:
# Для выбора значений из многомерных массивов необходимо передать массивы, которые определяют индексы по каждому из направлений. Они должны быть, естественно, целочисленными.
a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
a[b,c]

array([ 1.,  4., 16., 16.,  4.])

## Векторная и матричная математика с использованием numpy

Векторная математика в numpy - это главная причина того, что numpy стал ключевым модулем Python среди всех представленных модулей. Векторные вычисления позволяют значительно ускорить обработку численной информации. 

Часто сравнивая Python c С++/C говорят том, что первый гораздо менее производителен. Но с учётом современных модулей верно следующее утверждение: хорошо написанная программа на Python будет производительнее, чем средняя программа на C/C++, хорошую программу на C/C++ написать крайне сложно. 

В дополнении к арифметически операциям мы рассмотрим некоторые векторные операции. Глубокое погружение в их суть требует значительных знаний математики, которые мы будем получать по мере необходимости. 

### Скалярное произведение

Для двух векторов a и b одинаковой длины скалярное произведение считается по следующей формуле:

$ a*b = \sum_{i=0}^{len(a)}  a_i*b_i $

In [None]:
# скалярное произвдение векторов, также операция свёртки в свёрточных нейронных сетях 

a = np.array([1, 2, 3], float)
b = np.array([0, 1, 1], float)
np.dot(a, b)

5.0

### Произведение матриц

Произведение матриц - это особая математическая операция, которая не эквивалентна произведени соответствующих элементов матриц. О матричном произведении целесообразно говорить в рамках соответствующих разделов математики. Тем не менее, используя numpy легко получить матричное произведение.

In [None]:
a = np.array([[0, 1], [2, 3]], float)
b = np.array([2, 3], float)
d = np.array([[1, 1, 1], [1, 1, 1], [1, 1, 1]], float)

In [None]:
np.dot(b, a)

array([ 6., 11.])

In [None]:
np.dot(a, b)

array([ 3., 13.])

In [None]:
# следите за размерностью, иначе ничего не получится
np.dot(b, d)

ValueError: ignored

### Определитель матриц

Многие математические операции, связанные с линейной алгеброй реализованы в модуле linalg внутри numpy. Мы не будем углулбляться в различные функциия модуля, рассмотрим для примера определитель. 

In [None]:
np.linalg.det(a)

-2.0

# Дополнительный материал для желающих

[Нескучный туториал по numpy](https://habr.com/ru/post/469355/)

# Задания

**Задача 1.**

Создать матрицу размером `10х10` с 0 внутри, и 1 на границах. Например для `3х3`.

```
1 1 1
1 0 1
1 1 1
```
Количество строк кода идеального решения: 2  
Кроме print()

**Задача 2.**

Создать 5x5 матрицу с 1,2,3,4 над диагональю. Все остальные элементы - 0.

Количество строк кода идеального решения: 1   
Кроме print()

**Задача 3.**

Создайте случайную матрицу и вычтите из каждой строки среднее.
Количество строк кода идеального решения (кроме создания исходной матрицы): 1   
Кроме print()

In [None]:
X = np.random.rand(5, 10)
Y = X - X.mean(axis=1)[:, None]
print(Y)

[[ 0.31062308 -0.32665093  0.1127179   0.4708276  -0.33518734  0.08911738
  -0.43756846 -0.3657041   0.47459461  0.00723028]
 [-0.37787174  0.19443115  0.31714364 -0.04829233 -0.50067171 -0.14110089
   0.3145502   0.42540029  0.13886453 -0.32245315]
 [-0.01153714 -0.18349431 -0.08840145  0.27094518 -0.41357228  0.36253928
  -0.1827849   0.37319903  0.22767178 -0.35456519]
 [ 0.27997251  0.0509572  -0.19207423 -0.10409752 -0.23654956  0.41768527
  -0.14142852 -0.11780492  0.17564643 -0.13230666]
 [ 0.13238553 -0.19378244  0.05805583 -0.49723998  0.27553957  0.40370691
  -0.23639418  0.27309086 -0.48270789  0.2673458 ]]


In [None]:
X

array([[0.81860978, 0.18133577, 0.6207046 , 0.9788143 , 0.17279936,
        0.59710408, 0.07041824, 0.1422826 , 0.98258131, 0.51521698],
       [0.13187826, 0.70418115, 0.82689364, 0.46145766, 0.00907829,
        0.36864911, 0.82430019, 0.93515029, 0.64861453, 0.18729685],
       [0.57112017, 0.399163  , 0.49425586, 0.8536025 , 0.16908504,
        0.94519659, 0.39987241, 0.95585634, 0.8103291 , 0.22809212],
       [0.6420373 , 0.41302199, 0.16999056, 0.25796727, 0.12551523,
        0.77975005, 0.22063627, 0.24425986, 0.53771122, 0.22975812],
       [0.71080527, 0.3846373 , 0.63647557, 0.08117976, 0.85395931,
        0.98212665, 0.34202556, 0.85151061, 0.09571185, 0.84576554]])

**Задача 4.**

Дан массив, поменять знак у элементов, значения которых между 3 и 8.

**Задача 4.**

Дана матрица. Отнять среднее из каждой строки в матрице.

**Задача 5.**

Дан вектор [1, 2, 3, 4, 5], построить новый вектор с тремя нулями между каждым значением.

**Задача 6.**

Дана матрица MxN. Поменять 2 любые строки в матрице.

**Задача 7.**

Дан одномерный массив. Найти наиболее частое значение в массиве.

**Задача 8.** 

Дан массив 16x16, посчитать сумму по блокам 4x4.

**Задача 9.**

Дана матрица. Найти n наибольших значений в массиве. n вводится с клавиатуры.

**Задача 9.**

Дана 10x3 матрица, найти строки из неравных значений (например [2,2,3]).

**Задача 10.**

Дан двумерный массив. Найти все различные строки.

**Задача 11.**

Даны два вектора одинакого размера. Посчитайте расстояние между векторами.

**Задача 12.**

Даны два вектора одинакового размера. Найти косинус угла между векторами.

**Задача 13.**

Вектор A содержит float числа как больше, так и меньше нуля.

Округлите их до целых и результат запишите в переменную Z. Округление должно быть "от нуля", т.е.:

- положительные числа округляем всегда вверх до целого
- отрицательные числа округляем всегда вниз до целого
- 0 остаётся 0


**Задача 14.**

Даны 2 вектора целых чисел A и B.

Найдите числа, встречающиеся в обоих векторах и составьте их по возрастанию в вектор Z.

*Если пересечений нет, то вектор Z будет пустым*.

**Задача 15.**

Дан вектр. Найти максимальный элемент в векторе среди элементов, перед которыми стоит нулевой. 

Например для:

`x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])`

Ответ:
5

Задача 16.

Дана матрица 5х3. Посчитать длинну каждого вектора в матрице (строка) и найти самый длинный ветор и вывести его координаты и длинну.

Как выглядит матрица:

```   
     | x | y | z |
     | 1 | 2 | 3 |
     | 3 | 4 | 1 |
     | ...       |
```