# Numpy

[NumPy](https://numpy.org/) это open-source модуль для python, который предоставляет общие математические и числовые операции.

NumPy - один из ключевых модулей в экосистеме Python, в том числе при решении задач машинного обучения и искусственного интеллекта.

NumPy является наследником Numeric и NumArray. Основан NumPy на библиотеке LAPAC, которая написана на Fortran. Когда-то numpy была частью SciPy. Да, это напоминает мыльную оперу. 

Мы подробно разбираем особенности библиотеки, так как на работе с ней основаны все остальные библиотеки, работающие с искусственным интеллектом.

Текст урока опирается на небольшой, но полезный [мануал](https://sites.engineering.ucsb.edu/~shell/che210d/numpy.pdf).

## Установка

Если вы используете Google Colab, то numpy уже установлен на виртуальном сервере и вы можете им пользоваться.

Если вы открыли собственный ноутбук, то можете воспользоваться командой установки, записанной через восклицательный знак


```
!comand
```
Так запущенная команда в среде ipy вызывает системную команду pip, которая сама установит данный модуль в вашу виртуальную среду. 

Обратите внимание, что каждый ноутбк имеет свой набор используемых библиотек и системных установок. 


In [None]:
!pip install numpy



## Подключение

Для подключения модулей в Python используется команда `import` или её вариации. В случае с numpy есть традиционная и привычная всем команда импорта с использованием алиаса (as) np

Алиас - это встроенная команда интерпретатора для сокращения команд и их последовательностей.

In [1]:
# классический вариант
import numpy

In [2]:
# традиционный вариант 
import numpy as np

При таком импорте к любым командам из модуля numpy придётся дописывать название модуля

```
numpy.comand
np.comand
```
Есть другой вариант, в котором можно использовать только команду без указания модуля. Но так как в разных модулях могут быть одинаковые функции, использовать такой вариант не рекомендуется.


In [None]:
# from numpy import *

## Особые константы

Numpy реализует несколько особых значнений через контстанты. Например:

In [3]:
np.NaN
# not a number - Не число

nan

In [4]:
np.Inf
# infinity - бесконечно 

inf

## Массивы

Главная особенность и элемент, с которым необходимо работать, в numpy - это массивы. Создаются массивы разными способами, которые мы сейчас разберём. 

При этом все элементы в array должны быть одного типа, что отличает его от классического списка (list) Python. 

In [5]:
a = np.array([1, 2, 3, 4], float)
print('Array:', a)
print('Тип: ',type(a))
# обратное преобразование
print(a.tolist())

Array: [1. 2. 3. 4.]
Тип:  <class 'numpy.ndarray'>
[1.0, 2.0, 3.0, 4.0]


In [6]:
# показываем, что можно также работать с np.array, как и с обычным list

print('1: ', a[0])
print('2: ', a[1:3])
print('3: ', a[-1])
a[0] = 5
print('4: ', a[0])

1:  1.0
2:  [2. 3.]
3:  4.0
4:  5.0


### Многомерные массивы 

Большая ценность numpy в том, что можно работать и многомерными массивами. Например, любое изображение - как минимум двумерный массив. А при обучении нейронных сетей для работы с компьютерным зрением используются по сути четырёхмерные массивы.

In [8]:
a = np.array([[1, 2, 3], [4, 5, 6]], int)
print('0: \n', a)
print('1: ', a[0,0])
print('2: ', a[1,0])
print('3: ', a[0,1])

0: 
 [[1 2 3]
 [4 5 6]]
1:  1
2:  4
3:  2


In [9]:
# срезы (сленг - слайсы) с двумерным массивом
print('4: ', a[1,:])
print('5: ', a[:,2])
print('6: ', a[-1:, -2:])

4:  [4 5 6]
5:  [3 6]
6:  [[5 6]]


### Характеристики объектов numpy

In [10]:
# размеры
a.shape

(2, 3)

In [11]:
# тип данных внутри
# напоминаем, массив numpy может хранить только один тип данных
a.dtype

dtype('int32')

### Изменение размеров массива

In [17]:
a.reshape(3,2)

array([[1, 2],
       [3, 4],
       [5, 6]])

In [18]:
# обратите внимание, что в процессе изменения размера создан новый массив, а не изменён старый
a

array([[1, 2, 3],
       [4, 5, 6]])

In [19]:
# с помощью этой команды можно вытянуть массив в одномерную "строку"
a.flatten()

array([1, 2, 3, 4, 5, 6])

In [20]:
# обратите внимание, что в процессе изменения размера создан новый массив, а не изменён старый
a

array([[1, 2, 3],
       [4, 5, 6]])

### Создание по-разному заполненных массивов

In [21]:
# аналог range для массивов
print(np.arange(5))
print(np.arange(1, 6, 2))

[0 1 2 3 4]
[1 3 5]


In [22]:
np.ones((2,3))

array([[1., 1., 1.],
       [1., 1., 1.]])

In [23]:
np.zeros((5,4))

array([[0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.],
       [0., 0., 0., 0.]])

In [25]:
# диагональная единичная матрица E
np.identity(4)

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [36]:
# k - номер диагонали, заполненный единицами
# если k выйдет за матрицу получим матрицу из нулей
np.eye(5, k=3)

array([[0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0.]])

### Перебор элементов массива

In [37]:
a = np.array([1, 4, 5], int)

In [38]:
# простой перебор для одномерного случая
for x in a:
   print(x)

1
4
5


In [40]:
# простой перебор для многомерного случая сработает плохо,
# он перебирает по первой размерности
a = np.array([[1, 2], [3, 4], [5, 6]], float)

print(a)
print('*'*32)

for x in a:
    print(x)


[[1. 2.]
 [3. 4.]
 [5. 6.]]
********************************
[1. 2.]
[3. 4.]
[5. 6.]


In [42]:
# перебор правильным способом
print(a)
print('*'*32)

for x in range(a.shape[0]):
  for y in range(a.shape[1]):
    print(a[x, y])

[[1. 2.]
 [3. 4.]
 [5. 6.]]
********************************
1.0
2.0
3.0
4.0
5.0
6.0


## Операции над массивами

### Математические операции над массивами

С массивами можно применять стандартные математические операции. Они будут работать так, как будето происходит поэлементая работа одной и той же операции. Для матричных операций есть специальные команды.

**Стандартные математические операции применимы только к массивам одинаковых размеров.**

In [44]:
a = np.arange(1, 4, 1, dtype=int)
b = np.arange(6, 9, 1, dtype=int)
print('a: ', a)
print('b: ', b)

a:  [1 2 3]
b:  [6 7 8]


In [45]:
a + b

array([ 7,  9, 11])

In [46]:
a - b

array([-5, -5, -5])

In [47]:
a * b

array([ 6, 14, 24])

In [51]:
b / a

array([6.        , 3.5       , 2.66666667])

In [49]:
a % b

array([1, 2, 3], dtype=int32)

In [52]:
b**a

array([  6,  49, 512], dtype=int32)

In [53]:
a // b

array([0, 0, 0], dtype=int32)

Кроме того, поэлементно могут быть применены другие математические операции

In [54]:
# корень
np.sqrt(a)

array([1.        , 1.41421356, 1.73205081])

In [59]:
a = np.array([1.1, 1.4, 1.5, 1.9], float)

In [60]:
# округление вниз
np.floor(a)

array([1., 1., 1., 1.])

In [61]:
# округление вверх
np.ceil(a)

array([2., 2., 2., 2.])

In [62]:
# округление по правилам математики
np.rint(a)

array([1., 1., 2., 2.])

### Простые операции над массивами

#### Одномерные массивы

In [63]:
a = np.arange(1, 6, 1)
print(a)
print('Сумма: ', a.sum())
print('Перемножение: ', a.prod())

[1 2 3 4 5]
Сумма:  15
Перемножение:  120


In [64]:
# среднее (математическое ожидание)
a.mean()

3.0

In [65]:
# дисперсия (смещенная - это будет важно в дальнейшем)
a.var()

2.0

In [66]:
# стандартное отклонение (несмещенное - это тоже будет важно в дальнейшем)
a.std()

1.4142135623730951

In [67]:
a.min()

1

In [68]:
a.argmin()

0

In [69]:
# clip позволяет "отрезать" значения сверху и снизу
a = np.array([6, 2, 5, -1, 0, 6, 2, 5, 4], float)
a.clip(0, 5)

array([5., 2., 5., 0., 0., 5., 2., 5., 4.])

In [70]:
np.unique(a)

array([-1.,  0.,  2.,  4.,  5.,  6.])

#### Многомерные массивы
Для работы с многомерными массивами можно использовать параметр `axis`.

In [71]:
a = np.array([[5, 2], [4, 1], [3, -1]])
print(a)
print(a.mean(axis=0))
print(a.mean(axis=1))

[[ 5  2]
 [ 4  1]
 [ 3 -1]]
[4.         0.66666667]
[3.5 2.5 1. ]


### Логические операции над массивами

In [73]:
a = np.array([1, 3, 0])
b = np.array([0, 3, 2])

print(a > b, type(a>b))

[ True False False] <class 'numpy.ndarray'>


In [74]:
c = a > 2
c

array([False,  True, False])

In [76]:
# проверяем, что хотя бы один элемент истинен
print(any(c))
# проверяем, что все элементы истинны
print(all(c))

True
False


Если вы хотите провести сравнение логическим И или лолгическим ИЛИ, то необходимо воспользоваться специальнымыми методами:


```
np.logical_and(_, _)
np.logical_or(_, _)
np.logical_not(_)
```



In [79]:
print(a)
a < 3 and a > 0

[1 3 0]


ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

In [80]:
print(a)
np.logical_and(a > 0, a < 3)

[1 3 0]


array([ True, False, False])

С помощью `np.where` можно создать массив на основании условий. 
Синтаксис:


```
where(boolarray, truearray, falsearray)
```



In [82]:
print(a)
np.where(a != 0, 1 / a, a)

[1 3 0]


  np.where(a != 0, 1 / a, a)


array([1.        , 0.33333333, 0.        ])

Можно проверять элементы массива на наличие NaN и бесконечностей.

In [88]:
a = np.array([1, np.NaN, np.Inf], float)

In [89]:
np.isnan(a)

array([False,  True, False])

In [91]:
# конечны ли значения?
np.isfinite(a)

array([ True, False, False])

### Выбор элементов массива по условию

Очень важной особенностью массивов является то, что элементы в них можно брать на основании других массивов. Это особенно полезно при реализации свёрточных нейронных сетей.

In [93]:
# это результат применения логической операции к многомерному массиву
a = np.array([[6, 4], [5, 9]], float)
a >= 6

array([[ True, False],
       [False,  True]])

In [94]:
# а это результат фильтрации элементов
# обратите внимание, получился одномерный массив, содержащий только элементы, удовлетворяющие условию 
a[a >= 6]

array([6., 9.])

In [96]:
a[np.logical_and(a > 5, a < 9)]

array([6.])

Обратите внимание, что если передать целочисленные значения, в качестве условий, то результат будет другой. Будут выбраны соответствующие элементы. 

In [98]:
a = np.array([2, 4, 6, 8], float)
b = np.array([0, 0, 1, 3, 2, 1], int)
a[b]

array([2., 2., 4., 8., 6., 4.])

In [99]:
# Для выбора значений из многомерных массивов необходимо передать массивы,
# которые определяют индексы по каждому из направлений.
# Они должны быть, естественно, целочисленными.
a = np.array([[1, 4], [9, 16]], float)
b = np.array([0, 0, 1, 1, 0], int)
c = np.array([0, 1, 1, 1, 1], int)
a[b, c]


array([ 1.,  4., 16., 16.,  4.])

## Векторная и матричная математика с использованием numpy

Векторная математика в numpy - это главная причина того, что numpy стал ключевым модулем Python среди всех представленных модулей. Векторные вычисления позволяют значительно ускорить обработку численной информации. 

Часто сравнивая Python c С++/C говорят том, что первый гораздо менее производителен. Но с учётом современных модулей верно следующее утверждение: хорошо написанная программа на Python будет производительнее, чем средняя программа на C/C++, хорошую программу на C/C++ написать крайне сложно. 

В дополнении к арифметическим операциям мы рассмотрим некоторые векторные операции. Глубокое погружение в их суть требует значительных знаний математики, которые мы будем получать по мере необходимости. 

### Скалярное произведение

Для двух векторов a и b одинаковой длины скалярное произведение считается по следующей формуле:

$ a*b = \sum_{i=0}^{len(a)}  a_i*b_i $

In [101]:
# скалярное произведение векторов, также операция свёртки в свёрточных нейронных сетях 

a = np.array([1, 2, 3], float)
b = np.array([0, 1, 1], float)
np.dot(a, b)

5.0

### Произведение матриц

Произведение матриц - это особая математическая операция, которая не эквивалентна произведени соответствующих элементов матриц. О матричном произведении целесообразно говорить в рамках соответствующих разделов математики. Тем не менее, используя numpy легко получить матричное произведение.

In [102]:
a = np.array([[0, 1], [2, 3]], float)
b = np.array([2, 3], float)
d = np.array([[1, 1, 1], [1, 1, 1], [1, 1, 1]], float)

In [103]:
print(b.shape, a.shape)
np.dot(b, a)

(2,) (2, 2)


array([ 6., 11.])

In [104]:
print(a.shape, b.shape)
np.dot(a, b)

(2, 2) (2,)


array([ 3., 13.])

In [105]:
print(b.shape, d.shape)
# следите за размерностью, иначе ничего не получится
np.dot(b, d)

(2,) (3, 3)


ValueError: shapes (2,) and (3,3) not aligned: 2 (dim 0) != 3 (dim 0)

### Определитель матриц

Многие математические операции, связанные с линейной алгеброй реализованы в модуле linalg внутри numpy. Мы не будем углулбляться в различные функциия модуля, рассмотрим для примера определитель. 

In [106]:
np.linalg.det(a)

-2.0

# Дополнительный материал для желающих

[Несучный туториал по numpy](https://habr.com/ru/post/469355/)

# Задания

Создать матрицу размером `10х10` с 0 внутри, и 1 на границах. Например для `3х3`.

```
1 1 1
1 0 1
1 1 1
```
Количество строк кода идеального решения: 2  
Кроме print()

In [110]:
mtx = np.ones((3,3))
mtx[1,1] = 0
print(mtx)

[[1. 1. 1.]
 [1. 0. 1.]
 [1. 1. 1.]]


Создать 5x5 матрицу с 1, 2, 3, 4 над диагональю. Все остальные элементы - 0.

Количество строк кода идеального решения: 1   
Кроме print()

In [130]:
mtx = np.subtract(np.eye(5, k=1), np.arange(1,5))
print(mtx)

ValueError: operands could not be broadcast together with shapes (5,5) (4,) 

In [132]:
np.arange(1,5)

array([1, 2, 3, 4])

In [131]:
np.eye(5, k=1)

array([[0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.],
       [0., 0., 0., 0., 0.]])

In [126]:
np.arange(1,5)

array([1, 2, 3, 4])

Создайте случайную матрицу и вычтите из каждой строки среднее.
Количество строк кода идеального решения (кроме создания исходной матрицы): 1   
Кроме print()

In [116]:
X = np.random.rand(5, 10)
Y = X[] - X.mean(axis=1)

ValueError: operands could not be broadcast together with shapes (5,10) (5,) 

In [121]:
X

array([[0.55864973, 0.59269216, 0.64278403, 0.23651587, 0.41717343,
        0.57678522, 0.12840002, 0.99529339, 0.57405605, 0.77764274],
       [0.23723217, 0.31578632, 0.46425253, 0.90935849, 0.4106012 ,
        0.85675288, 0.69176275, 0.44741165, 0.55110909, 0.14067356],
       [0.86784296, 0.55501095, 0.75699851, 0.24094409, 0.49510774,
        0.65391932, 0.4801429 , 0.35935184, 0.13872237, 0.54867946],
       [0.16742635, 0.79596664, 0.41083584, 0.25654372, 0.50822125,
        0.12873175, 0.91556417, 0.51951444, 0.32506831, 0.72278184],
       [0.88196775, 0.3105944 , 0.63453944, 0.7396521 , 0.57757634,
        0.99948643, 0.13294528, 0.38586924, 0.91340023, 0.76259783]])

In [122]:
np.outer(0, X.mean(axis=1))

array([[0., 0., 0., 0., 0.]])