## Основы работы с библиотекой `numpy`

### Знакомство с массивами

Библиотека `numpy` - сокращение от *numeric Python*.

In [39]:
# Списки
L = [1, 2, 4, 0]
E = [[1, 0, 3], [3, 6, 7], [1, 2, 3]]
D = [[1, 3, 6], ['a', 'b', 'c', 7]]

# все работает
print(L)
print(E)
print(D)
print(type(L))
print(type(D))

[1, 2, 4, 0]
[[1, 0, 3], [3, 6, 7], [1, 2, 3]]
[[1, 3, 6], ['a', 'b', 'c', 7]]
<class 'list'>
<class 'list'>


Массивы `numpy` очень похожи на списки (даже больше на вложенные списки), но элементы массива должны быть одного типа.

Достоинства массивов `numpy`
1. Обработка массивов занимает меньше времени, их хранение меньше памяти, что очень актуально в случае работы с большими объемами данных. 
2. Функции `numpy` являются векторизованными ‒ их можно применять сразу ко всему массиву поэлементно. 

Импортируем библиотеку и сократим название до `np`

In [40]:
import numpy as np

Получить массив `numpy` можно из обычного списка, используя функцию `array()`:

In [41]:
A = np.array(L)
A

array([1, 2, 4, 0])

In [42]:
L

[1, 2, 4, 0]

In [43]:
A = np.array([1, 2, 4, 0]) #Главное - не забыть квадратные скобки
A

array([1, 2, 4, 0])

In [44]:
A = np.array(1, 2, 4, 0) # error  - нет квадратных скобок

TypeError: array() takes from 1 to 2 positional arguments but 4 were given

In [45]:
L_str = [1, 2, 4, 0, 'yes', 6]
A_str = np.array(L_str)
A_str

array(['1', '2', '4', '0', 'yes', '6'], dtype='<U11')

In [46]:
type(A)

numpy.ndarray

In [47]:
A.dtype # integer - тип элементов

dtype('int32')

In [48]:
A_str.dtype

dtype('<U11')

In [49]:
A

array([1, 2, 4, 0])

In [50]:
A.ndim # Число измерений ‒ число "маленьких" массивов внутри "большого" массива 

1

"Форма" массива, о которой можно думать как о размерности матрицы ‒ кортеж, включающий число строк и столбцов. Здесь у нас всего одна строка, поэтому `numpy` считает только число элементов внутри массива.

In [51]:
A.shape # Форма, размерность матрицы ‒ кортеж, включающий число строк и столбцов 

(4,)

In [52]:
A[0] # обращаться к его элементам в квадратных скобках

1

In [53]:
A[0][0] # index error

IndexError: invalid index to scalar variable.

In [54]:
A.size # Общее число элементов в массиве (аналог `len()` для списков)

4

Разные описательные статистики:

In [55]:
A.max() # максимум

4

In [56]:
A.min() # минимум

0

In [57]:
A.mean() # среднее

1.75

О других полезных методах можно узнать, нажав *Tab* после `np.`.

In [58]:
A.tolist() # Преобразование массива `numpy` в список

[1, 2, 4, 0]

Пример про циклы

In [59]:
NPA = np.array([1]*100000000)

In [60]:
%%time
print(NPA.sum())

100000000
CPU times: total: 109 ms
Wall time: 161 ms


In [61]:
%%time
s=0
for el in NPA:
    s += el
print(s)

100000000
CPU times: total: 15.7 s
Wall time: 29 s


In [62]:
%%time
s=0
for i in range(len(NPA)):
    s += NPA[i]
print(s)

100000000
CPU times: total: 23 s
Wall time: 39.3 s


### Многомерные массивы

In [67]:
S = np.array([[8, 1, 2], [2, 8, 9]]) # Создание многомерного массива на основе вложенного списка

In [68]:
S

array([[8, 1, 2],
       [2, 8, 9]])

In [69]:
S.ndim # число измерений - два массива внутри

2

In [70]:
S.shape # две строки (два списка) и три столбца (по три элемента в списке)

(2, 3)

In [71]:
S.size # Общее число элементов в массиве (его длина)

6

Когда в массиве больше одного измерения, при различных операциях нужно указывать, по какому измерению мы движемся (по строкам или по столбцам). 

In [72]:
S

array([[8, 1, 2],
       [2, 8, 9]])

In [73]:
S.max()

9

In [74]:
S.max(axis=0) # максимальное значение по столбцам - три столбца и три максимальных значения

array([8, 8, 9])

In [75]:
S.max(axis=1) # максимальное значение по строкам - две строки и два максимальных значения

array([8, 9])

In [76]:
S.mean(axis=0)

array([5. , 4.5, 5.5])

In [77]:
S.mean(axis=1)

array([3.66666667, 6.33333333])

Для того, чтобы обратиться к элементу двумерного массива, нужно указывать два индекса: сначала индекс массива, в котором находится нужный нам элемент, а затем индекс элемента внутри этого массива:

In [78]:
S[0][0]

8

In [79]:
S[1][2]

9

Если мы оставим один индекс, мы просто получим массив с соответствующим индексом:

In [80]:
S[0]

array([8, 1, 2])

In [81]:
S[1][2] = 6 # массивы ‒ изменяемые объекты 
S

array([[8, 1, 2],
       [2, 8, 6]])

Чтобы выбрать сразу несколько элементов, как и в случае со списками, можно использовать срезы. 

In [82]:
T = np.array([[1, 3, 7], [8, 10, 1], [2, 8, 9], [1, 0, 5]])

In [83]:
T

array([[ 1,  3,  7],
       [ 8, 10,  1],
       [ 2,  8,  9],
       [ 1,  0,  5]])

In [85]:
T[:2] # массивы с индексами 0 и 1

array([[ 1,  3,  7],
       [ 8, 10,  1]])

In [86]:
T[::2] # Можно выставить шаг среза - старт, двоеточие, двоеточие, шаг

array([[1, 3, 7],
       [2, 8, 9]])

In [87]:
T[::2][1][2]

9

### Способы создания массива

**Способ 1**

Уже познакомились - можно получить массив из готового списка, воспользовавшись функцией `array()`

In [88]:
B = np.array([10.5, 45, 2.4])

In [89]:
B

array([10.5, 45. ,  2.4])

In [90]:
B[1] += 0.1
B[1] -=0.1
B[1] == 45

True

Кроме того, при создании массива из списка можно изменить его форму, используя функцию `reshape()`.

In [91]:
old = np.array([[2, 5, 6], [9, 8, 0]])
old 

array([[2, 5, 6],
       [9, 8, 0]])

In [92]:
old.shape # 2 на 3

(2, 3)

In [93]:
new = old.reshape(3, 2) # изменим на 3 на 2
new

array([[2, 5],
       [6, 9],
       [8, 0]])

In [94]:
new.shape # 3 на 2

(3, 2)

In [96]:
old.reshape(2, 2) # Несоответствующее число измерений приведет к ошибке

ValueError: cannot reshape array of size 6 into shape (2,2)

**Способ 2**

Можно создать массив на основе промежутка, созданного с помощью функции из `numpy` `arange()` (похожа на `range()`, только более гибкая).

In [97]:
np.arange(2, 9) # по умолчанию - как обычный range()

array([2, 3, 4, 5, 6, 7, 8])

In [98]:
np.arange(2, 9, 3) # с шагом 3

array([2, 5, 8])

In [99]:
np.arange(2, 9, 0.1) # с дробным шагом 

array([2. , 2.1, 2.2, 2.3, 2.4, 2.5, 2.6, 2.7, 2.8, 2.9, 3. , 3.1, 3.2,
       3.3, 3.4, 3.5, 3.6, 3.7, 3.8, 3.9, 4. , 4.1, 4.2, 4.3, 4.4, 4.5,
       4.6, 4.7, 4.8, 4.9, 5. , 5.1, 5.2, 5.3, 5.4, 5.5, 5.6, 5.7, 5.8,
       5.9, 6. , 6.1, 6.2, 6.3, 6.4, 6.5, 6.6, 6.7, 6.8, 6.9, 7. , 7.1,
       7.2, 7.3, 7.4, 7.5, 7.6, 7.7, 7.8, 7.9, 8. , 8.1, 8.2, 8.3, 8.4,
       8.5, 8.6, 8.7, 8.8, 8.9])

Можно совместить `arange()` и `reshape()` для создания массива нужного вида

In [100]:
np.arange(2, 11, 0.5).reshape(3, 6)

array([[ 2. ,  2.5,  3. ,  3.5,  4. ,  4.5],
       [ 5. ,  5.5,  6. ,  6.5,  7. ,  7.5],
       [ 8. ,  8.5,  9. ,  9.5, 10. , 10.5]])

**Способ 3**

Массив можно создать с нуля, если знать его размерность. Библиотека `numpy` позволяет создать массивы, состоящие из нулей или единиц, а также "пустые" массивы (не совсем пустые). 

In [101]:
Z = np.zeros((3, 3)) # размеры в виде кортежа - не теряйте еще одни круглые скобки
Z

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

In [102]:
Z1 = np.zeros(3, 3) # ошибка - забыли скобки
Z1

TypeError: Cannot interpret '3' as a data type

In [103]:
O = np.ones((4, 2)) # массив из единиц
O

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

Пустой (*empty*) массив имеет особенности

In [104]:
Emp = np.empty((3, 2))
Emp

array([[3.02907771e-152, 7.34173657e+223],
       [5.02064272e+276, 1.08444196e+155],
       [6.16830600e-114, 1.09918035e+155]])

In [105]:
0-Emp[0][0]

-3.029077711695632e-152

Массив *Emp* ‒ не совсем пустой, в нем содержатся какие-то (псевдо)случайные элементы, которые примерно равны 0. Теоретически создавать массив таким образом можно, но не рекомендуется: лучше создать массив из "чистых" нулей, чем из какого-то непонятного "мусора".

**Задание:** Дан массив `ages` (см. ниже). Напишите программу с циклом, которая позволит получить массив `ages_bin` такой же размерности, что и `ages`, состоящий из 0 и 1 (0 - младше 18, 1 - не младше 18).

*Подсказка:* используйте вложенный цикл.

In [106]:
ages = np.array([[12, 16, 17, 18, 14], [20, 22, 18, 17, 23], [32, 16, 44, 16, 23]])

In [107]:
ages

array([[12, 16, 17, 18, 14],
       [20, 22, 18, 17, 23],
       [32, 16, 44, 16, 23]])

*Решение:*

In [108]:
shape = ages.shape
ages_bin = np.zeros(shape)
print(ages_bin)

for i in range(0, shape[0]):
    for j in range(shape[1]):
        if ages[i][j] >= 18:
            ages_bin[i][j] = 1
print(ages_bin)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]
[[0. 0. 0. 1. 0.]
 [1. 1. 1. 0. 1.]
 [1. 0. 1. 0. 1.]]


### Поэлементная обработка массивов `numpy`

Операции с массивами можно производить поэлементно, не используя циклы или их аналоги.

In [109]:
A

array([1, 2, 4, 0])

Возведем все его элементы в квадрат

In [110]:
A = A ** 2
A

array([ 1,  4, 16,  0])

Вычтем из всех элементов единицу

In [111]:
A = A - 1
print(A)

[ 0  3 15 -1]


Кроме того, так же просто к элементам массива можно применять свои функции. Напишем функцию, которая будет добавлять к элементу 1, а затем считать от него натуральный логарифм.

In [112]:
np.log(np.e)

1.0

In [113]:
def my_log(x):
    return np.log(x + 1)

In [114]:
A = [float(x) for x in A]

In [115]:
A = np.array(A)

In [116]:
A

array([ 0.,  3., 15., -1.])

In [117]:
A[3]=np.e-1

In [118]:
A

array([ 0.        ,  3.        , 15.        ,  1.71828183])

Применим:

In [119]:
my_log(A)

array([0.        , 1.38629436, 2.77258872, 1.        ])

При этом нет никаких циклов! 

Превратить многомерный массив в одномерный (как список) можно, воспользовавшись методами `flatten()` (и `ravel()`).

In [120]:
my = np.array([[1, 2, 3], [4, 5, 6]])
print(my)
print(my.flatten()) # "плоский" массив
print(my)

[[1 2 3]
 [4 5 6]]
[1 2 3 4 5 6]
[[1 2 3]
 [4 5 6]]


In [121]:
print(my.ravel()) # "плоский" массив
print(my)

[1 2 3 4 5 6]
[[1 2 3]
 [4 5 6]]


### Еще достоинства `numpy`

1.Позволяет производить вычисления ‒ нет необходимости дополнительно загружать модуль `math`.

In [122]:
np.log(3) # натуральный логарифм

1.0986122886681098

In [123]:
np.sqrt(7) # квадратный корень

2.6457513110645907

In [124]:
np.exp(2) # e^2

7.38905609893065

2.Позволяет производить операции с векторами и матрицами. Пусть у нас есть два вектора `a` и `b`. 

In [125]:
a = np.array([1, 2, 3])
b = np.array([0, 4, 7])

Если мы просто умножим `a`  на `b` с помощью символа `*`, мы получим массив, содержащий произведения соответствующих элементов `a` и `b`:

In [126]:
a * b

array([ 0,  8, 21])

А если мы воспользуемся функцией `dot()`, получится [скалярное произведение](https://ru.wikipedia.org/wiki/%D0%A1%D0%BA%D0%B0%D0%BB%D1%8F%D1%80%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5) векторов (*dot product*).

In [127]:
np.dot(a, b) # результат - число

29

При желании можно получить [векторное произведение](https://ru.wikipedia.org/wiki/%D0%92%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BD%D0%BE%D0%B5_%D0%BF%D1%80%D0%BE%D0%B8%D0%B7%D0%B2%D0%B5%D0%B4%D0%B5%D0%BD%D0%B8%D0%B5) (*cross product*): 

In [128]:
np.cross(a, b) # результат- вектор

array([ 2, -7,  4])

Создадим матрицу из строки и поработаем с ней.

In [132]:
m = np.array(np.mat('2 4 3; 1 6 5; 7 1 7')) # np.mat - матрица из строки, np.array - массив из матрицы 
m

array([[2, 4, 3],
       [1, 6, 5],
       [7, 1, 7]])

In [133]:
m.T # транспонировать ее, то есть поменять местами строки и столбцы

array([[2, 1, 7],
       [4, 6, 1],
       [3, 5, 7]])

In [134]:
m.diagonal() # вывести ее диагональные элементы

array([2, 6, 7])

In [135]:
m.trace() # посчитать след матрицы ‒ сумму ее диагональных элементов

15

**Задание.** Создайте [единичную матрицу](https://ru.wikipedia.org/wiki/%D0%95%D0%B4%D0%B8%D0%BD%D0%B8%D1%87%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D0%B0) 3 на 3, создав массив из нулей, а затем заполнив ее диагональные элементы значениями 1.

*Подсказка:* функция `fill_diagonal()`.

*Решение:*

In [138]:
I = np.zeros((3, 3))
np.fill_diagonal(I, 1)
I

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Правда, для создания массива в виде единичной матрицы в `numpy` уже есть готовая функция (наряду с `zeros` и `ones`):

In [141]:
np.eye(3)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

Найдем [обратную матрицу](https://ru.wikipedia.org/wiki/%D0%9E%D0%B1%D1%80%D0%B0%D1%82%D0%BD%D0%B0%D1%8F_%D0%BC%D0%B0%D1%82%D1%80%D0%B8%D1%86%D0%B0):

In [142]:
m

array([[2, 4, 3],
       [1, 6, 5],
       [7, 1, 7]])

In [143]:
mm = np.invert(m)

In [144]:
mm

array([[-3, -5, -4],
       [-2, -7, -6],
       [-8, -2, -8]])

In [145]:
mm1 = np.invert(mm)
mm1

array([[2, 4, 3],
       [1, 6, 5],
       [7, 1, 7]])

In [146]:
np.dot(m,mm)

array([[-38, -44, -56],
       [-55, -57, -80],
       [-79, -56, -90]])

In [147]:
mmm = m.dot(mm)
mmm

array([[-38, -44, -56],
       [-55, -57, -80],
       [-79, -56, -90]])

Для других операций с матрицами (и вычислений в рамках линейной алгебры) можно использовать функции из подмодуля `linalg`. Например, так можно найти определитель матрицы:

In [148]:
m

array([[2, 4, 3],
       [1, 6, 5],
       [7, 1, 7]])

In [149]:
np.linalg.det(m) 

62.99999999999999

И собственные значения:

In [150]:
np.linalg.eigvals(m)

array([12.33303543+0.j        ,  1.33348228+1.82484424j,
        1.33348228-1.82484424j])

Полный список функций с описанием см. в [документации](https://docs.scipy.org/doc/numpy-1.13.0/reference/routines.linalg.html).

### Циклы vs векторные операции

In [151]:
import numpy as np

In [152]:
size = 1000
O = np.ones((size, size)) # массив из единиц

In [153]:
%%time
O1 = O ** 2 

CPU times: total: 0 ns
Wall time: 8.49 ms


In [154]:
O = np.ones((size, size)) # массив из единиц

In [155]:
O2 = np.zeros((size, size)) # массив из единиц

In [156]:
%%time
for i in range(size):
    for j in range(size):
        O2[i][j]=O[i][j]*O[i][j]

CPU times: total: 812 ms
Wall time: 1.6 s


In [157]:
O1==O2

array([[ True,  True,  True, ...,  True,  True,  True],
       [ True,  True,  True, ...,  True,  True,  True],
       [ True,  True,  True, ...,  True,  True,  True],
       ...,
       [ True,  True,  True, ...,  True,  True,  True],
       [ True,  True,  True, ...,  True,  True,  True],
       [ True,  True,  True, ...,  True,  True,  True]])

In [158]:
np.sum(O1==O2)

1000000

Библиотеку `numpy` часто используют с библиотекой для визуализации `matplotlib`. 