## Майнор «Интеллектуальный анализ данных»
# Семинар 2. Библиотека NumPy
##### Талгат Даулбаев

В задачах анализа данных часто используются многомерные массивы. В частности, выборка обычно имеет вид матрицы размера $N \times d$, где $N$ — количество объектов, а $d$ — признаков.

Но чистый Python довольно неудобный и слишком медленный для подобных задач. Конечно, можно представить матрицу в виде «списка списков», но даже с первого раза без ошибок сложно даже создать такой объект. Например, так делать не надо:

In [14]:
vector = [0, 0, 0, 0, 0]  # Создаём строчку
matrix = 5 * [vector]     # Создаём список из строчек
matrix

[[0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0],
 [0, 0, 0, 0, 0]]

In [15]:
matrix[0][0] = 1  # Хотим изменить один элемент 
matrix            # А получилось что-то не то...

[[1, 0, 0, 0, 0],
 [1, 0, 0, 0, 0],
 [1, 0, 0, 0, 0],
 [1, 0, 0, 0, 0],
 [1, 0, 0, 0, 0]]

Но даже если мы сможем корректно создать матрицу в виде списка списков, функции для работы с ней придётся писать самостоятельно. Они будут содержать циклы языка Python и, как следствие, медленно работать.

Поэтому естественно было придумать библиотеку для работы с многомерными массивами. Такой библиотекой стала библиотека **NumPy**.

Подключим её, а затем обсудим, как она устроена:

In [16]:
import numpy as np

Сразу оговоримся, что **не надо** подключать её так:

> from numpy import *

потому что у некоторых функций из NumPy и чистого Python`а совпадают названия.

Можно считать, что NumPy состоит из многомерных массивов (они имеют тип numpy.ndarray) и так называемых универсальных функций (например, векторное сложение +) для работы с ними. Эти универсальные функции по сути являются обёртками для вызова быстро работающих функций, написанных на языке Си.

##### Создание массивов

Создать многомерный массив можно многими способами. Например, из списка с помощью функции np.array:

In [18]:
x = np.array([1, 2, 3])
x

array([1, 2, 3])

Получился объект типа numpy.ndarray:

In [19]:
type(x)

numpy.ndarray

В отличие от чистого Python`а с динамической типизацией в NumPy типизация статическая, как в C/C++. Поэтому у каждого многомерного массива должен быть тип элементов, который обычно можно указать явно с помощью параметра dtype. К тому же, все элементы в массиве должны быть одного типа.

Здесь без явного указания массив будет состоять из целых чисел:

In [21]:
np.array([[1, 2, 3], [1, 2, 3]], dtype=float)

array([[ 1.,  2.,  3.],
       [ 1.,  2.,  3.]])

Доступна и бóльшая экзотика. Например, можно потребовать, чтобы массив состоял из 16-битных чисел с плавающей точкой. Но в курсе нам будет достаточно простых типов int, float, bool.

In [45]:
np.array([[1, 2, 3], [1, 2, 3]], dtype=np.float16)

array([[ 1.,  2.,  3.],
       [ 1.,  2.,  3.]], dtype=float16)

Ещё можно создавать массив определённого размера из нулей:

In [26]:
x = np.zeros((3, 4), dtype=int)
x

array([[0, 0, 0, 0],
       [0, 0, 0, 0],
       [0, 0, 0, 0]])

... единиц:

In [27]:
np.ones((3, 4))

array([[ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.],
       [ 1.,  1.,  1.,  1.]])

... вообще из чего угодно:

In [8]:
np.full((3, 4), 5, dtype=int)

array([[5, 5, 5, 5],
       [5, 5, 5, 5],
       [5, 5, 5, 5]])

... а память просто выделять, не инициализируя:

In [42]:
np.empty((5, 4))

array([[  6.91066985e-310,   2.06001501e-316,   6.91067084e-310,
          6.91067084e-310],
       [  6.91067083e-310,   1.95510867e-316,   6.91067082e-310,
          6.91067082e-310],
       [  1.89054180e-316,   6.91067080e-310,   6.91067085e-310,
          1.95484622e-316],
       [  1.95484859e-316,   6.91067083e-310,   6.91067085e-310,
          4.44736551e-317],
       [  6.91065246e-310,   2.04726654e-316,   2.00130499e-316,
          6.91067085e-310]])

У каждого numpy.ndarray есть поля:
* shape — «размерность» массива
* size — количество элементов

In [49]:
x = np.zeros((3, 4))
print "shape:", x.shape
print "size:", x.size

shape: (3, 4)
size: 12


Изменять «размерность» массива можно с помощью метода reshape. Для этого, конечно, произведение размерностей должно равняться количеству элементов массива.

In [51]:
x = x.reshape(2, 6)
x

array([[ 0.,  0.,  0.,  0.,  0.,  0.],
       [ 0.,  0.,  0.,  0.,  0.,  0.]])

Вместо количества элементов по одной «размерности» можно указать -1, и тогда NumPy сам посчитает это число:

In [53]:
x = x.reshape(4, -1)
x

array([[ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.],
       [ 0.,  0.,  0.]])

Ещё одна полезная функция — np.arange(...), которая по сути эквивалентна запуску np.array(range(...)).

Полученный одномерный массив удобно превращать в матрицу с помощью reshape:

In [55]:
np.arange(25).reshape(5, 5)

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

К тому же, можно генерировать матрицы из вероятностных распределений.

Вот матрица размера $3 \times 4$ из $\mathcal{N}(0, 10)$:

In [59]:
np.random.normal(0, np.sqrt(10), (3, 4))

array([[ 1.03295798, -0.86162979, -0.93614605,  2.2899297 ],
       [-5.20980358,  4.32390967, -5.52808775, -1.90843893],
       [-4.8037099 , -0.45512151, -5.76152665, -1.23345723]])

##### Векторные операции

Создадим два массива одинакового размера:

In [64]:
x = np.array([0, 1, 2, 3, 4], dtype=float)
y = np.array([1, 2, 3, 4, 5], dtype=float)
print x, "\n", y

[ 0.  1.  2.  3.  4.] 
[ 1.  2.  3.  4.  5.]


Для них есть стандартные поэлементные операции:

In [65]:
x + y

array([ 1.,  3.,  5.,  7.,  9.])

In [66]:
x * y

array([  0.,   2.,   6.,  12.,  20.])

In [68]:
x / y

array([ 0.        ,  0.5       ,  0.66666667,  0.75      ,  0.8       ])

In [69]:
x ** y

array([  0.00000000e+00,   1.00000000e+00,   8.00000000e+00,
         8.10000000e+01,   1.02400000e+03])

In [70]:
np.sin(x)

array([ 0.        ,  0.84147098,  0.90929743,  0.14112001, -0.7568025 ])

... и много другое.

##### Время работы функций

В jupyter notebook есть встроенные так называемые magic-функции. Одна из них — функция %timeit, которая запускает строчку кода несколько раз и считает время выполнения:

In [71]:
%timeit x + y

The slowest run took 60.07 times longer than the fastest. This could mean that an intermediate result is being cached 
1000000 loops, best of 3: 480 ns per loop


Создадим два больших списка и сложим их поэлементно без NumPy:

In [73]:
x_list = [np.sin(x) ** 2 for x in range(1000000)] # NumPy-функции могут работать и со скалярами
y_list = [np.cos(x) ** 2 for x in range(1000000)]

In [80]:
# Функция для сложения двух списков
def sum_list(a, b):
    res = a[:]
    for idx, elem in enumerate(b):
        res[idx] += elem
    return res

*Напоминание.* 
Функция enumerate из чистого Python`а для каждого элемента списка генерирует кортеж из его индекса и значения. Давайте посмотрим её работу на примере:

In [81]:
for pair in enumerate([5, -1, "123"]):
    print pair

(0, 5)
(1, -1)
(2, '123')


Вернёмся к NumPy и magic-функциям. Измерим время, за которое Python складывает два списка:

In [90]:
%timeit sum_list(x_list, y_list)

1 loops, best of 3: 161 ms per loop


Превратим их в NumPy-массивы и оценим время работы:

In [83]:
x_array = np.array(x_list)
y_array = np.array(y_list)

In [84]:
%timeit x_array + y_array

100 loops, best of 3: 1.59 ms per loop


1.59 милисекунды против 161 милисекунды — **ускорение** в 101 раз!

Оно достигается в том числе за счёт оптимального расположения массивов в памяти, использования функций на языке Си, статической типизации... 

##### Некоторые другие функции

Кумулятивная сумма и произведение:

In [92]:
np.cumprod(np.array([1, 2, 3, 4, 5]))

array([  1,   2,   6,  24, 120])

In [157]:
A = np.arange(25).reshape(5, 5)
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

Сумма элементов в массиве:

In [98]:
np.sum(A)

300

Сумма «по столбцу»:

In [42]:
np.sum(A, axis=0)

array([50, 55, 60, 65, 70])

Сумма «по строке»:

In [99]:
np.sum(A, axis=1)

array([ 10,  35,  60,  85, 110])

Есть аналогичные функции prod, max, min, ...

In [46]:
np.max(A)

24

In [48]:
np.max(A, axis=0)

array([20, 21, 22, 23, 24])

In [49]:
np.max(A, axis=1)

array([ 4,  9, 14, 19, 24])

Создадим ещё одну матрицу $B$. 

In [101]:
B = np.random.normal(0, 1, (5, 5))
B

array([[ 1.22918136,  0.64265048, -0.13322808, -0.21365847,  0.63612823],
       [ 0.31510621,  0.73552701,  1.04515097,  0.86786974, -0.49477076],
       [ 0.24940304,  0.04080687, -0.16942309, -1.51832466,  0.48180382],
       [-0.54020126,  0.12254384, -0.01473955,  0.40217668, -0.16727946],
       [ 1.37873208, -1.00160537,  0.84984652,  0.57331112, -0.02932695]])

In [102]:
A * B # Это лишь поэлементное произведение

array([[  0.        ,   0.64265048,  -0.26645616,  -0.6409754 ,
          2.54451292],
       [  1.57553107,   4.41316208,   7.31605676,   6.94295788,
         -4.45293687],
       [  2.49403045,   0.4488756 ,  -2.03307711, -19.73822054,
          6.74525342],
       [ -8.10301891,   1.96070144,  -0.25057232,   7.23918031,
         -3.17830967],
       [ 27.57464154, -21.0337128 ,  18.69662336,  13.18615578,
         -0.70384686]])

Обычное «матричное» произведение — это функция dot:

In [103]:
C1 = np.dot(A, B) # Можно использовать так...

In [104]:
C2 = A.dot(B) # Или так...

Поэлементное логическое сравнение:

In [106]:
C1 == C2

array([[ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]], dtype=bool)

In [112]:
A > B

array([[False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True]], dtype=bool)

* np.all — все элементы входного булевого массива True
* np.any — хотя бы один элемент входного булевого массива True

In [116]:
print np.all(C1 == C2)
print np.any(A > B)
print np.all(A > B)

True
True
False


С логическими массивами можно производить поэлементные логические операции: np.logical_not, np.logical_and, np.logical_or, np.logical_xor. Пример — чуть позже.

In [170]:
A

array([[ 0,  1,  0,  3,  0],
       [ 5,  6,  7,  8,  9],
       [ 0, 11,  0, 13,  0],
       [15, 16, 17, 18, 19],
       [ 0, 21,  0, 23,  0]])

Транспонирование:

In [118]:
A.T

array([[ 0,  5, 10, 15, 20],
       [ 1,  6, 11, 16, 21],
       [ 2,  7, 12, 17, 22],
       [ 3,  8, 13, 18, 23],
       [ 4,  9, 14, 19, 24]])

Горизонтальная и вертикальная «склейка»:

In [120]:
np.hstack((A, A, A))

array([[ 0,  1,  2,  3,  4,  0,  1,  2,  3,  4,  0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9,  5,  6,  7,  8,  9,  5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14, 10, 11, 12, 13, 14, 10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19, 15, 16, 17, 18, 19, 15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24, 20, 21, 22, 23, 24, 20, 21, 22, 23, 24]])

In [121]:
np.vstack((A, A))

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24],
       [ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

«Одномерная склейка»:

In [122]:
np.append(np.array([1, 2]), np.array([3, 4]))

array([1, 2, 3, 4])

##### Broadcasting

Нампай позволяет выполнять поэлементные операции не только с массивами одинакового размера.

Пример:

In [141]:
x = np.arange(5)
y = np.arange(7)
print x.shape, y.shape

(5,) (7,)


Создадим «фиктивные» оси. Следим за руками:

In [142]:
x = x[:, np.newaxis]
y = y[np.newaxis, :]
print x.shape, y.shape

(5, 1) (1, 7)


In [143]:
x

array([[0],
       [1],
       [2],
       [3],
       [4]])

In [144]:
y

array([[0, 1, 2, 3, 4, 5, 6]])

In [145]:
x + y

array([[ 0,  1,  2,  3,  4,  5,  6],
       [ 1,  2,  3,  4,  5,  6,  7],
       [ 2,  3,  4,  5,  6,  7,  8],
       [ 3,  4,  5,  6,  7,  8,  9],
       [ 4,  5,  6,  7,  8,  9, 10]])

Такое поведение называется broadcasting. Почитать о нём лучше в официальной документации: http://docs.scipy.org/doc/numpy/user/basics.broadcasting.html

##### Индексация

In [158]:
A

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [159]:
A[3, 4] # (3, 4)-ый элемент матрицы, нумерация с нуля:

19

Как в обычном Python`е, есть слайсинги. Каждая вторая строчка:

In [162]:
A[::2, :]

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24]])

И строчка, и столбец:

In [164]:
A[::2, ::2]

array([[ 0,  2,  4],
       [10, 12, 14],
       [20, 22, 24]])

При слайсинге не создаётся новый объект, а возвращается ссылка на исходный объект, поэтому становится очень удобно изменять массивы:

In [165]:
A # Исходный массив

array([[ 0,  1,  2,  3,  4],
       [ 5,  6,  7,  8,  9],
       [10, 11, 12, 13, 14],
       [15, 16, 17, 18, 19],
       [20, 21, 22, 23, 24]])

In [166]:
A[::2, ::2] = 0 # Обнулим некоторые его элементы
A

array([[ 0,  1,  0,  3,  0],
       [ 5,  6,  7,  8,  9],
       [ 0, 11,  0, 13,  0],
       [15, 16, 17, 18, 19],
       [ 0, 21,  0, 23,  0]])

Кроме слайсингов, индексировать можно булевыми массивами. Размерности должны совпадать:

In [168]:
A > 10

array([[False, False, False, False, False],
       [False, False, False, False, False],
       [False,  True, False,  True, False],
       [ True,  True,  True,  True,  True],
       [False,  True, False,  True, False]], dtype=bool)

In [169]:
A[A > 10]

array([11, 13, 15, 16, 17, 18, 19, 21, 23])

Такая конструкция выдаёт одномерный массив, содержащий все элементы, для которых значение переданного булева массива True. 

Так можно получить все элементы, которые больше 5 и меньше 10:

In [171]:
A[np.logical_and(A > 5, A < 10)]

array([6, 7, 8, 9])

Кроме того, возможна такая индексация:

In [175]:
A[([2, 2], [1, 3])] # Массив из A[2, 2] и A[1, 3]

array([11, 13])

Такую индексацию возвращает функция where:

In [176]:
np.where(A > 10)

(array([2, 2, 3, 3, 3, 3, 3, 4, 4]), array([1, 3, 0, 1, 2, 3, 4, 1, 3]))

В одномерном случае придётся взять [0] от кортежа из одного списка:

In [180]:
print np.where(np.arange(5) > 2)
print np.where(np.arange(5) > 2)[0]

(array([3, 4]),)
[3 4]


Про индексацию лучше всего почитать официальную документацию:
http://docs.scipy.org/doc/numpy/user/basics.indexing.html

Ещё одна важная функция np.count_nonzero — подсчёт ненулевых элементов:

In [181]:
np.count_nonzero(A > 10)

9

##### Линейная алгебра

А ещё есть более обширная библиотека SciPy, использующая NumPy, как кирпичики. Например, в SciPy есть базовые операции линейной алгебры:

In [188]:
from scipy import linalg

In [189]:
linalg.det(A)

0.0

In [190]:
linalg.inv(8 * np.eye(5))

array([[ 0.125,  0.   ,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.125,  0.   ,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.125,  0.   ,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.125,  0.   ],
       [ 0.   ,  0.   ,  0.   ,  0.   ,  0.125]])

##### Заключение:

В NumPy есть очень много функций, и про все рассказать просто невозможно.

Лучший способ его изучения — решение задач с параллельным поиском нужных функций и чтением [документации](http://docs.scipy.org/doc/numpy/user/basics.html).