# Information Technologies. Notebook 10

by Alex Filozop

## Библиотека numpy: эффективные массивы

Писать программы на Python легко и приятно. Гораздо легче и приятнее, чем на низкоуровневых языках программирования, таких как C или C++. Но, увы, чудес не бывает: за простоту написания кода мы платим скоростью его исполнения.

In [1]:
numbers = [1.2] * 10000
numbers[:10]

[1.2, 1.2, 1.2, 1.2, 1.2, 1.2, 1.2, 1.2, 1.2, 1.2]

Для проверки, с какой скоростью выполняется некоторый фрагмент кода, полезно использовать магическое слово `%%timeit`. Оно говорит, что ячейку нужно выполнить несколько раз и засечь, сколько времени на это ушло.

In [2]:
%%timeit
squares = [x**2 for x in numbers]

864 µs ± 122 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


Больше миллисекунды на один проход! (Кстати, `x*x` будет в два раза быстрее — попробуйте!) Не очень-то быстро, на самом деле. Для «тяжелой» математики, часто возникающей при обработке больших массивов данных, хочется использовать все возможности компьютера.

Но не надо отчаиваться: для быстрой работы с числами есть специальные библиотеки, и главная из
них — numpy.

In [3]:
import numpy as np

Главный объект, с которым мы будем работать — это `np.array` (на самом деле он называется `np.ndarray`):

In [4]:
np_numbers = np.array(numbers)

In [5]:
np_numbers

array([1.2, 1.2, 1.2, ..., 1.2, 1.2, 1.2])

`np.array` — это специальный тип данных, похожий на список, но содержащий данные только одного типа (в данном случае — только вещественные числа).

In [6]:
np_numbers[3]

1.2

In [7]:
len(np_numbers)

10000

С математической точки зрения, `np.array` — это что-то, похожее на вектор. Но практически все операции выполняются поэлементно. Например, возведение в квадрат каждого элемента можнореализовать как `np_numbers**2`.

In [8]:
np_squares = np_numbers**2
np_squares

array([1.44, 1.44, 1.44, ..., 1.44, 1.44, 1.44])

Посмотрим, как быстро работает эта операция:

In [9]:
%%timeit
np_squares = np_numbers**2

2.49 µs ± 7.47 ns per loop (mean ± std. dev. of 7 runs, 100,000 loops each)


Здесь 5 микросекунд, в 200 раз быстрее! Правда, нас предупреждают, что это может быть последствия кеширования — но в любом случае, работа с массивами чисел с помощью `numpy` происходит гораздо быстрее, чем с помощью обычных списков и циклов.

Давайте посмотрим на `np.array` более подробно.

## Массивы похожи на списки.

In [10]:
from numpy import array

In [11]:
q = array([4, 5, 8, 9])

Будем дальше называть np.array массивами (в отличие от списков, которые мы так в Python не называем). Итак, можно обращаться к элементам массива по индексам, как и к спискам.

In [12]:
q[0]

4

И менять их тоже можно.

In [13]:
q[0] = 12
q

array([12,  5,  8,  9])

Можно итерировать элементы списка, хотя этого следует по возможности избегать — массивы numpy нужны как раз для того, чтобы не использовать циклы для выполнения массовых операций. Ниже будет понятно, как это можно делать.

In [14]:
for x in q:
    print(x)

12
5
8
9


Можно делать срезы (но с ними тоже есть хитрости, об этом ниже).

In [15]:
q[1:3]

array([5, 8])

Давайте заведём ещё один массив.

In [16]:
w = array([2, 3, 6, 10])

Все арифметические операции над массивами выполняются поэлементно. Поэтому `+` означает сложение, а не конкатенацию. В отличие от обычных списков.

In [17]:
q + w

array([14,  8, 14, 19])

Если вы хотели сделать конкатенацию, то нужно использовать не оператор сложения, а специальную функцию.

In [18]:
np.concatenate( [q, w] )

array([12,  5,  8,  9,  2,  3,  6, 10])

Аналогично сложению работают и другие операции. Например, умножение:

In [19]:
q * w

array([24, 15, 48, 90])

Если у массивов будет разная длина, то ничего не получится:

In [20]:
q = np.array([14, 8, 14, 9])
w = np.array([1, 3, 4])
q + w

ValueError: operands could not be broadcast together with shapes (4,) (3,) 

Можно применять различные математические операции к массивам.

In [21]:
x = array([1,2,3,4,5])
y = array([4, 5, 6, 2, 1])

In [22]:
np.exp(x)

array([  2.71828183,   7.3890561 ,  20.08553692,  54.59815003,
       148.4131591 ])

Заметим, что мы должны были использовать функцию exp из `numpy`, а не из обычного `math`. Если бы мы взяли эту функцию из `math`, ничего бы не сработало.

In [23]:
import math

In [24]:
math.sqrt(x)

TypeError: only size-1 arrays can be converted to Python scalars

Вообще в numpy много математических функций. Вот, например, квадратный корень:

In [25]:
np.sqrt(x)

array([1.        , 1.41421356, 1.73205081, 2.        , 2.23606798])

## Типы элементов в массивах

Вообще, в массивах могут храниться не только числа.

In [26]:
mixed_array = np.array([1, 2, 3, "Hello"])

Однако, все элементы, лежащие в одном массиве, должны быть одного типа.

In [27]:
mixed_array

array(['1', '2', '3', 'Hello'], dtype='<U21')

Здесь видно, что числа 1 , 2 , 3 превратились в строчки '1' , '2' , '3' . Параметр dtype содержит информацию о типе объектов, хранящихся в массиве. U21 означает юникодную строку длиной максимум 21 байт. При попытке записать более длинную строку она будет обрезана.

In [28]:
mixed_array[0] = 'Hello, World, This is a Test'
mixed_array[0]

'Hello, World, This is'

Вообще numpy при создании массива старается не терять информацию и выбирает самый «вместительный» тип.

In [29]:
np.array([1,2,3])

array([1, 2, 3])

In [30]:
array([1,2,3, 5.])

array([1., 2., 3., 5.])

Все числа превратились в вещественные, поскольку в исходном списке, из которого делается массив, есть вещественное число.

## Срезы

Давайте посмотрим внимательно на срезы.

In [31]:
x = array([1.1, 2.2, 3.3, 4.4, 5.5])

In [32]:
s = x[1:3]

In [33]:
s

array([2.2, 3.3])

Пока всё идёт как обычно: мы создали срез, начинающийся с элемента с индексом 1 (то есть второй элемент, нумерация с нуля) и заканчивающийся элементом с индексом 3 (последний элемент всегда не включается).

Теперь попробуем изменить значение элемента в срезе:

In [34]:
s[0] = 100

In [35]:
s

array([100. ,   3.3])

Как вы думаете, что произойдёт с исходным массивом `x`?

In [36]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

Он тоже изменился! Раньше мы видели подобную штуку в ситуациях, когда один список имел несколько имён (то есть несколько переменных на него ссылались), но создание среза раньше приводило к копированию информации. Оказывается, в numpy создание среза ничего не копирует: срез — это не новый массив, содержащий те же элементы, что старый, а так называемый view (вид), то есть своего рода интерфейс к старому массиву. Грубо говоря, наш срез s просто помнит, что «его» элемент с индексом 0 — это на самом деле элемент с индексом 1 от исходного массива x , а его элемент с индексом 1 — это на самом деле элемент с индексом 2 от исходного массива, а других элементов у него нет. Можно думать про срез как про такие специальные очки, через которые мы смотрим на исходный массив.

Преимущество и этого подхода два: во-первых, непосвященные сломают голову, пытаясь понять, что тут происходит, а во-вторых если у нас есть огромный массив данных, то нам не придётся тратить ресурсы на то, чтобы его скопировать, если нам нужно сделать срез. Недостатки тоже есть, но они являются продолжением первого из преимуществ.Если вам всё-таки нужно сделать копию массива, нужно использовать метод `copy()`.

In [37]:
y = x.copy()

In [38]:
y

array([  1.1, 100. ,   3.3,   4.4,   5.5])

In [39]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

In [40]:
y[0] = 12

In [41]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

In [42]:
y

array([ 12. , 100. ,   3.3,   4.4,   5.5])

In [43]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

## Продвинутая индексация

Помимо коварных срезов есть ещё некоторые возможности создания новых массивов из старых. Например, можно выбрать из массива элементы с нужными номерами вот так:

In [44]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

In [45]:
y = x[ [1, 3, 4] ]

In [46]:
y

array([100. ,   4.4,   5.5])

Можно даже использовать одинаковые номера.

In [47]:
y = x[ [1, 1, 1] ]

In [48]:
y

array([100., 100., 100.])

Кстати, создаваемый таким образом объект уже является честной копией исходного, а не каким-
нибудь коварным видом.

In [49]:
y[0] = 123

In [50]:
y

array([123., 100., 100.])

In [51]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

In [52]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

Есть ещё один хитрый способ выбора элементов из массива. Допустим, мы хотим выбрать только те элементы, которые обладают каким-то свойством — скажем, меньше 50. Можно было бы использовать цикл с условием или аналогичный ему list comprehension, но в numpy используют другой синтаксис.

In [53]:
y = x[ x < 50 ]

In [54]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

In [55]:
y

array([1.1, 3.3, 4.4, 5.5])

Как он работает? Очень просто. (Ну ок, не очень.) Для начала, что такое x < 50 ? Это результат применения операции «сравнение с 50» к каждому элементу массива. То есть это новый массив.

In [56]:
x < 50

array([ True, False,  True,  True,  True])

Если в каком-то месте стоит `True` , то это означает, что на соответствующем месте в `x` стоит элемент, который удовлетворяет условию, а если `False`, то не удовлетворяет.

Теперь можно попробовать подставить массив из `True` и `False` в качестве индекса в `x`.

In [57]:
x[ array([True, True, False, False, True]) ]

array([  1.1, 100. ,   5.5])

Эта штука выбирает ровно те элементы, на чьих местах стоит True — то есть ровно те, для которых выполнялось условие. То, что нам нужно!

А вот так можно проверить несколько условий одновременно:

In [58]:
x[ (x < 50) & (x > 2) ]

array([3.3, 4.4, 5.5])

Скобочки очень важны, иначе ничего не заработает. Операция & соответствует логическому И опять же выполняется поэлементно.

In [59]:
(x < 50) & (x > 2)

array([False, False,  True,  True,  True])

Для логического ИЛИ мы бы исползовали `|`, а для отрицания `~`.

In [60]:
(x < 50) | (x > 2)

array([ True,  True,  True,  True,  True])

In [61]:
~ (x < 50)

array([False,  True, False, False, False])

Результатом такого выбора снова является вид, и это очень удобно, потому что позволяет заменять одни элементы на другие в зависимости от условий и таким образом избавляться от операторов `if`.

In [62]:
x

array([  1.1, 100. ,   3.3,   4.4,   5.5])

In [63]:
x[ x>50 ] = 0

In [64]:
x

array([1.1, 0. , 3.3, 4.4, 5.5])

Кстати, чтобы узнать, правда ли, что два массива равны (в том числе, что состоят из одних и тех же элементов, находящихся в одном и том же порядке), теперь нельзя использовать == — ведь это тоже поэлементная операция!

In [65]:
np.array([1, 2, 3]) == np.array([1, 2, 3])

array([ True,  True,  True])

Чтобы понять, правда ли, что массивы равны, можно использовать такой синтаксис:

In [66]:
(np.array([1, 2, 3]) == np.array([1,2,3])).all()

True

Здесь мы сначала сравниваем массивы поэлементно, а потом применяем к результату метод `all()`, возвращающий истину только если все элементы являются истиными. Этот подход часто используется, хотя имеет свои подводные камни.

In [67]:
np.array_equal(np.array([1, 2, 3]), np.array([1, 2, 3]))

True

## Построение графиков в matplotlib

В Python существует много способов строить графики. Мы сейчас рассмотрим самый простой из них, а позже поговорим про более сложные. Для этого нам потребуется библиотека matplotlib , а точнее её часть под названием pyplot . Стандартный способ её импорта выглядит вот так:

In [68]:
import matplotlib.pyplot as plt

ModuleNotFoundError: No module named 'matplotlib'

Чтобы графики рисовались прямо в ноутбуке, нужно дать вот такую магическую команду:

In [69]:
%matplotlib inline

ModuleNotFoundError: No module named 'matplotlib'

Простейшее рисование — это функция plot , она принимает на вход список -координат, список
-координат и рисует соответствующую картинку либо в виде ломаной:

In [None]:
plt.plot([1, 2, 3, 4], [1, 4, 9, 16])

либо в виде отдельный точек:

In [None]:
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], 'o')

Либо ещё кучей способов.

In [None]:
plt.plot([1, 2, 3, 4], [1, 4, 9, 16], '-o')

Посмотрим, как numpy работает в связке с `matplotlib.pyplot`. Вообще это всё очень похое на `MATLAB`.

In [None]:
x = np.linspace(-5, 5, 200)

In [None]:
len(x)

In [None]:
x[:10]

Вот так можно нарисовать параболу:

In [None]:
plt.plot(x, x**2)

Действительно, `x**2` — это массив, элементами которого являются квадраты чисел, лежащих в `x`. Значит, построив график, состоящий из точек, - координаты которых записаны в x , а - координаты `x` с `x**2`, мы построим график функции $ y = x^2 $.

А вот, например, синусоида:

In [None]:
plt.plot(x, np.sin(x))

А вот что-то посложнее:

In [None]:
plt.plot(x, np.sin(x**2))

Вот так можно построить несколько графиков и сделать подписи.

In [None]:
x = np.linspace(-1,1,201)
plt.plot(x,x**2, label = '$y = x^2$')
plt.plot(x,x**3, label = '$y = x^3$')
plt.legend(loc='best')

Знак $ в label используется для того, чтобы записывать формулы — это делается в LaTeX (https://en.wikibooks.org/wiki/LaTeX/Mathematics)-нотации и долларами там обозначается начало и конец формулы. (Кстати, в IPython Notebook в ячейках типа Markdown тоже можно записывать формулы в LaTeX-нотации.)

Конечно, мы могли бы получить `x` и `y` не в результате вычисления значений какой-то функции, а откуда-то извне. Возьмём для примера случайные числа.

In [None]:
x = np.random.random(100)

In [None]:
y = np.random.random(100)
plt.plot(x,y, 'o')

Есть и специализированная функция для создания `scatter plot`.

In [None]:
plt.scatter(x,y)

Ещё можно построить гистограмму.

In [None]:
plt.hist(x)

Можно строить трёхмерные картинки, но тут уже нужна магия и я не буду вдаваться в детали.

In [None]:
import matplotlib.pyplot as plt
from mpl_toolkits.mplot3d import Axes3D
fig = plt.figure()

In [None]:
%matplotlib inline

In [None]:
x,y = np.mgrid[-1:1:0.01, -1:1:0.01]
ax = fig.add_subplot(111, projection='3d')
ax.plot_surface(x,y,x**2+y**2)
fig

Наконец, можно строить интерактивные картинки!

In [None]:
from ipywidgets import interact, interactive, fixed
import ipywidgets as widgets
import numpy as np
import matplotlib.pyplot as plt

In [None]:
%matplotlib inline

In [None]:
def plot_pic(a, b):
    x = np.linspace(-3,3,200)
    plt.plot(x, np.sin(x*a+b))

In [None]:
interact(plot_pic, a=[0, 3, 0.1], b=[0, 3, 0.1])

Функция `interact` создаёт несколько бегунков и позволяет с их помощью задавать параметры у функции (в данном случае `plot_pic`), которая строит график.

Ещё `interact` можно вызывать так:

In [None]:
@interact(a=[0, 3, 0.1], b=[0, 3, 0.1])
def plot_pic(a, b):
    x = np.linspace(-3,3,200)
    plt.plot(x, np.sin(x*a+b))