# Ликбез по Python Vol.2: я не придумал в этот раз кринжового каламбура из кино, но короче тут про NumPy; и про Matplotlib

## Пролог

Если вы вдруг читали первую часть, то там мы обсуждали базовые структуры языка Python. Также упомянули, что кроме базовых функций бывают ещё и <b>модули</b>, которые надо отдельно <b>импортировать</b>.

Такой модуль мы тогда упомянули один &mdash; это <b>math</b>. В этот раз отдельно уделим внимание двум очень важным модулям, содержащим функции, необходимые для анализа данных. Это <b>NumPy</b> и <b>Matplotlib</b>.

Начнём?

## NumPy

Несложно догадаться по названию, что делает этот модуль. В первую очередь, он содержит много полезных инструментов для работы с наборами <b>численных</b> данных. В нем очень удобно выполнять математические операции, а также операции с <b>контейнерами</b> благодаря собственному типу такового.

<img src='https://media.giphy.com/media/26xBI73gWquCBBCDe/giphy.gif'>

Ну что ж, раз это модуль, нужно его для начала подгрузить. Даже и не спрашиваете почему, но хорошим тоном считается импортировать его под именем <b>np</b> (помните, мы говорили про <b>as</b> в прошлый раз?)

In [None]:
import numpy as np

Операции с контейнерами я упомянул не зря. Во главе угла здесь стоит соственная структура данных &mdash; массив <b>np.array</b>. Чтобы его создать, нужно применить соответсвующую функцию к обычному <b>списку</b>

In [None]:
a = np.array([1, 2, 3, 4, 5])
b = np.array([0.1, 0.2, 0.3, 0.4, 0.5])

print("a =", a)
print("b =", b)

Теперь самое простое, что можно придумать с этими массивами &mdash; <b>арифметические операции</b> (сложение и умножение на целое число)

In [None]:
array1 = np.array([1, 2, 3])

print('array1:', array1)
print('array1 * 3:', array1 * 3)
print('array1 + 1:', array1 + 1)

Не выглядит знакомо? :)

<img src='https://media.giphy.com/media/3o7WIQ4FARJdpmUni8/giphy.gif'>

Да-да, такие же операции можно и делать и с обычным списком (list) с прошлого раза.

<b>Но!</b>

Сравните результаты с такими же операциями для списка

In [None]:
list1 = [1, 2, 3]

print("list1:", list1)
print('list1 * 3:', list1 * 3)
print('list1 + [1]:', list1 + [1])

Ничего интересного не находите?

А теперь давайте попробуем сложить два <b>numpy-массива</b> вместе, а потом умножить один на другой.

In [None]:
print("a =", a)
print("b =", b)
print("a + b =", a + b)
print("a * b =", a * b)

Теперь видно, в чём особенность работы этого массива. В нём арифметические операции производятся <b>поэлементно</b>. Вы же осознаете, как это удобно &mdash; просто сложить два набора чисел попарно, между собой, без лишних усилий? Ну ещё до кучи можно, например вспомнить операции из "режима калькулятора"

In [None]:
# вот это разность
print("a - b =", a - b)

# вот это деление
print("a / b =", a / b)

# вот это целочисленное деление
print("a // b =", a // b)

# вот это квадрат
print("a ** 2 =", a ** 2)

Теперь от арифметических операций &mdash; к логическим

<img src='https://media.giphy.com/media/2ysuPtDEKOCmbru3yV/giphy.gif'>

Когда мы хотели проверять какие-то условия на массивах (вьетнамский flashback задача про гика), нам приходилось <b>проходить циклом for</b> по всем и применять <b>условный опреатор if</b>. Теперь можно просто указать условие, а <b>NumPy</b> всё сделает за вас. Возьмём массивы <i>a</i> и <i>b</i>. Допустим, хотим проверить элементы <i>a</i> на то, больше ли они 1, а элементы <i>b</i> на то, меньше ли они 0.5. Поехали

In [None]:
print("a =", a)
print("a > 1: ", a > 1)
print("\nb =", b)
print("b < 0.5:  ", b < 0.5)

Что мы получили? Когда применили условие, получили массив из <b>True</b> и <b>False</b>. Заметьте, их столько же, сколько и элементов в тех массивах. <b>True (правда)</b> &mdash; значит условие для соответствующего элемента выполнилось. <b>False (ложь)</b> &mdash; не выполнилось.

Теперь, можно с помощью логических операций можно проверить выполнение условий для нескольких массивов одновременно.

In [None]:
print("Одновременная проверка условий:")
print("Вот это проверяет, что a > 1 И b < 0.5:  ", (a > 1) & (b < 0.5))
print("А вот это проверяет, что a > 1 ИЛИ b < 0.5:  ", (a > 1) | (b < 0.5))

В первом случаи мы взяли <b>логическое И (пересечение)</b> двух условий, во втором &mdash; <b>логическое ИЛИ (объединение)</b> двух условий. Пишутся они в питоне амперсандом <b>&</b> и вертикальной чертой <b>|</b> соответственно.

Дальше &mdash; больше. А что если мы хотим не только проверить условие на элементах, а сразу получить эти элементы? Оказывается, и такое возможно. Дело в том, что <b>numpy.array</b> поддерживает индексацию (как и список), но при этом умеет индексироваться <b>ещё и по условию</b>.

Это как? Ну вот смотрите

In [None]:
print("a =", a)
print("a > 2:", a > 2)
print("a[a > 2]:", a[a > 2])

Хотим узнать, какие элементы массива a больше 2. Получаем массив с <b>False</b> И <b>True</b>, ничего нового. А если мы подадим условие "a > 2" как индекс (через квадратные скобки), то получим в итоге <b>numpy-массив</b>, где будут только те элементы, для которых условие дало <b>True</b>. Удобно, не правда ли?

Ну и наконец, самое ценное, что <b>NumPy</b> умеет &mdash; куча математических операций, прямо как в <b>math</b>, только круче.

- <b>np.mean</b>: среднее по массиву
- <b>np.min</b>: минимальный элемент по массиву
- <b>np.argmin</b>: <b>индекс</b> минимального элемента по массиву
- <b>np.unique</b>: вывести все уникальные элементы массива

In [None]:
print("a =", a)

print("np.mean(a) =", np.mean(a))

print("np.min(a) =", np.min(a))

print("np.argmin(a) =", np.argmin(a))

print("np.unique(['male', 'male', 'female', 'female', 'male']) =", np.unique(['male', 'male', 'female', 'female', 'male']))

Ну а остальное нагуглите.

<img src ='https://i.ytimg.com/vi/HSKgyWCfoTQ/hqdefault.jpg'>

На самом деле, вот

- <b>np.max</b>: максимальный элемент по массиву
- <b>np.argmax</b>: <b>индекс</b> максимального элемента по массиву
- <b>np.sum</b>: сумма элементов массива
- <b>np.prod</b>: поэлементное произведение элементов массива
- <b>np.sin</b>, <b>np.cos</b>, <b>np.tan</b>: поэлементный синус, косинус, тангенс
- <b>np.exp</b>: поэлементная экспонента
- <b>np.log</b>: поэлементный натуральный логарифм
- <b>np.sqrt</b>: поэлементный квадратный корень


В следующие разы мы узнаем про <b>многомерные массивы</b>: для них будет очень много полезных статистических методов, поговорим об этом потом

In [None]:
print("np.max(a) =", np.max(a))

print("np.argmax(a) =", np.argmax(a))

print("np.sum(a) =", np.sum(a))

print("np.prod(a) =", np.prod(a))

print("np.sin(a) =", np.sin(a))

print("np.exp(a) =", np.exp(a))

print("np.log(a) =", np.log(a))

print("np.sqrt(a) =", np.sqrt(a))

## Matplotlib

Итак, с помощью NumPy мы поняли, как можно с помощью NumPy очень удобно обрабатывать и изменять данные. Теперь было бы очень прикольно иметь визуальное представление, с чем мы имеем дело. Можно нарисовать кучу графичков!

<img src='https://media.giphy.com/media/dUNoNFUOYV8Yw/giphy.gif'>

Тут нам поможет модуль <b>matplotlib</b>, а если конкретнее &mdash; его подраздел <b>pyplot</b>. Как и с нампаем, его почему-то принято называть <b>plt</b>.

In [None]:
import matplotlib.pyplot as plt

Еще можно использовать немного магии Jupyter Notebook и сделать вот так, чтобы графики рисовались красиво прямо в ячейке.

In [None]:
%matplotlib inline

Теперь о том, как рисовать графики: очень просто! Работает так: у нас есть 2 оси. Передаём в функцию <b>plt.plot()</b> как первый параметр координаты по первой оси, как второй координаты второй оси. Будьте внимательны: число координат первой оси должно совпадать с числом координат второй оси!

Чтобы отобразить, применяем функцию <b>plt.show()</b>.

Простейший пример: хотим нарисовать прямую, проходящую через точки: (0,0), (1,1), (2,4), (3,9), (4,16), (5,25).

Тогда нужно для начала составить массив из первых кооординат: [0,1,2,3,4,5].

Потом массив из вторых координат: [0,1,4,9,16,25].

И передаем функции <b>plot()</b> на прорисовку.

In [None]:
plt.plot([0, 1, 2, 3, 4, 5], [0, 1, 4, 9, 16, 25])
plt.show()

Если мы хотим нарисовать не прямую, проходящую через точки, а сами эти точки, то нам поможет функция <b>scatter()</b>. Работает она так же, сначала передаёте первую координату, потом вторую координату.

In [None]:
plt.scatter([0, 1, 2, 3, 4, 5], [0, 1, 4, 9, 16, 25])
plt.show()

А можно нарисовать сразу несколько линий на одном графике: просто примените <b>plot()</b> несколько раз, а потом воспользуйтесь <b>show()</b>

In [None]:
plt.plot([0, 1, 2, 3, 4, 5], [0, 1, 4, 9, 16, 25])
plt.plot([0, 1, 2, 3, 4, 5], [0, 1, 2, 3, 4, 5])
plt.show()

Линиям и точкам можно придавать желаемый цвет. Для этого нужно в plot/scatter передать дополнительный параметр <b>c</b>, присвоив ему цвет. Вот так:

In [None]:
plt.plot([0, 1, 2, 3, 4, 5], [0, 1, 4, 9, 16, 25], c='red')
plt.plot([0, 1, 2, 3, 4, 5], [0, 1, 2, 3, 4, 5], c='green')
plt.show()

Можно с помощью точек получить приближенный вид какой-то функции на графике. Допустим, я хочу нарисовать график квадратного корня. Создаю точки первой оси от 0 до 10, а дальше могу применить извлечение квадратного корня поэлементно с помощью <b>math.sqrt()</b>. Чувствуйте, как удобно! И запомню это в новую переменную. Дальше останется дело за техникой.

In [None]:
x = np.array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10])
y = np.sqrt(x)

plt.plot(x, y)
plt.show()

Еще для того, чтобы ваш график выглядел красиво и опрятно, полезно знать следующее:

- <b>plt.title()</b> - название графика
- <b>plt.xlabel()</b> - подпись на оси x
- <b>plt.ylabel()</b> - подпись на оси y
- <b>plt.grid()</b> - "сетка"
- параметр <b>label</b> функции plot/scatter - подпись для прямой/набора точек
- <b>plt.legend()</b> - "легенда" (отображает подписи для объектов)

Смотрите:

In [None]:
plt.plot(x, y, c='green', label='sqrt(x)')
plt.xlabel('x')
plt.ylabel('y')
plt.grid()
plt.legend()
plt.title('График квадратного корня от x')
plt.show()

Совсем другое дело!

Дальше мы узнаем еще много крутого про matplotlib, например, как строить гистограммы.

## Эпилог

Итак, мы ознакомились с самыми базовыми вещами из NumPy и Matplotlib.

Как всегда, не стесняйтесь задавать вопросы: @adhaesitadimo.

Спасибо большое студентам группы 163 за вопросы, советы и пожелания.

Увидимся в телеграме и на занятиях!

<img src='https://media.giphy.com/media/DAtJCG1t3im1G/giphy.gif'>