# Библиотека `NumPy` (часть 1)

### Урок 3.2: Примеры использования

В этом уроке мы познакомимся с библиотекой `NumPy` (сокращение от *Numeric Python*), которая часто используется в задачах, связанных с машинным обучением и построением статистических моделей.

Чтобы мы смогли на конкретных примерах увидеть, зачем эта библиотека используется, давайте её импортируем. Если вы уже устанавливали Anaconda, то библиотека `numpy` также была установлена на ваш компьютер. Проверим:

In [1]:
import numpy as np

В коде выше мы импортировали библиотеку с сокращённым названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – распространённое, можно даже сказать, общепринятое, его часто можно увидеть в документации или официальных тьюториалах.

**Для чего именно может понадобиться библиотека `NumPy`?**

Во-первых, для базовых вычислений: в `NumPy` тоже есть функции для математических операций (квадратный корень, логарифм и другие). Посмотрим на несколько примеров:

In [2]:
np.sqrt(17)  # квадратный корень 

4.123105625617661

In [3]:
np.log(4)  # натуральный логарифм

1.3862943611198906

Во-вторых, для более серьёзных вычислений, например, статистических. Найдём среднее арифметическое набора значений – в Python такой набор называется списком и записывается в квадратных скобках. Чтобы было интереснее, давайте считать, что этот список содержит заработную плату шести человек, измеренную в тысячах рублей.

In [4]:
np.mean([20, 40, 30, 450, 45, 30])  # среднее

102.5

Или медиану – значение, которое стоит ровно посередине списка, если упорядочить его значения по возрастанию (в случае чётного числа элементов будет считаться среднее арифметическое двух чисел, которые находятся посередине). 

In [5]:
np.median([20, 40, 30, 450, 45, 30])  # медиана

35.0

Почему приведённый выше пример интересен? Дело в том, что в при наличии нетипичных (слишком маленьких или слишком больших значений в наборе), среднее арифметическое плохо отражает реальное положение дел, поэтому более корректно для описания среднего значения использовать медиану. В нашем примере медианное значение 35 явно более правдиво описывает список значений, чем значение 102.5, которое получилось таким большим ровно из-за слишком высокой заработной платы одного человека.

В-третьих, главная структура данных при работе с `NumPy` – это массивы (*numpy arrays*). Массив – это очень удобная структура для хранения данных, а в чём заключается удобство, мы узнаем в следующем уроке.

In [1]:
### Урок 3.3: `Ndarray`: базовая концепция

In [2]:
import numpy as np

Ndarray – это n-мерный массив (сокращение от *n-dimensional array*), структура данных, которая позволяет хранить набор элементов одного типа: либо только целые числа, либо числа с плавающей точкой, либо строки, либо булевы (логические) значения. Массивы могут быть одномерными, то есть представлять собой простой список значений:

In [4]:
np.array([2, 3, 4])

array([2, 3, 4])

А могут быть многомерными (n-мерными), то есть представлять собой вложенный список («список списков»):

In [6]:
np.array([[5, 2, 3.5], 
          [1, 9, 6.5]])  # двумерный

array([[5. , 2. , 3.5],
       [1. , 9. , 6.5]])

Или даже «список таблиц»:

In [8]:
np.array([[[6, 3],
        [6, 8]],
      [[1, 0],
        [0, 1]]])  # трехмерный

array([[[6, 3],
        [6, 8]],

       [[1, 0],
        [0, 1]]])

Мы чаще всего будем работать с двумерными массивами. Про двумерный массив можно думать как про таблицу. Так, массив во втором примере выше можно рассматривать как таблицу, состояшую из двух строк и трёх столбцов, как таблицу $2 \times 3$ (сначала указывается число строк, затем – число столбцов). Отсюда следует важный факт: число элементов в списках внутри массива должно совпадать. Проверим на примере – возьмём списки разной длины, то есть списки, состоящие из разного числа элементов, и объединим их в массив:

In [10]:
np.array([[0, 0, 1],
         [0, 1]]) 

  np.array([[0, 0, 1],


array([list([0, 0, 1]), list([0, 1])], dtype=object)

Получилось что-то немного странное. Никакой ошибки Python не выдан, но воспринимать этот объект как полноценный массив он уже не будет: он будет считать, что в такой таблице у нас есть две строки и ноль столбцов!

Теперь давайте посмотрим, что будет, если мы попробуем объединить в массив объекты разных типов, например, целые числа и числа с плавающей точкой:

In [13]:
np.array([[5, 8.2], 
         [1.2, 1,]])

array([[5. , 8.2],
       [1.2, 1. ]])

Все элементы были автоматически приведены к одному типу (можно считать, что тип *float* «сильнее» типа *integer*). А что будет, если мы попробуем добавить в массив целые числа и строки?

In [15]:
np.array([["Ann", "Kate"],
        [23, 34]])

array([['Ann', 'Kate'],
       ['23', '34']], dtype='<U11')

Строковый тип оказался сильнее, все элементы были приведены к строковому типу (`U4` – строки не длинее 5 символов).

### Урок 3.4 `Ndarray`: операции

Чем же удобны массивы? Во-первых, они занимают меньше места и памяти. Во-вторых, с ними очень удобно работать: все операции над массивами будут производиться поэлементно: то есть, для выполнения действий над каждым элементом массива, нам не придется использовать какие-то специальные конструкции вроде циклов, мы сможем обращаться сразу ко всему массиву. Например, давайте представим, что у нас есть массив со значениями явки на выборы в долях, а мы хотим получить результаты в процентах (домноженные на 100).

In [20]:
turnout = np.array([0.62, 0.43, 0.79, 0.56])
turnout

array([0.62, 0.43, 0.79, 0.56])

Чтобы домножить каждое число в массиве на 100, нам достаточно домножить на 100 `turnout`:

In [22]:
turnout * 100  # готово!

array([62., 43., 79., 56.])

Точно так же можно производить операции с несколькими массивами. Представим теперь, что есть два студента, которые подрабатывают репетиторами по математике, и у нас есть два массива, которые содержат их ежедневный доход за рабочую неделю (пять рабочих дней):

In [24]:
week1 = np.array([4000, 0, 2000, 0, 1200]) # 5 рабочих дней
week2 = np.array([1000, 2000, 0, 0, 3500]) 

Какой день можно считать более «продуктивным» в плане дохода, если рассматривать общий доход этих студентов? Сложим два массива и посмотрим:

In [26]:
week1 + week2  # видимо, понедельник

array([5000, 2000, 2000,    0, 4700])

Мы могли бы также посчитать средний доход студентов по каждому дню:

In [28]:
(week1 + week2) / 2

array([2500., 1000., 1000.,    0., 2350.])

Со стандартными структурами данных в Python, например, со списками, так поступить не получилось бы. Для иллюстрации попробуем взять маленький список из двух чисел и возвести его элементы в квадрат:

In [134]:
[2, 3] ** 2 

TypeError: unsupported operand type(s) for ** or pow(): 'list' and 'int'

Ничего не получилось, и это ожидаемо: при работе с обычными списками пришлось бы использовать циклы или списковые включения (*list comprehensions*), чтобы обращаться к каждому элементу по отдельности и производить с ним операции. Как легко догадаться, даже если вы незнакомы с этими конструкциями, такой подход менее удобен и занимает больше времени. Поэтому при работе с данными, в частности, в машинном обучении, чаще используют массивы `NumPy`. Сравните:

In [32]:
np.array([2, 3]) ** 2 

array([4, 9], dtype=int32)

И в следующем уроке мы поговорим об операциях над массивами более подробно.

### Урок 3.4 Базовые операции над массивами
### Характеристики массива

Итак, для начала познакомимся с характеристиками самого массива. Создадим массив `m` и будем с ним работать. Для того, чтобы массив `m` не казался чем-то абстрактным, давайте считать, что он содержит данные по трём парам шахматистов, которым предстоит сыграть партию друг с другом, а именно, их места в турнирной таблице.

In [36]:
m = np.array([[2, 5], 
              [6, 8], 
              [1, 3]])
m

array([[2, 5],
       [6, 8],
       [1, 3]])

В предыдущем уроке мы обсуждали, что массивы бывают многомерными, значит, у массива есть число измерений. Давайте его найдём:

In [38]:
m.ndim

2

Действительно, всего два измерения: чтобы указать на число 5 из этого массива, нам понадобятся всего две координаты – номер строки и номер столбца. Теперь посмотрим на форму или вид массива (*shape*):

In [40]:
m.shape  # 3 строки и 2 столбца, т.е. 3 списка по 2 элемента

(3, 2)

А как узнать общее число элементов в массиве? Очень просто – запросить его длину или размер (*size*):

In [42]:
m.size  # всего 6 элементов

6

### Обращение к элементам массива

Продолжим работать с нашим массивом `m` и попробуем поработать с его элементами.

In [45]:
import numpy as np
m = np.array([[2, 5], 
              [6, 8], 
              [1, 3]])

In [46]:
m

array([[2, 5],
       [6, 8],
       [1, 3]])

Попробуем узнать, какое место в турнирной таблице занимает первый шахматист во второй паре, то есть обратиться к числу 8. Нас интересует список с индексом 1 (в Python нумерация начинается с нуля), а в нем – элемент с индексом 0. 


In [48]:
m[1][0] 

6

In [49]:
m[1, 0]  # или так 

6

А если обратимся к элементу с несуществующим индексом, то, конечно, получим ошибку:

In [51]:
m[2][3]

IndexError: index 3 is out of bounds for axis 0 with size 2

Можем вывести на экран места шахматистов в последней паре:

In [53]:
m[2] # элемент с индексом 2 - третий список в массиве

array([1, 3])

Ещё можно выбирать сразу несколько элементов массива. Для этого воспользуемся так называемыми срезами (*slices*):

In [55]:
m[0:2]  # с элемента с индексом 0 до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Обратите внимание: правый конец среза не включается.

Концы среза можно опускать, если нас интересуют все элементы, начиная с некоторого элемента и до конца массива или начиная с первого элемента массива и до некоторого элемента (правый конец точно так же включаться не будет):

In [58]:
m[1:] # с элемента с индексом 1 до конца

array([[6, 8],
       [1, 3]])

In [59]:
m[:2] # с начала массива до элемента с индексом 1 включительно

array([[2, 5],
       [6, 8]])

Еще можно взять полный срез – выбрать все элементы массива:

In [61]:
m[:] 

array([[2, 5],
       [6, 8],
       [1, 3]])

Кроме того, при выборе элементов можно выставлять шаг. По умолчанию мы выбираем все элементы подряд, шаг равен 1, но это можно изменить:

In [63]:
m[0:3:2]  # с нулевого по третий через 2

array([[2, 5],
       [1, 3]])

Концы среза по-прежнему можно опускать:

In [65]:
m[0::2]

array([[2, 5],
       [1, 3]])

Или сделать более интересную вещь, взять отрицательный шаг и выбрать все элементы в обратном порядке, с конца:

In [67]:
m[::-1]

array([[1, 3],
       [6, 8],
       [2, 5]])

На этом мы пока закончим работать с элементами массива, а в следующем уроке посмотрим, как выполнять вычисления с массивами и создавать разные массивы с нуля.

### Урок 3.5 – Вычисления с массивами

Для начала создадим простой одномерный массив. Пусть это будет массив, содержащий оценки группы школьников:

In [72]:
marks = np.array([5, 4, 3, 5, 5, 4, 3, 4]) 
marks

array([5, 4, 3, 5, 5, 4, 3, 4])

Найдем самую плохую, минимальную оценку:

In [74]:
marks.min()

3

А теперь самую высокую, максимальную:

In [76]:
marks.max()

5

И средний балл:

In [78]:
marks.mean()

4.125

А теперь найдем номер ученика с самой высокой оценкой:

In [80]:
marks.argmax()

0

И номер ученика с самой низкой оценкой:

In [82]:
marks.argmin()

2

**Внимание:** если таких несколько, будет выведено первое совпадение, как для `argmin()`, так и для`argmax()`.

Конечно, мы не сможем сейчас рассмотреть все доступные методы, относящиеся к массивам (некоторые часто используемые методы мы еще будем обсуждать в следующем модуле), но при желании на перечень доступных методов можно посмотреть, набрав название массива, поставив точку и нажав на *Tab* (показать).

Теперь посмотрим на многомерный массив, для удобства возьмём двумерный:

In [86]:
grades = np.array([[3, 5, 5, 4, 3], 
          [3, 3, 4, 3, 3], 
          [5, 5, 5, 4, 5]])

Пусть это будут оценки учеников трёх маленьких групп за 5 контрольных работ. Попробуем теперь найти средний балл по каждой группе. Для этого необходимо указать, по какому измерению мы будем двигаться (грубо говоря, по строкам или столбцам):

In [88]:
grades.mean(axis = 1) # по строкам, три оценки - одна для каждой группы

array([4. , 3.2, 4.8])

А теперь найдем средний балл по каждой контрольной работе:

In [90]:
grades.mean(axis = 0) # по столбцам, пять оценки - одна для каждой работы

array([3.66666667, 4.33333333, 4.66666667, 3.66666667, 3.66666667])

Таким же образом можно было посмотреть на минимальное и максимальное значение (можете потренироваться самостоятельно).

### Создание массивов

#### Как создать массив?

**Способ 1**

С первым способом мы уже отчасти познакомились: можно получить массив из готового списка, воспользовавшись функцией `array()`:

In [93]:
np.array([10.5, 45, 2.4])

array([10.5, 45. ,  2.4])

**Способ 2**

Можно создать массив на основе промежутка, созданного с помощью `arange()` – функции `numpy`, похожей на стандартный `range()`, только более гибкую. Посмотрим, как работает эта функция.

In [95]:
np.arange(2, 9) # по умолчанию шаг равен 1, как обычный range()

array([2, 3, 4, 5, 6, 7, 8])

По умолчанию эта функция создает массив, элементы которого начинаются со значения 2 и заканчиваются на значении 8 (правый конец промежутка не включается), следуя друг за другом с шагом 1. Но этот шаг можно менять:

И даже делать дробным!

In [98]:
np.arange(2, 9, 0.5)

array([2. , 2.5, 3. , 3.5, 4. , 4.5, 5. , 5.5, 6. , 6.5, 7. , 7.5, 8. ,
       8.5])

**Способ 3**

Еще массив можно создать совсем с нуля. Единственное, что нужно четко представлять – это его размерность, его форму, то есть опять же, число строк и столбцов. Библиотека `numpy` позволяет создать массивы, состоящие из нулей или единиц, а также  «пустые» массивы (на практике используются редко). Удобство заключается в том, что сначала можно создать массив, инициализировать его (например, заполнить нулями), а затем заменить нули на другие значения в соответствии с требуемыми условиями.

Так выглядит массив из нулей:

In [100]:
Z = np.zeros((3, 3)) # размеры в виде кортежа - не теряйте еще одни круглые скобки
Z

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

А так – массив из единиц:

In [102]:
O = np.ones((4, 2))
O

array([[1., 1.],
       [1., 1.],
       [1., 1.],
       [1., 1.]])

А так выглядит единичная матрица – таблица из 0 и 1, в которой число строк и столбцов одинаково, и где на главной диагонали стоят 1:

In [104]:
E = np.eye(5)
E

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Про замену элементов в массивах (в том числе по некоторым условиям) пока говорить не будем, обсудим это в следующем модуле, а вот сами условия разберем уже в следующем уроке.

### Урок 3.7 – Условия и булевы массивы

Прежде, чем обсуждать формулировку условий для массивов, давайте немного поговорим об условиях вообще, а именно, про проверку условий на переменных в Python. Создадим две переменные `a` и `b` и присвоим им какие-нибудь значения:

In [108]:
a = 6
b = 9

Проверим, правда ли, что `b` больше `a`:

In [110]:
b > a  # правда

True

Теперь проверим более сложное условие – правда ли, что `b` не менее `a` (больше или равно):

In [112]:
b >= a  # правда

True

Простое условие, условие равенства, проверяется в Python с помощью двойного знака `=` (одинарное «равно» используется для присваивания значений). Правда ли, что `a` равно `b`?

In [114]:
a == b  # конечно, нет

False

Теперь перейдём к массивам. Для начала создадим массив, содержащий значения возрастов людей в трёх группах:

In [116]:
ages = np.array([[15, 23, 32, 45, 52], 
               [68, 34, 55, 78, 20], 
               [25, 67, 33, 45, 14]])

Давайте попробуем узнать, какие значения массива соответствуют людям трудоспособного возраста: от 16 лет и старше:

In [118]:
M = ages >= 16  # больше или равно
M

array([[False,  True,  True,  True,  True],
       [ True,  True,  True,  True,  True],
       [ True,  True,  True,  True, False]])

Все элементы, кроме первого в первом списке и кроме последнего в последнем списке: на всех позициях, кроме указанных, стоят значения `True`, что означает, что условие выполняется. То, что мы получили сейчас – это булев массив, массив, состоящий из булевых (логических) значений, значений `True` и `False`. 

Теперь попробуем сформулировать более сложное условие: проверим, какие элементы соответствуют людям старше 18, но младше 60 лет:

In [120]:
work = (ages > 18) & (ages < 60) # & - одновременное условие
work

array([[False,  True,  True,  True,  True],
       [False,  True,  True, False,  True],
       [ True, False,  True,  True, False]])

Как посчитать, сколько элементов массива удовлетворяют некоторым условиям?

Суммируем значения по всему массиву: Python понимает, что значение `True` – это 1, а `False` – это 0, поэтому нет необходимости превращать все значения в числовые, мы можем просто сложить все «единички»:
    

In [124]:
work.sum()

10

А теперь проверим, какие значения соответствуют людям либо младше 18, либо старше 60:

In [126]:
(ages < 18) | (ages > 60)  # | - или - хотя бы одно условие верно

array([[ True, False, False, False, False],
       [ True, False, False,  True, False],
       [False,  True, False, False,  True]])

А как увидеть сами значения, которые удовлетворяют определенным условиям? Заключить условие в квадратные скобочки:

In [128]:
ages[ages >= 16]

array([23, 32, 45, 52, 68, 34, 55, 78, 20, 25, 67, 33, 45])

Итак, мы уже познакомились с тремя способами выбирать элементы из массива: 

* в квадратных скобках можно указать номер или индекс интересующего нас элемента;
* последовательность индексов через `:` (получаем срез);
* условие.

Логика выбора элементов по условиям такая: Python выбирает только те элементы, где условие возвращает значение `True` (вспомните, как выглядят булевы массивы и попытайтесь сопоставить). 

Сформулируем более сложное условие:

In [130]:
ages[(ages >= 16) & (ages < 60)]

array([23, 32, 45, 52, 34, 55, 20, 25, 33, 45])

Внимание: не забудьте круглые скобки для каждого условия, иначе Python поймёт всё неправильно и вернёт ошибку:

In [132]:
ages[ages >= 16 & ages < 60]

ValueError: The truth value of an array with more than one element is ambiguous. Use a.any() or a.all()

На этом мы завершим модуль, посвященный введению в `NumPy`, а в следующем модуле поговорим про изменение массивов и более продвинутые действия с массивами.