# Введение в NumPy

### Массивы numpy

Сегодня мы познакомимся с библиотекой `NumPy` (сокращение от *Numeric Python*), которая часто используется в задачах, связанных с машинным обучением.

Чтобы мы смогли на конкретных примерах увидеть, зачем эта библиотека используется, давайте её импортируем. Если вы уже устанавливали Anaconda, то библиотека `numpy` также была установлена на ваш компьютер. Проверим: импортируем библиотеку с сокращённым названием, так часто делают, чтобы не «таскать» за собой в коде длинное название. Сокращение `np` для библиотеки `numpy` – распространённое, можно даже сказать, общепринятое, его часто можно увидеть в документации или официальных тьюториалах.

In [1]:
import numpy as np

Основыным объектом NumPy является `ndarray` – это n-мерный массив (сокращение от n-dimensional array), структура данных, которая позволяет хранить набор элементов одного типа: либо только целые числа, либо числа с плавающей точкой, либо строки, либо булевы (логические) значения. Массивы могут быть одномерными, то есть визуально ничем не отличаться от простого списка значений (только при выводе элементы разделены пробелами, а не запятыми).

In [4]:
z = [2, 5]
print(z)
print(type(z)) # список
z_np = np.array(z)
print(z_np)
print(type(z_np))

[2, 5]
<class 'list'>
[2 5]
<class 'numpy.ndarray'>


Чем же удобны массивы? Во-первых, они занимают меньше места и памяти. Во-вторых, с ними очень удобно работать: все операции над массивами будут производиться поэлементно: то есть, для выполнения действий над каждым элементом массива, нам не придется использовать какие-то специальные конструкции вроде циклов, мы сможем обращаться сразу ко всему массиву. Например, давайте представим, что у нас есть массив со значениями явки на выборы в долях, а мы хотим получить результаты в процентах (домноженные на 100).

In [12]:
# попробуем сложить два списка
x = [2, 4, 5]
y = [10, 4, 2]
print(x + y) # выполнилась операция "склейки"

[2, 4, 5, 10, 4, 2]


In [8]:
# попробуем сложить два массива numpy
x_np = np.array(x)
y_np = np.array(y)
print(x_np + y_np) # выполнилось поэлементное сложение

[12  8  7]


In [9]:
print(x_np * 2) # умножим каждый элемент на два
print(y_np ** 8) # возведем каждый элемент в восьмую степень

[ 4  8 10]
[100000000     65536       256]


In [10]:
print(x_np > 3) # сравним каждый элемент с числом 3

[False  True  True]


Такой массив логических значений можно использовать для фильтрации массивов! Нам это позже сильно пригодится при работе с табличными данными.

In [11]:
print(x_np[x_np > 3]) # отфильтровали только значения, которые больше 3 

[4 5]


Уже упоминалось ограничение массивов numpy — они могут хранить только один тип данных. В примере ниже все нестроковые элементы будут превращены в массиве в строки.

In [13]:
z_np = np.array(['cat', 1, 2.4, True])
print(z_np)
print(z_np.dtype)
print(type(z_np[2]))

['cat' '1' '2.4' 'True']
<U4
<class 'numpy.str_'>


Строка — самый «сильный» тип — все может быть превращено в строку. А если нет строк в массиве?

In [14]:
z_np = np.array([1, 2.4, True])
print(z_np)
print(z_np.dtype) # целое число и логическое значение превратились во float

[1.  2.4 1. ]
float64


In [15]:
z_np = np.array([1, True])
print(z_np)
print(z_np.dtype) # логическое значение превратилось в integer

[1 1]
int64


In [17]:
z_np = np.array([True]) # и только одинокий True смог остаться сам собой
print(z_np)

[ True]


Мы будем работать и с двумерными массивами. Про двумерный массив можно думать как про матрицу или про таблицу. Главная особенность: число элементов в списках внутри массива должно совпадать. Проверим на примере – возьмём списки разной длины, то есть списки, состоящие из разного числа элементов, и объединим их в массив:

In [19]:
np.array([[0, 0, 1],
         [0, 1]]) 

  np.array([[0, 0, 1],


array([list([0, 0, 1]), list([0, 1])], dtype=object)

Получилось что-то немного странное. Никакой ошибки Python не выдан, но воспринимать этот объект как полноценный массив он уже не будет: он будет считать, что в такой таблице у нас есть две строки и ноль столбцов! А теперь создадим массив корректно:

In [20]:
A = np.array([[2, 4, 7], [29, 4, 4]])
print(A)

[[ 2  4  7]
 [29  4  4]]


Если нам нужно обратиться к элементам массива, то эта операция будет похожа на работу со вложенными списками:

In [22]:
print(A[0][1]) # выведи значение в первом ряду во второй колонке

4


Но есть и новый синтаксис, когда мы указываем и номер ряда и номер колонки в одних квадратных скобках. Кстати, такой синтаксис позволяет нам брать и срезы таблицы.

In [24]:
print(A[0, 1]) # выведи значение в первом ряду во второй колонке
print(A[:, 1]) # выведи все ряды (:), но только вторую колонку
print(A[0, :]) # выведи только первый ряд, но все колонки
print(A[0, 1:]) # выведи только первый ряд, только колонки со второй и до конца

4
[4 4]
[2 4 7]
[4 7]


Также у массивов есть аттрибуты — дополнительные характеристики, которые мы можем узнать. Обратите внимание — название атрибута записывается через точку после названия переменной, которая хранит массив. Но в отличие от методов — в конце нет круглых скобок. Это важное отличие — атрибут не "действие", а характеристика. Это не функция, которую можно выполнить — поэтому и скобок нет.

In [25]:
print(A.size) # атрибут — показывает количество элементов в массиве 
print(A.mean()) # метод — находит среднее арифметическое массива

6
8.333333333333334


Еще полезный атрибут `.shape`. Он показывает количество рядов и колонок в нашем массиве. Эти атрибуты пригодятся нам и позже, когда мы будем работать с табличными данными.

In [26]:
print(A.shape) # в массиве два ряда и три колонки

(2, 3)


Мы уже видели выше, что у массивов есть свои методы. Про методы, которые помогают нам считать различные статистические метрики, поговорим позже. Но есть и методы, которые работают как привычные нам функции — например, `.sum()`. В таких случаях использовать именно метод конкретного типа данных предпочительней — он может работать значительно быстрее. Ниже проведем эксперимент.

In [27]:
print(y_np.sum())

16


### Эксперимент #1

Вычислительные операции быстрее выполняются с массивами numpy чем со списками. Давайте создадим два списка из 1000000 случайных чисел и перемножим их.

Сначала перемножаем элементы списка Python с помощью цикла for. Засекаем время начала и конца операции, выводим разницу.

In [28]:
import time

# задаем размер наших списков
size = 1000000  
   
# объявляем списки
list1 = range(size)
list2 = range(size)

# запоминаем временную метку
initial_time = time.time()
  
# перемножаем элементы списков
result_list = [(a * b) for a, b in zip(list1, list2)]
list_time = time.time() - initial_time

# смотрим, сколько времени это заняло
print("Сколько времени заняло перемножение списков?", list_time, "сек")

Сколько времени заняло перемножение списков? 0.09409689903259277 сек


Теперь проделаем то же с массивами NumPy.

In [30]:
# объявляем массивы numpy
array1 = np.arange(size)  
array2 = np.arange(size)
   
# запоминаем временную метку
initial_time = time.time()
  
# перемножаем массивы
result_array = array1 * array2

array_time = time.time() - initial_time

# смотрим, сколько времени это заняло
print("Сколько времени заняло перемножение массивов numpy?", array_time, "сек.")

Сколько времени заняло перемножение массивов numpy? 0.005960941314697266 сек.


Видим, что NumPy справился быстрее.

In [32]:
print(round(list_time/array_time))

16


### Эксперимент #2

Теперь давайте убедимся, почему использовать метод `.sum()` для массивов NumPy предпочтительней, чем функцию `sum()` из стандарной библиотеки Python. Также создадим список из 1000000 случайных чисел и просуммируем их разными способами.

In [33]:
size = 1000000  
list1 = range(size)
array1 = np.array(list1)

initial_time = time.time()
list_sum = sum(list1) # складываем числа списка Python стандартной функцией
sum1_time = time.time() - initial_time

initial_time = time.time()
array_sum = array1.sum() # складываем числа массива NumPy методом массива
sum2_time = time.time() - initial_time

initial_time = time.time()
array2_sum = sum(array1) # складываем числа массива NumPy стандартной функцией
sum3_time = time.time() - initial_time

print('Находим сумму элементов списка с функцией sum():', sum1_time)
print('Находим сумму элементов массива с нативным методом .sum():', sum2_time)
print('Находим сумму элементов массива с функцией .sum():', sum3_time)

Находим сумму элементов списка с функцией sum(): 0.014373779296875
Находим сумму элементов массива с нативным методом .sum(): 0.0008249282836914062
Находим сумму элементов массива с функцией .sum(): 0.1335282325744629


Обратите внимание, что второй способ оказался самым быстрым! А вот проигрывает ему не первый — где мы использовали более «медленный» тип данных, а тот, где мы использовали стандартную функцию с массивом NumPy. Поэтому обращайте внимание на такие ситуации! Это может быть непринципиально при работе с небольшими наборами данными, но сэкономит вам ОЧЕНЬ МНОГО времени на больших датасетах.