# Numpy (Часть 1)


> 🚀 В этой практике нам понадобятся: `numpy==1.21.2`

> 🚀 Установить вы их можете с помощью команды: `!pip install numpy==1.21.2`

Numpy - это библиотека для математических вычислений. Написана на языке С, поэтому считается наиболее предпочтительным вариантом при работе с многомерными массивами из-за производительности.

[Официальный сайт](https://numpy.org/doc/stable/) последней стабильной версии.

Начало работы с `numpy` заключается в подключении модуля. При этом в практике применения есть уже общепринятое сокращение для него под названием `np`:

In [1]:
import numpy as np

> Если вы ранее работали с MATLAB, обратите внимание, как некоторые подходы и функции схожи.

# Создание массивов <a name="arr"></a>

Для того, чтобы начать работать с `numpy`, мы должны научиться создавать объекты `ndarray`, которые по сути являются N-мерными массивами.

In [2]:
# Самый просто способ создать массив numpy - взять уже существующий list и передать в функцию np.array()
arr_1d = np.array([1, 2, 3])

In [3]:
# Теперь проверим 
#   - тип объекта c помощью функции type()
#   - размерность с помощью аттрибута .shape
#   - доступ по индексам, как у обычного list

# Для отладки можно выводить небольшие массивы прямо через print()

print(arr_1d)
print(type(arr_1d))
print(arr_1d.shape)
print(arr_1d[0])
print(arr_1d[2])
print(arr_1d[-1])

[1 2 3]
<class 'numpy.ndarray'>
(3,)
1
3
3


> Обратите внимание, индекс с отрицательным значением означает индексацию с конца. Это возможность языка Python. В данном случае индекс -1 ~ 2, так как 2 - последний индекс в массиве из трёх элементов. Аналогично, если хотите взять второй элемент с конца, то можете использовать индекс -2 и т.д.

Как видите, объект имеет тип `np.ndarray`, таким образом описываются все массивы при работе с numpy. Размерность представляет собой кортеж с одним элементом (создали 1D массив ~ массив первого ранга в терминах numpy).

In [4]:
# Теперь создадим двумерный массив с помощью тех же list
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

In [5]:
# Проверим также тип, размерность и доступ по индексам

print(arr_2d)
print(type(arr_2d))
print(arr_2d.shape)
print(arr_2d[0, 0])
print(arr_2d[1, 2])
print(arr_2d[1, 0])

[[1 2 3]
 [4 5 6]]
<class 'numpy.ndarray'>
(2, 3)
1
6
4


Теперь видно, что в кортеже размерности стало два элемента, при этом тип объекта никак не поменялся.

Индексация в 2D массиве делается уже посредством двух индексов:
- первый индекс - номер ряда (строки);
- второй индекс - номер колонки (столбца).

> В 1D массивах вообще никаких вопросов не возникает, в 2D (ряд, колонка), если разворачивать до 3D массивов, то можно интерпретировать как (ряд, колонка, глубина). Дальнейшие размерности уже сложнее в визуальной интерпретации, поэтому вместо названий для каждой размерности идет просто индексация.

Помимо способов создания массивов из уже существующих представлений в виде `list`, можно также создавать массивы по-другому. Рассмотрим некоторые из них:


In [6]:
# Создание массива фиксированного размера
np.ndarray((5, 3))

array([[0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.],
       [0., 0., 0.]])

В представленном способе мы напрямую вызываем конструктор и передаем ему размерность. Какими числами будет заполнен массив - никто не знает. Вероятнее всего, это будут нули, но для уверенности лучше самостоятельно заполнить такой массив данными.

In [7]:
# Явное создание массива нулей
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [8]:
# Явное создание массива единиц
np.ones((3, 2))

array([[1., 1.],
       [1., 1.],
       [1., 1.]])

In [9]:
# Создание массива, заполненного константным значением
np.full((3, 4), 5)

array([[5, 5, 5, 5],
       [5, 5, 5, 5],
       [5, 5, 5, 5]])

In [10]:
# 2D массив с единичной главной диагональю
# (*) В этой функции размерность задается не кортежем, а отдельными аргументами
np.eye(3, 2)

array([[1., 0.],
       [0., 1.],
       [0., 0.]])

In [11]:
# Создание массива нулей с такой же размерностью, как уже существующий
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

np.zeros_like(arr_2d)

array([[0, 0, 0],
       [0, 0, 0]])

In [12]:
# Создание массива единиц с такой же размерностью, как уже существующий
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

np.ones_like(arr_2d)

array([[1, 1, 1],
       [1, 1, 1]])

In [13]:
# Создание массива со случайными значениями в интервале [0; 1.0)
np.random.random((2,2))

array([[0.11824606, 0.68387236],
       [0.96773479, 0.80067267]])

In [14]:
# Аналог функции range
np.arange(start=1, stop=10, step=1.5)

array([1. , 2.5, 4. , 5.5, 7. , 8.5])

In [15]:
# Также создание диапазона значений, но уже с заданием количества элементов
# (*) stop уже входит в создаваемый диапазон
np.linspace(start=1, stop=2, num=10)

array([1.        , 1.11111111, 1.22222222, 1.33333333, 1.44444444,
       1.55555556, 1.66666667, 1.77777778, 1.88888889, 2.        ])

# Хитрая индексация <a name="index"></a>

Индексация в Python не ограничивается заданием конкретных индексов для получения значений в контейнерах (стандартных или массивов `ndarray`). Существуют специальные символы и подходы для работы с диапазонами данных, которые не только упрощают и улучшают код, но и выполняются более быстро, нежели проходы по массивам циклом.

Начнём со знакомства с символом `:`, который позволяет задавать диапазон индексов для чтения/записи контейнеров.

In [16]:
# Для начала на простом списке (1D массива)
# Следующее создание массива можно заменить list(range(1, 11))
arr = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [17]:
# Простая индексация
print(arr[0])
print(arr[-2])
print(arr[5])

1
9
6


Для получения подмассива (части массива) или записи в подмассив используется нотация $$index_{start}:index_{end}:step$$

- $index_{start}$ - индекс начала подмассива
- $index_{end}$ - индекс конца подмассива
- $step$ - шаг подмассива

In [18]:
# Получение части массива c 3-го по 9-й элемент (не включительно) 
    #   или со 2-го по 8-й (при индексации с нуля)
    #   с шагом 2 
print(arr[2:8:2])

[3, 5, 7]


In [19]:
# Если шаг не задан, то он равен единице (при этом второй раз : не пишется)
print(arr[2:8])

[3, 4, 5, 6, 7, 8]


In [20]:
# Шаг может быть и отрицательным (индексы меняются местами)
print(arr[8:2:-1])

[9, 8, 7, 6, 5, 4]


In [21]:
# Если не задавать index_start или index_end, 
#   то они будут равны индексу начала и конца массива
print(arr[2:])
print(arr[:8])

[3, 4, 5, 6, 7, 8, 9, 10]
[1, 2, 3, 4, 5, 6, 7, 8]


In [22]:
# Можно комбинировать один из индексов и шаг
print(arr[2::2])
print(arr[:8:3])

[3, 5, 7, 9]
[1, 4, 7]


In [23]:
# И не забываем, что все трюки работают и на запись
new_arr = list(range(1, 11))

new_arr[1:5] = arr[:4]
print(new_arr)

[1, 1, 2, 3, 4, 6, 7, 8, 9, 10]


In [24]:
# Не самая полезная, но все же запись (получить весь диапазон)
print(arr[:])

[1, 2, 3, 4, 5, 6, 7, 8, 9, 10]


## Задание

Объясните результат операции:

In [25]:
print(arr[:5:-2]) #список выводится с  последнего элемента до 5 индекса с шагом 2, то есть выведутся 9 и 7 элементы

[10, 8]


## Задание

Получите перевернутый список:

In [32]:
data = list(range(10))
print(data)
print(data[::-1])

# TODO - [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[9, 8, 7, 6, 5, 4, 3, 2, 1, 0]


## Задание

Получите массив без первого и двух последних элементов:

In [35]:
data = list(range(10))
print(data)
print(data[1:len(data)-2])
# TODO - [1, 2, 3, 4, 5, 6, 7]

[0, 1, 2, 3, 4, 5, 6, 7, 8, 9]
[1, 2, 3, 4, 5, 6, 7]


# Хитрая индексация в матрицах <a name="mat_index"></a>

Работа с одномерными списками удобна даже через класс `list`, но 2D массивы уже удобнее использовать через библиотеку numpy. Использование numpy никак не ограничивает применение такой индексации, так что можно делать много классных штук:

In [36]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]


В индексации numpy есть очень полезное правило: если последующие индексы не заданы, то они принимаются как "весь диапазон". Например, в двумерном массиве мы индексируем по двум числам $[3, 2]$. Если в 2D массиве задать индекс $[3]$, то это эквивалентно индексации $[3, :]$, то есть третий ряд, все колонки.

В плане предшествующих индексов это не работает, поэтому, чтобы получить целую колонку, надо индексировать $[:, 2]$.

In [37]:
# Получим вторую строку массива
print(arr[2])
print(arr[2, :])

[ 9 10 11 12]
[ 9 10 11 12]


In [38]:
# Получим первую колонку массива
print(arr[:, 1])

[ 2  6 10]


In [39]:
# Получить первые два элемента (первые две колонки) первого ряда
print(arr[1, :2])

[5 6]


In [40]:
# Можно повторять целые части массива
#   (но при этом должны соотноситься размерности)
# ndarray.copy() - функция копирования массива
# Копируем, чтобы не изменить оригинальный
new_arr = arr.copy()
print(arr)

new_arr[2, :] = arr[1, :]
print(new_arr)

[[ 1  2  3  4]
 [ 5  6  7  8]
 [ 9 10 11 12]]
[[1 2 3 4]
 [5 6 7 8]
 [5 6 7 8]]


In [41]:
# При этом, такая индексация - это новый массив со своей размерностью.
print(arr[:2, :2])
print(arr[:2, :2].shape)

[[1 2]
 [5 6]]
(2, 2)


In [42]:
# В качестве индексов можно также задавать другие массивы
# Получаем первую и последнюю колонки
print(arr[:, [0, -1]])

[[ 1  4]
 [ 5  8]
 [ 9 12]]


In [43]:
# И таким образом никто не заставляет писать в том же порядке индексы
# Перемешаем ряды
print(arr[[2, 0, 1], :])

[[ 9 10 11 12]
 [ 1  2  3  4]
 [ 5  6  7  8]]


In [44]:
# Также, можно комбинировать способы задания
print(arr[[2, 0], [1, 3]])
# То же самое, только первая запись дает массив
print(arr[2, 1], arr[0, 3])

[10  4]
10 4


In [45]:
# Создаем список возможных индексов для рядов массива
row_indices = list(range(arr.shape[0]))
print(row_indices)

# Переворачиваем его
row_indices = list(reversed(row_indices))
print(row_indices)

# Используем для индексации
print('----------------')
print(arr[row_indices])

[0, 1, 2]
[2, 1, 0]
----------------
[[ 9 10 11 12]
 [ 5  6  7  8]
 [ 1  2  3  4]]


## Задание

Получите массив без крайних рядов и колонок (по одной с каждой стороны)

In [51]:
data = np.random.randint(low=0, high=10, size=(5, 6))
print(data)
print('---------------')
print(data[1:4,1:5])
print('---------------')
print(data[1:-1,1:-1])
# TODO - центральная часть массива размером (3, 4)

[[7 8 4 2 0 9]
 [0 4 9 4 5 5]
 [5 3 9 7 6 4]
 [6 2 8 5 4 4]
 [3 2 5 7 7 0]]
---------------
[[4 9 4 5]
 [3 9 7 6]
 [2 8 5 4]]
---------------
[[4 9 4 5]
 [3 9 7 6]
 [2 8 5 4]]


## Задание

Произведите перемешивание колонок с помощью функции `numpy.random.permutation()`:

<details>
<summary>Подсказка</summary>

Перемешать колонки можно путем перемешивания списка возможных индексов колонок (`range(<col_count>)`) и затем индексацией этого списка по индексам колонок (`[:, cols]`).
</details>

In [54]:
import numpy as np
data = np.random.randint(low=0, high=10, size=(3, 6))
print(data)
print('---------')
print(np.random.permutation(data.T).T)
# TODO - такой же массив, но со случайной перестановкой колонок

[[2 7 5 7 5 9]
 [1 9 2 4 9 5]
 [9 1 6 9 8 0]]
---------
[[9 7 5 2 7 5]
 [5 9 9 1 4 2]
 [0 1 8 9 9 6]]


# Типы данных в массивах <a name="types"></a>

Массивы в numpy имеют не только размер, но и конкретный тип данных, которые хранятся внутри массива. При создании массива почти все функции создания имеют аргумент `dtype`, который означает, с каким типом создать данным массив. Также, класс `ndarray` имеет атрибут `dtype`, который означает тип хранимых данных. 

Подробнее можно прочитать в [документации](https://numpy.org/doc/stable/reference/arrays.dtypes.html).

In [55]:
# Создадим массив без задания типа - тип будет определен автоматически
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr.dtype)

# int, так как все элементы являются целочисленными

int32


In [56]:
# Изменим один элемент на вещественный
arr = np.array([[1.5, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr.dtype)

# Один из элементов float, поэтому весь массив будет float

float64


In [57]:
# Зададим явно тип массива
# Хоть массив и содержит вещественные числа
# мы создаем массив целочисленных, что приводит
# к округлению
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]], dtype=int)
print(arr)
print(arr.dtype)

[[ 1  1  2]
 [-1  2 -1]]
int32


In [58]:
# Создаем массив вещественных
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]])
print(arr)
print(arr.dtype)
print('----------')
# Но в какой-то момент нам нужно привести массив к целочисленным
# Воспользуемся методом ndarray.astype()
arr = arr.astype(int)
print(arr)
print(arr.dtype)

[[ 1.1  1.6  2.4]
 [-1.7  2.6 -1.2]]
float64
----------
[[ 1  1  2]
 [-1  2 -1]]
int32


In [59]:
# При этом попытки записать в целочисленный массив 
# вещественное число приводят к округлению
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]], dtype=int)
print(arr)

arr[0, 1] = 10.12
print(arr)

[[ 1  1  2]
 [-1  2 -1]]
[[ 1 10  2]
 [-1  2 -1]]
