# Numpy (Часть 1)


> 🚀 В этой практике нам понадобятся: `numpy==1.21.2` 

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.21.2` 


## Содержание

* [Создание массивов](#Создание-массивов)
* [Удобная индексация в одномерных массивах <a name="index"></a>](#Удобная-индексация-в-одномерных-массивах-<a-name=index></a>)
  * [Задание - подумаем](#Задание---подумаем)
  * [Задание - учимся обращать](#Задание---учимся-обращать)
  * [Задание - подмассив](#Задание---подмассив)
* [Удобная индексация в матрицах <a name="mat_index"></a>](#Удобная-индексация-в-матрицах-<a-name=mat_index></a>)
  * [Задание - еще больше срезаем](#Задание---еще-больше-срезаем)
  * [Задание - кручу-верчу - запутать хочу](#Задание---кручу-верчу---запутать-хочу)
* [Типы данных в массивах](#Типы-данных-в-массивах)


В этом ноутбуке:
- Как работать с массивами
- Удобная индексация для массивов (срезы "[ : ]")
- Типы данных в массивах

Numpy - это библиотека для математических вычислений. Написана на языке С, поэтому считается наиболее предпочтительным вариантом при работе с многомерными **массивами** из-за производительности.

<img src="https://raw.githubusercontent.com/AleksDevEdu/ml_edu/master/assets/logo/np-logo.svg" height="150px"></img>

**Numpy ≡ Массивы с математикой**


[Официальный сайт](https://numpy.org/doc/stable/) последней стабильной версии.

Начало работы с `numpy` заключается в подключении модуля. При этом в практике применения есть уже общепринятое сокращение для него под названием `np`:

In [None]:
import numpy as np

> Если вы ранее работали с MATLAB, обратите внимание, как некоторые подходы и функции схожи.

## Создание массивов

Для того, чтобы начать работать с `NumPy`, мы должны научиться создавать объекты `ndarray` (n+dimensional+array), которые по сути являются N-мерными массивами

In [None]:
# Самый просто способ создать массив numpy - взять уже существующий list и передать в функцию np.array()
# Тип создаваемого объекта - ndarray
arr_1d = np.array([1, 2, 3])

In [None]:
# Теперь проверим 
#   - тип объекта c помощью функции type()
#   - размерность с помощью аттрибута .shape
#   - доступ по индексам, как у обычного list

# Для отладки можно выводить небольшие массивы прямо через print()

print(arr_1d)
print(type(arr_1d))
print(arr_1d.shape)
print(arr_1d[0])
print(arr_1d[2])
print(arr_1d[-1])

> Обратите внимание, индекс с отрицательным значением означает индексацию с конца. Это возможность языка Python. В данном случае индекс -1 ~ 2, так как 2 - последний индекс в массиве из трёх элементов. Аналогично, если хотите взять второй элемент с конца, то можете использовать индекс -2 и т.д.

Как видите, объект имеет тип `np.ndarray`, таким образом описываются все массивы при работе с numpy. Размерность представляет собой кортеж с одним элементом (создали 1D массив ~ массив первого ранга в терминах numpy).

In [None]:
# Теперь создадим двумерный массив с помощью тех же list
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
# Проверим также тип, размерность и доступ по индексам

print(arr_2d)
print(type(arr_2d))
print(arr_2d.shape)
print(arr_2d[0, 0])
print(arr_2d[1, 2])
print(arr_2d[1, 0])

Теперь видно, что в кортеже размерности стало два элемента, при этом тип объекта никак не поменялся.

Индексация в 2D массиве делается уже посредством двух индексов:
- первый индекс - номер ряда (строки);
- второй индекс - номер колонки (столбца).

> В 1D массивах вообще никаких вопросов не возникает, в 2D (ряд, колонка), если разворачивать до 3D массивов, то можно интерпретировать как (ряд, колонка, глубина). Дальнейшие размерности уже сложнее в визуальной интерпретации, поэтому вместо названий для каждой размерности идет просто индексация.

Помимо способов создания массивов из уже существующих представлений в виде `list`, можно также создавать массивы по-другому. Рассмотрим некоторые из них:


In [None]:
# Создание массива фиксированного размера
np.ndarray((5, 3))

В представленном способе мы напрямую вызываем конструктор и передаем ему размерность. Какими числами будет заполнен массив - никто не знает. Вероятнее всего, это будут нули, но для уверенности лучше самостоятельно заполнить такой массив данными.

In [None]:
# Явное создание массива нулей
np.zeros((2, 3))

In [None]:
# Явное создание массива единиц
np.ones((3, 2))

In [None]:
# Создание массива, заполненного константным значением
np.full((3, 4), 5)

In [None]:
# 2D массив с единичной главной диагональю
# (*) В этой функции размерность задается не кортежем, а отдельными аргументами
np.eye(3, 2)

In [None]:
# Создание массива нулей с такой же размерностью, как уже существующий
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

np.zeros_like(arr_2d)

In [None]:
# Создание массива единиц с такой же размерностью, как уже существующий
arr_2d = np.array([[1, 2, 3], [4, 5, 6]])

np.ones_like(arr_2d)

In [None]:
# Создание массива со случайными значениями в интервале [0; 1.0)
np.random.random((2,2))

In [None]:
# Аналог функции range
np.arange(start=1, stop=10, step=1.5)

In [None]:
# Также создание диапазона значений, но уже с заданием количества элементов
# (*) stop уже входит в создаваемый диапазон
np.linspace(start=1, stop=2, num=10)

## Удобная индексация в одномерных массивах <a name="index"></a>

Индексация в Python не ограничивается заданием конкретных индексов для получения значений в контейнерах (стандартных или массивов `ndarray`). Существуют специальные символы и подходы для работы с диапазонами данных, которые не только упрощают и улучшают код, но и выполняются более быстро, нежели проходы по массивам циклом.

Начнём со знакомства с символом `:`, который позволяет задавать диапазон индексов для чтения/записи контейнеров. Такой способ называется slice (срез)

In [None]:
# Для начала на простом списке (1D массива)
# Следующее создание массива можно заменить list(range(1, 11))
arr = [1, 2, 3, 4, 5, 6, 7, 8, 9, 10]

In [None]:
# Простая индексация
print(arr[0])
print(arr[-2])
print(arr[5])

Для получения подмассива (части массива) или записи в подмассив используется нотация $$index_{start}:index_{end}:step$$

- $index_{start}$ - индекс начала подмассива
- $index_{end}$ - индекс конца подмассива
- $step$ - шаг подмассива

In [None]:
# Получение части массива c 3-го по 9-й элемент (не включительно) 
    #   или со 2-го по 8-й (при индексации с нуля)
    #   с шагом 2 
print(arr[2:8:2])

In [None]:
# Если шаг не задан, то он равен единице (при этом второй раз : не пишется)
print(arr[2:8])

In [None]:
# Шаг может быть и отрицательным (индексы меняются местами)
print(arr[8:2:-1])

In [None]:
# Если не задавать index_start или index_end, 
#   то они будут равны индексу начала и конца массива
print(arr[2:])
print(arr[:8])

In [None]:
# Можно комбинировать один из индексов и шаг
print(arr[2::2])
print(arr[:8:3])

In [None]:
# И не забываем, что все трюки работают и на запись
new_arr = list(range(1, 11))

new_arr[1:5] = arr[:4]
print(new_arr)

In [None]:
# Не самая полезная, но все же запись (получить весь диапазон)
print(arr[:])

### Задание - подумаем

Объясните результат операции:

In [None]:
print(arr[:5:-2])

### Задание - учимся обращать

Получите перевернутый список:

In [None]:
data = list(range(10))
print(data)

# TODO - [9, 8, 7, 6, 5, 4, 3, 2, 1, 0]

### Задание - подмассив

Получите массив без первого и двух последних элементов:

In [None]:
data = list(range(10))
print(data)

# TODO - [1, 2, 3, 4, 5, 6, 7]

## Удобная индексация в матрицах <a name="mat_index"></a>

Работа с одномерными списками удобна даже через класс `list`, но 2D массивы уже удобнее использовать через библиотеку numpy. Использование numpy никак не ограничивает применение такой индексации, так что можно делать много классных штук:

In [None]:
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr)

В индексации numpy есть очень полезное правило: если последующие индексы не заданы, то они принимаются как "весь диапазон". Например, в двумерном массиве мы индексируем по двум числам $[3, 2]$. Если в 2D массиве задать индекс $[3]$, то это эквивалентно индексации $[3, :]$, то есть третий ряд, все колонки.

В плане предшествующих индексов это не работает, поэтому, чтобы получить целую колонку, надо индексировать $[:, 2]$.

In [None]:
# Получим вторую строку массива
print(arr[2])
print(arr[2, :])

In [None]:
# Получим первую колонку массива
print(arr[:, 1])

In [None]:
# Получить первые два элемента (первые две колонки) первого ряда
print(arr[1, :2])

In [None]:
# Можно повторять целые части массива
#   (но при этом должны соотноситься размерности)
# ndarray.copy() - функция копирования массива
# Копируем, чтобы не изменить оригинальный
new_arr = arr.copy()
print(arr)

new_arr[2, :] = arr[1, :]
print(new_arr)

In [None]:
# При этом, такая индексация - это новый массив со своей размерностью.
print(arr[:2, :2])
print(arr[:2, :2].shape)

In [None]:
# В качестве индексов можно также задавать другие массивы
# Получаем первую и последнюю колонки
print(arr[:, [0, -1]])

In [None]:
# И таким образом никто не заставляет писать в том же порядке индексы
# Перемешаем ряды
print(arr[[2, 0, 1], :])

In [None]:
# Также, можно комбинировать способы задания
print(arr[[2, 0], [1, 3]])
# То же самое, только первая запись дает массив
print(arr[2, 1], arr[0, 3])

In [None]:
# Создаем список возможных индексов для рядов массива
row_indices = list(range(arr.shape[0]))
print(row_indices)

# Переворачиваем его
row_indices = list(reversed(row_indices))
print(row_indices)

# Используем для индексации
print('----------------')
print(arr[row_indices])

### Задание - еще больше срезаем

Получите массив без крайних рядов и колонок (по одной с каждой стороны)

In [None]:
data = np.random.randint(low=0, high=10, size=(5, 6))
print(data)

# TODO - центральная часть массива размером (3, 4)

### Задание - кручу-верчу - запутать хочу

Произведите перемешивание колонок с помощью функции `numpy.random.permutation()`:

<details>
<summary>Подсказка</summary>

Перемешать колонки можно путем перемешивания списка возможных индексов колонок (`range(<col_count>)`) и затем индексацией этого списка по индексам колонок (`[:, cols]`).
</details>

In [None]:
data = np.random.randint(low=0, high=10, size=(3, 6))
print(data)

# TODO - такой же массив, но со случайной перестановкой колонок

## Типы данных в массивах

Массивы в numpy имеют не только размер, но и конкретный тип данных, которые хранятся внутри массива. При создании массива почти все функции создания имеют аргумент `dtype`, который означает, с каким типом создать данным массив. Также, класс `ndarray` имеет атрибут `dtype`, который означает тип хранимых данных. 

Подробнее о `dtype` можно прочитать в [документации](https://numpy.org/doc/stable/reference/arrays.dtypes.html).

In [None]:
# Создадим массив без задания типа - тип будет определен автоматически
arr = np.array([[1, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr.dtype)

# int, так как все элементы являются целочисленными

In [None]:
# Изменим один элемент на вещественный
arr = np.array([[1.5, 2, 3, 4], [5, 6, 7, 8], [9, 10, 11, 12]])
print(arr.dtype)

# Один из элементов float, поэтому весь массив будет float

In [None]:
# Зададим явно тип массива
# Хоть массив и содержит вещественные числа
# мы создаем массив целочисленных, что приводит
# к округлению
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]], dtype=int)
print(arr)
print(arr.dtype)

In [None]:
# Создаем массив вещественных
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]])
print(arr)
print(arr.dtype)
print('----------')
# Но в какой-то момент нам нужно привести массив к целочисленным
# Воспользуемся методом ndarray.astype()
arr = arr.astype(int)
print(arr)
print(arr.dtype)

In [None]:
# При этом попытки записать в целочисленный массив 
# вещественное число приводят к округлению
arr = np.array([[1.1, 1.6, 2.4], [-1.7, 2.6, -1.2]], dtype=int)
print(arr)

arr[0, 1] = 10.12
print(arr)