<a href="https://colab.research.google.com/github/dm-fedorov/numpy_basic/blob/master/start_numpy/1.%20Введение%20в%20NumPy.ipynb"><img align="left" src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open in Colab" title="Open and Execute in Google Colaboratory" target="_blank"></a>

> © Семён Лукашевский [сайт автора](https://pyprog.pro/why_numpy.html)

Главный объект **NumPy** - это однородный многомерный массив. 

Чаще всего это одномерная последовательность или двумерная таблица, заполненная элементами одного типа, как правило числами, которые проиндексированы кортежем положительных целых чисел. 

Что бы перейти к примерам, сначала выполним импорт пакета:

In [None]:
import numpy as np

Импортирование numpy под псевдонимом `np` уже стало общепринятой, негласной договоренностью, можно сказать, традицией.

Теперь мы може приступить к примерам. Способов создания массивов NumPy довольно много, но мы начнем с самого тривиального - создание массива из заполненного вручную списка Python:

In [None]:
a = np.array([11, 22, 33, 44, 55, 66, 77, 88, 99])
a

Теперь у нас есть одномерный массив, т.е. у него всего одна ось вдоль которой происходит индексирование его элементов.

![image](https://raw.githubusercontent.com/dm-fedorov/numpy_basic/master/pic/1nd_array.jpg)

In [None]:
a[2]

В общем-то, можно подумать, что ничего интересного и нет в этих массивах, но на самом деле это только начало кроличьей норы. 

Оцените:

In [None]:
a[[7, 0, 3, 3, 3, 0, 7]]

Вместо одного индекса, указан целый список индексов. А вот еще любопытный пример, теперь вместо индекса укажем логическое выражение:

In [None]:
a[a > 50]

Цель этих двух примеров - не устраивать головоломку, а продемонстрировать расширенные возможности индексирования массивов NumPy. 

Что еще интересного можно продемонстрировать? Векторизованные вычисления:

In [None]:
2*a + 10

In [None]:
np.sin(a)**2 + np.cos(a)**2

Векторизованные - означает, что все арифметические операции и математические функции выполняются сразу над всеми элементами массивов. А это в свою очередь означает, что нет никакой необходимости выполнять вычисления в цикле. 

Давайте перейдем к двумерным массивам:

In [None]:
a = np.arange(12)
a

In [None]:
a = a.reshape(3, 4)
a

Сейчас мы создали массив с помощью функции `np.arange()`, которая во многом аналогична функции `range()` языка Python. 

Затем, мы изменили форму массива с помощью метода `reshape()`, т.е. на самом деле создать этот массив мы могли бы и одной командой:

In [None]:
a = np.arange(12).reshape(3, 4)
a

Визуально, данный массив выглядит следующим образом:

![image](https://raw.githubusercontent.com/dm-fedorov/numpy_basic/master/pic/2nd_array.jpg)

Глядя на картинку, становится понятно, что первая ось (и индекс соответственно) - это строки, вторая ось - это столбцы. Т.е. получить элемент 9 можно простой командой:

In [None]:
a[2][1]    #  равносильно команде a[2, 1]

Снова можно подумать, что ничего нового - все как в стандартном Python. 
Да, так и есть, и, это круто! 

Еще круто, то что NumPy добавляет к удобному и привычному синтаксису Python, весьма удобные трюки, например - *транслирование массивов*:

In [None]:
b = [2, 3, 4, 5]
a * b

В данном примере, без всяких циклов, мы умножили каждый столбец из массива `a` на соответствующий элемент из массива `b`. 

Т.е. мы как бы транслировали (в какой-то степени можно сказать - растянули) массив `b` по массиву `a`.

То же самое мы можем проделать с каждой строкой массива `a`:

In [None]:
c = [[10], 
     [20], 
     [30]]
a + c

В данном случае мы просто прибавили к массиву `a` массив-столбец `c`. И получили, то что хотели. 

При работе с двумерными или трехмерными массивами, особенно с массивами большей размерности, становится очень важным удобство работы с элементами массива, которые расположены вдоль отдельных измерений - его осей.

Например, у нас есть двумерный массив и мы хотим узнать его минимальные элементы по строкам и столбцам. 

Для начала создадим массив из случайных чисел и пусть, для нашего удобства, эти числа будут целыми:

In [None]:
a = np.random.randint(0, 15, size=(4, 6))
a

Минимальный элемент в данном массиве это:

In [None]:
a.min()

А вот минимальные элементы по столбцам и строкам:

In [None]:
a.min(axis=0)    #  минимальные элементы по столбцам

In [None]:
a.min(axis=1)    #  минимальные элементы по строкам

Такое поведение заложено практически во все функции и методы NumPy:

In [None]:
a.mean(axis=0)    #  среднее по столбцам

In [None]:
np.std(a, axis=1)    #  стандартное отклонение по строкам

Что насчет вычислений, их скорости и занимаемой памяти?

Для примера, создадим трехмерный массив:

In [None]:
a = np.arange(48).reshape(4, 3, 4)
a

Почему именно трехмерный? 

На самом деле реальный мир вовсе не ограничивается таблицами, векторами и матрицами. 

Еще существуют тензоры, кватернионы, октавы. А некоторые данные, гораздо удобнее представлять именно в трехмерном и четырехмерном представлении:

![image](https://raw.githubusercontent.com/dm-fedorov/numpy_basic/master/pic/3nd_array.jpg)

Визуализация (и хорошее воображение) позволяет сразу догадаться, как устроена индексация трехмерных массивов. Например, если нам нужно вытащить из данного массива число 31, то достаточно выполнить:

In [None]:
a[2][1][3]    #  или a[2, 1, 3]

В самом деле, у массивов есть целый ряд важных атрибутов. Например, количество осей массива (его размерность), которую при работе с очень большими массивами, не всегда легко увидеть:

In [None]:
a.ndim

Массив a действительно трехмерный. 

Но иногда становится интересно, а на сколько же большой массив перед нами. Например, какой он формы, т.е. сколько элементов расположено вдоль каждой оси? 
Ответить позволяет метод `ndarray.shape`:

In [None]:
a.shape

Метод `ndarray.size` просто возвращает общее количество элементов массива:

In [None]:
a.size

Еще может встать такой вопрос - сколько памяти занимает наш массив? 

Иногда даже возникает такой вопрос - влезет ли результирующий массив после всех вычислений в оперативную память? 

Что бы на него ответить надо знать, сколько "весит" один элемент массива:

In [None]:
a.itemsize    #  эквивалентно ndarray.dtype.itemsize

`ndarray.itemsize` возвращает размер элемента в байтах. 

Теперь мы можем узнать сколько "весит" наш массив:

In [None]:
a.size * a.itemsize

Итого - 384 байта. На самом деле, размер занимаемой массивом памяти, зависит не только от количества элементов в нем, но и от испльзуемого типа данных:

In [None]:
a.dtype

`dtype('int64')` - означает, что используется целочисленный тип данных, в котором для хранения одного числа выделяется 64 бита памяти. 

Но если мы выполним какие-нибудь вычисления с массивом, то тип данных может измениться:

In [None]:
b = a/3.14
b

In [None]:
b.dtype

Теперь у нас есть еще один массив - массив `b` и его тип данных `'float64'` - вещественные числа (числа с плавающей точкой) длинной 64 бита. 

А его размер:

In [None]:
b.size * b.itemsize

### Создание массивов в NumPy

[Большой обзор функций для создания массивов](https://pyprog.pro/array_creation/array_creation_functions.html)

И так, массив может быть создан из обычного списка или кортежа Python с использованием функции `array()`. 

Причем тип полученного массива зависит от типа элементов последовательности:

In [None]:
import numpy as np

a = np.array([1, 2, 3])
a

In [None]:
a.dtype

In [None]:
a = np.array([1.1, 2.2, 3.3])
a

In [None]:
a.dtype

In [None]:
a = np.array([1 + 2j, 2 + 3j])
a.dtype

In [None]:
a = np.array((1, 2, 3))
a

Функция `array()` преобразует последовательности последовательностей в двумерные массивы, а последовательности последовательностей, которые тоже состоят из последовательностей в трехмерные массивы.

То есть уровень вложенности исходной последовательности определяет размерность получаемого массива:

In [None]:
a = np.array([[2, 4], [6, 8], [10, 12]])
a

In [None]:
b = np.array([[[1, 2], [3, 4]], 
              [[5, 6], [7, 8]], 
              [[9, 10], [11, 12]]])
b

In [None]:
a.ndim    #  Количество осей массива

In [None]:
b.ndim

Очень часто возникает задача создания массива определенного размера, причем, чем заполнен массив абсолютно неважно. 

В этом случае можно воспользоваться циклами или генераторами списков (кортежей), но NumPy для таких случаев предлагает более быстрые и менее затратные функции-заполнители.

Функция `zeros` заполняет массив нулями, функция `ones` - единицами, а функция `empty` - случайными числами, которые зависят от состояния памяти. 

По умолчанию, тип создаваемого массива - `float64`.

In [None]:
np.zeros((3,3))

In [None]:
np.ones((3,3))

In [None]:
np.ones((3,3), dtype=complex)  #  Можно изменить тип массива

In [None]:
np.empty([3, 3])

Для создания последовательностей чисел NumPy предоставляет функцию `arange`, которая возвращает одномерные массивы:

In [None]:
np.arange(10)    #  От 0 до указанного числа

In [None]:
np.arange(10, 20)    #  Диапазон

In [None]:
np.arange(20, 100, 10)    #  Диапазон с заданным шагом

In [None]:
np.arange(0, 1, 0.1)    #  Аргументы могут иметь тип float

Если функция `arange` используется с аргументами типа `float`, то предсказать количество элементов в возвращаемом массиве не так-то просто. 

Гораздо чаще возникает необходимость указания не шага изменения чисел в диапазоне, а количества чисел в заданном диапазоне. 

Функция `linspace`, так же как и `arange` принимает три аргумента, но третий аргумент, как раз и указывает количество чисел в диапазоне.

In [None]:
np.linspace(0, 1, 5)

In [None]:
np.linspace(0, 1, 7)

In [None]:
np.linspace(10, 100, 5)

Функция `linspace` удобна еще и тем, что может быть использована для вычисления значений функций на заданном множестве точек:

In [None]:
x = np.linspace(0, 2*np.pi, 10)
x

In [None]:
y1 = np.sin(x)
y1

In [None]:
y2 = np.cos(x)
y2

### Вывод массивов на экран

Чтобы быстрее разобраться с примерами печати массивов воспользуемся методом `ndarray.reshape()`, который позволяет изменять размеры массивов. 

Одномерные массивы в NumPy печатаются в виде строк:

In [None]:
a = np.arange(10)    #  Одномерный массив
print(a)

Двумерные массивы печатаются в виде матриц:

In [None]:
b = np.arange(16).reshape(4, 4)    #  Двумерный массив
print(b)

Трехмерные массивы печатаются в виде списка матриц, которые разделены пустой строкой:

In [None]:
c = np.arange(30).reshape(5, 2, 3)    #  Трехмерный массив
print(c)

Можете поэкспериментировать с печатью массивов большей размерности и вы убедитесь, что в ней довольно легко ориентироваться.

В случае, если массив очень большой (больше 1000 элементов), NumPy печатает только начало и конец массива, заменяя его центральную часть многоточием.

In [None]:
print(np.arange(1001))

In [None]:
print(np.arange(1000000))

In [None]:
print(np.arange(1000000).reshape(1000,1000))

Если необходимо выводить весь массив целиком, то такое поведение печати можно изменить с помощью `set_printoptions`.

> np.set_printoptions(threshold=np.nan)

### Файловый ввод и вывод массивов

Занимаясь научными вычислениями, вы получаете результаты, которые должны быть обязательно сохранены. 

Самый надежный способ хранения - это загрузка массивов с результатами в файл, так как их легко хранить и передавать. 

Для данных нужд, NumPy предоставляет очень удобные инструменты, позволяющие производить загрузку и выгрузку массивов в файлы различных форматов, а также производить их сжатие, необходимое для больших массивов.

### Двоичные файлы NumPy (.npy, .npz)

NumPy имеет два собственных формата файлов `.npy` - для хранения массивов без сжатия и `.npz` - для предварительного сжатия массивов. 

Если массивы, которые необходимо сохранить являются небольшими, то можно воспользоваться функцией `numpy.save()`. В самом простом случае, данная функция принимает всего два аргумента - имя файла в который будет сохранен массив и имя самого сохраняемого массива. Однако следует помнить, что файл будет сохранен, в той директории в которой происходит выполнение скрипта Python или в указанном месте:

In [None]:
import numpy as np

a = np.arange(12).reshape(3, 4)
a

In [None]:
b = np.arange(16).reshape(4, 4)
b

In [None]:
#  Файл сохранится в той же папке что и исполняемый скрипт
np.save('example_1', a)

После того как массив сохранен, его можно загрузить из файла с помощью функции `numpy.load()`, указав в виде строки имя необходимого файла, если он находится в той же директории, что и выполняемый скрипт Python, или путь к нему, если он располагается в другом месте:

In [None]:
import numpy as np

a = np.load('example_1.npy')
a

Файлы `.npy` удобны для хранения одного массива, если в одном файле нужно сохранить несколько массивов, то необходимо воспользоваться функцией `numpy.savez()`, которая сохранит их в несжатом виде в файле NumPy с форматом `.npz`.

In [None]:
a = np.array([1, 2, 3])
b = np.array([[1, 1], [0, 0]])
c = np.array([[1], [2], [3]])

np.savez('example_2', a, b, c)

После сохранения массивов в файл `.npz` они могут быть загружены с помощью, уже знакомой нам функции `numpy.load()`. Однако, имена массивов теперь изменились с `a`, `b` и `c` на `arr_0`, `arr_1` и `arr_2` соответственно:

In [None]:
ex_2 = np.load('example_2.npz')

In [None]:
ex_2.files

In [None]:
ex_2['arr_0']

In [None]:
ex_2['arr_1']

In [None]:
ex_2['arr_2']

Что бы вместе с массивами сохранялись их оригинальные имена, необходимо в функции `numpy.savez()` указывать их как ключи словарей Python:

In [None]:
np.savez('example_2', a=a, b=b, c=c)

In [None]:
ex_2 = np.load('example_2.npz')

In [None]:
ex_2.files

In [None]:
ex_2['a']

В случае очень больших массивов можно воспользоваться функцией `numpy.savez_compressed()`.

In [None]:
a = np.arange(100000)
a

In [None]:
#  Файл example_3.npy занимает 400 кБ на диске:
np.save('example_3', a)

#  файл example_3.npynpz занимает всего 139 кБ на диске:
np.savez_compressed('example_3', a)

На самом деле, файлы `.npz` это просто zip-архив который содержит отдельные файлы `.npy` для каждого массива.

После того как файл был загружен с помощью функции `numpy.savez_compressed()` его так же легко загрузить с помощью функции `numpy.load()`:

In [None]:
ex_3 = np.load('example_3.npz')
ex_3.files

In [None]:
ex_3['arr_0']