## Создание массивов  в Numpy

NumPy это open-source модуль для python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами.


Основным объектом NumPy является однородный многомерный массив (в numpy называется numpy.ndarray). Это многомерный массив элементов (обычно чисел), одного типа.

Наиболее важные атрибуты объектов ndarray:

ndarray.ndim - число измерений (чаще их называют "оси") массива.

ndarray.shape - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.

ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.

ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные.

ndarray.itemsize - размер каждого элемента массива в байтах.

ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

In [None]:
import sys
import numpy as np

In [None]:
a = np.array([1, 2, 3])

In [None]:
type(a)

In [None]:
# нулевой массив
a = np.zeros((3,5))

In [None]:
print(a)

In [None]:
# единичный массив
a = np.ones((3,5))
print(a)

In [None]:
# диагональный массив
a = np.eye(5)
print(a)

In [None]:
# размеры массива, его форма
a.shape

In [None]:
# количество элементов массива
a.size

In [None]:
a.dtype

In [None]:
# размер каждого элемента массива в байтах
a.itemsize

In [None]:
# буфер, содержащий фактические элементы массива
a.data

Для создания последовательностей чисел, в NumPy имеется функция arange(), аналогичная встроенной в Python range(), только вместо списков она возвращает массивы, и принимает не только целые значения:

In [None]:
np.arange(10, 30, 5)

In [None]:
np.arange(0, 1, 0.1)

Вообще, при использовании arange() с аргументами типа float, сложно быть уверенным в том, сколько элементов будет получено (из-за ограничения точности чисел с плавающей запятой). Поэтому, в таких случаях обычно лучше использовать функцию linspace(), которая вместо шага в качестве одного из аргументов принимает число, равное количеству нужных элементов:

In [None]:
np.linspace(0, 2, 9)  # 9 чисел от 0 до 2 включительно

fromfunction(): применяет функцию ко всем комбинациям индексов

In [None]:
def f1(i, j):
    return 3 * i + j

In [None]:
np.fromfunction(f1, (3, 4))

In [None]:
?np.fromfunction()

In [None]:
np.fromfunction(lambda i, j: i == j, (3, 3), dtype=int)

Если массив слишком большой, чтобы его печатать, NumPy автоматически скрывает центральную часть массива и выводит только его уголки.

In [None]:
print(np.arange(0, 3000, 1))

Если вам действительно нужно увидеть весь массив, используйте функцию numpy.set_printoptions:

In [None]:
np.set_printoptions(threshold=sys.maxsize)

И вообще, с помощью этой функции можно настроить печать массивов "под себя". Функция numpy.set_printoptions принимает несколько аргументов:

precision : количество отображаемых цифр после запятой (по умолчанию 8).

threshold : количество элементов в массиве, вызывающее обрезание элементов (по умолчанию 1000).

edgeitems : количество элементов в начале и в конце каждой размерности массива (по умолчанию 3).

linewidth : количество символов в строке, после которых осуществляется перенос (по умолчанию 75).

suppress : если True, не печатает маленькие значения в scientific notation (по умолчанию False).

nanstr : строковое представление NaN (по умолчанию 'nan').

infstr : строковое представление inf (по умолчанию 'inf').

formatter : позволяет более тонко управлять печатью массивов.

In [None]:
?np.set_printoptions

Математические операции над массивами выполняются поэлементно. Создается новый массив, который заполняется результатами действия оператора.

In [None]:
a = np.array([20, 30, 40, 50])

In [None]:
b = np.arange(4)

In [None]:
a+b

In [None]:
a - b

In [None]:
a * b

In [None]:
a/b

In [None]:
a % b

In [None]:
c = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
d = np.array([[1, 2], [3, 4], [5, 6]])

In [None]:
a + 1

In [None]:
a**3

In [None]:
a<35

NumPy также предоставляет множество математических операций для обработки массивов:

In [None]:
np.cos(a)

In [None]:
np.arctan(a)

Многие операции, такие как, например, вычисление суммы всех элементов массива, представлены также и в виде методов класса ndarray.

In [None]:
a = np.array([[1, 2, 3], [4, 5, 6]])

In [None]:
np.sum(a)

In [None]:
a.sum()

In [None]:
a.min()

In [None]:
a.max()

In [None]:
a.min(axis=0)  # Наименьшее число в каждом столбце

In [None]:
a.min(axis=1)  # Наименьшее число в каждой строке

## Индексы, срезы, итерации

In [None]:
a = np.arange(10) ** 3

In [None]:
a

In [None]:
a[3:7]

In [None]:
a[3:7]=8

In [None]:
a

In [None]:
a[::-1]

In [None]:
for i in a:
    print(i ** 1/3)

У многомерных массивов на каждую ось приходится один индекс. Индексы передаются в виде последовательности чисел, разделенных запятыми (то бишь, кортежами):

In [None]:
b = np.array([[  0, 1, 2, 3],[10, 11, 12, 13],[20, 21, 22, 23],[30, 31, 32, 33],[40, 41, 42, 43]])

In [None]:
b[2,3]

In [None]:
b[2][3]

In [None]:
b[:,2]  # Третий столбец

In [None]:
b[:2]  # Первые две строки

In [None]:
b[1:3, : : ]  # Вторая и третья строки

Когда индексов меньше, чем осей, отсутствующие индексы предполагаются дополненными с помощью срезов:

In [None]:
b[-1]

b[i] можно читать как b[i, <столько символов ':', сколько нужно>]. В NumPy это также может быть записано с помощью точек, как b[i, ...].

Например, если x имеет ранг 5 (то есть у него 5 осей), тогда

    x[1, 2, ...] эквивалентно x[1, 2, :, :, :],
    x[... , 3] то же самое, что x[:, :, :, :, 3] и
    x[4, ... , 5, :] это x[4, :, :, 5, :].

In [None]:
a = np.array(([[0, 1, 2], [10, 12, 13]], [[100, 101, 102], [110, 112, 113]]))

In [None]:
a

In [None]:
a.shape

In [None]:
a

In [None]:
a[1, ...]  # то же, что a[1, : , :] или a[1]

In [None]:
c[... ,2]  # то же, что a[: , : ,2]

Итерирование многомерных массивов начинается с первой оси

In [None]:
for row in a:
    print(row)

Однако, если нужно перебрать поэлементно весь массив, как если бы он был одномерным, для этого можно использовать атрибут flat:

In [None]:
for el in a.flat:
    print(el)

In [None]:
a

In [None]:
a.shape

In [None]:
a.ravel() # Делает массив плоским

In [None]:
a.shape = (6,2)

In [None]:
a

In [None]:
a.transpose()

In [None]:
a.reshape(3,4)

Метод reshape() возвращает ее аргумент с измененной формой, в то время как метод resize() изменяет сам массив:

In [None]:
a

In [None]:
a.resize((2, 6))

In [None]:
a

# Объединение массивов

Несколько массивов могут быть объединены вместе вдоль разных осей с помощью функций hstack и vstack.

hstack() объединяет массивы по первым осям, vstack() — по последним:

In [None]:
a = np.array([[1, 2], [3, 4]])

In [None]:
b = np.array([[5, 6], [7, 8]])

In [None]:
np.vstack((a, b))

In [None]:
np.hstack((a, b))

Функция column_stack() объединяет одномерные массивы в качестве столбцов двумерного массива:

In [None]:
np.column_stack((a, b))

Аналогично для строк имеется функция row_stack().

In [None]:
np.row_stack((a, b))

Разбиение массива

Используя hsplit() вы можете разбить массив вдоль горизонтальной оси, указав либо число возвращаемых массивов одинаковой формы, либо номера столбцов, после которых массив разрезается "ножницами":

In [None]:
a = np.arange(12).reshape((2, 6))

In [None]:
a

In [None]:
np.hsplit(a, 3)  # Разбить на 3 части

In [None]:
np.hsplit(a, (3, 4))  # Разрезать a после третьего и четвёртого столбца

Функция vsplit() разбивает массив вдоль вертикальной оси, а array_split() позволяет указать оси, вдоль которых произойдет разбиение.

# Копии и представления

При работе с массивами, их данные иногда необходимо копировать в другой массив, а иногда нет. Это часто является источником путаницы. Возможно 3 случая:

### Вообще никаких копий

Простое присваивание не создает ни копии массива, ни копии его данных

In [None]:
a = np.arange(12)

In [None]:
b = a  # Нового объекта создано не было

In [None]:
b is a

In [None]:
b.shape = (3,4) # изменит форму a

In [None]:
a.shape

Python передает изменяемые объекты как ссылки, поэтому вызовы функций также не создают копий.

### Представление или поверхностная копия

Разные объекты массивов могут использовать одни и те же данные. Метод view() создает новый объект массива, являющийся представлением тех же данных.

In [None]:
c = a.view()

In [None]:
c is a

In [None]:
c.base is a  # c это представление данных, принадлежащих a

In [None]:
c.shape = (2,6)  # форма а не поменяется

In [None]:
c[0,4] = 1234  # данные а изменятся

In [None]:
s = a[:,1:3] #Срез массива это представление

In [None]:
s [:]

### Глубокая копия

In [None]:
d = a.copy()  # создается новый объект массива с новыми данными

In [None]:
d is a

In [None]:
d.base is a  # d не имеет ничего общего с а

In [None]:
d[0, 0] = 9999

In [None]:
a

In [None]:
d