## Создание массивов  в Numpy

NumPy это open-source модуль для python, который предоставляет общие математические и числовые операции в виде пре-скомпилированных, быстрых функций. Они объединяются в высокоуровневые пакеты. Они обеспечивают функционал, который можно сравнить с функционалом MatLab. NumPy (Numeric Python) предоставляет базовые методы для манипуляции с большими массивами и матрицами.


Основным объектом NumPy является однородный многомерный массив (в numpy называется numpy.ndarray). Это многомерный массив элементов (обычно чисел), одного типа.

Наиболее важные атрибуты объектов ndarray:

ndarray.ndim - число измерений (чаще их называют "оси") массива.

ndarray.shape - размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из n строк и m столбов, shape будет (n,m). Число элементов кортежа shape равно ndim.

ndarray.size - количество элементов массива. Очевидно, равно произведению всех элементов атрибута shape.

ndarray.dtype - объект, описывающий тип элементов массива. Можно определить dtype, используя стандартные типы данных Python. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: bool_, character, int8, int16, int32, int64, float8, float16, float32, float64, complex64, object_, так и возможность определить собственные типы данных, в том числе и составные.

ndarray.itemsize - размер каждого элемента массива в байтах.

ndarray.data - буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

In [2]:
import sys
import numpy as np

In [3]:
a = np.array([1, 2, 3])

In [4]:
type(a)

numpy.ndarray

In [6]:
# нулевой массив
a = np.zeros((3,5))

In [7]:
print(a)

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


In [8]:
# единичный массив
a = np.ones((3,5))
print(a)

[[1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]
 [1. 1. 1. 1. 1.]]


In [9]:
# диагональный массив
a = np.eye(5)
print(a)

[[1. 0. 0. 0. 0.]
 [0. 1. 0. 0. 0.]
 [0. 0. 1. 0. 0.]
 [0. 0. 0. 1. 0.]
 [0. 0. 0. 0. 1.]]


In [10]:
# размеры массива, его форма
a.shape

(5, 5)

In [11]:
# количество элементов массива
a.size

25

In [12]:
a.dtype

dtype('float64')

In [13]:
# размер каждого элемента массива в байтах
a.itemsize

8

In [14]:
# буфер, содержащий фактические элементы массива
a.data

<memory at 0x0000019B56CA02B0>

Для создания последовательностей чисел, в NumPy имеется функция arange(), аналогичная встроенной в Python range(), только вместо списков она возвращает массивы, и принимает не только целые значения:

In [15]:
np.arange(10, 30, 5)

array([10, 15, 20, 25])

In [16]:
np.arange(0, 1, 0.1)

array([0. , 0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9])

Вообще, при использовании arange() с аргументами типа float, сложно быть уверенным в том, сколько элементов будет получено (из-за ограничения точности чисел с плавающей запятой). Поэтому, в таких случаях обычно лучше использовать функцию linspace(), которая вместо шага в качестве одного из аргументов принимает число, равное количеству нужных элементов:

In [17]:
np.linspace(0, 2, 9)  # 9 чисел от 0 до 2 включительно

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

fromfunction(): применяет функцию ко всем комбинациям индексов

In [19]:
def f1(i, j):
    return 3 * i + j

In [20]:
np.fromfunction(f1, (3, 4))

array([[0., 1., 2., 3.],
       [3., 4., 5., 6.],
       [6., 7., 8., 9.]])

In [21]:
?np.fromfunction()

Object `np.fromfunction()` not found.


In [22]:
np.fromfunction(lambda i, j: i == j, (3, 3), dtype=int)

array([[ True, False, False],
       [False,  True, False],
       [False, False,  True]])

Если массив слишком большой, чтобы его печатать, NumPy автоматически скрывает центральную часть массива и выводит только его уголки.

In [23]:
print(np.arange(0, 3000, 1))

[   0    1    2 ... 2997 2998 2999]


Если вам действительно нужно увидеть весь массив, используйте функцию numpy.set_printoptions:

In [25]:
np.set_printoptions(threshold=sys.maxsize)

И вообще, с помощью этой функции можно настроить печать массивов "под себя". Функция numpy.set_printoptions принимает несколько аргументов:

precision : количество отображаемых цифр после запятой (по умолчанию 8).

threshold : количество элементов в массиве, вызывающее обрезание элементов (по умолчанию 1000).

edgeitems : количество элементов в начале и в конце каждой размерности массива (по умолчанию 3).

linewidth : количество символов в строке, после которых осуществляется перенос (по умолчанию 75).

suppress : если True, не печатает маленькие значения в scientific notation (по умолчанию False).

nanstr : строковое представление NaN (по умолчанию 'nan').

infstr : строковое представление inf (по умолчанию 'inf').

formatter : позволяет более тонко управлять печатью массивов.

In [26]:
?np.set_printoptions

Математические операции над массивами выполняются поэлементно. Создается новый массив, который заполняется результатами действия оператора.

In [27]:
a = np.array([20, 30, 40, 50])

In [28]:
b = np.arange(4)

In [29]:
a+b

array([20, 31, 42, 53])

In [30]:
a - b

array([20, 29, 38, 47])

In [31]:
a * b

array([  0,  30,  80, 150])

In [32]:
a/b

  a/b


array([        inf, 30.        , 20.        , 16.66666667])

In [33]:
a % b

  a % b


array([0, 0, 0, 2], dtype=int32)

In [36]:
c = np.array([[1, 2, 3], [4, 5, 6]])

In [37]:
d = np.array([[1, 2], [3, 4], [5, 6]])

In [38]:
a + 1

array([21, 31, 41, 51])

In [39]:
a**3

array([  8000,  27000,  64000, 125000], dtype=int32)

In [40]:
a<35

array([ True,  True, False, False])

NumPy также предоставляет множество математических операций для обработки массивов:

In [41]:
np.cos(a)

array([ 0.40808206,  0.15425145, -0.66693806,  0.96496603])

In [42]:
np.arctan(a)

array([1.52083793, 1.53747533, 1.54580153, 1.55079899])

Многие операции, такие как, например, вычисление суммы всех элементов массива, представлены также и в виде методов класса ndarray.

In [43]:
a = np.array([[1, 2, 3], [4, 5, 6]])

In [44]:
np.sum(a)

21

In [45]:
a.sum()

21

In [46]:
a.min()

1

In [47]:
a.max()

6

In [48]:
a.min(axis=0)  # Наименьшее число в каждом столбце

array([1, 2, 3])

In [49]:
a.min(axis=1)  # Наименьшее число в каждой строке

array([1, 4])

## Индексы, срезы, итерации

In [50]:
a = np.arange(10) ** 3

In [51]:
a

array([  0,   1,   8,  27,  64, 125, 216, 343, 512, 729], dtype=int32)

In [52]:
a[3:7]

array([ 27,  64, 125, 216], dtype=int32)

In [53]:
a[3:7]=8

In [54]:
a

array([  0,   1,   8,   8,   8,   8,   8, 343, 512, 729], dtype=int32)

In [55]:
a[::-1]

array([729, 512, 343,   8,   8,   8,   8,   8,   1,   0], dtype=int32)

In [56]:
for i in a:
    print(i ** 1/3)

0.0
0.3333333333333333
2.6666666666666665
2.6666666666666665
2.6666666666666665
2.6666666666666665
2.6666666666666665
114.33333333333333
170.66666666666666
243.0


У многомерных массивов на каждую ось приходится один индекс. Индексы передаются в виде последовательности чисел, разделенных запятыми (то бишь, кортежами):

In [57]:
b = np.array([[  0, 1, 2, 3],[10, 11, 12, 13],[20, 21, 22, 23],[30, 31, 32, 33],[40, 41, 42, 43]])

In [58]:
b[2,3]

23

In [59]:
b[2][3]

23

In [60]:
b[:,2]  # Третий столбец

array([ 2, 12, 22, 32, 42])

In [61]:
b[:2]  # Первые две строки

array([[ 0,  1,  2,  3],
       [10, 11, 12, 13]])

In [62]:
b[1:3, : : ]  # Вторая и третья строки

array([[10, 11, 12, 13],
       [20, 21, 22, 23]])

Когда индексов меньше, чем осей, отсутствующие индексы предполагаются дополненными с помощью срезов:

In [63]:
b[-1]

array([40, 41, 42, 43])

b[i] можно читать как b[i, <столько символов ':', сколько нужно>]. В NumPy это также может быть записано с помощью точек, как b[i, ...].

Например, если x имеет ранг 5 (то есть у него 5 осей), тогда

    x[1, 2, ...] эквивалентно x[1, 2, :, :, :],
    x[... , 3] то же самое, что x[:, :, :, :, 3] и
    x[4, ... , 5, :] это x[4, :, :, 5, :].

In [64]:
a = np.array(([[0, 1, 2], [10, 12, 13]], [[100, 101, 102], [110, 112, 113]]))

In [65]:
a

array([[[  0,   1,   2],
        [ 10,  12,  13]],

       [[100, 101, 102],
        [110, 112, 113]]])

In [66]:
a.shape

(2, 2, 3)

In [67]:
a

array([[[  0,   1,   2],
        [ 10,  12,  13]],

       [[100, 101, 102],
        [110, 112, 113]]])

In [68]:
a[1, ...]  # то же, что a[1, : , :] или a[1]

array([[100, 101, 102],
       [110, 112, 113]])

In [69]:
c[... ,2]  # то же, что a[: , : ,2]

array([3, 6])

Итерирование многомерных массивов начинается с первой оси

In [70]:
for row in a:
    print(row)

[[ 0  1  2]
 [10 12 13]]
[[100 101 102]
 [110 112 113]]


Однако, если нужно перебрать поэлементно весь массив, как если бы он был одномерным, для этого можно использовать атрибут flat:

In [71]:
for el in a.flat:
    print(el)

0
1
2
10
12
13
100
101
102
110
112
113


In [72]:
a

array([[[  0,   1,   2],
        [ 10,  12,  13]],

       [[100, 101, 102],
        [110, 112, 113]]])

In [73]:
a.shape

(2, 2, 3)

In [74]:
a.ravel() # Делает массив плоским

array([  0,   1,   2,  10,  12,  13, 100, 101, 102, 110, 112, 113])

In [77]:
a.shape = (6,2)

In [78]:
a

array([[  0,   1],
       [  2,  10],
       [ 12,  13],
       [100, 101],
       [102, 110],
       [112, 113]])

In [79]:
a.transpose()

array([[  0,   2,  12, 100, 102, 112],
       [  1,  10,  13, 101, 110, 113]])

In [80]:
a.reshape(3,4)

array([[  0,   1,   2,  10],
       [ 12,  13, 100, 101],
       [102, 110, 112, 113]])

Метод reshape() возвращает ее аргумент с измененной формой, в то время как метод resize() изменяет сам массив:

In [81]:
a

array([[  0,   1],
       [  2,  10],
       [ 12,  13],
       [100, 101],
       [102, 110],
       [112, 113]])

In [82]:
a.resize((2, 6))

In [83]:
a

array([[  0,   1,   2,  10,  12,  13],
       [100, 101, 102, 110, 112, 113]])

# Объединение массивов

Несколько массивов могут быть объединены вместе вдоль разных осей с помощью функций hstack и vstack.

hstack() объединяет массивы по первым осям, vstack() — по последним:

In [None]:
a = np.array([[1, 2], [3, 4]])

In [None]:
b = np.array([[5, 6], [7, 8]])

In [None]:
np.vstack((a, b))

In [None]:
np.hstack((a, b))

Функция column_stack() объединяет одномерные массивы в качестве столбцов двумерного массива:

In [None]:
np.column_stack((a, b))

Аналогично для строк имеется функция row_stack().

In [None]:
np.row_stack((a, b))

Разбиение массива

Используя hsplit() вы можете разбить массив вдоль горизонтальной оси, указав либо число возвращаемых массивов одинаковой формы, либо номера столбцов, после которых массив разрезается "ножницами":

In [None]:
a = np.arange(12).reshape((2, 6))

In [None]:
a

In [None]:
np.hsplit(a, 3)  # Разбить на 3 части

In [None]:
np.hsplit(a, (3, 4))  # Разрезать a после третьего и четвёртого столбца

Функция vsplit() разбивает массив вдоль вертикальной оси, а array_split() позволяет указать оси, вдоль которых произойдет разбиение.

# Копии и представления

При работе с массивами, их данные иногда необходимо копировать в другой массив, а иногда нет. Это часто является источником путаницы. Возможно 3 случая:

### Вообще никаких копий

Простое присваивание не создает ни копии массива, ни копии его данных

In [None]:
a = np.arange(12)

In [None]:
b = a  # Нового объекта создано не было

In [None]:
b is a

In [None]:
b.shape = (3,4) # изменит форму a

In [None]:
a.shape

Python передает изменяемые объекты как ссылки, поэтому вызовы функций также не создают копий.

### Представление или поверхностная копия

Разные объекты массивов могут использовать одни и те же данные. Метод view() создает новый объект массива, являющийся представлением тех же данных.

In [None]:
c = a.view()

In [None]:
c is a

In [None]:
c.base is a  # c это представление данных, принадлежащих a

In [None]:
c.shape = (2,6)  # форма а не поменяется

In [None]:
c[0,4] = 1234  # данные а изменятся

In [None]:
s = a[:,1:3] #Срез массива это представление

In [None]:
s [:]

### Глубокая копия

In [None]:
d = a.copy()  # создается новый объект массива с новыми данными

In [None]:
d is a

In [None]:
d.base is a  # d не имеет ничего общего с а

In [None]:
d[0, 0] = 9999

In [None]:
a

In [None]:
d