# ЗАНЯТИЕ 3. Библиотека NumPy[1]

[1] <span>&#9757;&#128578;</span> Занятие разработано на основе русскоязычного источника [9] и официального руководства `NumPy` [10].

## Цели занятия

Получение представления о доступных методах и объектах библиотеки `NumPy`. Изучение основных принципов практической работы с ними.

## Порядок выполнения работы

`NumPy` — это библиотека языка `Python`, добавляющая поддержку больших многомерных массивов и матриц, вместе с большой библиотекой высокоуровневых (и очень быстрых) математических функций для операций с этими массивами.

Основным объектом `NumPy` является однородный многомерный массив (в `numpy` называется `numpy.ndarray`). Это многомерный массив элементов (обычно чисел), одного типа.

Ниже представлены наиболее важные атрибуты объектов `ndarray`:

-   `ndarray.ndim` – число измерений (чаще их называют “оси”) массива.

-   `ndarray.shape` – размеры массива, его форма. Это кортеж натуральных чисел, показывающий длину массива по каждой оси. Для матрицы из `n` строк и `m` столбов, `shape` будет `(n,m)`. Число элементов кортежа `shape` равно `ndim`.

-   `ndarray.size` – количество элементов массива. Очевидно, равно произведению всех элементов атрибута `shape`.

-   `ndarray.dtype` – объект, описывающий тип элементов массива. Можно определить `dtype`, используя стандартные типы данных `Python`. NumPy здесь предоставляет целый букет возможностей, как встроенных, например: `bool`, `character`, `int8`, `int16`, `int32`, `int64`, `float8`, `float16`, `float32`, `float64`, `complex64`, `object`, так и возможность определить собственные типы данных, в том числе и составные.

-   `ndarray.itemsize` – размер каждого элемента массива в байтах.

-   `ndarray.data` – буфер, содержащий фактические элементы массива. Обычно не нужно использовать этот атрибут, так как обращаться к элементам массива проще всего с помощью индексов.

### Создание массивов

В `NumPy` существует много способов создать массив. Один из наиболее простых – создать массив из обычных списков или кортежей `Python`, используя функцию `numpy.array()` (обратите внимание: `array()` – это метод, создающий объект типа `ndarray`):

In [1]:
import numpy as np  
  
a = np.array([1, 2, 3])  
print (a)  
print(type(a)) #вывод типа переменной a  

[1 2 3]
<class 'numpy.ndarray'>


Приведем пример создания двумерного массива, где элемент `b[0][0] = 1.5`, а элемент `b[1][0] = 4`:

In [2]:
b = np.array([[1.5, 2, 3], [4, 5, 6]])  

Функция `array()` трансформирует вложенные последовательности в многомерные массивы. Тип элементов массива зависит от типа элементов исходной последовательности (но можно и переопределить его в момент создания). Например, в примере ниже, так как один из элементов, т.е. число 1.5, принадлежит к типу `float`, то и остальные элементы будут восприняты как `float` (о чем говорит точка после числа и при этом без указания значения дробной части):

In [3]:
b = np.array([[1.5, 2, 3], [4, 5, 6]])  
print (b)  

[[1.5 2.  3. ]
 [4.  5.  6. ]]


Можно также переопределить тип в момент создания:

In [4]:
b = np.array([[1.5, 2, 3], [4, 5, 6]], dtype=complex)  
print (b)  

[[1.5+0.j 2. +0.j 3. +0.j]
 [4. +0.j 5. +0.j 6. +0.j]]


Функция `array()` не единственная функция для создания массивов. Обычно элементы массива вначале неизвестны, а массив, в котором они будут храниться, уже нужен. Поэтому имеется несколько функций для того, чтобы создавать массивы с каким-то исходным содержимым (по умолчанию тип создаваемого массива – `float64`).

Функция `zeros()` создает массив из нулей, а функция `ones()` — массив из единиц. Обе функции принимают кортеж с размерами, и аргумент `dtype`, её синтаксис следующий:

```python
numpy.ones(shape, dtype=None, order=‘C’, *, like=None)
```

Она возвращает новый массив заданной формы, типа и порядка, заполненный единицами, для этого ей необходимо передать следующие параметры:

-   `shape` – Последовательность целых чисел, определяющая форму нового массива, например `(2, 3)` или `2` (одномерный массив с двумя элементами).

-   `dtypedata-type` – необязательный параметр Желаемый тип данных для массива, например, `numpy.int8`. По умолчанию – `numpy.float64`.

-   `order{‘C’, ‘F’}` – необязательный параметр, по умолчанию равный `C`, ``определяющий порядок сохранения многомерных данных в памяти в порядке строк (стиль C, т.е. стиль языка СИ) или столбцов (стиль языка Fortran).

-   `likearray_like` – ссылочный объект, позволяющий создавать массивы, которые не являются массивами `NumPy` (полезно, е.сли вы хотите сделать из обычного массива массив `NumPy`).

Ниже представлен пример создания массивов двух разных форм, заполненных нулями:

In [5]:
print (np.zeros((3, 5)))  
print('\n')  
print (np.ones((2, 2, 2)))  

[[0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0.]]


[[[1. 1.]
  [1. 1.]]

 [[1. 1.]
  [1. 1.]]]


Функция `eye()` создаёт единичную матрицу (двумерный массив, где по диагонали единицы):

In [6]:
np.eye(5)  

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

Функция `empty()` создает массив без его заполнения. Исходное содержимое случайно и зависит от состояния памяти на момент создания массива (то есть от того «мусора», что в ней хранится):

In [7]:
print (np.empty((3, 3)))  
print('Если вам повезет, то "мусор" должен быть разный')  
print (np.empty((3, 3)))  

[[0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 8.06315134e-321]
 [1.07599776e-282 1.92814917e-180 1.07839320e-282]]
Если вам повезет, то "мусор" должен быть разный
[[0.00000000e+000 0.00000000e+000 0.00000000e+000]
 [0.00000000e+000 0.00000000e+000 8.06315134e-321]
 [1.07599776e-282 1.92814917e-180 1.07839320e-282]]


Для создания последовательностей чисел, в `NumPy` имеется функция `arange()`, аналогичная встроенной в `Python` функции `range() (`её мы рассматривали при изучении цикла `for)`, только вместо списков она возвращает массивы, и принимает не только целые значения. Её синтаксис следующий:

```python
numpy.arange ([start,] stop, [step,], dtype = None)  
```
Она возвращает объект типа «`numpy.ndarray`». Первые три параметра определяют диапазон значений, а четвертый – указывает тип элементов:

-   `start` – это число (целое или десятичное), которое определяет первое значение в массиве.

-   `stop` – это число, определяющее конец массива и не включенное в массив.

-   `step` – это число, которое определяет интервал (разность) между каждыми двумя последовательными значениями в массиве и по умолчанию равен 1.

-   `dtype` – это тип элементов выходного массива; по умолчанию используется значение `None`.

Ниже представлен пример использования функции `arange()`:

In [8]:
print (np.arange(10, 30, 5))  
print (np.arange(0, 1, 0.1))  

[10 15 20 25]
[0.  0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9]


Если функция `arange()` используется с аргументами типа `float`, то предсказать количество элементов в возвращаемом массиве не просто. Гораздо чаще возникает необходимость указания не шага изменения чисел в диапазоне, а количества чисел в заданном диапазоне. Функция `linspace()`, так же как и `arange()` принимает три аргумента, но третий аргумент, как раз и указывает количество чисел в диапазоне. Ниже представлен пример использования функции `linspace()`:

In [9]:
np.linspace(0, 2, 9) # 9 чисел от 0 до 2 включительно  

array([0.  , 0.25, 0.5 , 0.75, 1.  , 1.25, 1.5 , 1.75, 2.  ])

Функция `fromfunction()` создает массив `NumPy` посредством применения пользовательской функции ко всем комбинациям индексов. Для этого она требует передать ей следующие параметры:

-   `function` – подлежащая выполнению функция. Она может содержать `N` параметров, при этом количество параметров определяет размерность выходного массива. Каждый из `N` параметров перебирает элементы вдоль определенной оси. Например, если мы используем два параметра, и указываем размеры массива `(3, 3)`, то один из параметров пробегал бы значения массива `array([[0,0,0],[1,1,1],[2,2,2]])`, а другой значения массива `array([[0,1,2],[0,1,2],[0,1,2],])`.

-   `shape` – целое число, список или кортеж целых чисел. Задает размеры необходимого массива.

-   `dtype` – тип данных `NumPy` (необязательный параметр). Определяет тип данных выходного массива.

Ниже представлен пример использования функции `fromfunction()`, в котором на основе индексов элементов был определен массив, где в значения записался результат вычисления индекса для конкретного элемента:

In [10]:
def f1(i, j):  
    return 4 * i + j  
  
print (np.fromfunction(f1, (3, 4))) # (3, 4)- размер массива  
print (np.fromfunction(f1, (3, 3)))  

[[ 0.  1.  2.  3.]
 [ 4.  5.  6.  7.]
 [ 8.  9. 10. 11.]]
[[ 0.  1.  2.]
 [ 4.  5.  6.]
 [ 8.  9. 10.]]


### Структурированные массивы

Существует возможность создавать массивы с разными типами данных в элементах. То есть в одном массиве могут быть как текстовые, так и целочисленные, так и другие элементы. Для этого нужно произвести разметку типов при создании массива. Ниже представлен пример, как это можно сделать и работать с этим.

In [None]:
#разметка имен и типов полей
student_def = [("name","S10"),("marks","f8")]

#создание структурированного массива, заполненного нулями
#в качестве типа данных передаем нашу разметку student_def
#2- колличество элементов
student_array = np.zeros((3),dtype=student_def)

#добавление двух оценок в наш структурированный массив
student_array[0] = ("Notmelikov",95)
student_array[1] =("Melikov",90)
student_array[2] =("Melikov1234567",91)

print ('1)', student_array)
print ('2)', student_array["name"])
print ('3)', student_array["marks"])

# Получение имени людей, у кого оценка больше 93
print ('4)', student_array[student_array['marks'] > 93]['name'])

# Получение оценки для тех, у кого имя равно "Melikov"
#буква b перед именем означает, что его нужно взять в байтовом представлении
print ('5)', student_array[student_array['name'] == b"Melikov"]['marks'])

#Получение тех, у кого имя начинается на 'Melikov'
who=np.char.startswith(student_array['name'],b'Melikov')
#получение их индексов
indexes=np.flatnonzero(who)
#печать тех оценок для людей с этими индексами 
print ('6)', student_array[indexes]['marks'])

#сортировка по возрастанию оценок, а затем по имени
sorted_by_marks = np.sort(student_array, order=['marks', 'name'])
print ('7)', sorted_by_marks)

: 

`S10 -` это тип `string` c длинной 10 букв (в примере так же показано, что если попытаться задать больше букв, то часть из них просто пропадет), а тип `f8` – это `float8`, подробнее о доступных типах в `NumPy` можно почитать по url: [<u>https://numpy.org/doc/stable/reference/arrays.dtypes.html</u>](https://numpy.org/doc/stable/reference/arrays.dtypes.html).

Структурированные массивы похожи на структуры в языке `С`, они могут быть полезны, потому что просты и работают очень быстро.

### Печать массивов

Если в массиве слишком много элементов, чтобы их все отобразить на экране, `NumPy` автоматически скрывает центральную часть массива и выводит только его крайние элементы.

In [12]:
print(np.arange(0, 3000, 1))  

[   0    1    2 ... 2997 2998 2999]


Если же вам действительно нужно увидеть весь массив, используйте функцию `numpy.set_printoptions()` для установки числа выводимых элементов. В примере ниже мы указываем библиотеке `NumPy` вывести столько элементов, сколько вообще может содержать структура данных на данной платформе (на основе системной переменной `sys.maxsize`), но вы могли установить любое целое число:

In [13]:
import sys  

#sys.maxsize максимальное значение числа типа Py_ssize_t, т.е., например макс. размерность массива  
np.set_printoptions(threshold=sys.maxsize) #threshold - максимальное допустимое для вывода число элементов.  
print(np.arange(0, 200, 1))  
print('Вы бы могли работать с массивами размером ', sys.maxsize)  

[  0   1   2   3   4   5   6   7   8   9  10  11  12  13  14  15  16  17
  18  19  20  21  22  23  24  25  26  27  28  29  30  31  32  33  34  35
  36  37  38  39  40  41  42  43  44  45  46  47  48  49  50  51  52  53
  54  55  56  57  58  59  60  61  62  63  64  65  66  67  68  69  70  71
  72  73  74  75  76  77  78  79  80  81  82  83  84  85  86  87  88  89
  90  91  92  93  94  95  96  97  98  99 100 101 102 103 104 105 106 107
 108 109 110 111 112 113 114 115 116 117 118 119 120 121 122 123 124 125
 126 127 128 129 130 131 132 133 134 135 136 137 138 139 140 141 142 143
 144 145 146 147 148 149 150 151 152 153 154 155 156 157 158 159 160 161
 162 163 164 165 166 167 168 169 170 171 172 173 174 175 176 177 178 179
 180 181 182 183 184 185 186 187 188 189 190 191 192 193 194 195 196 197
 198 199]
Вы бы могли работать с массивами размером  9223372036854775807


Вы данном примере бы могли вывести на экран сразу все элементы массива, размер которого может быть вплоть до более чем 9 квинтиллионов элементов, т.е. максимальное количество элементов для 64 битной системы (соответствует типу `int64`).

Так же с помощью этой функции можно настроить печать массивов «под свои нужды». Функция `numpy.set_printoptions()` принимает несколько аргументов:

-   `precision` – количество отображаемых цифр после запятой (по умолчанию 8).

-   `threshold` – количество элементов в массиве, вызывающее обрезание элементов (по умолчанию 1000).

-   `edgeitems` – количество элементов в начале и в конце каждой размерности массива (по умолчанию 3).

-   `linewidth` – количество символов в строке, после которых осуществляется перенос (по умолчанию 75).

-   `suppress` – если `True`, не печатает маленькие значения в scientific notation (с англ. – в научной нотации, по умолчанию `False`).

-   `nanstr` – строковое представление неопределенных значений `NaN` (по умолчанию выводится `‘nan’,` англ. Not-a-Number, «не число»).

-   и ещё несколько очень полезных параметров, которые можно изучить в официальной документации по url: <u>https://numpy.org/doc/stable/reference/generated/numpy.set_printoptions.html.</u>

### Базовые операции

Математические операции над массивами выполняются поэлементно. Ниже представлены примеры математических операций между двумя массивами. Обратите внимание, что при делении на 0 интерпретатор выдает предупреждение:

In [14]:
import numpy as np  
  
a = np.array([20, 30, 40, 50])  
b = np.arange(4)  
  
print ('a=',a)  
print ('b=',b)  
  
print ("n1)", a + b)  
print ("2)", a - b)  
print ("3)", a * b)  
print ("4)", a / b) # При делении на 0 возвращается inf (бесконечность)  
print ("5)", a ** b) # Возведение в степень  
print ("6)", a % b) # При взятии остатка от деления на 0 возвращается  

a= [20 30 40 50]
b= [0 1 2 3]
n1) [20 31 42 53]
2) [20 29 38 47]
3) [  0  30  80 150]
4) [        inf 30.         20.         16.66666667]
5) [     1     30   1600 125000]
6) [0 0 0 2]


  print ("4)", a / b) # При делении на 0 возвращается inf (бесконечность)
  print ("6)", a % b) # При взятии остатка от деления на 0 возвращается


Для подобных действий, естественно, массивы должны быть одинаковых размеров, иначе произойдет ошибка:

In [15]:
c = np.array([[1, 2, 3], [4, 5, 6]])  
d = np.array([[1, 2], [3, 4], [5, 6]])  
c + d  

ValueError: operands could not be broadcast together with shapes (2,3) (3,2) 

Также можно производить математические операции между массивом и числом. В этом случае к каждому элементу применяется результат вычисления между этим числом и элементом массива.

In [16]:
print ('a=',a)
print ("1)", a + 1)
print ("2)", a ** 3)
print ("3)", a < 35)  # Можно производить фильтрацию

a= [20 30 40 50]
1) [21 31 41 51]
2) [  8000  27000  64000 125000]
3) [ True  True False False]


`NumPy` также предоставляет множество математических операций для обработки массивов. Полный список можно посмотреть по url: https://docs.scipy.org/doc/numpy/reference/routines.math.html. Ниже представлен пример получения косинуса:

In [17]:
print ('a=',a)  
np.cos(a)  

a= [20 30 40 50]


array([ 0.40808206,  0.15425145, -0.66693806,  0.96496603])

Многие унарные операции, такие как, например, вычисление суммы всех элементов массива, представлены также и в виде методов класса `ndarray`.

In [18]:
a = np.array([[1, 2, 3], [4, 5, 6]])  
  
print ("1)", np.sum(a))  
print ("2)", a.sum()) # у "а" есть все эти методы, ведь оно тоже член библиотеки numpy  
print ("3)", a.min())  
print ("4)", a.max())  

1) 21
2) 21
3) 1
4) 6


По умолчанию, эти операции применяются к массиву, как если бы он был списком чисел, независимо от его формы. Однако, указав параметр `axis`, можно применить операцию для указанной оси массива:

In [19]:
print (a.min(axis=0)) # Наименьшее число в каждом столбце  
print (a.min(axis=1)) # Наименьшее число в каждой строке  

[1 2 3]
[1 4]


**Индексы, срезы, итерации**

Одномерные массивы осуществляют операции индексирования, срезов и итераций очень схожим образом с обычными списками и другими последовательностями `Python`.

In [20]:
a = np.arange(10) ** 3
print ("1)", a)
print ("2)", a[1])
print("3)", a[3:7])

a[3:7] = 8
print ("4)", a)

print("5)", a[::-1])

for i in a:
    print(i ** (1/3))

1) [  0   1   8  27  64 125 216 343 512 729]
2) 1
3) [ 27  64 125 216]
4) [  0   1   8   8   8   8   8 343 512 729]
5) [729 512 343   8   8   8   8   8   1   0]
0.0
1.0
2.0
2.0
2.0
2.0
2.0
6.999999999999999
7.999999999999999
8.999999999999998


Удалять при помощи срезов, т.е. представленным ниже способом, не получится:

In [21]:
del a[4:6] # возникнет ошибка. Удалять нельзя  

ValueError: cannot delete array elements

У многомерных массивов на каждую ось приходится один индекс. Индексы передаются в виде последовательности чисел, разделенных запятыми (то есть, кортежами):

In [22]:
b = np.array([[ 0, 1, 2, 3],  
[10, 11, 12, 13],  
[20, 21, 22, 23],  
[30, 31, 32, 33],  
[40, 41, 42, 43]])  
print ('b=', b)  
print ("1) Вторая строка, третий столбец: ", b[2,3])  
print ("2) То же самое: ", b[(2,3)])  
print ("3) То же самое: ", b[2][3])  
print ("4) Третий столбец: ", b[:,2])  
print ("5) Первые две строки: ", b[:2])  
print ("5) Вторая и третья строки: ", b[1:3, : : ] )  

b= [[ 0  1  2  3]
 [10 11 12 13]
 [20 21 22 23]
 [30 31 32 33]
 [40 41 42 43]]
1) Вторая строка, третий столбец:  23
2) То же самое:  23
3) То же самое:  23
4) Третий столбец:  [ 2 12 22 32 42]
5) Первые две строки:  [[ 0  1  2  3]
 [10 11 12 13]]
5) Вторая и третья строки:  [[10 11 12 13]
 [20 21 22 23]]


Когда индексов меньше, чем осей, отсутствующие индексы предполагаются дополненными с помощью срезов:

In [23]:
b[-1] # Последняя строка. Эквивалентно b[-1,:]  

array([40, 41, 42, 43])

`b[i]` можно читать как:

```python
«b[i, <столько символов ‘:’, сколько нужно>]» 
```

В `NumPy` это также может быть записано с помощью точек, как `«b[i, …]»`.

Например, если `x` имеет ранг 5 (то есть у него 5 осей), тогда:

-   `x[1, 2, …]` эквивалентно `x[1, 2, :, :, :]`;

-   `x[… , 3]` то же самое, что: `x[:, :, :, :, 3]`;

-   `x[4, … , 5, :]` эквивалентно `x[4, :, :, 5, :]`.

Ниже представлен пример, демонстрирующий описанное выше:

In [24]:
a = np.array(([[0, 1, 2], [10, 12, 13]], [[100, 101, 102], [110, 112, 113]]))  
print ('a=',a)  
  
print ("1)",a.shape) #вывод "формы", т.е. размерности  
print ("2)",a[1, ...]) # то же, что a[1, : , :] или a[1]  
print ("3)",a[... ,2]) # то же, что a[: , : ,2]  

a= [[[  0   1   2]
  [ 10  12  13]]

 [[100 101 102]
  [110 112 113]]]
1) (2, 2, 3)
2) [[100 101 102]
 [110 112 113]]
3) [[  2  13]
 [102 113]]


Итерирование многомерных массивов начинается с первой оси:

In [25]:
for row in a:  
    print(row)

[[ 0  1  2]
 [10 12 13]]
[[100 101 102]
 [110 112 113]]


Однако, если мы столкнемся с ситуацией, когда необходимо перебрать поэлементно весь массив, как если бы он был одномерным, то для этого будет полезен атрибут `flat`:

In [26]:
print ('a=',a)
for el in a.flat:
     print(el)

a= [[[  0   1   2]
  [ 10  12  13]]

 [[100 101 102]
  [110 112 113]]]
0
1
2
10
12
13
100
101
102
110
112
113


Ранее мы уже рассматривали, что, написав после `for` две переменных, первая будет итератором верхнего уровня списка, а вторая – итератором более низкого уровня списка: `a[i][j]` (см. Занятие 3, сноска в конце раздела «Функция range()»).

In [27]:
for i, j in a:  
    print(i,j)  

[0 1 2] [10 12 13]
[100 101 102] [110 112 113]


### Манипуляции с формой

Как уже говорилось, у массива есть форма `shape`, определяемая числом элементов вдоль каждой оси:

In [28]:
print ('a=',a)  
print (a.shape) #вывод "формы", т.е. размерности  

a= [[[  0   1   2]
  [ 10  12  13]]

 [[100 101 102]
  [110 112 113]]]
(2, 2, 3)


Форма массива может быть изменена с помощью различных методов, примеры использования которых представлены ниже:

-   метод `ravel()` – сделать массив плоским:

In [29]:
a.ravel()  # Делает массив плоским

array([  0,   1,   2,  10,  12,  13, 100, 101, 102, 110, 112, 113])

-   метод `shape()`– смена формы массива:

In [30]:
a.shape = (6, 2)  # Изменение формы
a

array([[  0,   1],
       [  2,  10],
       [ 12,  13],
       [100, 101],
       [102, 110],
       [112, 113]])

-   метод `transpose()` – транспонирование:

In [31]:
a.transpose()  # Транспонирование

array([[  0,   2,  12, 100, 102, 112],
       [  1,  10,  13, 101, 110, 113]])

-   метод `reshape()`– изменение формы массива. Отличие от `shape()` заключается в том, что `reshape()` возвращает новое представление массива, т.е. исходный не изменяется. Что такое представление – будет рассмотрено позже.

In [32]:
a.reshape((3, 4)) # Изменение формы

array([[  0,   1,   2,  10],
       [ 12,  13, 100, 101],
       [102, 110, 112, 113]])

Порядок элементов в массиве в результате функции `ravel()` соответствует следующему стилю: чем правее индекс, тем он «быстрее изменяется»: за элементом `a[0,0]` следует `a[0,1]`. Если одна форма массива была изменена на другую, массив переформировывается также этом же стиле.

Функции `ravel()` и `reshape()` также могут работать (при использовании дополнительного аргумента) и в другом стиле, в котором быстрее изменяется более левый индекс. Эти два стиля называются `С` (имеется в виду стиль массива в языке `С`) и `Фортран` стили соответственно.

In [33]:
a = np.array(([[0, 1, 2], [10, 12, 13]], [[100, 101, 102], [110, 112, 113]]))
print (a)
print ("Форма исходного массива:", a.shape)
print (a.reshape((1, 12), order='C'))
print (a.reshape((1, 12), order='F'))

[[[  0   1   2]
  [ 10  12  13]]

 [[100 101 102]
  [110 112 113]]]
Форма исходного массива: (2, 2, 3)
[[  0   1   2  10  12  13 100 101 102 110 112 113]]
[[  0 100  10 110   1 101  12 112   2 102  13 113]]


Метод `reshape()` возвращает ее аргумент с измененной формой (новое представление), в то время как метод `resize()` изменяет сам массив:

In [34]:
a = np.array(([[0, 1, 2], [10, 12, 13]], [[100, 101, 102], [110, 112, 113]]))

print (a)
print (a.reshape((1, 12)))
print("1)\n", a)

print (a.resize((1, 12)))
print("2)\n", a)

[[[  0   1   2]
  [ 10  12  13]]

 [[100 101 102]
  [110 112 113]]]
[[  0   1   2  10  12  13 100 101 102 110 112 113]]
1)
 [[[  0   1   2]
  [ 10  12  13]]

 [[100 101 102]
  [110 112 113]]]
None
2)
 [[  0   1   2  10  12  13 100 101 102 110 112 113]]


Если при операции такой перестройки один из аргументов задается как `-1`, то он автоматически рассчитывается в соответствии с остальными заданными (т.е. в массиве было 12 элементов, значит 12 элементов поделить на 3 строки = 4 элемента в каждой строке):

In [35]:
a.reshape((3, -1))  

array([[  0,   1,   2,  10],
       [ 12,  13, 100, 101],
       [102, 110, 112, 113]])

### Объединение массивов

Несколько массивов могут быть объединены вместе вдоль разных осей с помощью методов `hstack()` и `vstack()`. `hstack()` объединяет массивы по первым осям, `vstack()` – по последним:

In [36]:
a = np.array([[1, 2], [3, 4]])
b = np.array([[5, 6], [7, 8]])
print ( np.vstack((a, b)) )
print("\n")
print ( np.hstack((a, b)) )

[[1 2]
 [3 4]
 [5 6]
 [7 8]]


[[1 2 5 6]
 [3 4 7 8]]


Метод `column_stack()` объединяет одномерные массивы в качестве столбцов двумерного массива:

In [37]:
np.column_stack((a, b))  

array([[1, 2, 5, 6],
       [3, 4, 7, 8]])

Аналогично для строк имеется функция `row_stack():`

In [38]:
np.row_stack((a, b))  

array([[1, 2],
       [3, 4],
       [5, 6],
       [7, 8]])

### Разбиение массива

Используя `hsplit()` вы можете разбить массив вдоль горизонтальной оси, указав либо число возвращаемых массивов одинаковой формы, либо номера столбцов, после которых массив разрезается «ножницами». Функция `vsplit()` разбивает массив вдоль вертикальной оси, а `array_split()` позволяет указать оси, вдоль которых произойдет разбиение.

In [39]:
a = np.arange(12).reshape((2, 6))  
print (a)  
print (np.hsplit(a, 3)) # Разбить на 3 части  
print (np.hsplit(a, (3, 4))) # Разрезать a после третьего и четвёртого столбца  

[[ 0  1  2  3  4  5]
 [ 6  7  8  9 10 11]]
[array([[0, 1],
       [6, 7]]), array([[2, 3],
       [8, 9]]), array([[ 4,  5],
       [10, 11]])]
[array([[0, 1, 2],
       [6, 7, 8]]), array([[3],
       [9]]), array([[ 4,  5],
       [10, 11]])]


### Копии и представления

При работе с массивами, их данные иногда необходимо копировать в другой массив, а иногда нет. Это часто является источником путаницы. Возможно 3 случая:

-   Вообще никаких копий. Простое присваивание не создает ни копии массива, ни копии его данных. `Python` передает изменяемые объекты как ссылки, поэтому вызовы функций также не создают копий.

In [40]:
a = np.arange(12)
b = a # Нового объекта создано не было
print(a)
print(b)

print (b is a) # a и b это два имени для одного и того же объекта ndarray. мы задали интерпретатору вопрос- является ли объект б обьектом а

b.shape = (3,4) # изменит форму a
print (a.shape)

[ 0  1  2  3  4  5  6  7  8  9 10 11]
[ 0  1  2  3  4  5  6  7  8  9 10 11]
True
(3, 4)


-   Представление или поверхностная копия. Разные объекты массивов могут использовать одни и те же данные. Метод `view()` создает новый объект массива, являющийся представлением тех же данных.

In [41]:
c = a.view()
print (c is a)
print (c.base is a)  # c это представление данных, принадлежащих a
print ( c.flags.owndata)
c.shape = (2,6)  # форма а не поменяется
print (a.shape)
c[0,4] = 1234  # данные а изменятся
print (a)

False
True
False
(3, 4)
[[   0    1    2    3]
 [1234    5    6    7]
 [   8    9   10   11]]


Стоит отметить, что уже рассмотренная операция среза (слайсинга) массива тоже является представлением и не меняет исходный массив:

In [42]:
print (a,"\n")
s = a[:,1:3] #тут мы строчки не срезали, а вырезали столбцы с индексом от 1 включительно до 3 не включительно
s[:] = 10
print (a,"\n")
print (s)

[[   0    1    2    3]
 [1234    5    6    7]
 [   8    9   10   11]] 

[[   0   10   10    3]
 [1234   10   10    7]
 [   8   10   10   11]] 

[[10 10]
 [10 10]
 [10 10]]


-   Глубокая копия. Метод `copy()` создаст настоящую копию массива и его данных:

In [43]:
d = a.copy()  # создается новый объект массива с новыми данными
print (d is a)
print (d.base is a)  # d не имеет ничего общего с а
d[0, 0] = 9999
print (a,"\n")
print (d,"\n")

False
False
[[   0   10   10    3]
 [1234   10   10    7]
 [   8   10   10   11]] 

[[9999   10   10    3]
 [1234   10   10    7]
 [   8   10   10   11]] 



### Маскированные массивы

Во многих случаях наборы данных могут быть неполными или испорченными наличием недопустимых данных. Например, датчику не удалось записать данные или он записал недопустимое значение. Модуль `numpy.ma` обеспечивает удобный способ решения этой проблемы, вводя такое понятие, как маскированные массивы.

Маскированный массив представляет собой комбинацию стандартного массива `numpy.ndarray` и маски. Маской является массив логических значений, определяющий для каждого элемента связанного массива, является ли значение допустимым или нет. Если элемент маски равен является валидным (допустимым, правильным), то соответствующий элемент связанного массива является допустимым и считается размаскированным. Пакет гарантирует, что маскированные записи не будут использоваться в вычислениях. Ниже приведено несколько примеров работы с этим модулем.

In [44]:
import numpy as np
import numpy.ma as ma

#В качестве иллюстрации рассмотрим следующий набор данных:
x = np.array([1, 2, 3, -1, 5])
#выведем среднее арифметическое значений
print ('0)исходный массива',x)
print ('1)среднее исходного массива',x.mean())

#Допустим, мы хотим отметить четвертую запись как недействительную.
# Для этого проще всего создать маскированный массив:
mx = ma.masked_array(x, mask=[0, 0, 0, 1, 0])
print ('2)маскированный массив',mx)

#Теперь мы можем вычислить среднее значение набора данных,
#не принимая во внимание недопустимые данные:
print ('3)среднее маскированного массива',mx.mean())

#маскировка элемента по индексу (-1 - это индекс первого с конца элемента)
mx[-1] = ma.masked
print ('4)замаскировали ещё и последний элемент',mx)

#маскировка элемента по значению с условием (значение >= 2)
mx = ma.masked_greater_equal(mx, 2)
print ('5)замаскировали все числа больше или равные 2',mx)

0)исходный массива [ 1  2  3 -1  5]
1)среднее исходного массива 2.0
2)маскированный массив [1 2 3 -- 5]
3)среднее маскированного массива 2.75
4)замаскировали ещё и последний элемент [1 2 3 -- --]
5)замаскировали все числа больше или равные 2 [1 -- -- -- --]


Не обязательно использовать именно маскированные массивы при работе с реальными данными, содержащими ошибки. Это всего лишь один из удобных способов обработки некорректных значений.

Вы можете любым другим способом бороться с ошибками, например ­­– удалять некорректные значения из вашего массива, или заменять их на среднее значение, если у вас многомерные массивы и вы не хотите терять целую запись параметров из-за одного некорректного поля в ней (например, если у вас данные хранятся в парах «имя студента+оценка» и «имя студента» некорректно, то для расчета средней оценки по всем студентам, вам вовсе не обязательно удалять всю пару, вы можете просто не использовать имя, или заменить его на какой-нибудь текст, если вам все же нужно куда-либо его потом вывести для наличия как такового.)

В целях проверки ваших данных, либо в любых других целях, в `NumPy` существует множество неописанных здесь функций и методов, которые предлагается изучить самостоятельно на официальном сайте библиотеки по url: <u><https://numpy.org/>.</u>

## Контрольные задания и вопросы

1.  Базовая функциональность `NumPy` – опишите основные доступные функции.

2.  Создание массива, заполненного нулями – приведите пример кода.

3.  Математические операции между массивами. Представьте код, где массив со значениями от 1 до 9 умножается на константу 2. Должна получится таблица умножения для числа 2.

4.  Слайсы (обрезка массива) – предоставите код для четырех случаев:

-   вывести все элементы, кроме первых трех;

-   вывести все элементы, кроме последних трех;

-   вывести все элементы, кроме первых и последних трех;

-   слайсы с двухмерными массивами.

1.  Приведите пример объединения массивов из `NumPy`.

2.  Приведите пример изменения формы массива из п.3 (т.е. одномерный массив «таблица умножения двойки»), на двумерный массив, где половина элементов в первом массиве, а вторая половина – во втором.