# массив — это структура данных, в которой:

1. Элементы хранятся в указанном порядке.
2. Каждый элемент можно получить по индексу за одинаковое время.
3. Все элементы приведены к одному и тому же типу данных.
4. Максимальное число элементов и объём выделенной памяти заданы заранее.

In [1]:
# Создать массив из списка можно с помощью функции np.array(<объект>):
import numpy as np
arr = np.array([1,5,2,9,10])
arr
# array([ 1,  5,  2,  9, 10])

array([ 1,  5,  2,  9, 10])

In [2]:
# Название ndarray — это сокращение от n-dimensional array, n-мерный массив.
print(type(arr))
# <class 'numpy.ndarray'>

<class 'numpy.ndarray'>


## СВОЙСТВА NUMPY-МАССИВОВ

In [4]:
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ], dtype=np.int16)

In [6]:
# Узнать размерность массива можно с помощью .ndim:
nd_arr.ndim

2

In [7]:
# Узнать общее число элементов в массиве можно с помощью .size:
nd_arr.size

9

In [8]:
# Форма или структура массива хранится в атрибуте .shape:
nd_arr.shape

(3, 3)

In [9]:
# сколько «весит» каждый элемент массива в байтах позволяет .itemsize:
nd_arr.itemsize

2

In [11]:
zeros = np.zeros((3,4,5))
print(zeros)

[[[0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]]

 [[0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]
  [0. 0. 0. 0. 0.]]]


Ещё одной удобной функцией для создания одномерных массивов является arange. Она аналогична встроенной функции range, но обладает рядом особенностей. Вот её сигнатура: arange([start,] stop, [step,], dtype=None).

Аргументы start (по умолчанию 0), step (по умолчанию 1) и dtype (определяется автоматически) являются необязательными:

- start (входит в диапазон возвращаемых значений) задаёт начальное число;
- stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
- step задаёт шаг, с которым в массив добавляются новые значения.
В отличие от range, в функции arange все перечисленные параметры могут иметь тип float.

In [17]:
# Поэкспериментируем. Создадим массив из пяти чисел от 0 до 4:
np.arange(-3.3, 5, .5)

array([-3.3, -2.8, -2.3, -1.8, -1.3, -0.8, -0.3,  0.2,  0.7,  1.2,  1.7,
        2.2,  2.7,  3.2,  3.7,  4.2,  4.7])

На самом деле операции с плавающей точкой не всегда бывают предсказуемыми из-за особенностей хранения таких чисел в памяти компьютера. Поэтому для работы с дробными параметрами start, stop и step лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:

np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)

- start и stop являются обязательными параметрами, задающими начало и конец возвращаемого диапазона;
- num — параметр, задающий число элементов, которое должно оказаться в массиве (по умолчанию 50);
- endpoint — включён или исключён конец диапазона (по умолчанию включён);
- retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
- dtype — уже хорошо знакомый нам параметр, задающий тип данных (если не задан, определяется автоматически).

In [27]:
# Создадим массив из десяти чисел между 1 и 2:
np.linspace(1,2,15, True, True,dtype=np.float16)

(array([1.   , 1.071, 1.143, 1.214, 1.286, 1.357, 1.429, 1.5  , 1.571,
        1.643, 1.714, 1.786, 1.857, 1.929, 2.   ], dtype=float16),
 0.07142857142857142)

In [32]:
np.linspace(-6,21,60,False,True)

(array([-6.  , -5.55, -5.1 , -4.65, -4.2 , -3.75, -3.3 , -2.85, -2.4 ,
        -1.95, -1.5 , -1.05, -0.6 , -0.15,  0.3 ,  0.75,  1.2 ,  1.65,
         2.1 ,  2.55,  3.  ,  3.45,  3.9 ,  4.35,  4.8 ,  5.25,  5.7 ,
         6.15,  6.6 ,  7.05,  7.5 ,  7.95,  8.4 ,  8.85,  9.3 ,  9.75,
        10.2 , 10.65, 11.1 , 11.55, 12.  , 12.45, 12.9 , 13.35, 13.8 ,
        14.25, 14.7 , 15.15, 15.6 , 16.05, 16.5 , 16.95, 17.4 , 17.85,
        18.3 , 18.75, 19.2 , 19.65, 20.1 , 20.55]),
 0.45)

## ДЕЙСТВИЯ С МАССИВАМИ

ИЗМЕНЕНИЕ ФОРМЫ МАССИВА

In [52]:
# Создадим массив из восьми чисел:
arr = np.arange(8)
arr

array([0, 1, 2, 3, 4, 5, 6, 7])

In [58]:
# Поменять форму массива arr можно с помощью присвоения атрибуту shape кортежа с желаемой формой:
arr.shape = (2,2,2)
arr

array([[[0, 1],
        [2, 3]],

       [[4, 5],
        [6, 7]]])

Присвоение нового значения атрибуту shape изменяет тот массив, с которым производится действие.

Чтобы оставить исходный массив без изменений и дополнительно получить новый массив новой формы, нужно использовать функцию reshape. Она также принимает в качестве аргумента кортеж из чисел для формы, но возвращает новый массив, а не изменяет исходный:

In [69]:
arr = np.arange(8)
arr_new = arr.reshape(2,2,2,order='F')
arr_new

array([[[0, 4],
        [2, 6]],

       [[1, 5],
        [3, 7]]])

У функции reshape есть дополнительный именованный аргумент order. Он задаёт принцип, по которому элементы заполняют массив новой формы. Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. Если order='F', массив заполняется числами по столбцам:

Ещё одной часто используемой операцией с формой массива (особенно двумерного) является транспонирование. Эта операция меняет строки и столбцы массива местами. В NumPy эту операцию совершает функция transpose.

In [89]:
arr = np.arange(10)
arr.shape = (2,5)
arr_new = arr.transpose()
arr_new

array([[0, 5],
       [1, 6],
       [2, 7],
       [3, 8],
       [4, 9]])

## ИНДЕКСЫ И СРЕЗЫ В МАССИВАХ

In [93]:
# Создадим массив из шести чисел:
arr = np.linspace(1,2,6)
print(arr)
print(arr[2])

[1.  1.2 1.4 1.6 1.8 2. ]
1.4


In [108]:
arr = np.linspace(1, 2, 6)
# Обратиться к его элементу по индексу можно так же, как и к списку:
print(arr[2])
# Привычная запись для срезов работает и для одномерных массивов:
print(arr[2:4])
# Наконец, напечатать массив в обратном порядке можно с помощью привычной конструкции [::-1]:
print(arr[::-1])

1.4
[1.4 1.6]
[2.  1.8 1.6 1.4 1.2 1. ]


In [115]:
nd_array = np.linspace(0,6,12,endpoint=False).reshape(3,4)
nd_array

array([[0. , 0.5, 1. , 1.5],
       [2. , 2.5, 3. , 3.5],
       [4. , 4.5, 5. , 5.5]])

In [133]:
# Можно воспользоваться привычной записью нескольких индексов в нескольких квадратных скобках:
nd_array[1][2]
# Мы бы так и делали, если бы приходилось работать со списком из списков. Однако проводить 
# индексацию по массиву в NumPy можно проще: достаточно в одних и тех же квадратных скобках перечислить индексы через запятую. Вот так:
nd_array[1, 2]
nd_array[:2,:2]

array([[0. , 0.5],
       [2. , 2.5]])

In [2]:
# 7.2
import numpy as np
mystery = np.array([[-13586,  15203,  28445, -27117,  -1781, -17182, -18049],
       [ 25936, -30968,  -1297,  -4593,   6451,  15790,   7181],
       [ 13348,  28049,  28655,  -6012,  21762,  25397,   8225],
       [ 13240,   7994,  32592,  20149,  13754,  11795,   -564],
       [-21725,  -8681,  30305,  22260, -17918,  12578,  29943],
       [-16841, -25392, -17278,  11740,   5916,    -47, -32037]],
      dtype=np.int16)
elem_5_3 = mystery[4,2]
#print(elem_5_3)
last = mystery[-1,-1]
#print(last)
line_4 = mystery[3]
#print(line_4)
col_2 = mystery[:,-2]
#print(col_2)
part = mystery[1:4,2:5]
#print(part)
rev = mystery[:,-1][::-1]
#rev = rev[::-1]
#print(rev)
trans = mystery.transpose()
#print(trans)

In [138]:
#np.isnan(np.nan)
np.nan is np.nan
np.nan == np.nan

False

## СОРТИРОВКА ОДНОМЕРНЫХ МАССИВОВ

Иногда возникает задача по сортировке значений в массиве. Для её решения существуют встроенная в NumPy функция sort. Она обладает дополнительными параметрами, в том числе возможностью сортировки многомерных массивов, однако пока что это нам не потребуется. Применять функцию можно двумя способами.

Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:

In [140]:
arr = np.array([23,12,45,12,23,4,15,3])
arr_new = np.sort(arr)
print(arr)
# [23 12 45 12 23  4 15  3]
print(arr_new)

[23 12 45 12 23  4 15  3]
[ 3  4 12 12 15 23 23 45]


Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:

In [141]:
arr = np.array([23,12,45,12,23,4,15,3])
print(arr.sort())
# None
print(arr)
# [ 3  4 12 12 15 23 23 45]

None
[ 3  4 12 12 15 23 23 45]


## РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

In [7]:
# Начнём с примера — создадим массив:
data = np.array([4,9,-4,3])
roots = np.sqrt(data)
print(roots)
np.isnan(roots)
roots[np.isnan(roots)] = 0
roots

[2.         3.                nan 1.73205081]


  roots = np.sqrt(data)


array([2.        , 3.        , 0.        , 1.73205081])

In [32]:
# 7.4
import numpy as np 

mystery = np.array([ 12279., -26024.,  28745.,  np.nan,  31244.,  -2365.,  -6974.,
        -9212., np.nan, -17722.,  16132.,  25933.,  np.nan, -16431.,
        29810.], dtype=np.float32)
# получите булевый массив nans_index с информацией о np.nan в массиве mystery: True - значение пропущено, False - значение не пропущено
nans_index = np.isnan(mystery)

# Скопируйте массив mystery в массив mystery_new.
mystery_new = mystery.copy()

# В переменную `n_nan сохраните число пропущенных значений
n_nan = mystery_new[np.isnan(mystery_new)].size

# Заполните пропущенные значения в массиве mystery_new нулями
mystery_new[np.isnan(mystery_new)] = 0

# Поменяйте тип данных в массиве mystery на int32 и сохраните в переменную mystery_int
mystery_int = mystery
mystery_int.dtype = np.int32

# Отсортируйте значения в массиве по возрастанию и сохраните результат в переменную array
array = np.sort(mystery_int)

# Сохраните в массив table двухмерный массив, полученный из массива array. 
# В нём должно быть 5 строк и 3 столбца. Причём порядок заполнения должен быть по столбцам!
table = array.reshape(5,3,order='F')

# Сохраните в переменную col средний столбец из table
col = table[:,1]
