# Массивы
объекты типа numpy.ndarray

In [1]:
import numpy as np

## Создание 

In [115]:
# 1. создание с помощью функции np.array(<объект>):
arr = np.array([1,5,2,9,10])
nd_arr = np.array([
               [12, 45, 78],
               [34, 56, 13],
               [12, 98, 76]
               ])
# тип элементов и создание с заданным типом, смена типа
arr.dtype
arr = np.array([1,5,2,9,10], dtype=np.int8)
arr = np.float64(arr)


In [116]:
# 2. Массив из нулей создаётся функцией np.zeros. 
# Она принимает аргументы shape (обязательный) — форма массива 
# (одно число или кортеж) 
# и dtype (необязательный) — тип данных, который будет храниться в массиве.
zeros_1d = np.zeros(5)
zeros_3d = np.zeros((5,4,3), dtype=np.float32)

In [117]:
# 3. функция для создания одномерных массивов является arange. 
# Она аналогична встроенной функции range, но обладает рядом особенностей. 
# Вот её сигнатура: arange([start,] stop, [step,], dtype=None).
# Аргументы start (по умолчанию 0), step (по умолчанию 1) 
# и dtype (определяется автоматически) являются необязательными:
# start (входит в диапазон возвращаемых значений) задаёт начальное число;
# stop (не входит в диапазон возвращаемых значений, как и при использовании range) задаёт правую границу диапазона;
# step задаёт шаг, с которым в массив добавляются новые значения.
# В отличие от range все перечисленные параметры могут иметь тип float.
arr=np.arange(5)
arr=np.arange(2.5, 5, 0.5)
arr

array([2.5, 3. , 3.5, 4. , 4.5])

In [118]:
# 4. На самом деле операции с плавающей точкой не всегда бывают предсказуемыми 
# из-за особенностей хранения таких чисел в памяти компьютера. 
# Поэтому для работы с дробными параметрами start, stop и step 
# лучше использовать функцию linspace (англ. linear space — линейное пространство). Она тоже возвращает одномерный массив из чисел, расположенных на равном удалении друг от друга между началом и концом диапазона, но обладает немного другим поведением и сигнатурой:
# np.linspace(start, stop, num=50, endpoint=True, retstep=False, dtype=None)
# start и stop являются обязательными параметрами, 
# задающими начало и конец возвращаемого диапазона;
# num — параметр, задающий число элементов, 
# которое должно оказаться в массиве (по умолчанию 50);
# endpoint — включён или исключён конец диапазона (по умолчанию включён);
# retstep (по умолчанию False) позволяет указать, возвращать ли использованный шаг между значениями, помимо самого массива;
# dtype — уже хорошо знакомый нам параметр, задающий тип данных 
# (если не задан, определяется автоматически).
arr = np.linspace(1, 2, 10)
arr = np.linspace(1, 2, 10, endpoint=False)
arr, step = np.linspace(1, 2, 10, endpoint=True, retstep=True)
step

0.1111111111111111

In [119]:
# Узнать размерность массива можно с помощью .ndim
arr.ndim

1

In [120]:
# Узнать общее число элементов в массиве можно с помощью .size
arr.size

10

In [121]:
# Форма или структура массива хранится в атрибуте .shape
arr.shape

(10,)

In [122]:
# знать, сколько «весит» каждый элемент массива в байтах позволяет .itemsize
arr.itemsize

8

In [123]:
import numpy as np
arr=np.arange(24)
arr.shape=(6,4)
arr

array([[ 0,  1,  2,  3],
       [ 4,  5,  6,  7],
       [ 8,  9, 10, 11],
       [12, 13, 14, 15],
       [16, 17, 18, 19],
       [20, 21, 22, 23]])

## обращение к элементам

In [124]:
# В переменную last сохраните элемент из последней строки последнего столбца
last = arr[arr.shape[0]-1,arr.shape[1]-1]
last

23

In [125]:
#  Сохраните в переменную rev последний столбец (как строку) в обратном порядке
rev = arr[::-1,arr.shape[1]-1:arr.shape[1]].transpose()
rev

array([[23, 19, 15, 11,  7,  3]])

In [3]:
mystery = np.array([[-13586,  15203,  28445, -27117,  -1781, -17182, -18049],
       [ 25936, -30968,  -1297,  -4593,   6451,  15790,   7181],
       [ 13348,  28049,  28655,  -6012,  21762,  25397,   8225],
       [ 13240,   7994,  32592,  20149,  13754,  11795,   -564],
       [-21725,  -8681,  30305,  22260, -17918,  12578,  29943],
       [-16841, -25392, -17278,  11740,   5916,    -47, -32037]],
      dtype=np.int16)
mystery

array([[-13586,  15203,  28445, -27117,  -1781, -17182, -18049],
       [ 25936, -30968,  -1297,  -4593,   6451,  15790,   7181],
       [ 13348,  28049,  28655,  -6012,  21762,  25397,   8225],
       [ 13240,   7994,  32592,  20149,  13754,  11795,   -564],
       [-21725,  -8681,  30305,  22260, -17918,  12578,  29943],
       [-16841, -25392, -17278,  11740,   5916,    -47, -32037]],
      dtype=int16)

In [5]:
elem_5_3=mystery[4,2]
elem_5_3

30305

In [6]:
last=mystery[mystery.shape[0]-1,mystery.shape[1]-1]
last

-32037

In [10]:
line_4=mystery[3,:]
line_4

array([13240,  7994, 32592, 20149, 13754, 11795,  -564], dtype=int16)

In [9]:
col_2=mystery[:,mystery.shape[1]-2]
col_2

array([-17182,  15790,  25397,  11795,  12578,    -47], dtype=int16)

In [11]:
part=mystery[1:5,3:6]
part

array([[ -4593,   6451,  15790],
       [ -6012,  21762,  25397],
       [ 20149,  13754,  11795],
       [ 22260, -17918,  12578]], dtype=int16)

In [15]:
rev=mystery[::-1,mystery.shape[1]-1:mystery.shape[1]].transpose()[0]
rev

array([-32037,  29943,   -564,   8225,   7181, -18049], dtype=int16)

In [14]:
trans=mystery.transpose()
trans

array([[-13586,  25936,  13348,  13240, -21725, -16841],
       [ 15203, -30968,  28049,   7994,  -8681, -25392],
       [ 28445,  -1297,  28655,  32592,  30305, -17278],
       [-27117,  -4593,  -6012,  20149,  22260,  11740],
       [ -1781,   6451,  21762,  13754, -17918,   5916],
       [-17182,  15790,  25397,  11795,  12578,    -47],
       [-18049,   7181,   8225,   -564,  29943, -32037]], dtype=int16)

## Изменить форму массива

In [126]:
# 1. с помощью присвоения атрибуту shape кортежа с желаемой формой
arr.shape=(4,6)
arr

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

In [127]:
# 2. функция reshape. Агумент также кортеж из чисел для формы, 
# но возвращает новый массив, а не изменяет исходный
arr_new = arr.reshape((6, 4))
print(arr_new)
# есть дополнительный именованный аргумент order. 
# Он задаёт принцип, по которому элементы заполняют массив новой формы. 
# Если order='C' (по умолчанию), массив заполняется по строкам, как в примере выше. 
# Если order='F', массив заполняется числами по столбцам:
arr_new = arr.reshape((6, 4), order='F')
arr_new

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]
 [16 17 18 19]
 [20 21 22 23]]


array([[ 0, 13,  3, 16],
       [ 6, 19,  9, 22],
       [12,  2, 15,  5],
       [18,  8, 21, 11],
       [ 1, 14,  4, 17],
       [ 7, 20, 10, 23]])

## Сортировка

In [128]:
#Способ 1. Функция np.sort(<массив>) возвращает новый отсортированный массив:
arr_new = np.sort(arr)
arr_new

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

In [129]:
#Способ 2. Функция <массив>.sort() сортирует исходный массив и возвращает None:
arr.sort()
arr

array([[ 0,  1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10, 11],
       [12, 13, 14, 15, 16, 17],
       [18, 19, 20, 21, 22, 23]])

## РАБОТА С ПРОПУЩЕННЫМИ ДАННЫМИ

объект nan появляется к примеру при извлечении корня из отрицательного числа.  Он расшифровывается как Not a number (не число). Этот объект аналогичен встроенному типу None, но имеет несколько отличий.
- None является отдельным объектом типа NoneType. np.nan — это отдельный представитель класса float
- None могут быть равны друг другу, а np.nan — нет. Только nan is nan = True

In [130]:
data = np.array([4, 9, -4, 3])
roots = np.sqrt(data)
print(roots)
print(np.isnan(roots))
# сколько nan?
print(len(list(filter(lambda x: x, np.isnan(roots)))))
# обнулить nan
roots[np.isnan(roots)] = 0
roots

[2.         3.                nan 1.73205081]
[False False  True False]
1


  roots = np.sqrt(data)


array([2.        , 3.        , 0.        , 1.73205081])

In [16]:
import numpy as np
mystery = np.array([ 12279., -26024.,  28745.,  np.nan,  31244.,  -2365.,  -6974.,
        -9212., np.nan, -17722.,  16132.,  25933.,  np.nan, -16431.,
        29810.], dtype=np.float32)

In [17]:
nans_index=np.isnan(mystery)
nans_index

array([False, False, False,  True, False, False, False, False,  True,
       False, False, False,  True, False, False])

In [18]:
n_nan=nans_index.sum()
n_nan

3

In [31]:
mystery_new=mystery.copy()
mystery_new[np.isnan(mystery)]=0
mystery_new

array([-26024., -17722., -16431.,  -9212.,  -6974.,  -2365.,  12279.,
        16132.,  25933.,  28745.,  29810.,  31244.,      0.,      0.,
            0.], dtype=float32)

In [30]:
mystery_int=mystery.astype('int32')
mystery_int

array([     -26024,      -17722,      -16431,       -9212,       -6974,
             -2365,       12279,       16132,       25933,       28745,
             29810,       31244, -2147483648, -2147483648, -2147483648])

In [29]:
array=np.sort(mystery_int)
array


array([-2147483648, -2147483648, -2147483648,      -26024,      -17722,
            -16431,       -9212,       -6974,       -2365,       12279,
             16132,       25933,       28745,       29810,       31244])

In [28]:
table=array.reshape((5, 3), order='F')
table

array([[-26024.,  -2365.,  29810.],
       [-17722.,  12279.,  31244.],
       [-16431.,  16132.,     nan],
       [ -9212.,  25933.,     nan],
       [ -6974.,  28745.,     nan]], dtype=float32)