Представьте, что вы установили в саду датчик температуры. Каждое воскресенье вы приносите его домой для снятия показаний. А значит, отдаете себе отчет в неточности воскресных показаний, поскольку часть дня они отражают температуру в доме, а не в саду.
Вы хотели бы очистить данные, заменив все воскресные показания датчика средним значением за предыдущие семь дней (воскресное показание вы тоже учитываете, поскольку нельзя сказать, что оно совсем неточное). Прежде чем заняться кодом, посмотрим, что нам понадобится для работы.

При использовании возможности присваивания срезам NumPy с левой стороны уравнения указываются значения, которые необходимо заменить, а справа — значения, которыми их заменяют. Освежим память:

In [1]:
import numpy as np

a = np.array([4] * 16)
print(a)

[4 4 4 4 4 4 4 4 4 4 4 4 4 4 4 4]


In [3]:
a[1::] = [42] * 15 # заменили все значения кроме [0]
print(a)
#a[начало:конец:шаг]

[ 4 42 42 42 42 42 42 42 42 42 42 42 42 42 42 42]


In [23]:
a = np.array([4] * 16)
a[1:8:2] = np.random.randint(1, 15 + 1)
#начиная с второго элемента до 8, с интервалом в 2
# заменить на 16
print(a)

[4 6 4 6 4 6 4 6 4 4 4 4 4 4 4 4]


Прежде чем говорить о нашем задании, нам нужно познакомиться с важной функцией NumPy — x.reshape((a,b)), — которая преобразует массив NumPy x в новый массив NumPy с a строк и b столбцов (то есть формы (a,b)). Пример выглядит так:

In [24]:
a = np.array([1, 2, 3, 4, 5, 6])
print(a.reshape((2, 3))) # две строки 3 столбца

[[1 2 3]
 [4 5 6]]


Если количество столбцов определяется однозначно, можно позволить NumPy сделать это автоматически. Пусть нам нужно изменить форму массива из шести элементов на двумерный массив из двух строк. NumPy может сама вычислить, исходя из равного 6 количества элементов исходного массива, что столбцов должно быть три. Пример таков:

In [29]:
a = np.array([1, 2, 3, 4, 5, 6])
print(a.reshape((2,-1)))

[[1 2 3]
 [4 5 6]]


Значение –1 для соответствующего столбцам аргумента функции reshape указывает NumPy на необходимость заменить его правильным количеством столбцов (в данном случае три).

Наконец, рассмотрим следующий фрагмент кода, в котором вы познакомитесь с аргументом axis. Пусть дан массив solar_x с ежедневными котировками компании SolarX Илона Маска. Мы хотим вычислить средний курс акций утром, днем и вечером. Как это реализовать?

In [31]:
import numpy as np 
#--------------[утро, полдень, вечер]
solar_x = np.array([[1, 2, 3], #сегодня
                    [2, 2, 5]]) # вчера
#полдень взвешанное среднее
print(np.average(solar_x, axis=0))

[1.5 2.  4. ]


Массив solar_x состоит из курсов акций компании SolarX. Он включает две строки (по одной на день) и три столбца (по одному на каждый курс акций). Пусть нам нужно вычислить средний курс акций для утра, дня и вечера. В общих чертах мы хотим схлопнуть все значения в каждом столбце путем их усреднения. Другими словами, вычислить среднее значение по оси 0. Именно это и означает аргумент axis=0.

Вот и все, что нужно знать для решения следующей задачи: заменить каждое седьмое значение в заданном массиве значений температуры средним значением за последние семь дней (включая значение этого седьмого дня).

In [40]:
import numpy as np 
#data
## Данные с датчиков (Пнд, Вт, Ср, Чт, Пт, Сб, Вс)
tmp = np.array([1, 2, 3, 4, 3, 4, 4,
5, 3, 3, 4, 3, 4, 6,
6, 5, 5, 5, 4, 5, 5])
#logic
tmp[6::7] = np.average(tmp.reshape((-1, 7)), axis = 1)
#out
print(tmp)

[1 2 3 4 3 4 3 5 3 3 4 3 4 4 6 5 5 5 4 5 5]


начиная с 6(+1), каждые 7, заменяем средним значением, пересобираем массив в 7 стобцов (случайно, собранное нумпаем колличевство строк), по плоскости 1, оси 1( у нас n измерений = n осей) 

In [43]:
print(tmp.reshape((-1,7)))

[[1 2 3 4 3 4 3]
 [5 3 3 4 3 4 4]
 [6 5 5 5 4 5 5]]


У нас теперь есть по строке для каждой недели и по столбцу для каждого дня недели.
Теперь можно вычислить среднее значение за семь дней, схлопнув каждую строку в одно число с помощью функции np.average() с аргументом axis=1, указывающим NumPy схлопнуть вторую ось в одно среднее значение. Обратите внимание, что значение за воскресенье также включено в вычисляемое среднее (см. постановку задачи в начале этого раздела). Ниже представлен результат правой половины уравнения:

In [44]:
print(np.average(tmp.reshape((-1,7)), axis=1))

[2.85714286 3.71428571 5.        ]


Задача нашего однострочника состоит в замене трех воскресных значений температуры. Все остальные значения менять не нужно. Посмотрим, как можно добиться этого. После замены всех воскресных показаний датчиков окончательный результат работы нашего однострочника должен выглядеть следующим образом:

Обратите внимание, что в итоге получается снова одномерный массив NumPy со всеми показаниями датчиков температуры. Но все «неправильные» значения заменены теми, которые лучше отражают реальность.

Резюмируя: данный однострочник иллюстрирует понятие формы массива и ее изменения, а также использование свойства axis в агрегирующих функциях наподобие np.average(). И несмотря на некоторую специфичность этого конкретного их приложения, они могут пригодиться во множестве ситуаций. Далее мы расскажем вам о чрезвычайно широком понятии: сортировке в NumPy.