# Решение задач по numpy.
Задачник лежит здесь:
https://docs.google.com/spreadsheets/d/1v1_X6zRlwRVjULZSrRvBYAG_raUPjTI0Ceruwh6vNXw/edit#gid=2019320840


## Содержание
[Array attributes](#Array-attributes)<br>
[Array arithmetic operations](#Array-arithmetic-operations)<br>
[Floating point special values](#Floating-point-special-values)<br>
[Broadcasting rules](#Broadcasting-rules)<br>
[Basic slicing and indexing](#Basic-slicing-and-indexing)<br>
[Boolean array indexing](#Boolean-array-indexing)<br>
[Integer array indexing](#Integer-array-indexing)<br>
[Functions and methods overview](#Functions-and-methods-overview)<br>
[Vector stacking](#Vector-stacking)<br>
[Stride tricks](#Stride-tricks)<br>
[Masked arrays](#Masked-arrays)<br>
[Iterating over arrays](#Iterating-over-arrays)<br>

In [1]:
import time

import numpy as np

## Array attributes

Задача 1.

Создайте массив длины 10, заполненный нулями
Сделайте полученный массив неизменяемым

In [2]:
a = np.zeros(10)
a.setflags(write=False)
a

array([0., 0., 0., 0., 0., 0., 0., 0., 0., 0.])

In [3]:
try:
    a[1] = 2
    print('Think about it...')
except:
    print('Done')

Done


Задача 2.

Создайте массив, содержащий 5 равноотстоящих точек, покрывающих диапазон от 0 до 2*pi
Создайте массив, содержащий 5 равноотстоящих в логарифмическом масштабе точек, покрывающих диапазон от 10 до 100
Составьте из полученных массивов координатную сеть (meshgrid)

In [4]:
a = np.linspace(start=0, stop=2*np.pi, num=5)
a

array([0.        , 1.57079633, 3.14159265, 4.71238898, 6.28318531])

In [5]:
b = np.logspace(base=10, start=1, stop=2, num=5)
b

array([ 10.        ,  17.7827941 ,  31.6227766 ,  56.23413252,
       100.        ])

In [6]:
c = np.meshgrid(a, b)
c

[array([[0.        , 1.57079633, 3.14159265, 4.71238898, 6.28318531],
        [0.        , 1.57079633, 3.14159265, 4.71238898, 6.28318531],
        [0.        , 1.57079633, 3.14159265, 4.71238898, 6.28318531],
        [0.        , 1.57079633, 3.14159265, 4.71238898, 6.28318531],
        [0.        , 1.57079633, 3.14159265, 4.71238898, 6.28318531]]),
 array([[ 10.        ,  10.        ,  10.        ,  10.        ,
          10.        ],
        [ 17.7827941 ,  17.7827941 ,  17.7827941 ,  17.7827941 ,
          17.7827941 ],
        [ 31.6227766 ,  31.6227766 ,  31.6227766 ,  31.6227766 ,
          31.6227766 ],
        [ 56.23413252,  56.23413252,  56.23413252,  56.23413252,
          56.23413252],
        [100.        , 100.        , 100.        , 100.        ,
         100.        ]])]

Задача 3. Создайте двумерный массив 5х5 с элементами 1, 2, 3 и 4 под главной диагональю, остальные элементы заполните нулями

In [7]:
a = np.diag(range(1, 5, 1), k=-1)
a

array([[0, 0, 0, 0, 0],
       [1, 0, 0, 0, 0],
       [0, 2, 0, 0, 0],
       [0, 0, 3, 0, 0],
       [0, 0, 0, 4, 0]])

Задача 4.

Создайте функцию-генератор, последовательно возвращающую целые числа от 0 до 9
Создайте массив из построенного генератора

In [8]:
def gen(lenght, n=0):
    while n < lenght:
        yield n
        n += 1
        
lenght = 10
arr = np.fromiter(gen(lenght), int)
arr

array([0, 1, 2, 3, 4, 5, 6, 7, 8, 9])

## Array arithmetic operations

Задача 5. 
Что будет выведено на экран? a = np.arange(4).reshape(2,2) a += 0.5 print(a)

In [9]:
a = np.arange(4.).reshape(2, 2) #dtype=float
a += .5
a

array([[0.5, 1.5],
       [2.5, 3.5]])

формулировка задачи приводит в выводу ошибки, т.к. создается массив int. чтобы данная конструкция работала надо явно указать тип переменной. Либо через dtype=float, либо задав значение как 4 с точкой на конце.

Задача 6. 
Что будет выведено на экран? a = np.array([1]) if a: print(""True"") else: print(""False"")
a = np.array([1, 2, 3]) if a: print(""True"") else: print(""False"")

In [10]:
a = np.array([0])
if a:
  print('True')
else:
  print('False')

False


Вернет True при любом значении массива, кроме 0. Или инициализации пустого массива.

In [11]:
a = np.array([0, 0, 1])
if a.all(): #should use any() or all()
  print('True')
else:
  print('False')

False


Вернет ошибку. Чтобы массив длинной >1 обрабатывался корректно нужно использовать all() или any()

## Floating point special values

Что будет выведено на экран?
print(0 * np.nan)
print(np.nan - np.nan)
print(np.nan == np.nan)
print(np.nan is np.nan)
print(-np.inf < np.nan < np.inf)

In [12]:
print(0 * np.nan)

nan


In [13]:
print(np.nan - np.nan)

nan


In [14]:
print(np.nan == np.nan)

False


сравнение np.nan == np.nan возвращает False. Что корректно сравнивать np.nan надо использовать специальную функцию.

In [15]:
import pandas as pd
pd.isna(np.nan)

True

In [16]:
print(np.nan is np.nan)

True


In [17]:
print(-np.inf < np.nan < np.inf)

False


Что будет выведено на экран?
print(np.isnan(np.array([np.nan]).astype(np.int)))

In [18]:
print(np.isnan(np.array([np.nan]).astype(np.int)))

[False]


Интересно, что в данной контрукции пандас возвращает False

In [19]:
print(pd.isna(np.array([np.nan]).astype(np.int)))

[False]


## Broadcasting rules

Задача 9.
1. Создайте масив из четырех элементов: 0, 10, 20, 30
2. Создайте двухмерный массив 4x5, в котором первый столбец - массив с шага 1, а каждый элемент каждой строки, начиная со второго,  больше предыдущего элемента этой же строки на 1.

In [20]:
a = np.arange(0, 31, 10).reshape(-1, 1)
b = np.arange(5)
a + b

array([[ 0,  1,  2,  3,  4],
       [10, 11, 12, 13, 14],
       [20, 21, 22, 23, 24],
       [30, 31, 32, 33, 34]])

Задача 10.
Какой shape будет у результата операции np.arange(5).reshape(1,-1) + np.arange(5).reshape(-1,1)?

In [21]:
a = np.arange(5).reshape(1, -1) + np.arange(5).reshape(-1, 1)
a.shape

(5, 5)

## Basic slicing and indexing

Задача 11.
Создайте двумерный массив 8х8, заполненный 0 и 1 в шахматном порядке.

In [22]:
n = 8
a = np.zeros([n, n], dtype=int)
a[[range(0, n,2 )], ::2] = 1
a[[range(1, n, 2)], 1::2] = 1
a

array([[1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1]])

In [23]:
n = 8
a = np.zeros([n, n], dtype=int)
a[[range(0, n, 2)], ::2] = 1
a[[range(1, n, 2)], 1::2] = 1
a

array([[1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1],
       [1, 0, 1, 0, 1, 0, 1, 0],
       [0, 1, 0, 1, 0, 1, 0, 1]])

Задача 12.
1. Создайте одномерный массив целых чисел от 1 до 5
2. Вставьте 0 между каждой парой соседних элементов

In [24]:
a = np.arange(1, 6, 1)
b = np.zeros(a.shape[0]*2 - 1)

b[::2] = a
print(b)

[1. 0. 2. 0. 3. 0. 4. 0. 5.]


Задача 13.
Что будет выведено на экран?
x = np.arange(36).reshape(2,3,2,3)
print(x[...,0,...])

In [25]:
x = np.arange(36).reshape(3, 4, 3)
# print(x[...,0,...])

In [26]:
# x = np.arange(36).reshape(2,3,2,3) print(x[...,0,...])

Будет выведена ошибка, объект Ellipsys можно использовать только один раз. Трактуется как "добавить столько ':' сколько нужно.

В чем разница между x[:,0] и x[...,0] ?

Двоеточие подразумевает одну размерность, троеточие любое количество.

Задача 14.
Что будет выведено на экран? (!!!!)

In [27]:
x = np.arange(16).reshape(4, 4)
y = x[:, [2, 3]]
y[:] = 0
print(x)

[[ 0  1  2  3]
 [ 4  5  6  7]
 [ 8  9 10 11]
 [12 13 14 15]]


In [28]:
x = np.arange(16).reshape(4, 4)
y = x[:, :2]
y[:] = 0
print(x)

[[ 0  0  2  3]
 [ 0  0  6  7]
 [ 0  0 10 11]
 [ 0  0 14 15]]


Важная особенность nupmy в том, что при использовании листа или массива возвращается копия среза массива.
Использование только среза или числа возвращает ссылки на первоначальный массив. Через такие массивы возможны операции с первоначальным массивом.

## Boolean array indexing

Задача 15. Замените отрицательные элементы массива нулем.

In [29]:
a = np.arange(-5, 5, 1)
a[a < 0] = 0
a

array([0, 0, 0, 0, 0, 0, 1, 2, 3, 4])

Задача 16.
На примере целочисленного массива x = np.array([[1,2,3], [1,1,1], [2,2,1], [2,2,2]], dtype=int) составьте новый массив, не содержащий строки, полностью заполненные одним уникальным значением.

In [30]:
x = np.array([[1,2,3], [1,1,1], [2,2,1], [2,2,2]], dtype=int)
mask = (x[:, [0]] != x[:, 1:]).any(axis=1)
x = x[mask]
x

array([[1, 2, 3],
       [2, 2, 1]])

Задача 17.
Для заданного одномерного массива x выведите все элементы, не превышающие своих соседей (первый и последний элемент сравниваются только со вторым и предпоследним соответственно).

In [31]:
# %%timeit

def foo(arr):
    mask = np.zeros(arr.shape,dtype=bool)
    for i in range(len(arr)):
        if i == 0:
            if arr[i] <= arr[i + 1]:
                mask[i] = True
        elif i == (len(arr) - 1):
            if arr[i] <= arr[i - 1]:
                mask[i] = True
        else:
            if arr[i - 1] >= arr[i] <= arr[i + 1]:
                mask[i] = True
    return mask

a = np.random.randint(0, 5, 10)
mask = foo(a)
a = a[mask]
a


array([0, 3, 0, 2, 2, 1])

In [32]:
%%timeit
a = np.random.randint(0, 5, 10)
# print(a)
mask1 = [a[1:]<=a[:-1]]
mask2 = [a[:-1]<=a[1:]]
mask1 = np.append(True, mask1)
mask2 = np.append(mask2, True)
mask = mask1 * mask2
a = a[mask]
a

29.1 µs ± 1.91 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [33]:
# %%timeit
a = np.random.randint(0, 5, 10)
print(a)
mask = np.ones(10, dtype=bool)
mask[1:] *= (a[1:] <= a[:-1])
mask[:-1] *= (a[:-1] <= a[1:])
a = a[mask]
a

[2 2 3 2 4 4 1 1 1 2]


array([2, 2, 2, 1, 1, 1])

## Integer array indexing

Задача 18.
1. Создайте двумерный массив 3x3, заполненный случайными числами от 0 до 9
2. Отсортируйте строки массива по возрастанию значения во втором столбце

In [34]:
a = np.random.randint(0, 9, 9).reshape(3, 3)
print(a)
a[:, 1] = np.sort(a[:, 1])
a

[[5 2 4]
 [8 6 2]
 [8 3 2]]


array([[5, 2, 4],
       [8, 3, 2],
       [8, 6, 2]])

In [83]:
a = np.random.randint(0, 9, 9).reshape(3, 3)
print(a)
index = np.argsort(a[:, 1], axis=0)
a = a[index, :]
a

[[7 3 1]
 [0 4 6]
 [4 4 0]]


array([[7, 3, 1],
       [0, 4, 6],
       [4, 4, 0]])

Задача 19.
Поменяйте местами первую и вторую строки двумерного массива.

In [36]:
a = np.random.randint(0, 9, 9).reshape(3, 3)
print(a)
a[[0, 1], :] = a[[1, 0], :]
a

[[6 7 8]
 [7 3 7]
 [4 8 4]]


array([[7, 3, 7],
       [6, 7, 8],
       [4, 8, 4]])

Задача 20
1. Создайте массив 3x5, заполненный числами от 0 до 14
2. Выберите 1, 3 строки и 2, 4 столбцы, не удаляя элементы из массива

In [37]:
a = np.arange(0, 15, 1).reshape(3, 5)
print(a)
print(a[np.ix_([0, 2], [1, 3])])
print(a)

[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]
[[ 1  3]
 [11 13]]
[[ 0  1  2  3  4]
 [ 5  6  7  8  9]
 [10 11 12 13 14]]


Задача 21
Что будет выведено на экран?


In [38]:
x = np.arange(5)
print(x[[0, 0, 1]])
x[[0,0,1]] = range(3)
print(x)
x[[1,2,1]] += 1 # x[[1,2,1]] = x[[1,2,1]] + 1
print(x)

[0 0 1]
[1 2 2 3 4]
[1 3 3 3 4]


In [39]:
x[[1,2,1]]

array([3, 3, 3])

## Functions and methods overview

Задача 22.
Перечислите все известные вам способы преобразования заданного n-мерного массива в одномерный. Какой из способов работает быстрее и почему?

In [40]:
a = np.arange(0, 1600, 1).reshape(40, 40)

In [41]:
%%timeit
a.flatten()

796 ns ± 5.22 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [42]:
%%timeit
a.ravel()

199 ns ± 3.11 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [43]:
%%timeit
a.reshape(-1,)

529 ns ± 10.9 ns per loop (mean ± std. dev. of 7 runs, 1000000 loops each)


In [44]:
import timeit

a = np.arange(0, 1500, 1).reshape(30, 50)
timeit.timeit(lambda: a.resize((a.shape[0] * a.shape[1],)), number=1)
# print(a)

4.3138861656188965e-06

Задача 23.
1. Создайте массив, заполненный случайными значениями
2. Замените максимальные значения массива средним


In [45]:
a = np.random.randint(0, 5, 10).astype(np.float32)
print(a)
print(np.mean(a))
a = np.where(a == np.max(a), np.mean(a), a)
a

[3. 0. 1. 1. 3. 0. 0. 4. 2. 3.]
1.7


array([3. , 0. , 1. , 1. , 3. , 0. , 0. , 1.7, 2. , 3. ], dtype=float32)

Задача 24.
1. Создайте двумерный массив 6x6, заполненный случайными значениями
2. Сумму по каждой строке поделите на минимальный элемент из столбца с тем же индексом

In [46]:
a = np.random.randint(1, 6, size=(6, 6))
print(a)
answer = a.sum(axis=1) / a.min(axis=0)
answer

[[1 4 4 2 3 1]
 [5 5 5 5 3 2]
 [4 4 2 5 3 1]
 [1 2 2 5 4 4]
 [3 2 5 2 2 1]
 [3 3 2 2 3 1]]


array([15. , 12.5,  9.5,  9. ,  7.5, 14. ])

Задача 25.
1. Создайте одномерный массив длины 10, заполненный случайными значениями
2. Линейно отобразите элементы массива в отрезок [0, 1], при этом минимальный элемент должен отобразиться в 0, а максимальный - в 1

In [47]:
a = np.random.uniform(1, 8, 10)
a = (a - a.min()) / (a.max()-a.min())
a

array([0.31359159, 0.93669405, 0.06633042, 0.2916649 , 0.10437469,
       0.05111801, 0.        , 0.16923817, 1.        , 0.4765784 ])

Задача 26.
Замените все вхождения nan в двумерный массив средним значением по соответствующему столбцу

In [86]:
a = np.random.uniform(size=(6, 4))
a[::2, 0::1] = np.nan
print(a)

mean = np.nanmean(a, axis=0)
cell = np.argwhere([np.isnan(a)])
nan_value = mean[cell[:, 2]]
a[np.isnan(a)] = nan_value
a

[[       nan        nan        nan        nan]
 [0.35899108 0.86868973 0.28469352 0.24697369]
 [       nan        nan        nan        nan]
 [0.97484179 0.9505652  0.51769717 0.94630144]
 [       nan        nan        nan        nan]
 [0.37630503 0.72310452 0.83247592 0.72100846]]


array([[0.57004597, 0.84745315, 0.54495554, 0.63809453],
       [0.35899108, 0.86868973, 0.28469352, 0.24697369],
       [0.57004597, 0.84745315, 0.54495554, 0.63809453],
       [0.97484179, 0.9505652 , 0.51769717, 0.94630144],
       [0.57004597, 0.84745315, 0.54495554, 0.63809453],
       [0.37630503, 0.72310452, 0.83247592, 0.72100846]])

Задача 27.
Проверьте, есть ли в двумерном массиве столбец, полностью заполненый нулями.

In [49]:
a = np.random.randint(0, 2, size=(3, 6))
print(a)
mask = (a==0)
pos = mask.all(axis=0).any()
pos

[[0 1 1 0 1 0]
 [0 0 0 0 0 0]
 [0 0 0 0 0 0]]


True

Задача 28.
1. Создайте массив случайных чисел от 0 до 9 размером 3x4x3x4
2. Вычислите суммы элементов по двум последним осям

In [50]:
a = np.random.randint(0, 10, size=(3, 4, 3, 4))
# print(np.sum(a, axis=(-2,-1))) # одна трактовка
print(np.sum(a, axis=-2)) # другая трактовка (сумма по одной и по другой оси)
print(np.sum(a, axis=-1))

[[[12 15 13  7]
  [19 13 20 16]
  [12  2 15 17]
  [ 7  4  9  4]]

 [[12 15 21 13]
  [12  9 15  9]
  [15 17  7 18]
  [11 10  4 14]]

 [[ 5 18 20 17]
  [ 6 14 17 12]
  [14  7 10 18]
  [20 16 10 12]]]
[[[14 22 11]
  [16 25 27]
  [19 10 17]
  [ 6 12  6]]

 [[22 15 24]
  [19 19  7]
  [14 20 23]
  [11 18 10]]

 [[15 25 20]
  [11 25 13]
  [15 25  9]
  [27 11 20]]]


Задача 29.
1. Любым способом создайте два массива одинаковой длины
2. Создайте массив, в котором на четных позициях будут стоять элементы с соответствующих позиций первого массива, а на нечетных - с соответствующих позиций второго

In [51]:
%%timeit
a = np.random.randint(0, 10, 100)
b = np.random.uniform(0, 2, 100)
c = np.zeros(200)
c[::2] = a
c[1::2] = b
c

13.9 µs ± 72.7 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [52]:
%%timeit
a = np.random.randint(0, 10, 100)
# print(a)
b = np.random.uniform(0, 2, 100)
# print(b)
c = np.tile([0, 1.], 100)
# print(c)
# c = np.stack([a,b], axis=1)
np.place(c, c==0, a)
# print(c)
np.place(c, c==1, b)
# print(c)
c

28.4 µs ± 215 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [53]:
%%timeit
a = np.random.randint(0, 10, 100)
# print(a)
b = np.random.uniform(0, 2, 100)
# print(b)
c = np.vstack([a, b])
c = c.T.flatten()
c

20.8 µs ± 88.4 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


In [54]:
%%timeit
a = np.random.randint(0, 10, 100)
# print(a)
b = np.random.uniform(0, 2, 100)
# print(b)
c = np.vstack([a, b])
c = c.T.ravel()
c

21 µs ± 157 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


Задача 30.
На примере массива x = np.array([[1., 2.], [np.nan, 3.], [5., 5.], [np.nan, np.nan]]) вычислите долю пропущенных значений.

In [55]:
x = np.array([[1., 2.], [np.nan, 3.], [5., 5.], [np.nan, np.nan]])
answer = np.isnan(x).sum() / np.prod(x.shape)
answer

0.375

Задача 31.
На примере массива x = np.array([[1., 2.], [np.nan, 3.], [5., 5.], [np.nan, np.nan]]) составьте массив из уникальных значений массива без учета nan

In [56]:
x = np.array([[1., 2.], [np.nan, 3.], [5., 5.], [np.nan, np.nan]])
uniq = np.unique(x[~np.isnan(x)])
uniq

array([1., 2., 3., 5.])

Задача 32.
На примере массива x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0]) найдите максимальный элемент в массиве среди элементов, перед которыми стоит нулевой

In [84]:
x = np.array([6, 2, 0, 3, 0, 0, 5, 7, 0])
i, = np.where(x == 0)
maximum = x[i[:-1] + 1].max()
maximum

5

Задача 33.
Пусть заданы два массива одинакового размера. Поэлементно разделите один массив на другой. В случае, если делитель равен нулю, соответствующему элементу результирующего массива присвойте нуль.

In [58]:
a = np.random.randint(0, 5, 10)
b = np.random.randint(0, 3, 10)
print(a, b, sep='\n')
c = np.where(b == 0, 0, a / b)
c

[1 4 0 3 3 2 0 2 2 3]
[2 0 0 0 2 1 2 2 0 0]


  after removing the cwd from sys.path.
  after removing the cwd from sys.path.


array([0.5, 0. , 0. , 0. , 1.5, 2. , 0. , 1. , 0. , 0. ])

Задача 34.
Пусть заданы два массива x = np.ones(10) и i = np.array([0, 1, 2, 3, 5, 5, 5, 8]). Прибавьте единицу к тем элементам массива x, индексы которых указаны в массиве i. 
В случае, если некоторый индекс встретился в массиве i несколько раз, прибавьте к соответствующему элементу массива x число вхождений данного индекса в массив i.

In [59]:
x = np.ones(10)
i = np.array([0, 1, 2, 3, 5, 5, 5, 8])
print(np.bincount(i))
x += np.pad(np.bincount(i), [0, 1], 'constant', constant_values=(0, 0))
x

[1 1 1 1 0 3 0 0 1]


array([2., 2., 2., 2., 1., 4., 1., 1., 2., 1.])

Задача 35.
По заданному массиву y = np.bincount([0, 0, 3, 8, 10, 10, 11]) постройте массив x такой, чтобы np.bincount(x) = y

Интересно, что результат np.nonzero(arr) не хранится в буфере и перевычисляется.

In [60]:
%%timeit
y = np.bincount([0, 0, 3, 8, 10, 10, 11])
x = np.repeat(np.arange(y.size), y)
x

3.94 µs ± 32.9 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Задача 36.
Определите самые часто встречающиеся элементы в массиве целых неотрицательных чисел.
Решите задачу на примере массива x = np.array([0,1,2,0,6,6,7,4,5,4]).

In [61]:
%%timeit
x = np.array([0, 1, 2, 0, 6, 6, 7, 4, 5, 4])
i = np.bincount(x)
m = np.bincount(i)
answer, = np.where(i == len(m) - 1)
answer

4.61 µs ± 34.1 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


In [62]:
%%timeit
x = np.array([0, 1, 2, 0, 6, 6, 7, 4, 5, 4])
i = np.bincount(x)
answer, = np.where(i == i.max())
answer

6.62 µs ± 29.2 ns per loop (mean ± std. dev. of 7 runs, 100000 loops each)


Задача 37.
Разбейте двумерный массив на список двумерных массивов по уникальным значениям в первом столбце.
Решите задачу на примере массива x = np.array([[1, 2], [1, 3], [2, 2], [3, 4], [3, 5]]), 
в результате должен получиться список [array([[1, 2], [1, 3]]), array([[2, 2]]), array([[3, 4], [3, 5]])].

In [90]:
x = np.array([[1, 2], [1, 3], [2, 2], [3, 4], [3, 5]])
m = np.unique(x[:, 0])
arr_list = [x[x[:, 0] == i] for i in m]
arr_list

[array([[1, 2],
        [1, 3]]),
 array([[2, 2]]),
 array([[3, 4],
        [3, 5]])]

Notes: indices[indices.nonzero()] работает сильно быстрее чем np.trim_zeros(indices)

Задача 38.
По заданному одномерному массиву неотрицательных чисел постройте список подмассивов, 
содержащих элементы из полуинтервалов [i * 10, (i+1) * 10), i = 0, 1, 2, … ]
Решите задачу на примере массива x = np.array([8, 2, 34, 0, 11, 18, 13, 2, 24, 10, 20]), 
в результате должен получиться список [array([0, 2, 2, 8]), array([10, 11, 13, 18]), array([20, 24]), array([34])].

In [64]:
x = np.array([8, 2, 44, 0, 11, 18, 13, 2, 24, 10, 20])
y = x // 10
bincount = np.bincount(y)
indices = np.unique(bincount.cumsum())
answer = np.split(np.sort(x), indices[:-1])
answer

[array([0, 2, 2, 8]), array([10, 11, 13, 18]), array([20, 24]), array([44])]

## Vector stacking

Задача 39.
Перечислите все известные вам способы соединения заданных двумерных массивов по вертикали. Какой из способов работает быстрее?

In [65]:
arrays = [np.eye(3) * (i + 1) for i in range(400)]

In [66]:
%%timeit
np.hstack(arrays)

244 µs ± 1.63 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


преображает массивы в 2d и concatenate их

In [67]:
%%timeit
np.block(arrays)

801 µs ± 4.18 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [68]:
%%timeit
np.concatenate(arrays, axis=1)

69.7 µs ± 196 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)


concatenate возвращает masked array, в котором масками задается отображением массивов, которые мы хотим сцепить.

stack создает новую ось и конкатеринует вдоль неё

In [69]:
np.append(arrays[0], arrays[1], axis=0)

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.],
       [2., 0., 0.],
       [0., 2., 0.],
       [0., 0., 2.]])

np.append работает медленее всех.

Задача 40.

Для двух одномерных массивов x = np.arange(3) и y = np.arange(5) постройте двумерный массив строки которого - всевозможные пары элементов из x и y.

In [70]:
x = np.arange(3)
y = np.arange(5)
z = np.dstack((np.repeat(x, len(y)), np.tile(y, len(x)))).squeeze()
z

array([[0, 0],
       [0, 1],
       [0, 2],
       [0, 3],
       [0, 4],
       [1, 0],
       [1, 1],
       [1, 2],
       [1, 3],
       [1, 4],
       [2, 0],
       [2, 1],
       [2, 2],
       [2, 3],
       [2, 4]])

Задача 41.

По двум входным одномерным массивам одинаковой длины составьте массив пар элементов с одинаковыми индексами.
Решите задачу на примере массивов x = np.array([1,2,3,4]) и y = np.array([5,6,7,8]).

In [91]:
x = np.array([1, 2, 3, 4])
y = np.array([5, 6, 7, 8])
z = np.stack([x, y], axis=1)
z

array([[1, 5],
       [2, 6],
       [3, 7],
       [4, 8]])

Задача 42.

По заданному непустому списку двумерных массивов одинаковых размеров составьте трехмерный массив в котором вдоль нулевой оси расположены массивы из списка, между каждой парой которых вставлен массив полностью заполненный нулями.
Решите задачу для списка l = [np.array([[1, 2], [3, 4]]), np.array([[5, 6], [7, 8]]), np.array([[9, 10], [11, 12]])].

In [73]:
lst = [np.array([[1, 2], [3, 4]]), np.array([[5, 6], [7, 8]]), np.array([[9, 10], [11, 12]])]
lst = np.asarray(lst)
shape = list(lst.shape)
print(shape)
shape[0] = shape[0]*2 -1
answer = np.zeros(shape=shape)
answer[::2, :, :] = lst
answer

[3, 2, 2]


array([[[ 1.,  2.],
        [ 3.,  4.]],

       [[ 0.,  0.],
        [ 0.,  0.]],

       [[ 5.,  6.],
        [ 7.,  8.]],

       [[ 0.,  0.],
        [ 0.,  0.]],

       [[ 9., 10.],
        [11., 12.]]])

## Stride tricks

In [74]:
from numpy.lib.stride_tricks import as_strided

Задача 43.

Преобразуйте одномерный массив x = np.array([3,7,2,5,0,9,8,2,4,5]) в двумерный массив, первая строка которого - элементы массива x с индексами от 0 до 4, вторая строка - с 1 до 5 и т.д.

In [112]:
x = np.array([3, 7, 2, 5, 0, 9, 8, 2, 4, 5])
window = 3
shape = [x.shape[0] - window + 1, window]
answer = as_strided(x, shape=shape, strides=(x.strides[0], x.strides[0]))
answer

array([[3, 7, 2],
       [7, 2, 5],
       [2, 5, 0],
       [5, 0, 9],
       [0, 9, 8],
       [9, 8, 2],
       [8, 2, 4],
       [2, 4, 5]])

Задача 44.

Для заданного двумерного массива постройте трехмерный массив, содержащий всевозможные неперекрывающиеся блоки размера 3x3, начиная с левого верхнего угла. Если высота/ширина исходного массива не кратна трем, исключите из рассмотрения последние строки/столбцы.
Решите задачу на примере массива x = np.arange(49).reshape(7,7).

In [76]:
x = np.arange(49).reshape(7, 7)
print(x)
print(x.strides)
kernel = np.array([3, 3])
shape = [x.shape[0] // 3, x.shape[1] // 3]
(as_strided(x, 
            shape=(shape[0], shape[1], kernel[0], kernel[1]), 
            strides=(x.strides[0]*kernel[0], x.strides[1]*kernel[1], x.strides[0], x.strides[1]))
            .reshape([shape[0]*shape[1], kernel[0], kernel[1]]))

[[ 0  1  2  3  4  5  6]
 [ 7  8  9 10 11 12 13]
 [14 15 16 17 18 19 20]
 [21 22 23 24 25 26 27]
 [28 29 30 31 32 33 34]
 [35 36 37 38 39 40 41]
 [42 43 44 45 46 47 48]]
(56, 8)


array([[[ 0,  1,  2],
        [ 7,  8,  9],
        [14, 15, 16]],

       [[ 3,  4,  5],
        [10, 11, 12],
        [17, 18, 19]],

       [[21, 22, 23],
        [28, 29, 30],
        [35, 36, 37]],

       [[24, 25, 26],
        [31, 32, 33],
        [38, 39, 40]]])

## Masked arrays

Задача 45.

Примените маску к элементам одномерного массива, отличающимся от среднего на величину, большую чем 3 стандартных отклонения.
Решите задачу на примере массива из 20 элеметнов, первый из которых равен 100, а остальные равны 0.

In [77]:
x = np.zeros(100)
x[0] = 100
mean, std = np.mean(x), np.std(x)
x_mask = np.ma.masked_outside(x, mean - 3 * std, mean + 3 * std)
x_mask

masked_array(data=[--, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0,
                   0.0],
             mask=[ True, False, False, False, False, False, False, False,
                   False, False, False, False, False, False, False, False,
                   False, False, False, False, False, False, False, False,
                   False, False, False, False, False, False, False, False,
          

Задача 46.

Удалите из двумерного массива столбцы, ко всем элементам которых применена маска.
Решите задачу на примере массива x = np.ma.array([[1, 2, 3], [4, 5, 6]], mask=[[1, 1, 0], [0, 1, 0]]).

In [78]:
x = np.ma.array([[1, 2, 3], [4, 5, 6]], mask=[[1, 1, 0], [0, 1, 0]])
new_mask = np.all(np.ma.getmask(x), axis=0, keepdims=True)
x = np.delete(x, new_mask.squeeze(), axis=1)
x

masked_array(
  data=[[1, 3],
        [4, 6]],
  mask=False,
  fill_value=999999)

Задача 47.

Примените маску к минимальному и максимальному элементу каждой строки двумерного массива.
Решите задачу на примере массива x = np.arange(25).reshape(5, 5).

In [133]:
x = np.random.randint(9, size=(5, 5))
print(x)
x_max = x.max(axis=1).reshape(-1, 1)
x_min = x.min(axis=1).reshape(-1, 1)
mask = (x == x_max) + (x == x_min)
x_masked = np.ma.masked_array(x, mask)
x_masked

[[3 7 8 0 1]
 [2 4 7 7 1]
 [5 4 8 0 4]
 [2 7 3 3 8]
 [7 7 2 5 1]]


masked_array(
  data=[[3, 7, --, --, 1],
        [2, 4, --, --, --],
        [5, 4, --, --, 4],
        [--, 7, 3, 3, --],
        [--, --, 2, 5, --]],
  mask=[[False, False,  True,  True, False],
        [False, False,  True,  True,  True],
        [False, False,  True,  True, False],
        [ True, False, False, False,  True],
        [ True,  True, False, False,  True]],
  fill_value=999999)

## Iterating over arrays

Задача 48.

Примените медианный фильтр с нечетной шириной окна k к заданному одномерному массиву a: i-е значение результирующего массива вычисляется как медиана подмассива a[i - (k-1)/2: i - (k-1)/2 + 1]. В случае если границы окна выходят за границы массива, дополните исходный массив требуемым числом элементов a[0] или a[-1] с нужной стороны.
Решите задачу на примере массива a = np.array([3, 8, 100, -3, -7, 4, 0, 2]) и ширины окна k = 5.

In [113]:
def median_filter(arr, k=5):
    result = np.empty(shape=arr.shape)
    arr = np.pad(arr, [k//2, k//2], 'constant', constant_values=(arr[0], arr[-1]))
    for i in range(len(arr) - 2 * (k//2)):
        buffer = arr[i:i+k]
        result[i] = np.median(buffer)
    return result
    
a = np.array([3, 8, 100, -3, -7, 4, 0, 2])
answer = median_filter(a)
answer

array([3., 3., 3., 4., 0., 0., 2., 2.])

Задача 49.

По заданному массиву a размера Nx2 постройте одномерный массив длины N, i-й элемент которого - сумма i-го элемента первого столбца массива a и элемента первого столбца, индекс которого содержится в i-й строке второго столбца. В случае, если во втором столбце массива a содержится индекс, выходящий за границы, к элементу первого столбца ничего не прибавляйте.
Решите задачу на примере массива a = np.array([[10, 1], [3, 1], [8, 2], [6, 1], [12, 5]]).

In [81]:
a = np.array([[10, 1], [3, 1], [8, 2], [6, 1], [12, 5]])
print(a)
answer = a[:, 0].copy()
for i, y in enumerate(np.nditer(a[:, 1])):
    if y < a.shape[0]:
        answer[i] += a[y, 0]         
answer

[[10  1]
 [ 3  1]
 [ 8  2]
 [ 6  1]
 [12  5]]


array([13,  6, 16,  9, 12])

Задача 50.

По заданному двумерному массиву размера NxN постройте словарь, ключи которого - индексы диагоналей, параллельных побочной (нумерация начинается с 0), а значения - списки элементов исходного массива, лежащих на соответствующих диагоналях.
Решите задачу на примере массива a = np.arange(16).reshape(4, 4), в результате должен получиться словарь
{0: [0],
 1: [1, 4],
 2: [2, 5, 8],
 3: [3, 6, 9, 12],
 4: [7, 10, 13],
 5: [11, 14],
 6: [15]}.

In [82]:
from collections import defaultdict

a = np.arange(16).reshape(4, 4)
answer = defaultdict(list)
for i, x in np.ndenumerate(a):
    answer[sum(i)].append(x)
answer

defaultdict(list,
            {0: [0],
             1: [1, 4],
             2: [2, 5, 8],
             3: [3, 6, 9, 12],
             4: [7, 10, 13],
             5: [11, 14],
             6: [15]})