# 9.2 О массивах NumPy

Иногда при решении задач нужно создать массив заданной структуры до того, как становится известно о хранящихся в нём данных. В NumPy есть функции, которые позволяют задавать размерность массива, выделять память для его хранения и заполнять массив элементами (единицами, нулями).

In [3]:
np.empty(5) # одномерный массив из пяти элементов, память для которого выделена, но не инициализирована

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [4]:
np.zeros((10, 7)) # массив размером 10x7, заполненный нулями 

array([[0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.]])

In [5]:
np.ones((3,3,3)) # массив размером 3х3х3, заполненный единицами 

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

In [6]:
np.eye(3) # единичная матрица (элементы главной диагонали равны 1, остальные — 0) размера 3х3

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [7]:
np.full((3, 5), 3.14)  # массив 3x5 заполненный числом 3.14

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [8]:
np.arange(0, 21, 7)  # одномерный массив, заполненный числами в диапазоне от 0 до 20 с шагом 7

array([ 0,  7, 14])

In [9]:
np.linspace(0, 1, 5)  # массив из пяти чисел, равномерно распределённых в интервале между 0 и 1 включительно

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [10]:
np.random.randint(0, 10, (3, 3))  # массив размера 3х3, заполненный случайными числами из диапазона от 0 до 9 (включительно)

array([[7, 3, 3],
       [0, 4, 1],
       [2, 3, 6]])

Какие элементы расположены в последнем столбце массива, заданного с помощью кода выше?

In [11]:
my_secret = [x for x in range(1, 301, 7) if x%10 == 7 or x%10 == 1]
np.array([my_secret, [x/2 for x in my_secret], [x-100 for x in my_secret]])

array([[  1. ,  57. ,  71. , 127. , 141. , 197. , 211. , 267. , 281. ],
       [  0.5,  28.5,  35.5,  63.5,  70.5,  98.5, 105.5, 133.5, 140.5],
       [-99. , -43. , -29. ,  27. ,  41. ,  97. , 111. , 167. , 181. ]])

## Индексирование массивов NumPy

Потренируемся извлекать из двумерного массива отдельные элементы и их срезы и производить над ними математические действия. Задания блока будем выполнять на примере массива, созданного кодом:

In [98]:
first_line = [x*y for x in range(2, 100, 6) for y in range (7, 1, -2)]
second_line = [x ** 0.5 for x in range(1000, 1101, 2)]
third_line = [x**2 for x in range(51)]

big_secret = np.array([first_line, second_line, third_line, second_line, first_line])

Чему равна сумма элементов последнего столбца массива? Ответ округлите до двух цифр после запятой:

In [52]:
round(big_secret[:, -1].sum(), 2)

3154.33

Выделите из каждой строки массива big_secret первые 5 элементов. Чему равна сумма элементов главной диагонали получившейся матрицы? Округлите ответ до двух цифр после запятой:

In [57]:
round(big_secret[:, :5].diagonal().sum(), 2)

121.37

Выделите из каждой строки массива big_secret последние 5 элементов. Чему равно произведение элементов главной диагонали получившейся матрицы? Введите полученный результат без изменений и округлений.

In [69]:
big_secret[:, -5:].diagonal().prod()

341505315559.2347

Особенность индексирования

Важное отличие массивов NumPy от списков Python — при изменении среза или отдельных элементов все изменения касаются не только самого среза, но и падают в исходный массив, даже если перед внесением изменений срез был сохранён в виде отдельной переменной. Изначально NumPy проектировался для работы с большими массивами данных, поэтому при бесконтрольном копировании фрагментов массивов возникли бы проблемы с быстродействием и памятью.

In [74]:
my_array = np.random.randint(1, 100, (4, 6)) 
print(my_array)
my_slice = my_array[1:3, 2:4]
print("\n")
print(my_slice)
my_slice[:] = 0
print("\n")
print(my_array)

[[38 33  9 34 28 77]
 [56 93 80 32 63  7]
 [64 75 54  8 58 14]
 [90 24 99 10 53 45]]


[[80 32]
 [54  8]]


[[38 33  9 34 28 77]
 [56 93  0  0 63  7]
 [64 75  0  0 58 14]
 [90 24 99 10 53 45]]


Продолжим работать с массивом big_secret. Замените на 1 все элементы, у которых оба индекса нечётные, и на -1 все элементы, у которых оба индекса чётные.




In [99]:
i = range(len(big_secret))
j = range(len(big_secret[0]))

for x in i:
    for y in j:
        if x % 2 == 0 and y % 2 == 0:
            big_secret[x][y] = -1
        if x % 2 != 0 and y % 2 != 2:
            big_secret[x][y] = 1

Выделите из каждой строки обновлённого массива big_secret первые 5 элементов. Чему равна сумма элементов главной диагонали получившейся матрицы? Введите полученный ответ без изменений и округлений.

In [100]:
big_secret[:, :5].diagonal().sum()

-1.0

Выделите из каждой строки обновлённого массива big_secret последние 5 элементов. Чему равно произведение элементов главной диагонали получившейся матрицы? Введите полученный результат без изменений и округлений.

In [105]:
big_secret[:, -5:].diagonal().prod()

-1.0

## Операции с массивами

In [106]:
a = np.array([3,6,9])
b = np.array([12,15,18])

result1 = a+b
result2 = b-a
result3 = a*b
result4 = a/b
result5 = a*2
print('Сумма: {}\nРазность: {}\nПроизведение: {}\nЧастное: {}\nУмножение на число: {}'.format(result1, result2, result3, result4, result5))

Сумма: [15 21 27]
Разность: [9 9 9]
Произведение: [ 36  90 162]
Частное: [0.25 0.4  0.5 ]
Умножение на число: [ 6 12 18]


Изменение размерности массива

В некоторых задачах машинного обучения для подготовки данных к обработке нужно изменить исходную форму массива, например, преобразовать многомерный массив в одномерный, поменять местами строки и столбцы.

Замена местами строк и столбцов двумерного массива называется транспонированием. Для выполнения этой операции в NumPy используется метод T:

In [108]:
my_array = np.array([[1,2,3,4,5], [6,7,8,9,10]])
my_array.T

array([[ 1,  6],
       [ 2,  7],
       [ 3,  8],
       [ 4,  9],
       [ 5, 10]])

Для превращения массива одной размерности в массив другой — обычно для преобразования одномерного массива в многомерный — используется метод reshape. Изменить размерность массива можно только в том случае, если число элементов в исходном и в целевом массиве совпадает:

In [110]:
my_array = np.random.randint(0, 10, 20)
print(my_array)
print("\n")
my_array.reshape((4,5))

[5 0 0 5 9 7 1 2 4 3 5 6 1 3 4 0 0 0 3 6]




array([[5, 0, 0, 5, 9],
       [7, 1, 2, 4, 3],
       [5, 6, 1, 3, 4],
       [0, 0, 0, 3, 6]])

Для преобразования многомерного массива в одномерный используется метод flatten:

In [114]:
my_array = np.array([[1,2,3], [11,22,33], [111,222,333]])
print(my_array)
print("\n")
my_array.flatten()

[[  1   2   3]
 [ 11  22  33]
 [111 222 333]]




array([  1,   2,   3,  11,  22,  33, 111, 222, 333])

Сравнения и маски

Научимся сравнивать элементы массива с числом и извлекать из него только те элементы, которые больше или меньше заданного числа. Для этого создадим массив размера 3х4, произвольно заполненный числами от 0 до 10. При создании массива используется генератор случайных чисел, так что у вас могут получиться другие значения:

In [121]:
my_array = np.random.randint(0, 10, (3,4))
print(my_array)
print("\n")
my_array[my_array<5]

[[9 5 0 3]
 [9 6 8 2]
 [5 0 4 6]]




array([0, 3, 2, 0, 4])

In [116]:
my_array<5

array([[ True,  True,  True,  True],
       [False, False,  True,  True],
       [False,  True, False,  True]])

Маска нужна для выбора только определенных строк или столбцов из всего массива и скрытия остальных. Маска в Python задаётся при помощи булевых 0 и 1, где 0 скрывает столбец или строку, а 1 оставляет ее на виду. Выведем первый и третрий столбец массива:

In [125]:
mask = np.array([1, 0, 1, 0], dtype=bool)
my_array[:, mask]

array([[9, 0],
       [9, 8],
       [5, 4]])

Сортировка двумерных массивов

В двумерных массивах можно выполнять сортировку элементов строк и столбцов:

Сортировка выполняется с помощью функции sort, в качестве параметров функция получает сам массив, а также номер оси (0 (для столбцов) или 1 (для строк)) , элементы которой необходимо отсортировать. 

Как можно отсортировать элементы строк и столбцов?

Отсортируем элементы строк:

In [130]:
my_array = np.random.randint(0, 10, (4, 6))

print(my_array)
print("\n")

print(np.sort(my_array, axis=1))
print("\n")
print(np.sort(my_array, axis=0))


[[5 1 8 1 0 6]
 [9 9 5 7 8 4]
 [0 0 1 8 8 0]
 [5 1 3 3 4 9]]


[[0 1 1 5 6 8]
 [4 5 7 8 9 9]
 [0 0 0 1 8 8]
 [1 3 3 4 5 9]]


[[0 0 1 1 0 0]
 [5 1 3 3 4 4]
 [5 1 5 7 8 6]
 [9 9 8 8 8 9]]


Для выполнения упражнений из следующего блока мы будем использовать массив, созданный с помощью кода:

In [131]:
first = [x**(1/2) for x in range(100)]
second = [x**(1/3) for x in range(100, 200)]
third = [x/y for x in range(200,300,2) for y in [3,5]]

great_secret = np.array([first, second, third]).T

Сколько столбцов содержит массив great_secret?

In [134]:
len(great_secret[0])

3

Чему равна сумма косинусов элементов первой строки массива great_secret? Ответ округлите до двух знаков после запятой.

In [139]:
first_row_cos = np.cos(great_secret[0])
round(first_row_cos.sum(), 2)

0.16

Чему равна сумма элементов массива great_secret, значение которых больше 50?

In [141]:
great_secret[great_secret>50].sum()

5470.0

Переведите массив great_secret в одномерную форму. Какое значение в получившемся массиве имеет элемент с индексом 150? Скопируйте ответ из Jupyter Notebook без изменений.

In [143]:
great_secret.flatten()[150]

7.0710678118654755

Отсортируйте значения столбцов массива great_secret по возрастанию. Чему равна сумма элементов последней строки отсортированного массива? Ответ округлите до двух цифр после запятой.

In [162]:
round(np.sort(great_secret, axis=0)[-1, :].sum(), 2)

115.12

## Математические и статистические операции

Модуль NumPy содержит множество базовых статистических функций, которые помогают описать имеющиеся данные: среднее арифметическое (mean), медиана (median), стандартное отклонение (std), корреляция (corrcoef) и прочие. Давайте посмотрим, как они работают. 

Для изучения функций будем использовать набор данных, содержащих информацию об учениках шестого класса. Данные об учениках представлены в таблице:
ID (номер в журнале) 	Рост, см 	Масса тела, кг 	Средний балл
1 	                       135 	        34 	            4
2 	                       160 	        43 	            5
3 	                       163 	        40 	            4.3
4 	                       147 	        44 	            5
5 	                       138 	        41 	            4.7
6 	                       149 	        54 	            3.9
7 	                       136 	        39 	            4.2
8 	                       154 	        48 	            4.9
9 	                       137 	        35 	            3.7
10 	                       165 	        60 	            4.6

In [166]:
students = np.array(
[
    [1, 135, 34, 4],
    [2, 160, 43, 5],
    [3, 163, 40, 4.3],
    [4, 147, 44, 5],
    [5, 138, 41, 4.7],
    [6, 149, 54, 3.9],
    [7, 136, 39, 4.2],
    [8, 154, 48, 4.9],
    [9, 137, 35, 3.7],
    [10, 165, 60, 4.6]
])


array([[  1. , 135. ,  34. ,   4. ],
       [  2. , 160. ,  43. ,   5. ],
       [  3. , 163. ,  40. ,   4.3],
       [  4. , 147. ,  44. ,   5. ],
       [  5. , 138. ,  41. ,   4.7],
       [  6. , 149. ,  54. ,   3.9],
       [  7. , 136. ,  39. ,   4.2],
       [  8. , 154. ,  48. ,   4.9],
       [  9. , 137. ,  35. ,   3.7],
       [ 10. , 165. ,  60. ,   4.6]])

Средние величины

Среднее арифметическое (mean) — сумма всех значений, делённая на их количество, показывает общую тенденцию данных и описывает их одним числом. Узнаем среднюю успеваемость школьников в классе, используя функцию mean:

In [169]:
print("mean", np.mean(students[:,-1]))
print("median", np.median(students[:,-1]))

mean 4.430000000000001
median 4.449999999999999


Чему равно медианное значение массы тела школьников?

In [171]:
np.median(students[:, -2])

42.0

На сколько среднее арифметическое массы тела школьников больше медианного значения для этого же показателя? Дайте ответ в килограммах с точностью до одной десятой кг.

In [174]:
median = np.median(students[:, -2])
mean = np.mean(students[:, -2])

round(mean - median, 1)

1.8

## Коэффициент корреляции

Корреляция — статистическая взаимосвязь случайных величин. Мерой корреляции служит одноименный коэффициент, который показывает, насколько сильно связаны величины, он может быть положительным или отрицательным, а по модулю принимает значение от 0 до 1. Отрицательный коэффициент говорит о том, что случайные величины связаны, но при увеличении одной из них вторая уменьшается. Если коэффициент положительный, то величины изменяются в одном направлении.

Аналитики часто оперируют в своей работе данной величиной и ошибаются, делая ложные выводы о данных. Связано это с тем, что не всегда наличие корреляции между двумя показателями говорит о том, что между ними есть причинно-следственная связь.

In [175]:
corr = np.corrcoef(students[:,1], students[:,2])
corr

array([[1.        , 0.64314431],
       [0.64314431, 1.        ]])

Между какой парой признаков в массиве students наблюдается минимальная корреляция?


In [181]:
height_mass = np.corrcoef(students[:,1], students[:,2])[0][1]
height_performance = np.corrcoef(students[:,1], students[:,-1])[0][1]
mass_performance = np.corrcoef(students[:,2], students[:,-1])[0][1]

[height_mass, height_performance, mass_performance]

[0.6431443103755985, 0.4629371411879519, 0.2980132451286794]

Используя имеющийся набор данных о школьниках, найдите, чему равно стандартное отклонение их средних баллов.


In [183]:
np.std(students[:, -1])

0.4517742799230607

Посчитайте, чему равна дисперсия значений веса школьников.

In [184]:
np.var(students[:, 2])

60.36

Перед вами массив my_array, созданный с помощью кода выше. Напишите код, с помощью которого можно извлечь из него центральный фрагмент размером 3 х 3, с числами 7, 8, 9, 12, 13, 14, 17, 18, 19.

Код должен содержать имя массива и набор индексов для получения нужного среза. В ответе использовать только положительные значения индексов и введите ответ в одну строку без пробелов.

In [217]:
my_array = np.array([[1,2,3,4,5],
                     [6,7,8,9,10],
                     [11,12,13,14,15],
                     [16,17,18,19,20],
                     [21,22,23,24,25]])

In [201]:
my_array[1:4,1:4]

array([[ 7,  8,  9],
       [12, 13, 14],
       [17, 18, 19]])

Создайте массив my_sin, состоящий из синусов элементов массива my_array. Посчитайте, чему равна сумма элементов полученного массива. Ответ округлите до трёх цифр после запятой.

In [218]:
my_sin = np.sin(my_array)
round(my_sin.sum(), 3)

-0.058

Замените элементы в центральном фрагменте 3 х 3 массива my_sin на единицы.Чему равна сумма элементов изменённого массива? Ответ округлите до трёх знаков после запятой.

In [222]:
my_sin[1:4,1:4] = 1
round(my_sin.sum(), 3)

7.572

Преобразуйте первые 4 столбца массива my_sin в массив из 10 строк и 2 столбцов. Чему равна сумма элементов первого столбца получившегося массива? Ответ округлите до трёх заков после запятой.

In [232]:
round(my_sin[:, :4].reshape(10, 2)[:, 0].sum(), 3)

2.406

Создайте массив bigdata, содержащий квадраты всех нечётных чисел в диапазоне от 100 до 1000.

In [255]:
# bigdata = np.arange(100, 1000)

bigdata = [x**2 for x in range(101, 1000, 2)]

[10201,
 10609,
 11025,
 11449,
 11881,
 12321,
 12769,
 13225,
 13689,
 14161,
 14641,
 15129,
 15625,
 16129,
 16641,
 17161,
 17689,
 18225,
 18769,
 19321,
 19881,
 20449,
 21025,
 21609,
 22201,
 22801,
 23409,
 24025,
 24649,
 25281,
 25921,
 26569,
 27225,
 27889,
 28561,
 29241,
 29929,
 30625,
 31329,
 32041,
 32761,
 33489,
 34225,
 34969,
 35721,
 36481,
 37249,
 38025,
 38809,
 39601,
 40401,
 41209,
 42025,
 42849,
 43681,
 44521,
 45369,
 46225,
 47089,
 47961,
 48841,
 49729,
 50625,
 51529,
 52441,
 53361,
 54289,
 55225,
 56169,
 57121,
 58081,
 59049,
 60025,
 61009,
 62001,
 63001,
 64009,
 65025,
 66049,
 67081,
 68121,
 69169,
 70225,
 71289,
 72361,
 73441,
 74529,
 75625,
 76729,
 77841,
 78961,
 80089,
 81225,
 82369,
 83521,
 84681,
 85849,
 87025,
 88209,
 89401,
 90601,
 91809,
 93025,
 94249,
 95481,
 96721,
 97969,
 99225,
 100489,
 101761,
 103041,
 104329,
 105625,
 106929,
 108241,
 109561,
 110889,
 112225,
 113569,
 114921,
 116281,
 117649,
 119025,
 

Чему равна медиана массива bigdata?

In [256]:
np.median(bigdata)

302501.0

Чему равно стандартное отклонение для массива bigdata? Ответ округлите до целых

In [258]:
round(np.std(bigdata))

292095.0

Чему равен коэффициент корреляции между элементами массива bigdata с чётными и нечётными индексами? Введите полученный ответ без изменений и округлений.

In [270]:
bigdata = np.array(bigdata)

even = []
odd = []

for n, i in enumerate(bigdata):
    if n % 2 == 0:
        odd.append(i)
    else:
        even.append(i)
        
np.corrcoef(even, odd)

array([[1.        , 0.99999973],
       [0.99999973, 1.        ]])