In [2]:
import numpy as np

# 9.4 Операции с массивами
Операции с массивами
Особенностью работы с массивами в NumPy является то, что возможности библиотеки позволяют выполнять любые математические действия с массивами без использования циклов for, благодаря чему вычисления производятся с большой скоростью. В NumPy над массивами можно производить все стандартные арифметические операции.

Операции выполняются поэлементно, поэтому для получения корректного результата размерность массивов должна быть одинаковой. Также можно производить математические операции между массивом и числом.

У нас есть два массива: найдём их сумму, разность, произведение, частное и умножим один из массивов на число:

In [None]:
a = np.array([3,6,9])
b = np.array([12,15,18])

result1 = a+b
result2 = b-a
result3 = a*b
result4 = a/b
result5 = a*2
print('Сумма: {}\n\
Разность: {}\n\
Произведение: {}\n\
Частное: {}\n\
Умножение на число: {}'.format(result1, result2, result3, result4, result5))

# Универсальные функции
**Универсальными** называют функции, которые выполняют поэлементные операции над данными, хранящимися в объектах ndarray.  
**Большинство универсальных функций** относятся к унарным операциям и выполняются над каждым элементом массива по очереди.  
**Унарные операции** — это  и есть операции, которые выполняются над каждым элементом массива по очереди.

Рассмотрим список часто используемых универсальных функций NumPy.  
*При вызове каждой из этих функций необходимо указывать название библиотеки NumPy: np.isnan(имя_массива)*:

| Функция  | Описание |
| ------------------- | ------------------- |
| abs  | Абсолютное значение целых, вещественных или комплексных элементов массива  |
| sqrt  | Квадратный корень каждого элемента массива  |
| exp  | Экспонента (ex) каждого элемента массива  |
| log, log10, log2, log1p  | Натуральный (по основанию е), десятичный, двоичный логарифм и функция log(1+x) соответственно  |
| modf  | Дробные и целые части массива в виде отдельных массивов  |
| isnan  | Массив логических (булевых) значений, показывающий, какие из элементов исходного массива  являются NaN (не числами)  |
| cos, sin, tan  | Обычные тригонометрические функции  |
| arccos, arcsin, arctan  | Обратные тригонометрические функции  |

# Изменение размерности массива
В некоторых задачах машинного обучения для подготовки данных к обработке нужно изменить исходную форму массива, например, преобразовать многомерный массив в одномерный, поменять местами строки и столбцы.

Замена местами строк и столбцов двумерного массива называется транспонированием. Для выполнения этой операции в NumPy используется метод T:

In [None]:
my_array = np.array([[1,2,3,4,5], [6,7,8,9,10]])
my_array.T

**Для превращения массива одной размерности в массив другой** — обычно для преобразования одномерного массива в многомерный — используется метод **reshape**. Изменить размерность массива можно только в том случае, если число элементов в исходном и в целевом массиве совпадает:

In [None]:
my_array = np.random.randint(0, 10, 20)
my_array.reshape((4,5))

Для преобразования **многомерного массива в одномерный** используется метод flatten:

In [13]:
my_array = np.array([[1,2,3], [11,22,33], [111,222,333]])
my_array.flatten()

array([  1,   2,   3,  11,  22,  33, 111, 222, 333])

**Сравнения и маски**  
Научимся сравнивать элементы массива с числом и извлекать из него только те элементы, которые больше или меньше заданного числа. Для этого создадим массив размера 3х4, произвольно заполненный числами от 0 до 10. При создании массива используется генератор случайных чисел, так что у вас могут получиться другие значения:

In [None]:
my_array = np.random.randint(0, 10, (3,4))

Теперь посмотрим, какие из элементов меньше 5:

In [None]:
my_array<5

Мы получили новый массив, заполненный значениями True/False в зависимости от того, меньше или больше пяти элемент, находящийся на соответствующей позиции в исходном массиве. Для того, чтобы получить элементы массива my_array, которые меньше пяти, воспользуемся кодом ниже. Отобранные элементы представляют собой одномерный массив.

In [None]:
my_array[my_array<5]

Маска нужна для выбора только определенных строк или столбцов из всего массива и скрытия остальных. Маска в Python задаётся при помощи булевых 0 и 1, где 0 скрывает столбец или строку, а 1 оставляет ее на виду. Выведем первый и третий столбец массива:

In [None]:
mask = np.array([1, 0, 1, 0], dtype=bool)
my_array[:, mask]

**Сортировка двумерных массивов**  
В двумерных массивах можно выполнять сортировку элементов строк и столбцов:

Сортировка выполняется с помощью функции sort, в качестве параметров функция получает сам массив, а также номер оси (0 (для столбцов) или 1 (для строк)) , элементы которой необходимо отсортировать. 

Как можно отсортировать элементы строк и столбцов?

Отсортируем элементы строк:

In [22]:
my_array = np.random.randint(0, 10, (4, 6))

display(np.sort(my_array, axis=1))

display(np.sort(my_array, axis=0))

array([[4, 4, 6, 7, 8, 9],
       [1, 3, 8, 8, 8, 9],
       [0, 3, 4, 5, 6, 7],
       [0, 0, 3, 3, 5, 5]])

array([[0, 3, 4, 0, 0, 3],
       [1, 4, 5, 4, 3, 6],
       [5, 5, 6, 7, 3, 7],
       [9, 8, 8, 8, 8, 9]])

**Упражнения**  
Для выполнения упражнений из следующего блока мы будем использовать массив, созданный с помощью кода:

In [4]:
first = [x**(1/2) for x in range(100)]
second = [x**(1/3) for x in range(100, 200)]
third = [x/y for x in range(200,300,2) for y in [3,5]]

great_secret = np.array([first, second, third]).T
display(great_secret)

array([[ 0.        ,  4.64158883, 66.66666667],
       [ 1.        ,  4.65700951, 40.        ],
       [ 1.41421356,  4.67232873, 67.33333333],
       [ 1.73205081,  4.68754815, 40.4       ],
       [ 2.        ,  4.70266938, 68.        ],
       [ 2.23606798,  4.71769398, 40.8       ],
       [ 2.44948974,  4.73262349, 68.66666667],
       [ 2.64575131,  4.7474594 , 41.2       ],
       [ 2.82842712,  4.76220316, 69.33333333],
       [ 3.        ,  4.77685618, 41.6       ],
       [ 3.16227766,  4.79141986, 70.        ],
       [ 3.31662479,  4.80589553, 42.        ],
       [ 3.46410162,  4.82028453, 70.66666667],
       [ 3.60555128,  4.83458813, 42.4       ],
       [ 3.74165739,  4.84880759, 71.33333333],
       [ 3.87298335,  4.86294413, 42.8       ],
       [ 4.        ,  4.87699896, 72.        ],
       [ 4.12310563,  4.89097325, 43.2       ],
       [ 4.24264069,  4.90486813, 72.66666667],
       [ 4.35889894,  4.91868473, 43.6       ],
       [ 4.47213595,  4.93242415, 73.333

In [8]:
# Чему равна сумма косинусов элементов первой строки массива great_secret? 
# Ответ округлите до двух знаков после запятой.
res = np.cos(great_secret[0])
res = round(sum(res), 2)
print(res)

0.16


In [10]:
# Чему равна сумма элементов массива great_secret, значение которых больше 50?
res = great_secret[great_secret > 50]
res = sum(res)
print(res)

5470.0


In [65]:
# Переведите массив great_secret в одномерную форму. 
# Какое значение в получившемся массиве имеет элемент с индексом 150? 
# Скопируйте ответ из Jupyter Notebook без изменений.
res = great_secret.flatten()
res = res[150]
print(res)

7.0710678118654755


In [35]:
# Отсортируйте значения столбцов массива great_secret по возрастанию. 
# Чему равна сумма элементов последней строки отсортированного массива? 
# Ответ округлите до двух цифр после запятой.
res = np.sort(great_secret, axis=0)
res = res[-1]
res = round(sum(res), 2)
print(res)

115.12


# 9.5 Математические и статистические операции
Математические и статистические операции
Модуль NumPy содержит множество базовых статистических функций, которые помогают описать имеющиеся данные: среднее арифметическое (mean), медиана (median), стандартное отклонение (std), корреляция (corrcoef) и прочие. Давайте посмотрим, как они работают. 

Для изучения функций будем использовать набор данных, содержащих информацию об учениках шестого класса. Данные об учениках представлены в таблице:

| ID (номер в журнале)  | Рост, см | Масса тела, кг | Средний балл |
| - | - | - | - |
| 1 | 135 | 34 | 4 |  
| 2 | 160 | 43 | 5 |  
| 3 | 163 | 40 | 4.3 |  
| 4 | 147 | 44 | 5 |  
| 5 | 138 | 41 | 4.7 |
| 6 | 149 | 54 | 3.9 |
| 7 | 136 | 39 | 4.2 |
| 8 | 154 | 48 | 4.9 |
| 9 | 137 | 35 | 3.7 |
| 10 | 165 | 60 | 4.6 |  

Создайте массив, содержащий эти данные, и сохраните его под именем students.

In [41]:
students = np.array([[1, 135, 34, 4], 
                    [2, 160, 43, 5], 
                    [3, 163, 40, 4.3], 
                    [4, 147, 44, 5], 
                    [5, 138, 41, 4.7], 
                    [6, 149, 54, 3.9], 
                    [7, 136, 39, 4.2], 
                    [8, 154, 48, 4.9], 
                    [9, 137, 35, 3.7], 
                    [10, 165, 60, 4.6]])

# Средние величины
**Среднее арифметическое (mean)** — сумма всех значений, делённая на их количество, показывает общую тенденцию данных и описывает их одним числом. Узнаем среднюю успеваемость школьников в классе, используя функцию mean:

In [42]:
mean = np.mean(students[:,-1])
mean

4.430000000000001

**Медиана** — это такое число, что ровно половина элементов из выборки больше него, а другая половина меньше него. Если в выборке есть выбросы (значения, которые принимают величину существенно выше или ниже среднего и выделяются из всей выборки), то медиана будет лучше характеризовать всю выборку, чем среднее арифметическое.

Узнаем, как учится средний ученик, с помощью функции median:

In [43]:
median = np.median(students[:,-1])
median

4.449999999999999

Полученные результаты говорят нам о том, что в среднем школьники учатся хорошо, среди них много отличников (медианное значение среднего балла выше среднего арифметического). Заметим, что школьников в выборке всего 10, а медиана — это значение выборки, при котором ровно половина значений меньше неё, а половина — больше. 

Таким образом, при вычислении медианы Python сначала упорядочит значения по возрастанию, а затем возьмет среднее из серединных элементов полученного ряда. В нашем случае это будут пятый и шестой элементы. Мы можем это проверить, используя функцию sort для сортировки значений оценок: 

In [44]:
sort = np.sort(students[:,-1])
(sort[4]+sort[5])/2

4.449999999999999

In [46]:
# Чему равно медианное значение массы тела школьников?
median = np.median(students[:,2])
print(median)

42.0


In [50]:
# На сколько среднее арифметическое массы тела школьников больше медианного 
# значения для этого же показателя? Дайте ответ в килограммах с точностью до одной десятой кг.
mean = np.mean(students[:,2])
median = np.median(students[:,2])
res = round((mean - median), 1)
print(res)

1.8


# Коэффициент корреляции  
**Корреляция** — статистическая взаимосвязь случайных величин. Мерой корреляции служит одноименный коэффициент, который показывает, насколько сильно связаны величины, он может быть положительным или отрицательным, а по модулю принимает значение от 0 до 1. Отрицательный коэффициент говорит о том, что случайные величины связаны, но при увеличении одной из них вторая уменьшается. Если коэффициент положительный, то величины изменяются в одном направлении.

Аналитики часто оперируют в своей работе данной величиной и ошибаются, делая ложные выводы о данных. Связано это с тем, что не всегда наличие корреляции между двумя показателями говорит о том, что между ними есть причинно-следственная связь.

Давайте узнаем, как связан рост и вес наших школьников, посчитав коэффициент корреляции столбцов матрицы:

In [52]:
corr = np.corrcoef(students[:,1], students[:,2])
print(corr)

[[1.         0.64314431]
 [0.64314431 1.        ]]


Полученный нами коэффициент корреляции составляет чуть больше 0.64. Это говорит о том, что между ростом и весом школьников существует положительная связь: более рослые ученики обычно имеют более высокую массу тела.

In [56]:
# Между какой парой признаков в массиве students наблюдается минимальная корреляция, 
# из предложенных вариантов?
print("Рост - Вес\n", np.corrcoef(students[:,1], students[:,2]))
print("Рост - Успеваемость\n", np.corrcoef(students[:,1], students[:,3]))
print("Успеваемость - Вес\n", np.corrcoef(students[:,2], students[:,3]))
# Ответ: между массой тела и успеваемостью 

Рост - Вес
 [[1.         0.64314431]
 [0.64314431 1.        ]]
Рост - Успеваемость
 [[1.         0.46293714]
 [0.46293714 1.        ]]
Успеваемость - Вес
 [[1.         0.29801325]
 [0.29801325 1.        ]]


# Показатели вариации  
**Математическое ожидание** — среднее значение случайной величины при стремлении числа её измерений к бесконечности. Если число измерений конечно, то для оценки среднего значения величины используется среднее арифметическое. 

**Дисперсия** — мера разброса случайной величины относительно её математического ожидания. 


 D[X]=M[(X-M[X])^2] 

Как следует из формулы, дисперсия случайной величины X равна математическому ожиданию квадрата отклонения случайной величины от ее математического ожидания. То есть, если величина дисперсии небольшая, значит, все числа в выборке имеют близкие друг к другу значения, а чем она больше — тем значительнее разброс показателей.

**Стандартное отклонение** — самый распространенный показатель рассеивания случайной величины относительно её математического ожидания. 

sigma =sqrt(D[X]).

Стандартное отклонение равно квадратному корню из дисперсии. Низкое стандартное отклонение показывает, что все значения в выборке сгруппированы около среднего значения.  Большой показатель этой величины говорит о том, что разброс значений большой. 

Узнаем, насколько разный у школьников рост, посчитав стандартное отклонение std:

In [57]:
std = np.std(students[:,1])
std

11.083320801997928

Полученный результат показывает, что в этом классе одни дети уже начали активно расти, а другие ещё не вступили в период полового созревания. В результате разброс в росте большинства учеников составляет более 11 см от среднего арифметического.

In [58]:
# Используя имеющийся набор данных о школьниках, найдите, 
# чему равно стандартное отклонение их средних баллов.
std = np.std(students[:,-1])
print(std)

0.4517742799230607


In [59]:
# Посчитайте, чему равна дисперсия значений веса школьников.
# Эту величину можно получить двумя способами: 
# математически - используя определение дисперсии и известную функцию в блоке, 
# или самостоятельно - используя подходящую функцию модуля NumPy.
disp = np.var(students[:,2])
print(disp)

60.36


In [62]:
# Перед вами массив my_array, созданный с помощью кода выше. Напишите код, с помощью которого 
# можно извлечь из него центральный фрагмент размером 3 х 3, с числами 7, 8, 9, 12, 13, 14, 17, 18, 19.

# Код должен содержать имя массива и набор индексов для получения нужного среза. 
# В ответе использовать только положительные значения индексов и введите ответ в одну строку без пробелов.
my_array = np.array([[1,2,3,4,5],
                     [6,7,8,9,10],
                     [11,12,13,14,15],
                     [16,17,18,19,20],
                     [21,22,23,24,25]])
print(my_array[1:4, 1:4])

[[ 7  8  9]
 [12 13 14]
 [17 18 19]]


In [66]:
# Создайте массив my_sin, состоящий из синусов элементов массива my_array. 
# Посчитайте, чему равна сумма элементов полученного массива. 
# Ответ округлите до трёх цифр после запятой.
my_sin = np.sin(my_array)
print(round(np.sum(my_sin), 3))

-0.058


In [97]:
# Замените элементы в центральном фрагменте 3 х 3 массива my_sin на единицы. 
# Чему равна сумма элементов изменённого массива? 
# Ответ округлите до трёх знаков после запятой.
my_sin[1:4, 1:4] = 1
print(round(np.sum(my_sin), 3))

7.572


In [96]:
# Преобразуйте первые четыре столбца массива my_sin в массив из 10 строк и 2 столбцов. 
# Чему равна сумма элементов первого столбца получившегося массива? 
# Ответ округлите до трёх заков после точки-разделителя. 
# Используйте преобразованный в предыдущем задании массив my_sin.
new = my_sin[:, :4].reshape((10,2))
new = round(sum(new[:,0]), 3)
print(new)

2.406


In [101]:
# Создайте массив bigdata, содержащий квадраты всех нечётных чисел в диапазоне от 100 до 1000.
bigdata = np.array([x**2 for x in range(100, 1000) if x % 2 ])
# print(bigdata)

In [103]:
# Чему равна медиана массива bigdata?
med = np.median(bigdata)
print(med)

302501.0


In [105]:
# Чему равно стандартное отклонение для массива bigdata? 
# Ответ округлите до целых:
std = round(np.std(bigdata))
print(std)

292095


In [112]:
# Чему равен коэффициент корреляции между элементами массива bigdata с чётными и нечётными индексами? 
# Введите полученный ответ без изменений и округлений.
corr = np.corrcoef(bigdata[::2], bigdata[1::2])
print(corr[1,0])

0.9999997296285765
