Математические и статистические операции
Модуль NumPy содержит множество базовых статистических функций, которые помогают описать имеющиеся данные: среднее арифметическое (mean), медиана (median), стандартное отклонение (std), корреляция (corrcoef) и прочие. Давайте посмотрим, как они работают. 

Для изучения функций будем использовать набор данных, содержащих информацию об учениках шестого класса. Данные об учениках представлены в таблице:

|ID (номер в журнале)	|Рост, см	|Масса тела, кг	|Средний балл|
|---|---|---|---|
|1	|135	|34	|4|
|2	|160	|43	|5|
|3	|163	|40	|4.3|
|4	|147	|44	|5|
|5	|138	|41	|4.7|
|6	|149	|54	|3.9|
|7	|136	|39	|4.2|
|8	|154	|48	|4.9|
|9	|137	|35	|3.7|
|10	|165	|60	|4.6|
Создайте массив, содержащий эти данные, и сохраните его под именем students.

In [3]:
import numpy as np

In [4]:
students =  np.array([[1,135,34,4],
            [2,160,43,5],
            [3,163,40,4.3],
            [4,147,44,5],
            [5,138,41,4.7],
            [6,149,54,3.9],
            [7,136,39,4.2],
            [8,154,48,4.9],
            [9,137,35,3.7],
            [10,165,60,4.6]])
students

array([[  1. , 135. ,  34. ,   4. ],
       [  2. , 160. ,  43. ,   5. ],
       [  3. , 163. ,  40. ,   4.3],
       [  4. , 147. ,  44. ,   5. ],
       [  5. , 138. ,  41. ,   4.7],
       [  6. , 149. ,  54. ,   3.9],
       [  7. , 136. ,  39. ,   4.2],
       [  8. , 154. ,  48. ,   4.9],
       [  9. , 137. ,  35. ,   3.7],
       [ 10. , 165. ,  60. ,   4.6]])

### Средние величины
Среднее арифметическое (mean) — сумма всех значений, делённая на их количество, показывает общую тенденцию данных и описывает их одним числом. Узнаем среднюю успеваемость школьников в классе, используя функцию mean:

In [51]:
mean = np.mean(students[:,-1])
mean

4.430000000000001

Медиана — это такое число, что ровно половина элементов из выборки больше него, а другая половина меньше него. Если в выборке есть выбросы (значения, которые принимают величину существенно выше или ниже среднего и выделяются из всей выборки), то медиана будет лучше характеризовать всю выборку, чем среднее арифметическое.

Узнаем, как учится средний ученик, с помощью функции median:

In [23]:
median = np.median(students[:,-1])
median

4.449999999999999

Полученные результаты говорят нам о том, что в среднем школьники учатся хорошо, среди них много отличников (медианное значение среднего балла выше среднего арифметического). Заметим, что школьников в выборке всего 10, а медиана — это значение выборки, при котором ровно половина значений меньше неё, а половина — больше. 

Python сначала упорядочит значения по возрастанию, а затем возьмет среднее средних элементов полученного ряда, то есть пятого и шестого. Проверим это, используя функцию sort для сортировки значений оценок:

In [25]:
sort = np.sort(students[:,-1])
(sort[4]+sort[5])/2

4.449999999999999

Чему равно медианное значение массы тела школьников?


In [28]:
np.median(students[:,2])

42.0

In [None]:
На сколько среднее арифметическое массы тела школьников больше медианного значения для этого же показателя? Дайте ответ в килограммах с точностью до одной десятой кг.

In [29]:
np.mean(students[:,2]) - np.median(students[:,2])

1.7999999999999972

### Коэффициент корреляции
Корреляция — статистическая взаимосвязь случайных величин. Мерой корреляции служит одноименный коэффициент, который показывает, насколько сильно связаны величины, он может быть положительным или отрицательным, а по модулю принимает значение от 0 до 1. Отрицательный коэффициент говорит о том, что случайные величины связаны, но при увеличении одной из них вторая уменьшается. Если коэффициент положительный, то величины изменяются в одном направлении.

Аналитики часто оперируют в своей работе данной величиной и ошибаются, делая ложные выводы о данных. Связано это с тем, что не всегда наличие корреляции между двумя показателями говорит о том, что между ними есть причинно-следственная связь.

Давайте узнаем, как связан рост и вес наших школьников, посчитав коэффициент корреляции столбцов матрицы:

In [30]:
corr = np.corrcoef(students[:,1], students[:,2])
corr

array([[1.        , 0.64314431],
       [0.64314431, 1.        ]])

Полученный нами коэффициент корреляции составляет чуть больше 0.64. Это говорит о том, что между ростом и весом школьников существует положительная связь: более рослые ученики обычно имеют более высокую массу тела.

Между какой парой признаков в массиве students наблюдается минимальная корреляция?

In [33]:
heigh_weigh_corr = np.corrcoef(students[:,1], students[:,2])
print(heigh_weigh_corr)

heigh_score_corr = np.corrcoef(students[:,1], students[:,3])
print(heigh_score_corr)

weigh_score_corr = np.corrcoef(students[:,2], students[:,3])
print(weigh_score_corr)

[[1.         0.64314431]
 [0.64314431 1.        ]]
[[1.         0.46293714]
 [0.46293714 1.        ]]
[[1.         0.29801325]
 [0.29801325 1.        ]]


### Показатели вариации

Математическое ожидание — среднее значение случайной величины при стремлении числа её измерений к бесконечности. Если число измерений конечно, то для оценки среднего значения величины используется среднее арифметическое. 

Дисперсия — мера разброса случайной величины относительно её математического ожидания. 

 {\displaystyle D[X]=M\left[{\big (}X-M[X]{\big )}^{2}\right]} 

Как следует из формулы, дисперсия случайной величины X равна математическому ожиданию квадрата отклонения случайной величины от ее математического ожидания. То есть, если величина дисперсии небольшая, значит, все числа в выборке имеют близкие друг к другу значения, а чем она больше — тем значительнее разброс показателей.

Стандартное отклонение — самый распространенный показатель рассеивания случайной величины относительно её математического ожидания. 

{\displaystyle \sigma ={\sqrt {D[X]}}}.

Стандартное отклонение равно квадратному корню из дисперсии. Низкое стандартное отклонение показывает, что все значения в выборке сгруппированы около среднего значения.  Большой показатель этой величины говорит о том, что разброс значений большой. 

Узнаем, насколько разный у школьников рост, посчитав стандартное отклонение std:

In [36]:
std = np.std(students[:,1])
std

11.083320801997928

In [None]:
Полученный результат показывает, что в этом классе одни дети уже начали активно расти, а другие ещё не вступили в период полового созревания. В результате разброс в росте большинства учеников составляет более 11 см от среднего арифметического.

In [43]:
std = np.std(students[:,3])
std

0.4517742799230607

Посчитайте, чему равна дисперсия значений веса школьников.

Эту величину можно получить двумя способами: математически - используя определение дисперсии и известную функцию в блоке, или самостоятельно - используя подходящую функцию модуля NumPy.

In [47]:
std = np.std(students[:,2])
print(np.mean(students[:,2]))
std ** 2

43.8


60.36

### Итоговый тест

In [61]:
my_array = np.array([[1,2,3,4,5],
                     [6,7,8,9,10],
                     [11,12,13,14,15],
                     [16,17,18,19,20],
                     [21,22,23,24,25]])

Перед вами массив my_array, созданный с помощью кода выше. Напишите код, с помощью которого можно извлечь из него центральный фрагмент размером 3 х 3, с числами 7, 8, 9, 12, 13, 14, 17, 18, 19.

Код должен содержать имя массива и набор индексов для получения нужного среза. В ответе использовать только положительные значения индексов и введите ответ в одну строку без пробелов.

In [62]:
my_array[1:4,1:4]

array([[ 7,  8,  9],
       [12, 13, 14],
       [17, 18, 19]])

Создайте массив my_sin, состоящий из синусов элементов массива my_array. Посчитайте, чему равна сумма элементов полученного массива. Ответ округлите до трёх цифр после запятой.

In [63]:
my_sin = np.sin(my_array)
np.sum(my_sin)

-0.05812430261413373

In [None]:
Замените элементы в центральном фрагменте 3 х 3 массива my_sin на единицы.Чему равна сумма элементов изменённого массива? Ответ округлите до трёх знаков после запятой.

In [64]:
my_sin[1:4,1:4] = 1
print(my_sin)
np.sum(my_sin)

[[ 0.84147098  0.90929743  0.14112001 -0.7568025  -0.95892427]
 [-0.2794155   1.          1.          1.         -0.54402111]
 [-0.99999021  1.          1.          1.          0.65028784]
 [-0.28790332  1.          1.          1.          0.91294525]
 [ 0.83665564 -0.00885131 -0.8462204  -0.90557836 -0.13235175]]


7.571718421269144

Преобразуйте первые 4 столбца массива my_sin в массив из 10 строк и 2 столбцов. Чему равна сумма элементов первого столбца получившегося массива? Ответ округлите до трёх заков после запятой.

In [75]:
shaped = my_sin[:,:4].reshape(10,2)
print(shaped)
np.sum(shaped[:,0])

[[ 0.84147098  0.90929743]
 [ 0.14112001 -0.7568025 ]
 [-0.2794155   1.        ]
 [ 1.          1.        ]
 [-0.99999021  1.        ]
 [ 1.          1.        ]
 [-0.28790332  1.        ]
 [ 1.          1.        ]
 [ 0.83665564 -0.00885131]
 [-0.8462204  -0.90557836]]


2.4057172058139544

### Подготовка массива к заданиям 8-10
Создайте массив bigdata, содержащий квадраты всех нечётных чисел в диапазоне от 100 до 1000.

In [96]:
bigdata = np.array([x ** 2 for x in range(100, 1000) if x % 2 == 1])

Чему равна медиана массива bigdata?

In [97]:
np.median(bigdata)

302501.0

Чему равно стандартное отклонение для массива bigdata? Ответ округлите до целых:

In [98]:
np.std(bigdata)

292095.0301991155

Чему равен коэффициент корреляции между элементами массива bigdata с чётными и нечётными индексами? Введите полученный ответ без изменений и округлений.

In [102]:
masks = np.array([[1 - x % 2, x % 2] for x in range(len(bigdata))], dtype=bool).T
np.corrcoef(bigdata[masks[0]], bigdata[masks[1]])

array([[1.        , 0.99999973],
       [0.99999973, 1.        ]])

In [105]:
# masks = np.array([[1 - x % 2, x % 2] for x in range(len(bigdata))], dtype=bool).T

odd = [[x % 2, 1 - x % 2] for x in range(len(bigdata))]


[[1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1],
 [0],
 [1]