## B7.3.1 Математические и статистические операции


In [1]:
import numpy as np

Модуль NumPy содержит множество базовых статистических функций, которые помогают описать имеющиеся данные: среднее арифметическое (mean), медиана (median), стандартное отклонение (std), корреляция (corrcoef) и прочие. Давайте посмотрим, как они работают. 

Для изучения функций будем использовать набор данных, содержащих информацию об учениках шестого класса. Данные об учениках представлены в таблице:

In [None]:
[1, 135, 34, 4],
[2, 160, 43, 5],
[3, 163, 40, 4.3],
[4, 147, 44, 5],
[5, 138, 41, 4.7],
[6, 149, 54, 3.9],
[7, 136, 39, 4.2],
[8, 154, 48, 4.9],
[9, 137, 35, 3.7],
[10, 165, 60, 4.6]

In [12]:
students = np.array([[1, 135, 34, 4],
               [2, 160, 43, 5], 
               [3, 163, 40, 4.3], 
               [4, 147, 44, 5], 
               [5, 138, 41, 4.7], 
               [6, 149, 54, 3.9], 
               [7, 136, 39, 4.2], 
               [8, 154, 48, 4.9], 
               [9, 137, 35, 3.7], 
               [10, 165, 60, 4.6]])
students

array([[  1. , 135. ,  34. ,   4. ],
       [  2. , 160. ,  43. ,   5. ],
       [  3. , 163. ,  40. ,   4.3],
       [  4. , 147. ,  44. ,   5. ],
       [  5. , 138. ,  41. ,   4.7],
       [  6. , 149. ,  54. ,   3.9],
       [  7. , 136. ,  39. ,   4.2],
       [  8. , 154. ,  48. ,   4.9],
       [  9. , 137. ,  35. ,   3.7],
       [ 10. , 165. ,  60. ,   4.6]])

#### Средние величины
Среднее арифметическое (mean) — сумма всех значений, делённая на их количество, показывает общую тенденцию данных и описывает их одним числом. Узнаем среднюю успеваемость школьников в классе, используя функию mean:

In [13]:
mean = np.mean(students[:,-1])
mean

4.430000000000001

Медиана — величина, у которой одна половина значений меньше выборки, а другая — больше. Если в выборке есть выбросы (значения, которые принимают величину существенно выше или ниже среднего и выделяются из всей выборки), то медиана будет лучше характеризовать всю выборку, чем среднее арифметическое.

Узнаем, как учится средний ученик, с помощью функции median:

In [14]:
median = np.median(students[:,-1])
median

4.449999999999999

Полученные результаты говорят нам о том, что в среднем школьники учатся хорошо, среди них много отличников (медианное значение среднего балла выше среднего арифметического). Заметим, что школьников в выборке всего 10, а медиана — это значение выборки, при котором ровно половина значений меньше неё, а половина — больше. 

Python сначала упорядочит значения по возрастанию, а затем возьмет среднее средних элементов полученного ряда, то есть пятого и шестого. Проверим это, используя функцию sort для сортировки значений оценок:

In [15]:
sort = np.sort(students[:,-1])
(sort[4]+sort[5])/2

4.449999999999999

In [16]:
mean = np.mean(students[:,-2])
mean

43.8

In [20]:
mean = np.mean(students[:,2])
mean

43.8

#### B7.3.1.1 Задание

Чему равно медианное значение массы тела школьников?

In [19]:
median = np.median(students[:,2])
median

42.0

#### B7.3.1.2 Задание
На сколько среднее арифметическое массы тела школьников больше медианного значения для этого же показателя? Дайте ответ в килограммах с точностью до одной десятой кг.

In [25]:
median / mean

0.9589041095890412

In [39]:
mean - median

1.7999999999999972

## Коэффициент корреляции
Корреляция — статистическая взаимосвязь случайных величин. Мерой корреляции служит одноименный коэффициент, который показывает, насколько сильно связаны величины, он может быть положительным или отрицательным, а по модулю принимает значение от 0 до 1. Отрицательный коэффициент говорит о том, что случайные величины связаны, но при увеличении одной из них вторая уменьшается. Если коэффициент положительный, то величины изменяются в одном направлении.

Аналитики часто оперируют в своей работе данной величиной и ошибаются, делая ложные выводы о данных. Связано это с тем, что не всегда наличие корреляции между двумя показателями говорит о том, что между ними есть причинно-следственная связь.

Давайте узнаем, как связан рост и вес наших школьников, посчитав коэффициент корреляции столбцов матрицы:

In [41]:
corr = np.corrcoef(students[:,1], students[:,2])
corr

array([[1.        , 0.64314431],
       [0.64314431, 1.        ]])

Полученный нами коэффициент корреляции составляет чуть больше 0.64. Это говорит о том, что между ростом и весом школьников существует положительная связь: более рослые ученики обычно имеют более высокую массу тела.

In [42]:
students

array([[  1. , 135. ,  34. ,   4. ],
       [  2. , 160. ,  43. ,   5. ],
       [  3. , 163. ,  40. ,   4.3],
       [  4. , 147. ,  44. ,   5. ],
       [  5. , 138. ,  41. ,   4.7],
       [  6. , 149. ,  54. ,   3.9],
       [  7. , 136. ,  39. ,   4.2],
       [  8. , 154. ,  48. ,   4.9],
       [  9. , 137. ,  35. ,   3.7],
       [ 10. , 165. ,  60. ,   4.6]])

#### B7.3.1.3 Задание
Между какой парой признаков в массиве students наблюдается минимальная корреляция?

In [44]:
corr = np.corrcoef(students[:,2], students[:,3])
corr

array([[1.        , 0.29801325],
       [0.29801325, 1.        ]])

#### B7.3.1.4 Задание
Используя имеющийся набор данных о школьниках, найдите, чему равно стандартное отклонение их средних баллов.

In [47]:
std = np.std(students[:,3])
std

0.4517742799230607

#### B7.3.1.5 Задание

Посчитайте, чему равна дисперсия значений веса школьников.

Эту величину можно получить двумя способами: математически - используя определение дисперсии и известную функцию в блоке, или самостоятельно - используя подходящую функцию модуля NumPy.

In [None]:
60.36 

In [48]:
first_line = [x*y for x in range(2, 100, 6) for y in range (7, 1, -2)]
second_line = [x ** 0.5 for x in range(1000, 1101, 2)]
third_line = [x**2 for x in range(51)]

big_secret = np.array([first_line, second_line, third_line, second_line, first_line])

In [49]:
big_secret[:, -1].sum()

3154.332495807108

#### B7.4.1 Итоговый тест
B7.4.1.1 Задание
Отметьте НЕВЕРНЫЕ утверждения о массивах NumPy.

- При обращении к элементу двумерного массива сначала указывается индекс столбца, потом — индекс строки.
- Для создания массива всегда используется конструктор np.array.

#### B7.4.1.2 Задание
Выберите правильный код для создания массива, состоящего из 5 строк и 10 столбцов, заполненного единицами.

In [50]:
np.ones((5,10), dtype = int)

array([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])

#### B7.4.1.3 Задание
Укажите, каким может быть максимально возможное значение элемента массива, созданного с помощью кода:
np.random.randint(1, 10, (10, 10)).

In [55]:
np.random.randint(1, 10, (10, 10))

array([[9, 6, 1, 2, 9, 1, 1, 8, 9, 6],
       [3, 9, 6, 9, 6, 1, 8, 2, 3, 6],
       [6, 3, 7, 4, 5, 6, 3, 6, 3, 7],
       [7, 9, 5, 8, 9, 7, 4, 5, 4, 3],
       [5, 7, 5, 2, 4, 8, 8, 7, 8, 4],
       [7, 3, 7, 8, 5, 1, 5, 6, 8, 2],
       [4, 5, 5, 7, 1, 2, 7, 2, 1, 5],
       [5, 4, 4, 9, 7, 8, 6, 9, 9, 1],
       [1, 7, 4, 8, 6, 5, 3, 5, 7, 3],
       [3, 5, 1, 7, 6, 7, 6, 5, 4, 7]])

#### B7.4.1.4 Задание
Перед вами массив my_array, созданный с помощью кода выше. Напишите код, с помощью которого можно извлечь из него центральный фрагмент размером 3 х 3, с числами 7, 8, 9, 12, 13, 14, 17, 18, 19.

Код должен содержать имя массива и набор индексов для получения нужного среза. Ответ введите в одну строку без пробелов.

In [81]:
my_array = np.array([[1,2,3,4,5],
                     [6,7,8,9,10],
                     [11,12,13,14,15],
                     [16,17,18,19,20],
                     [21,22,23,24,25]])

In [82]:
my_array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [83]:
my_array[1:4, 1:4]

array([[ 7,  8,  9],
       [12, 13, 14],
       [17, 18, 19]])

#### B7.4.1.5 Задание
Создайте массив my_sin, состоящий из синусов элементов массива my_array. Посчитайте, чему равна сумма элементов полученного массива. Ответ округлите до трёх цифр после запятой.

In [84]:
my_array

array([[ 1,  2,  3,  4,  5],
       [ 6,  7,  8,  9, 10],
       [11, 12, 13, 14, 15],
       [16, 17, 18, 19, 20],
       [21, 22, 23, 24, 25]])

In [85]:
my_sin = np.sin(my_array).sum()
my_sin

-0.05812430261413373

#### B7.4.1.6 Задание
Замените элементы в центральном фрагменте 3 х 3 массива my_sin на единицы.Чему равна сумма элементов изменённого массива? Ответ округлите до трёх знаков после запятой.

In [97]:
# преобразование в синусы всего массива
my_sin = np.sin(my_array)
my_sin

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 , -0.95892427],
       [-0.2794155 ,  0.6569866 ,  0.98935825,  0.41211849, -0.54402111],
       [-0.99999021, -0.53657292,  0.42016704,  0.99060736,  0.65028784],
       [-0.28790332, -0.96139749, -0.75098725,  0.14987721,  0.91294525],
       [ 0.83665564, -0.00885131, -0.8462204 , -0.90557836, -0.13235175]])

In [98]:
# обращение к 3 х 3 фрагменту массива
my_sin[1:4, 1:4]

array([[ 0.6569866 ,  0.98935825,  0.41211849],
       [-0.53657292,  0.42016704,  0.99060736],
       [-0.96139749, -0.75098725,  0.14987721]])

In [99]:
# преобразование в единицы 3 х 3 фрагмента массива
my_slice = my_sin[1:4, 1:4]
my_slice[:] = 1
my_slice

array([[1., 1., 1.],
       [1., 1., 1.],
       [1., 1., 1.]])

In [106]:
# суммирование всех элементов массива и округление до 3х знаков, после запятой
my_sin.sum().round(3)

7.572

#### B7.4.1.7 Задание
Преобразуйте первые 4 столбца массива my_sin в массив из 10 строк и 2 столбцов. Чему равна сумма элементов первого столбца получившегося массива? Ответ округлите до трёх заков после запятой.

In [108]:
# вывод массива  my_sin
my_sin = my_sin[:,0:4]
my_sin
# new = my_sin.reshape(10,2)
# new[:,0].sum()

array([[ 0.84147098,  0.90929743,  0.14112001, -0.7568025 ],
       [-0.2794155 ,  1.        ,  1.        ,  1.        ],
       [-0.99999021,  1.        ,  1.        ,  1.        ],
       [-0.28790332,  1.        ,  1.        ,  1.        ],
       [ 0.83665564, -0.00885131, -0.8462204 , -0.90557836]])

In [110]:
# перевод массива в 10 х 2 формат
new = my_sin.reshape(10,2)
new

array([[ 0.84147098,  0.90929743],
       [ 0.14112001, -0.7568025 ],
       [-0.2794155 ,  1.        ],
       [ 1.        ,  1.        ],
       [-0.99999021,  1.        ],
       [ 1.        ,  1.        ],
       [-0.28790332,  1.        ],
       [ 1.        ,  1.        ],
       [ 0.83665564, -0.00885131],
       [-0.8462204 , -0.90557836]])

In [113]:
# сумма элементов первого столбца получившегося массива
new[:,0].sum().round(3)

2.406

#### Подготовка массива к заданиям 8-10
Создайте массив bigdata, содержащий квадраты всех нечётных чисел в диапазоне от 100 до 1000.

In [121]:
bigdata = [x**2 for x in range(100, 1001, 2)]
bigdata = np.array(bigdata)
# bigdata

#### B7.4.1.8 Задание
Чему равна медиана массива bigdata?

In [122]:
a = [x**2 for x in range(100, 1001, 2)]
a = np.array(a)
g = np.median(a)
g

302500.0

#### B7.4.1.9 Задание
Чему равно стандартное отклонение для массива bigdata? Ответ округлите до целых:

In [127]:
a = [x**2 for x in range(101, 1001, 2)]
a = np.array(a)
np.std(a).round(0)

292095.0

#### B7.4.1.10 Задание
Чему равен коэффициент корреляции между элементами массива bigdata с чётными и нечётными индексами? Введите полученный ответ без изменений и округлений.

In [128]:
corr = np.corrcoef(a)
corr

1.0