# Создание массива

Массив в Python задаётся с помощью функции array() модуля NumPy, которая трансформирует вложенные в неё последовательности в массив. Простой способ задать массив — перечислить его элементы внутри квадратных скобок [] через запятую:

In [1]:
import numpy as np
import pandas as pd


In [2]:
arr1 = np.array([1,2,3,4])

Функция array() преобразует вложенные элементы в массив. Важная особенность массивов NumPy — все хранящиеся в них данные должны относиться только к одному типу. Тип элементов массива соответствует типу элементов вложенной исходной последовательности, но в момент создания массива его можно изменить, задав параметр dtype требуемого типа. Для того, чтобы узнать тип данных элементов массива, используем метод dtype:

In [3]:
arr2 = np.array([5,6,7,8], dtype = float)
arr2.dtype

dtype('float64')

Для создания массивов большей размерности каждая строка должна быть помещаться в квадратные скобки, при этом строки разделяются запятой. Для двумерного массива (матрицы) можно использовать такой код:

Массив из Pandas

В процессе анализа данных возникают ситуации, когда требуется выполнить с данными, хранящимися в Pandas DataFrame, сложные математические операции. Мы можем преобразовать датафрейм или его часть, содержащую количественные показатели, в объект ndarray с помошью функции values библиотеки Pandas:

In [4]:
df = pd.DataFrame()
x = df.values
type(x)


numpy.ndarray

Используя функцию values, массив можно получить из Series:

In [5]:
import numpy as np
import pandas as pd
my_series = pd.Series([5, 6, 7, 8, 9, 10])
my_series.values

array([ 5,  6,  7,  8,  9, 10], dtype=int64)

Другие способы создания массива

Иногда при решении задач нужно создать массив заданной структуры до того, как становится известно о хранящихся в нём данных. В NumPy есть функции, которые позволяют задавать размерность массива, выделять память для его хранения и заполнять массив элементами (единицами, нулями).

Проверьте результат выполнения функций в Jupyter Notebook:

In [6]:
np.empty(5) # одномерный массив из пяти элементов, память для которого выделена, но не инициализирована

array([9.06195534e-312, 9.06195531e-312, 9.06195534e-312, 9.06195534e-312,
       0.00000000e+000])

In [7]:
np.zeros((10, 7)) # массив размером 10x7, заполненный нулями 

array([[0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0.]])

In [8]:
np.ones((3,3,3)) # массив размером 3х3х3, заполненный единицами 

array([[[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]],

       [[1., 1., 1.],
        [1., 1., 1.],
        [1., 1., 1.]]])

In [9]:
np.eye(3) # единичная матрица (элементы главной диагонали равны 1, остальные — 0) размера 3х3

array([[1., 0., 0.],
       [0., 1., 0.],
       [0., 0., 1.]])

In [10]:
np.full((3, 5), 3.14)  # массив 3x5 заполненный числом 3.14

array([[3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14],
       [3.14, 3.14, 3.14, 3.14, 3.14]])

In [11]:
np.arange(0, 21, 7)  # одномерный массив, заполненный числами в диапазоне от 0 до 20 с шагом 7

array([ 0,  7, 14])

In [12]:
np.linspace(0, 1, 5)  # массив из пяти чисел, равномерно распределённых в интервале между 0 и 1 включительно

array([0.  , 0.25, 0.5 , 0.75, 1.  ])

In [13]:
np.random.randint(0, 10, (3, 3))  # массив размера 3х3, заполненный случайными числами из диапазона от 0 до 9 (включительно)

array([[2, 6, 2],
       [6, 9, 2],
       [1, 8, 5]])

In [14]:
np.array([[8,13,18,4], [25,3,18,28], [14,15,18,24], [1,2,3,4]]) 

array([[ 8, 13, 18,  4],
       [25,  3, 18, 28],
       [14, 15, 18, 24],
       [ 1,  2,  3,  4]])

In [15]:
my_secret = [x for x in range(1, 301, 7) if x%10 == 7 or x%10 == 1]
np.array([my_secret, [x/2 for x in my_secret], [x-100 for x in my_secret]])

array([[  1. ,  57. ,  71. , 127. , 141. , 197. , 211. , 267. , 281. ],
       [  0.5,  28.5,  35.5,  63.5,  70.5,  98.5, 105.5, 133.5, 140.5],
       [-99. , -43. , -29. ,  27. ,  41. ,  97. , 111. , 167. , 181. ]])

In [16]:
np.ones(5) 


array([1., 1., 1., 1., 1.])

In [17]:
np.ones((5,5)) 

array([[1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1.]])

In [18]:
np.eye(5) 

array([[1., 0., 0., 0., 0.],
       [0., 1., 0., 0., 0.],
       [0., 0., 1., 0., 0.],
       [0., 0., 0., 1., 0.],
       [0., 0., 0., 0., 1.]])

In [19]:
np.full((5,5), 1) 

array([[1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1],
       [1, 1, 1, 1, 1]])

In [20]:
np.array([[1,2,3,4,5], [5,1,2,3,4], [4,5,1,2,3], [3,4,5,1,2], [2,3,4,5,1]])

array([[1, 2, 3, 4, 5],
       [5, 1, 2, 3, 4],
       [4, 5, 1, 2, 3],
       [3, 4, 5, 1, 2],
       [2, 3, 4, 5, 1]])

In [21]:
np.random.randint(0, 4, (3, 3)) 

array([[2, 1, 2],
       [0, 3, 1],
       [2, 2, 1]])

In [22]:
np.random.randint(0, 5, (3, 3)) 

array([[3, 3, 0],
       [1, 0, 3],
       [1, 1, 0]])

In [23]:
np.random.randint(0, 6, (3, 3)) 

array([[2, 0, 1],
       [1, 2, 1],
       [5, 1, 4]])

In [24]:
np.random.randint(0, 5, 3) 

array([1, 0, 2])

In [25]:
np.array([[1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1], [1, 1, 1, 1]]) 

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]])

In [26]:
np.eye(4) 

array([[1., 0., 0., 0.],
       [0., 1., 0., 0.],
       [0., 0., 1., 0.],
       [0., 0., 0., 1.]])

In [27]:
np.array(range(9)) 

array([0, 1, 2, 3, 4, 5, 6, 7, 8])

In [28]:
np.ones((2,2,2)) 

array([[[1., 1.],
        [1., 1.]],

       [[1., 1.],
        [1., 1.]]])

In [29]:
np.array([i for i in range(11) if i%2]) 

array([1, 3, 5, 7, 9])

In [30]:
np.arange(1, 14, 2) 

array([ 1,  3,  5,  7,  9, 11, 13])

# Индексирование массивов NumPy

Массивы, как и другие итерируемые объекты Python, позволяют обращаться к отдельным своим элементам с помощью индексов и срезов. В этом разделе мы рассмотрим некоторые особенности индексации массивов разной размерности. При работе с одномерными массивами все приёмы работы с индексами похожи на приёмы при работе со списками.

Основные правила:

    индекс первого элемента массива равен 0;
    для обращения к элементу массива по индексу необходимо указать имя переменной, в которой хранится массив, и индекс в квадратных скобках;
    допускается использование отрицательных индексов;
    для обращения к нескольким идущим подряд элементам массива создаётся срез, в котором указывается индекс первого элемента среза и индекс элемента, следующего за последним, разделённые двоеточием;
    при создании среза возможно задание шага, в этом случае в срез будут включены не все элементы, а только отстоящие друг от друга на величину шага.

Рассмотрим примеры использования индексов при работе с одномерным массивом. Попробуйте самостоятельно выполнить код:

In [31]:
my_array = np.array([x for x in range(10)])

In [32]:
my_array[5]

5

In [33]:
my_array[-1]

9

In [34]:
my_array[3:6]

array([3, 4, 5])

In [35]:
my_array[1:8:3]

array([1, 4, 7])

При работе с двумерными массивами для обращения к элементу мы указываем два индекса, соответствующие номеру строки и номеру столбца. Каждый индекс можно указывать в отдельных квадратных скобках или внутри одной пары скобок через запятую:

In [36]:
my_array = np.array([[1,2,3,4], [10,11,12,13], [45,46,47,48]])

In [37]:
my_array[1][2]


12

In [38]:
my_array[1,2]

12

# Индексация двумерных массивов имеет следующие особенности:

    при указании только одного индекса из массива будет выделена вся строка, соответствующая указанному индексу;
    можно указывать несколько индексов или срезов для каждой из осей.

Поэкспериментируйте с индексацией двумерного массива, используя образец:

In [39]:
my_array[:,2]

array([ 3, 12, 47])

In [40]:
my_array[1:,1:3]

array([[11, 12],
       [46, 47]])

In [41]:
first_line = [x*y for x in range(2, 100, 6) for y in range (7, 1, -2)]
second_line = [x ** 0.5 for x in range(1000, 1101, 2)]
third_line = [x**2 for x in range(51)]

big_secret = np.array([first_line, second_line, third_line, second_line, first_line])

In [42]:
big_secret.shape

(5, 51)

Пока мы не научились применять функции NumPy к массивам и их фрагментам, используйте цикл с параметром для организации вычислений.

In [43]:
sum_col = 0
for x in range(len(big_secret)):
    sum_col=sum_col+big_secret[x,-1]
    print(sum_col)
display(round(sum_col,2))

294.0
327.166247903554
2827.166247903554
2860.332495807108
3154.332495807108


3154.33

In [44]:
round(big_secret[:,50].sum(),2)

3154.33

9.3.2 Выделите из каждой строки массива big_secret первые 5 элементов. 
Чему равна сумма элементов главной диагонали получившейся матрицы? Округлите ответ до двух цифр после запятой:

In [45]:
round(big_secret[:,:5].diagonal().sum(),2)


121.37

9.3.3 Выделите из каждой строки массива big_secret последние 5 элементов. 
Чему равно произведение элементов главной диагонали получившейся матрицы? 
Введите полученный результат без изменений и округлений.


In [46]:
big_secret[:,-5:].diagonal().prod()

341505315559.2347

# Особенность индексирования

Важное отличие массивов NumPy от списков Python — при изменении среза или отдельных элементов все изменения касаются не только самого среза, но и падают в исходный массив, даже если перед внесением изменений срез был сохранён в виде отдельной переменной. Изначально NumPy проектировался для работы с большими массивами данных, поэтому при бесконтрольном копировании фрагментов массивов возникли бы проблемы с быстродействием и памятью.

Создадим массив 4 х 6:

In [47]:
my_array = np.random.randint(1, 100, (4, 6))
my_array

array([[28, 15, 28, 67, 89, 71],
       [50, 86,  2, 79, 23, 38],
       [70, 84, 11, 11, 13, 18],
       [20, 73, 45, 88, 64, 72]])

Массив создаётся с помощью генератора случайных чисел, поэтому при выполнении кода у вас могут получиться другие значения. 
Выделим из созданного массива квадрат 2 х 2, содержащий 4 элемента, расположенные в центре матрицы:

In [48]:
my_slice = my_array[1:3, 2:4]
my_slice

array([[ 2, 79],
       [11, 11]])

Заменим эти элементы на нули и посмотрим, как изменится содержимое исходной матрицы:

In [49]:
my_slice[:] = 0
my_array

array([[28, 15, 28, 67, 89, 71],
       [50, 86,  0,  0, 23, 38],
       [70, 84,  0,  0, 13, 18],
       [20, 73, 45, 88, 64, 72]])

Продолжим работать с массивом big_secret. 
Замените на 1 все элементы, у которых оба индекса нечётные, и на -1 все элементы, у которых оба индекса чётные.


9.4.4 Выделите из каждой строки обновлённого массива big_secret первые 5 элементов. 
Чему равна сумма элементов главной диагонали получившейся матрицы? 
Введите полученный ответ без изменений и округлений.

In [50]:
for x in range (0,big_secret.shape[0]):
    for y in range (0,big_secret.shape[1]):
        if x%2!=0 and y%2!=0: 
            big_secret[x,y]=1
        if x%2==0 and y%2==0: 
            big_secret[x,y]=-1
big_secret[:, 0:5].diagonal().sum()

-1.0

9.4.5. Выделите из каждой строки обновлённого массива big_secret последние 5 элементов. 
Чему равно произведение элементов главной диагонали получившейся матрицы? 
Введите полученный результат без изменений и округлений.

In [51]:
big_secret[:, -5:].diagonal().prod()

-1.0

# 9.4. Операции с массивами

Операции с массивами

Особенностью работы с массивами в NumPy является то, что возможности библиотеки позволяют выполнять любые математические действия с массивами без использования циклов for, благодаря чему вычисления производятся с большой скоростью. В NumPy над массивами можно производить все стандартные арифметические операции.

Операции выполняются поэлементно, поэтому для получения корректного результата размерность массивов должна быть одинаковой. Также можно производить математические операции между массивом и числом.

У нас есть два массива: найдём их сумму, разность, произведение, частное и умножим один из массивов на число:

In [52]:
a = np.array([3,6,9])
b = np.array([12,15,18])

result1 = a+b
result2 = b-a
result3 = a*b
result4 = a/b
result5 = a*2
print('Сумма: {}\nРазность: {}\nПроизведение: {}\nЧастное: {}\nУмножение на число: {}'.format(result1, result2, result3, result4, result5))

Сумма: [15 21 27]
Разность: [9 9 9]
Произведение: [ 36  90 162]
Частное: [0.25 0.4  0.5 ]
Умножение на число: [ 6 12 18]


# Универсальные функции

Универсальными называют функции, которые выполняют поэлементные операции над данными, хранящимися в объектах ndarray.  Большинство универсальных функций относятся к унарным операциям и выполняются над каждым элементом массива по очереди. Унарные операции — это  и есть операции, которые выполняются над каждым элементом массива по очереди.

Рассмотрим список часто используемых универсальных функций NumPy. При вызове каждой из этих функций необходимо указывать название библиотеки NumPy: np.isnan(имя_массива):


Функция 	Описание
abs 	Абсолютное значение целых, вещественных или комплексных элементов массива

sqrt 	Квадратный корень каждого элемента массива

exp 	Экспонента (ex) каждого элемента массива

log, log10, log2, log1p 	Натуральный (по основанию е), десятичный, двоичный логарифм и функция log(1+x) соответственно
modf 	Дробные и целые части массива в виде отдельных массивов

isnan 	Массив логических (булевых) значений, показывающий, какие из элементов исходного массива  являются NaN (не числами)
cos, sin, tan 	Обычные тригонометрические функции

arccos, arcsin, arctan 	Обратные тригонометрические функции

# Изменение размерности массива

В некоторых задачах машинного обучения для подготовки данных к обработке нужно изменить исходную форму массива, например, преобразовать многомерный массив в одномерный, поменять местами строки и столбцы.

Замена местами строк и столбцов двумерного массива называется транспонированием. Для выполнения этой операции в NumPy используется метод T:

In [53]:
my_array = np.array([[1,2,3,4,5], [6,7,8,9,10]])
my_array.T

array([[ 1,  6],
       [ 2,  7],
       [ 3,  8],
       [ 4,  9],
       [ 5, 10]])

Для превращения массива одной размерности в массив другой — обычно для преобразования одномерного массива в многомерный — используется метод reshape. Изменить размерность массива можно только в том случае, 
если число элементов в исходном и в целевом массиве совпадает:

In [54]:
my_array = np.random.randint(0, 10, 20)
my_array#.reshape((4,5))

array([0, 0, 7, 5, 2, 5, 6, 0, 1, 4, 3, 7, 5, 5, 0, 2, 1, 9, 2, 7])

In [55]:
my_array.reshape((4,5))

array([[0, 0, 7, 5, 2],
       [5, 6, 0, 1, 4],
       [3, 7, 5, 5, 0],
       [2, 1, 9, 2, 7]])

Для преобразования многомерного массива в одномерный используется метод flatten:

In [56]:
my_array.flatten()

array([0, 0, 7, 5, 2, 5, 6, 0, 1, 4, 3, 7, 5, 5, 0, 2, 1, 9, 2, 7])

# Сравнения и маски

Научимся сравнивать элементы массива с числом и извлекать из него только те элементы, 
которые больше или меньше заданного числа. Для этого создадим массив размера 3х4, произвольно заполненный числами от 0 до 10. 
При создании массива используется генератор случайных чисел, так что у вас могут получиться другие значени

In [57]:
my_array = np.random.randint(0, 10, (3,4))
my_array

array([[8, 9, 6, 0],
       [7, 1, 4, 9],
       [9, 9, 1, 0]])

Теперь посмотрим, какие из элементов меньше 5:

In [58]:
my_array<5

array([[False, False, False,  True],
       [False,  True,  True, False],
       [False, False,  True,  True]])

Мы получили новый массив, заполненный значениями True/False в зависимости от того, меньше или больше пяти элемент, 
находящийся на соответствующей позиции в исходном массиве. Для того, чтобы получить элементы массива my_array, 
которые меньше пяти, воспользуемся кодом ниже. Отобранные элементы представляют собой одномерный массив.

In [59]:
my_array[my_array<5]

array([0, 1, 4, 1, 0])

Маска нужна для выбора только определенных строк или столбцов из всего массива и скрытия остальных. 
Маска в Python задаётся при помощи булевых 0 и 1, где 0 скрывает столбец или строку, а 1 оставляет ее на виду. 
Выведем первый и третрий столбец массива:

In [60]:
mask = np.array([1, 0, 1, 0], dtype=bool)
my_array[:, mask]

array([[8, 6],
       [7, 4],
       [9, 1]])

# Сортировка двумерных массивов

В двумерных массивах можно выполнять сортировку элементов строк и столбцов:

Сортировка выполняется с помощью функции sort, в качестве параметров функция получает сам массив, а также номер оси (0 (для столбцов) или 1 (для строк)) , элементы которой необходимо отсортировать. 

Как можно отсортировать элементы строк и столбцов?

Отсортируем элементы строк:

In [61]:
my_array = np.random.randint(0, 10, (4, 6))
my_array

array([[8, 8, 6, 4, 2, 9],
       [2, 0, 8, 4, 9, 0],
       [0, 0, 5, 7, 2, 8],
       [1, 0, 4, 6, 7, 5]])

In [62]:
np.sort(my_array, axis=1)

array([[2, 4, 6, 8, 8, 9],
       [0, 0, 2, 4, 8, 9],
       [0, 0, 2, 5, 7, 8],
       [0, 1, 4, 5, 6, 7]])

In [63]:
np.sort(my_array, axis=0)

array([[0, 0, 4, 4, 2, 0],
       [1, 0, 5, 4, 2, 5],
       [2, 0, 6, 6, 7, 8],
       [8, 8, 8, 7, 9, 9]])

Для выполнения упражнений из следующего блока мы будем использовать массив, созданный с помощью кода:

In [64]:
first = [x**(1/2) for x in range(100)]
second = [x**(1/3) for x in range(100, 200)]
third = [x/y for x in range(200,300,2) for y in [3,5]]

great_secret = np.array([first, second, third]).T

9.4.1 Сколько столбцов содержит массив great_secret?

In [65]:
great_secret.shape

(100, 3)

9.4.2 Чему равна сумма косинусов элементов первой строки массива great_secret? Ответ округлите до двух знаков после запятой.

In [66]:
a=great_secret[0,:]
round(np.cos(a).sum(),2)

0.16

9.4.3 Чему равна сумма элементов массива great_secret, значение которых больше 50?

In [67]:
great_secret[great_secret>50].sum()

5470.0

9.4.4 Переведите массив great_secret в одномерную форму. Какое значение в получившемся массиве имеет элемент с индексом 150? 
Скопируйте ответ из Jupyter Notebook без изменений.

In [68]:
great_secret.flatten()[150]

7.0710678118654755

9.4.5 Отсортируйте значения столбцов массива great_secret по возрастанию. Чему равна сумма элементов последней строки отсортированного массива? 
Ответ округлите до двух цифр после запятой.

In [69]:
round(np.sort(great_secret, axis=0)[-1:,:].sum(),2)

115.12

# 9.5. Математические и статистические операции

Математические и статистические операции

Модуль NumPy содержит множество базовых статистических функций, которые помогают описать имеющиеся данные: среднее арифметическое (mean), медиана (median), стандартное отклонение (std), корреляция (corrcoef) и прочие. Давайте посмотрим, как они работают. 

Для изучения функций будем использовать набор данных, содержащих информацию об учениках шестого класса. Данные об учениках представлены в таблице:

In [70]:
#ID (номер в журнале) 	Рост, см 	Масса тела, кг 	Средний балл
first_ID = [1,2,3,4,5,6,7,8,9,10]
second_growth = [135,160,163,147,138,149,136,151,137,165]
third_weight = [34,43,40,44,41,54,39,48,35,60]
forth_scores = [4,5,4.3,5,4.7,3.9,4.2,4.9,3.7,4.6]
students = np.array([first_ID, 
                     second_growth,
                     third_weight,
                     forth_scores]).T

In [71]:
students

array([[  1. , 135. ,  34. ,   4. ],
       [  2. , 160. ,  43. ,   5. ],
       [  3. , 163. ,  40. ,   4.3],
       [  4. , 147. ,  44. ,   5. ],
       [  5. , 138. ,  41. ,   4.7],
       [  6. , 149. ,  54. ,   3.9],
       [  7. , 136. ,  39. ,   4.2],
       [  8. , 151. ,  48. ,   4.9],
       [  9. , 137. ,  35. ,   3.7],
       [ 10. , 165. ,  60. ,   4.6]])

In [72]:
#Узнаем среднюю успеваемост
mean = np.mean(students[:,-1])
mean

4.430000000000001

In [73]:
#Узнаем, как учится средний ученик, с помощью функции median:
median = np.median(students[:,-1])
median

4.449999999999999

Таким образом, при вычислении медианы Python сначала упорядочит значения по возрастанию, а затем возьмет среднее из серединных элементов полученного ряда. В нашем случае это будут пятый и шестой элементы. 
Мы можем это проверить, используя функцию sort для сортировки значений оценок: 

In [74]:
sort = np.sort(students[:,-1])
(sort[4]+sort[5])/2

4.449999999999999

9.5.1 Чему равно медианное значение массы тела школьников?

In [75]:
median_weight=np.median(students[:,2])
median_weight

42.0

9.5.2 На сколько среднее арифметическое массы тела школьников больше медианного значения для этого же показателя? 
Дайте ответ в килограммах с точностью до одной десятой кг.

In [76]:
avg_weight=np.mean(students[:,2])

round((avg_weight-median_weight),1)

1.8

# Коэффициент корреляции

Корреляция — статистическая взаимосвязь случайных величин. Мерой корреляции служит одноименный коэффициент, который показывает, насколько сильно связаны величины, он может быть положительным или отрицательным, а по модулю принимает значение от 0 до 1. Отрицательный коэффициент говорит о том, что случайные величины связаны, но при увеличении одной из них вторая уменьшается. Если коэффициент положительный, то величины изменяются в одном направлении.

Аналитики часто оперируют в своей работе данной величиной и ошибаются, делая ложные выводы о данных. Связано это с тем, что не всегда наличие корреляции между двумя показателями говорит о том, что между ними есть причинно-следственная связь.

Давайте узнаем, как связан рост и вес наших школьников, посчитав коэффициент корреляции столбцов матрицы:

In [77]:
corr = np.corrcoef(students[:,1], students[:,2])
corr

array([[1.        , 0.63513846],
       [0.63513846, 1.        ]])

Полученный нами коэффициент корреляции составляет чуть больше 0.64. Это говорит о том, что между ростом и весом школьников существует положительная связь: 
более рослые ученики обычно имеют более высокую массу тела.

9.5.3 Между какой парой признаков в массиве students наблюдается минимальная корреляция, из предложенных вариантов?
между ростом и массой тела 

In [78]:
corr_groth_scores = np.corrcoef(students[:,1], students[:,3])
corr_groth_scores

array([[1.        , 0.43936167],
       [0.43936167, 1.        ]])

In [79]:
corr_weight_scores = np.corrcoef(students[:,2], students[:,3])
corr_weight_scores

array([[1.        , 0.29801325],
       [0.29801325, 1.        ]])

# Показатели вариации

Математическое ожидание — среднее значение случайной величины при стремлении числа её измерений к бесконечности. Если число измерений конечно, то для оценки среднего значения величины используется среднее арифметическое. 

Дисперсия — мера разброса случайной величины относительно её математического ожидания. 

 {\displaystyle D[X]=M\left[{\big (}X-M[X]{\big )}^{2}\right]} 

Как следует из формулы, дисперсия случайной величины X равна математическому ожиданию квадрата отклонения случайной величины от ее математического ожидания. То есть, если величина дисперсии небольшая, значит, все числа в выборке имеют близкие друг к другу значения, а чем она больше — тем значительнее разброс показателей.

Стандартное отклонение — самый распространенный показатель рассеивания случайной величины относительно её математического ожидания. 

{\displaystyle \sigma ={\sqrt {D[X]}}}.

Стандартное отклонение равно квадратному корню из дисперсии. Низкое стандартное отклонение показывает, что все значения в выборке сгруппированы около среднего значения.  Большой показатель этой величины говорит о том, что разброс значений большой. 

Узнаем, насколько разный у школьников рост, посчитав стандартное отклонение std:

In [80]:
std = np.std(students[:,1])
std

10.96767979109529

 9.5.4 Используя имеющийся набор данных о школьниках, найдите, чему равно стандартное отклонение их средних баллов.

In [81]:
std = np.std(students[:,3])
std

0.4517742799230607

9.5.5 Посчитайте, чему равна дисперсия значений веса школьников.

Эту величину можно получить двумя способами: математически - используя определение дисперсии и известную функцию в блоке, или самостоятельно - используя подходящую функцию модуля NumPy.

Функции (методы) для расчета статистик в Numpy
Ниже, в таблице, приведены методы объекта ndarray (или matrix), которые, как мы помним из раздела выше, могут быть также вызваны как функции библиотеки Numpy, для расчета статистик по данным массива.

Имя метода	Описание
argmax| Индексы элементов с максимальным значением (по осям)
argmin| Индексы элементов с минимальным значением (по осям)
max	| Максимальные значения элементов (по осям)
min	| Минимальные значения элементов (по осям)
mean |	Средние значения элементов (по осям)
prod |	Произведение всех элементов (по осям)
std	| Стандартное отклонение (по осям)
sum	| Сумма всех элементов (по осям)
var	| Дисперсия (по осям)

In [82]:
var = np.var(students[:,2])
var

60.36

9.7.4 Перед вами массив my_array, созданный с помощью кода выше. Напишите код, с помощью которого можно извлечь из него центральный фрагмент размером 3 х 3, с числами 7, 8, 9, 12, 13, 14, 17, 18, 19.

Код должен содержать имя массива и набор индексов для получения нужного среза. В ответе использовать только положительные значения индексов и введите ответ в одну строку без пробелов.

In [83]:
my_array = np.array([[1,2,3,4,5],
                     [6,7,8,9,10],
                     [11,12,13,14,15],
                     [16,17,18,19,20],
                     [21,22,23,24,25]])
my_array[1:4,1:4]

array([[ 7,  8,  9],
       [12, 13, 14],
       [17, 18, 19]])

9.7.5 Создайте массив my_sin, состоящий из синусов элементов массива my_array. 
Посчитайте, чему равна сумма элементов полученного массива. Ответ округлите до трёх цифр после запятой.

In [85]:
my_sin=np.sin(my_array)
round(my_sin.sum(),3)

-0.058

9.7.6 Замените элементы в центральном фрагменте 3 х 3 массива my_sin на единицы.
Чему равна сумма элементов изменённого массива? Ответ округлите до трёх знаков после запятой.

In [88]:
my_slice=my_sin[1:4,1:4]
my_slice[:]=1
round(my_sin.sum(),3)

7.572

9.7.7 Преобразуйте первые четыре столбца массива my_sin в массив из 10 строк и 2 столбцов. Чему равна сумма элементов первого столбца получившегося массива? 
Ответ округлите до трёх заков после точки-разделителя. Используйте преобразованный в предыдущем задании массив my_sin.

In [93]:
round(my_sin[:,0:4].reshape((10,2))[:,0].sum(),3)

2.406

In [None]:
Создайте массив bigdata, содержащий квадраты всех нечётных чисел в диапазоне от 100 до 1000.

In [96]:
bigdata=np.array([x*x for x in range(100,1000) if x%2 != 0])

9.7.8 Чему равна медиана массива bigdata?

In [101]:
np.median(bigdata)

302501.0

9.7.9. Чему равно стандартное отклонение для массива bigdata? Ответ округлите до целых:

In [103]:
round(np.std(bigdata),0)

292095.0

In [109]:
bigdata.shape

(450,)

9.7.10 Чему равен коэффициент корреляции между элементами массива bigdata с чётными и нечётными индексами? Введите полученный ответ без изменений и округлений.

In [118]:
np.corrcoef(bigdata[0:449:2],bigdata[1:450:2]) 

array([[1.        , 0.99999973],
       [0.99999973, 1.        ]])