<a href="https://colab.research.google.com/github/datasciencefefu/course/blob/main/Extra.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Приложение: линейная алгебра с NumPy

Анализ данных сложно представить без погружения в математику.
Большая часть идей в машинном обучении построена на математических принципах. В данном разделе мы рассмотрим зачем аналитику линейная алгебра, что такое массивы и как Python работает с векторами и матрицами, используя библиотеку NumPy.


## Массивы

Основной структурой и объектом не только в библиотеке NumPy, но и в машинном обучении являются **массивы**. Массив — это структура данных, содержащая упорядоченный набор значений (элементов), идентифицируемых по индексу или набору индексов.
В библиотека NumPy содержатся функции и методы для математических операций над объектами **ndarray** —  N-мерных однородных массивов с заранее заданным количеством элементов. Массив называют однородным, поскольку он объединяет  элементы одного типа данных. **Размерностью** массива называют количество индексов, необходимых для однозначного определения его элементов. Первый элемент в массиве Python имеет индекс 0.

Массивы могут быть:
- одномерными (вектор);
- двумерными (матрица);
- многомерными.

Массив в Python задаётся с помощью функции array() перечислением элементов внутри квадратных скобок [ ] через запятую:

In [None]:
import numpy as np

arr = np.array([1,2,3,4,5,6])

Функция array() позволяет создать массив с любым количеством измерений (осей). Создание двумерного массива происходит следующим образом:

In [None]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])

Узнать размерность массива можно с помощью функции shape(). Shape - это обычный кортеж языка Python.

In [None]:
np.shape(arr)

(3, 3)

Можно создавать массивы из нулей (np.zeros) или из единиц (np.ones):

In [None]:
A = np.ones((7, 9))
A

array([[1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1.],
       [1., 1., 1., 1., 1., 1., 1., 1., 1.]])

Также часто используется создание векторов из натуральных чисел:

In [None]:
vec = np.arange(15)
vec

array([ 0,  1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14])

И случайно сгенерированные массивы:

In [None]:
r = np.random.rand(3, 4)
r

array([[0.18400186, 0.04549867, 0.03347525, 0.058673  ],
       [0.56254952, 0.28285337, 0.18458058, 0.90245314],
       [0.36086068, 0.20261408, 0.72518862, 0.48448959]])

Важное отличие массивов NumPy от списков Python: при создании среза NumPy не копирует данные в новый массив, а создает представление исходного массива. В памяти по прежнему находится один массив, а в срезе хранятся только указатели, которые ссылаются на данные из исходного массива. 

Работа с одномерными массивами похожа на работу со списком. Перечислим ключевые моменты индексирования массивов в NumPy:
-	индексация массива начинается с 0;
-	для обращения к элементу массива по индексу указываем имя переменной, в которой хранится массив, и индекс в квадратных скобках;
-	допускается использование отрицательных индексов;
-	для обращения к нескольким идущим подряд элементам массива создается срез, где указывается индекс первого элемента среза и индекс элемента, следующего за последним, разделенные двоеточием;
-	при создании среза можно задать шаг, в этом случае в срез будут включены не все элементы, а только отстоящие друг от друга на величину шага.


Рассмотрим некоторые примеры индексации элементов массива на примере массива arr.

In [None]:
print(arr)

[[1 2 3]
 [4 5 6]
 [7 8 9]]


In [None]:
arr[2, 1] # выбрать 1 элемент

8

In [None]:
arr[1] # выделить строку

array([4, 5, 6])

In [None]:
arr[:, 1] # выделить столбец

array([2, 5, 8])

In [None]:
arr[:, -1] # выделить последний столбец

array([3, 6, 9])

In [None]:
arr[:, ::2] # выделить все столбы с четными номерами 

array([[1, 3],
       [4, 6],
       [7, 9]])

In [None]:
arr[(arr % 2) == 1] # логическая индексация: выделить нечетные элементы

array([1, 3, 5, 7, 9])

## Одномерные массивы: вектор

Вектор — это набор чисел, записанных в определенном порядке, например, в столбик или в строчку. 

В Python удобно представить вектор как одномерный массив NumPy. Сложение и вычитание векторов в Python происходит при помощи знаков $+$ и $-$:



In [None]:
import numpy as np
a = np.array([1, 4, 7, 8])
b = np.array([8, 5, 2, 1])
print(a+b)

[9 9 9 9]


Для умножения вектора на число в Python диспользуют оператор $*$:

In [None]:
import numpy as np
a = np.array([10, 8, 5, 1])
print(a*2)

[20 16 10  2]


Вектор можно преобразовать в матрицу:

In [None]:
print(a.reshape(2,2))

[[10  8]
 [ 5  1]]


## Двумерные массивы: матрица

Матрицы похожи на двумерные векторы. Их удобно использовать для работы с системами уравнений и применения в разных методах машинного обучения.

**Матрица** — набор чисел, расположенных по строкам и столбцам, как в таблице. Машинное обучение состоит из целого комплекса разных линейных операций, поэтому на практике любая задача решается через последовательность простых линейных задач.

Двумерная матрица состоит из строк и столбцов, чтобы обратиться к элементу матрицы необходимо указать имя матрицы и в квадратных скобках два индекса: первый индекс отвечает за номер строки, второй — за номер столбца. 
В Python задать матрицу можно с помощью функции array:

In [None]:
arr = np.array([[1,2,3],[4,5,6],[7,8,9]])
print(arr.shape)
print('a_23 = ', arr[1,2],'; a_32 = ', arr[2,1])

(3, 3)
a_23 =  6 ; a_32 =  8


Или используя метод np.matrix():

In [None]:
arr2 = np.matrix("1,7;2,5;1,3")
print(arr2.shape)
print('a_21 = ', arr2[1,0],'; a_12 = ', arr2[0,1])

(3, 2)
a_21 =  2 ; a_12 =  7


Матрицы складываются и вычитаются поэлементно. Складывать и вычитать можно только матрицы одинакового размера. Две матрицы могут быть сложены или вычтены одна из другой, только если у матриц одинаковое количество рядов и столбцов.

In [None]:
A = np.matrix("1,8;3,7;2,4")
B = np.matrix("6,-7;2,5;4,0")
print(A+B)

[[ 7  1]
 [ 5 12]
 [ 6  4]]


Умножение матрицы на отдельное число выполняют так же, как и с
умножение вектора на число.

In [None]:
print(B*5)

[[ 30 -35]
 [ 10  25]
 [ 20   0]]


Аналогично выполняется деление:

In [None]:
print(A/2)

[[0.5 4. ]
 [1.5 3.5]
 [1.  2. ]]


Транспонирование матрицы — это процесс, при котором строки матрицы записываются в столбцы, а столбцы — в строки, и матрица переворачивается. То есть получается её зеркальное отображение по главной диагональной линии, которая начинается в верхнем левом и идёт в правый нижний угол.

In [None]:
print(arr)
print(arr.T)

[[1 2 3]
 [4 5 6]
 [7 8 9]]
[[1 4 7]
 [2 5 8]
 [3 6 9]]


Частный случай — это транспонирование векторов. Если транспонировать вектор-столбец, получится вектор-строка и наоборот.

In [None]:
A = np.matrix("1, 4, 3, 5")
print(A.T)

[[1]
 [4]
 [3]
 [5]]


Умножить две матрицы можно только в том случае, если число столбцов в одной матрице равно числу строк во второй либо в одном из массивов размер 1. Например, матрица размера (7, 3) и вектор размера (7, 1). В этом случае при выполнении операции столбец будет как бы "дублироваться" для каждого столбца в первой матрице. Если же матрица $A$ содержит $m$ строк, а матрица $B$ содержит $n$ столбцов, то результатом их умножения будет матрица $С$ размера $m × n$. При этом результаты умножения не только отличаются численно, но и имеют разный размер. Рассмотрим на конкретном примере:

In [None]:
A_1 = np.matrix("1,-2;-4,-5;1,3")
A_2 = np.matrix("7,9,3;8,4,-3")
print(np.dot(A_1,A_2))
print(np.dot(A_2,A_1))

[[ -9   1   9]
 [-68 -56   3]
 [ 31  21  -6]]
[[-26 -50]
 [-11 -45]]


Можно также писать:

In [None]:
print(np.dot(A_1,A_2))
print(np.dot(A_2,A_1))

[[ -9   1   9]
 [-68 -56   3]
 [ 31  21  -6]]
[[-26 -50]
 [-11 -45]]


или так:

In [None]:
print(A_1@A_2)
print(A_2@A_1)

[[ -9   1   9]
 [-68 -56   3]
 [ 31  21  -6]]
[[-26 -50]
 [-11 -45]]


Можно не только складывать, умножать, вычитать и транспонировать сами массивы NumPy, но и вычислять различные значения внутри массивов, такие как сумма элементов, произведение элементов и другие. 
В библиотеке NumPy для решения таких задач есть отличное решение — **универсальные функции**. Они выполняют поэлементные операции с данными объектов ndarray. Большинство универсальных функций относятся к типу унарных операций. 
**Унарные операции** — это операции, которые выполняются над каждым элементом массива по очереди. 
Приведем перечень часто используемых универсальных функций:



Функция | Описание |
--- | --- |
np.abs()   | 	Абсолютное значение (модуль) целых или вещественных элементов массива| 
np.isnan()	| Массив логических (булевых) значений, показывающий, какие из элементов исходного массива являются NaN (не числами)| 
np.modf()	| Дробные и целые части массива в виде отдельных массивов| 
np.prod(имя, ось)	| Произведение всех элементов массива по заданной оси| 
np.sqrt()	| Квадратный корень каждого элемента массива| 
np.sum() 	| Сумма всех элементов массива. Вторым аргументом можно задать ось, по которой будет определена сумма| 


Агрегирующие операции агрерируют информацию в строках, столбцах, во всем массиве и т. д. Самые популярные операции: суммирование np.sum, усреднение np.mean, медиана np.median, максимум np.max и минимум np.min.

In [None]:
print(a)
np.sum(a)

[10  8  5  1]


24

Матрицы можно суммировать по строкам и по столбцам:

In [None]:
print(arr)
np.sum(arr, axis = 1) # по строкам

[[1 2 3]
 [4 5 6]
 [7 8 9]]


array([ 6, 15, 24])

In [None]:
np.sum(arr, axis = 0) # по столбцам

array([12, 15, 18])

В результате суммирования получается вектор (размерность на 1 меньше, чем у исходной матрицы). 

In [None]:
np.sum(arr, axis = 1).shape

(3,)

Можно указать keepdims=True, чтобы сохранить размерности:

In [None]:
np.sum(arr, axis = 1, keepdims=True).shape

(3, 1)

### Оси

Для удобного перехода между размерностями часто добавляют новые оси. Так, вектор можно сделать матрицей с размером 1 по одной из размерностей.

In [None]:
ones = np.ones(4)
ones[:, np.newaxis]

array([[1.],
       [1.],
       [1.],
       [1.]])

In [None]:
ones[:, np.newaxis].shape 
# вместо вектора с формой (4,) стала матрица с формой (4, 1)

(4, 1)

In [None]:
ones[np.newaxis, :].shape
# вместо вектора с формой (4,) стала матрица с формой (1, 4)

(1, 4)

С помощью функции **hstack()** можно присоединять данные по горизонтальной оси. 

In [None]:
a = np.array([1,2,3])
b = np.array([4,5,6])
print('Добавление данных по горизонтали:', np.hstack((a, b)))

Добавление данных по горизонтали: [1 2 3 4 5 6]


Добавлять данные по вертикальной оси удобно используя **vstack()**.

In [None]:
print('Добавление данных по вертикали:', np.vstack((a, b)))

Добавление данных по вертикали: [[1 2 3]
 [4 5 6]]


Удаляют строки при помощи **delete()**:

In [None]:
np.delete(arr, 1, axis = 0)

array([[1, 2, 3],
       [7, 8, 9]])

Аналогично можно удалять столбцы:

In [None]:
np.delete(arr, 0, axis = 1)

array([[2, 3],
       [5, 6],
       [8, 9]])

## Проверочные задания

1. **Ряд квадратов**<br>
Вывести квадраты первых десяти натуральных чисел

2. **По порядку**<br>
а) Вывести целочисленный массив размером 10*10 со значениями от 1 до 10 в каждой строке<br>
б) Вывести таблицу умножения от 1 до 10

3. **Сортировки**<br>
Дан массив случайных чисел. 

In [None]:
rand = np.random.RandomState(28)
matrix = rand.randint(10, 100, [5,7])
print(matrix)

[[11 15 32 42 13 97 22]
 [74 61 33 22 79 18 34]
 [53 98 17 11 88 55 70]
 [44 61 47 80 78 38 25]
 [36 14 17 22 54 86 42]]


  Необходимо с помощью sort():<br>
  а) отсортировать массив по строкам<br>
  б) отсортировать массив по столбцам

4. **Смена знака**<br>
Дан массив случайных чисел от 1 до 100 размером 10*10. Необходимо поменять знак у тех элементов, которые меньше 50.

In [None]:
m = np.random.randint(low=1, high=100, size=[10,10])
print(m)

[[73 57 59 75 94 83 75 25  2 84]
 [48 60 22 30  5 44 46 52 84 39]
 [97 35 60 46 23 47 69 98 98 32]
 [56 41 22 57 53 60 63 67  7 89]
 [83 12 62 72  9 78 76 84 67 53]
 [96 66 35 19 64 40 16 95 31 54]
 [10 76 57 46 64 77 82 92 77 99]
 [57  3 24 65 62 39 10 66 80 66]
 [56 69 12 42 95 59 14 54 87 54]
 [90 13 17 59 38 95 23 84 50 20]]


5. **Из int в float**<br>
Дан массив целочисленных значений (matrix из задания 3). Изменить тип массива с int на float, используя astype()

6. **Выше. Ниже. Диагональ**<br>
Создать матрицу из нулей 8*8 

  а) с числами от 1 до 7 **под диагональю**<br>
  б) с числами от 1 до 7 **над диагональю**<br>

  Полученная матрица должна быть типа int

8. **Шахматная доска**<br>
  Создать матрицу 8*8 и заполнить ее 1 и 0 в шахматном порядке

9. **Сумма и произведение**<br>
Дан массив чисел

In [None]:
arr = np.array([[0, 1, 2], [3, 4, 5], [6, 7, 8]])
print(arr)

[[0 1 2]
 [3 4 5]
 [6 7 8]]


а) Необходимо с помощью встроенных функций вывести массив такой, чтобы во втором столбце было **произведение** первых двух чисел в строке, а в третьем столбце - произведение всех трех чисел в строке. В первом столбце сохраняются значения исходного массива<br>
б) Необходимо с помощью встроенных функций вывести массив такой, чтобы во втором столбце была **сумма** первых двух чисел в строке, а в третьем столбце - сумма всех трех чисел в строке. В первом столбце сохраняются значения исходного массива<br>