# Векторы, матрицы, массивы  

Библиотека `NumPy` лежит в основе стека машинного обучения и похволяет эффективно работать со структурами данных, часто используемыми в машиином обучении: векторами, матрицами, тензорами.

### 1. Создание вектора  

##### Задача:  
требуется создать вектор

In [1]:
# Загрузить библиотеку
import numpy as np

# Создать вектор как строку
vector_row = np.array([1, 2, 3])

# Создать вектор, как столбец
vector_column = np.array([[1],
                          [2],
                          [3]])

Основной структурой данных `NumPy` является многомерный массив. Для того. чтобы создать вектор, необходимо создать одномерный массив. Как и векторы, эти массивы могут быть представлены как горизонтально, как строки, или вертикально, как столбцы.

### 2. Создание матрицы

##### Задача:
требуется создать матрицу   
Для создания матрицы используем двумерный массив `NumPy` 

In [2]:
# Создать матрицу
matrix = np.array([[1, 2],
                   [1, 2],
                   [1, 2]])

На самом деле `NumPy` имеет специальную матричную структуру данных `mat`. Однако ее не рекомендуется использовать по двум причинам:  
* массивы являютсяя де-факто стандартной структурой данных `NumPy`
* подавляющее большинство операций `NumPy`возвращают не матричные объекты, а массивы

In [3]:
# Создать матрицу
matrix_object = np.mat([[1, 2],
                        [1, 2],
                        [1, 2]])

### 3. Создание разреженной матрицы  

##### Задача:  
имеются данные с очень малым количеством ненулевых значений, которые требуется эффективно представить

In [7]:
# Создать матрицу
matrix = np.array([[0, 0],
                   [0, 1],
                   [3, 0]])

# Загрузить библитеку scipy
# from scipy import sparce
from scipy import sparse

# Создать сжатую разряженную матрицу-строку (CSR-матрицу)
matrix_sparse = sparse.csr_matrix(matrix)

В машинном обучении часто возникает ситуация, когда имеется огромное количество данных; однако большинтво эдементов в данных являются нулями.  
Разряженные матрицы содержат только ненулевые значения и исходят из того, что все другие значения будут равняться нулю, что приводит к значительной вычислительной экономии.

In [8]:
# Взглянуть на разряженную матрицу
print(matrix_sparse)

  (1, 1)	1
  (2, 0)	3


Существует несколько типов разряженных матриц. В *сжатых разряженных матрицах-строках* (compressed sparse row, CSR) элементы `(1, 1)` и `(2, 0)` представляют индексы ненулевых значений (с отсчетом от нуля), соответственно `1` и `3`.  
Например, элемент `1` находится во второй строке и втором столбце (индекс `1, 1`).

In [11]:
# Создать более крупную матрицу
matrix_large = np.array([[0, 0, 0, 0, 0, 0, 0, 0, 0],
                         [0, 1, 0, 0, 0, 0, 0, 0, 0],
                         [3, 0, 0, 0, 0, 0, 0, 0, 0],])

# Создать сжатую разреженную матрицу-строку (CSR-матрицу)
matrix_large_sparse = sparse.csr_matrix(matrix_large)

# Вглянуть на исходную разряженную матрицу
print(matrix_sparse)

# Вглянуть на более крупную разряженную матрицу
print(matrix_large_sparse)

  (1, 1)	1
  (2, 0)	3
  (1, 1)	1
  (2, 0)	3


Как видно из примера выше, несмотря на то, что `matrix_large` более крупная, с большим количеством нулевых элементов, ее разреженное представление точно такое же, как и в исходной `matrix_sparse`. Т.е. добавление нулевых элементов не изменило размер разряженной матрицы.
Существует множество различных типов разряженных матриц, таких же как:
* матрица-столбец, 
* список списков и 
* словарь ключей.

Документация по разряженным матрицам `SciPy`: https://docs.scipy.org/doc/scipy/reference/sparse.html

### 4. Выбор элементов  
##### Задача:  
требуется выбрать один или несколько элементов в вкеторе или матрице.

In [14]:
# Создать вектор-строку
vector = np.array([1, 2, 3, 4, 5, 6])

# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Выбрать третий элемент вектора
print(vector[2])

# Выбрать вторую строку, второй столбец
print(matrix[1, 1])

3
5


Массивы `NumPy` имеют нулевую индексацию, т.е. индекс первого элемента равен `0`, а не `1`. С учетом этого `NumPy` предлагает широкий спектр методов для выбора элементов или групп элементов в массивах, т.е. индексирования и нарезки.

In [22]:
# Выбрать все элементы вектора
vector[:]

# Выбрать всё вплоть до третьего эоемента включительно
vector[:3]

# Выбрать всё после третьего элемента
vector[3:]

# Выбрать последний элемент
vector[-1]

# Выбрать первые строки и все столбцы матрицы
matrix[:2, :]

# Выбрать все строки и второй столбец
matrix[:, 1:2]

array([[2],
       [5],
       [8]])

### 5. Описание матрицы  
##### Задача:  
Требуется описать форму, размер и размерность матрицы  
##### Решение:  
использовать атрибуты `shape`, `size` и `ndim`

In [26]:
# Создать матрицу
matrix = np.array([[1, 2, 3, 4],
                   [5, 6, 7, 8],
                   [9, 10, 11, 12]])

# Взглянуть на количество строк и столбцов
matrix.shape

# Взглянуть на количество элементов (строки • столбцы)
matrix.size

# Взглянуть на количество размерностей
matrix.ndim

2

### 6. Применение операций к элементам  
##### Задача:  
требуется применить некоторую функцию к нескольким элементам массива
##### Решение:  
использовать класс `vectorize` библиотеки `NumPy

In [28]:
# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Создать функцию, которая добавляет возводит в квадрат
square = lambda i: i ** 2

# Создать векторизированную функцию
vectorized_square = np.vectorize(square)

# Применить функцию ко всем элементам в матрице
vectorized_square(matrix)

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

Класс `NumPy` `vectorize` конвертирует обычную функцию в функцию, которая может применяться ко всем элементам массива или части массива. По существу класс `vectorize` представляет собой цикл `for` над элементами массива и не увеличивает производительность. Кроме того, массивы `NumPy` позволяют выполнять операции между массивами, даже если их размерности не совпадают (этот процесс называется *трансляцией*). 
Например, можно создать гораздо более простую конструкцию для возведения элементов в квадрат, используя трансляцию:

In [31]:
# Возвести в квадрат все элементы
matrix ** 2

array([[ 1,  4,  9],
       [16, 25, 36],
       [49, 64, 81]])

### 7. Нахождение минимального и максимального размера  
##### Задача:  
требуется найти минимальное и максимальное значение в массиве  
#####  Решение:  
использовать функции `max` и `min` библиотеки `NumPy`

In [41]:
# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Вернуть максимальный элемент
np.max(matrix)

# Вернуть минимальный элемент
np.min(matrix)

1

Часто требуется узнать максимальное и минимальное значение в массиве или подмнижестве массива. Это может быть достигнуто с помощью методов `max` и `min`. Используя параметр `axis` можно также применить операцию вдоль определенного направления.

In [42]:
# Найти максимальный элемент в каждом столбце
np.max(matrix, axis=0)

# Найти максимальный элемент в каждом строке
np.max(matrix, axis=1)

array([3, 6, 9])

### 8.  Вычисление среднего значения, дисперсии, стандартного оклонения
##### Задача:  
требуется вычислить некоторые описательные статистические показатели о массиве
##### Решение:  
использовать функции `mean`, `var` и `std` библиотеки `NumPy`

In [45]:
# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Вернуть среднее значение
np.mean(matrix)

# Вернуть дисперсию
np.var(matrix)

# Вернуть стендартное отклонение
np.std(matrix)

2.581988897471611

Также как с функциями `min` и `max` можно легко получить описательные статистические показатели о всей матрице или делать расчеты вдоль одной оси

In [48]:
# Найти среднее значение в каждом столбце
np.mean(matrix, axis=0)

array([4., 5., 6.])

### 9. Реформирование массивов  
##### Задача:  
требуется изменить форму (количество строк и столбцов) массива без изменения значений элементов
##### Решение:  
использовать метод `reshape` библиотеки `NumPy`

In [51]:
# Создать матрицу 4×3
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9],
                   [10, 11, 12]])

# Реформировать матрицу в матрицу 2×6
matrix.reshape(2, 6)

array([[ 1,  2,  3,  4,  5,  6],
       [ 7,  8,  9, 10, 11, 12]])

Метод `reshape` позволяет реструктурировать массив так, что мы сохраняем теже самые данные и при этом организуем их как другое количество строк и столбцов. Единственное требование состоит в том, чтобы формы исходной и новой мтарицы содержали одинаковое количество элементов, т.е. матрицы имели одинаковый размер. Размер матрицы можно увидеть с помощью атрибута `size`

In [52]:
matrix.size

12

Одним из полезных аргументов в методе `reshape` является `-1`, который фактически означает *"столько, сколько нужно"*, поэтому `reshape(1, -1)` означает одну строку и столько столбцов, сколько необходимо:

In [58]:
matrix.reshape(1, -1)

array([[ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12]])

Если представить в качестве аргумента одно целое число, то метод `reshape` вернет одномерный массив этой длины:

In [61]:
matrix.reshape(12)

array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12])

### 10.  Транспонирование вектора в матрицу  
##### Задача:  
требуется транспонировать вектор в матрицу

In [63]:
# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Транспонировать матрицу
matrix.T

array([[1, 4, 7],
       [2, 5, 8],
       [3, 6, 9]])

Транспонирование – это универсальная линейно-алгебраическая операция, в которой индексы столбцов и строк кажного элемента меняются местами. Вне предмета линейной алгебры, как правило, игнорируется один нюанс, который заключается в том, ято технически вектор не может быть транспонирован, потому что он является лишь коллекцией значений.

In [64]:
# Транспонировать вектор
np.array([1, 2, 3, 4, 5, 6, 7, 8, 9]).T

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

 Вместе с тем, общепринято называть транспонирование вектора преобразованием вектора-строки в вектор-столбец.  
 *Внимание на вторую пару скобок!!*

In [65]:
# Транспонировать вектор-строку
np.array([[1, 2, 3, 4, 5, 6, 7, 8, 9]]).T

array([[1],
       [2],
       [3],
       [4],
       [5],
       [6],
       [7],
       [8],
       [9]])

### 11. Сглаживание матрицы  
##### Задача:  
требуется преобразовать матрицу в одномерный массив  
##### Решение:  
использовать метод `flatten`

In [68]:
# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Сгладить матрицу
matrix.flatten()

array([1, 2, 3, 4, 5, 6, 7, 8, 9])

Метод `flatten` представляет собой простой метод преобразования матрицы в одномерный массив. В качестве альтернативы, чтобы создать вектор-строку, можно применить метод `reshape`:

In [69]:
matrix.reshape(1, -1)

array([[1, 2, 3, 4, 5, 6, 7, 8, 9]])

### 12. Нахождение ранга матрицы  
##### Задача:  
требуется узнать ранг матрицы  
##### Решение:  
использовать линейно-алгебраический метод `matrix_rank` библиотеки `NumPy`

In [70]:
# Создать матрицу
matrix = np.array([[1, 1, 1],
                   [1, 1, 10],
                   [1, 1, 15]])

# Вернуть ранг матрицы
np.linalg.matrix_rank(matrix)

2

**Ранг матрицы – это размерности вектроного пространства, которые покрываются ее столбцами или строками**

### 13. Вычисление определителя матрицы  
##### Задача:  
требуется узать определитель матрицы
##### Решение  
использовать линейно-алгебраический метод `det` библиотеки `NumPy`  

In [73]:
# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Вернуть определитель матрицы
np.linalg.det(matrix)

0.0

### 14.  Получение диагонали матрицы  
##### Задача:  
требуется получить элементы главной диагонали матрицы
##### Решение:  
использовать метод `diagonal`  

In [75]:
# Создать матрицу
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Вернуть диагональные элементы
matrix.diagonal()

array([1, 5, 9])

Метод `diagonal` позволяет вернуть элементы главной диагонали матрицы. Кроме того, с помощью параметра `offset` можно получить диагональ в стороне от главной диагонали

In [79]:
# Вернуть диагональ на одну выше главной диагонали
matrix.diagonal(offset=1)

array([2, 6])

In [80]:
# Вернуть диагональ на одну ниже главной диагонали
matrix.diagonal(offset=-1)

array([4, 8])

### 15. Вычисление следа матрицы  
##### Задача:  
требуется вычислить след матрицы  
##### Решение: 
использовать метод `trace`  

In [81]:
# Создать матрицу 
matrix = np.array([[1, 2, 3],
                   [4, 5, 6],
                   [7, 8, 9]])

# Вернуть след
matrix.trace()

15

**След матрицы является суммой элементов главной диагонали** и часто используется за кадром в методах машинного обучения. Альтернатива: вернуть диагональ матрицы и вычислить сумму ее элементов

In [82]:
# Вернуть диагональ и сумму ее элементов
sum(matrix.diagonal())

15

### 16. Нахождение собственных значений и собственных векторов 
##### Задача: 
требуется найти собственные значения и собственные векторы квадратной матрицы  
##### Решение:  
использовать метод `linag.eig` библиотеки `NumPy`

In [85]:
# Создать матрицу
matrix = np.array([[1, -1, 3],
                   [1, 1, 6],
                   [3, 8, 9]])

# Вычислить собственные значения и собственные вектора
eigenvalues, eigenvectors = np.linalg.eig(matrix)

# Взглянуть на собственные значения
eigenvalues

# Взглянуть на собственные вектора
eigenvectors

array([[-0.17622017, -0.96677403, -0.53373322],
       [-0.435951  ,  0.2053623 , -0.64324848],
       [-0.88254925,  0.15223105,  0.54896288]])

Собственные векторы широко используются в библиотеках машинного обучения. В интуитивном плане, имея линейное преобразование представленное матрицей `A`, можно сказать, что собственные векторы – это векторы, которые при применении этого преобразования изменяются только в масштабе, а не в направлении:
$$Av = λv$$
где A – это квадраная матрица;
λ – собственное значение;
v – собственный вектор.  
В наборе линейно-алгебраических инструментов библиотеки `NumPy` метод `eig` позволяет вычислять собственные значения и собственны векторы любой квадратной матрицы.

### 17.  Вычисление скалярных произведений  
##### Задача:  
требуется вычислить скалярное произведение двух векторов (иногда говорять внутреннее произведение или умножение точкой (dot product)
#####  Решение: 
использовать класс `dot` библиотеки `NumPy`

In [86]:
# Создать два вектора
vector_a = np.array([1, 2, 3])
vector_b = np.array([4, 5, 6])

# Вычислить скалярное произведение
np.dot(vector_a, vector_b)

32

Скалярное произведение двух векторов `a` и `b` определяется как:
$$\sum_{i=1}^{n} a_i b_i$$
где `a_i` и `b_i` – i-е элементы векторов `a` и `b` соответственно.
##### Альтернатива : 
в Python 3.5+ можно применить оператор `@`:

In [87]:
vector_a @ vector_b

32

### 18. Сложение и вычитание матриц  
##### Задача:
требуется сложить или вычесть две матрицы
##### Решение:  
использовать методы `add` и `subtract` библиотеки `NumPy`  

In [89]:
# Создать матрицы
matrix_a = np.array([[1, 1, 1],
                     [1, 1, 1],
                     [1, 1, 2]])

matrix_b = np.array([[1, 3, 1],
                     [1, 3, 1],
                     [1, 3, 8]])

# Сложить две матрицы
np.add(matrix_a, matrix_b)

# Вычесть из одной матрицы другую
np.subtract(matrix_a, matrix_b)

array([[ 0, -2,  0],
       [ 0, -2,  0],
       [ 0, -2, -6]])

##### Альтернатива: 
можно применить операторы `+` и `-`

In [92]:
# Сложить две матрицы
matrix_a + matrix_b

# Вычесть из одной матрицы другую
matrix_a - matrix_b

array([[ 0, -2,  0],
       [ 0, -2,  0],
       [ 0, -2, -6]])

### 19. Умножение матриц  
##### Задача:  
требуется перемножить две матрицы
##### Решение: 
использовать класс `dot` библиотеки `NumPy`

In [93]:
# Создать матрицы
matrix_a = np.array([[1, 1],
                     [1, 2]])

matrix_b = np.array([[1, 3],
                     [1, 2]])

# Перемножить две матрицы
np.dot(matrix_a, matrix_b)

array([[2, 5],
       [3, 7]])

##### Альтернатива:  
можно применить оператор `@`  

In [94]:
# Перемножить две матрицы
matrix_a @ matrix_b

array([[2, 5],
       [3, 7]])

Если требуется поэлементное перемножение, то можно применить оператор `*`

In [95]:
# Перемножить две матрицы поэлементно
matrix_a * matrix_b

array([[1, 3],
       [1, 4]])

### Обращение матрицы  
##### Задача:
вычислить обратную квадратную матрицу
##### Решение: 
использовать линейно-алгебраический метод `inv` библиотеки `NumPy`

In [102]:
# Создать матрицу
matrix = np.array([[1, 4],
                   [2, 5]])

# Вычислить обратную матрицу
np.linalg.inv(matrix)

array([[-1.66666667,  1.33333333],
       [ 0.66666667, -0.33333333]])

Матрицей, обратной квадратной матрице `A`, является вторая матрица `A^-1`, если она существует, используется метод `linalg.inv`. Для проверки можно переменожить матрицу на обратную ей, в результате будет получена единичная матрица:

In [103]:
# Умножить матрицу на обратную ей матрицу
matrix @ np.linalg.inv(matrix)

array([[1.00000000e+00, 0.00000000e+00],
       [1.11022302e-16, 1.00000000e+00]])

### 21. Генеирование случайных значений  
#####  Задача: 
требуется сгенерировать псевдослучайные значения
##### Решение:  
использовать метод `random` библиотеки `NumPy`

In [105]:
# Задать начальное значение для генератора псевдослучайных чисел
np.random.seed(0)

# Сгенерировать три случайных числа
np.random.random(3)

array([0.5488135 , 0.71518937, 0.60276338])

##### Генерация целых чисел

In [107]:
# Сгенерировать три случайных целых числа между 1 и 10
np.random.randint(0, 11, 3)

array([3, 5, 2])

##### Альтернатива
Можно генерировать числа, извлекая их из распределения

In [110]:
# Извлечь три числа из нормального распределения со средним равным 0.0
# и стандартным отклонением равным 1.0
np.random.normal(0.0, 1.0, 3)

# Извлечь три числа из логистического распределения сосредним равным 0.0
# и масштабом равным 1.0
np.random.logistic(0.0, 1.0, 3)

# Извлечь три числа, которые больше или равны 1.0 и меньше 2.0
np.random.uniform(1.0, 2.0, 3)

array([1.14335329, 1.94466892, 1.52184832])

Например, иногда необходимо возвращать  одни и те же случайные числа несколько раз, чтобы получать предсказуемые, повторяемые результаты. Это можно сделать, задав "начальное значение" (целое число) генератора псевдослучайных чисел. Случайные процессы с одними и теми же начальными значениями всегда будут пораждать один и тот же результат.