# Алгоритмы и структуры данных в Python

## Модуль 10. Numpy, линейная алгебра

1. Возможности библиотеки numpy
2. Линейная алгебра и numpy

In [None]:
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline

### Библиотека numpy

Объекты numpy принято называть массивами.

Главные отличия от списков:
1. Массивы numpy хранят данные одного типа (как правило, числа)
2. Данные хранятся не разрозненно, а "массивом"
3. Доступ к элементам массива выполняется путем нехитрых математических операций:
```
    адрес ячейки в памяти = адрес начала массива + номер ячейки * размер ячейки
 ```
 \- это дает значительный выигрыш в производительности.
4. Такие объекты можно без потерь и конвертации передавать в другие программы и библиотеки (например, TensorFlow, PyTorch, другое)
2. Несколько различных объектов/переменных могут ссылаться на одну область памяти
6. Нативная многомерность (не через рекурсивно вложенные структуры)
7. Поддерживается индексация булевыми масками и списком индексов
8. Поддерживаются "веторизованные" вычисления 
9. Операция ```+``` - это поэлементное сложение, а не конкатенация
10. Агрегатные функции - встроенные, использовать их совместно со стандартными ```sum()```, ```max()``` и т.д. крайне не рекомендуется\
и т. д.


Но они, также как и списки:
1. Могут быть перебраны в цикле ```for ...```
2. Поддерживают срезы типа ```array[:-5]```
3. Являются mutable (могут быть изменены внутри функций)


In [None]:
# обычный список python
list_ = [1,2,3]
print(type(list_))
print(list_)

In [None]:
# массив numpy с теми же данными
a = np.array([1, 2, 3])   # Создаем вектор как массив numpy, из списка
print(a)                  # выведет на экран "[5, 2, 3]"
print(type(a))            # выведет на экран "<class 'numpy.ndarray'>"
print(a.shape)            # выведет на экран "(3,)"
print(a[0], a[1], a[2])   # выведет на экран "1 2 3"
a[0] = 5                  # Запишем что-нибудь в первый элемент


Создание матриц

In [None]:
b = np.array([[1,2,3],[4,5,6]])    # Создаем матрицу размера 2х3 из двух списков
print(b.shape)                     # выведет на экран "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])   # выведет на экран "1 2 4"

In [None]:
# некоторые встроенные функции для создания специфических матриц
nat_nums = np.arange(10) # вектор из натуральных чисел
all_zeros_2x2 = np.zeros((2,2))   # Создаем нулевую матрицу размером 2x2
all_ones_1x2 = np.ones((1,2))    # Единичная матрица размера 1x2
all_sevens_2x2 = np.full((2,2), 7)  # Матрица 2х2, заполненная числом 7
identity_matrix = np.eye(3)         # Матрица идентичности 3x3 (все эелементы - 0, главная диагональ - 1)

print(nat_nums)
print(all_zeros_2x2)
print(all_ones_1x2)
print(all_sevens_2x2)
print(identity_matrix)

#### Случайные числа

Используем подмодуль ```np.random```, его специально устанавливать не нужно.

In [None]:
random_matrix = np.random.random((2,2))  # Матрица 2x2 со случайно заданными вещ. числами от 0 до 1
print(random_matrix)

print('-----')

randint_matrix_3x3 = np.random.randint(0,10, (3,3)) # Матрица 3х3 со случайнами целыми числами
print(randint_matrix_3x3)

print('-----')

vec = np.arange(42) * 10
print(vec)
choice = np.random.choice(vec, 3, replace=False) # выберет случаные 3 элемента из массива (не индекса!)
print(choice)

print(np.random.choice(random_matrix, 2)) # работает только с векторами


#### Обращения к элементам массивов, срезы

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]

# Эти выражения эквивалентны
print(a[0][2])
print(a[0, 2]) # лучше использовать это, т.к. оно выполняется оптимальнее

# Срежем: возьмем ряды с 0-го до 2-го и колонки с 1-й до 3-ей
b = a[:2, 1:3]
# [[2 3]
#  [6 7]]

## ВНИМАНИЕ: нулевое измерение - всегда "по вертикали", первое - по "горизонтали"!

# Срез массива numpy - это представление оригинального массива
# Попытка изменить там данные приведет к изменению оригинального массива
print(a[0, 1])   # Выведет "2"
b[0, 0] = 77     # b[0, 0] - то же самое, что и a[0, 1]
print(a[0, 1])   # выведет на экран "77"

# Срезы матриц можно получать как в виде векторов, так и 2-мерных матриц с размерностью 1xn или nx1
print(a[1, :]) ## выведет на экран "[5 6 7 8]"
print(a[1:2, :]) ## выведет на экран "[[5 6 7 8]]" 
print(a[:, 1]) ## выведет на экран "[77  6 10]"
# print(a[:, 1:2]) ## ВОПРОС: что эта команда выведет на экран?

#### ПРАКТИКА

Выполните следующие упражнения:

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
print(a)

# для матрицы a - сделайте срез в виде квадратных матриц 2x2 из левого верхнего левого и правого нижнего углов
a_upper_left_2x2 = ?

a_lower_right_2x2 = ?

# для той же матрицы получите в виде векторов
# 2-й с конца столбец
a_col_2 = ?

# последнюю строку
a_last_row = ?

### Индексирование: булев индекс и индекс массивом целых чисел

Для доступа к элементам массивов numpy можно использовать "маску" - матрицу булевых элементов, а также список целых чисел.

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)   # Эта команда возвращает массив numpy из булевых элементов
                     # той же размерности, что и a. Его элементы True, если
                     # соотв. элементы a > 2 

print(bool_idx)      # выведет на экран "[[False False]
                     #                   [ True  True]
                     #                   [ True  True]]"

# Используя эту матрицу, мы можем получить вектор из элементов матрицы a, которые соответсвуют условию
print(a[bool_idx])  # выведет на экран "[3 4 5 6]"

# ...и все это - одной строкой:
print(a[a > 2])     # выведет на экран "[3 4 5 6]"

Для булевых масок определены следующие логические операции:
- ```&``` - побитовое логическое "и"
- ```|``` - побитовое логическое "или"
- ```~``` - побитовое логическое отрицание.

**Обратите внимание:** каждый операнд в логическом выражении порождает свою булеву маску, далее эти операторы работают как битовые, выполняя логические операции для каждого элемента масок-операндов.

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])
bm_1 = (a>2)
bm_2 = (a<5)
print( bm_1)
print( bm_2 )
print( bm_1 & bm_2 ) # "&" работает как "and" для каждого элемента маски-операнда

print('-----')

print(a[ bm_1 & bm_2 ])

print('-----')

print( a[ (a<2) | (a>5) ] ) # не забывайте про скобки для каждой анонимной булевой маски!

"Fancy indexing" - индексирование массивом целых чисел (можно также списком, но не кортежем и не множеством!).

In [None]:
a = np.arange(0, 100, 10)
print(a) # [ 0 10 20 30 40 50 60 70 80 90]

b = a[ [2, 3, 2, 4, 2] ] 
print(b) # [20 30 20 40 20]

print( a[ tuple([2, 3, 2, 4, 2]) ] ) # так нельзя

#### Практика

Выполните следующие упражнения:

1. Из среза в виде квадратной матрицы 3x3, взятой с правого конца, выберите следующие элементы:

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

a_3x3_last = a[-3:,-3:]
print(a_3x3_last)

# 1. те, которые меньше 10


# 2. нечетные элементы





2. Создайте массив из 10 натуральных чисел и присвойте 3-м случайным элементам из этого массива число 5000.

In [None]:
a = np.arange(0, 1000, 100)
print(a)

# ваш код здесь

### Изменение форм и размерностей массивов numpy

Изменить форму массива можно функцией ```reshape( dim )```, где dim - кортеж с новой размерностью массива. Будет возвращена копия объекта, но область данных останется неизменной, а изменения в оригинальном массиве будут отражены в порожденной копии. При этом, если одна из размерностей массива неизвестна, на ее месте можно указать ```-1```.

Кортеж с текущей размерностью массива находится в его свойстве ```shape```.

"Плоское" представление массива вернет метод ```ravel()```, а метод ```flatten()``` вернет его копию.

In [None]:
a = np.arange(9) # [0 1 2 3 4 5 6 7 8]
print(a)
b = a.reshape((3,3)) 
# [[  0   1   2]
#  [  3   4   5]
#  [  6   7   8]]
a[5] = 100
print(b)
# [[  0   1   2]
#  [  3   4 100]
#  [  6   7   8]]

r = b.ravel()
f = b.flatten()
print(f)
f[4] = 200
print(a) # [  0   1   2   3   4 100   6   7   8]
r[4] = 200
print(a) # [  0   1   2   3 200 100   6   7   8]

### Типы данных numpy

In [None]:
x = np.array([1, 2])   # numpy сам подберет тип данных
print(x.dtype)         # выведет на экран "int64"

x = np.array([1.0, 2.0])   # Здесь numpy выберет float64
print(x.dtype)             # выведет на экран "float64"

x = np.array([1, 2], dtype=np.float64)   # Тут мы заставим numpy сконвертировать данные во float
print(x.dtype)                         # выведет на экран "float64"

# конвертация типов производится методом astype(), он возвращает копию текущего массива
y = x.astype(dtype=np.int32) 

x = np.array([1, 2, 2.5, 'john'])   # Массив из указателей на разные области памяти. Для такого - списки.

np.nan # нуль-тип по-нампайски

### Операции с массивами numpy

#### Математические операции в векторизированной форме (выполняются над каждым элементом массива)

Их можно выполнять и над срезами

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Поэлементное сложение:
print(np.add(x, y)) # можно использовать функцию add()
print(x + y) # можно просто использовать оператор "+"
# То же самое с другими арифметическими операциями: вычитанием, умножением и делением

print('----')

# Взятие квадратного корня
print(np.sqrt(x))

print('----')

# Взятие экспоненты
print(np.exp(x))

print('----')

# Логарифмирование
print(np.log(x))

a  = np.array([[1,2,3,4], [5,6,7,8,], [9,10,11,12]], dtype=np.float64)

a[1:3, :2] = np.sqrt( a[1:3, :2] ) # можно выполнять над срезами и присваивать срезам
a

# Другие операции над элементами массивов numpy - см. документацию

### Агрегатные вычисления



In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])

print(x.sum()) # сумма

print(x.mean()) # среднее

print(x[2].sum()) # сумма по 2-й строке

print(np.sum(x[:, 1])) # сумма по 1-му столбцу

Агрегатные функции могут возвращать векторы:

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(x)

print('----')

print(x.sum(axis=0)) # сумма по стролбцам (вертиакально)
print(x.mean(axis=1)) # среднее по строкам

Функции ```max()``` и ```argmax()```:

In [None]:
a_vec = (np.random.random( 10 ) * 100).astype(dtype=np.int64)
print(a_vec)
print(a_vec.max()) # возвращает максимум
print(a_vec.argmax()) # возвращает позицию для элемента с максимальным значением

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
print(x)

print('----')

print(x.max(axis=1))

print(x.argmax(axis=1))

In [None]:
m = np.random.randint(0,10, (3,3)  )
print(m)
m.argmax() # вернет индекс как будто матрица "раскатана" в вектор

#### Сортировка

Есть ```.sort()```, ```np.sort()``` и ```np.argsort()```. Вообще говоря, с ней здесь похуже, чем у списков :( Нет ни ```key```, ни ```reverse```.

In [None]:
a_vec = (np.random.random( 10 ) * 100).astype(dtype=np.int64)
print(a_vec)
print(np.sort(a_vec))
print(a_vec)

print('---')

print( np.argsort(-a_vec) )  # если нужен обратный порядок
print( a_vec[ np.argsort(-a_vec) ] )



#### Бродкастинг (broadcasting)

В русскоязычной литературе этот термин также встречается как "укладывание".

In [None]:
# Добавим вектор v к каждой строке матрицы x
# результат запишем в матрицу y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Add v to each row of x using broadcasting
print(y)  # результат "[[ 2  2  4]
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"
            
            
### как это было бы без бродкастинга
y = np.empty_like(x)   # создаем пустой массив "как x"

# В ЦИКЛЕ добываем векторы из x, складываем с v и записываем в y
for i in range(4):
    y[i, :] = x[i, :] + v

# ИЛИ
vv = np.tile(v, (4, 1))   # размножаем вектор v в матрицу той же размерности, что x
y = x + vv  # скалыдваем
# уже лучше, но все равно не то

# Бродкастинг также работает и со скалярными данными
y = (x * 2)
print(y)
# [[ 2  4  6]
#  [ 8 10 12]
#  [14 16 18]
#  [20 22 24]]

### Операции из области линейной алгебры

Умножение матриц, скалярное произведение векторов (как частный случай умножения матриц), транспонирование - базовые функции пакета numpy.

В модуле numpy.linalg еще есть встроенные функции для расчетов рангов матриц, определителей, вычисления собственных чисел, а также для решения линейных уравнений:
 - ```np.linalg.solve(A, b)``` - вычисляет единственное решение системы линейных уравнений, где A - квадратная матрица коэффициентов, b - вектор значений
 - ```np.linalg.matrix_rank(A)``` - вычисляет ранг матрицы
 - ```np.linalg.inv(A)``` - вычисляет обратную матрицу
 - ```np.linalg.eig(A)``` - вычисляет собственный вектор или собственное число матрицы

In [None]:
# транспонирование матрицы
A = np.array([[1,2,3,4], [5,6,7,8]])
print(A)
A.T

In [None]:
# создаем две матрицы
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

# и два вектора
v = np.array([9,10])
w = np.array([11, 12])

# Скалярное произведение векторов; оба выражения дают 219
print(v.dot(w))
print(np.dot(v, w))

# Умножение матрицы на вектор, оба выражения возвращают вектор [29 67]
print(x.dot(v))
print(np.dot(x, v))

# Умножение матриц, в итоге получаем
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

## Практические задания

__ВНИМАНИЕ__! Выполните приведенные ниже упражнения, не прибегая к использованию циклов и исключая использование функций python, таких как ```sum()```, ```max()```, и т.д.

1. Решите следующие простые задания:

In [None]:
# создайте массив numpy из 10-ти случайных натуральных чисел

# найдите минимум в этом массиве и индекс этого минимального значения, замените этот элемент на -100

# сложите этот массив с его "зеркальным отображением"

# посчитайте сумму элементов получившегося массива

# посчитайте сумму квадратов элементов получившегося массива

2 . Решите систему уравнений методом solve:

$\begin{cases}
x_1 - x_2 + x_3 = 3 \\
2x_1 + x_2 + x_3 = 11 \\
x_1 + x_2 + 2x_3 = 8
\end{cases}
$

In [None]:
# ваш код здесь




3 . Решите систему уравнений методом обратной матрицы: $A * x = b$, $x = A^-1 * b$

$\begin{cases}
2x_1 + x_2 - 2x_3 = -3 \\
x_1 - 2x_2 + x_3 = 11 \\
3x_1 + x_2 - x_3 = 0
\end{cases}
$

In [None]:
# ваш код здесь




4. У вас есть матрица, столбцы которой содержат данные о длине стальных циллиндрических прутков и их диаметрах. Они  подлежат покраске. Напишите функцию ```def calc_paint()```, которая будет рассчитвать кол-во краски для переданного массива, тощины покрова и плотности краски - предполагаемый расход краски в кг. Проверьте на примере, в котором толщина покрытия - 0.012 мм, а плотность краски $5000 кг/м^3$,а массив представлен в коде.

За использоваение функции ```dot()``` (матричного умножения) - +++.

In [None]:
M = np.array([ [1,2,3,2,1], # длины в м 
              [ 0.02, 0.02, 0.025, 0.025, 0.015, ] #диаметры в м 
             ] ).T # транспонируем строки в столбцы
h = 12e-6 # тощина покрова краски в м
ro = 5000 # плотность
print(M)

# ваш код здесь
def calc_paint(M_, h_=h, ro_=ro):
    pass

print("Потребуется краски, кг: {}".format(calc_paint(M)))