# Курс "Программирование на языке Python. Уровень 4. Анализ и визуализация данных на языке Python. Библиотеки numpy, pandas, matplotlib"

## Модуль 2. Библиотека numpy

- Массивы (списки) в Python: индексы, срезы, итерация
- Векторы, матрицы и тензоры в numpy
- Типы данных numpy
- Базовые операции в numpy: поэлементные арифметические операции, бродкаст
- Как нужно и как не нужно использовать numpy
- Линейная алгебра в numpy
- Векторизация, практика




## Массивы (списки) в Python: базовые операции, индексы, срезы, итерация

In [None]:
# активируем numpy
# если на этом этапе получаем сообщение об ошибке, выполняем pip install numpy / conda install numpy

import numpy as np


In [None]:
# создать список
list1 = ['a', 'b', 1, 0.5, {'James':'Brown', 'Luke':'Skywalker'}]
list2 = list(range(5))

#показать содержимое списка
print(list1)

#добавить элемент
list1.append('Something New') # ['a', 'b', 1, 0.5, {'Luke': 'Skywalker', 'James': 'Brown'}, 'Something New']
#убрать последний элемент (и вернуть его)
list2.pop() # [0, 1, 2, 3]
#сортировать (в порядке убывания)
list2.sort(reverse = True)  # [3, 2, 1, 0]


In [None]:
# обращение к элементам списка
nums = list(range(5))     
print(nums)               # выведет на экран "[0, 1, 2, 3, 4]"
print(nums[2])            # выведет на экран 2-й элемент: "2"
print(nums[-3])           # выведет на экран 3-й элемент с конца: "2"
print(nums[2:4])          # выведет на экран срез со 2-го до 4-го: "[2, 3]"
print(nums[2:])           # выведет на экран срез со 2-го и до конца: "[2, 3, 4]"
print(nums[:2])           # выведет на экран срез с начала и до 2-го элемента "[0, 1]"
print(nums[:])            # срез всего списка: "[0, 1, 2, 3, 4]"
print(nums[:-2])          # отрицательный срез, все элементы, кроме двух в конце: "[0, 1, 2]"

print(nums[::2])          # все четные элементы
print(nums[::-1])         # весь список в обратном порядке

nums[2:4] = [8, 9]        # заместит элементы со 2-го до 4-го списком [8, 9]
print(nums)               # выведет на экран "[0, 1, 8, 9, 4]"

## Векторы и матрицы в numpy

### Различные способы создания векторов и матриц

In [None]:
a = np.array([1, 2, 3])   # Создаем вектор как массив numpy, из списка
print(type(a))            # выведет на экран "<class 'numpy.ndarray'>"
print(a.shape)            # выведет на экран "(3,)"
print(a[0], a[1], a[2])   # выведет на экран "1 2 3"
a[0] = 5                  # Запишем что-нибудь в первый элемент
print(a)                  # выведет на экран "[5, 2, 3]"

b = np.array([[1,2,3],[4,5,6]])    # Создаем матрицу размера 2х3 из двух списков
print(b.shape)                     # выведет на экран "(2, 3)"
print(b[0, 0], b[0, 1], b[1, 0])   # выведет на экран "1 2 4"

In [None]:
# некоторые встроенные функции для создания специфических матриц
nat_nums = np.arange(10) # вектор из натуральных чисел
all_zeros_2x2 = np.zeros((2,2))   # Создаем нулевую матрицу размером 2x2
all_ones_1x2 = np.ones((1,2))    # Единичная матрица размера 1x2
all_sevens_2x2 = np.full((2,2), 7)  # Матрица 2х2, заполненная числом 7
identity_matrix = np.eye(2)         # Матрица идентичности 2x2 (все эелементы - 0, главная диагональ - 1)

print(nat_nums)
print(all_zeros_2x2)
print(all_ones_1x2)
print(all_sevens_2x2)
print(identity_matrix)
print(random_matrix)

### Случайные числа

Генератор случайных чисел поставляется вместе с numpy, это подмодуль ```np.random```, ничего специально устанавливать не нужно.

In [None]:
np.random.seed(20240115)  # сидирование генератора случайных чисел

In [None]:
random_matrix = np.random.random((2,2))  # Матрица 2x2 со случайно заданными вещ. числами от 0 до 1
print(random_matrix)


In [None]:
random_n = np.random.randn( 100,100 )
print(random_n.mean(), random_n.std())


In [None]:
randint_matrix_3x3 = np.random.randint(0,10, (3,3)) # Матрица 3х3 со случайнами целыми числами
print(randint_matrix_3x3)


In [None]:
# выбор случаных 3 элемента из массива или из последовательности чисел
vec = np.arange(42) * 10
print(vec)
choice = np.random.choice(vec, 3) 
print(choice)

choice = np.random.choice(100500, 3) 
print(choice)

print(np.random.choice(random_matrix, 2)) # работает только с векторами

#### Практика

Выполните следующие упражнения (циклы использовать запрещено):



In [None]:
# создайте вектор, состоящий из натуральных чисел от 1 до 8
v_nat_1_8 = ?


# создайте матрицу размером 2x3 из списка списков
m_2x3 = ?

# создайте вектор, состоящий из квадратов натуральных чисел, начиная с 1 до 10
v_sqrs = ?



### Обращение к элементам матриц, срезы

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])
# [[ 1  2  3  4]
#  [ 5  6  7  8]
#  [ 9 10 11 12]]

# Эти выражения эквивалентны
print(a[0][2])
print(a[0, 2]) # лучше использовать это, т.к. оно выполняется оптимальнее

# Срежем: возьмем ряды с 0-го до 2-го и колонки с 1-й до 3-ей
b = a[:2, 1:3]
# [[2 3]
#  [6 7]]

## ВНИМАНИЕ: нулевое измерение - всегда "по вертикали", первое - по "горизонтали"!

# Срез массива numpy - это представление оригинального массива
# Попытка изменить там данные приведет к изменению оригинального массива
print(a[0, 1])   # Выведет "2"
b[0, 0] = 77     # b[0, 0] - то же самое, что и a[0, 1]
print(a[0, 1])   # выведет на экран "77"

# Срезы матриц можно получать как в виде векторов, так и 2-мерных матриц с размерностью 1xn или nx1
print(a[1, :]) ## выведет на экран "[5 6 7 8]"
print(a[1:2, :]) ## выведет на экран "[[5 6 7 8]]" 
print(a[:, 1]) ## выведет на экран "[77  6 10]"
print(a[:, 1:2]) ## ВОПРОС: что эта команда выведет на экран?

#### Практические задачи

Выполните следующие упражнения:

In [None]:
print(a)

# для матрицы a - сделайте срез в виде квадратных матриц 2x2 из левого верхнего левого и правого нижнего углов
a_upper_left_2x2 = ?

a_lower_right_2x2 = ?

# для той же матрицы получите в виде векторов
# 2-й с конца столбец
a_col_2 = ?

# последнюю строку
a_last_row = ?


### Индексирование: булев индекс и индекс массивом целых чисел

Для доступа к элементам массивов numpy можно использовать "маску" - матрицу булевых элементов, а также список целых чисел.

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])

bool_idx = (a > 2)   # Эта команда возвращает массив numpy из булевых элементов
                     # той же размерности, что и a. Его элементы True, если
                     # соотв. элементы a > 2 

print(bool_idx)      # выведет на экран "[[False False]
                     #                   [ True  True]
                     #                   [ True  True]]"

# Используя эту матрицу, мы можем получить вектор из элементов матрицы a, которые соответсвуют условию
print(a[bool_idx])  # выведет на экран "[3 4 5 6]"

# ...и все это - одной строкой:
print(a[a > 2])     # выведет на экран "[3 4 5 6]"

Для булевых масок определены следующие логические операции:
- ```&``` - логическое "и"
- ```|``` - логическое "или"
- ```~``` - логическое отрицание.

**Обратите внимание:** каждый операнд в логическом выражении порождает свою булеву маску, далее эти операторы работают как битовые, выполняя логические операции для каждого элемента масок-операндов.

In [None]:
a = np.array([[1,2], [3, 4], [5, 6]])
bm_1 = (a>2)
bm_2 = (a<5)
print( bm_1)
print( bm_2 )
print( bm_1 & bm_2 ) # "&" работает как "and" для каждого элемента маски-операнда
print(a[ bm_1 & bm_2 ])

print( a[ (a<2) & (a>5) ] ) # не забывайте про скобки для каждой анонимной булевой маски!

"Fancy indexing" - индексирование массивом целых чисел.

In [None]:
a = np.arange(0, 100, 10)
print(a) # [ 0 10 20 30 40 50 60 70 80 90]

b = a[[2, 3, 2, 4, 2]] 
print(b) # [20 30 20 40 20]

#### Практика

Выполните следующие упражнения:

1. Из среза в виде квадратной матрицы 3x3, взятой с правого конца, выберите следующие элементы:

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

a_3x3_last = a[-3:,-3:]
print(a_3x3_last)

# 1. те, которые меньше 10


# 2. нечетные элементы




2. Создайте массив из 10 натуральных чисел и присвойте 3-м случайным элементам из этого массива число 5000.

In [None]:
a = np.arange(0, 1000, 100)
print(a)

# ваш код здесь

### Изменение форм и размерностей массивов numpy

Изменить форму массива можно функцией ```reshape( dim )```, где dim - кортеж с новой размерностью массива. Будет возвращена копия объекта, но область данных останется неизменной, а изменения в оригинальном массиве будут отражены в порожденной копии. При этом, если одна из размерностей массива неизвестна, на ее месте можно указать ```-1```.

Кортеж с текущей размерностью массива находится в его свойстве ```shape```.

"Плоское" представление массива вернет метод ```ravel()```, а метод ```flatten()``` вернет его копию.

In [None]:
a = np.arange(9) # [0 1 2 3 4 5 6 7 8]
print(a)
b = a.reshape((3,3)) 
# [[  0   1   2]
#  [  3   4   5]
#  [  6   7   8]]
a[5] = 100
print(b)
# [[  0   1   2]
#  [  3   4 100]
#  [  6   7   8]]

r = b.ravel()
f = b.flatten()
print(f)
f[4] = 200
print(a) # [  0   1   2   3   4 100   6   7   8]
r[4] = 200
print(a) # [  0   1   2   3 200 100   6   7   8]

#### Практика

Создайте матрицу случайной размерности от 2 до 16, заполненную нулями и на ее базе создайте новую матрицу, обратной размерности, заполненную случайными числами.

In [None]:
dims = ( (14 * np.random.random(2) // 1) + 2).astype(dtype=np.int64)
# ваш код здесь


### Конкатенация  и разбиение массивов

Используются функции ```concatenate()``` и ```split()```.


In [None]:
arr1 = np.array([[1,2,3], [4,5,6]])
arr2 = np.array([[7,8,9], [10,11,12]])
concats_0 = np.concatenate([arr1, arr2], axis= 0) # вертикальная конкатенация, есть эквивалент vstack()
print(concats_0)

arr1 = np.array([[1,2,3], [4,5,6]])
arr2 = np.array([[7,8,9], [10,11,12]])
concats_1 = np.concatenate([arr1, arr2], axis= 1) # горизонтальная конкатенация, есть эксивалент hstack()
print(concats_1)

first, second, third = np.split(concats_0, [1,2], axis=0) # вертикальное разбиение
print(first)
print(second)
print(third)

### Типы данных numpy

In [None]:
x = np.array([1, 2])   # numpy сам подберет тип данных
print(x.dtype)         # выведет на экран "int64"

x = np.array([1.0, 2.0])   # Здесь numpy выберет float64
print(x.dtype)             # выведет на экран "float64"

x = np.array([1, 2], dtype=np.float64)   # Тут мы заставим numpy сконвертировать данные во float
print(x.dtype)                         # выведет на экран "float64"

# конвертация типов производится методом astype(), он возвращает копию текущего массива
y = x.astype(dtype=np.int32) 

x = np.array([1, 2, 2.5, 'john'])   # Из-за такого тут будет сообщение об ошибке

x.nan

## Операции с массивами numpy

### Поэлементные операции

Выполняются для каждого элемента массива или среза. Объекты должны быть одинаковой размерности (за исключением случаев использования бродкастинга).

In [None]:
x = np.array([[1,2],[3,4]], dtype=np.float64)
y = np.array([[5,6],[7,8]], dtype=np.float64)

# Поэлементное сложение:
print(np.add(x, y)) # можно использовать функцию add()
print(x + y) # можно просто использовать оператор "+"
# То же самое с другими арифметическими операциями: вычитанием, умножением и делением

# Взятие квадратного корня
print(np.sqrt(x))

# Взятие экспоненты
print(np.exp(x))

# Логарифмирование
print(np.log(x))

# Другие операции над элементами массивов numpy - см. документацию

#### Практика

Выполните следующие упражнения:

In [None]:
a = np.array([[1,2,3,4], [5,6,7,8], [9,10,11,12]])

# получите срез в виде квадратной матрицы 3x2, с левого конца
a_3x2_left = a[:,:2]

# 1. из него получите матрицу, содержащую эти элементы, возведенные в квадрат
## ваш код здесь

# 2. возьмите срез 3x2 с правого конца и сложите со имеющимся срезом
## ваш код здесь

### Операции из области линейной алгебры

Умножение матриц, скалярное произведение векторов (как частный случай умножения матриц), транспонирование - базовые функции пакета numpy.

В модуле numpy.linalg еще есть встроенные функции для расчетов рангов матриц, определителей, вычисления собственных чисел, а также для решения линейных уравнений:
 - ```np.linalg.solve(A, b)``` - вычисляет единственное решение системы линейных уравнений, где A - квадратная матрица коэффициентов, b - вектор значений
 - ```np.linalg.matrix_rank(A)``` - вычисляет ранг матрицы
 - ```np.linalg.inv(A)``` - вычисляет обратную матрицу
 - ```np.linalg.eig(A)``` - вычисляет собственный вектор или собственное число матрицы

In [None]:
# создаем две матрицы
x = np.array([[1,2],[3,4]])
y = np.array([[5,6],[7,8]])

# и два вектора
v = np.array([9,10])
w = np.array([11, 12])

# Скалярное произведение векторов; оба выражения дают 219
print(v.dot(w))
print(np.dot(v, w))

# Умножение матрицы на вектор, оба выражения возвращают вектор [29 67]
print(x.dot(v))
print(np.dot(x, v))

# Умножение матриц, в итоге получаем
# [[19 22]
#  [43 50]]
print(x.dot(y))
print(np.dot(x, y))

## Бродкастинг (broadcasting)

В русскоязычной литературе этот термин также встречается как "укладывание".

In [None]:
# Добавим вектор v к каждой строке матрицы x
# результат запишем в матрицу y
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])
v = np.array([1, 0, 1])
y = x + v  # Add v to each row of x using broadcasting
print(y)  # результат "[[ 2  2  4]
          #          [ 5  5  7]
          #          [ 8  8 10]
          #          [11 11 13]]"
            
            
### как это было бы без бродкастинга
y = np.empty_like(x)   # создаем пустой массив "как x"

# В ЦИКЛЕ добываем векторы из x, складываем с v и записываем в y
for i in range(4):
    y[i, :] = x[i, :] + v

# ИЛИ
vv = np.tile(v, (4, 1))   # размножаем вектор v в матрицу той же размерности, что x
y = x + vv  # скалыдваем
# уже лучше, но все равно не то

# Бродкастинг также работает и со скалярными данными
y = (x * 2)
print(y)
# [[ 2  4  6]
#  [ 8 10 12]
#  [14 16 18]
#  [20 22 24]]

### Агрегатные вычисления

In [None]:
x = np.array([[1,2,3], [4,5,6], [7,8,9], [10, 11, 12]])

print(x.sum()) # сумма

print(x.mean()) # среднее

print(x[2].sum()) # сумма по 2-й строке

print(np.sum(x[:, 1])) # сумма по 1-му столбцу



Функции ```max()``` и ```argmax()```:

In [None]:
a_vec = (np.random.random( 10 ) * 100).astype(dtype=np.int64)
print(a_vec)
print(a_vec.max()) # возвращает максимум
print(a_vec.argmax()) # возвращает позицию для элемента с максимальным значением

In [None]:
m = np.random.randint(0,10, (3,3)  )
m.argmax() # вернет индекс как будто матрица "раскатана" в вектор

### Сортировка и поиск

Для сортировки есть функция ```sort()```:

In [None]:
a_vec = (np.random.random( 10 ) * 100).astype(dtype=np.int64)

print(a_vec)
print(np.sort(a_vec))
print(a_vec.sort())
print(a_vec.sort(reverse=True)) # увы
print(np.sort(a_vec)[::-1])


...и ```argsort()```:

In [None]:
a_vec = (np.random.random( 10 ) * 1000).astype(dtype=np.int64)

print(a_vec)
print(np.argsort(a_vec))
print(a_vec[ a_vec.argsort()[:5] ])

### ❓❓❓ А как искать нужные значения?

__Задание:__ найдите все значения в массиве ```a_vec``` из предыдущей клетки, которые больше 500.

In [None]:
# ваш код здесь


Найти индекс конкретного значения можно через функцию ```where()```:

In [None]:
vec = np.arange(42) * 10
print(vec)
print(np.where(vec == 210))

print()

# работает и для матриц тоже
mtx = vec.reshape((7,6))
print(mtx)
print(np.where(mtx == 210))

## ‼️ Как надо и как не надо пользоваться numpy

Использование numpy неэффективно, если объекты numpy обрабатывать вне самого numpy. Подходите к данным как к векторам и матрицам, обрабатывайте их эффективно!

In [None]:
# На примере задачи "получить сумму  квадратов натуральных чисел от 0 до 1000"
# чистый python:
n = 10000
%timeit -n200 x = sum(x*x for x in range(n))

# наивный numpy - хуже чистого Python'а
na = np.arange(n)
%timeit -n200 x = sum(na*na)

# векторизованный numpy
%timeit -n200 x = np.dot(na, na)

## Практические задания

Решите следующие простые задания, не прибегая к использованию циклов и исключая использование функций python, таких как ```sum()```, ```max()```, и т.д:

In [None]:
# создайте массив numpy из 10-ти случайных натуральных чисел

# найдите минимум в этом массиве и индекс этого минимального значения, замените этот элемент на -100

# сложите этот массив с его "зеркальным отображением"

# посчитайте сумму элементов получившегося массива

# посчитайте сумму квадратов элементов получившегося массива

1 . Решите систему уравнений методом solve:

$\begin{cases}
x_1 - x_2 + x_3 = 3 \\
2x_1 + x_2 + x_3 = 11 \\
x_1 + x_2 + 2x_3 = 8
\end{cases}
$

In [None]:
# ваш код здесь



2 . Решите систему уравнений методом обратной матрицы: $A * x = b$, $x = A^-1 * b$

$\begin{cases}
2x_1 + x_2 - 2x_3 = -3 \\
x_1 - 2x_2 + x_3 = 11 \\
3x_1 + x_2 - x_3 = 0
\end{cases}
$


In [None]:
# ваш код здесь

3 . Найдите расстояние от точки $M(1;0;-2)$  
до плоскости, заданной уравнением $2x-y+2z=4$.

Формула для рассчета расстояния от точки до плоскости:  
$d_{01}=\frac{\left|\left(\bar r_0\cdot \bar n_1\right)+D_1\right|}{\left|\bar n_1\right|}$, где $r_0$ - радиус-вектор к точке,  $n_1$ - вектор нормали к плоскости, $D_1$ - константа из уравнения плоскости.

In [None]:
# ваш код здесь

#### Задачи на векторизацию, булевы маски и бродкастинг

Требуется решить их с использованием объектов и функций библиотеки ```numpy```, без использования циклов, с минимальным количеством строк кода. 

1. Найти сумму ряда чисел от 0 до 100.

In [None]:
# ваш код здесь

2. Выведите списки чисел, из данного массива:\
    2.1 кратные 3-м \
    2.2 кратные 5-ти \
    2.3 кратные одновременно и 3-м, и 5-ти \
    2.4 кратные как 3-м, так и 5-ти, кроме четных чисел

In [None]:
# ваш код здесь

3. У вас есть матрица, столбцы которой содержат данные о диаметре и длине стальных циллиндрических прутков, которые подлежат покраске. Посчитайте расход краски в кг, если известно, что толщина покрытия - 0.001 мм, а плотность краски $5000 кг/м^3$.

In [None]:
# ваш код здесь

4. Создайте матрицу размера MxN и заполните ее случайными числами в диапазоне от 0 до 1. \
    4.1 К каждой строке матрицы прибавьте ряд натуральных чисел от 0 до N. \
    4.2 К каждому столбцу матрицы прибавьте ряд десятков натуральных чисел от M*10 до 0 (например, 40, 30, 20, 10 etc).

In [None]:
# ваш код здесь