<center><img src="./images/ktp_logo.png" width=400 style="display: inline-block;"></center> 

## Машинное обучение
### Семинар 1. Введение в библиотеку NumPy

### 4 октября 2023

#### Зачем:
* для работы с одномерными и многомерными массивами (объект [ndarray](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ndarray.html))
* для быстрого вычисления на них математических функций
* для задач линейной алгебры, хранения и работы с матрицами

#### Как:
* Циклы с обращением к каждому элементу по очереди это неэффективно

#### Почему:
* Реализован на языке C

**Мотивирующий пример**
<center><img src="https://i.imgur.com/z4GzOX6.png" width=600 style="display: inline-block;"></center> 

### Конвертация из Python structures

In [3]:
import numpy as np

In [94]:
array = [17, 4, 16, 9]
array

[17, 4, 16, 9]

In [96]:
print(len(array))

4


In [6]:
nparray = np.array(array)
nparray

array([17,  4, 16,  9])

In [7]:
print(type(array))
print(type(nparray))

<class 'list'>
<class 'numpy.ndarray'>


In [8]:
print(nparray.dtype)

int32


При конвертации можно задавать тип данных с помощью аргумента [dtype](https://docs.scipy.org/doc/numpy/reference/generated/numpy.dtype.html), возможные типы данных указаны [здесь](https://numpy.org/doc/stable/user/basics.types.html).

In [9]:
nparray = np.array(array, dtype=np.float32)
print(nparray.dtype)

float32


Элементы ndarray всегда одного типа.

In [16]:
arr1 = np.array([1, 2.0, 3])
print(arr1)
print(arr1.dtype)

[1. 2. 3.]
float64


In [15]:
arr2 = np.array([1, "3", 2.0, 4])
print(arr2)
print(arr2.dtype)

['1' '3' '2.0' '4']
<U32


***Добавление элементов***

In [120]:
np.append(arr1, [2.2, 2.1])

array([1. , 2. , 3. , 2.2, 2.1])

### Генерация Numpy arrays

* [arange](https://docs.scipy.org/doc/numpy/reference/generated/numpy.arange.html) — аналог range из Python, которому можно передать нецелочисленный шаг
* [linspace](https://docs.scipy.org/doc/numpy/reference/generated/numpy.linspace.html) — способ равномерно разбить отрезок на `n-1` интервал
* [logspace](https://docs.scipy.org/doc/numpy/reference/generated/numpy.logspace.html) — способ разбить отрезок по логарифмической шкале
* [zeros](https://docs.scipy.org/doc/numpy/reference/generated/numpy.zeros.html) — создаёт массив, заполненный нулями заданной размерности
* [ones](https://docs.scipy.org/doc/numpy/reference/generated/numpy.ones.html) — создаёт массив, заполненный единицами заданной размерности
* [empty](https://docs.scipy.org/doc/numpy/reference/generated/numpy.empty.html) — создаёт массив неинициализированный никаким значением заданной размерности
* [diag](https://numpy.org/doc/stable/reference/generated/numpy.diag.html) — создаёт квадратную матрицу, на диагонали которой стоят указанные значения

***Функция `np.arange` подобна `range`. Аргументы могут быть с плавающей точкой. Следует избегать ситуаций, когда (конец-начало)/шаг -- целое число, потому что в этом случае включение последнего элемента зависит от ошибок округления. Лучше, чтобы конец диапазона был где-то посредине шага.***

In [29]:
np.arange(0, 5, 2)

array([0, 2, 4])

In [24]:
for i in range(0, 10, 2):
    print(i)

0
2
4
6
8


In [25]:
for i in range(0, 10, 2.5):
    print(i)

TypeError: 'float' object cannot be interpreted as an integer

In [51]:
for i in np.arange(0, 10, 2.5):
    print(i)

0.0
2.5
5.0
7.5


***Последовательности чисел с постоянным шагом можно также создавать функцией `linspace`. Начало и конец диапазона включаются; последний аргумент -- число точек.***

In [49]:
np.linspace(0, 5, 11)

array([0. , 0.5, 1. , 1.5, 2. , 2.5, 3. , 3.5, 4. , 4.5, 5. ])

In [37]:
np.logspace(0, 9, 10, base=2)

array([  1.,   2.,   4.,   8.,  16.,  32.,  64., 128., 256., 512.])

In [60]:
np.zeros(3)

array([0., 0., 0.])

In [53]:
np.ones((2, 2))

array([[1., 1.],
       [1., 1.]])

In [54]:
np.empty((2, 2))

array([[1., 1.],
       [1., 1.]])

In [47]:
np.diag([1,2,3])

array([[1, 0, 0],
       [0, 2, 0],
       [0, 0, 3]])

Pазмеры массива хранятся в поле **shape**, а количество размерностей — в **ndim**

In [61]:
arr = np.ones((2, 3))
print(arr)
print(f"Размерность массива — {arr.shape}, количество размерностей — {arr.ndim}")

[[1. 1. 1.]
 [1. 1. 1.]]
Размерность массива — (2, 3), количество размерностей — 2


Метод [reshape](https://docs.scipy.org/doc/numpy/reference/generated/numpy.reshape.html) позволяет преобразовать размеры массива без изменения данных, но возможно с копированием

In [67]:
array = np.arange(6)
array = array.reshape((2, 3))
array

array([[0, 1, 2],
       [3, 4, 5]])

In [68]:
array = np.arange(16)
array = array.reshape((2, 2, 4))
array

array([[[ 0,  1,  2,  3],
        [ 4,  5,  6,  7]],

       [[ 8,  9, 10, 11],
        [12, 13, 14, 15]]])

In [72]:
a = np.array([[2, 5, -3],
             [1, 4, -2],
             [-7, 3, 0]])
b = a.T

print(a)
print(b)

[[ 2  5 -3]
 [ 1  4 -2]
 [-7  3  0]]
[[ 2  1 -7]
 [ 5  4  3]
 [-3 -2  0]]


In [97]:
print("len:", len(a), "-- количество элементов по первой оси.",
      "\nsize:", a.size, "-- всего элементов в матрице.",
      "\nndim:", a.ndim, "-- размерность матрицы.",
      "\nshape:", a.shape, "-- количество элементов по каждой оси.")

len: 3 -- количество элементов по первой оси. 
size: 9 -- всего элементов в матрице. 
ndim: 2 -- размерность матрицы. 
shape: (3, 3) -- количество элементов по каждой оси.


Для того чтобы развернуть многомерный массив в вектор, можно воспользоваться функцией [ravel](https://numpy.org/doc/stable/reference/generated/numpy.ravel.html)

In [73]:
array = np.ravel(a)
array

array([ 2,  5, -3,  1,  4, -2, -7,  3,  0])

### Индексация

В NumPy работает привычная индексация Python, включая использование отрицательных индексов и срезов

In [74]:
print(array)
print(array[0])
print(array[-1])
print(array[1:-1])
print(array[1:-1:2])
print(array[::-1])

[ 2  5 -3  1  4 -2 -7  3  0]
2
0
[ 5 -3  1  4 -2 -7  3]
[ 5  1 -2  3]
[ 0  3 -7 -2  4  1 -3  5  2]


Элементы можно менять

In [104]:
a = np.array([1, 2, 3])
a[1] = 5
print(a)

[1 5 3]
[1 5 3]


Для копирования в numpy есть метод copy

In [121]:
a = np.array([1, 2, 3])
b = a
a[1] = 5
print(a)
print(b)

[1 5 3]
[1 5 3]


In [122]:
a = np.array([1, 2, 3])
b = a.copy()
a[1] = 5
print(a)
print(b)

[1 5 3]
[1 2 3]


<div class="alert alert-info">
<b>Замечание:</b> Индексы и срезы в многомерных массивах не нужно разделять квадратными скобками, 
т.е. вместо <b>matrix[i][j]</b> нужно использовать <b>matrix[i, j]</b>
</div>

In [80]:
a

array([[ 2,  5, -3],
       [ 1,  4, -2],
       [-7,  3,  0]])

In [82]:
print(a[:])

[[ 2  5 -3]
 [ 1  4 -2]
 [-7  3  0]]


In [79]:
print(a[:, 1])

[5 4 3]


In [81]:
print(a[:][1])

[ 1  4 -2]


В качестве индексов можно использовать списки

In [84]:
print(a[((0,0), (0,1))])

[2 5]


In [91]:
mask = np.array([[True, False, True],
                [True, False, False],
                [False, True, False]])
print(mask)
print(a[mask])

[[ True False  True]
 [ True False False]
 [False  True False]]
[ 2 -3  1  3]


<div class="alert alert-danger">
<b>Замечание:</b> Индексирование с помощью массива или маски создает новый массив (копию), а не view на старые данные. 
</div>

# Операции над одномерными массивами.

***Все арифметические операции производятся поэлементно.***

In [106]:
a = np.linspace(3, 33, 11)
b = np.linspace(-2, -22, 11)
print(a)
print(b)

[ 3.  6.  9. 12. 15. 18. 21. 24. 27. 30. 33.]
[ -2.  -4.  -6.  -8. -10. -12. -14. -16. -18. -20. -22.]


In [107]:
print(a + b)
print(a - b)
print(a * b)
print(a / b)

[ 1.  2.  3.  4.  5.  6.  7.  8.  9. 10. 11.]
[ 5. 10. 15. 20. 25. 30. 35. 40. 45. 50. 55.]
[  -6.  -24.  -54.  -96. -150. -216. -294. -384. -486. -600. -726.]
[-1.5 -1.5 -1.5 -1.5 -1.5 -1.5 -1.5 -1.5 -1.5 -1.5 -1.5]


***Один из операндов может быть скаляром, а не массивом.***

In [108]:
print(5*a)
print(10 + b)

[ 15.  30.  45.  60.  75.  90. 105. 120. 135. 150. 165.]
[  8.   6.   4.   2.   0.  -2.  -4.  -6.  -8. -10. -12.]


In [109]:
print((a + b) ** 2)
print(2 ** (a + b))

[  1.   4.   9.  16.  25.  36.  49.  64.  81. 100. 121.]
[2.000e+00 4.000e+00 8.000e+00 1.600e+01 3.200e+01 6.400e+01 1.280e+02
 2.560e+02 5.120e+02 1.024e+03 2.048e+03]


***В ``Numpy`` есть элементарные функции, которые тоже применяются к массивам поэлементно. Они называются универсальными функциями (``ufunc``).***

In [110]:
type(np.cos)

numpy.ufunc

In [111]:
np.cos(a)

array([-0.9899925 ,  0.96017029, -0.91113026,  0.84385396, -0.75968791,
        0.66031671, -0.54772926,  0.42417901, -0.29213881,  0.15425145,
       -0.01327675])

In [112]:
np.log(a)

array([1.09861229, 1.79175947, 2.19722458, 2.48490665, 2.7080502 ,
       2.89037176, 3.04452244, 3.17805383, 3.29583687, 3.40119738,
       3.49650756])

***Можно прибавить ко всем строкам матрицы массив***

In [119]:
np.array([[0, 0, 0], [10, 10, 10], [20, 20, 20], [30, 30, 30]]) + np.arange(3)

array([[ 0,  1,  2],
       [10, 11, 12],
       [20, 21, 22],
       [30, 31, 32]])

***Логические операции также производятся поэлементно.***

In [113]:
print(a > b)
print(a == b)
print(a >= 10)

[ True  True  True  True  True  True  True  True  True  True  True]
[False False False False False False False False False False False]
[False False False  True  True  True  True  True  True  True  True]


***Могут понадобится константы.***

In [114]:
print(np.e, np.pi)

2.718281828459045 3.141592653589793


***Посмотрим на сортировку numpy-массивов.***

In [115]:
a = np.array([1, 5, 6, 10, -2, 0, 18])

In [116]:
print(np.sort(a))
print(a)

[-2  0  1  5  6 10 18]
[ 1  5  6 10 -2  0 18]


***Теперь попробуем как метод.***

In [117]:
a.sort()
print(a)

[-2  0  1  5  6 10 18]


In [143]:
x = np.array([1, 2, 3, 4, 5, 6])
print(x.mean())
print(x.sum())

3.5
21


### Конкатенация многомерных массивов

Конкатенировать несколько массивов можно с помощью функций **np.concatenate, np.vstack, np.hstack, np.dstack**

In [131]:
x = np.arange(6).reshape(3, 2)
y = np.arange(100, 112).reshape(3, 4)

In [132]:
x

array([[0, 1],
       [2, 3],
       [4, 5]])

In [133]:
y

array([[100, 101, 102, 103],
       [104, 105, 106, 107],
       [108, 109, 110, 111]])

In [138]:
np.hstack((x, y))

array([[  0,   1, 100, 101, 102, 103],
       [  2,   3, 104, 105, 106, 107],
       [  4,   5, 108, 109, 110, 111]])

### Линейная алгебра

Документацию numpy.linalg можно посмотреть тут: https://numpy.org/doc/stable/reference/routines.linalg.html

In [141]:
v1 = np.array([1.0, 1.0, 2.0])
v2 = np.array([0.0, 1.0, -1.0])
np.inner(v1, v2)

-1.0

In [142]:
M = np.array([[2.0, 0.0, -1.0],
              [1.0, 5.0, -4.0],
              [-1.0, 1.0, 0.0]])
print(M.shape, v1.shape)
print(np.dot(M, v1))

(3, 3) (3,)
[ 0. -2.  0.]
