# Знакомство с NumPy

Язык программирования Python стал популярен в научной среде и в частности, в области машинного обучения, из-за огромного количества качественных библиотек для работы с разнообразными данными. Две важные библиотеки, с которыми необходимо познакомиться до того, как переходить непосредственно к алгоритмам машинного обучения - это NumPy (https://numpy.org/) и Pandas (https://pandas.pydata.org/), которые составляют основу стека для работы с данными в Python.

В этом семинаре я буду пользоваться иллюстрациями из прекрасной вводной статьи по NumPy (рекомендую к просмотру для закрепления):

*   http://jalammar.github.io/visual-numpy/

![NumPy logo](https://upload.wikimedia.org/wikipedia/commons/1/1a/NumPy_logo.svg)

Математическая основа большинства алгоритмов машинного обучения - это раздел математики, называющийся "линейная алгебра" - операции над матрицами, векторами и т.д. В стандартной библиотеке Python нет эффективной реализации математического объекта вектора и матрицы. Если реализовывать их с помощью доступных в Python списков, вложенных списков или объектов array.array, то выходит слишком медленно. NumPy (Numeric Python) - библиотека, предоставляющая эффективную реализацию объектов векторов, матриц и операций с ними, а засчет того, что ее ядро написано на C и Fortran и очень сильно оптимизировано, достигается впечатляющая вычислительная производительность.

Для начала, импортируем NumPy. Сокращение `np` для пакета общеупотребимое и используется везде, включая официальную документацию  

In [None]:
import numpy as np

Основной объект, предоставляемый библиотекой `numpy` - это объект массива `np.array`


![numpy array visualization](http://jalammar.github.io/images/numpy/numpy-array.png)

### Создание одномерных объектов `np.array` (векторов)

Перед началом работы с вектором, его, конечно же, нужно создать. Сделать это можно, например, следующими способами (но не только ими):

1.   Передать список (или другой итерируемый объект)
2.   Создать массив нужного размера, заполненный константой (единицами, нулями и т.д.)
3.   Создать массив нужного размера, заполненный случайными значениями
4.   Больше способов [тут](https://docs.scipy.org/doc/numpy/user/basics.creation.html#arrays-creation) и [тут](https://docs.scipy.org/doc/numpy/reference/routines.array-creation.html#routines-array-creation)




![create numpy array 1](http://jalammar.github.io/images/numpy/create-numpy-array-1.png)

![create numpy array ones, zeros, random](http://jalammar.github.io/images/numpy/create-numpy-array-ones-zeros-random.png)

### Арифметические действия

Над массивами можно проводить арифметические действия, при этом для обычных арифметических операторов (сложение, умножение, вычитание, деление) операции будут производиться **поэлементно**:

![numpy arrays example 1](http://jalammar.github.io/images/numpy/numpy-arrays-example-1.png)

![numpy arrays adding 1](http://jalammar.github.io/images/numpy/numpy-arrays-adding-1.png)

![numpy array substract multiply divide](http://jalammar.github.io/images/numpy/numpy-array-subtract-multiply-divide.png)

В случае арифметической операции с массивом и числом, `numpy` совершит **трансляцию (broadcasting)**

![numpy array broadcast](http://jalammar.github.io/images/numpy/numpy-array-broadcast.png)

В случае несовпадающих размерностей, мы ожидаемо получим исключение

In [None]:
arr1, arr2 = np.ones(5), np.ones(3)
arr1 + arr2

### Индексирование

В `numpy` реализована мощная система индексирования, позволяющая обращаться к отдельным элементам массива и т.п. Также, работают срезы по аналогии со списками

![numpy array slice](http://jalammar.github.io/images/numpy/numpy-array-slice.png)

### Агрегации

Агрегации - это функции, принимающие на вход массив и возвращающие одно число, например поиск максимума, минимума, суммы, среднего, и т.п.

![link numpy array aggregation](http://jalammar.github.io/images/numpy/numpy-array-aggregation.png)

*Задание: создайте с помощью numpy вектор из 179 случайных значений и посчитайте его среднее. Проверьте, что значение, полученное с помощью numpy совпадает с plain python*

In [None]:
# PUT YOUR CODE HERE

### Многомерные массивы (матрицы)

Удобство `numpy` распространяется и на случаи массивов большей размерности

![numpy array create 2d](http://jalammar.github.io/images/numpy/numpy-array-create-2d.png)

Если арифметические операции производятся над матрицами одного размера, они так же будут выполнены **поэлементно**

![numpy matrix arithmetic](http://jalammar.github.io/images/numpy/numpy-matrix-arithmetic.png)

Арифметические действия между матрицами разного размера можно проводить, если несовпадающая размерность матрицы равна 1, в таком случае `numpy` опять сделает **broadcasting** и выполнит операцию

![numpy matrix broadcast](http://jalammar.github.io/images/numpy/numpy-matrix-broadcast.png)

В случае несовпадения размерностей матриц, получим ожидаемое исключение

In [None]:
m1, m2 = np.ones((3, 3)), np.ones((2, 2))
m1 + m2

Узнать размерность любого объекта `np.array` можно с помощью атрибута `.shape`

In [None]:
m1.shape, m2.shape

### Матричное умножение

Матричное умножение можно вызвать с помощью оператора `@` или метода `.dot`

In [None]:
data = np.array([[1, 2, 3]])
powers_of_ten = np.array([[1, 10], [100, 1000], [10000, 100000]])
data @ powers_of_ten

In [None]:
data.dot(powers_of_ten)

![numpy matrix dot product 1](http://jalammar.github.io/images/numpy/numpy-matrix-dot-product-1.png)

![numpy matrix dot product 2](http://jalammar.github.io/images/numpy/numpy-matrix-dot-product-2.png)

В случае массивов, матричное произведение превращается в скалярное произведение векторов

In [None]:
v1, v2 = np.ones(5), np.arange(5)
v1, v2

In [None]:
v1 @ v2, v1.dot(v2)

### Индексирование в матрицах

![numpy matrix indexing](http://jalammar.github.io/images/numpy/numpy-matrix-indexing.png)

### Агрегации в матрицах

![numpy matrix aggregation 1](http://jalammar.github.io/images/numpy/numpy-matrix-aggregation-1.png)

![numpy matrix aggregation 4](http://jalammar.github.io/images/numpy/numpy-matrix-aggregation-4.png)

*Задание: создайте матрицу со случайными значениями (размерность выберите сами).*

1. *Найдите максимальное и минимальное значения в матрице*
2. *Теперь вычтите из всех значений матрицы минимальное, а результат разделите на разницу между максимальным и минимальным*
3. *Теперь в получившейся матрице заново найдите минимальное и максимальное значения*

In [None]:
# PUT YOUR CODE HERE

### Транспонирование и изменение формы

Транспонирование - операция замены строк на столбцы

![numpy transpose](http://jalammar.github.io/images/numpy/numpy-transpose.png)

![numpy reshape](http://jalammar.github.io/images/numpy/numpy-reshape.png)

In [None]:
data.reshape(3, -1)

### Большие размерности



![numpy 3d array](http://jalammar.github.io/images/numpy/numpy-3d-array.png)

![numpy 3d array creation](http://jalammar.github.io/images/numpy/numpy-3d-array-creation.png)

### Практический пример - формула среднеквадратичной ошибки

In [None]:
y_pred = [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 13, 15, 11, 10, 9, 12, 4, 2, 0]
y = [1.1, 1.2, 3, 3, 3, 9, 5, 10, 3, 10, 10, 2.3, 4.4, 2, 2, 9, 12, 2, 0, 0]

In [None]:
import matplotlib.pyplot as plt
import seaborn as sns
sns.set()

fig, ax = plt.subplots(figsize=(14, 8))
ax.plot(y, label='y', marker='o')
ax.plot(y_pred, label='y_pred', marker='o')
ax.legend()
ax.set_xlabel('x')
ax.set_ylabel('y')
plt.show()

![mean square error formula](http://jalammar.github.io/images/numpy/mean-square-error-formula.png)

In [None]:
mse = 0.0
n = len(y)
for i in range(n):
    mse += (y_pred[i] - y[i])**2 
mse /= n
print(f'MSE = {mse}')

In [None]:
y = np.array(y)
y_pred = np.array(y_pred)

mse = ((y_pred - y) ** 2).mean()
print(f'MSE = {mse}')

### Бенчмарк NumPy vs. Python

In [None]:
from typing import List

def vanilla_mse(y1: List[float], y2: List[float]) -> float:
    n = len(y1)
    mse = 0.0
    for i in range(n):
        mse += (y1[i] - y2[i])**2
    mse /= n
    return mse

In [None]:
import numpy.typing as npt

def numpy_mse(y1: npt.NDArray, y2: npt.NDArray) -> float:
    return ((y1 - y2)**2).mean()

In [None]:
from time import perf_counter

vanilla_times = []
numpy_times = []
sizes = [2**i for i in range(10, 25)]
for size in sizes:
    # вычисляем MSE с помощью numpy
    y1 = np.random.random(size)
    y2 = np.random.random(size)
    numpy_start = perf_counter()
    mse = numpy_mse(y1, y2)
    numpy_end = perf_counter()
    numpy_times.append(numpy_end - numpy_start)
    # вычисляем MSE с помощью python
    y1 = list(y1)
    y2 = list(y2)
    vanilla_start = perf_counter()
    mse = vanilla_mse(y1, y2)
    vanilla_end = perf_counter()
    vanilla_times.append(vanilla_end - vanilla_start)

In [None]:
fig, ax = plt.subplots(figsize=(16, 9))
ax.plot(sizes, vanilla_times, label='vanilla')
ax.plot(sizes, numpy_times, label='numpy')
ax.legend()
plt.show()