# Scipy

Модуль scipy содержит множество инструментов, предназначенных для научных вычислений. 

Его различные подмодули соответствуют различным областям применения таким как: интерполяция, оптимизация, обработка изображений, статистика, специальные функции и другие.

In [None]:
import numpy as np

In [None]:
import scipy

In [None]:
import matplotlib.pyplot as plt
%matplotlib inline

# scipy.special

https://docs.scipy.org/doc/scipy/reference/special.html#module-scipy.special

В математике есть набор функций, которые невозможно записать при помощи привычных нам функций (тригонометрических, логарифмов, экспонент и т.д.).

Такие функции можно только приближённо вычислять и модуль scipy.special предоставляет такую возможность.

Например, $erf(x) = \frac{2}{\sqrt{\pi}} \int\limits_{0}^{x} e^{-t^2} dt$ является такой функцией, но её можно вычислять в scipy.special

In [None]:
import scipy.special

In [None]:
scipy.special.erf(0.1)

In [None]:
scipy.special.erf(0.2)

Численно посчитаем производную в точке 0.2

In [None]:
(scipy.special.erf(0.2 +  0.0001) - scipy.special.erf(0.2)) / 0.0001

И она совпадёт со значнением подынтегрального выражения в точке 0.2 

In [None]:
2. / np.sqrt(np.pi) * np.exp(- 0.2 ** 2)

Подробности можно прочитать в документации

### Выводы:
scipy позволяет вычислять сложные функции, которые нельзя легко выписать

# scipy.linalg

https://docs.scipy.org/doc/scipy/reference/linalg.html#module-scipy.linalg

Линейная алгебра — раздел математики, изучающий объекты линейной природы: вектора, системы линейных уравнений,  матрицы. Среди основных инструментов, используемых в линейной алгебре — определители, матрицы, транспонирование. scipy.linalg посзволяет производить эти операции.

In [None]:
import scipy.linalg

Как вы думаете одно и то же или нет?

In [None]:
scipy.linalg?

In [None]:
' '.join(sorted(dir(scipy.linalg))) == ' '.join(sorted(dir(np.linalg)))

Создадим матрицу

In [None]:
arr = np.array(
    [
        [1, 2],
        [3, 4]
    ]
)

In [None]:
arr

Может найти определитель этой матрицы.

Для матриц 2 на 2 он равен arr[0, 0] \* arr[1, 1] - arr[1, 0] \* arr[0, 1]

**Вопрос: чему равен $\det(ABC)$, а $\det A^T$, а $\det (-A)$?**

In [None]:
scipy.linalg.det(arr)

In [None]:
arr[0, 0] * arr[1, 1] - arr[1, 0] * arr[0, 1]

Можем найти обратную матрицу

Обратная матрица к матрице $A$, это такая матрица $B$,  что $A \times B = E$, а $E$ - это матрица, у которой везде кроме диагонали нули, а на диалогали единицы.

**Вопрос: как связаны $\det A$ и $\det A^{-1}$?**

In [None]:
inv_arr = scipy.linalg.inv(arr)

inv_arr

In [None]:
np.dot(arr, inv_arr)

Не точные нули получаются из-за точности вычислений

Также можно решать линейные системы уравнений.

$2x + y + 3z = 9$

$x - 2y + z = -2$

$3x + 2y + 2z = 7$



Cоздадим соответсвующие массивы и матрицы

In [None]:
A = np.array([
    [2, 1, 3],
    [1, -2, 1],
    [3, 2, 2]
])

b = np.array([9, -2, 7])

Тогда система уравнений равносильна тому, что найти такой массив [x, y, z], что

np.dot(A, [x, y, z]) == b


**Вопрос: когда уравнение $Ax = b$ имеет единственное решение? просто имеет решения?**

In [None]:
solution = scipy.linalg.solve(A, b)

In [None]:
solution

In [None]:
np.dot(A, solution)

Матрица должна быть обратима

In [None]:
A = np.array([
    [2, 1, 3],
    [2, 1, 3],
    [0, 0, 1]
])

b = np.array([1, 1, 1])

In [None]:
scipy.linalg.solve(A, b)

Можно считать длины векторов (значения массива можно считать координатами и тогда это будет вектор)

In [None]:
scipy.linalg.norm?

In [None]:
vec = np.array([0, 3, 4])

In [None]:
scipy.linalg.norm(vec) # sqrt(0 **2 + 3 ** 2 + 4 ** 2)

Соответсвенно расстояние между двумя точками будет считатся так

In [None]:
a = np.array([1, 5])
b = np.array([-3, 2])
scipy.linalg.norm(a - b)

In [None]:
fig = plt.figure(figsize=(5, 5))
ax = fig.add_subplot(1, 1, 1)
ax.set_xticks(np.arange(-6, 7, 1))
ax.set_yticks(np.arange(-6, 7, 1))
plt.scatter([1, -3], [5, 2])
plt.xlim(-6, 6)
plt.ylim(-6, 6)
plt.grid()

In [None]:
def points_dist(fst_point, snd_point):
    fig = plt.figure(figsize=(5, 5))
    ax = fig.add_subplot(1, 1, 1)
    ax.set_xticks(np.arange(-6, 7, 1))
    ax.set_yticks(np.arange(-6, 7, 1))
    plt.scatter([fst_point[0], snd_point[0]], [fst_point[1], snd_point[1]])
    plt.xlim(-6, 6)
    plt.ylim(-6, 6)
    plt.grid()
    plt.plot([fst_point[0], snd_point[0]], [fst_point[1], snd_point[1]])
    print(scipy.linalg.norm(np.array(fst_point) - np.array(snd_point)))

In [None]:
points_dist([0, 0], [3, 4])

In [None]:
points_dist([-3, -6], [2, 6])

### Выводы:
scipy можно использовать для работы с матрицами и векторами

# scipy.optimize

https://docs.scipy.org/doc/scipy/reference/optimize.html#module-scipy.optimize

При помощи scipy можно решать различные задачи оптимизации. scipy предоставляет целый набор различных методов оптимизации.

In [None]:
import scipy.optimize

Определим какую-нибудь функцию

In [None]:
def f(x):
    return x ** 2 + 10 * np.sin(x) + 4 * np.cos(x / 2.)

И нарисуем её график

In [None]:
x = np.arange(-10, 10, 0.1)
plt.plot(x, f(x)) 
plt.show()

Мы видим локальный минимум в окрестности точки -1.5

scipy предоставляет общий способ нахождения минимума функции. Ему нужно передать саму функцию и начальное приближение, начиная с которого алгоритм будет искать минимум

In [None]:
res = scipy.optimize.fmin_bfgs(f, -5)[0]

bfgs - название метода оптимизации

In [None]:
x = np.arange(-10, 10, 0.1)
plt.plot(x, f(x)) 
plt.scatter([res], [f(res)])
plt.show()

Если выбрать неудачное начальное приближение, то возможно будет найден локальный, а не глобальный минимум

In [None]:
scipy.optimize.fmin_bfgs?

In [None]:
res = scipy.optimize.fmin_bfgs(f, -10)[0]
x = np.arange(-10, 10, 0.1)
plt.plot(x, f(x)) 
plt.scatter([res], [f(res)])
plt.show()

In [None]:
res = scipy.optimize.fmin_bfgs(f, 5)[0]
x = np.arange(-10, 10, 0.1)
plt.plot(x, f(x)) 
plt.scatter([res], [f(res)])
plt.show()

Есть общий интерфейс для минимизации

In [None]:
scipy.optimize.minimize(f, 0)

In [None]:
scipy.optimize.minimize(f, 5)

### Выводы:
при помощи scipy можно оптимизировать произвольные функции

# Задача линейного программирования

Колхоз имеет возможность приобрести не более 19 трехтонных автомашин и не более 17 пятитонных. Отпускная цена трехтонного грузовика - 4000 руб., пятитонного - 5000 руб. Колхоз может выделить для приобретения автомашин 141 тысяч рублей. Сколько нужно приобрести автомашин, чтобы их суммарная грузоподъемность была максимальной?

$x$ - число трёхтонных машин

$y$ - число пятитонных машин

$4x + 5y$ - затраты на покупку машин в тысячах рублей

$3x + 5y$ - суммарная грузоподъёмность


Нужно решить задачу:

$3x + 5y \to max$

С ограничениями:

$0 \leq x \leq 19$

$0 \leq y \leq 17$

$4x + 5y \leq 141$

In [None]:
c = [-3, -5]
A_ub = [
    [4, 5],
    [1, 0],
    [0, 1]
]
b_ub = [
    141,
    19,
    17
]

scipy.optimize.linprog(c=c, A_ub=A_ub, b_ub=b_ub)

In [None]:
scipy.optimize.linprog?

Пусть теперь пятитонные и шеститонные грузовики

In [None]:
c = [-5, -6]
A_ub = [
    [4, 5],
    [1, 0],
    [0, 1]
]
b_ub = [
    141,
    19,
    17
]

scipy.optimize.linprog(c=c, A_ub=A_ub, b_ub=b_ub)

### Машинное обучение это тоже оптимизация

Давайте напишем класс, который будеть искать линейную зависимость методом наименьших квадратов

$\sum_{i=1}^n (<w, x_i> - y_i)^2 \to \min_{w}$

заодно узнаем как писать свои классы :)

In [None]:
class LinearModel(object): # наследуемся от object – стандартная практика
    def __init__(self, loss_function): # конструктор имеет название __init__ и первым аргументом всегда имеет self
        self.loss_function = loss_function
        
    def fit(self, X_data, y_data):
        """
        тут можно написать документацию метода
        X - это выборка признаков, y - выборка целевых переменных
        """
        # пока сделаем реализацию через scipy.optimize
        
        def func(weights):
            return np.sum(self.loss_function(np.dot(X_data, weights[1:]) + weights[0] - y_data))
        
        self.weights = scipy.optimize.minimize(func, np.ones(X_data.shape[1] + 1)).x
        return self
        
    def predict(self, X_data):
        # ax + b
        return np.dot(X_data, self.weights[1:]) + self.weights[0]

Генерируем данные

In [None]:
X_data = np.random.uniform(0, 10, size=50)
y_data = X_data * 0.5 + 7 + np.random.uniform(-1, 1, size=len(X_data))

И визуализируем их

In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(X_data, y_data)
plt.ylim(0)
plt.xlim(0)
plt.grid()
plt.show()

Далее обучаем модель

In [None]:
model = LinearModel(lambda arr: np.abs(arr)).fit(X_data[:, np.newaxis], y_data)

И визуализируем её

In [None]:
plt.figure(figsize=(10, 5))
plt.scatter(X_data, y_data)
plt.plot(X_data, model.predict(X_data[:, np.newaxis]), c='green')
plt.ylim(0)
plt.xlim(0)
plt.grid()
plt.show()

Объединим всё в одну функцию чтобы было проще рисовать

In [None]:
def plot_example(error_size=1, loss_function=None, outliers_num=0):
    if loss_function is None:
        loss_function = lambda arr: arr ** 2
    
    X_data = np.random.uniform(0, 10, size=50)
    y_data = X_data * 0.5 + 7 + np.random.uniform(-error_size, error_size, size=len(X_data))
    
    if outliers_num > 0:
        X_out = 1 + np.random.uniform(-0.7, 0.7, size=outliers_num)
        y_out = 20 + np.random.uniform(-0.7, 0.7, size=outliers_num)
        X_data = np.concatenate((X_data, X_out))
        y_data = np.concatenate((y_data, y_out))
    
    model = LinearModel(loss_function).fit(X_data[:, np.newaxis], y_data)
    
    plt.figure(figsize=(10, 5))
    plt.scatter(X_data, y_data)
    plt.plot(X_data, model.predict(X_data[:, np.newaxis]), c='green')
    plt.ylim(0)
    plt.xlim(0)
    plt.grid()
    plt.show()

In [None]:
plot_example(1, lambda arr: arr ** 2)

Вроде всё хорошо, но добавим выбросы?

In [None]:
plot_example(1, lambda arr: arr ** 2, outliers_num=10)

Линия ушла вверх и покосилась, почему так получается? Давайте заменим функцию потрель на модуль? Ну так, чисто по фану

In [None]:
plot_example(1, lambda arr: np.abs(arr), outliers_num=10)

Внезапно заработало, почему так? Обязательно расскажем на занятии про метрики, а пока можете попробовать сами обосновать