In [14]:
# http://www.machinelearning.ru/wiki/index.php?title=Машинное_обучение_(курс_лекций,_К.В.Воронцов)
# https://github.com/esokolov/ml-course-hse

In [None]:
# Задание 1

# Стационарные точки многочлена
# Для разминки решим следующую задачу. Вам дан многочлен третьей степени от одной переменной: 
# ax^3 + bx^2 + cx + d. Нужно найти стационарные точки: минимумы, максимумы и перегибы.

# Напомним, стационарные точки - это такие точки, в которых производная равна нулю.

# Входные данные: коэффициенты a, b, c, d.
# Результат: напишите функцию zero_grad(a, b, c, d), которая вернёт список вещественных
# стационарных точек соответствующего многочлена, упорядоченных по возрастанию.
# Например, zero_grad(1, 0, 0, 0) должна вернуть [0.0] (x^3 имеет единственную 
# стационарную точку - перегиб в (0.0).

In [None]:
import numpy as np

def zero_grad(a, b, c, d):
    discr = (2*b)**2 - 4*3*a*c
    if discr < 0:
        return []
    x1 = (-2*b - np.sqrt(discr))/(6*a)
    x2 = (-2*b + np.sqrt(discr))/(6*a)
    if not x1 and not x2:
        return []
    return sorted(list(set([x1, x2])))

In [2]:
#  Для тестовых значений 1, 2, 1, 4, ожидался ответ: -1.0, -0.33333
# Для тестовых значений 1/3, -1, 1, -10, ожидался ответ: 1.0
print(zero_grad(1, 2, 1, 4))
print(zero_grad(1/3, -1, 1, -10))  # ожидался ответ: 1.0

[-1.0, -0.333333]
[1.0]


In [None]:
# в системе нет этого модуля
from sympy.solvers import solve
from sympy import Symbol
x = Symbol('x')

def zero_grad(a, b, c, d):
    expr = 3*a*x**2 + 2*b*x + c
    return solve(expr, x)
                 
print(zero_grad(1/3, -1, 1, -10))
print(zero_grad(1, 2, 1, 4))

[1.00000000000000]
[-1, -1/3]


In [None]:
from sympy.solvers import solve
from sympy import symbols
x, y, z = symbols('x y z')
expressions = [(150*x + 100*y + 75*z - 200), (x + y + z -1) ]
solve(expressions, [x, y, z])


{x: z/2 + 2, y: -3*z/2 - 1}

In [None]:
# Задание 2

# Оптимизация функции двух переменных
# Пусть теперь у нас есть функция g(x,y)=a*x**2 + b*x*y + c*y**2 + d*x +e*y +f. 
# Известно, что a>0, c>0, b**2 - 4*a*c !=0. Мы хотим найти минимум этой функции.

# Из того, что a>0 и c>0 следует, что функция стремится в +oo при x и y стремящихся в oo. 
# Для того, чтобы найти минимум такой функции, нужно приравнять градиент (частные 
# производные по x и y) к 0. После этого нужно просто решить систему уравнений. Проверьте, 
# что у этой системы будет ровно одно решение (обратите внимание на условие b**2 - 4*a*c != 0).

# Входные данные: числа a, b, c, d, e, f
# Результат: напишите функцию min_point(a, b, c, d, e, f), возвращающую кортеж из двух 
# чисел (x0, y0), при которых многочлен g(x0, y0) принимает минимальное значение.
# Например, min_point(2, 1, 1, -5, -3, 57) должна вернуть (1, 1).

In [13]:
import numpy as np

def min_point(a, b, c, d, e, f):
    A = np.array([
              [2*a, b],
              [b, 2*c]
              ])
    b = np.array([-d, -e])
    return tuple(np.linalg.solve(A, b))


min_point(2, 1, 1, -5, -3, 57)

(1.0, 1.0)

In [None]:
# Задание 3

# Градиентный спуск
# В задачах выше функции были заданы в явном виде и была возможность найти их минимумы, 
# решив уравнение или систему уравнений. При обучении более сложных моделей, например 
# нейронных сетей, аналитическое решение не всегда возможно.

# В таких случаях применяют градиентный спуск. Идея метода заключается в том, чтобы вычислять 
# вектор частных производных функции и менять значения параметров на небольшой шаг в сторону, 
# противоположную градиенту. Такой метод работает, т. к. функция наиболее быстро растёт 
# в направлении градиента и убывает в обратном.

# В этой задаче мы продолжим экспериментировать с многочленом второй степени от двух 
# переменных - будем искать его минимум. На каждом шаге вам требуется вычислить градиент 
# g(x,y)  и сместить точку (x,y) на заданную длину rate в направлении, противоположном 
# градиенту. Это значит, что вам надо вычислить градиент, затем сделать длину этого вектора 
# равной rate (напомним, длина вектора равна sqrt(x**2 + y**2), и потом вычесть 
# полученный вектор из (x,y).

# Входные данные: коэффициенты a, b, c, d, e, f многочлена 
# (x,y)=a*x**2 + b*x*y + c*y**2 + d*x +e*y +f  и начальная точка (x0,y0).
# Результат: напишите функцию gradient(a, b, c, d, e, f, x0, y0, rate), которая 
# сделает один шаг градиентного спуска (сделает шаг длины rate в сторону, противоположную 
# градиенту) и вернёт обновлённые (x0, y0).
# Пример: gradient(2, 1, 1, -5, -3, 57, 0, 0, 1) должна 
# вернуть (0.8574929257125441, 0.5144957554275265).

In [25]:
def gradient(a, b, c, d, e, _f, x0, y0, rate):
    dx = 2*a*x0 +b*y0 + d  # производная функции по x
    dy = b*x0 + 2*c*y0 + e  # производная функция по y
    l = (dx**2 + dy**2)**(0.5)   # длина вектора градиента 
    dx = dx/l*rate  # шаг по x с учетом rate из аргументов
    dy = dy/l*rate  # шаг по y с учетом rate из аргументов
    return (x0-dx, y0-dy)

In [26]:
gradient(2, 1, 1, -5, -3, 57, 0, 0, 1)

-5 -3
0 0
-5 -3 5.830951894845301


(0.8574929257125441, 0.5144957554275265)

In [None]:
# Задание 4

# Обратный гессиан
# Для более быстрой сходимости численных методов часто используют метод Ньютона. 
# Для его работы необходимо вычислить матрицу, обратную к матрице вторых производных 
# (гессиан). В этой задаче необходимо сделать именно это. Из-за проблем с работой 
# библиотеки numpy на платформе, реализуйте решение без ее использования.

# Входные данные: коэффициенты a, b, c, d, e, f многочлена второй степени от 
# двух переменных (x,y)=a*x**2 + b*x*y + c*y**2 + d*x +e*y +f  .
# Результат: напишите функцию hessian_inv(a, b, c, d, e, f, x, y), возвращающую 
# матрицу вторых производных в виде двумерного numpy массива.
# Например, hessian_inv(2, 1, 1, -5, -3, 57, 0, 0) должна вернуть

#   [[ 0.28571429, -0.14285714],
#        [-0.14285714,  0.57142857]]

In [42]:
def hessian_inv(a, b, c, d, e, f, _x, _y):
    inv_hess = (1/(2*a*2*c - b*b)) * np.array(
                                      [[2*c, -b],
                                       [-b, 2*a]
                                       ])
    return inv_hess 

In [43]:
hessian_inv(2, 1, 1, -5, -3, 57, 0, 0)

array([[ 0.28571429, -0.14285714],
       [-0.14285714,  0.57142857]])

In [36]:
from sympy import diff, symbols
a, b, c, d, e, f, x, y = symbols('a, b, c, d, e, f, x, y')


expr = a*x**2 + b*x*y + c*y**2 + d*x +e*y +f

diff(expr, x, x)

2*a

In [38]:
diff(expr, x, y)

b

In [40]:
diff(expr, y, y)

2*c

In [41]:
diff(expr, y, x)

b