# **Введение. Функции нескольких переменных**

✍ В предыдущем модуле мы познакомились с функцией одной переменной, а также научились её исследовать. Разумеется, функции от одной переменной встречаются в различных задачах, однако на практике мы чаще всего имеем дело с функциями нескольких переменных, то есть, с такими, которые зависят от нескольких параметров. Например, если мы хотим предсказать цену на квартиру, то не будем предсказывать её только на основании площади — мы возьмём площадь, этаж, расстояние до метро, экологию и так далее.

Интересно анализировать именно многомерные функции, ведь они помогают изучать окружающую действительность и прогнозировать интересующие показатели. Мы должны уметь исследовать многомерные функции так же, как и функции одной переменной. Это подводит нас к главной цели — **задачам оптимизации**. Именно во время решения задач оптимизации мы исследуем поведение функции, ищем для неё производные, находим минимумы и максимумы.

Такая острая необходимость изучать и оптимизировать функции обусловлена тем, что практически все алгоритмы машинного обучения можно рассматривать как вариацию задачи оптимизации. К примеру:

* При решении задачи кредитного скоринга мы минимизируем ошибку модели и количество потерянных банком денег.
* При создании алгоритма для навигатора — минимизируем время, которое потратит пользователь на дорогу до работы.
* При работе в интернет-магазине — минимизируем количество сотрудников колл-центра, необходимых для обслуживания входящих заказов.
* При игре на бирже — максимизируем ожидаемую от продажи и покупки акций прибыль.

Задача оптимизации может быть очень сложной, поскольку функция может иметь десятки, сотни, тысячи или даже миллионы входных данных, а структура функции неизвестна, часто недифференцируема и зашумлена.

In [9]:
# Найдите область убывания функции 

from sympy import Symbol, S, solveset, Eq, diff, limit, oo, sin, ln, simplify, exp
from sympy.calculus.util import function_range, continuous_domain

x = Symbol("x") 
f = x**3-6*(x**2)+2
y = f.diff(x)
solveset(Eq(y, 0), x)

{0, 4}

In [6]:
print(y.subs(x, -1)) # +
print(y.subs(x, 1)) # +
print(y.subs(x, 5)) # +

15
-9
15


Теперь можно перейти к функциям нескольких переменных. Формальное определение для таких функций звучит следующим образом:
***
* Существует функция  переменных x,y,z,..., если по некоторому закону каждой системе n чисел (x,y,z,...) из некоторого множества ставится в соответствие число u.
***
То есть, по сути, относительно функции одной переменной меняется только то, что значение функции зависит от нескольких аргументов, а не от одного:

![](https://lms.skillfactory.ru/assets/courseware/v1/3edbff8f1e8b498b95e52399ed595a84/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md5_1_1.png)

Примечание. Исключением из этого правила являются так называемые векторнозначные функции, для которых значением может быть не одно число, а несколько:

![](data/1.PNG)

Функции, зависящие от нескольких переменных, очень часто используются в разных научных областях и, конечно же, в Data Science.
***

**KNN**

Например, вспомним метод классификации **KNN**. В чём его суть? Её можно выразить фразой: «Скажи мне, кто твой друг, и я скажу, кто ты». Когда мы получаем обучающую выборку, мы располагаем все её объекты на координатной плоскости (или в пространстве) и затем выбираем количество ближайших соседей. Количество соседей является основным решающим фактором. Обычно это нечётное число. Когда k=1, алгоритм называется алгоритмом ближайших соседей. Это самый простой случай.

Далее мы получаем новую точку, для которой неизвестен класс и необходимо предсказать метку. Мы отмечаем эту точку на плоскости (или в пространстве) и находим ближайшую к ней точку из обучающей выборки. Мы присваиваем нашей точке метку найденной ближайшей точки.

На рисунке ниже точки одного класса обучающей выборки отмечены красными звёздочками, а точки другого — зелёными треугольниками. Мы получаем новую точку (знак вопроса) и видим, что ближе всего к ней расположена красная звёздочка. Значит, нашей новой точке мы присваиваем такой же класс.

![](https://lms.skillfactory.ru/assets/courseware/v1/21ee3c1cf2dbd2141b42a4aeafd084b5/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md5_1_2.png)

А что если k больше 1? Предположим, что P — это точка, для которой необходимо предсказать метку. Сначала вы находите k ближайших к P точек, а затем классифицируете точки большинством «голосов» k соседей. Каждый объект «голосует» за свой класс, и класс с наибольшим количеством «голосов» принимается за прогноз. Чтобы найти ближайшие похожие точки, вычисляются  расстояния между точками с использованием мер расстояния, таких как **евклидово расстояние, расстояние Хэмминга, расстояние Манхэттена и расстояние Минковского.**

Итак, алгоритм KNN включает в себя следующие основные шаги:

1. Рассчитать расстояния до всех точек.
2. Найти ближайших соседей (точки с наименьшим расстоянием).
3. Посчитать «голоса» за классы.

![](https://lms.skillfactory.ru/assets/courseware/v1/3e509296d919af7871b34b42531cc66d/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md5_1_3.png)

Как уже упоминалось, в этом алгоритме необходимо вычислять расстояние между двумя точками. Для этого используются различные функции нескольких переменных. Рассмотрим самую популярную — **евклидово расстояние**.

Если говорить про евклидово расстояние для двух переменных, то его функция записывается как f(x) = sqrt(x^2 + y^2) и вычисляет корень из суммы квадратов x и y. Это не что иное, как расстояние от точки (x,y) до начала координат или длина вектора с координатами (x,y). В качестве области определения для такой функции могут выступать **любые вещественные числа**, а её областью значений являются **все неотрицательные числа**.

**Евклидово расстояние до начала координат:**

![](data/2.PNG)

![](https://lms.skillfactory.ru/assets/courseware/v1/3fc0a0d83572bc36e64a95b6d514d1f2/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md5_1_4.png)

Также евклидово расстояние можно использовать для того, чтобы найти **расстояние между двумя точками**:

![](data/3.PNG)

![](https://lms.skillfactory.ru/assets/courseware/v1/e82a6a6f1586460b83b1b11779469ffd/asset-v1:SkillFactory+DSPR-2.0+14JULY2021+type@asset+block/MATHML_md5_1_5.png)
***

**L^2-loss функция**

Также функцией нескольких переменных является **квадратичная функция потерь** или, как её ещё называют, **L^2-loss функция**:

![](data/4.PNG)

Эта функция находит сумму квадратов всех ошибок, то есть, сумму квадратов разностей между реальным значением и значением, предсказанным моделью. Вы уже сталкивались с ней, так как она используется для построения и оценки качества в линейных регрессиях (в методе наименьших квадратов), а также для метода обратного распространения ошибки, применяемого в нейронных сетях.

    → Так как эта функция выражает величину отклонения от истины, нам очень важно уметь её исследовать и находить её минимальное значение, чтобы достигать максимально точных предсказаний.

В качестве аргументов функция L^2-loss принимает любые вещественные числа, а её значения могут быть любыми неотрицательными числами.

![](data/5.PNG)

In [8]:
L2 = 0.4**2+0.1**2+0.1**2+0.2**2+0.2**2+0.2**2+0.5**2
L2

0.55

**Сигмоида**

Вспомним ещё одну функцию, с которой мы уже сталкивались в одномерном случае — это **сигмоида**. Сигмоида является функцией активации нейрона, которая используется при обучении нейронных сетей. Её вариацией является **логистическая функция**, используемая для решения задачи классификации. Если параметров много, то, разумеется, мы получаем её как функцию многих переменных:

![](data/6.PNG)

Ровно так же, как и одномерная, **она может принимать любые значения от 0 до 1 не включительно, и в качестве её аргументов могут выступать любые вещественные числа**.
***

Это лишь несколько примеров функций многих переменных, которые могут вам встретиться. Разумеется, в прикладных задачах вы будете сталкиваться с самыми разным вариантами зависимостей. Их спектр огромен. Например, вы уже умеете работать со случаями линейной зависимости — именно такой зависимостью является линейная регрессия. В логистической регрессии вы уже поработали с сигмоидальной функцией. Если вы будете предсказывать экономические процессы, то встретитесь с экспоненциальной зависимостью, а если решите предсказать временной ряд, вам понадобится логарифмическая функция. В зависимости от области знаний и ситуации вы будете постоянно работать с различными функциональными зависимостями — для любого кейса важно уметь найти подход.

В следующих юнитах мы научимся исследовать и оптимизировать зависимости разных видов.

ЦЕЛИ НА ДАННЫЙ МОДУЛЬ:

* научиться вычислять частные производные для функций нескольких переменных;
* научиться находить безусловные и условные экстремумы для функции нескольких переменных;
* узнать и понять основную терминологию, связанную с задачами оптимизации;
* понять принцип работы градиентного спуска;
* научиться применять градиентный спуск для решения практических задач.

Для достижения каждой цели мы будем изучать всю необходимую теорию, рассматривать применимость данных знаний для решения задач из DS и закреплять полученные знания на практических заданиях.

In [16]:
f = 1/(1+exp(-2*x))
f.subs(x, 1).evalf(2)

0.88