In [None]:
# Запустите эту ячейку, чтобы загрузить графические пакеты

using Plots
gr()
using Interact

In [None]:
# Запустите эту ячейку, чтобы использовать пару определений из предыдущей записной книжки Инструменты

σ(x) = 1 / (1 + exp(-x))
f(x, w) = σ(w * x)

## Несколько функциональных параметров

В блокноте 6 мы увидели, как можно настроить параметр, чтобы кривая соответствовала одной точке данных. Что делать, если есть еще данные? 

Мы увидим, что по мере того, как мы собираем больше данных для подгонки, иногда бывает полезно увеличить сложность нашей модели с помощью дополнительных параметров.

## Добавление дополнительных данных

Предположим, теперь есть две подходящие точки данных: предыдущая $ (x_0, y_0) $, использованная в блокноте 6, а также $ (x_1, y_1) = (-3, 0.3) $.

#### Упражнение 1

Сделайте интерактивный график функции $ f_w $ вместе с двумя точками данных. Можете ли вы заставить график $ f_w $ проходить через *обе* точки данных в одно и то же время?

#### Exercise 1

Make an interactive plot of the function $f_w$ together with the two data points. Can you make the graph of $f_w$ pass through *both* data points at the *same* time?

Вы должны были обнаружить, что на самом деле *невозможно* совместить обе точки данных одновременно! Лучшее, что мы можем сделать, - это *минимизировать* насколько далеко функция находится от данных. Для этого нам нужно как-то сбалансировать расстояние от каждой из двух точек данных.

#### Упражнение 2

Поиграйте с ползунком, чтобы найти значение $ w ^ * $, равное $ w $, которое, по вашему мнению, имеет «наименьшую ошибку» в интуитивном смысле.

#### Exercise 2

Play with the slider to find the value $w^*$ of $w$ that you think has the "least error" in an intuitive sense.

## Определение функции потерь

Как мы можем *определить* какой-то общий показатель расстояния от *всех* данных? Ну, нам просто нужно определить новую функцию потерь! Один из способов сделать это состоит в суммировании функций потерь для каждой точки данных, то есть суммы квадратов вертикальных расстояний от графика до каждой точки данных:

$$L(w) = [y_0 - f_w(x_0)]^2 + [y_1 - f_w(x_1)]^2.$$

Поскольку две части, которые мы добавляем, имеют одинаковую математическую «форму» или структуру, мы можем сократить это, записав его в виде суммы:

$$L(w) = \sum_{i=0}^1 [y_i - f_w(x_i)]^2.$$

Итак, теперь мы хотим найти значение $ w ^ * $ для $ w $, которое минимизирует эту новую функцию $ L $!

#### Упражнение 3 

Создайте интерактивную визуализацию, чтобы показать функцию $ f_w $ и визуализировать расстояние от каждой точки данных.

#### Упражнение 4

После некоторой практики (которой считается добросовестное осмысление каждой ячейки данного руководства), интуитивно становится очевидным, что мы не можем заставить функцию проходить через обе точки данных при любом значении $ w $. Другими словами, наша функция потерь `L (w)` никогда не равна нулю. 

Какое минимальное значение `L (w)` вы можете найти, изменив `w`? Какое значение имеет значение `w`?

### Суммирование в Julia

Для генерации приведенного выше графика мы использовали функцию sum. `sum` может сложить все элементы коллекции или диапазона, или он может сложить результаты применения функции ко всем элементам коллекции или диапазона. 

Посмотрите документы на `sum` через

```julia
?sum
```
если вам нужно больше информации.

#### Упражнение 5

Используйте `sum`, чтобы сложить все целые числа в диапазоне от 1 до 16 включительно.

#### Упражнение 6

Какова сумма абсолютных значений всех целых чисел от -3 до 3? Используйте `sum` и функцию` abs`.

## Как выглядит функция потерь $ L $?

В нашей последней попытке минимизировать `L (w)` путем изменения `w`, мы увидели, что` L (w) `всегда казался больше 0. Надо бы в этом удостовериться

#### Упражнение 7

Постройте новую функцию потерь $ L (w) $ как функцию от $ w $.

### Особенности функции потерь

Первое, что нужно отметить, это то, что $ L $ всегда положительно. Поскольку это сумма квадратов, а квадраты не могут быть отрицательными, сумма также не может быть отрицательной! 

Однако мы также видим, что, хотя $ L $ падает почти до $ 0 $ для отдельного специального значения $ w ^ * \simeq 0.4 $, оно на самом деле *не достигает* 0! Опять же, мы можем увеличить эту область графика, чтобы оценить ее более точно.

Вы наверно начали подозревать, что должен быть лучший способ использования компьютера, чтобы минимизировать $ L $, чтобы найти местоположение $ w ^ * $ минимума, а не делать все на глаз. Действительно, как мы увидим в следующих двух блокнотах, это так и есть!

## Добавление дополнительных параметров в модель

Если мы добавим больше параметров в функцию, мы сможем улучшить ее соответствие данным. Например, мы можем определить новую функцию $ g $ с другим параметром - **смещением**:

$$g(x; w, b) := \sigma(w, x) + b.$$

In [None]:
g(x, w, b) = σ(w*x) + b

*Примечание*: В блокноте 5 мы добавили параметры в сигмоидную функцию, чтобы получить форму $$ \sigma (w, x + b) $$ а здесь мы работаем с формой $$ \sigma (w, x) + b $$ Оба варианта являются действительными способами применить смещение к функции! В терминологии машинного обучения первое соответствует нейронной сети с одним нейроном, а второе можно представить как сеть с двумя слоями.

#### Упражнение 8

Сделайте интерактивную визуализацию с двумя ползунками для $ w $ и $ b $. Поиграйте с ползунками, чтобы попытаться согласовать *обе* точки данных одновременно!

#### Упражнение 9

Для каких значений `w` и` b` линия проходит через обе точки?

## Подгонка обеих точек данных: функция потерь

Следуя процедуре, которую мы использовали, когда у нас был один параметр, мы можем снова подумать о процедуре подгонки как о минимизации подходящей *функции потерь*. Выражение для функции потерь почти такое же, за исключением того, что теперь $ f $ имеет два параметра $ w $ и $ b $, поэтому функция потерь $ L_2 $ сама по себе является функцией от $ w $ и $ b $:

$$L_2(w, b) = \sum_i [y_i - f(x_i; w, b)]^2.$$

Поэтому мы хотим минимизировать эту функцию потерь по *обоим* параметрам $ w $ и $ b $! Давайте подготовим это.

#### Упражнение 10

Определите функцию `L2` в Julia.

## Больше данных

Однако, если мы добавим больше данных, мы снова не сможем уместить все данные; мы только сможем достичь «наилучшего соответствия». 

Давайте создадим `xs` и` ys` с еще некоторыми данными:

In [None]:
xs = [2, -3, -1, 1]
ys = [0.8, 0.3, 0.4, 0.4]

#### Упражнение 11

a) Сделайте интерактивную визуализацию функции $ f $ и данных. Попробуйте найти значения $ w $ и $ b $, которые лучше всего подходят.

b) Определите функцию потерь и постройте ее.

#### Упаржнение 12

Мы видели функцию потерь, $$L_{2D}(w, b) = \sum_i[\mathrm{ys}_i - g(\mathrm{xs}_i, w, b)]^2,$$ представленную в Julia как

```julia
L2(w, b) = sum( (ys .- g.(xs, w, b)) .^ 2 )
```

Чтобы убедиться, что вы понимаете, что делает эта функция, реализуйте свою собственную функцию потерь с помощью приведенного ниже комментария. Делайте это без использования `sum`,` abs2` или синтаксиса широковещательной точки (например, `.-`). 

Подсказка: вы захотите использовать цикл for для этого.

In [None]:
function myL2(w, b)
     loss = 0.0
    
     return loss
end

Теперь, когда вы определили `L2`, мы можем построить его используя` surface`!

In [None]:
import Pkg
Pkg.add("ORCA")

In [None]:
plotlyjs()

ws = -2:0.05:2
bs = -2:0.05:2

surface(ws, bs, L2, alpha=0.8, zlims=(0,3))