# Тренировочные, валидационные и тестовые наборы данных при обучении нейронной сети
----------
## Нейронные сети
Начнем с биологии. В нашем мозге есть нейроны. Их около 86 миллиардов. Нейрон это клетка, соединенная с другими такими клетками. Клетки соединены друг с другом отростками. Всё это вместе напоминает своего рода сеть. Вот вам и нейронная сеть. Каждая клетка получает сигналы от других клеток. Далее обрабатывает их и сама отправляет сигнал другим клеткам.

Проще говоря нейрон получает сигнал (информацию), обрабатывает его (что-то там решает, думает) и отправляет свой ответ дальше.

![neurons1.jpg](img/neurons1.jpg)

Вот так передавая друг другу сигналы, нейронная сеть приходит к какому-либо решению. А мы то думали, что мы единолично все решаем! Нет, наше решение - это результат коллективной работы миллиарда нейронов.

На моей картинке стрелки обозначают связи нейронов. Связи бывают разные. Например стрелка внизу между нейроном 2 и 5 длинная. И значит сигнал от нейрона 2 до нейрона 5 будет дольше идти, чем например сигнал от нейрона 3 где стрелка вдвое короче. Да и вообще сигнал может затухнуть и прийти слабым. В биологии много всего интересного.

Но рассматривать всё это - как там думает нейрон, затухнет ли сигнал в IT не стали. Просто построили упрощенную модель. В этой модели можно выделить две основные составляющие:

1. Алгоритм. В биологии нейрон думает. В программировании "думанье" заменяется алгоритмом - то есть набором команд. Например - если на вход пришла 1 отправь 0. Вот и все "мозги" нашего нейрона.

2. Вес решения. Все связи, затухания и т.д. решили заменить "весом". Вес это как сила решения, его важность. Это просто величина, чаще число. Нашему нейрону приходит решение с определенным весом, нашему нейрону приходит число. И если оно больше другого пришедшего числа то оно важнее. Это как пример.

Итого есть алгоритм и есть вес решения. Это всё что нужно для построения простейшей нейросети.

## Рассмотрим на легком примере

Пусть человеку надо решить, идет ли он гулять или нет. Он очень любит гулять в солнечные дни. Или в выходные дни, когда у него много времени. Но он не любит гулять под дождем. Нейросеть будет примерно такая.

![neurons2.jpg](img/neurons2.jpg)

В данном примере вес решения (1 или 0) и само решение (информация) совпадают. Наша 1 - и вес и решение. Это для простоты.

Если на улице солнце, то человек всегда пойдет гулять. Вот настолько он любит солнечные дни. А вот если на улице дождь, то в рабочий день он посидит дома. Нечего тратить время на короткие прогулки под дождем. А вот в выходной день, даже если идет дождь, он пойдет гулять. Времени много - некуда девать, ведь не рабочий же день.

## Постепенно переходим к теме - обучение нейронной сети

В машинном обучении общей задачей является изучение и построение алгоритмов, которые могут учиться и делать прогнозы по новым данным. 

Есть множество реализаций нейронных сетей, которые, например, дают нам описание того, что изображено на картинке. Мы можем даже перевести картинку в текст. Можно также получить на вход текст на одном языке, а на выходе получить текст на другом языке, чем активно занимается Яндекс.Переводчик. 

Данные, используемые для построения окончательной модели (нейронной сети), обычно поступают из нескольких наборов данных. В частности, на разных этапах создания модели обычно используются три набора данных: тренировочный(обучающий), валидационный и тестовый. 

## Обучающая и тестовая выборки

Модель изначально получает данные (Dataset), который представляет собой набор примеров, используемых для подгонки параметров модели. <br>
![dataset.jpg](img/dataset.jpg)
<br>
Весь набор разбивается на две части. На первой части происходит обучение модели (тренировочный набор), на второй – ее тестирование (собственно, тестировочный набор). <br>
![train_test.jpg](img/train_test.jpg) <br>
Модель обучается на тренировочном наборе данных с использованием какого-либо алгоритма, который мы выберем. На практике обучающий набор данных часто состоит из пар входного значения (Features) и соответствующего выходного значения, который обычно обозначается как метка (Label). 
Чтобы было понятнее представим, что мы обрабатываем набор картинок кошек и собак. Тогда вся цепочка будет выглядеть так: картинка кошки будет представлена как набор данных и у неё будет метка – кошка. Точно так же будет с картинкой собаки: набор данных и метка собаки. 
<br> ![cat_dog.jpg](img/cat_dog.jpg)
<br>
Теперь обобщим выше сказанное. Тренировочные данные подаются сети для обучения, а проверочные используются для того, чтобы понять хорошо ли мы её обучили.

## Переобучение и недообучение сети

Переобучение и недообучение будет преследовать нас всё время, пока мы будем заниматься нейронными сетями. У хорошей модели должен быть некий баланс между сложностью и тем как хорошо она работает на тестовых данных. 
Переобучение или over-fitting – это когда наша модель просто «запомнила» тренировочные данные. То есть мы слишком подстроились под наши тренировочные данные и из-за это кол-во ошибок на настоящих или тестовых данных увеличилось, потому что сеть «придумала» несуществующие правила. 
Недообучение же наоборот – модель получилась слишком простой и не может корректно работать на тестовых данных. 
Нам же нужно попасть где-то посередине, чтобы модель была достаточно сложной, но и не полностью подстраивалась под тренировочные данные. 
На рисунке снизу наглядно показаны различия. 
<br>
![fitting.jpg](img/fitting.jpg)
<br>
Но как нам сделать так, чтобы сеть нашла этот самый «баланс»? Нам нужно менять гиперпараметры нашего алгоритма обучения нейронной сети, либо менять алгоритм целиком. В машинном обучении гиперпараметр — это параметр, значение которого задается до начала процесса обучения. Различные алгоритмы обучения модели требуют различных гиперпараметров, некоторые простые не требуют никаких. 

## Валидационная выборка

И теперь мы подходим к последней теме нашего туториала - валидационной выборке. И казалось бы, разделили изначальные данные на тренировочные и тестовые, зачем нам еще одна? Но не всё так просто. Как мы узнали в прошлом блоке, чтобы избежать пере/недообучения нам нужно менять гиперпараметры нашего алгоритма, но если мы будем проверять правильный ли мы выбрали гиперпараметр на тестовых данных, то мы слишком под них подстроимся, и на настоящих данных скорее всего результаты будут в разы хуже. Для решения этой проблемы мы вводим еще одну выборку, которая по размеру меньше тренировочной и проверяем наш гиперпараметр на ней, чтобы когда мы будем проверять на тестовой выборке результаты были более приближены к реальным. 
<br>
![valid.jpg](img/valid.jpg)

### Источники:
1. https://zen.yandex.ru/media/it_live/neironnye-seti-prostym-iazykom-5d358b6edfdd2500aefae020
2. https://zen.yandex.ru/media/osenilo/iskusstvennyi-intellekt-neironnye-seti-prostym-iazykom-89-5c653fd81fabdc00afe7e6f1?utm_source=serp
3. https://en.wikipedia.org/wiki/Training,_validation,_and_test_sets?oldformat=true
4. https://www.youtube.com/watch?v=1BUuB28FDOc
5. https://en.wikipedia.org/wiki/Hyperparameter_(machine_learning)?oldformat=true
6. http://ikit.sfu-kras.ru/files/ikit/Otbor_priznakov_v_lin-regr_Peresunko.pdf
7. https://ru.wikipedia.org/wiki/Нейронная_сеть?oldformat=true