# Предобработка данных

Основная мысль лекции:

*Качество работы нейронной сети напрямую зависит от качества исходных данных, с которыми работает сеть.*

Что означают слова <<качество данных>> и как это качество повысить, мы будем рассматривать в течении этой и последующей лекции.

## Этапы нейросетевого анализа

* Кодирование входов-выходов: нейросети могут работать только с числами.
* Нормировка данных: результаты нейроанализа не должны зависеть от выбора единиц измерения.
* Предобработка данных: удаление очевидных регулярностей из данных облегчает нейросети выявление нетривиальных закономерностей.
* Обучение нескольких нейросетей с различной архитектурой: результат обучения зависит как от размеров сети, так и от ее начальной конфигурации.
* Отбор оптимальных сетей: тех, которые дадут наименьшую ошибку предсказания на неизвестных пока данных.
* Оценка значимости предсказаний: оценка ошибки предсказаний не менее важна, чем само предсказанное значение.


### Классификация данных по типу

Исходные данные обычно представлены в виде таблицы значений, в которой каждая из колонок описывает один параметр (одну переменную). Выделяют два крупных вида шкал, к которым могут принадлежать входные и выходные переменные:

* Непрерывная шкала. Признак в этой шкале может принимать любое вещественное значение из заданного диапазона допустимого $[a,b]$.
* Дискретная шкала. Применяется, если по смыслу задачи признак не является вещественным числом. Данная шкала, в свою очередь, делится еще на две категории:
 1. номинальная (категориальная) шкала --- применяется, если признак не является выражением какой-либо меры, а служит просто меткой варианта ответа на вопрос, например, цвет объекта;
 2. порядковая шкала --- применяется, если признак отражает степень проявления определенного качества, например, степень уверенности в ответе.


Примеры

Пусть в задаче анализа аварийности собирается следующая информация:

* Скорость машины в момент столкновения.
* Тормозной путь в метрах.
* Погодные условия (солнечно, пасмурно, дождь) .
* Водительский стаж шофера (0 --- менее года, 1 --- от года до трех лет, 2 -- от трех до пяти лет, 3 --- свыше пяти лет).
* Марка машины.
* Цвет машины.
* Степень повреждений (царапины; вмятины; разрывы; полное разрушение).


## Кодирование переменных

Нейронные сети работают с числами. Поэтому все нечисловые данные перед использованием нужно закодировать при помощи чисел.	

Следовательно, требуется кодирование только дискретных переменных:

* Непрерывные переменные: кодирование не требуется.
* Порядковые переменные: требуется кодирование.
* Номинальные переменные: требуется кодирование.

### Кодирование порядковых переменных

Рассмотрим на примере. Пусть задана переменная $x$:


№ примера | $x$  
---|---
1 | тепло 
2 | жарко 
3 | прохладно 
4 | холодно 
5 | тепло 
6 | тепло 
7 | прохладно 
8 | тепло 
9 | жарко 
10| тепло 
(можно сказать, что холодно < жарко и т.п.)

Как можно закодировать переменную $x$, чтобы сохранился порядок?

Один из ответов

Код | $x$  
---|---
1 | холодно 
2 | прохладно
3 |  тепло 
4 | жарко 

### Как кодировать: основные требования

* Если переменная $x$ --- выходная, то нам нужно закодировать ее так, чтобы она лежала в диапазоне изменения функции активации (например, [0,1] для сигмоидальной функции активации и [-1,1] для гиперболического тангенса).
* Если переменная входная, то ее лучше закодировать так, чтобы ее значения <<падали>> в диапазон линейного изменения функции активации.
* Нужно, чтобы закодированные значения различались как можно больше (в заданном диапазоне).

### Кодирование переменной $x$ (температуры)


Пусть $x$ --- выходная переменная, а нейронная сеть состоит из нейронов с сигмоидальными функциями активации.

Как тогда следует кодировать переменную $x$?

Один из возможных ответов:


Код | $x$  
---|---
0.0 | холодно 
0.333 | прохладно
0.666 |  тепло 
1.0 | жарко 

Такой способ не учитывает частоту встречаемости значений переменной, а т.к. кодировать надо так, чтобы закодированные значения различались как можно больше, то нужно учитывать и частоту тоже.

<img src="img/prepar/plot_x.png" height="30%">

#### Правило кодирования

<img src="img/prepar/plot_x_eq.png" height="30%">

Единичный отрезок разбивается на $N$ отрезков (по числу классов) с длинами пропорциональными числу примеров каждого класса в обучающей выборке: $\Delta x_k = P_k/P$, где $P_k$ --- число примеров класса $k$, а $P$ --- общее число примеров. Центр каждого такого отрезка и будет являться численным кодом для соответствующего порядкового класса.


Результат кодирования с учетом частоты:


Код | $x$  
---|---
0.05 | холодно 
0.20 | прохладно
0.55 |  тепло 
0.90 | жарко 

### Кодирование номинальных переменных

Рассмотрим на примере. Пусть задана переменная $y$:

№ | $y$  
--|--
1 | синий 
2 | красный 
3 | зеленый 
4 | черный 
5 | синий 
6 | зеленый 
7 | синий 
8 | черный 
9 | синий 
10 | синий 


Почему неправильно кодировать следующим образом?

Код | $x$  
---|---
0.0 | синий 
0.333 | красный
0.666 | зеленый 
1.0 | черный 

#### Кодирование по номеру канала (one-hot)

Имена классов кодируются значениями бинарных векторов, причем первый класс кодируется как $(1,0,\dots, 0)$ , второй --- $(0,1,\dots, 0)$  и т.д. вплоть до  $N$-ного: $(0,0,\dots, 1)$. (Можно использовать биполярную кодировку, в которой нули заменяются на -1).

Код | $y$  
---|---
(0, 0, 0, 1)| синий 
(0, 0, 1, 0) | красный
(0, 1, 0, 0) | зеленый 
(1, 0, 0, 0) | черный 

Недостатки кодирования по номеру канала

* Классов может быть очень много => каждую переменную придется закодировать большим количеством значений.
* Кодирование неоптимально в случае, когда классы представлены существенно различающимся числом примеров.

<img src="img/prepar/plot_y.png" height="30%">
Гистограмма для переменной $y$.

<img src="img/prepar/net.png" height="30%">

Схематичное изображение сети, для случая, когда $y$ --- входная переменная, цифры у входов --- число примеров, когда на вход подается 1.

В результате на 4-й весовой коэффициент будет подаваться при обучении 5 примеров, а на 3-й только один => возникает перекос в обучении, 3-й коэффициент будет настроить трудно.



#### Двоичное кодирование


Код | $y$  
---|---
(0, 0)| синий 
(0, 1) | красный
(1, 0) | зеленый 
(1, 1) | черный 

<img src="img/prepar/net2.png" height="30%">

Схематичное изображение сети, для случая, когда $y$ --- входная переменная, цифры у входов --- число примеров, когда на вход подается 1.

Видно, что в результате число единиц на входах распределено более равномерно.

У каждого подхода к кодированию есть свои преимущества и недостатки. 

Обсудим...

## Нормирование

Два этапа, которые часто называют одним словом "нормирование":

* центрирование выборки;
* собственно нормирование.

Центрирование и нормирование призвано решать две проблемы:
 
* снизить "овражность" функции потерь;
* снизить вероятность возникновения паралича сети.

### "Овражность" функци потерь

### Паралич сети

Пусть имеется переменная $x$, которую мы хотим нормировать. 

<img src="img/prepar/viborkapng.png" height="30%">


#### Приведение к диапазону [0,1]
В простейшем случае для приведения к диапазону  [0,1] используется линейное преобразование:

\begin{equation}								
    x^n_i = \frac{x_i - x_{min}}{x_{max} - x_{min}},
\end{equation}
где $x_i$ --- значение переменной $x$ для примера номер $i$, $x^n_i$ --- нормированное значение $x$ для примера номер $i$, $x_{min}$ и $x_{max}$ --- минимальное и максимальное значения переменной $x$ в задачнике.

Результат нормирования:
<img src="img/prepar/norm1png.png" height="30%">

При нормализации значений переменных надежнее ориентироваться не на экстремальные значения, а на типичные, т.е. статистические характеристики данных, такие как среднее и дисперсия:
\begin{equation}\label{norm2}
    X = \frac{x - \overline{x}}{S},
\end{equation}
где $\overline{x}$ --- выборочное среднее:
$ \overline{x} = \frac{1}{N} \sum_{i=1}^N x_i,$
а $S$ --- выборочная дисперсия:
$ S^2 = \frac{1}{N-1} \sum_{i=1}^N (x_i - \overline{x})^2. $

Результат нормирования:
<img src="img/prepar/norm2png.png" height="30%">

В каком случае такой способ нормирования в принципе неприемлем?

#### Нормирование при помощи функции активации
Можно использовать для предобработки данных функцию активации выходных нейронов. Например, для сетей с сигмоидальной функцией активации нелинейное преобразование
\begin{equation}\label{norm3}
    x = f(\frac{x - \overline{x}}{S}), \mbox{ где } f(u)=\frac{1}{1+ e^{-u}}
\end{equation}
нормирует основную массу данных, одновременно гарантируя, что $x \in [0,1]$.

Результат нормирования:
<img src="img/prepar/norm3png.png" height="30%">