<h1>Что такое машинное обучение? Обучающая выборка и признаковое пространство</h1>

<b>Машинное обучение</b> – это наука о разработке алгоритмов и статистических моделей, которые компьютерные системы используют для выполнения задач без явных инструкций, полагаясь вместо этого на шаблоны и логические выводы.


везде, где можно относительно просто (с математической и вычислительной точки зрения) получить требуемый результат, не нужно применять никаких сложных, обучаемых алгоритмов.
Обычно выделяют следующие категории:
<ul>
    <li>задачи классификации;</li>
    <li>задачи регрессии;</li>
    <li>задачи ранжирования.</li>
</ul>
Задача классификации – это когда требуется входные данные отнести к тому или иному классу (например, изображения разделить на кошек и собак, или распознать произнесенное слово, или по медицинским данным выдать диагноз и т.п.). В задачах регрессии обычно делают прогнозы в виде вещественных чисел на основе входных данных (например, оценка курса валют по предыдущим показаниям, или прогноз объема продаж товара определенного вида, или просто построить прогноз некоторой функции по измеренным эмпирическим данным и т.д.). Наконец, третий тип задач подразумевает упорядочивание (по некоторому критерию) входного набора данных. Классический пример – это поисковые системы, которые ранжируют поисковую выборку по релевантности для каждого конкретного пользователя. <br>
Все эти задачи, как правило, решаются с применением алгоритмов машинного обучения, т.к. входные данные имеют достаточно сложную структуру, а значит, нужно построить нетривиальные критерии для их обработки. Сделать это человеку часто просто не под силу, поэтому нужно подключать процесс обучения по так называемой обучающей выборке.

<h2>Обучающая выборка</h2>

<b>Обучающая выборка</b> - это некие исходные данные, прямые результаты измерений. Это может быть то же самое изображение, звуковой сигнал, измерения роста, веса человека и т.п. Обычно все эти данные представляются набором некоторых чисел (все же мы имеем дело с вычислительной техникой, а она воспринимает только числа). Все эти измерения удобно представлять единым образом в виде векторов. Я буду их обозначать, следующим образом:
$$X_i = \begin{bmatrix} x_{i1} \\ x_{i2} \\ \vdots \\ x_{im} \end{bmatrix} = \begin{bmatrix} x_{i1}, & x_{i2}, & \ldots , & x_{in} \end{bmatrix}^T$$
Где:
<ul>
    <li>$X_{i} - $ i-й объект в выборке(входной вектор)</li>
    <li>$X_{im}$ - где $m$ - количество признаков в объекте, $i$ - номер объекта в выборке</li>
</ul>

Матрица состоит из векторов. В контексте обучающей выборки, каждая строка матрицы обычно представляет собой вектор признаков для отдельного объекта в выборке. Таким образом, матрица обучающей выборки состоит из нескольких векторов, каждый из которых описывает один объект.
Далее, мы все эти наборы можем составить в матрицу:
$$
X = \begin{bmatrix}
x_{1} \\
x_{2} \\
\vdots \\
x_{n}
\end{bmatrix}
= \begin{bmatrix}
x_{11} & x_{12} & \ldots & x_{1n} \\
x_{21} & x_{22} & \ldots & x_{2n} \\
\vdots & \vdots & \ddots & \vdots \\
x_{n1} & x_{n2} & \ldots & x_{nn}
\end{bmatrix}
$$
Где:
<ul>
    <li>$X$ - матрица объектов (обучающих примеров), состоящая из $n$ векторов $x_{i}$, где $i$ пробегает от 1 до $n$. </li>
    <li>$x_{i}$ - $i$-й вектор признаков, представляющий собой информацию о $i$-м объекте.</li>
    <li>$x_{ij}$ - $j$-й признак $i$-го объекта.</li>
</ul>
<ul>
Таким образом:
    <li>$x_{1}$ - представляет собой первый вектор признаков или же объект.</li>
    <li>$x_{2}$ - представляет собой второй вектор признаков или же объект.</li>
    <li>и так далее, до $x_{n}$ , который представляет собой $n$-й вектор признаков.</li>
</ul>
Для создания обучающей выборки таже необходимо добавить выходные данные(зависимую переменную). Выходные данные, или целевые метки (target labels), это информация, которую модель пытается предсказать или классифицировать на основе входных данных. В контексте задач машинного обучения, где модель обучается на обучающей выборке, выходные данные представляют собой правильные ответы или желаемые результаты для каждого примера в этой выборке. Их можно представить ввиде вектора:
$$y = \begin{bmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{bmatrix} = \begin{bmatrix} y_{1}, & y_{2}, & \ldots , & y_{m} \end{bmatrix}^T$$
<ul>
Где:
    <li>$y$ - это вектор выходных данных или целевых меток, который представляет собой колонку (столбец) с $m$ элементами.</li>
    <li>Каждый элемент $y_{i}$ вектора $y$ соответствует выходным данным для одного объекта или примера в обучающей выборке.</li>
    <li>Этот вектор выходных данных может быть представлен как вертикальный вектор (как в первом представлении) или как строка (второе представление) с помощью транспонирования.</li>
</ul>
Таким образом, вектор $y$ представляет собой выходные данные или целевые метки для обучающей выборки, и его форма может быть удобно представлена как вертикальный вектор или строка с помощью транспонирования.




Совокупность матрицы признаков $X$ и вектора целевых меток $y$ представляет собой обучающую выборку. Обычно обозначается как:
$$D = \{(X_1, y_1), (X_2, y_2), \ldots, (X_N, y_N)\}$$
Эта совокупность данных используется для обучения модели машинного обучения, так чтобы она могла научиться связывать признаки (представленные в матрице 
$X$) с соответствующими целевыми значениями (представленными в векторе $y$).
Обучающая выборка - это набор данных, который используется для обучения модели машинного обучения. Она состоит из пар входных данных и соответствующих им выходных данных (также называемых метками или целевыми значениями).

<b>Например</b>, у нас есть обучающая выборка, состоящая из информации о различных автомобилях на рынке подержанных автомобилей. Предположим, что мы хотим предсказать цену автомобиля на основе его характеристик.

Вот пример обучающей выборки для такой задачи:

Предположим, что у нас есть следующие признаки для каждого автомобиля. 
Вот как мы можем представить эту обучающую выборку в виде матрицы:

| Год выпуска | Пробег | Марка    | Модель  | Тип кузова | Цена    |
|-------------|--------|----------|---------|------------|---------|
| 2018        | 25000  | Toyota   | Camry   | Седан      | 20000   |
| 2015        | 40000  | Honda    | Civic   | Седан      | 15000   |
| 2017        | 30000  | Ford     | Focus   | Хэтчбек    | 18000   |

Каждая строка этой таблицы представляет собой информацию об одном автомобиле. Последний столбец ("Цена") представляет собой целевую переменную, которую мы хотим предсказать. Остальные столбцы - это признаки, которые мы используем для предсказания цены. Таким образом, каждая строка таблицы представляет информацию об одном автомобиле, где каждая строка - это вектор признаков для одного автомобиля. Каждый столбец этой таблицы, кроме последнего (который представляет собой целевую переменную), будет содержать значения конкретного признака для каждого автомобиля. 
В нашем примере обучающая выборка может быть представлена в виде матрицы объектов $X$ и вектора целевых меток $y$:

$$
X = \begin{bmatrix}
2018 & 25000 & \text{Toyota} & \text{Camry} & \text{Седан} \\
2015 & 40000 & \text{Honda} & \text{Civic} & \text{Седан} \\
2017 & 30000 & \text{Ford} & \text{Focus} & \text{Хэтчбек}
\end{bmatrix}
$$

$$
y = \begin{bmatrix}
20000 \\
15000 \\
18000
\end{bmatrix}
$$

<ul>
Где:
    <li>$X$ - Матрица объектов (независимая переменная). Каждая строка матрицы $X$ соответствует вектору признаков, представляющий собой информацию о каждом объекте, который соответствует одному обучающему примеру.</li> 
    <li>$y$ - Вектор. представленный в виде выходных данных(зависимая переменная). Где - каждый элемент вектора $y$ соответствует цене соответствующего автомобиля. Целью вектора $y$ является предсказание или оценка цены на автомобиль на основе имеющихся цен на автомобиль.</li> 
</ul>

<h3>Вывод:</h3>
Основная цель обучающей выборки заключается в предоставлении модели машинного обучения набора данных, на которых она будет обучаться. Этот набор данных включает в себя как независимые переменные (признаки), так и зависимую переменную (целевую метку), если речь идет о задаче обучения с учителем.Таким образом, основная цель обучающей выборки состоит в том, чтобы научить модель предсказывать цены на автомобили на основе информации о них, представленной в матрице $X$.После обучения модели мы можем использовать ее для предсказания цен на новые, ранее не виденные автомобили, основываясь на их характеристиках. Это позволяет, например, автомобильным компаниям или дилерам оценивать цены на автомобили или потребителям принимать информированные решения о покупке.


<h2>Обработка входных данных</h2>
Но и это еще не все. Исходные результаты измерений $\{X_{n}\}$  могут иметь сложную структуру (например, при кодировании текстов, звуков или изображений) и трудно интерпретируемыми самими алгоритмами. В частности, до появления глубоких нейронных сетей (deep learning) в задачах классификации изображений инженеры формировали, так называемые, вторичные признаки: выделяли различные монотонные области, границы объектов с помощью различных фильтров. <br>
Этим занимается Цифровая обработка сигналов(ЦОС), которая представляет собой щирокий набор техник, например:
<ul>
    <li><b>Извлечение признаков (Feature Extraction):</b> Функции могут извлекать различные характеристики или признаки из исходных данных. Например, в задачах обработки изображений это могут быть текстурные признаки, геометрические признаки, цветовые характеристики и т. д.</li>
    <li><b>Выделение признаков (Feature Selection):</b> Функции могут отбирать наиболее информативные признаки из исходных данных. Это позволяет уменьшить размерность данных и избежать избыточности признаков.</li>
    <li><b>Преобразование признаков (Feature Transformation):</b> Функции могут преобразовывать исходные признаки в новые признаки. Например, это может быть преобразование данных для нормализации, стандартизации или масштабирования признаков.</li>
    <li><b>Генерация новых признаков (Feature Generation):</b> Функции могут создавать новые признаки на основе существующих данных. Например, это может быть добавление полиномиальных признаков или комбинаций существующих признаков.</li>
</ul>

На уровне математики извлечение признаков из сырых исходных данных можно представить в виде функционального (в широком смысле этого слова) преобразования:
$$\{f_1(x), f_2(x), \ldots, f_k(x)\}$$
<ul>
Здесь: 
<li><b>Исходные данные $x$</b> – это вектор результатов исходных измерений, который затем, переводится в набор признаков, причем $k$ - любое число, не обязательно равное n (исходному числу признаков – длина вектора $\mathbf{x}$ ).</li>
<li><b>Функции признаков $f_{i}(x)$</b>: Это функции, которые применяются к сырым данным $x$, чтобы извлечь из них новые признаки или характеристики.</li>
<li><b>Набор функций $\{f_1(x), f_2(x), \ldots, f_k(x)\}$:</b>  Это набор всех функций признаков, которые мы применяем к сырым данным. Каждая функция 
$f_{i}(x)$ может выделять определенные аспекты информации из сырых данных, и комбинация всех этих функций позволяет нам получить более информативное представление исходных данных.</li>
</ul>
Таким образом, через эту концепцию мы можем рассматривать процесс извлечения признаков как серию функциональных преобразований, которые применяются к сырым исходным данным для получения набора признаков, которые затем могут быть использованы для обучения моделей машинного обучения или для других целей анализа данных.

В результате, можно записать матрицу $F$, содержащую эти выделенные признаки:
$$\begin{bmatrix}
f_{11}(x) & f_{12}(x) & \ldots & f_{1n}(x) \\
f_{21}(x) & f_{22}(x) & \ldots & f_{2n}(x) \\
\vdots & \vdots & \ddots & \vdots \\
f_{m1}(x) & f_{m2}(x) & \ldots & f_{mn}(x)
\end{bmatrix}$$
Получаем новое признаковое пространство $\mathcal{F}$, упрощающее работу алгоритмов машинного обучения.