# `&1 Логические методы классификации: Решающие Деревья`

 > Логические методы делают классификацию объектов на основе простых правил, благодаря чему являются интерпретируемыми и легкими в реализации. При объединении в композицию логические модели позволяют решать многие задачи с высоким качеством. Основной класс логических алгоритмов — решающие деревья. __Решающие деревья__ - важный класс методов машинного обучения. Эти методы предназначены исходно для решения задач классификации, а также есть их специальные варианты, приспособленные для решения задач регрессии. 

## Принцип работы 

 * Решающие деревья возникли как попытка формализовать тот способ мышления, который используют люди при принятии решений. (Это хорошо иллюстрируется логикой работы врача, когда он говорит с пациентом и задает один за другим уточняющие вопросы для того, чтобы поставить диагноз. Аналогия всей информации, которой пользуется врач риводит к конструкции решающих деревьев) 



* У нас есть обучающая выборка: объекты, заданные n признаками, и каждому объекту соответствует какой-то правильный ответ. Наша задача — построить алгоритм классификации, который был бы способен классифицировать новые объекты. Но при алгоритм классификации будем строить в виде дерева -> в виде последовательности принимаемых решений

![image.png](attachment:image.png)

## Пример 

![image.png](attachment:image.png)
![image.png](attachment:image.png)

## ID3

> Для построения решающих деревьев существует процедура, которая называется LearnID3. ID3 — сокращенно от Induction of Decision Tree, рекурсивная процедура. 

* Допустим, рекурсивной процедуре на вход пришла некоторая подвыборка U. Если мы обнаружим, что все объекты из U лежат в одном классе, то мы образуем новую листовую вершину, запишем в нее этот самый класс и эту листовую вершину вернем. 

![image.png](attachment:image.png)


* Таким образом, процедура работает рекурсивно. В каждой внутренней вершине, когда происходит разделение выборки на U0 и U1, мы вызываем процедуру еще раз. Она вызывает сама себя. Это рекурсия, и это самый удобный и лаконичный способ записать процедуру обучения решающего дерева. На этой процедуре основано огромное количество алгоритмов.

## Критерии ветвления ID3
* критерий Джини 
> насколько часто объекты одних классов объединяются (сколько существует пар объектов, лежащих в одном и том же классе, которые вместе идут либо в левую дочернюю вершину, либо в правую дочернюю вершину. У этих объектов должны совпадать метки классов и совпадать значение предиката)
* критерий Донского
> насколько данный предикат обладает способностью разделять объекты разных классов
* энтропийный критерий

## Достоинства решающих деревьев ID3

 + интерпретируемость и простота классификации
 + допустимы разнотипные данные и данные с пропусками
 + трудоемкость линейна по длине выборки
 + не бывает отказов от классификации

## Недостатки решающих деревьев ID3

- жадный ID3 переусложняет структуру дерева, а как следствие, сильно переобучается
- фрагментация выборки: чем дальше от корня, тем меньше статистическая надёжность выбора
- высокая чувствительность к шуму, составу выборки, критерию информативности (вводятся штрафы)


## Programming Assignment

> [Попробуй решить](https://github.com/anafisa/Introduction-to-ML-hse-yandex/tree/master/Week1)

# `&2 Метрические методы классификации: kNN`

> Метрические методы проводят классификацию на основе сходства, благодаря чему могут работать на данных со сложной структурой — главное, чтобы между объектами можно было измерить расстояние. __Метод k ближайших соседей__ - важный класс методов машинного обучения, использующий функцию расстояния (метрику в пространстве объектов).

## Принцип работы

* Исходная идея данного метода основано на гипотизе компактности — предположении о том, что близкие объекты, как правило, лежат в одном классе. 

* Что такое близость между объектами, как ее можно формализовать? Как правило, задается некая функция расстояния — это функция от пары объектов, которая паре ставит соответствие — неотрицательное число. Часто еще накладывают требование, чтобы это была метрика в пространстве объектов, то есть чтобы она была и симметричной, и выполнялось неравенство треугольника.

* Чтобы классифицировать объект x, давайте возьмем все объекты обучающей выборки и найдем среди них ближайший к x, и отнесем x к тому же классу, к которому принадлежит этот объект. Использовать для классификации только одного ближайшего соседа — это не очень удачная идея, лучше взять окрестность, учесть несколько ближайших соседей, как-то по ним усреднить. 

![image.png](attachment:image.png)

## Достоинства kNN

+ простота реализации
+ параметр кол-ва соседей можно оптимизировать по скользящему контролю (кросс-валидация)

## Недостатки kNN

+ неоднозначность классификации (оценки близости для двух классов могут совпадать)
+ учитываются не значения расстаяний, а их ранги

## Метод окна Парзена

> Метод окна Парзена - некоторое обобщение kNN. Данный метод способен справиться со всеми недостатками стандартного алгоритма k ближайших соседей.

* Мы можем выбирать функцию весов соседей любым образом. Сделаем так, чтобы вес соседа убывал по мере возрастания расстояния до него. Введем два новых понятия: это ядро, это функция положительная, не возрастающая на отрезке [0, 1], и ширина окна. И если функцию веса задать как конструкцию — ядро от расстояния поделить на ширину окна, то получим взвешенную функцию, которая придает меньшие веса тем соседям, которые находятся дальше. Этот метод называется методом окна Парзена (окна бывают фиксированной и переменной длинны)

![image.png](attachment:image.png)

![image.png](attachment:image.png)

## Programming Assignment

> [Попробуй решить](https://github.com/anafisa/Introduction-to-ML-hse-yandex/tree/master/Week2/K%20Neighbors)

# `&3 Линейные методы классификации: Метод стахостического градиента SG, SAG`

>  Линейные алгоритмы — распространенный класс моделей, которые отличается своей простотой и скоростью работы.Линейные модели — один из наиболее изученных классов алгоритмов в машинном обучении. Они легко масштабируются и широко применяются для работы с большими данными. Их можно обучать за разумное время на очень больших объемах данных, и при этом они могут работать с любыми типами признаков — вещественными, категориальными, разреженными. 

##  Метод стохастического градиента

>Один из самых простых методов обучения линейных моделей — метод стохастического градиента. На каждой итерации алгоритма из обучающей выборки случайным образом выбирается только один объект. Таким образом вектор w настраивается на каждый вновь выбираемый объект

* В задачах обучения с учителем дана выборка объектов и ответов. Ответы в случае регрессии — вещественные числа, будем считать, что все признаки вещественные. Линейная модель регрессии — это взвешенная сумма всех признаков. В таких случаях мы пользуемся методом наименьших квадратов, это самый распространенный способ решения задачи. Выписав в сумму функции потерь по всем объектам обучающей выборки, мы получаем функционал, который можно минимизировать по вектору весов линейной модели w. 

* Геометрический смысл состоит в том, что w — это направляющий вектор разделяющей гиперплоскости в n-мерном пространстве. И если у нас знак скалярного произведения положителен, то есть точка лежит по одну сторону от разделяющей гиперплоскости, то мы классифицируем объект за класс +1. Если знак скалярного произведения отрицателен, то это считаем объектом класса −1. Если выписать естественную функцию потерь, эта функция потерь оказывается бинарной: либо классификатор ошибается, либо не ошибается. 

* Данная функция потерь неудобна тем, что минимизировать получающийся функционал по вектору весов w неудобно, так как этот функционал оказывается кусочно-постоянным. Нельзя продифференцировать и приравнять нулю производную. Чтобы упростить решение задачи, пользуются очень распространенным приемом подмены функционала. Вместо бинарной функции потерь будем использовать некоторую ее непрерывную аппроксимацию. Чтобы ввести такую аппроксимацию, понадобится понятие отступа. Это очень важное понятие в теории классификации, очень многие методы основаны на использовании этой оценки. 

> Margin оценивает, насколько далеко объект отстоит от разделяющей поверхности (от разделяющей гиперплоскости), причем знак этой величины показывает, насколько правильна классификация. Если знак положительный, значит ошибки нет, если знак отрицательный — ошибка есть, а абсолютная величина отступа показывает, насколько далеко объект находится от разделяющей поверхности. Поэтому мы можем взять величину отступа и штрафовать за то, что объект попал в чужой класс, то есть отступ отрицательный. Чем больше по абсолютной величине отрицательный отступ, тем больше должен быть штраф. 

* Отсюда вывод: можно ввести непрерывную аппроксимацию бинарной функции потерь, если воспользоваться некоторой невозрастающей непрерывной функцией от отступа. Чем отступ больше, тем меньше значение функции потерь l. И таким образом, мы снова можем свести задачу обучения к задаче оптимизации. Мы можем выписать функционал числа ошибок на обучающей выборке, а потом, воспользовавшись оценкой сверху для каждого слагаемого, получить новый функционал, который теперь уже дифференцируем по параметру, и в нем появилась некая степень свободы. 

![image.png](attachment:image.png)

![image.png](attachment:image.png)

##  Достоинства метода стахостического градиента

* легко реализуется
* применим к любым моделям и функциям потерь
* допускает обучение в режиме онлайн (потоковое обучение)
* на сверхбольших выборках позволяет получить неплохие решения, даже не обработав все (xi, yi)
* всё чаще и чаще применяется в BigData

## Недостатки метода стахостического градиента

*  возможно застревание в локальных экстремумах

## Градиентные методы и алгоритм SAG (стохастический средний градиент)

* Мы можем применять различные методы численной оптимизации для того, чтобы минимизировать наш аппроксимированный функционал, поскольку он теперь является непрерывной функцией (или даже гладкой), в зависимости от того, какую функцию потерь мы использовали. 

> Самый простой метод численной оптимизации — это метод __градиентного спуска__. Он заключается в том, что сначала фиксируется некоторое начальное приближение для искомого вектора весов. Например, случайное. И затем делается последовательность градиентных шагов. То есть каждая итерация — это небольшое смещение вектора весов по антиградиенту. Почему антиградиент? Градиент — это вектор, который показывает направление наискорейшего возрастания функции. Cоответственно, минус этот вектор, или антиградиент, он показывает направление наискорейшего убывания.

* __Здесь возникает несколько проблем__: 
    1. проблема, будет ли этот метод сходиться; 
    2. проблема выбора градиентного шага; 
    3. проблема выбора начального приближения. 

* Как ускорить процесс спуска в том случае, когда функционал, который мы оптимизируем, представляет собой сумму большого числа слагаемых? (а это как раз распространённый случай). Идея ускорения сходимости здесь заключается в том, чтобы не вычислять сумму сразу по всем объектам, а брать каждый объект (обычно их берут в случайном порядке по одному) и после каждого объекта обновлять вектор весов. Оказывается, это приводит к существенному ускорению сходимости, это называется процедурой Роббинса–Монро, которая была уже более полувека назад предложена для решения задач оптимизации вот такого сорта функционалов, и называется __методом стохастической аппроксимации__. 
     

* Процедура заключается в следующем: 
    * сначала инициализируется вектор весов. При текущем положении вектора весов вычисляется оценка функционала качества на обучающей выборке, с нашей аппроксимированной функцией потерь, и затем начинается основной процесс. 
    * На каждом шаге этого итерационного процесса мы выбираем объект и обучающие выборки случайным образом. Вычисляем значение функции потерь, обозначенного εi, и делаем градиентный шаг. Далее необходимо с учетом сделанной поправки к вектору весов переоценить значение функционала. Это нужно для того, чтобы понять, в какой момент стоит останавливаться, когда значение функционала к чему-то сойдется или перестанет существенно меняться.

## Programming Assignment

> [Попробуй решить](https://github.com/anafisa/Introduction-to-ML-hse-yandex/tree/master/Week2/Linear%20Classification%20Methods)

# `&4 Подклассы линейных методов: Метод опорных векторов, Логистическая регрессия`

> Линейные методы имеют несколько очень важных подвидов. Метод опорных векторов максимизирует отступы объектов, что тесно связано с минимизацией вероятности переобучения. При этом он позволяет очень легко перейти к построению нелинейной разделяющей поверхности благодаря ядровому переходу. Логистическая регрессия позволяет оценивать вероятности принадлежености классам, что оказывается полезным во многих прикладных задачах.


## Метод опорных векторов

 > __Метод опорных векторов__ максимизирует отступы объектов, что тесно связано с минимизацией вероятности переобучения. При этом он позволяет очень легко перейти к построению нелинейной разделяющей поверхности благодаря ядровому переходу. 

* Cтавится задача классификация объектов, заданных признаками в Rn, n вещественными числами, будем рассматривать простой двухклассовый случай, когда метки классов −1 и +1. Цель — построить линейный классификатор, то есть такую функцию, которая возвращает −1 или + 1, и при этом зависит от скалярного произведения вектора признаков x на вектор весов признаков той же размерности w. Есть еще свободный член w0. Вот это вот скалярное произведение минус свободный член принято называть дискриминантной функцией. Знак дискриминантной функции показывает, к какому классу будет отнесен объект x. Если дискриминантная функция больше нуля, то объект относится к классу +1, если меньше нуля, то к классу −1. 

* Возникает задача: как по обучающей выборке определить значение параметров w и w0? Мы будем сводить задачу к оптимизационной. Самый простой критерий, который может быть использован, — это минимизация эмпирического риска. То есть мы хотим найти такие параметры w (вектор размерности n) и w0 (скаляр), чтобы число ошибок классификации на обучающей выборке было минимально.  Запишем это условие в несколько ином виде. Мы введем величину отступа (по-английски margin) объекта, которая является произведением дискриминантной функции на метку правильного ответа на объекте xi. То есть получается, что если дискриминантная функция и правильный ответ одного знака, то отступ положительный, ошибки на объекте нет. Если они разного знака, то происходит ошибка на объекте, отступ отрицательный. Отступ — величина непрерывная, и интуитивно кажется, что чем меньше значение отступа, тем хуже. Чем больше значение отступа, тем дальше объект находится от разделяющей гиперплоскости, он лежит глубоко внутри своего класса, и на нем классификация надежна. И отсюда возникает идея, мерить ошибку не как бинарную величину — отступ отрицательный или положительный, а использовать саму величину отступа. 

![image.png](attachment:image.png)

* Возникает идея, мерить ошибку не как бинарную величину — отступ отрицательный или положительный, а использовать саму величину отступа. Для этого вводится аппроксимация. Аппроксимации могут быть разными, рассмотрим кусочно-линейную аппроксимацию, которая будет штрафовать объекты за приближение к границе между классами. И если объект переходит через границу класса, оказывается в чужом классе и продолжает двигаться дальше, то штраф будет линейно возрастать. Функционал, который мы вводим, мажорирует сверху (функционал эмпирического риска, который просто является числом ошибок на обучающей выборке). Поэтому если мы будем минимизировать наш новый функционал, то мы тем самым будем минимизировать и исходный функционал числа ошибок. 
* Кроме аппроксимации пороговой функции потерь кусочно-линейной непрерывной функции, можно ввести еще одну оценку сверху на функционал в виде штрафного слагаемого регуляризатора, который наказывает решение за слишком большую норму вектора коэффициентов. Такое штрафное слагаемое позволяет избежать проблемы переобучения, которая может возникнуть из-за мультиколлинеарности, когда среди признаков есть линейно-зависимые. 

## Логистическая регрессия

> __Логистическая регрессия__ — это метод построения линейных классификаторов. Логистическая регрессия позволяет оценивать вероятности принадлежености классам, что оказывается полезным во многих прикладных задачах.

 * Несмотря на название — регрессия, это метод для решения задач классификации, а почему «регрессия», мы сейчас поймем. Давайте рассмотрим постановку задачи. У нас имеется обучающая выборка. Это пара объект-ответ. Объекты описываются n-вещественными признаками, то есть это векторы из Rn, а ответы — это числа (−1) и (+1), то есть рассматривается двухклассовая задача. Итак, линейная модель классификации — это скалярное произведение вектора объектов на вектор весов. Вектор весов — это направляющий вектор разделяющей гиперплоскости. Если скалярное произведение положительное, то объект относится к классу (+1), если отрицательное, то к классу (−1). Рассмотрим непрерывную аппроксимацию бинарной функции потерь. Если мы в качестве потери рассматриваем бинарную величину (есть ошибка или нет ошибки), то мы просто имеем число ошибок классификатора на обучающей выборке. Если же мы используем непрерывную функцию потерь, которая мажорирует сверху бинарную функцию потерь, то мы получаем функционал, который гораздо удобнее минимизировать, потому что он является непрерывным или даже гладким. Но поскольку он мажорирует сверху, то, минимизируя этот функционал, мы также будем минимизировать и исходное число ошибок. 

* При этом появляется важное понятие — отступ объекта. Это скалярное произведение, умноженное на правильный ответ, правильный ответ ± 1. Поэтому если у нас на объекте есть ошибка — отступ отрицательный, если нет ошибки — отступ положительный. При этом имеется функция потерь l, если она монотонно убывает, то она штрафует нас за ошибки и даже штрафует за приближение к границе между классами. 

* Будем рассматривать конкретную функцию потерь, которая называется логарифмической.  Оказывается, что она приобретает очень интересный вероятностный смысл, если мы предположим, что у нас имеется вероятностная модель порождения данных. А именно: будем предполагать, что наша выборка является выборкой независимых наблюдений из одного и того же параметрического семейства распределений. Это совместная плотность распределений иксов и игреков с каким-то параметром w. Поскольку выборка независимая, то, исходя из принципа максимума правдоподобия, мы можем определить параметр w, а независимость дает нам возможность представить правдоподобие в очень удобном виде как сумму логарифмов совместных плотностей объектов и ответов. Вот совместную плотность p(x, y) можно представить по формуле условной вероятности в виде произведения условной вероятности ответа y при условии x и безусловной плотности p(x). Так вот, наше предположение будет заключаться в том, что плотность p(x) не зависит от параметра модели, а параметр модели используется только для описания условной или, говорят, апостериорной вероятности класса для данного объекта x. Так вот оказывается, что если мы вполне определенный вид этой апостериорной вероятности предположим, то принцип максимума правдоподобия даст ровно тот же функционал, который мы ввели выше из чисто эвристических соображений. А именно: оказывается, что апостериорная вероятность класса yi-тое для объекта xi-тое дается вот такой вот функцией, которая называется сигмоидной функцией — функция от отступа. И получается, что функционал, который мы ввели выше, — это минимум аппроксимированного эмпирического риска, и функционал правдоподобия — максимум логарифма правдоподобия. 

![%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-16%20%D0%B2%2016.58.00.png](attachment:%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-16%20%D0%B2%2016.58.00.png)

* Оказывается, что если мы будем оптимизировать такой функционал, то мы заодно сможем оценить и апостериорную вероятность класса для каждого объекта, который мы будем классифицировать. И в этом есть основное отличие логистической регрессии от других методов линейной классификации. Она позволяет оценивать вероятности классов. Как же производится оптимизация этого функционала? Есть 2 подхода. С одним мы уже познакомились — это методы первого порядка. В частности, можно использовать метод стохастического градиента. И если расписать формулу стохастического градиента, то окажется, что в нее тоже войдет вот эта самая вероятность правильной классификации — апостериорная вероятность класса yi-тое (правильного класса) на объекте xi-тое. 

> [Попробуй решить](https://github.com/anafisa/Introduction-to-ML-hse-yandex/tree/master/Week3)

# `&5 Линейные модели регрессии: линейная регрессия и метод главных компонент`

> Как строить многомерную линейную регресси, как проходит процесс обучения? 

 * Имеется n числовых признаков, имеется обучающая выборка l объектов, и мы хотим построить по обучающей выборке модель многомерной линейной регрессии, то есть это просто взвешенная сумма значений признаков, весовые коэффициенты αj.



* Перейдем к матричным обозначениям. __Матрица объекты-признаки__ — это матрица, в которой строки соответствуют объектам, столбцы — признакам. 

* Еще понадобится вектор ответов или __целевой вектор__ — число строк равно числу объектов обучающей выборки. И __вектор коэффициентов__ — число строк равно числу признаков, столбец один.

* В этих трех векторно-матричных обозначениях очень удобно записать постановку задачи наименьших квадратов. Если мы запишем сумму по всем объектам обучающей выборки квадрата разности правильного ответа yi, и ответа нашей модели f (xi, α), то в матричной записи это не что иное, как квадрат нормы разности двух векторов. Вектор y — это вектор правильных ответов, а произведение Fα, матрица F * вектор α, — это есть вектор, который аппроксимирует вектор правильных ответов согласно нашей линейной модели. Задача — это найти вектор α при известной матрице F и известному вектор-столбцу y. Запишем необходимые условия минимума.

![%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-17%20%D0%B2%2011.16.00.png](attachment:%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-17%20%D0%B2%2011.16.00.png)

 * Мы получаем систему уравнений, опять-таки в матричном виде, из которой мы можем выразить искомый вектор α, и если опять-таки в матричном виде записать этот вектор α, то получается такая очень простая формула — нам нужно псевдо-обратную матрицу F с крестом умножить на вектор правильных ответов y. Это и есть решение.
 

![%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-17%20%D0%B2%2011.30.56.png](attachment:%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-17%20%D0%B2%2011.30.56.png)

* Вопрос лишь в том, как искать эту матрицу F с крестом и какие могут быть проблемы в процессе ее вычисления. Проблем может быть много, и, в частности, проблема может быть в той же самой __мультиколлинеарности__, что если столбцы матрицы F линейно-зависимы, то нам вообще не удастся найти обратную матрицу к F транспонированное, она будет вырождена. Если же столбцы этой матрицы F почти линейно-зависимы, то обращаемая матрица будет плохо обусловлена и у нас возникнет масса вычислительных проблем с обращением этой матрицы.

![%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-17%20%D0%B2%2011.41.08.png](attachment:%D0%A1%D0%BD%D0%B8%D0%BC%D0%BE%D0%BA%20%D1%8D%D0%BA%D1%80%D0%B0%D0%BD%D0%B0%202020-02-17%20%D0%B2%2011.41.08.png)

 * Как же считать псевдо-обратную и произведение псевдо-обратной на y, чтобы найти решение нашей системы? Воспользуемся __сингулярным разложением__. Это очень полезное разложение, которое позволяет произвольную прямоугольную матрицу представить в виде произведения трех матриц. Две из них — левая V и правая — U транспонированная, являются ортогональными матрицами, а матрица, которая стоит посерединке — диагональна. Причем ортогональные матрицы не простые, а их столбцы являются собственными векторами, соответственно матриц F на F транспонированное и F транспонированное F. Из линейной алгебры известно, что эти две матрицы имеют хотя и разные собственные векторы, но собственные значения у них совпадают, именно эти собственные значения и записаны на диагонали матрицы D, точнее корни квадратные из этих собственных значений, которые называются сингулярными числами матрицы F. Это представление очень полезно, так как мы сейчас с его помощью буквально за несколько матричных операций получим другое, гораздо более удобное и понятно интерпретируемое представление для вектора решения задачи наименьших квадратов. Итак, псевдо-обратная матрица, то есть F транспонированное F в минус первой степени на F транспонированное, но если F мы подставим сюда, мы знаем его сингулярное разложение, это VD на U транспонированное, если мы подставим и воспользуемся ортогональностью матриц U и V, диагональностью матрицы D, то мы получим очень простое выражение для матрицы F с крестом, которое говорит, что эта сумма матриц ранга один, которая образована произведениями соответственных собственных векторов Uj и Vj транспонированное и еще взятое с коэффициентами, где в знаменателе стоят сингулярные числа. Следующий шаг. Мы хотим получить теперь вектор α со звездой, который является решением задачи наименьших квадратов. Мы должны умножить эту самую F с крестом на y, ну умножаем, и тут же получаем простую формулу, которая означает, что вектор α у нас представим в виде разложения по базису собственных векторов Uj. И опять-таки коэффициенты содержат сингулярные числа знаменателя.

 Следующий шаг. Давайте посмотрим чему равен вектор, которым наша линейная модель аппроксимирует целевой вектор y, то есть это вектор произведения матрицы F * α. Опять-таки подставляем F в виде сингулярного разложения, подставляем α в виде представления, которые мы только что нашли, снова воспользуемся ортогональностью матрицы U, диагональностью матрицы D, все упростится, и мы получим выражение, которое означает, что аппроксимирующий вектор, который приближает наш вектор y, есть ни что иное, как вот такое представление в базисе собственных векторов Vj. То есть, когда мы нашли сингулярное разложение, собственные векторы Uj и Vj, мы по ним очень быстро вычисляем решение задачи наименьших квадратов. Но и еще можно посчитать, например, такую интересную величину, как квадрат нормы вектора коэффициентов. Опять-таки, пользуясь известными очень простыми формулами из линейной алгебры получаем, что эта норма тоже зависит от сингулярных чисел, которые стоят в знаменателе. И вот, присмотревшись к этим четырем формулам, мы понимаем, что в трех из них сингулярные числа оказались в знаменателе. Если имеются сингулярные числа, приближающиеся к нулю, то мы получаем ту самую проблему мультиколлинеарности. Близкие к нулю собственные значения или сингулярные числа — это как раз и есть свидетельство того, что среди признаков, среди столбцов матрицы F, есть почти линейно-зависимая. И эта проблема приводит к тому, что и псевдо-обратная матрица, и вектор α, и его квадрат нормы становятся очень вычислительно неустойчивыми — близкое к нулю число оказывается в знаменателе. А вот вектор, который аппроксимирует наш целевой вектор y оказывается от сингулярных чисел не зависит. И это означает очень коварный эффект, что нам будет казаться, что этот вектор очень хорошо приближает наш целевой вектор y и, тем не менее, у нас будет вот эта вот проблема мультиколлинеарности и неустойчивости решения в случае, если признаки почти линейно зависимы. Дальше мы с вами будем рассматривать различные способы, каким образом избежать вот этого эффекта мультиколлинеарности. К счастью его можно избежать ничего практически не меняя в том ходе решения, которое я только что рассказал. Тем и хорошо использование сингулярного разложения для решения задач наименьших квадратов, тем, что посмотрев на спектр матрицы, то есть на сингулярные числа, можно сделать совсем небольшие поправки, которые исправят положение и сделают решение устойчивым. Стратегий основных три: либо мы делаем отбор признаков, то есть заранее выкидываем те признаки, которые могут оказаться линейно-зависимыми, либо мы делаем регуляризацию опять-таки, о которой мы говорили в прошлой лекции, мы накладываем дополнительные ограничения на вектор коэффициентов, чтобы он был как можно меньше по норме. Ну и еще один путь — это попытаться сделать преобразование признаков так, чтобы в новом признаковом пространстве у нас признаков оказалось меньше, но они хорошо восстанавливали бы исходные признаки, и, в частности, мы рассмотрим метод главных компонент, который эту задачу решает. И регуляризация и метод главный компонент можно сделать таким образом, чтобы они были основаны на том же самом сингулярном разложении. Итак, резюмируя. Задача многомерной линейной регрессии может быть эффективно решена, если мы умеем решать задачу о сингулярном разложении. И к счастью эта задача на современном уровне развития вычислительно-линейной алгебры очень хорошо решается и есть очень много готовых пакетов, которые решают ее для всевозможных частных случаев, больших матриц, разреженных матриц и так далее. Проблема мультиколлинеарности — это бич, который преследует линейные модели повсюду, но с ним можно справиться. И, наконец, методы устранения мультиколенеарности, которые мы рассмотрим далее — это гребневая регрессия и метод главных компонент. [ЗАСТАВКА]

В прикладных задачах часто возникает потребность в уменьшении количества признаков — например, для ускорения работы моделей. В этом модуле мы обсудим подходы к отбору признаков, а также изучим метод главных компонент, один из самых популярных методов понижения размерности.

Сейчас мы с вами рассмотрим один из очень известных методов в анализе данных — это метод главных компонент. Он полезен не только при решении задач регрессии, но и в гораздо более широком числе случаев. Задача ставится так: имеется множество исходных числовых признаков, их n штук, и нам хочется перейти в пространство новых числовых признаков, но желательно сделать так, чтобы их оказалось меньше, но, тем не менее, чтобы новые признаки содержали всю основную информацию о старых. Ну как это требование можно формализовать? Например, так, что старые признаки должны восстанавливаться по новым, то есть, несмотря на то, что новых признаков меньше, но значение старых на всех объектах обучающей выборки, тем не менее, можно восстановить. Можно наложить то или иное ограничение на класс преобразований, с помощью которых старые признаки восстанавливаются по новым. Метод главных компонент — это частный случай, когда мы предполагаем, что это преобразование линейно. Можно и всякие разные обобщения изобретать на эту тему, пользуясь нелинейными преобразованиями, но вот мы сейчас с вами рассматриваем только линейную модель. Итак, мы будем требовать, чтобы старые признаки хорошо восстанавливались по новым, а новые признаки j нам требуется найти, более того, нам так же требуется, совместно с ними, найти и матрицу преобразований, которая восстанавливает старые признаки по новым. То есть получается так, если мы применяем метод наименьших квадратов, мы минимизируем сумму квадратов разностей между значениями старыми признаков fj(xi), то есть берем каждый признак и в каждом объекте, и восстановленное значение — f с крышечкой. Если записывать эту постановку задачи в матричном виде, то ее решать гораздо удобнее. Давайте введем матрицы «объекты-признаки» — старая матрица. Строки — это объекты выборки, столбцы — это признаки. Новая матрица G, строки соответствуют тем же самым объектам, столбцы — это новые признаки. И нам нужна матрица линейного преобразования, перехода от новых признаков к ну не совсем старым, а к восстановленным старым, то есть здесь очень важно отличать матрицу F с крышечкой, которая есть оценка матрицы F, F — это исходная матрица «объекты-признаки», а F с крышечкой — это произведение новой матрицы G на матрицу перехода U транспонированное. И нам хочется построить одновременно и матрицу G, и матрицу U таким образом, что бы их произведение хорошо восстанавливало матрицу F. Получается так, что матрица F имеет размер l на n, и в общем случае она имеет полный ранг, то есть если объектов больше чем признаков, то ранг ее равен n, и мы хотим ее приблизить матрицей, которая есть произведение двух матриц размера l на m и m на n. Вот эта промежуточная размерность m, она может быть существенно меньше, чем n, то есть мы делаем низкоранговое матричное приближение исходной матрицы F. Итак, в матричном виде задача заключается в том, чтобы минимизировать квадрат нормы разности двух матриц — заданная исходная матрица F и произведение двух матриц G и U транспонированное, которые имеют, вот это произведение оно имеет ранг, может быть много меньше, чем ранг матрицы F. Есть теорема, которая решает эту задачу исчерпывающим образом, она гласит следующее, что при техническом предположении, что ранг матрицы F не меньше, чем n, минимум нашего функционала достигается в том случае, когда мы возьмем в качестве столбцов матрицы U собственные векторы матрицы F транспонированное F, соответствующие максимальным собственным значениям λ1, ..., λm. Ну вот поскольку мы берем максимальные собственные значения, они называются главные компоненты, отсюда и название метода — метод главных компонент. И есть масса полезных свойств про вот эти матрицы G и U, которые у нас в итоге получаются. Во-первых, да, U — ортонормированная матрица, матрица G — ортогональная, то есть произведение G транспонированное на G дает диагональную матрицу, а на диагоналях записаны те самые собственные значения λ1, λm. Дальше пункт третий в этой теореме гласит на самом деле следующее, что столбцы матрицы U — это есть собственные векторы матрицы F транспонированное F, а столбцы матрицы G — это собственные векторы матрицы F на F транспонированное. Вот эти вот факты они записаны в такой вот компактной матричной форме. И наконец, очень важный факт, что значение того функционала, который мы минимизируем может быть выражено в виде квадрат нормы матрицы F минус след матрицы Λ. След матрицы Λ — это сумма всех собственных значений λ1, ..., λm. Но квадрат нормы матрицы F, мы знаем это из линейной алгебры, это сумма всех и тех же самых собственных значений, но от 1 до n. Итого получается, что значение нашего функционала, который мы минимизировали, состоит из тех собственных значений, которые мы не взяли в наше разложение, то есть отсюда следует, что мы действительно должны брать в разложение те собственные векторы, которые соответствуют максимальным собственным значениям, нужно для того, чтобы минимизировать этот функционал. Ну а уже по виду этой теоремы и по свойствам матриц U и G можно догадаться, что видимо здесь имеется какая-то внутренняя взаимосвязь глубокая с сингулярным разложением, и да, это действительно так оно и есть. В частном случае, если мы не стремимся понизить размерность нашего матричного представления и мы берем промежуточную размерность m, равную числу столбцов исходной матрицы F, то мы получим, собственно, ноль слагаемых вот в этой сумме, и в итоге норма разности будет в точности равна нулю. Это означает, что представление F с крышечкой равно GU транспонированное оно точное, оно точно равно исходной матрице F, которую мы разлагали, и совпадает с сингулярным разложением. И можно даже написать, что вот эта матрица G она выражается через собственные векторы, которые записаны в столбцах матрицы V. И получается, что линейное преобразование работает в обе стороны — можно умножить матрицу F на U и получить G, а можно G умножить на U транспонированное и получить F. Вот это вот преобразование U оно еще называется декоррелирующим или преобразованием Карунена-Лоэва. Вообще метод главных компонент изобретался в разные времена разными учеными для решения разных задач, которые на первый взгляд казалось, что это новая задача, но потом вот всякий раз оказывалось, что вот такое вот урезанное сингулярное разложение, из которого выкинули минимальные собственные значения с их собственными векторами, вот это вот очень полезная конструкция, которая дает низкоранговое матричное разложение. Вопрос, как выбрать число m, и иногда бывает так, что данные, которые представлены в матрице F, на самом деле лежат не в пространстве размерности n, а в пространстве меньшей размерности, то есть вся наша выборка укладывается в какое-то линейное многообразие, размерность которого меньше, чем размерность пространства. И вот в таком случае очень выгодно использовать метод главных компонент. Если это действительно так, то у метода главных компонент возникает вот такое интересное свойство, что возникает эффективная размерность выборки. Если мы возьмем и упорядочим по убыванию собственные значения матрицы F транспонированное F и посмотрим на получившийся ряд, то в каком-то месте мы обнаружим крутой склон или такой резкий обрыв, который отличает большие собственные значения от маленьких, то есть действительно это будет означать, что была какая-то закономерность, какой-то закон природы, благодаря которому все наши данные образовали в n-мерном пространстве некое линейное подпространство меньшей размерности. Вот таким способом через собственные значения мы можем обнаружить размерность этого пространства, ну а потом, выписав матрицы G и U, найти и само это пространство. Далеко не всегда работает критерий крутого склона, иногда построив такой график собственных значений, мы увидим монотонно убывающую последовательность точек, на которой нет никаких заметных глазу крутых склонов. Это случай, когда, может быть, и не стоит применять метод главных компонент, то есть он хорошо работает именно тогда, когда в данных объективно присутствуют какие-то причины, заставляющие эти данные находиться в пространстве существенно меньшей размерности, и тогда метод главных компонент становится техникой для нахождения этого пространства. Ну давайте посмотрим, как эта техника работает в том случае, когда мы решаем задачу многомерной линейной регрессии методом наименьших квадратов. Итак, мы минимизируем тот самый функционал, который мы уже ввели на позапрошлой лекции. Мы берем матрицу F и пытаемся заменить ее приближенно на произведение двух матриц G и U транспонированное, полагая, что вот, наверное, найдется какая-то меньшая размерность m, меньшее число признаков. Ну сразу можно заметить, что это просто означает решение задачи в пространстве меньшей размерности, в пространстве новых признаков. Какая разница, что искать, вектор α, а потом умножать его на матрицу U транспонированное или сразу искать их произведение — вектор β. Можно решить эту самую новую возникшую задачу в пространстве меньшей размерности и расписать для нее всё решение. Ну и заметить, что спектр матриц G и F в части первых m собственных векторов они совпадают, и поэтому мы получим ровно то же самое решение, которое мы выписывали ранее для вот этой вот самой нашей задачи наименьших квадратов в пространстве пониженной размерности, но теперь мы сможем написать выражение для псевдообратной матрицы, для решения наименьших квадратов α со звездочкой, и в этом решении будут фигурировать только первые m собственных векторов, которые соответствуют максимальным собственным значениям, а весь остальной спектр он просто выкидывается из решения. То есть такое впечатление, что мы снова воспользовались тем же самым сингулярным разложением, но теперь мы взяли не все собственные векторы, а только те, которые соответствовали собственным значениям, максимальным m, первым собственным значениям. Резюмируем. Мы рассмотрели метод главных компонент, который позволяет приближать матрицу ее низкоранговым разложением. По сути, для этого достаточно взять все то же сингулярное разложение матрицы, взять только ее первые m сингулярных чисел, которые имеют максимальные значения, а все остальные отбросить. Этот прием часто применяется в анализе данных не только для решения задачи регрессии, но и для классификации, для сжатия данных, используется он также в обработке изображений. [ЗАСТАВКА]