# Мультиколлинеарность (Multicollinearity)

---

**Источники:**

[Effects of Multi-collinearity in Logistic Regression, SVM, Random Forest(RF)](https://medium.com/@raj5287/effects-of-multi-collinearity-in-logistic-regression-svm-rf-af6766d91f1b#:~:text=Random%20Forest%20uses%20bootstrap%20sampling,different%20set%20of%20data%20points.)

[How Bad is Multicollinearity?](https://www.kdnuggets.com/2019/09/multicollinearity-regression.html)

[Collinearity - What it means, Why its bad, and How does it affect other models?](https://medium.com/future-vision/collinearity-what-it-means-why-its-bad-and-how-does-it-affect-other-models-94e1db984168)

[Handling Multi-Collinearity in ML Models](https://towardsdatascience.com/handling-multi-collinearity-6579eb99fd81)

[Won't highly-correlated variables in random forest distort accuracy and feature-selection?](https://stats.stackexchange.com/questions/141619/wont-highly-correlated-variables-in-random-forest-distort-accuracy-and-feature)

[Selecting good features – Part III: random forests](http://blog.datadive.net/selecting-good-features-part-iii-random-forests/)

[Multicollinearity and how it affects your model](https://www.kaggle.com/sjodcre/multicollinearity-and-how-it-affects-your-model)

[Is multicollinearity a problem in decision trees?](https://www.quora.com/Is-multicollinearity-a-problem-in-decision-trees)

---

## Мультиколлинеарность (Multicollinearity)

**Мультиколлинеарность (multicollinearity)** — в эконометрике (регрессионный анализ) — **наличие линейной зависимости между объясняющими переменными (признаками) регрессионной модели**. 

При этом различают полную коллинеарность, которая означает наличие функциональной (тождественной) линейной зависимости и частичную или просто мультиколлинеарность — наличие сильной корреляции между признаками.

Полная коллинеарность приводит к неопределенности параметров в линейной регрессионной модели независимо от методов оценки. Рассмотрим это на примере следующей линейной модели

$\large y=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}+\epsilon$

Пусть признаки этой модели тождественно связаны следующим образом: $\large x_{1}=x_{2}+x_{3}$. Тогда рассмотрим исходную линейную модель, в которой к первому коэффициенту добавим произвольное число $a$, а из двух других коэффициентов это же число вычтем. Тогда имеем (без случайной ошибки):


$\large y=(b_{1}+a)x_{1}+(b_{2}-a)x_{2}+(b_{3}-a)x_{3}=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}+a(x_{1}-x_{2}-x_{3})=b_{1}x_{1}+b_{2}x_{2}+b_{3}x_{3}$

Таким образом, несмотря на относительно произвольное изменение коэффициентов модели получили ту же модель. Такая модель принципиально неидентифицируема. Неопределенность существует уже в самой модели. Если рассмотреть 3-мерное пространство коэффициентов, то в этом пространстве вектор истинных коэффициентов в данном случае не единственный, а представляет собой целую прямую линию! Любая точка этой прямой — истинный вектор коэффициентов.

В связи с этим **проблема полной коллинеарности признаков решается уже на стадии отбора переменных при моделировании** и поэтому к проблеме качества эконометрических оценок параметров отношения не имеет.

**На практике чаще возникает другая ситуация — сильная корреляция между признаками.**

**Для обнаружения мультиколлинеарности признаков можно проанализировать непосредственно корреляционную матрицу признаков. Уже наличие больших по модулю (выше 0.7-0.8) значений коэффициентов парной корреляции свидетельствует о возможных проблемах с качеством получаемых оценок.**

**Больше всего влияния оказывает на модели линейной регрессии**, но и **на другие типы моделей мультиколлинеарность тоже влияет** (не так сильно и не так понятно).

## *Способы решения проблемы мультиколлинеарности

- [Метод главных компонент (principal component analysis, PCA)](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%B3%D0%BB%D0%B0%D0%B2%D0%BD%D1%8B%D1%85_%D0%BA%D0%BE%D0%BC%D0%BF%D0%BE%D0%BD%D0%B5%D0%BD%D1%82).
- *[Рекуррентный метод наименьших квадратов (МНК) (Recursive Least Squares)](https://ru.wikipedia.org/wiki/%D0%A0%D0%B5%D0%BA%D1%83%D1%80%D1%81%D0%B8%D0%B2%D0%BD%D1%8B%D0%B9_%D0%9C%D0%9D%D0%9A).
- [Гребневая регрессия (Ridge regression)](https://en.wikipedia.org/wiki/Ridge_regression#:~:text=Ridge%20regression%20is%20a%20method,econometrics%2C%20chemistry%2C%20and%20engineering.).