### История:
Термин регрессия был введён в 1886 году антропологом Фрэнсисом Гальтоном при изучении статистических закономерностей наследственности роста. Повседневный опыт подсказывает, что в среднем рост взрослых детей тем больше, чем выше их родители. Однако Гальтон обнаружил, что сыновья очень высоких отцов часто имеют не столь высокий рост. Он собрал выборку данных по 928 парам отец-сын. Количественно зависимость неплохо описывалась линейной функцией: <br>
                                
                                                        y = 2/3x,
                                
где x - отклонение роста отца от среднего, <br>
y - отклонение роста сына от среднего. <br>

Гальтон назвал это явление регрессией к посредственности, то есть к среднему значению в популяции. Термин регрессия (движение назад) намекал также на нестандартный для того времени ход исследования: сначала были собраны данные, затем по ним угадана модель зависимости, тогда как традиционно поступали наоборот: данные использовались лишь для проверки теоретических моделей. 
Это был один из первых случаев моделирования, основанного исключительно на данных. Позже термин, возникший в частной прикладной задаче, закрепился за широким классом методов восстановления зависимостей.



### Линейная регрессия
Линейная регрессия (англ. linear regression) — метод восстановления зависимости одной (объясняемой, зависимой) переменной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости. Данный метод позволяет предсказывать значения зависимой переменной y по значениям независимой переменной x.

![linear%20regression%201.png](attachment:linear%20regression%201.png)

### Бинарная линейная регрессия
Её еще иногда называют парной регрессией.
В общем виде она выглядит следующим образом:

(1): $$a(x)=w1*x + w2$$
где имеют место следующие обозначения:<br>
- a – сам алгоритм, а "a(x)" – значение алгоритма при параметре x<br>
- w1 и w0 – весовые коэффициенты алгоритма (w0 – называют свободным коээфициентом или сдвигом)<br>
- x – входной параметр <br>

Цель регрессии — найти коэффициенты этой линейной комбинации, и тем самым определить регрессионную функцию (которую также называют моделью).<br>

Надо понимать что общее уравнение регрессии – это целове семейство функций, т.е. при разных коэффициентах мы получим разные функции (разные модели) и мы должны выбрать наиболее подходящие под нашу задачу.

Довольно легко заметить, что (1) это уравнением прямой: y = kx + b. Отсюда и происходит название ЛИНЕЙНАЯ.


### Множественная линейная регрессия

В случае когда у нас больше двух признаков, уравнение регрессии усложнаяется:

(2): $$a(x)=w1*x + w2$$
где имеют место следующие обозначения:<br>
- a – сам алгоритм, а "a(x)" – значение алгоритма при параметре x<br>
- w1 и w0 – весовые коэффициенты алгоритма (w0 – называют свободным коээфициентом или сдвигом)<br>
- x – входной параметр <br>

### Как решается задача подбора коэффициентов?

Есть большое количество различных способов. Самые популярные:
1.	Аналитическое решение:
    - Метод наименьших квадратов(МНК)
    - Статистические методы
    - МНК через сингулярное векторное разложение
2.	Приближенное решение:
    - Любые алгоритмы оптимизации (поиска минимума функции)

Но все они в любом случае сводятся к задаче минимизации ошибки алгоритма на нашей выборке

### Виды ошибок

Давайте еще раз взглянем на то как график линейной регрессии проходит через данные:

![linear%20regression%202.png](attachment:linear%20regression%202.png)

Прямая не проходит через все точки. На рисунке пунктирной линией отмечены ошибки работы нашего алгоритма. Логично предположить что максимально уменьшив суммарное расстояние от точек до прямой мы получим лучший алгоритм.

Для расчета ошибки следует решить как мы её будем вычислять. Существуют следующие простые и популярные типы ошибок:
1. Отклонение прогноза (accuracy): a(x)-y
2. Модуль отклонения прогноза (Mean Absolute Error - MAE): |a(x)-y|
3. Квадрат отклонения прогноза (Mean Square Error - MSE): (a(x)-y)^2

Первый вариант(accuracy) не самый лучший, потому что нам сложно объяснить машине как она ошиблась (ответ может быть, как больше, так и меньше реального ответа и вносить разный вклад) <br>
MAE – уже лучше, но данная функция не имеет производной в 0, что затрудняет использование градиентных методов оптимизации (о них далее)<br>
MSE – имеет производную во всех точках, но т.к. мы возводим ошибку в квадрат она становится очень большой и может привести к увеличению весов(w1 и w0).

Вооружившись уравнением прямой и функцией ошибки можно приступать к реализации алгоритма:

## Реализация в библиотеке sklearn

Взглянем на реализацию линейной регрессии в библиотеке sklearn

In [2]:
from sklearn.linear_model import LinearRegression

lr = LinearRegression()

Данный класс имеет следующие параметры настройки:
- fit_intercept: bool, default=True <br>
Whether to calculate the intercept for this model. If set to False, no intercept will be used in calculations (i.e. data is expected to be centered).

- normalize: bool, default=False <br>
This parameter is ignored when fit_intercept is set to False. If True, the regressors X will be normalized before regression by subtracting the mean and dividing by the l2-norm. If you wish to standardize, please use StandardScaler before calling fit on an estimator with normalize=False.

- copy_X: bool, default=True <br>
If True, X will be copied; else, it may be overwritten.

- n_jobs: int, default=None <br>
The number of jobs to use for the computation. This will only provide speedup for n_targets > 1 and sufficient large problems. None means 1 unless in a joblib.parallel_backend context. -1 means using all processors. See Glossary for more details.

- positive: bool, default=False <br>
When set to True, forces the coefficients to be positive. This option is only supported for dense arrays.

Класс **LinearRegression** имеет следующие методы:
- fit(X, y, [sample_weight]) - обучает алгоритм на тренировочном датасете.

- get_params([deep]) - возвращает параметры данного алгоритма.

- predict(X) - Предсказывает значение для предоставленных данных.

- score(X, y, [sample_weight]) - Возвращает коэффициент детерминации предсказания(R^2)

- set_params(**params) - Устанвливает параметры алгоритма. Те же что в пункте про параметры ячейкой выше
<br>

Алгоритмическая сложность:
Сложность алгоритм возрастает пропорционально росту числа объектов для которых мы вычисляем расстояние. Так же на время работы влияет функция расстояния и количество параметров объектов, но тут надо оценивать по сложности математических операций

Таким образом, при работе на n объектах, имеющих m признаков мы должны рассчитать все объекты со всеми их признаками что приводит нас к сложности O(nm)

### Плюсы и Минусы алгоритма
Плюсы:
- KNN чрезвычайно легко реализовать
- Как уже было сказано ранее, это алгоритм ленивого обучения и поэтому не требует обучения перед тем, как делать прогнозы в реальном времени. Это делает алгоритм KNN намного быстрее, чем другие алгоритмы, требующие обучения.
- Поскольку алгоритм не требует обучения перед тем, как делать прогнозы, новые данные могут быть легко добавлены.
- Для реализации KNN требуется только два параметра-значение K и функция расстояния (например, евклидова или манхэттенская и т.д.)<br>

Минусы:
- Алгоритм KNN плохо работает с данными высокой размерности, потому что при большом количестве измерений алгоритму становится трудно вычислить расстояние в каждом измерении (см. Сложность алгоритма).
- Алгоритм KNN имеет высокую стоимость прогнозирования для больших наборов данных. Это связано с тем, что в больших наборах данных стоимость вычисления расстояния между новой точкой и каждой существующей точкой становится выше.
- Наконец, алгоритм KNN плохо работает с категориальными объектами, так как трудно найти расстояние между измерениями с категориальными объектами.
- Подвержен «Проклятию размерности» (об этом позднее)


### Формат входных данных:
Поскольку диапазон значений исходных данных может сильно варьироваться, в некоторых алгоритмах машинного обучения целевые функции не будут работать должным образом без нормализации. Например, большинство классификаторов вычисляют расстояние между двумя точками по евклидову расстоянию. Если один из объектов имеет широкий диапазон значений, то расстояние будет определяться этим конкретным объектом. Поэтому диапазон всех объектов должен быть нормализован таким образом, чтобы каждый объект вносил примерно пропорциональный вклад в конечное расстояние.

Работает с выбросами, но не отбрасывает их, а делает на них предсказание. Не работает с пропусками – не сможет вычислить расстояние при отсутствии значения

Масштабирование – sklearn.preprocessing import standart scaler

Алгоритм градиентного спуска (который используется в обучении нейронных сетей и других алгоритмах машинного обучения) также быстрее сходится с нормализованными функциями.

• Масштабировать данные: KNN работает намного лучше, если все данные имеют одинаковый масштаб. Нормализация ваших данных в диапазоне [0, 1] - хорошая идея. Также может быть хорошей идеей стандартизировать ваши данные, если они имеют распределение Гаусса.
• Адрес пропущенных данных: Отсутствие данных будет означать, что расстояние между выборками не может быть рассчитано. Эти образцы могут быть исключены или пропущенные значения могут быть вменены.
• Нижняя размерность: KNN подходит для данных меньшего размера. Вы можете попробовать его на многомерных данных (сотни или тысячи входных переменных), но имейте в виду, что он может работать не так хорошо, как другие методы. KNN может извлечь выгоду из выбора объектов, который уменьшает размерность входного пространства объектов.


### Применение алгоритма
Данный алгоритм почти всегда хорош как «baseline»

- Рекомендательные системы
- Классификация
- Регрессия
- Детекция выбросов
- Семантический поиск похожих документов