# Линейная регрессия

* Какие проблемы решает линейная регрессия.

* Линейные функции.

* Функция потерь.

* Производная.

* Градиентный спуск.

* Реализация на Python и NumPy.

## Почему мы изучаем линейную регрессию, а не глубокие нейронные сети? 

* Легка для понимания.

* Можно рассмотреть основные идеи машинного обучения.

* До сих пор применяется.

## Постановка задачи 

$X$ - часть свободного времени, которое студенты тратят на учебу. 

$y$ - средняя оценка студента по всем предметам.

Наша задача найти зависимость между $Х$ и $y$. То есть, нужно найти функцию $f(X) = y$.

Например, студент тратит 0.1 свободного времени на учебу. 

$f(0.1) = 3$. 

*Ответ: студент получит оценку $3$*.

Можно представить, что пары значений данных ($X_i$, $y_i$) - это значения функции $f(X)$ в точках $X_i$. 

Задача регрессии — это построить функцию (некую линию) которая может *описать* эти данные. Подставляя $X_i$ в функцию $f(X)$ мы должны получить число близкое к $y_i$.

В общем случае задача регрессии - по имеющимся данным построить зависимость (функцию) интересующей нас переменной от других параметров. Значение функции лежит в непрерывном диапазоне, например: $(-1, 1)$ или же $\mathbb{R}$.

## Другой пример регрессии 

* Предсказание количества посетителей в интересующие нас время в интернет магазине.

* Предсказание цены квартиры в зависимости от площади.

## Загрузка данных

In [None]:
from regression_helper import * # Подгружаем функции для визуализации
import numpy as np              # Подгружаем библиотеку NumPy

X, y = get_data()               # Загружаем данные в X и y

После этого в векторе $X$ содержится доля свободного времени студента, потраченная на учебу, а в векторе $y$ средняя оценка. 

## Визуализация данных

In [None]:
print_Xy(X, y)    

$X$ и $y$ - это массивы с 20 элементами. 

Тип $X$ и $y$.

In [None]:
print(f"Тип переменной X: {type(X)}")
print(f"Тип переменной y: {type(y)}")

Значения массива $X$:

In [None]:
print(X)

Значения массива $y$:

In [None]:
print(y)

$X_i$ в тексте - это ***X[i]*** в коде.

In [None]:
print(X[0])

In [None]:
print(X)

## Визуализация данных

Отобразим эти данные на графике. Черные точки - это пары $X_i$, $у_i$.

In [None]:
# Строим график с точками
plot_data(X, y)      

Между этими данными есть зависимость.

Точки примерно лежат на одной линии с неким "шумом".

## Наша задача

Найти функцию (линию), которая максимально точно описывает данные.