### Scikit-learn 
— это библиотека для машинного обучения на языке программирования Python с открытым исходным кодом. С её помощью можно реализовать различные алгоритмы классификации, регрессии и кластеризации, которые построены на взаимодействии библиотеки NumPy с Python.

1. **Разделение датасета** 

Первый шаг: разбить наш датасет на тренировочный и тестовый. На тренировочном мы будем обучаться, а на тестовом — проверять результаты. Для этого используется функция train_test_split():

      from sklearn.model_selection import train_test_split
      x_train, x_test, y_train, y_test = train_test_split()

x_train и x_test — это тренировочный и тестовый векторы признаков (числовые массивы) по которым определяется результат.

y_train и y_test — это целевые функции, с которыми сравниваются результаты нашей модели при обучении и тестировании.

2. **Создание модели**

Модель выбираем исходя из поставленной задачи. В нашем случае — это задача классификации, для неё мы будем использовать логистическую регрессию. Мы подробно разберем эту модель в следующих занятиях, а пока просто применим функцию LogisticRegression():

      from sklearn.linear_model import LogisticRegression
      lr = LogisticRegression()

3. **Обучение модели**

Третий шаг — обучение модели на тренировочном датасете (x_train и y_train). Обычно для этого используют метод fit():

      lr.fit(x_train, y_train)

4. **Прогнозирование результата**

Четвертый шаг — проверка обученности. Попытаемся спрогнозировать результаты обученной модели на тестовой выборке. Обычно используется метод predict():

      predictions = lr.predict(x_test)

5. **Оценка алгоритма**
Здесь мы сравниваем полученные результаты с эталонными:

      score = lr.score(x_test, y_test)

Если результат обучения нас устроил, то на этом этапе разработка модели завершается. 

Как видишь, использование библиотеки skLearn значительно упрощает процесс разработки и обучения моделей.

## Метрики качества модели линейной регрессии
MAE (Mean Absolute Error) — средняя абсолютная ошибка:

(MAE = {1 over n} sum_{j=1}^n |y_j - hat y_j | )

MSE (Mean Squared Error) — средняя квадратичная ошибка:

(MSE = {1 over n} \sum_{j=1}^n (y_j - hat y_j )^2 ) — средняя квадратичная ошибка.

RMSE (Root Mean Squared Error) — корень из средней квадратичной ошибки (удобнее, чем MSE, потому что выражается в тех же единицах, что и измеряемая величина):
RMSE = sqrt{frac{1}{n} sum_{j=1}^n (y_j - hat y_j )^2})

(R^2) В автоматическом отчете о построении модели ты можешь также встретить статистическую метрику  — коэффициент детерминации.  Он показывает, насколько хорошо модель объясняет (то есть детерминирует) зависимость и изменения целевой переменной (Y) от заданных признаков (X). В оценке моделей этот коэффициент используют, чтобы сказать, насколько модель соответствует входным данным.

(R^2 = 1 - frac{sum (y_j - hat y_j)^2 }{sum (y_j - overline y_j )^2})

По этой формуле коэффициент рассчитывается так: единица минус сумма квадратов ошибок, деленная на сумму квадратов разности фактических значений и среднего арифметического фактических значений.
Из-за особенностей формулы \(R^2\) всегда принимает значения от 0 до 1. Чем ближе значение коэффициента к 1, тем лучше. Модель считается неплохой, когда \(R^2\) выше 0,8. Если коэффициент меньше 0,5, то смысла использовать такую модель нет. Если коэффициент равен 1, значит целевая переменная полностью объясняется моделью признаков.


 