## Машинное обучение

В общем случае, задачу машинного обучения можно сформулировать так:

Есть некоторый набор данных. Есть некоторый алгоритм (будем называть его моделью), который для каждой точки выдает некоторое предсказание. Есть функция, которая измеряет качество предсказаний -- ее называют функцией потерь (Loss function).

Цель -- подобрать такую модель, которая минимизирует функцию потерь.

Как именно подбирается эта модель -- зависит от конкретного случая, но общая картина примерно такая: выбирается некоторый класс моделей, которые отличаются друг от друга значениями внутренних параметров. В качестве примера здесь можно представить себе интерполяционный многочлен. Класс моделей -- все многочлены степени d, внутренние параметры -- коэффициенты многочлена.

Обычно функция потерь выбирается так, чтобы можно было сказать, как она меняется при небольшом изменении параметров модели (математики говорят, что "функция потерь дифференцируема по параметрам модели"). В этом случае мы всегда можем понять, в какую сторону надо менять каждый параметр, чуть-чуть сдвинуть их все и повторять эту процедуру, пока значение функции потерь не перестанет меняться. Этот процесс называется градиентным спуском.

## Обучение с учителем (supervised learning)

В этом блокноте мы будем рассматривать только задачи обучения с учителем, то есть задачи, в которых для каждого объекта в обучающей выборке есть в том или ином виде "правильная" метка проставленная экспертом, и задача модели -- восстановить аналогичные метки для новых объектов. 

## Регрессия

С задачей регрессии вы уже встречались, когда разбирались с интерполяцией.
Ее можно сформулировать так: есть набор объектов, для каждого из них задано значение функции f(x). Мы хотим научиться предсказывать это значение для объектов с помощью нашей модели $\hat f$.

В качестве функции потерь как правило используется MSE -- mean square error, среднеквадратичная ошибка. Мы с ней уже встречались когда обсуждали интерполяцию:
$$ MSE(\hat f) = \sum \left(f(x_i) - \hat f(x_i)\right)^2 $$

В случае с интерполяцией каждый объект описывался одним значением: значением переменной x. Обычно в задачах машинного обучения это не так, каждый объект описывается большим количеством признаков (features). 

Простейшая модель, решающая задачу регрессии -- линейная регрессия: мы пытаемся подобрать линейную комбинацию признаков, которая будет предсказывать значение для каждого объекта.

Есть очень популярный датасет, на котором рассматривают задачу регрессии: Boston housing prices, цены на жилье в разных районах Бостона. Про каждый район известны разные демографические данные и медианная цена жилья в нем. Мы пытаемся научиться предсказывать цену исходя из этих данных. Будем пользоваться для этого Ридж-регрессией.

In [18]:
import sklearn

In [16]:
boston_data = sklearn.datasets.load_boston()

In [17]:
print(boston_data['DESCR'])

Boston House Prices dataset

Notes
------
Data Set Characteristics:  

    :Number of Instances: 506 

    :Number of Attributes: 13 numeric/categorical predictive
    
    :Median Value (attribute 14) is usually the target

    :Attribute Information (in order):
        - CRIM     per capita crime rate by town
        - ZN       proportion of residential land zoned for lots over 25,000 sq.ft.
        - INDUS    proportion of non-retail business acres per town
        - CHAS     Charles River dummy variable (= 1 if tract bounds river; 0 otherwise)
        - NOX      nitric oxides concentration (parts per 10 million)
        - RM       average number of rooms per dwelling
        - AGE      proportion of owner-occupied units built prior to 1940
        - DIS      weighted distances to five Boston employment centres
        - RAD      index of accessibility to radial highways
        - TAX      full-value property-tax rate per $10,000
        - PTRATIO  pupil-teacher ratio by town
      

Мы будем использовать Ридж-регрессию, для начала без регуляризации

In [19]:
reg = sklearn.linear_models.Ridge()

AttributeError: module 'sklearn' has no attribute 'linear_models'

In [21]:
sklearn.li

ModuleNotFoundError: No module named 'sklearn.linear_models'