# Машинное обучение


## Одно из [определений МО](https://habr.com/ru/companies/ods/articles/322534/)

Классическое, общее [определение машинного обучения (МО)](https://www.deeplearningbook.org/contents/ml.html) звучит так ([T. Mitchell "Machine learning", 1997](https://www.cs.cmu.edu/~tom/files/MachineLearningTomMitchell.pdf)):

<blockquote>
Definition: A computer program is said to learn from experience E with respectto some class of tasks T and performance measure P, if its performance at tasks inT, as measured by P, improves with experience E.
</blockquote> 

__или другими словами__:
<blockquote>
Компьютерная программа обучается при решении какой-то задачи из класса $T$, если ее производительность, согласно метрике $P$, улучшается при накоплении опыта $E$.
</blockquote>

Далее в разных сценариях под $T$, $P$, и $E$ подразумеваются совершенно разные вещи. 

Среди самых популярных __задач $T$__ в машинном обучении:
* классификация – отнесение объекта к одной из категорий на основании его признаков
* регрессия – прогнозирование количественного признака объекта на основании прочих его признаков
* кластеризация – разбиение множества объектов на группы на основании признаков этих объектов так, чтобы внутри групп объекты были похожи между собой, а вне одной группы – менее похожи
* детекция аномалий – поиск объектов, "сильно непохожих" на все остальные в выборке либо на какую-то группу объектов
* и много других, более специфичных. 

Под __опытом $E$__ понимаются __данные__. Данные и в зависимости от этого алгоритмы машинного обучения могут быть поделены на те, что обучаются с учителем и без учителя (__supervised & unsupervised learning__). В задачах обучения без учителя имеется выборка, состоящая из объектов, описываемых набором признаков. В задачах обучения с учителем вдобавок к этому для каждого объекта некоторой выборки, называемой обучающей, известен целевой признак – по сути это то, что хотелось бы прогнозировать для прочих объектов, не из обучающей выборки.


_Пример_

Задачи классификации и регрессии – это задачи обучения с учителем. В качестве примера будем представлять задачу кредитного скоринга: на основе накопленных кредитной организацией данных о своих клиентах хочется прогнозировать невозврат кредита. Здесь для алгоритма опыт $E$ – это имеющаяся обучающая выборка: набор объектов (людей), каждый из которых характеризуется набором признаков (таких как возраст, зарплата, тип кредита, невозвраты в прошлом и т.д.), а также целевым признаком. Если этот целевой признак – просто факт невозврата кредита ($1$ или $0$, т.е. банк знает о своих клиентах, кто вернул кредит, а кто – нет), то это задача (бинарной) классификации. Если известно, на сколько по времени клиент затянул с возвратом кредита и хочется то же самое прогнозировать для новых клиентов, то это будет задачей регрессии.


Наконец, третья абстракция в определении машинного обучения – это __метрика оценки производительности алгоритма P__. Такие метрики различаются для разных задач и алгоритмов. Cамая простая метрика качества алгоритма, решающего задачу классификации – это доля правильных ответов (_accuracy_, не называйте ее точностью, этот перевод зарезервирован под другую метрику, _precision_) – то есть попросту доля верных прогнозов алгоритма на тестовой выборке.



## Фреймворк Scikit-learn

[__Scikit-learn (sklearn)__](https://scikit-learn.org/stable/) — [это](https://blog.skillfactory.ru/glossary/scikit-learn/) один из наиболее широко используемых пакетов Python для Data Science и Machine Learning. Он содержит функции и алгоритмы для машинного обучения: классификации, прогнозирования или разбивки данных на группы.

[Sklearn долгое время (с 2007) остаётся](https://habr.com/ru/companies/netologyru/articles/911216/) в стеке любого специалиста по анализу данных и ИИ, потому что хорошо закрывает типовые задачи ML: классификацию, регрессию, отбор признаков, масштабирование, кросс-валидацию. Когда данные уже лежат в таблице, а нужно быстро запустить задачу, с ней проще всего собрать работающий прототип. 

Все методы обработки данных, реализованные __scikit-learn__ реализуют единый и предсказуемый интерфейс, основанный на методах `.fit()`, `.predict()` и `.transform()`. Этот подход стал де-факто стандартом и был подхвачен другими библиотеками, такими как `LightGBM` и `XGBoost`/`CatBoost`, а также совеместим со многими библиотеками анализа данных, например `Optuna`. Благодаря этому инструменты анализа данных хорошо сочетаются друг с другом, а модели можно заменять без необходимости переписывать весь код.

Библиотека `sklearn` хорошо [сочетается ](https://habr.com/ru/companies/netologyru/articles/911216/) с остальными инструментами `Python`. Она работает с массивами `numpy` и датафреймами `pandas`, строит графики через `matplotlib`, сохраняет модели с помощью `joblib`.

Вводный гайд по основным функциям библиотеки может быть найден в [официальной документации](https://scikit-learn.org/stable/user_guide.html).

## Запуск библиотеки

In [4]:
try:
    import sklearn
except:
    %pip install scikit-learn

In [5]:
import sklearn

Дальше можно убедиться, что всё работает корректно: библиотека загружается, данные читаются, модель обучается. Для этого запустите простой пример на встроенном датасете `iris`.

Подключим четыре модуля:

* `datasets` — встроенные датасеты для тестов;
* `linear_model` — простые модели вроде логистической регрессии;
* `model_selection` — разбиение данных и кросс-валидация;
* `metrics` — функции для оценки качества.

In [8]:
from sklearn import datasets, linear_model, metrics, model_selection

# Загружаем данные
X, y = datasets.load_iris(return_X_y=True)

Функция `train_test_split` просто случайно выбирает, какие объекты пойдут в обучение, а какие — в тест. Но поведение этой функции можно настраивать.

In [9]:

# Разбиваем на обучение и тест
X_train, X_test, y_train, y_test = model_selection.train_test_split(X, y, test_size=0.3, random_state=42)


У `sklearn` единый подход ко всем моделям: сначала данные передают в `fit`, потом получают предсказания через `predict`, а дальше оценивают результат — с помощью `score` или функций из `metrics`. Эта схема работает одинаково для разных алгоритмов, поэтому после первого примера становится понятно, как работает вся библиотека.



In [7]:
# Обучаем модель
model = linear_model.LogisticRegression(max_iter=1000)
model.fit(X_train, y_train)

# Получаем предсказания
y_pred = model.predict(X_test)

# Считаем метрику
accuracy = metrics.accuracy_score(y_test, y_pred)
print(f"Accuracy: {accuracy:.2f}")

Accuracy: 1.00


И так, в примере загружается встроенный набор данных `iris`, где каждый объект — это параметры цветка, а цель — определить его класс. Данные делятся на обучающую и тестовую выборки: модель учится на одной части (`fit`) и проверяется на другой (`predict`). После этого считается метрика качества — точность (`accuracy`), то есть доля правильных ответов.

