### SCIKIT-LEARN


#### Автор: Приходько Игорь Анатольевич

##### г.Санкт-Петербург


![ML and BD-pic.gif](attachment:560d31ca-a863-41c6-a33d-0f52916014fd.gif)

# Lesson topic: 1 модуль. Введение в scikit-learn

### Машинное обучение заключается в извлечении знаний из данных. 

Это научная область, находящаяся на пересечении статистики, 
искусственного интеллекта и компьютерных наук и также известная как 
прогнозная аналитика или статистическое обучение. 

В последние годы применение методов машинного обучения в повседневной жизни стало
обыденным явлением. Многие современные веб-сайты и устройства 
используют алгоритмы машинного обучения, начиная с автоматических
рекомендаций по просмотру фильмов, заказа еды или покупки 
продуктов, и заканчивая персонализированными онлайн-радиотрансляциями 
и распознаванием друзей на фотографиях. Когда вы 
видите сложный сайт типа Amazon или Netflix, то весьма 
вероятно, что каждый раздел сайта содержит несколько моделей 
машинного обучения.

Выйдя за пределы коммерческих приложений, машинное обучение 
уже оказало огромное влияние на научные исследования, управляемые
данными. Инструменты, представленные в этом курсе, использовались 
для решения различных научных задач (исследование звезд, поиск
далеких планет, открытие новых частиц, анализ последовательностей
ДНК, а также разработка персонализированных методов лечения рака).

Для извлечения прибыли с помощью машинного обучения совсем 
необязательно, чтобы ваши задачи были столь же крупномасштабными
или меняющими мир, как представленные примеры. В этой модуле мы 
объясним, почему машинное обучение стало таким популярным, и 
обсудим, какие задачи могут быть решены с помощью него. Затем мы 
покажем вам, как построить свою первую модель машинного обучения, 
попутно знакомя вас с важными принципами машинного обучения.

### Задачи, которые можно решить с помощью машинного обучения

Наиболее успешные алгоритмы машинного обучения – это те, которые 
автоматизируют процессы принятия решений путем обобщения 
известных примеров. 

##### В этих методах, известных как обучение с учителем или контролируемое обучение (supervised learning), 
##### пользователь предоставляет алгоритму пары объект-ответ, а алгоритм находит способ 
##### получения ответа по объекту. 
##### В частности, алгоритм способен выдать ответ для объекта, которого он никогда не видел раньше, 
##### без какой-либо помощи человека. 

Примеры задач машинного обучения с учителем:

##### Определение почтового индекса по рукописным цифрам на конверте

##### Определение доброкачественности опухоли на основе медицинских изображений

##### Обнаружение мошеннической деятельности в сделках по кредитным картам

##### Алгоритмы обучения без учителя или неконтролируемого обучения
##### (unsupervised algorithms) – это еще один вид алгоритмов, который мы рассмотрим в нашем курсе. 
##### В алгоритмах обучения без учителя известны 
##### только объекты, а ответов нет. 
##### Хотя есть много успешных сфер 
##### применения этих методов, их, как правило, труднее интерпретировать и оценить.

Примеры задач машинного обучения без учителя:

##### Определение тем в наборе постов

##### Сегментирование клиентов на группы с похожими предпочтениями

##### Обнаружение паттернов аномального поведения на веб-сайте


Решая задачи машинного обучения с учителем и без, важно 
представить ваши входные данные в формате, понятном компьютеру. 
Часто данные представляют в виде таблицы. 

##### Каждая точка данных, которую вы хотите исследовать (каждое электронное письмо, каждый 
##### клиент, каждая транзакция) является строкой, а каждое свойство, 
##### которое описывает эту точку данных (скажем, возраст клиента, сумма
##### или место совершения транзакции), является столбцом. 

Вы можете описать пользователей по возрасту, полу, дате создания учетной записи 
и частоте покупок в вашем интернет-магазине. Вы можете описать 
изображение опухоли с помощью градаций серого цвета для каждого 
пикселя или с помощью размера, формы и цвета опухоли.

##### В машинном обучении каждый объект или строка называются
##### примером (sample) или точкой данных (data point), а столбцы-свойства, 
##### которые описывают эти примеры, называются характеристиками или признаками (features).

Позже в этой курсе мы более детально остановимся на теме 
подготовки данных, которая называется 

##### выделение признаков (feature extraction) или 

##### конструирование признаков (feature engineering). 

Однако, вы должны иметь в виду, что ни один алгоритм машинного обучения не 
сможет сделать прогноз по данным, которые не содержат никакой 
полезной информации. Например, если единственный признак пациента 
– это его фамилия, алгоритм не сможет предсказать его пол. Этой 
информации просто нет в данных. Если добавить еще один признак –
имя пациента, то дело уже будет обстоять лучше, поскольку часто, зная
имя человека, можно судить о его поле.

### Постановка задач и знакомство с данными


### Почему нужно использовать Python?

Python стал общепринятым языком для многих сфер применения науки 
о данных (data science). Он сочетает в себе мощь языков 
программирования с простотой использования предметно-ориентированных скриптовых языков типа MATLAB или R. 

В Python есть библиотеки для загрузки данных, визуализации, статистических 
вычислений, обработки естественного языка, обработки изображений и 
многого другого. Этот обширный набор инструментов предлагает 
специалистам по работе с данными (data scientists) большой набор
инструментов общего и специального назначения. 

Одним из основных преимуществ использования Python является возможность напрямую 
работать с программным кодом с помощью терминала или других
инструментов типа Jupyter Notebook, c которым мы с Вами уже знакомы. 

### scikit-learn

### https://scikit-learn.org/

scikit-learn – проект с открытым исходным кодом, это означает, что его
можно свободно использовать и распространять, и любой человек может 
легко получить исходный код, чтобы увидеть, что происходит «за 
кулисами». 

Проект scikit-learn постоянно развивается и совершенствуется, и у него очень активное сообщество пользователей. 

Он содержит ряд современных алгоритмов машинного обучения, а также 
полную документацию по каждому алгоритму. scikit-learn – очень 
популярный инструмент и самая известная питоновская библиотека для 
машинного обучения. 


#### Установка scikit-learn

scikit-learn требует наличия еще двух пакетов Python – NumPy и 
SciPy. Для построения графиков и интерактивной работы необходимо 
также установить matplotlib, Jupyter Notebook. 
Можно установить все требуемые пакеты на Ваш компьюте по отдельности.
Для этого нужно в командной строке ввести команду:

##### pip install scikit-learn

Чтобы убедиться, что все установлено, в командной строке нужжно ввести команду:

##### pip freeze

И убедиться, что в спике установленных пакетов появился пакет scikit-learn.

Установку scikit-learn можно осуществить непосредственно через Jupyter Notebook.
Для этого в отдельной ячейке нужно ввести

##### !pip install scikit-learn

И если Ваш ноутбук не вернул Вам исключение (ошибку), то scikit-learn
установлен на Ваш компьютер благополучно.

In [None]:
!pip install scikit-learn

### Основные библиотеки и инструменты

##### Jupyter Notebook

##### NumPy

##### Pandas

##### SciPy

SciPy – это набор функций для научных вычислений в Python. 

##### matplotlib

matplotlib – это основная библиотека для построения научных графиков в Python. 

Она включает функции для создания высококачественных
визуализаций типа линейных диаграмм, гистограмм, диаграмм разброса и т.д. 

При работе в Jupyter Notebook, вы можете вывести рисунок прямо в браузере с помощью встроенных команд 

%matplotlib notebook и %matplotlib inline.

In [None]:
import numpy as np 

Мы будем очень много использовать NumPy в этом курсе, и будем 
называть объекты класса ndarray «массивами NumPy» или просто «массивами».

In [None]:
from scipy import sparse

Более подробную информацию о разреженных матрицах SciPy можно найти по этой ссылке:

https://lectures.scientific-python.org/

In [None]:
%matplotlib inline             
                               # При работе в Jupyter Notebook, вы можете вывести рисунок прямо в браузере 
                               # с помощью встроенных команд %matplotlib notebook и %matplotlib inline. 
                               # %matplotlib notebook предлагает интерактивное окружение
import matplotlib.pyplot as plt
plt.style.use('seaborn-v0_8') # используем стиль 'seaborn-v0_8'

In [None]:
import pandas as pd

### Начало работы. Импорты всех необходимых пакетов

In [None]:
# начинать любую работу нужно с импорта необходимых пакетов
import numpy as np
import matplotlib.pyplot as plt
%matplotlib inline
import pandas as pd
from IPython.display import display # IPython является встроенной частью Jupyter Notebook
plt.rc('font', family='Verdana')   # Для решения проблемы корректного отображения русских надписей в графиках matplotlib

### Версии библиотек, используемых в нашем курсе

In [None]:
# Версии используемых библиотек:

import sys 
print("версия Python: {}".format(sys.version))
 
import pandas as pd 
print("версия pandas: {}".format(pd.__version__))
 
import matplotlib 
print("версия matplotlib: {}".format(matplotlib.__version__))
 
import numpy as np 
print("версия NumPy: {}".format(np.__version__))
 
import scipy as sp 
print("версия SciPy: {}".format(sp.__version__))
 
import IPython 
print("версия IPython: {}".format(IPython.__version__))
 
import sklearn 
print("версия scikit-learn: {}".format(sklearn.__version__))

# Lesson topic:  Первый пример: Классификация сортов ириса

Давайте мы рассмотрим простой пример применения машинного 
обучения и построим нашу первую модель. 

В процессе изложения материала мы познакомим вас с некоторыми основными принципами и терминами.

Предположим, что ботаник-любитель хочет классифицировать сортов ирисов, которые он собрал. 

Он измерил в сантиметрах некоторые характеристики ирисов: 

длину и ширину лепестков (petals), а также длину и ширину чашелистиков (sepals).

![5 тема 1 рис.png](attachment:ab06f65f-d69e-4f6e-b02a-1de92db6958c.png)

Кроме того, у него есть измерения этих же характеристик ирисов, 
которые ранее позволили опытному эксперту отнести их к сортам: 

setosa, versicolor и virginica. 

![5 тема 2 рис.webp](attachment:2396bfb8-db09-4dc0-b18a-a26e7f286f57.webp)

Относительно этих ирисов ботаник-любитель уверенно может сказать, 
к какому сорту принадлежит каждый ирис. 

Давайте предположим, что перечисленные сорта являются 
единственными сортами, которые ботаник-любитель может встретить в 
дикой природе.

#### Наша цель заключается в построении модели машинного обучения, 
#### которая сможет обучиться на основе характеристик ирисов, уже 
#### классифицированных по сортам, и затем предскажет сорт для нового цветка ириса.

##### ● Поскольку у нас есть примеры, по которых мы уже знаем правильные
##### сорта ириса, решаемая задача является задачей обучения с учителем. 

В этой задаче нам нужно спрогнозировать один из сортов ириса. 

##### ● Это пример задачи классификации (classification). 

##### ● Возможные ответы (различные сорта ириса) называются классами (classes). 

##### ● Каждый ирис в наборе данных принадлежит к одному из трех классов, таким образом 
##### решаемая задача является задачей трехклассовой классификации.

##### ● Ответом для отдельной точки данных (ириса) является тот или иной сорт этого цветка. 
##### ● Cорт, к которому принадлежит цветок (конкретная точка данных), называется меткой (label).

### Загружаем данные

Данные, которые мы будем использовать для этого примера, – это набор данных Iris, 
классический набор данных в машинном обучении и статистике. 

Он уже включен в модуль datasets библиотеки scikit-learn. 

Мы можем загрузить его, вызвав функцию load_iris:

In [None]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()

Объект iris_dataset, возвращаемый load_iris, является объектом Bunch, 

который очень похож на словарь. Он содержит ключи и значения:

In [None]:
print("Ключи iris_dataset: \n{}".format(iris_dataset.keys()))

Значение ключа DESCR – это краткое описание набора данных. Здесь мы покажем начало описания 

(оставшуюся часть описания вы можете посмотреть самостоятельно):

In [None]:
print(iris_dataset['DESCR'][:193] + "\n...")

Значение ключа target_names – это массив строк, содержащий сорта цветов, которые мы хотим предсказать:

In [None]:
iris_dataset['target_names']

Значение feature_names – это список строк с описанием каждого признака:

In [None]:
iris_dataset['feature_names']

Сами данные записаны в массивах target и data. data – массив NumPy, который содержит количественные 

измерения длины чашелистиков, ширины чашелистиков, длины лепестков и ширины лепестков:

In [None]:
type(iris_dataset['data'])

Строки в массиве data соответствуют цветам ириса, а столбцы 

представляют собой четыре признака, которые были измерены для каждого цветка:

In [None]:
iris_dataset['data'].shape

Мы видим, что массив содержит измерения для 150 различных цветов по 4 признакам. 

##### Вспомним, что в машинном обучении отдельные элементы называются примерами (samples), 

##### а их свойства – характеристиками или признаками (feature). 

##### Форма (shape) массива данных определяется количеством примеров, умноженным на количество признаков. 

Это является общепринятым соглашением в scikit-learn, и ваши данные всегда будут представлены в этой форме. 

Ниже приведены значения признаков для первых пяти примеров:

In [None]:
iris_dataset['data'][:5]

Массив target содержит сорта уже измеренных цветов, тоже записанные в виде массива NumPy:

In [None]:
type(iris_dataset['target'])

target представляет собой одномерный массив, по одному элементу для каждого цветка:

In [None]:
iris_dataset['target'].shape

Сорта кодируются как целые числа от 0 до 2 (0 - 'setosa', 1 - 'versicolor', 2 - 'virginica').

Значения чисел задаются массивом iris['target_names']:

In [None]:
iris_dataset['target_names']

In [None]:
iris_dataset['target']

In [None]:
type(iris_dataset['target'][0])

In [None]:
iris_dataset['target'][0]

In [None]:
iris_dataset['feature_names']

In [None]:
iris_dataset['filename']

In [None]:
iris_dataset['data_module']

### Метрики эффективности: training set   и   test set

На основе этих данных нам нужно построить модель машинного обучения, 

которая предскажет сорта ириса для нового набора измерений. 

Но прежде, чем мы применить нашу модель к новому набору, мы должны убедиться в том, 

что модель на самом деле работает и ее прогнозам можно доверять.

К сожалению, для оценки качества модели мы не можем использовать 
данные, которые были взяты нами для построения модели. 

Это обусловлено тем, что наша модель просто запомнит весь обучающий 
набор и поэтому она всегда будет предсказывать правильную метку для 
любой точки данных в обучающем наборе. 

Это «запоминание» ничего не говорит нам об обобщающей способности модели (другими словами, мы 
не знаем, будет ли эта модель так же хорошо работать на новых данных).

Для оценки эффективности модели, мы предъявляем ей новыеразмеченные данные 
(размеченные данные, которые она не видела раньше). 

Обычно это делается путем разбиения собранных размеченныхданных (в данном случае 150 цветов) на две части. 

Одна часть данных используется для построения нашей модели машинного обучения и 
называется обучающими данными (training data) или обучающим набором (training set). 

Остальные данные будут использованы для оценки качества модели, их называют тестовыми данными (test data), 
тестовым набором (test set) или контрольным набором (hold-out set).

В библиотеке scikit-learn есть функция 

#### train_test_split, 

которая перемешивает набор данных и разбивает его на две части. 

Эта функция отбирает в обучающий набор 75% строк данных с соответствующими

метками. Оставшиеся 25% данных с метками объявляются тестовым набором. 

В scikit-learn данные, как правило, обозначаются заглавной X, 

тогда как метки обозначаются строчной у. 

Это навеяно стандартной математической формулой f(х)=у, где х является аргументом функции, 

а у – выводом. 

В соответствии с некоторыми математическими соглашениями мы используем заглавную X, 

потому что данные представляют собой двумерный массив (матрицу) и строчную у, 

потому что целевая переменная – это одномерный массив (вектор).

Давайте вызовем функцию train_test_split для наших данных и зададим обучающие данные, 

обучающие метки, тестовые данные, тестовые метки, используя вышеупомянутые буквы:

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(iris_dataset['data'], iris_dataset['target'], random_state=0)

Перед разбиением функция train_test_split перемешивает набор данных с помощью генератора псевдослучайных чисел. 

Если мы просто возьмем последние 25% наблюдений в качестве тестового набора, все точки данных будет иметь метку 2, 

поскольку все точки данных отсортированы по меткам (смотрите вывод для iris['target'], показанный ранее). 

Используя тестовый набор, содержащий только один из трех классов, вы не сможете объективно судить об обобщающей 

способности модели, таким образом, мы перемешиваем наши данные, чтобы тестовые данные содержали все три класса.

##### Чтобы в точности повторно воспроизвести полученный результат, мы воспользуемся генератором псевдослучайных чисел с фиксированным

##### стартовым значением, которое задается с помощью параметра random_state. 

##### Это позволит сделать результат воспроизводим, поэтому вышеприведенный программный код будет генерировать один и тот же результат. 

Мы всегда будем задавать random_state при использовании рандомизированных процедур в этом курсе.

##### Выводом функции train_test_split являются X_train, X_test, y_train и y_test, 

##### которые все являются массивами Numpy. 

X_train содержит 75% строк набора данных, а X_test содержит оставшиеся 25%:

In [None]:
X_train.shape

In [None]:
y_train.shape

In [None]:
X_test.shape

In [None]:
y_test.shape

### Сперва посмотрите на Ваши данные

Перед тем как строить модель машинного обучения, неплохо было бы исследовать данные, 

чтобы понять, можно ли легко решить поставленную задачу без машинного обучения или содержится ли нужная информация в данных.

Кроме того, исследование данных – это хороший способ обнаружить аномалии и особенности. 

Например, вполне возможно, что некоторые из ваших ирисов измерены в дюймах, а не в сантиметрах. 

В реальном мире нестыковки в данных и неожиданности очень распространены.

##### Один из лучших способов исследовать данные – визуализировать их. 

Это можно сделать, используя диаграмму рассеяния (scatter plot). 

В диаграмме рассеяния один признак откладывается по оси х, а другой признак – по оси у, каждому наблюдению соответствует точка. 

К сожалению, экран компьютера имеют только два измерения, что позволяет разместить на графике только два (или, возможно, три) 

признака одновременно. 

Таким образом, трудно разместить на графике наборы данных с более чем тремя признаками. 

Один из способов решения этой проблемы – построить матрицу диаграмм рассеяния (scatterplot matrix) или парные диаграммы рассеяния (pair plots), 

на которых будут изображены все возможные пары признаков. 

Если у вас есть небольшое число признаков, например, четыре, как здесь, то использование матрицы диаграмм рассеяния будет вполне разумным. 

Однако, вы должны помнить, что матрица диаграмм рассеяния не показывает взаимодействие между всеми признаками сразу, 

поэтому некоторые интересные аспекты данных не будут выявлены с помощью этих графиков.

Ниже код генерирует матрицу диаграмм рассеяния для признаков обучающего набора. 

Точки данных окрашены в соответствии с сортами ириса, к которым они относятся. 

Чтобы построить диаграммы, мы сначала преобразовываем массив NumPy в DataFrame (основный тип данных в библиотеке pandas). 

В pandas есть функция для создания парных диаграмм рассеяния под названием scatter_matrix. 

По диагонали этой матрицы располагаются гистограммы каждого признака.


► scatter plot - диаграмма рассеяния

► scatterplot matrix - матрица диаграмм рассеяния

► pair plots - парные диаграммы рассеяния 

In [None]:
# создаем dataframe из данных в массиве X_train
# маркируем столбцы, используя строки в iris_dataset.feature_names
iris_dataframe = pd.DataFrame(X_train, columns=iris_dataset.feature_names)
# создаем матрицу рассеяния из dataframe, цвет точек задаем с помощью y_train
grr = pd.plotting.scatter_matrix(iris_dataframe, c=y_train, figsize=(15, 15), marker='o',
                                 hist_kwds={'bins': 20}, s=60, alpha=.8, cmap='turbo')                               

Взглянув на график, мы можем увидеть, что, похоже, измерения чашелистиков и лепестков позволяют 

относительно хорошо разделить три класса. 

Это означает, что модель машинного обучения, вероятно, сможет научиться разделять их.

### Построение Вашей первой модели: метод k-ближайших соседей

Теперь мы можем начать строить реальную модель машинного обучения. 

В библиотеке scikit-learn имеется довольно много алгоритмов 

классификации, которые мы могли бы использовать для построения 

модели. В данном примере мы будем использовать классификатор на 

основе метода k ближайших соседей, который легко интерпретировать. 

Построение этой модели заключается лишь в запоминании обучающего

набора. Для того, чтобы сделать прогноз для новой точки данных,

алгоритм находит точку в обучающем наборе, которая находится ближе 

всего к новой точке. Затем он присваивает метку, принадлежащую этой 

точке обучающего набора, новой точке данных.

k в методе k ближайших соседей означает, что вместо того, чтобы использовать лишь ближайшего соседа новой точки данных, 

мы в ходе обучения можем рассмотреть любое фиксированное число (k) соседей

(например, рассмотреть ближайшие три или пять соседей). 

Тогда мы можем сделать прогноз для точки данных, используя класс, которому принадлежит большинство ее соседей. 

Подробнее мы поговорим об этом в модуле 2, а в данный момент мы будем использовать только одного соседа.

В scikit-learn все модели машинного обучения реализованы в собственных классах, называемых классами Estimator. 

Алгоритм классификации на основе метода k ближайших соседей реализован в классификаторе KNeighborsClassifier модуля neighbors. 

Прежде чем использовать эту модель, нам нужно создать объект-экземпляр класса.

Это произойдет, когда мы зададим параметры модели. Самым важным параметром KNeighborsClassifier является количество соседей, 

которые мы установим равным 1:

In [None]:
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)

Объект knn включает в себя алгоритм, который будет использоваться 

для построения модели на обучающих данных, а также алгоритм, 

который сгенерирует прогнозы для новых точек данных. Он также будет 

содержать информацию, которую алгоритм извлек из обучающих 

данных. В случае с KNeighborsClassifier он будет просто хранить обучающий набор.

Для построения модели на обучающем наборе, мы вызываем метод 

fit объекта knn, который принимает в качестве аргументов массив 

NumPy X_train, содержащий обучающие данные, и массив NumPy 

y_train, соответствующий обучающим меткам:

In [None]:
knn.fit(X_train, y_train)

Метод fit возвращает сам объект knn (и изменяет его), таким образом,

мы получаем строковое представление нашего классификатора. Оно

показывает нам, какие параметры были использованы при создании 

модели. Почти все параметры имеют значения по умолчанию, но вы 

также можете обнаружить параметр n_neighbor=1, заданный нами. 

Большинство моделей в scikit-learn имеют массу параметров, но 

большая часть из них связана с оптимизацией скорости вычислений или

предназначена для особых случаев использования. Вам не нужно

беспокоиться о других параметрах, приведенных здесь. Вывод модели в

scikit-learn может быть очень длинным, но не нужно пугаться его. Мы 

рассмотрим все важные параметры в модуле 2. Далее в этом курсе мы не будем приводить вывод метода fit, 

поскольку он не содержит никакой новой информации.

#### Получение прогнозов

Теперь мы можем получить прогнозы, применив эту модель к новым данным, по которым мы еще не знаем правильные метки. 

Представьте, что мы нашли в дикой природе ирис с длиной чашелистика 5 см, шириной чашелистика 2.9 см, длиной лепестка 1 см 

и шириной лепестка 0.2 см. 

К какому сорту ириса нужно отнести этот цветок? 

Мы можем поместить эти данные в массив NumPy, снова вычисляя форму массива, т.е. количество примеров (1), умноженное на количество признаков (4):

In [None]:
X_new = np.array([[5, 2.9, 1, 0.2]])
print("форма массива X_new: {}".format(X_new.shape))

Обратите внимание, что мы записали измерения по одному цветку в двумерный массив NumPy, 

поскольку scikit-learn работает с двумерными массивами данных.

Чтобы сделать прогноз, мы вызываем метод predict объекта knn:

In [None]:
prediction = knn.predict(X_new)
print("Прогноз: {}".format(prediction))
print("Спрогнозированная метка: {}".format(iris_dataset['target_names'][prediction]))

Наша модель предсказывает, что этот новый цветок ириса

принадлежит к классу 0, что означает сорт setosa. Но как узнать, можем 

ли мы доверять нашей модели? Правильный сорт ириса для этого 

примера нам неизвестен, а ведь именно получение правильных прогнозов

и является главной задачей построения модели!


#### Оценка качества модели

Это тот самый момент, когда нам понадобится созданный ранее тестовый набор. 

Эти данные не использовались для построения модели, но мы знаем правильные сорта для каждого 

ириса в тестовом наборе. Таким образом, мы можем сделать прогноз для каждого ириса в 

тестовом наборе и сравнить его с фактической меткой (уже известным сортом).

Мы можем оценить качество модели, вычислив 

#### accuracy - правильность 

процент цветов, для которых модель правильно спрогнозировала сорта:

In [None]:
y_pred = knn.predict(X_test)
print("Прогнозы для тестового набора:\n {}".format(y_pred))

In [None]:
print("Правильность на тестовом наборе: {:.2f}".format(np.mean(y_pred == y_test)))

Кроме того, мы можем использовать 

#### метод score объекта knn, 

который вычисляет правильность модели для тестового набора:

In [None]:
print("Правильность на тестовом наборе: {:.2f}".format(knn.score(X_test, y_test)))

Правильность этой модели для тестового набора составляет около 0.97, что означает, 

что мы дали правильный прогноз для 97% ирисов в тестовом наборе. 

При некоторых математических допущениях, это означает, что мы можем ожидать, что наша модель в 97% случаев даст 

правильный прогноз для новых ирисов. Для нашего ботаника-любителя этот высокий уровень правильности означает,

что наша модель может быть достаточно надежной в использовании. На следующих занятиях мы обсудим, как можно улучшить 

эффективность модели, и с какими подводными камнями можно столкнуться при настройке модели.


### Выводы и перспективы

Давайте подытожем то, чему мы научились в этой модуле нашего курса (1 модуль. Введение). 

● Мы начали с краткого введения в машинного обучение и сфер его применения, 

● затем обсудили различие между обучением с учителем и обучением без учителя. 

● Затем мы сформулировали задачу классификации ирисов на основе проведенных измерений характеристик цветов. 

● Мы использовали набор данных, в котором эксперт уже предварительно классифицировал ирисы для построения модели, 

таким образом, мы решали задачу обучения с учителем. 

● Было три возможных сорта ирисов – setosa, versicolor и virginica, 

● что делало нашу задачу задачей 3-классовой классификации. 

● В задаче классификации возможные сорта ирисов называются классами (classes) а сами названия сортов – метками (labels).

● Набор данных Iris состоит из двух массивов NumPy: один содержит данные и в scikit-learn обозначается как X, 

другой содержит правильные или нужные ответы и обозначается как y. 

● Массив Х представляет собой двумерный массив признаков, в котором одна строка соответствует одной точке данных, 

а один столбец – одному признаку. 

● Массив у представляет собой одномерный массив, который для каждого примера содержит метку класса, целое число от 0 до 2.

● Мы разделили наш набор данных на обучающий набор (training set), чтобы построить нашу модель, 

а также тестовый набор (test set), чтобы оценить, насколько хорошо наша модель будет классифицировать новые, ранее незнакомые ей данные.

● Мы выбрали алгоритм классификации k ближайших соседей, который генерирует прогноз для новой точки данных, 

рассматривая ее ближайшего соседа(ей) в обучающем наборе. 

● Все это реализовано в классе KNeighborsClassifier, который содержит алгоритм, 

строящий модель, а также алгоритм, который дает прогнозы, используя построенную модель. 

● Мы создали объект-экземпляр класса, задав параметры. 

● Затем мы построили модель, вызвав метод fit и передав обучающие данные (X_train) и обучающие ответы (y_train) в качестве параметров. 

● Мы оценили качество модели с использованием метода score, который вычисляет правильность модели. 

Мы применили метод score к тестовым данным и тестовым ответам и обнаружили, 

что наша модель демонстрирует правильность около 97%. 

Это означает, что модель выдает правильные прогнозы для 97% наблюдений тестового набора.

Это убедило нас в том, что модель можно применить к новым данным (в нашем примере это измерения характеристик новых цветов), 

и мы надеемся, что эта модель даст правильные прогнозы в 97% случаев.

Ниже приводится краткое изложение программного кода, необходимого для всей процедуры обучения и оценки модели:

In [None]:
from sklearn.datasets import load_iris
iris_dataset = load_iris()
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(
    iris_dataset['data'], iris_dataset['target'], random_state=0)
from sklearn.neighbors import KNeighborsClassifier
knn = KNeighborsClassifier(n_neighbors=1)
knn.fit(X_train, y_train)
y_pred = knn.predict(X_test)
print("Правильность на тестовом наборе: {:.2f}".format(knn.score(X_test, y_test)))

##### Этот фрагмент содержит базовый код, необходимый для применения любого алгоритма машинного обучения с помощью scikit-learn. 

##### Методы fit, predict и score являются общими для моделей контролируемого обучения в scikit-learn и, используя принципы,

##### приведенные выше, вы можете применить эти модели для решения различных задач машинного обучения. 

В следующем модуле мы подробнее рассмотрим различные модели машинного обучения с учителем, 

имеющиеся в scikit-learn, и расскажем, как успешно применять их.

# Lesson topic:  Методы машинного обучения с учителем

### Классификация и регрессия

##### Есть два основные задачи машинного обучения с учителем: классификация (classification) и регрессия (regression).

##### Цель классификации состоит в том, чтобы спрогнозировать метку класса (class label), которая представляет собой выбор из заранее 
определенного списка возможных вариантов. 

В модуле 1 мы использовали пример классификации ирисов, когда относили цветок к одному из трех возможных сортов. 

##### Классификация иногда разделяется на бинарную классификацию (binary classification), которая является частным случаем разделения на два класса, 

##### и мультиклассовую классификацию (multiclass classification), когда в классификации участвует более двух классов. 

Бинарную классификацию можно представить как попытку ответить на поставленный вопрос в формате «да/нет». 

Классификация электронных писем на спам и не-спам является примером бинарной классификации. 

В данной задаче бинарной классификации ответ «да/нет» дается на вопрос «является ли это электронное письмо спамом?»

##### В бинарной классификации мы часто говорим о том, что один класс является положительным (positive) классом, 

##### а другой класс является отрицательным (negative) классом. 

При этом «положительный» означает здесь не наличие выгоды (ценности), а объект исследования. 

Таким образом, при поиске спама, положительным классом может быть класс «спам». 

Вопрос о том, какой из этих двух классов будет положительным, часто субъективен и зависит от предметной области исследования.

С другой стороны, пример классификации ирисов является примером мультиклассовой классификации. 

Еще один пример – прогнозирование языка веб-сайта. Классами здесь будет заранее определенный список возможных языков.