# Информация по библиотеке SKLearn

> Indented block



In [0]:
import sklearn

Изученные нами модули SKLearn:

#### 1. sklearn.metrics: 

https://scikit-learn.org/stable/modules/classes.html


модуль, где находятся множество метрик, используемых в задачах машинного обучения как для классификации, так и для регрессии:

In [0]:
# вывод этой ячейки покажет все, что содержит модуль metrics
sklearn.metrics.__dir__()

Метрики обычно принимают два параметра -- вектор правильных ответов на данные и вектор предсказаний алгоритма, и выдают число -- значение метрики.

In [0]:
from sklearn.metrics import accuracy_score
y_true = [1, 2, 3]
y_pred = [1, 2, 5]
accuracy_score(y_true, y_pred)

#### 2. sklearn.neighbors

Модуль, где находятся модели ближайших соседей для задач регрессии, так и для классификации. 

In [0]:
# вывод этой ячейки покажет все, что содержит модуль neighbors
sklearn.neighbors.__dir__()

Далее на курсе вы изучите еще несколько модулей, в которых будут находиться другие алгоритмы машинного обучения.


#### 3. Структура моделей в SKLearn


Все модели машинного обучения имеют одинаковую структуру в SKLearn.

In [0]:
# импорт модели из модуля
from sklearn.neighbors import KNeighborsClassifier
# инициализация модели и задание гиперпараметров
model = KNeighborsClassifier(n_neighbors=3)


Обучение моделей в SKLearn осуществляется с помощью метода .fit(), который принимает ровно два аргумента: тренировочные данные и ответы к ним:

In [0]:
X_train = [
           [1, 2, 3],
           [4, 5, 3.6],
           [0.5, 2, 4]
]
y_train = [1, 2, 1]
model.fit(X_train, y_train)

Получение предсказаний модели в SKLearn осуществляется с помощью метода .predict():

In [0]:
X_test = [
          [1, 2, 3.5]
]
predicted = model.predict(X_test)
predicted

Если выбранная модель решает задачу классификации (как, например, KNeighborsClassifier), то кроме метода .predict() у большинства моделей есть еще метод .predict_proba() для получения ответов не в виде меток классов, а в виде вероятностей принадлежности к классам.

Если модель решает задачу классификации на n классов, то вывод model.predict_proba() вернет для каждого объекта n чисел -- вероятностей принадлежности объекта к каждому из n классов.

In [0]:
X_test = [
          [1, 2, 3.5]
]
predicted = model.predict_proba(X_test)
predicted

Если нужно взять из выданного .predict_proba() массива только вероятности одного класса, нужно просто взять нужный столбец numpy-массива, выданного .predict_proba():

In [0]:
# вероятность принадлежности классу 0
predicted[:, 0]

In [0]:
# вероятность принадлежности классу 1
predicted[:, 1]

У разных моделей SKLearn есть еще много разных методов, их для каждой модели можно посмотреть в документации. Например, документация для sklearn.neighbors.KNeighborsClassifier: <br>
https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsClassifier.html

#### 4. sklearn.model_selection.train_test_split

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

Функция для деления датасета на две части так, чтобы распределения признаков в обоих частях были одинаковые. Используется для деления датасета на тренировочную и валидационную части.

# Задание: Предсказание сердечно-сосудистых заболеваний

In [0]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import log_loss
from sklearn.model_selection import train_test_split

В этом задании мы будем решать задачу предсказания наличия у человека сердечно-сосудистых заболеваний по некоторым признакам человека. Это датасет с реальными данными людей, он использовался для соревнования по машинному обучению на платформе mlbootcamp: https://mlbootcamp.ru/round/12/sandbox/. Здесь же можно скачать датасет (для этого необходимо зарегистрироваться).

Давайте посмотрим на датасет:

In [0]:
# в этом csv файле в качестве разделителей использовалась точка с запятой, 
# не забудем указать это при вызове функции read_csv

#Альтернативно: data = pd.read_csv("https://raw.githubusercontent.com/Yorko/mlcourse.ai/master/data/mlbootcamp5_train.csv", sep=';')

data = pd.read_csv("./ml5/train.csv", sep=';')
data.head()

В этом датасете данные о 70000 человек, о каждом из которых известно:

- id человека (**id**)
- возраст человека в днях (**age**)
- пол (**gender**)
- рост в сантиметрах (**height**)
- вес в килограммах (**weight**)
- верхнее артериальное давление (**ap_hi**)
- нижнее артериальное давление (**ap_lo**)
- показатель холестерина (**cholesterol**, 1, 2 или 3)
- показатель глюкозы (**gluc**)
- курит ли человек (**smoke**, 0--не курит, 1--курит)
- употребляет ли человек алкоголь (**alco**, 0--нет, 1--да)
- ведет ли активную жизнь (**active**)

Целевая переменная: **cardio** -- наличие у человека сердечно-сосудистого заболевания. 1 -- есть, 0 -- нет.

In [0]:
data.describe()

## Часть 1. Предобработка датасета.

В этом датасете нет пропусков, так что заполнять NaN не требуется.

#### 1. Разделим данные и целевую переменную cardio.

**Задание**:

Поделите датасет data на данные (data) и целевую переменную (y):

In [0]:
y = <тут ваш код>
data = <тут ваш код>

In [0]:
# не меняйте код в этой ячейке!
# эта ячейка проверяет ваш код на правильность
# если при запуске ячейка выдает ошибку, то у вас в коде ошибка

assert y.shape == (70000,)
assert set(data.columns) == set(['id', 'age', 'gender', 'height', 'weight', 'ap_hi', 'ap_lo', 
       'cholesterol', 'gluc', 'smoke', 'alco', 'active'])

#### 2. Выкинем ненужные столбцы.

В этом датасете, кажется, все признаки информативны, кроме одного -- id. Как и в Titanik, здесь id -- это просто последовательные числа, присвоенные людям при составлении датасета. Никакой информации они не несут. Давайте выкинем столбец id:

**Задание**:

Удалите из data колонку id

In [0]:
# оставьте в переменной data все столбцы, кроме id
data = <тут ваш код>

In [0]:
# не меняйте код в этой ячейке!
# эта ячейка проверяет ваш код на правильность
# если при запуске ячейка выдает ошибку, то у вас в коде ошибка

assert set(data.columns) == set(['age', 'gender', 'height', 'weight', 'ap_hi', 'ap_lo', 
       'cholesterol', 'gluc', 'smoke', 'alco', 'active'])

#### 3. Посмотрим на то, какого типа колонки в датасете.

In [0]:
print(data.dtypes)

Кажется, что все они числовые и категориальных признаков нет. Но давайте присмотримся: признак cholesterol содержит три вида значения: 1, 2 и 3. Они выражают три уровня холестерина. 

С одной стороны, между этими тремя уровнями есть связь: 3 > 2 > 1. C другой стороны, этот признак можно интерпретировать как категориальный и поделить его на три столбца.

Как будет лучше для решения задачи, мы не знаем. Нужно пробовать разные варианты, чем и занимаются data scientists. Давайте создадим копию наших данных, в которых поделим колонку cholesterol на три колонки:

**Задание**: 

Поделите колонку cholesterol на три колонки с помощью pd.get_dummies() и запишите полученный датасет в новую переменную data_ch:

In [0]:
data_ch = <тут ваш код>

In [0]:
# не меняйте код в этой ячейке!
# эта ячейка проверяет ваш код на правильность
# если при запуске ячейка выдает ошибку, то у вас в коде ошибка

assert set(data_ch.columns) == set(['age', 'gender', 'height', 'weight', 'ap_hi', 'ap_lo', 'gluc', 'smoke',
       'alco', 'active', 'cholesterol_1', 'cholesterol_2', 'cholesterol_3'])

#### 4. Колонка Age

На лекции мы говорили о том, что если у разных признаков в датасете разные разбросы значений.  функция расстояния KNN -- евклидова, то один признак будет влиять на расстояние между объектами больше, чем другой. У нас в датасете есть признак Age, который измеряется десятками тысяч, в то время как остальные признаки измеряются в единицах или десятках. Давайте сделаем копии датасетов data и data_cholesterol, в которых переведем возраст людей из дней в годы. Перевод осуществим просто поделив колонку Age на 365.

**Задание**:

Для копий data_age и data_ch_age датасетов data и data_ch переведите их колонки age из дней в годы, поделив колонки на 365:

In [0]:
data_age = data.copy()
data_ch_age = data_ch.copy()

data_age["age"] = <тут ваш код>
data_ch_age["age"] = <тут ваш код>

In [0]:
# не меняйте код в этой ячейке!
# эта ячейка проверяет ваш код на правильность
# если при запуске ячейка выдает ошибку, то у вас в коде ошибка

assert 64 < data_age["age"].max() < 65 
assert 30 > data_age["age"].min() > 29
assert 54 > data_age["age"].mean() > 53

Отлично, теперь у нас есть четыре датасета:

**data** -- изначальный датасет без колонки id <br>
**data_ch** -- изначальный датасет без колонки id и обработанным признаком cholesterol <br>
**data_age** -- изначальный датасет без колонки id и колонкой age, переведенной из дней в года <br>
**data_ch_age** -- изначальный датасет без колонки id и обработанным признаком cholesterol и колонкой age, переведенной из дней в года

Осталось разбить все данные на train и val. Давайте оставим под val 30% датасета:

In [0]:
data_train, data_val, y_train, y_val = train_test_split(data, y, test_size=0.3)
data_ch_train, data_ch_val, y_ch_train, y_ch_val = train_test_split(data_ch, y, test_size=0.3)
data_age_train, data_age_val, y_age_train, y_age_val = train_test_split(data_age, y, test_size=0.3)
data_ch_age_train, data_ch_age_val, y_ch_age_train, y_ch_age_val = train_test_split(data_ch_age, y, test_size=0.3)

## Часть 2. Обучение KNN

В качестве метрики качества для нашей задачи мы возьмем не accuracy, а log_loss: http://wiki.fast.ai/index.php/Log_Loss

log_loss -- это метрика для бинарной классификации (для многоклассовой ее использовать нельзя). Она принимает на вход реальные метки класса в виде нулей и единиц и вероятности принадлежности элементов первому классу, выданные алгоритмом.

В sklearn метрика log_loss определена в sklearn.metrics (как и accuracy и многие другие метрики). Чем log_loss ниже, тем ответы алгоритма "лучше" (в отличие от accuracy). 

**Задание**:

Обучите KNN для k=3 на каждом из четырех полученных датасетов и проверьте каждую обученную модель на тесте для метрики log_loss. На каком датасете KNN с k=3 показал себя лучше всего?

Обратите внимание, что для метрики log_loss ответы KNN должны быть в виде вероятностей принадлежности классу 1 (полученными с помощью .predict_proba), а не бинарными!

In [0]:
# обучаем КНН на тренировочной части data_train датасета data
knn = <тут ваш код определения knn с _neighbors=3 на data_train>
<тут ваш код обучения knn>

# получаем ответы КНН на валидационной части data_val датасета data

# predict_proba выдает массив пар -- для каждого объекта соответствующая пара 
# это вероятности его принадлежности к классу 0 и классу 1. 
# Чтобы получить только вероятности принадлежности классу 1, 
# нужно взять 1 столбец полученного numpy array: array[:, 1]
predicted_proba = knn.predict_proba(data_val)[:, 1]
log_loss(y_val, predicted_proba)

In [0]:
<повторите то же самое для остальных трех датасетов. Не забудтье кроме train_data менять также data_val в валидации.>

Мы видим, что во всех четырех случаях log_loss получился довольно большим. Давайте подберем гиперпараметр k, чтобы алгоритм лучше работал:

## Часть 3. Подбор параметра k

**Задание**:

Для датасетов data_train и data_ch_age_train обучите KNN на тренировочных выборках и найдите значения log_loss на валидационных выборках для значений k от 1 до 20 и постройте график зависимости log_loss от k (как на практическом занятии). Свои выводы опишите ниже.

In [0]:
<тут ваш код для датасета data_train>

In [0]:
<тут ваш код для датасета data_ch_age_train>

Сделайте выводы -- как вы думаете, почему зависимость log_loss от k получилась такой?

<ваши выводы опишите здесь>

P.S. Если вы посмотрите на лидерборд в соревновании к этому датасету, то увидите, что участники достигли значений log_loss гораздо меньших, чем получилось у нас. Но не переживайте -- мы особо не старались предобрабатывать датасет, и модель KNN -- одна из самых слабых в машинном обучении. В следующих модулях вы познакомитесь с более сильными моделями.