Scikit-Learn (SKlearn) - библиотека, в которой реализовано большое количество алгоритмов машинного обучения

# Загрузка данных

In [64]:
# Подключаем основные библиотеки
import numpy as np
import pandas as pd

In [65]:
dataset = pd.read_csv("diabetes.csv") # возможно, потребуется изменить путь к датасету

In [66]:
dataset.head() # посмотрим данные

Unnamed: 0,Pregnancies,Glucose,BloodPressure,SkinThickness,Insulin,BMI,DiabetesPedigreeFunction,Age,Outcome
0,6,148,72,35,0,33.6,0.627,50,1
1,1,85,66,29,0,26.6,0.351,31,0
2,8,183,64,0,0,23.3,0.672,32,1
3,1,89,66,23,94,28.1,0.167,21,0
4,0,137,40,35,168,43.1,2.288,33,1


In [67]:
dataset.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 768 entries, 0 to 767
Data columns (total 9 columns):
Pregnancies                 768 non-null int64
Glucose                     768 non-null int64
BloodPressure               768 non-null int64
SkinThickness               768 non-null int64
Insulin                     768 non-null int64
BMI                         768 non-null float64
DiabetesPedigreeFunction    768 non-null float64
Age                         768 non-null int64
Outcome                     768 non-null int64
dtypes: float64(2), int64(7)
memory usage: 54.1 KB


In [68]:
X = dataset.iloc[:, 0:8] # зафиксируем первые 8 столбцов. Они будут признаками, по которым мы будем обучать алгоритмы

In [69]:
y = dataset.iloc[:, 8] # последний признак из датасета будет целевым - его мы и хотим научиться предсказывать

# Нормализация данных

Большинство градиентных методов (на которых по-сути и основаны почти все алгоритмы машинного обучения) сильно чувствительны к шкалированию данных. Поэтому перед запуском алгоритмов чаще всего делается либо <b>нормализация</b>, либо так называемая <b>стандартизация</b>.

Нормализация предполагает замену номинальных признаков так, чтобы каждый из них лежал в диапазоне от 0 до 1.

Стандартизация же подразумевает такую предобработку данных, после которой каждый признак имеет среднее 0 и дисперсию 1.

In [70]:
from sklearn import preprocessing # В SKlearn'e уже есть готовые функции

In [71]:
normalized_X = preprocessing.normalize(X) # нормализация

In [72]:
standardized_X = preprocessing.scale(X) # стандартизация

  """Entry point for launching an IPython kernel.


# Отбор признаков

Зачастую самым важным при решении задачи является умение правильно отобрать и даже создать признаки. В англоязычной литературе это называется <b>Feature Selection</b> и <b>Feature Engineering</b>.

В то время как Feature Engineering довольно творческий процесс и полагается больше на интуицию и экспертные знания, для Feature Selection есть уже большое количество готовых алгоритмов.

Алгоритмы, основанные, на решающих деревьях позволяют провести начальный расчет информативности признаков:

In [73]:
from sklearn import metrics
from sklearn.ensemble import ExtraTreesClassifier
model = ExtraTreesClassifier()
model.fit(X, y)



ExtraTreesClassifier(bootstrap=False, class_weight=None, criterion='gini',
           max_depth=None, max_features='auto', max_leaf_nodes=None,
           min_impurity_decrease=0.0, min_impurity_split=None,
           min_samples_leaf=1, min_samples_split=2,
           min_weight_fraction_leaf=0.0, n_estimators=10, n_jobs=None,
           oob_score=False, random_state=None, verbose=0, warm_start=False)

In [74]:
# Отображение относительной важности каждого признака
print(model.feature_importances_)

[ 0.11714138  0.21398713  0.10718024  0.0804706   0.07340499  0.14204527
  0.11506741  0.15070299]


Все остальные методы так или иначе основаны на эффектинвом переборе подмножеств признаков с целью найти наилучшее подмножество, на которых построенная модель даёт наилучшее качество.

Одним из таких алгоритмов перебора является Recursive Feature Elimination:

In [75]:
from sklearn.feature_selection import RFE
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()

In [76]:
# Создание модели RFE и отбор 3-х признаков
rfe = RFE(model, 3)
rfe = rfe.fit(X, y)



In [77]:
# Итог отбора по признакам
print(rfe.support_)
print(rfe.ranking_)

[ True False False False False  True  True False]
[1 2 3 5 6 1 1 4]


# Алгоритмы

# Логистическая регрессия

Чаще всего используется для решения задач классификации (бинарной), но допускается и многоклассовая классификация (так называемый one-vs-all метод).

Достоинством этого алгоритма является то, что на выходе для каждого объекта мы имеем вероятность принадлежности классу

In [78]:
from sklearn import metrics
from sklearn.linear_model import LogisticRegression
model = LogisticRegression()
model.fit(X, y)
print(model)



LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='warn',
          n_jobs=None, penalty='l2', random_state=None, solver='warn',
          tol=0.0001, verbose=0, warm_start=False)


In [79]:
# делаем предсказания
expected = y
predicted = model.predict(X)

In [80]:
# Итог работы, обученного алгоритма
print(metrics.classification_report(expected, predicted)) 

# здесь и далее - точность работы алгоритмов будет выражаться в терминах precision, recall и f1-score, \
# что по сути является ошибками 1-го и 2-го рода
# подробнее: https://en.wikipedia.org/wiki/Precision_and_recall

              precision    recall  f1-score   support

           0       0.79      0.90      0.84       500
           1       0.74      0.55      0.63       268

   micro avg       0.77      0.77      0.77       768
   macro avg       0.76      0.72      0.73       768
weighted avg       0.77      0.77      0.77       768



In [81]:
print(metrics.confusion_matrix(expected, predicted)) # матрица, где по одной оси, отложены предсказанные значения, по каждому
                                                    # из классов, а по другой - реальные значения

[[448  52]
 [121 147]]


# Наивный Байес

Также является одним из самых известных алгоритмов машинного обучения, основной задачей которого является восстановление плотностей распределения данных обучающей выборки.

Зачастую этот метод дает хорошее качество в задачах многоклассовой классификации

In [82]:
from sklearn import metrics
from sklearn.naive_bayes import GaussianNB
model = GaussianNB()
model.fit(X, y)
print(model)

GaussianNB(priors=None, var_smoothing=1e-09)


In [83]:
# делаем предсказания
expected = y
predicted = model.predict(X)

In [84]:
# Итог работы, обученного алгоритма
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

              precision    recall  f1-score   support

           0       0.80      0.84      0.82       500
           1       0.68      0.62      0.64       268

   micro avg       0.76      0.76      0.76       768
   macro avg       0.74      0.73      0.73       768
weighted avg       0.76      0.76      0.76       768

[[421  79]
 [103 165]]


# К-ближайших соседей

Метод <b>kNN (k-Nearest Neighbors)</b> часто используется как составная часть более сложного алгоритма классификации. Например, его оценку можно использовать как признак для объекта. А иногда, простой kNN на хорошо подобранных признаках дает отличное качество. 

При грамотной настройке параметров (в основном - метрики) алгоритм дает зачастую хорошее качество в задачах регресии

In [85]:
from sklearn import metrics
from sklearn.neighbors import KNeighborsClassifier

In [86]:
# Натравим алгоритм k-nearest neighbor на данные
model = KNeighborsClassifier()
model.fit(X, y)
print(model)

KNeighborsClassifier(algorithm='auto', leaf_size=30, metric='minkowski',
           metric_params=None, n_jobs=None, n_neighbors=5, p=2,
           weights='uniform')


In [87]:
# Делаем предсказания
expected = y
predicted = model.predict(X)

In [35]:
# Итог работы, обученного алгоритма
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

              precision    recall  f1-score   support

           0       0.83      0.88      0.85       500
           1       0.75      0.65      0.70       268

   micro avg       0.80      0.80      0.80       768
   macro avg       0.79      0.77      0.78       768
weighted avg       0.80      0.80      0.80       768

[[442  58]
 [ 93 175]]


# Деревья решений

<b>Classification and Regression Trees (CART)</b> часто используются в задачах, в которых объекты имеют категориальные признаки и используетсядля задача регрессии и классификации.

Очень хорошо деревья подходят для многоклассовой классификации

In [37]:
from sklearn import metrics
from sklearn.tree import DecisionTreeClassifier

In [38]:
# Натравим модель CART на данные 
model = DecisionTreeClassifier()
model.fit(X, y)
print(model)

DecisionTreeClassifier(class_weight=None, criterion='gini', max_depth=None,
            max_features=None, max_leaf_nodes=None,
            min_impurity_decrease=0.0, min_impurity_split=None,
            min_samples_leaf=1, min_samples_split=2,
            min_weight_fraction_leaf=0.0, presort=False, random_state=None,
            splitter='best')


In [39]:
# Делаем предсказания
expected = y
predicted = model.predict(X)

In [40]:
# Итог работы обученной модели
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       500
           1       1.00      1.00      1.00       268

   micro avg       1.00      1.00      1.00       768
   macro avg       1.00      1.00      1.00       768
weighted avg       1.00      1.00      1.00       768

[[500   0]
 [  0 268]]


# Метод опорных векторов

<b>SVM (Support Vector Machines)</b> является одним из самых известных лгоритмов машинного обучения, применяемых, в основном, для задачи классификации.

Также как и логистическая регрессия, SVM допускает многоклассовую классификацию методом one-vs-all

In [90]:
from sklearn import metrics
from sklearn.svm import SVC

In [91]:
# Натравим SVM модель на данные
model = SVC()
model.fit(X, y)
print(model)

SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape='ovr', degree=3, gamma='auto_deprecated',
  kernel='rbf', max_iter=-1, probability=False, random_state=None,
  shrinking=True, tol=0.001, verbose=False)




In [92]:
# Делаем предсказания
expected = y
predicted = model.predict(X)

In [94]:
# Итог работы обученной модели
print(metrics.classification_report(expected, predicted))
print(metrics.confusion_matrix(expected, predicted))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00       500
           1       1.00      1.00      1.00       268

   micro avg       1.00      1.00      1.00       768
   macro avg       1.00      1.00      1.00       768
weighted avg       1.00      1.00      1.00       768

[[500   0]
 [  0 268]]


Помимо алгоритмов классификации и регрессии, в Scikit-Learn имеется огромное количество более сложных алгоритмов, в том числе кластеризации, а также реализованные техники построения композиций алгоритмов, в том числе <b>Bagging</b> и <b>Boosting.

# Оптимизация параметров алгоритма

Одним из самых сложных этапов в построении действительно эффективных алгоритмов является выбор правильных параметров. Обычно, это делается легче с опытом, но так или иначе приходится делать перебор. К счастью, в Scikit-Learn уже есть немало реализованных для этого функций.

Для примера посмотрим на подбор параметра регуляризации, в котором мы по очереди перебираем несколько значений:

In [47]:
import numpy as np
from sklearn.linear_model import Ridge
from sklearn.model_selection import GridSearchCV

In [48]:
# Подготавливаем ряд значений альфы для теста
alphas = ([1,0.1,0.01,0.001,0.0001,0])

In [49]:
# Создаём, натравливаем на данные модель ридж регрессии, тестируя каждую альфу
model = Ridge()
grid = GridSearchCV(estimator=model, param_grid=dict(alpha=alphas))
grid.fit(X, y)
print(grid)



GridSearchCV(cv='warn', error_score='raise-deprecating',
       estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001),
       fit_params=None, iid='warn', n_jobs=None,
       param_grid={'alpha': [1, 0.1, 0.01, 0.001, 0.0001, 0]},
       pre_dispatch='2*n_jobs', refit=True, return_train_score='warn',
       scoring=None, verbose=0)


In [50]:
# Итог поиска по сетке
print(grid.best_score_)
print(grid.best_estimator_.alpha)

0.279617559313
1


Иногда более эффективным оказывается много раз выбрать случайно параметр из данного отрезка, померить качество алгоритма при данном параметре и выбрать тем самым лучший:

In [56]:
import numpy as np
from scipy.stats import uniform as sp_rand
from sklearn.linear_model import Ridge
from sklearn.model_selection import RandomizedSearchCV

In [57]:
# для альф возьмём значения из равномерного распределения 
param_grid = {'alpha': sp_rand()}

In [58]:
# Создаём и натравливаем модель ридж регрессии, беря случайные значения альфы из заданных 
model = Ridge()
rsearch = RandomizedSearchCV(estimator=model, param_distributions=param_grid, n_iter=100)
rsearch.fit(X, y)
print(rsearch)



RandomizedSearchCV(cv='warn', error_score='raise-deprecating',
          estimator=Ridge(alpha=1.0, copy_X=True, fit_intercept=True, max_iter=None,
   normalize=False, random_state=None, solver='auto', tol=0.001),
          fit_params=None, iid='warn', n_iter=100, n_jobs=None,
          param_distributions={'alpha': <scipy.stats._distn_infrastructure.rv_frozen object at 0x000001FA24136208>},
          pre_dispatch='2*n_jobs', random_state=None, refit=True,
          return_train_score='warn', scoring=None, verbose=0)


In [59]:
# Итоги работы поиска по случайному параметру
print(rsearch.best_score_)
print(rsearch.best_estimator_.alpha)

0.279617371001
0.990387682658


# Заключение

Библиотека Scikit-Learn довольно обширная, чтобы подробно изучить все её возможности. Ссылки на материалы:

https://scikit-learn.org/stable/ - официальная документация с примерами.

https://github.com/jakevdp/PythonDataScienceHandbook - книга, где на примерах объясняются различные приёмы, которыми пользуются в Data Science