# MLClass. "Прикладной анализ данных"
# Модуль "Машинное обучение с помощью Python"
<img src="../img/mlclass_logo.jpg" height="240" width="240">
## Авторы материала: преподаватель ФКН НИУ ВШЭ Кашницкий Юрий, магистрант ВМК МГУ Евгений Колмаков
Материал распространяется на условиях лицензии <a href="http://creativecommons.org/licenses/by-sa/4.0/">Creative Commons Attribution-Share Alike 4.0</a>. Можно использовать в любых целях, но с обязательным упоминанием автора курса и аффилиации.

# Урок 6. Нейронные сети. Бустинг. Смешивание алгоритмов. Стекинг.
## Часть 3. Ансамбли алгоритмов в задачах Kaggle

При решении задач Kaggle наиболее простым способом аггрегирования алгоритмов является построение ансамбля с использованием только результатов работы алгоритмов на тестовой выборке. При таком подходе отпадает необходимость в обучении новой модели, задача сводится к композиции векторов ответов построенных ранее алгоритмов. Например, это может быть использовано при командной работе: каждый член команды обучает свой алгоритм, с помощью него делает предсказания на тестовой выборке, после чего полученные векторы предсказаний аггрегируются некоторым образом.

### Голосование (voting)

Простейшим способом композиции ответов нескольких классификаторов является (взвешенное) голосование. Обучим 3 разных по природе классификатора: Random Forest, RBF-SVM и kNN. 

In [1]:
from __future__ import print_function
import numpy as np
from sklearn.svm import SVC
from sklearn.neighbors import KNeighborsClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.cross_validation import train_test_split
import sys
if sys.version_info.major == 2:
    from urllib import urlopen
elif sys.version_info.major == 3:
    from urllib.request import urlopen

url = "https://archive.ics.uci.edu/ml/machine-learning-databases/"+\
        "pima-indians-diabetes/pima-indians-diabetes.data"
raw_data = urlopen(url)
data = np.loadtxt(raw_data, delimiter=",")

X = data[:, :8]
y = data[:, 8]

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=2)

rf = RandomForestClassifier(n_estimators=200, random_state=2).fit(X_train, y_train)
svm = SVC(C=5.0, gamma=0.001).fit(X_train, y_train)
knn = KNeighborsClassifier(n_neighbors=15).fit(X_train, y_train)

np.savetxt("rf.csv", rf.predict(X_test), delimiter=",", fmt="%d")
np.savetxt("svm.csv", svm.predict(X_test), delimiter=",", fmt="%d")
np.savetxt("knn.csv", knn.predict(X_test), delimiter=",", fmt="%d")

В качестве меры качества возьмем AUC. Рассмотрим простое и взвешенное голосование. "Голос" лучшего из трех классификаторов будем считать за два - это помогает в борьбе с тем, что плохие классификаторы сильно "тянут" меру качества вниз. 

In [2]:
from sklearn.metrics import roc_auc_score

rfg_pred = np.loadtxt("rf.csv", delimiter=",")
svm_pred = np.loadtxt("svm.csv", delimiter=",")
knn_pred = np.loadtxt("knn.csv", delimiter=",")

print("RF AUC = ", roc_auc_score(y_test, rfg_pred))
print("SVM AUC = ", roc_auc_score(y_test, svm_pred))
print("kNN AUC = ", roc_auc_score(y_test, knn_pred))

# Simple voting
voting_pred = ((rfg_pred + svm_pred + knn_pred) >= 2).astype(int)
print("Simple voting AUC = ", roc_auc_score(y_test, voting_pred))

# SVM has the best accuracy, so we count its vote as two
wvoting_pred = ((rfg_pred + 2 * svm_pred + knn_pred) >= 2).astype(int)
print("Weighted voting AUC = ", roc_auc_score(y_test, wvoting_pred))

# Simple voting between two best 
two_best_voting_pred = ((svm_pred + knn_pred) >= 1).astype(int)
print("Simple SVM & kNN voting AUC = ", 
      roc_auc_score(y_test, two_best_voting_pred))

RF AUC =  0.69178468259
SVM AUC =  0.730853237511
kNN AUC =  0.724476854788
Simple voting AUC =  0.727753117734
Weighted voting AUC =  0.746353836398
Simple SVM & kNN voting AUC =  0.752554075953
