## Методы ансемблирования в классификации

Спасибо за помощь Михаилу Трофимову и [DataGym](https://datagym.ru/)

### Определение

Анасамбль -- алгоритм, который состоит из нескольких алгоритмов машинного обучения.

Общий вид такого алгоритма: $$f(x) = d(h_1(x), h_2(x), \dots, h_n(x))$$

где $h_i(x)$ - i-й используемый базовый алгоритм, $d$ - функция агрегации (решающее правило)

### Обоснование эффективности

Есть несколько способ объяснения эффективности ансамблей, рассмотрим 2 из них.

1) **Функциональное обоснование**

С помощью ансамбля можно реализовать более сложную разделяющую поверхность, чем с использованием лишь базовых алгоритмов. 
<center><img src='img/linear_ens.png' style="width: 40%"><center/>
    
_Можно ли решить задачу с иллюстрации с помощью только линейных моделей? А каким будет решающее правило?_

2) **Статистическое обоснование**

Будем рассматривать $h_i$ как **независимые** случайные величины с одинаковым матожиданием и одинаковой (конечной) дисперсией.

$$ f = \frac{1}{n}(h_1 + h_2 + \dots + h_n)$$
$$ \mathbb{E}f =\frac{1}{n} (\mathbb{E}h_1 + \mathbb{E}h_2 + \dots + \mathbb{E}h_n) = \mathbb{E}h $$
$$\mathbb{D}f = \frac{1}{n^2}(\mathbb{D}h_1 + \mathbb{D}h_2 + \dots + \mathbb{D}h_n) = \frac{\mathbb{D}h}{n}$$
    
Требование независимости в реальности выполняется редко, 
ибо базовые классификаторы обучаются на одной и той же выборке, на тот же целевой вектор.

**Поэтому при построении ансамблю в него стремятся включать максимально разнообразные модели, 
чтобы приблизиться к требованию независимости**

### Метод опорных векторов (Support Vector Machine, SVM)

Еще одним из методов ансемблирования в смысле п. 1 является [SVM](https://ru.wikipedia.org/wiki/%D0%9C%D0%B5%D1%82%D0%BE%D0%B4_%D0%BE%D0%BF%D0%BE%D1%80%D0%BD%D1%8B%D1%85_%D0%B2%D0%B5%D0%BA%D1%82%D0%BE%D1%80%D0%BE%D0%B2). Он строит несколько разделяющих гиперплоскостей, а дальше принимает решение о номере класса в зависимости от сочетаний признаков (больше или меньше каждой из гиперплоскостей). (Математическое изложение в [тексте](http://www.ccas.ru/voron/download/SVM.pdf) и [презентации](http://www.machinelearning.ru/wiki/images/archive/a/a0/20150316112120%21Voron-ML-Lin-SVM.pdf).

Формулу, используемую для построения разделяющей поверхности, называют ядром SVM. Для разделения могут использоваться не только гиперплоскости, но и функции более высокого порядка. Наиболее распространенными среди них являются [RBF (Radial Basis Functions)](https://ru.wikipedia.org/wiki/%D0%A0%D0%B0%D0%B4%D0%B8%D0%B0%D0%BB%D1%8C%D0%BD%D0%BE-%D0%B1%D0%B0%D0%B7%D0%B8%D1%81%D0%BD%D0%B0%D1%8F_%D1%84%D1%83%D0%BD%D0%BA%D1%86%D0%B8%D1%8F), фактически переводящие точки в полярные координаты и работающие с углами и расстояниями до центроида.

![](img/sphx_glr_plot_iris_svc_0011.png)
<a href="https://gist.github.com/WittmannF/60680723ed8dd0cb993051a7448f7805">
![](img/6883294a-81c8-11e6-8950-6989e765966a.png)
</a>

## Варьирование данных: bagging

**Бутстрап (bootstrap)** -- создание выборки путем сэмплирования с повторением

<center><img src='img/bootstrap.png' style="width: 80%"><center/>

**Бэггинг (bagging)** -- bootstrap + aggregation
<center><img src='img/bagging.png' style="width: 60%"><center/>
    
**Random Subspace Method (RSM)** -- похожая идея, но только не для объектов, а для признаков

**Random Patches** -- объединение идеи бустрапа и RSM (то есть сэмплирование и по объектам, и по признакам)

### Boosting
Boosting, в отличие от bagging'а - это **последовательный** способ построения композиции моделей.

Мы постоянно работаем с одним и тем же набором данных, **но** на каждом шаге строим новую базовую модель, которая учитывает ошибки предыдущей модели.

Исторически, первым успешным методом бустинга стал **AdaBoost** (ADAptive BOOSTing). В нем каждому объекту присваивается вес, который изменяется в зависимости от того, ошиблась ли на нем очередная композиция базовых алгоритмов или нет. Так же веса имеются и у самих базовых моделей, которые штрафуют их за плохие предсказания. Для задачи классификации этот процесс можно проиллюстрировать следующим образом:
<center><img src='img/adaboost.jpg' style="width: 80%"></center>

### Градиентный бустинг (Gradient Boosting, GBM)
<center><img src='img/golf-MSE.png' width=600></center>

### Блендинг

**Блендинг (блендинг)** -- "простая" копозиция алгоритмов. Обычно под этим понимаю обобщенное среднее ответов нескольких алгоритмов.

_Примеры: среднее арифметическое, среднее геометрическое, среднее ранков и т.д._

### Что еще почитать

[Вот это](https://neurohive.io/ru/osnovy-data-science/ansamblevye-metody-begging-busting-i-steking/)

### Методы голосования

Теперь рассмотрим второй путь, когда имеется несколько моделей, проводящих голосование.

Попробуем решить несколькими методами следующую задачу. На вход системы поступают тексты, необходимо определять язык текста. Очевидно, задача является задачей многоклассовой классификации. У нас есть несколько путей ее решения.
* Построить один многоклассовый классификатор, обучив его на всей обучающей выборке.
* Использовать метод классификации, который сам по себе ансамбль, но за счет интерфейса смотрится монолитно.
* Обучить несколько многоклассовых классификаторов на разных подвыборках, организовать голосование между ними:
    - выбирать класс, за который проголосовало большинство, возвращать его;
    - нормировать количество голосов, отданных за каждый из классов, возвращать вероятность ответа.
* Обучить $n$ бинарных классификаторов, где $n$ - число классов; надеяться, что проголосует только один классификатор; возвращать $1/m$, где $m$ - количество классификаторов, вернувших ненулевое значение.

$$
\textbf{a}  = <a_1, a_2, ..., a_n>, a_i=\{0,1\}, \sum\limits_{i=1}^n a_i = m \\
C(\textbf{a}) = <a_1*1/m, a_2*1/m, ... , a_n*1/m>
$$

* Обучить $n$ ансамблей из $k$ классификаторов, возвращать класс, за который проголосовало больше всего классификаторов.

$$
\textbf{A}  = \begin{pmatrix}
a_{1,1} & a_{1,2} & \cdots & a_{1,n} 
\\ a_{2,1} & a_{2,2} & \cdots & a_{2,n} \\
\vdots  & \vdots  & \ddots & \vdots  
\\ a_{k,1} & a_{k,2} & \cdots & a_{k,n} 
\end{pmatrix}, 
a_{i,j}=\{0,1\}
$$

* Всё вышеперечисленное, но каждый классификатор, входящий в состав ансамбля, возвращает вероятности.

In [1]:
import numpy as np

from sklearn.feature_extraction.text import CountVectorizer

from sklearn.ensemble import RandomForestClassifier
from sklearn.linear_model import SGDClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.svm import LinearSVC
from sklearn.svm import SVC
                
from sklearn.metrics import precision_recall_fscore_support
from sklearn.metrics import confusion_matrix

In [2]:
files = ["bg", "fr", "ger", "it", "rus", "rus_orcs"] #, "esp"

def prepareFile(filename, size):
    with open(filename) as file:
        data = file.read()
    data = [data[i*size: (i+1)*size] for i in range(int(len(data[:-(len(data) % size)])/size))]
    vectorizer = CountVectorizer(analyzer ='char')
    transformed = vectorizer.fit_transform(data)
    return transformed, vectorizer

In [3]:
block_size = 1000
blocks = []
vectorizers = []
for file in files:
    d, v = prepareFile(f"data/{file}.txt", block_size)
    blocks.append(d)
    vectorizers.append(v)

In [4]:
[(b.shape, l) for b, l in zip(blocks, files)]

[((997, 103), 'bg'),
 ((984, 87), 'fr'),
 ((999, 105), 'ger'),
 ((998, 80), 'it'),
 ((993, 103), 'rus'),
 ((994, 77), 'rus_orcs')]

In [5]:
test_blocks = []
test_vectorizers = []
for file in files:
    print(file)
    d, v = prepareFile(f"data/{file}_test.txt", block_size)
    test_blocks.append(d)
    test_vectorizers.append(v)

bg
fr
ger
it
rus
rus_orcs


In [6]:
alphabet = []
for vect in vectorizers:
    alphabet.extend(vect.vocabulary_)
alphabet = {a:i for i, a in enumerate(list(set(alphabet)))}

In [7]:
len(alphabet.keys())

167

In [8]:
def vectorizeByAlphabet(block, vectorizer, alphabet):
    vect = np.zeros(len(alphabet.keys())+1)
    for i in range(block.shape[1]):
        index = list(vectorizer.vocabulary_.values()).index(i)
        c = list(vectorizer.vocabulary_.keys())[index]
        index2 = alphabet.get(c, -1)
        vect[index2] = block[0, index]
    vect = vect / vect.sum()
    return vect

In [9]:
X_train = []
X_test = []
Y_train = []
Y_test = []

for i, lang in enumerate(blocks):
    print(f"train - {i}")
    for block in lang:
        X_train.append(vectorizeByAlphabet(block, vectorizers[i], alphabet))
        Y_train.append(i)
        
for i, lang in enumerate(test_blocks):
    print(f"test - {i}")
    for block in lang:
        X_test.append(vectorizeByAlphabet(block, test_vectorizers[i], alphabet))
        Y_test.append(i)        

train - 0
train - 1
train - 2
train - 3
train - 4
train - 5
test - 0
test - 1
test - 2
test - 3
test - 4
test - 5


In [10]:
rfc = RandomForestClassifier()

rfc.fit(X_train, Y_train)
Y_hat = rfc.predict(X_test)
prec, rec, fscore, support = precision_recall_fscore_support(Y_test, Y_hat)
print(prec, "\n", rec, "\n", fscore, "\n", support)
print(files)
print(confusion_matrix(Y_test, Y_hat))


[0.70212766 0.46666667 0.97777778 0.98       0.         1.        ] 
 [1.         0.85714286 0.89795918 1.         0.         0.97916667] 
 [0.825      0.60431655 0.93617021 0.98989899 0.         0.98947368] 
 [ 33  49  49  49  54 144]
['bg', 'fr', 'ger', 'it', 'rus', 'rus_orcs']
[[ 33   0   0   0   0   0]
 [  0  42   1   1   5   0]
 [  0   5  44   0   0   0]
 [  0   0   0  49   0   0]
 [ 11  43   0   0   0   0]
 [  3   0   0   0   0 141]]


In [11]:
svc = LinearSVC()

svc.fit(X_train, Y_train)
Y_hat = svc.predict(X_test)
prec, rec, fscore, support = precision_recall_fscore_support(Y_test, Y_hat)
print(prec, "\n", rec, "\n", fscore, "\n", support)
print(files)
print(confusion_matrix(Y_test, Y_hat))


[1.         0.         0.         0.         0.         0.72727273] 
 [0.96969697 0.         0.         0.         0.         1.        ] 
 [0.98461538 0.         0.         0.         0.         0.84210526] 
 [ 33  49  49  49  54 144]
['bg', 'fr', 'ger', 'it', 'rus', 'rus_orcs']
[[ 32   0   1   0   0   0]
 [  0   0   0   0  49   0]
 [  0  49   0   0   0   0]
 [  0   0   0   0  49   0]
 [  0   0   0   0   0  54]
 [  0   0   0   0   0 144]]


  _warn_prf(average, modifier, msg_start, len(result))


In [12]:
svc = SVC(kernel='rbf', tol=1e-5)

svc.fit(X_train, Y_train)
Y_hat = svc.predict(X_test)
prec, rec, fscore, support = precision_recall_fscore_support(Y_test, Y_hat)
print(prec, "\n", rec, "\n", fscore, "\n", support)
print(files)
print(confusion_matrix(Y_test, Y_hat))


[1.         0.         0.         0.         0.         0.72727273] 
 [1. 0. 0. 0. 0. 1.] 
 [1.         0.         0.         0.         0.         0.84210526] 
 [ 33  49  49  49  54 144]
['bg', 'fr', 'ger', 'it', 'rus', 'rus_orcs']
[[ 33   0   0   0   0   0]
 [  0   0   0   0  49   0]
 [  0  49   0   0   0   0]
 [  0   0  48   0   1   0]
 [  0   0   0   0   0  54]
 [  0   0   0   0   0 144]]


  _warn_prf(average, modifier, msg_start, len(result))
