<div style="font-size:18pt; padding-top:20px; text-align:center">Лабораторная работа 4. <b>Регрессия, классификация, кластеризация и
 </b> <span style="font-weight:bold; color:green">Spark/MLlib</span></div><hr>
<div style="text-align:right;">Папулин С.Ю. <span style="font-style: italic;font-weight: bold;">(papulin_hse@mail.ru)</span></div>

<a name="0"></a>
<div><span style="font-size:14pt; font-weight:bold">Содержание</span>
    <ol>
        <li><a href="#1">Регрессия</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#1a">Линейная регрессия</a></li>
                <li><a href="#1b">Решающее дерево</a></li>
                <li><a href="#1c">Полимиальная регрессия</a></li>
            </ol>
        </li>
        <li><a href="#2">Классификация</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#2a">Логистическая регрессия</a></li>
                <li><a href="#2b">Решающее дерево</a></li>
                <li><a href="#2c">Полимиальная логистическая регрессия </a></li>
            </ol>
        </li>
        <li><a href="#3">Кластеризация</a>
            <ol style = "list-style-type:lower-alpha">
                <li><a href="#3a">K-Mean</a></li>
            </ol>
        </li>
        <li><a href="#4">Источники</a>
        </li>
    </ol>
</div>

<p><b>Инициализация</b></p>

В данной работе будут задействованы pyspark с библиотекой MLlib, numpy для мат.расчетов и matplotlib для построения графиков.

In [1]:
import pyspark

In [2]:
import numpy as np

In [3]:
import matplotlib.pyplot as plt
%matplotlib inline

from matplotlib.colors import ListedColormap
clrMap = ListedColormap(["blue", "red", "green"])

In [4]:
from pyspark.mllib.regression import LabeledPoint

Рассмотрены два основных подхода в анализе данных:
1. Обучение с учителем (регрессия, классификация)
2. Обучение без учителя (кластеризация)

Отличаются эти подходы тем, что в случае обучения с учителем мы уже имеем данные с правильными результатами, с помощью которых мы и производим восстановление зависимости целевой переменной от признаков (что это такое см. ниже). <br>
В случае обучения без учителя у нас нет данных, на которые мы могли бы положиться, поэтому оно используется в специфических задачах таких, как кластеризация, когда наша задача правильно "отделить" объекты друг от друга на основе их признаков (т.е. по факту нам важны преимущественно отношения объектов друг к другу).

<a name="1"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">1. Регрессия</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a name = "1a"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Линейная регрессия
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#1">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#1b">Далее</a>
            </div>
        </div>
    </div>
</div>

Линейная регрессия - метод восстановления линейной зависимости одной целевой переменной (обозначим ее **y**) от переменных-признаков (обозначим их **x**). Также признаки иногда называют предикторами.
Модель линейной регрессии имеет следующий вид: <br> $ y_i = f(x_i, w) + eps $ <br>
где $ y_i $ - это значение целевой переменной в i-ой точке со значениями признаков x_i, <br>
$ w $ - коэффициенты весов признаков, <br>
$ eps $ - значение случайной ошибки. <br>

В одномерном случае (когда имеем только один признак) функция $ f(x_i, w) $ имеет следующий вид: <br>
$ f(x_i, w) = w_0 + w_1*x_i $ <br>
где $ w_0 $ - это свободный коэффициент (детальный рассказ - в спец.литературе), <br>
    $ w_1 $ - вес признака $ x_i $ <br>
Таким образом, вся модель имеет следующий вид: <br>
$ y_i = w_0 + w_1*x_i + eps $

Примером линейной модели в одномерном случае может служить попытка восстановления зависимости роста от веса. В данном случае мы имеем целевую переменную рост и один признак - вес. Если не учитывать выбросы, то по большому счету эту зависимость можно достаточно точно представить линейной моделью.

In [5]:
from pyspark.mllib.regression import LinearRegressionWithSGD

In [6]:
data_rdd = sc.textFile("/user/cloudera/Lab_4/Reg_A5.csv")

Для библиотеки MLlib необходимо представлять признаки в виде tuple (по сути - пар), где первым элементом является значение целевой переменной в точке, а вторым - вектор признаков в этой точке. Реализуется такое представление с помощью класса LabeledPoint.

In [7]:
def getLabeledPoint(line):
    if line[0]!="X":
        els = [float(el) for el in line.split(",")] 
        return LabeledPoint(els[1], els[0:1])

In [None]:
data_xy_rdd = data_rdd.map(getLabeledPoint).filter(lambda x: x!=None)
data_xy_rdd.take(5)

Отобразим загруженные точки на графике

In [None]:
for el in data_xy_rdd.collect():
    plt.plot(el.features[0], el.label, "bo")
plt.grid(True)
plt.title("Initial Data")
plt.xlabel("X0")
plt.ylabel("X1")
plt.show()

Разделим все данные на обучающую и тестовую выборку.
На обучающей будет происходить восстановление исходной модели, а на тестовой мы проверим ее точность.

In [12]:
train_rdd, test_rdd = data_xy_rdd.randomSplit([0.7, 0.3], seed=100)

In [None]:
train_rdd.count(), test_rdd.count()

Обучать модель будем с помощью метода стохастического градиентного спуска.<br>
В качестве целевой функции ("функционал") будем использовать среднеквадратичную ошибку алгоритма, которая равна сумме квадратов отклонения наших прогнозов от реальных значений деленная на количество элементов в выборке. Этот функционал нам надо минимизировать, чтобы получить минимальное отклонение нашей функции от реальных значений.<br>
Основная идея метода стохастического градиентного спуска заключается в том, что с помощью высчитывания градиента в точках, мы получаем направление наибольшего роста целевой функции. Т.к. нам нужно минимзировать значения целевой функции, то мы изменяем веса признаков таким образом, чтобы с каждой итерации изменения весов мы двигались по направлению антиградиента (т.е. "спускались" в направлении противоположному градиенту).<br>
Более подробное описание можно найти в интернете.

In [None]:
model_linReg = LinearRegressionWithSGD.train(train_rdd, intercept=True)
model_linReg

Проверка на тестовом подмножестве

In [None]:
pairsTruePred_rdd = test_rdd.map(lambda x: (x.label, model_linReg.predict(x.features)))
pairsTruePred_rdd.take(5)

In [None]:
mse = pairsTruePred_rdd.map(lambda x: (x[0]-x[1])**2).reduce(lambda x1, x2: x1+x2) / test_rdd.count()
mse

Построение итоговых графиков

In [None]:
xx = np.arange(0, 5, 0.01)[np.newaxis,:]
plt.figure(1)
plt.subplot(1,1,1)

plt.plot(xx[0,:], model_linReg.predict(xx), c="black", label="", linewidth=2)
plt.title("Initial Data")
plt.xlabel("X0")
plt.ylabel("X1")
for el in data_xy_rdd.collect():
    plt.plot(el.features[0], el.label, "bo")
plt.grid(True)

plt.show()

К особенностям линейных моделей относится следующее:
• Линейные модели быстро учатся. В случае со среднеквадратичной ошибкой для вектора весов даже есть аналитическое решение. Также легко применять для линейных моделей градиентный спуск.
• При этом линейные модели могут восстанавливать только простые зависимости из-за ограниченного количества параметров (степеней свободы).
• В то же время линейные модели можно использовать для восстановления нелинейных зависимостей за счет перехода к спрямляющему пространству, что является довольно сложной операцией.

Последний пункт не рассматривался, т.к. это довольно глубокое погружение в тему, что не является целью данной лабораторной.

<a name = "1b"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Решающее дерево
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#1a">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#1c">Далее</a>
            </div>
        </div>
    </div>
</div>

Для понимания рассмотрим следующее дерево решений определение болезни у пациента (очень упрощенное):
* Температура выше 37?
    * Да:
        * Болит горло?
            * Да -> Ангина
            * Нет -> Грипп
    * Нет -> Здоров
    
Данный пример представляет собой бинарное дерево, в каждой внутренней вершине записано условие, а в каждом листе дерева — прогноз. Строго говоря, не обязательно решающее дерево должно быть бинарным, но как правило используются именно бинарные.

Условия во внутренних вершинах выбираются крайне простыми. Наиболее частый вариант — проверить, лежит ли значение некоторого признака $ x^j $ левее, чем заданный порог t: <br>
$ [x^j \leq t] $ <br>
Это очень простое условие, которое зависит всего от одного признака, но его достаточно, чтобы решать многие сложные задачи.
Прогноз в листе является вещественным числом, если решается задача регрессии. Если же решается задача классификации, то в качестве прогноза выступает или класс, или распределение вероятностей классов.

Про обучении модели использующей решающие деревья выполняется задача подбора пороговых значений таким образом, чтобы они максимально точно отделяли классы в случае задач классификации или давали максимально близкие значения в случае задач регрессии.

In [None]:
from pyspark.mllib.tree import DecisionTree, DecisionTreeModel

Обучение

In [None]:
model_decTree = DecisionTree.trainRegressor(train_rdd, impurity="variance", maxDepth=2, categoricalFeaturesInfo={})
model_decTree

Тестирование

In [None]:
test_pred_rdd = model_decTree.predict(test_rdd.map(lambda x: x.features))

In [None]:
pairsTruePred_rdd = test_rdd.map(lambda x: x.label).zip(test_pred_rdd)
pairsTruePred_rdd.take(5)

In [None]:
mse = pairsTruePred_rdd.map(lambda x: (x[0]-x[1])**2).reduce(lambda x1, x2: x1+x2) / test_rdd.count()
mse

Построение итоговых графиков

In [None]:
#Построение итоговых графиков
xx = np.arange(0, 5, 0.01)
pr = [model_decTree.predict([el]) for el in xx]

plt.figure(1)
plt.subplot(1,1,1)
plt.plot(xx, pr, c="black", label="", linewidth=2)
plt.title("Initial Data")
plt.xlabel("X0")
plt.ylabel("X1")
for el in data_xy_rdd.collect():
    plt.plot(el.features[0], el.label, "bo")
plt.grid(True)

plt.show()

Стоит отметить, что решающие деревья крайне склонны к переобучению. Связано это с тем, что чем глубже дерево, тем точнее результат оно дает на обучающей выборке, но тем меньше его обобщающая способность, т.е. на тестовой выборке результат будет плохой. <br>
Для предотвращения переобучения ограничивают глубину дерева, но это может также привести к плохой точности, поэтому чаще всего используют решающие деревья как часть **случайных лесов**.<br>
Случайный лес - это построение решающий деревьев небольшой глубины на случайных подвыборках обучающих выборок с дальнейшим усреднением пороговых значений. Этот метод крайне эффективен и модель RandomForest (наряду с градиентным бустингом) часто является классическим выбором в случае, если не знаешь, какой подход выбрать.

<a name = "1c"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            c. Полимиальная регрессия
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#1b">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#2">Далее</a>
            </div>
        </div>
    </div>
</div>

В случае, когда необходимо восстановить нелинейные зависимости, линейные модели обычно дают плохой результат. Для того, чтобы создать эффективную модель для нелинейных зависимостей используются спрямляющие пространства признаков.<br>
Спрямляющим пространством признаков называется такое пространство, в котором задача хорошо решается линейной моделью.<br>
Мы будем строить спрямляющее пространство посредством добавления к уже имеющимся признакам полиномиальных:
$ (x_1,...,x_d) → (x_1,...,x_d,...,x_ix_j,...,x_ix_jx_k,...) $

In [None]:
#from sklearn.preprocessing import PolynomialFeatures
#from pyspark.mllib.feature import Normalizer
from pyspark.mllib.feature import StandardScaler

Формирование полинома + Нормализация

In [None]:
deg = 10

In [None]:
def get1DPolynomialFeatures(x, degree=deg):
    return [x**i for i in range(0, degree+1)]

In [None]:
norm = StandardScaler(withMean=True, withStd=True)

In [None]:
train_labels_rdd = train_rdd.map(lambda x: x.label)
train_features_poly_rdd = train_rdd.map(lambda x: get1DPolynomialFeatures(x.features[0], deg))

In [None]:
train_features_poly_rdd.take(5)

In [None]:
scaler = norm.fit(train_features_poly_rdd)

In [None]:
train_features_poly_norm_rdd = scaler.transform(train_features_poly_rdd)
train_features_poly_norm_rdd.take(5)

In [None]:
train_poly_rdd = train_labels_rdd.zip(train_features_poly_norm_rdd).map(lambda x: LabeledPoint(x[0], x[1]))
train_poly_rdd.take(5)

In [None]:
test_labels_rdd = test_rdd.map(lambda x: x.label)
test_features_poly_rdd = test_rdd.map(lambda x: get1DPolynomialFeatures(x.features[0], deg))

In [None]:
test_features_poly_norm_rdd = scaler.transform(test_features_poly_rdd)
test_features_poly_norm_rdd.take(5)

In [None]:
test_poly_rdd = test_labels_rdd.zip(test_features_poly_norm_rdd).map(lambda x: LabeledPoint(x[0], x[1]))
test_poly_rdd.take(5)

Обучение

In [None]:
model_linReg = LinearRegressionWithSGD.train(train_poly_rdd, intercept=True, regParam=10e-4, regType="l2", iterations=300)
model_linReg

Тестирование

In [None]:
pairsTruePred_rdd = test_poly_rdd.map(lambda x: (x.label, model_linReg.predict(x.features)))
pairsTruePred_rdd.take(5)

In [None]:
mse = pairsTruePred_rdd.map(lambda x: (x[0]-x[1])**2).reduce(lambda x1, x2: x1+x2) / test_rdd.count()
mse

Построение итоговых графиков

In [None]:
dd = sc.parallelize(list(map(get1DPolynomialFeatures, np.arange(0, 5, 0.01))))
dd.take(5)

In [None]:
ss=scaler.transform(dd)
ss.take(5)

In [None]:
ff = ss.map(lambda x: model_linReg.predict(x))
yy = ff.collect()

In [None]:
xx = np.arange(0, 5, 0.01)[np.newaxis,:]
plt.figure(1)
plt.subplot(1,1,1)

#xx1 = scaler.transform(np.array(list(map(get1DPolynomialFeatures, np.arange(0, 5, 0.01)))))

plt.plot(xx[0,:], yy, c="black", label="", linewidth=2)
plt.title("Initial Data")
plt.xlabel("X0")
plt.ylabel("X1")
for el in data_xy_rdd.collect():
    plt.plot(el.features[0], el.label, "bo")
plt.grid(True)

plt.show()

<a name="2"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">2. Классификация</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a name = "2a"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. Логистическая регрессия
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#2b">Далее</a>
            </div>
        </div>
    </div>
</div>

Логистическая регрессия – это метод обучения с учителем в задаче бинарной классификации Y = {0, 1}.
Принцип следующий: делается предположение, что вероятность, что объект имеет класс 1 равна <br>
$ {\mathbb  {P}}\{y=1\mid x\}=f(z) $ <br>
где $ {\displaystyle z=w _{1}x_{1}+\ldots +w _{n}x_{n}}$ <br> $ x_1, .. , x_n $ - признаки, $ w_1, .. , w_n$ - веса признаков.<br>
$ f(z) $ — так называемая логистическая функция (иногда также называемая сигмоидом или логит-функцией):<br>
$ f(z)={\frac{1}{1 + e^{-z}}} $ <br>
Далее берется определенный порог от 0 до 1 и в зависимости от значения f(z) определяется, к какому классу принадлежит данный объект.

In [None]:
from pyspark.mllib.classification import LogisticRegressionWithSGD

In [None]:
from pyspark.mllib.linalg import Vectors

In [None]:
def getLabeledPoint(line):
    if line[0]!="X":
        els = [float(el) for el in line.split(",")]
        return LabeledPoint(els[2], els[:2])

In [None]:
data_rdd = sc.textFile("Datasets/Cl_A5_V2.csv")

In [None]:
data_xy_rdd = data_rdd.map(getLabeledPoint).filter(lambda x: x!= None)
data_xy_rdd.take(5)

In [None]:
#Отображение исходных данных
plt.title("Initial Data")
plt.xlabel("X0")
plt.ylabel("X1")
for el in data_xy_rdd.collect():
    plt.plot(el.features[0], el.features[1], "o", color=clrMap.colors[int(el.label)])
plt.grid(True)
plt.show()

Формирование обучающего и терировочного подмножеств

In [None]:
train_rdd, test_rdd = data_xy_rdd.randomSplit([0.7, 0.3], seed=0)

Обучение

In [None]:
model_logReg = LogisticRegressionWithSGD.train(train_rdd, intercept=True)
model_logReg

Тестирование

In [None]:
pairsTruePred_rdd = test_rdd.map(lambda x: (x.label, model_logReg.predict(x.features)))
pairsTruePred_rdd.take(5)

In [None]:
accuracy = pairsTruePred_rdd.filter(lambda x: x[0] == x[1]).count() / test_rdd.count()
accuracy

In [None]:
points

In [None]:
step = 0.1
xx, yy = np.meshgrid(np.arange(-2, 14, step), np.arange(-4, 12, step))
points = np.c_[xx.ravel(), yy.ravel()]
Z = np.array(list(map(model_logReg.predict, points)))
Z = Z.reshape(xx.shape)
plt.figure(1, figsize=[12, 4])

plt.subplot(1,2,1)
plt.title("Train data")
plt.contourf(xx, yy, Z, cmap=clrMap, alpha=.5)

for el in train_rdd.collect():
    plt.plot(el.features[0], el.features[1], "o", color=clrMap.colors[int(el.label)], markersize=8, alpha=0.5)
    plt.plot(el.features[0], el.features[1], "o", color=clrMap.colors[int(model_logReg.predict(el.features))], markersize=4)
    
plt.grid(True)

plt.subplot(1,2,2)
plt.title("Test data")
plt.contourf(xx, yy, Z, cmap=clrMap, alpha=.5)

for el in test_rdd.collect():
    plt.plot(el.features[0], el.features[1], "o", color=clrMap.colors[int(el.label)], markersize=8, alpha=0.5)
    plt.plot(el.features[0], el.features[1], "o", color=clrMap.colors[int(model_logReg.predict(el.features))], markersize=4)
plt.grid(True)

plt.show()

In [None]:
model_logReg.save(sc, "logReg")
#model_logReg_reload = LogisticRegressionModel.load(sc, "logReg")

<a name = "2b"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            b. Решающее дерево
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2a">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#2c">Далее</a>
            </div>
        </div>
    </div>
</div>

<a name = "2c"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            c. Полимиальная логистическая регрессия
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#2b">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#3">Далее</a>
            </div>
        </div>
    </div>
</div>

<a name="3"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">3. Кластеризация</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a name = "3a"></a>
<div style = "display:table; width:100%">
    <div style = "display:table-row">
        <div style = "display:table-cell; width:80%; font-style:italic; font-weight:bold; font-size:12pt">
            a. K-Means
        </div>
        <div style="display:table-cell; border:1px solid lightgrey; width:20%">
            <div style = "display:table-cell; width:10%; text-align:center; background-color:whitesmoke;">
                <a href="#3">Назад</a>
            </div>
            <div style = "display:table-cell; width:10%; text-align:center;">
                <a href="#3b">Далее</a>
            </div>
        </div>
    </div>
</div>

In [None]:
from pyspark.mllib.clustering import KMeans, KMeansModel

In [None]:
def getArray(x):
    return np.array(x.split(","))

In [None]:
data_rdd = sc.textFile("Datasets/Clusters.csv")
#data_rdd.take(5)

In [None]:
data_arr_rdd = data_rdd.map(lambda x: getArray(x))
#data_arr_rdd.take(5)

In [None]:
for el in data_arr_rdd.collect():
    plt.plot(el[0], el[1], "bo")
plt.grid(True)
plt.title("Initial Data")
plt.xlabel("X0")
plt.ylabel("X1")
plt.show()

Обучение

In [None]:
clusters = KMeans.train(data_arr_rdd, 3, maxIterations=10, runs=10, initializationMode="k-means||")
clusters

In [None]:
result_rdd = data_arr_rdd.map(lambda x: clusters.predict(x)).zip(data_arr_rdd)
result_rdd.take(5)

In [None]:
for el in result_rdd.collect():
    plt.plot(el[1][0], el[1][1], "o", color=clrMap.colors[el[0]])
        
plt.grid(True)
plt.title("Initial Data")
plt.xlabel("X0")
plt.ylabel("X1")
plt.show()

In [None]:
clusters.save(sc, "clusterModel")
sameModel = KMeansModel.load(sc, "clusterModel")

<a name="4"></a>
<div style="display:table; width:100%; padding-top:10px; padding-bottom:10px; border-bottom:1px solid lightgrey">
    <div style="display:table-row">
        <div style="display:table-cell; width:80%; font-size:14pt; font-weight:bold">4. Источники</div>
    	<div style="display:table-cell; width:20%; text-align:center; background-color:whitesmoke; border:1px solid lightgrey"><a href="#0">К содержанию</a></div>
    </div>
</div>

<a href="http://spark.apache.org/docs/latest/ml-guide.html">Machine Learning Library (MLlib) Guide</a>