# Лаба 8. Мониторинг качества работы модели машинного обучения с использованием дэшбордов

Итак, у нас есть модель и предсказания пола и возрастной группы по ней. Мы можем посчитать метрику модели, зная метки тестового датасета. Однако в проме у нас нет истинных меток, и надо как-то понимать, модель дает нам то качество предсказаний, на которое мы расчитываем? Не деградирует ли она со временем?

К этой проблеме подходят по разному.

1. Бизнес метрика более высокого уровня.

Мы не может посчитать точность предсказания модели, но мы можем посчитать эффект применения модели. Например, мы определяем пол и возраст новых пользователей, чтобы сделать им таргетированное предложение в рамках маркетинговой кампании. Тогда мы можем подсчитать эффективность кампании с таргетированием через коэффициент конверсии, то есть сколько людей приняло предложение. Конечно, наша модель тут только один из факторов успеха кампании, но все же, стат. методами мы сможем оценить вклад и нашей модели. Например, можем сравнивать конверсию клиентов таргетированной рекламы с полностью случайной рекламной рассылкой. Или сравнивания с разультатами работы другой модели.

2. А/Б тестирование

Мы сравниваем работу модели на двух группах: одна – обычные рандомные пользователи, другая – контрольная – состоит из пользователей, которых мы знаем.

3. Смотрим на внутренние показатели работы модели.

К таковым относится, например, распределение предсказаний модели по классам. Если оно начинает сдвигаться со временем, то возможно, что надо переучивать модель на свежих данных.

## I. Задача с высоты птичьего полета

Давайте проиллюстрируем последний способ. Вы запишите ваши предсказания в ElasticSearch и далее построите dashboard с графиками изменений числа предсказаний со временем. По линиям тренда будет видно, дрейфует ли модель.

## II. Реализация

Возмите 5000 предсказаний, которые у вас есть после выполнения Лабы 7. Разбейте их на 25 частей. Будем предполагать, что каждая часть – предсказания за определенный день, начиная с 1-го июня 2020. 

Измените ваше приложение из Лабы 7а таким образом, чтобы записывать предсказания в индекс Elasticsearch под названием `name_surname_lab08`. Помимо предсказаний, в сообщениях также должно содержаться поле `date` с временной меткой в миллисекундах эпохи, назначенной в соответствии с описанным выше – то есть первым 200 сообщениям должна назначаться метка 1-го июня, следующим – 2-го июня и т.д. Перед тем как записывать события в Elastic, создайте индекс используя REST API. Смотрите короткую [справку по АПИ Elasticsearch и Kibana](Elastic_API.md).

Постройте в Кибане график (visualization) с числом предсказаний каждого класса в предсказаниях в зависимости от времени.  

Для этого перейдите в Kibana по адресу 10.0.1.9:5601, в пункте меню Visualization выберите тип `timelion`, и в качестве `timelion expression` введите: `.es(index=name_surname_lab08, metric=count, timefield=date, split=gender_age:10)`/ Сохраните под именем `name_surname_lab08`.

Посмотрите, меняется ли распределение классов со временем? 

График должен называться `name_surname_lab08` и выглядеть примерно так:

![lab08.png](img/lab08.png)

Далее постройте график с трендами придсказаний каждого класса. Воспользуйтесь `.trend()`. Повторите процедуру, только добавьте к концу выражения `.trend()`. Этот график должен называться `name_surname_lab08_trend` и выглядеть он должен примерно так:

![lab08_trend.png](img/lab08_trend.png)

Посмотрите, есть ли тренды? В качестве самостоятельного задания подсчитайте статистическими методами, можно ли сделать вывод о наличии тренда? Т.е. примите в качестве нулевой гипотезы, что тренда нет, а в качестве альтернативной, что он есть. Посчитайте p-value.

Далее создайте dashboard в пункте меню `Dashboard` под названием `name_surname_lab08` и добавьте туда оба графика.

## III. Оформление работы

Ваш проект в репо в подпапке lab08 должен называться `model_quality`.

## IV. Доступ к Elastic и Kibana

* Elasticsearch REST API: 10.0.1.9:9200
* Kibana Web UI, REST API: 10.0.1.9:5601 

Для логина в Web UI и аутентикации REST API используйте ваш логин и пароль в ЛК. Web UI доступен с пробросом порта по туннелю или через socks-прокси. Авторизация аккаунтов настроена таким образом, что вы можете создавать индексы с шаблоном name_surname*, и не имеете доступа ни к каким другим индексам.

## V. Проверка

Чекер найдет ваш dashboard, скачает его в формате `json`, и проверит.

### Поля чекера

* `git_correct` – проверка репо
* `git_errors` – ошибки репо
* `index_correct` – в Elasticsearch имеется индекс `name_surname_lab08` с правильными полями
* `dashboard_correct` – в Kibana имеется dashboard `name_surname_lab08` и он правильный.
* `lab_result`

### Cамопроверка

#### Поиск dashboard

`curl -X GET 10.0.1.9:5601/api/saved_objects/_find?type=dashboard&search=artem_trunov_lab08`

#### Считывание dashboard

`curl -X GET 10.0.1.9:5601/api/kibana/dashboards/export?dashboard=d818cd30-a985-11ea-8889-8de7ce1ad0f9`

В вашем dashboard должно быть три объекта - один с типом dashboard и названием name_surname_lab08, и два с типом visualization и названиями name_surname_lab08, name_surname_lab08_trend.



In [1]:
import org.apache.spark.{SparkContext, SparkConf}
import org.apache.spark.sql.{SQLContext, DataFrame}
import org.apache.spark.sql.functions.{col, lit, current_timestamp, explode, to_timestamp, callUDF, regexp_replace
                                           , from_unixtime, collect_list}
import org.apache.spark.ml.{Pipeline, PipelineModel}

val conf = new SparkConf()
                            .setAppName("lab08")

val sparkSession = SparkSession.builder()
  .config(conf=conf)
  .getOrCreate()

var sc = sparkSession.sparkContext
val sqlContext = new SQLContext(sc)

conf = org.apache.spark.SparkConf@5d693551
sparkSession = org.apache.spark.sql.SparkSession@20092f9a
sc = org.apache.spark.SparkContext@50eacc13
sqlContext = org.apache.spark.sql.SQLContext@1bd92c57




org.apache.spark.sql.SQLContext@1bd92c57

In [2]:
val model_path = "/user/kirill.likhouzov/lab07/"

model_path = /user/kirill.likhouzov/lab07/


/user/kirill.likhouzov/lab07/

In [3]:
%AddJar file:///data/home/kirill.likhouzov/Drivers/elasticsearch-spark-20_2.11-7.6.2.jar

Starting download from file:///data/home/kirill.likhouzov/Drivers/elasticsearch-spark-20_2.11-7.6.2.jar


Waiting for a Spark session to start...

Finished download of elasticsearch-spark-20_2.11-7.6.2.jar


In [4]:
val dataset = spark
    .read
    .json("/labs/lab08/lab04_test5000_with_date_lab08.json")
    .repartition(1)

dataset.show(1)

+-------------+--------------------+--------------------+
|         date|                 uid|              visits|
+-------------+--------------------+--------------------+
|1590969600000|0000e7ca-32e6-4be...|[[1419929378563, ...|
+-------------+--------------------+--------------------+
only showing top 1 row



dataset = [date: bigint, uid: string ... 1 more field]


<console>:6: error: Symbol 'type scala.AnyRef' is missing from the classpath.
This symbol is required by 'class org.apache.spark.sql.catalyst.QualifiedTableName'.
Make sure that type AnyRef is in your classpath and check for conflicting dependencies with `-Ylog-classpath`.
A full rebuild may help if 'QualifiedTableName.class' was compiled against an incompatible version of scala.
  lazy val $print: String =  {
           ^


[date: bigint, uid: string ... 1 more field]

In [5]:
val dataset_host = dataset.select($"uid"
                                ,$"date"
                                ,explode($"visits").as("web"))  
                        .withColumn("timestamp", $"web.timestamp")
                        .withColumn("url", $"web.url")
                        .withColumn("host", callUDF("parse_url", $"url", lit("HOST")))
                        .select($"uid"
                                ,$"date"
                                ,to_timestamp(from_unixtime($"timestamp" / 1000)).as("datetime_web")
                                ,regexp_replace($"host", "www.", "").as("host_not_www"))

dataset_host.show(3)

+--------------------+-------------+-------------------+--------------+
|                 uid|         date|       datetime_web|  host_not_www|
+--------------------+-------------+-------------------+--------------+
|0000e7ca-32e6-4be...|1590969600000|2014-12-30 11:49:38|hotelcosmos.ru|
|0000e7ca-32e6-4be...|1590969600000|2014-12-30 11:48:43|hotelcosmos.ru|
|0000e7ca-32e6-4be...|1590969600000|2014-12-17 18:52:17|business101.ru|
+--------------------+-------------+-------------------+--------------+
only showing top 3 rows



dataset_host = [uid: string, date: bigint ... 2 more fields]


[uid: string, date: bigint ... 2 more fields]

In [6]:
val test = dataset_host.groupBy("uid", "date")
                        .agg(collect_list("host_not_www").as("domains"))
                        .repartition(1)

print(test.count)
test.show(3)

5000+--------------------+-------------+--------------------+
|                 uid|         date|             domains|
+--------------------+-------------+--------------------+
|01bfb888-2e76-49d...|1591056000000|[dns-shop.ru, dns...|
|0201e7fd-4d86-450...|1591142400000|[privatehomeclips...|
|02d13538-4768-4e5...|1591228800000|       [elementy.ru]|
+--------------------+-------------+--------------------+
only showing top 3 rows



test = [uid: string, date: bigint ... 1 more field]


[uid: string, date: bigint ... 1 more field]

In [7]:
val model = PipelineModel
                        .load(model_path)

val prediction  = model
                        .transform(test)
                        .select($"uid"
                                ,$"date"
                                ,$"gender_age_pred".as("gender_age"))
                        .repartition(1)

prediction.show(3)

+--------------------+-------------+----------+
|                 uid|         date|gender_age|
+--------------------+-------------+----------+
|01bfb888-2e76-49d...|1591056000000|   M:25-34|
|0201e7fd-4d86-450...|1591142400000|   M:25-34|
|02d13538-4768-4e5...|1591228800000|   M:25-34|
+--------------------+-------------+----------+
only showing top 3 rows



model = pipeline_25c0402f8ea6
prediction = [uid: string, date: bigint ... 1 more field]


<console>:6: error: Symbol 'type scala.AnyRef' is missing from the classpath.
This symbol is required by 'trait org.apache.spark.ml.tree.DecisionTreeRegressorParams'.
Make sure that type AnyRef is in your classpath and check for conflicting dependencies with `-Ylog-classpath`.
A full rebuild may help if 'DecisionTreeRegressorParams.class' was compiled against an incompatible version of scala.
  lazy val $print: String =  {
           ^


[uid: string, date: bigint ... 1 more field]

In [8]:
val esOptions = 
    Map(
        "es.nodes" -> "10.0.1.9:9200/kirill_likhouzov_lab08", 
        "es.batch.write.refresh" -> "false",
        "es.nodes.wan.only" -> "true"   
    )

esOptions = Map(es.nodes -> 10.0.1.9:9200/kirill_likhouzov_lab08, es.batch.write.refresh -> false, es.nodes.wan.only -> true)


Map(es.nodes -> 10.0.1.9:9200/kirill_likhouzov_lab08, es.batch.write.refresh -> false, es.nodes.wan.only -> true)

In [9]:
prediction
    .write
    .format("org.elasticsearch.spark.sql")
    .options(esOptions)
    .save("kirill_likhouzov_lab08-{date}/_doc")

In [10]:
val esDf = spark
                .read
                .format("es")
                .options(esOptions)
                .load("kirill_likhouzov_lab08-*")
esDf.printSchema
esDf.show(1, 200, true)

root
 |-- date: timestamp (nullable = true)
 |-- gender_age: string (nullable = true)
 |-- uid: string (nullable = true)

-RECORD 0------------------------------------------
 date       | 2020-06-02 03:00:00                  
 gender_age | M:25-34                              
 uid        | 01bfb888-2e76-49d6-965c-4a11bcc164dd 
only showing top 1 row


esDf = [date: timestamp, gender_age: string ... 1 more field]


[date: timestamp, gender_age: string ... 1 more field]

In [11]:
esDf.count

5000

In [12]:
sc.stop

In [None]:
// ssh -i npl.pem -L 5601:10.0.1.9:5601 kirill.likhouzov@spark-de-master1.newprolab.com

In [None]:
// // удаление индекса
// curl -X DELETE http://kirill.likhouzov:password@10.0.1.9:9200/kirill_likhouzov_lab08-*

// // просмотр индекса
// curl http://kirill.likhouzov:password@10.0.1.9:9200/kirill_likhouzov_lab08-*

// // проверка дашборда
// curl -X GET 10.0.1.9:5601/api/kibana/dashboards/export?dashboard=6bd54520-b92c-11ea-8889-8de7ce1ad0f9

In [None]:
// PUT _template/kirill_likhouzov_lab08
// {
//   "index_patterns": ["kirill_likhouzov_lab08-*"],
//   "settings": {
//     "number_of_shards": 1,
//     "number_of_replicas" : 1
//   },
//   "mappings": {
//     "_doc": {
//       "dynamic": true,
//       "_source": {
//         "enabled": true
//       },
//       "properties": {
//         "uid": {
//         "type": "keyword"
//           },
//           "gender_age": {
//             "type": "keyword"
//           },
//           "date": {
//             "type": "date",
//             "format": "strict_date_optional_time||epoch_millis"
//           }
//       }
//     }
//   }
// }