# Process Mining с sberpm

Библиотека __`sberpm`__ предназначена для анализа и исследования процессов, построения их в виде графов и решения смежных задач классификации и кластеризации с использованием алгоритмов машинного обучения.

__Для получения полной версии библиотеки, напишите письмо с запросом на aabugaenko@sberbank.ru__

__Страница платформы SberPM:
https://developers.sber.ru/portal/products/sber-process-mining__

[![title](poster_PM/poster.png)](https://developers.sber.ru/portal/products/sber-process-mining)

## Оглавление

[----------  Предварительная обработка данных  ----------](#------------Предварительная-обработка-данных------------)

I. [Мэтчинг таблиц](#I.-Мэтчинг-таблиц)

II. [Генератор логов](#II.-Генератор-логов) # в полной версии библиотеки

III. [Синтетические ID процесса](#III.-Синтетические-ID-процесса)  # в полной версии библиотеки

IV. [DataHolder](#IV.-DataHolder)

[----------  Автоматическое исследование с помощью искусственного интеллекта  ----------](#------------Автоматическое-исследование-с-помощью-искусственного-интеллекта------------) # в полной версии библиотеки

[----------  Традиционный Process Mining  ----------](#----------Традиционный-Process-Mining----------)

I. [Майнеры и визуализация графов](#I.-Майнеры-и-визуализация-графов)
 1. [SimpleMiner](#1.-SimpleMiner)
 2. [CausalMiner](#2.-CausalMiner)
 3. [HeuMiner](#3.-HeuMiner)
 4. [AlphaMiner](#4.-AlphaMiner)
 5. [AlphaPlusMiner](#5.-AlphaPlusMiner)
 6. [InductiveMiner](#6.-InductiveMiner)
 7. [ML-miners](#7.-ML-miners)
 8. [NLP-Miner](#8.-NLP-miner) # в полной версии библиотеки
 9. [Correlation-Miner](#9.-Correlation-miner)
 10. [II-miner](#10.-II-miner)

II. [Метрики](#II.-Метрики)
- [Метрики + графы](#Метрики-+-графы)

III. [Conformance Checking](#III.-Conformance-Checking)

 IV. [BPMN](#IV.-BPMN)

V. [Визуализация](#V.-Визуализация)

[---------- Машинное-обучение ----------](#----------Машинное-обучение----------)

I. [Кластеризация этапов](#I.-Кластеризация-этапов) # в полной версии библиотеки

II. [Автоматический поиск неэффективностей](#II.-Автоматический-поиск-неэффективностей) # в полной версии библиотеки

III. [Поиск аномалий](#III.-Поиск-аномалий) 

IV. [Факторный анализ](#IV.-Факторный-анализ) # в полной версии библиотеки

V. [Модуль автоматического построения моделей](#V.-Модуль-автоматического-построения-моделей) # в полной версии библиотеки

VI. [Рекомендательная система](#VI.-Рекомендательная-система) # в полной версии библиотеки

VII. [Анализ текстов](#VII.-Анализ-текстов) # в полной версии библиотеки

VIII. [Сентиментный анализ](#VIII.-Сентиментный-анализ) # в полной версии библиотеки

IX. [Поиск счастливого пути](#IX.-Поиск-счастливого-пути) # в полной версии библиотеки

X. [Предсказание структуры графа](#X.-Предсказание-структуры-графа) # в полной версии библиотеки

XI. [Имитационное моделирование и what-if анализ](#XI.-Имитационное-моделирование-и-what-if-анализ)

XII. [Decision Mining](#XII.-Decision-Mining)

XIII. [Хронометраж](#XII.-Хронометраж)


# ----------  Предварительная обработка данных  ----------

## I. Мэтчинг таблиц

Данный модуль **`sberpm.column_matching`** представляет собой систему для анализа значения столбцов в двух таблицах. Анализ производится по текстовым и численным колонкам. Колонки, у которых будут похожие значения в разных таблицах, будут сопоставляться. 

Параметры, передаваемые в класс **ColumnMatching**:
* **data_left (pandas DataFrame)** - первая таблица для сравнения
* **data_right (pandas DataFrame)** - вторая таблица для сравнения
* **p_value_threshold (float = default 0.05)** - порог для p-value теста Колмогорова-Смирнова для численных колонок
* **iou_threshold (float = default 0.5)** - порог для метрики IOU для текстовых колонок

Методы класса **`ColumnMatching`**:
- **get_result_pairs** возвращает пары с похожими колонками из левой и правой таблице.
- **get_result_table** возвращает сводную таблицу, в которой по осям колонки из левой и правой таблице, а в ячейках меры похожести соответствующих колонок.

In [None]:
from pandas import DataFrame
from sberpm.column_matching import ColumnMatching

### Тест на тривиальных синтетических данных

In [None]:
data_left = DataFrame({
    "names left": ["Alexander FFFFF", "Andrew Alexander", "Ilya Emilia", "Ilya Alexander"] * 50,
    "last names left": ["Arkhipov", "Kuznetsova", "Kuznetsova", "Bugaenko"] * 50,
})
data_right = DataFrame({
    "names right": ["Seva Alexander", "Alexander Vera", "Ilya Andrew"] * 50,
    "last names right": ["Zarubin", "Zarubin", "Kuznetsova"] * 50,
})

column_map = ColumnMatching(
    data_left,
    data_right,
    p_value_threshold=0.05,
    iou_threshold=0.25,
)

In [None]:
column_map.map_columns()

In [None]:
column_map.get_result_pairs()

In [None]:
column_map.get_result_table()

## II. Генератор логов
##### <font color='red'>В полной версии библиотеки</font>
__LogGenerator__ - позволяет автоматически генерировать логи процессов, так же его возможно настроить под конкретную задачу. 

## III. Синтетические ID процесса

##### <font color='red'>В полной версии библиотеки</font>

__Pro_n_check__ нумерует экземпляры процессов в зависимости от заданных условий. Создает столбец 'pro_n'.

## IV. DataHolder

`DataHolder` – это базовый класс для хранения данных. Практически все алгоритмы библиотеки работают с ним (принимают на вход).

Для создания класса `DataHolder` необходимо сперва указать путь к файлу или передать DataFrame конструктору, а затем указать __id_column__ и __activity_column__. Однако, для большинства алгоритмов Process Mining, представленных в библиотеке, этих столбцов недостаточно – необходимы хотя бы одна колонка времени (__start_timestamp_column__ и/или __end_timestamp_column__) и колонка пользователей (__user_column__). 

## Параметры DataHolder
- **data (str or pd.DataFrame)** – путь к файлу данных (.csv, .xls(x), .txt) или pd.DataFrame
- **id_column (str)** – столбец id
- **activity_column (str)** – столбец активностей
- __<font color='red'>*</font>start_timestamp_column (str)__ – время начала активностей
- __<font color='red'>*</font>end_timestamp_column (str)__ – время окончания активностей
- __user_column (str)__ – столбец с именами/id пользователей
- __text_column (str)__ – столбец с текстовыми данными
- __duration_column (str)__ – столбец с длительностями активностей (если не задается, то расчитывается как время_активности_2 - время_активности_1, причем если есть только один столбец со временем, то для последней активности в цепочке ставится NaN)
- __duration_unit (str)__ – размерность (единица измерения) значений в столбце duration_column, если он задан

- __sep (str, default=',')__ – разделительный знак (используется только при чтении данных из файла)
- __encoding (str)__ – кодировка (используется только при чтении данных из файла)
- __nrows (int)__ – количество строк для чтения (используется только при чтении данных из файла)

- __preprocess (bool, default=True)__ – предобработка данных (сортировка, удаление None-значений, преобразование типов)
- __time_format (str)__ – формат временных колонок (обязательно задавать для правильного распознавания даты и ускорения работы). Правила написания: https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes
- __time_errors: (str, default='raise')__ – действие при ошибке конвертации
- __dayfirst: (bool, default=None)__ – True, если день стоит в начале строки
- __yearfirst: (bool, default=None)__ – True, если год стоит в начале строки
- __n_jobs (int, default=1)__ – максимальное количество потоков, доступное для некоторых вычислений


__<font color='red'>*</font>__ Для большинства алгоритмов нужно задать хотя бы один из временных столбцов. Если нет информации о типе столбца (время начала или конца), следует задать его как __start_timestamp_column__. Для верного распознавания формата также необходимо указать __time_format__.

Исследуемые данные должны представлять собой журнал событий (лог-файл), в котором хранится информация о последовательности (цепочке) событий (активностей) в бизнес-процессах. Пример журнала событий: $W = \{(a,b,c,d), (a,c,b,d), (a,e,d)\}$, где события $a$, $b$, $c$, $d$ и $e$ сортируются по времени.

## Создание DataHolder 
### – с помощью DataFrame

In [None]:
from sberpm import DataHolder
import pandas as pd

df = pd.DataFrame({'id_column': [1, 1, 2, 2, 3, 3],
                   'activity_column': ['st1', 'st2', 'st1', 'st3', 'st1','st2'],
                   'start_timestamp_column': ['10.05.2020', '10.09.2020', '10.03.2020', '10.04.2020', '10.05.2020', '10.05.2020']})

data_holder = DataHolder(data=df, 
                         id_column='id_column', 
                         activity_column='activity_column', 
                         start_timestamp_column='start_timestamp_column', 
                         time_format='%d.%m.%Y')

### – с помощью указания пути файла

In [None]:
path = 'example.xlsx'
data_holder = DataHolder(data=path, 
                         id_column='id', 
                         activity_column='stages', 
                         start_timestamp_column='dt', 
                         user_column='users', 
                         text_column="some_text",
                         time_format='%Y-%m-%d')

Если данные имеют какой-нибудь разделитель, например '|' как в csv, то после задания колонок, нужно задать параметр __sep='|'__.

## Атрибуты DataHolder
В `DataHolder` названия столбцов хранятся в соответствующих переменных (т.е. нет необходимости запоминать названия колонок):
- id_column
- activity_column
- start_timestamp_column
- end_timestamp_column
- user_column
- text_column
- duration_column

Кроме того, в `DataHolder` хранятся исходные и сгруппированные данные в виде DataFrame, к которым можно обратиться следующим образом:
- data
- grouped_data

## Методы DataHolder
- __check_or_calc_duration__ – рассчитывает длительность каждой активности (в секундах), если это необходимо 
- __get_grouped_data__ – выводит сгруппированные данные по id и указанным колонкам (например, по activity_column и start_timestamp_column)
- __get_unique_activities__ – выводит список уникальных активностей
- __get_columns__ – выводит список с названиями колонок 
- __get_text__ – выводит колонку с текстом, если такая есть
- __get_timestamp_col__ – выводит временную колонку; если их имеется 2, то выводит start_time_column
- __is_interval__ – возвращает True, если это "интервальный лог" (у которого имеются обе временные колонки: начала и конца активности)
- __top_traces_dh__ – возвращает data_holder с данными для n самых частых цепочек

In [None]:
data_holder.check_or_calc_duration()

In [None]:
data_holder.data.head()

In [None]:
data_holder.get_grouped_data(data_holder.activity_column, data_holder.start_timestamp_column).head()

In [None]:
dh_3 = data_holder.top_traces_dh(3)  # данные только для топ 3 цепочек
dfg = dh_3.get_grouped_data(dh_3.activity_column)
dfg.value_counts(dh_3.activity_column)  # проверка

Имея данные о бизнес-процессе с цепочками статусов и временем начала каждого из них, можно загрузить их в `DataHolder` и построить граф, максимально описывающий этот бизнес-процесс.

# ----------  Автоматическое исследование с помощью искусственного интеллекта  ----------

##### <font color='red'>В полной версии библиотеки</font>

### Данный модуль в автоматическом режиме создаёт исследование в виде презентации с отображением диаграмм и графиков, а так же делает выводы на основе полученных результатов. 

[Автоматическое исследование с помощью искусственного интеллекта (beta версия)](#Автоматическое-исследование-с-помощью-искусственного-интеллекта-(beta-версия))



# ----------Традиционный Process Mining----------

## I. Майнеры и визуализация графов

Для построения и отрисовки графа процесса в библиотеке реализовано несколько алгоритмов. Все они хранятся в модуле __`sberpm.miners`__ и имеют один метод:
- __apply__ – строит граф, который сохраняется в поле graph

### 1. SimpleMiner

`SimpleMiner` отрисовывает все ребра, найденные в логе (без какой-либо фильтрации).

В терминах Process Mining:
> Если хотя бы в одной цепочке активностей из лога за некоторой активностью $X$ непосредственно следует активность $Y$ (цепочка вида $...XY...$), то пишут $X>Y$ ($Y$ follows $X$, _follows_ relation).

SimpleMiner рисует ребра между такими парами активностей $X$ и $Y$, если выполняется $X>Y$.

In [None]:
from sberpm.miners import SimpleMiner

In [None]:
# Создание объекта SimpleMiner. В конструктор подается DataHolder и параметры алгоритма 
# (у данного майнера параметров нет)
simple_miner = SimpleMiner(data_holder)

# Запуск алгоритма построения графа
simple_miner.apply()

# Сохранение графа
graph = simple_miner.graph

### Визуализация графа
Для визуализации графа следует использовать `GraphvizPainter` из модуля __`sberpm.visual`__

In [None]:
%matplotlib inline
from sberpm.visual import GraphvizPainter

Класс `GraphvizPainter` имеет методы:
- __apply__ – принимает на вход граф, полученный с помощью майнера, и производит расчет для его отрисовки 
- __write_graph__ – сохраняет граф в требуемом формате (pdf, svg, gv, png)
- __show__ – выводит граф в notebook

In [None]:
# Создание объекта GraphvizPainter
painter = GraphvizPainter()

# Расчет графа по результатам работы SimpleMiner
painter.apply(graph)

# Можно сохранить граф на жесткий диск в формате png, svg, pdf или gv
painter.write_graph('SimpleMiner.png', format='png')

# Можно вывыести граф в notebook
painter.show()

Класс `Graph` из модуля __`sberpm.visual`__ имеет методы:
- __get_nodes__ – получить все узлы
- __get_edges__ – получить все ребра
- __add_node_metric__ – добавить метрику, связанную с узлами графа
- __add_edge_metric__ – добавить метрику, связанную с ребрами графа
- __clear_node_metrics__ – удалить все метрики с нод (узлов)
- __clear_edge_metrics__ – удалить все метрики с ребер

### 2. CausalMiner

`CausalMiner` основан на фильтрации ребер.
> Производные типы связей от $X>Y$:
- прямые связи ($X \to Y$, _causal_ relation) – это связи, где $Х>Y$ и не $Y>X$
- параллельные связи($X\parallel Y $, _parallel_ relation) – это связи, где $Х>Y$ и $Y>X$
- независимые связи ($X\#Y$, independent) – это связи, где не $X>Y$ и не $Y>X$

CausalMiner рисует ребра между такими парами активностей $X$ и $Y$, если выполняется $X\to Y$.

In [None]:
from sberpm.miners import CausalMiner

In [None]:
# Майнер
causal_miner = CausalMiner(data_holder)
causal_miner.apply()
graph = causal_miner.graph

# Отрисовка
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

### 3. HeuMiner

`HeuMiner` – это эвристический майнер, который удаляет наиболее редкие связи в зависимости от задаваемого порога (threshold). 

Параметр **threshold** принимает значения **от 0 до 1**. Чем он больше, тем меньше ребер на графе (оставшиеся ребра считаются более важными).

Источник: https://www.researchgate.net/publication/229124308_Process_Mining_with_the_Heuristics_Miner-algorithm

In [None]:
from sberpm.miners import HeuMiner

In [None]:
# Майнер
heu_miner = HeuMiner(data_holder, threshold=0.8)
heu_miner.apply()
graph = heu_miner.graph

# Отрисовка
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

### 4. AlphaMiner

`AlphaMiner` рисует граф в виде сетей Петри с учетом прямых, параллельных и независимых связей между активностями. 

In [None]:
from sberpm.miners import AlphaMiner

In [None]:
# Майнер
alpha_miner = AlphaMiner(data_holder)
alpha_miner.apply()
graph = alpha_miner.graph

# Отрисовка
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

### 5. AlphaPlusMiner

`AlphaPlusMiner` – имплементация Alpha+ майнера, который также рисует граф в виде сетей Петри с учетом связей, но в отличие от AlphaMiner может работать с одноцикловыми (one-loop) цепочками вида activity_1$\to$activity_1 (самоцикл).

In [None]:
from sberpm.miners import AlphaPlusMiner

In [None]:
# Майнер
alpha_miner_plus = AlphaPlusMiner(data_holder)
alpha_miner_plus.apply()
graph = alpha_miner_plus.graph

# Отрисовка
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

### 6. InductiveMiner

`InductiveMiner` создаёт дерево процесса. Лисья дерева - реальные активности процесса, остальные вершины - операторы. Есть 4 типа операторов: 
- ПОСЛЕДОВАТЕЛЬНЫЙ (`->`), 
- ИСКЛЮЧАЮЩЕЕ ИЛИ (`X`), 
- ПАРАЛЛЕЛЬНЫЙ (`||`), 
- ЦИКЛ (`*`).

Есть дополнительный 'оператор', который говорит о том, что было невозможно найти ни один из 4 операторов, представленных выше:
- СМЕШЕННАЯ  МОДЕЛЬ ('`?`')

*Замечание*: некоторые из листьев дерева могут быть *скрытыми активностями*, отображаемыми чёрными прямоугольниками. Они не являются реальными активностями и используются только для сохранения правильной структуры дерева. 

Например, из лога, состоящего из двух цепочек процесса $W = \{(a, b, c), (a, c)\}$, можно получить следующее дерево процеса:        
`->(a, X(b, скрытая_активность), c)`.

Если во время очередной итерации алгоритм не может найти разрез графа (=подобрать один из 4 операторов), возможно добавить следующее поведение: если существует активность А, при удалении которой удаётся подобрать оператор, алгоритм возвращает следующее дерево:            
`||(X(активность_А, скрытая_активность), граф_без_активности_А)` - то есть активность А считается параллельной остальному графу.


Это поведение может быть включено или выключено параметром **parallel_activity** в классе `InductiveMiner`.

In [None]:
from sberpm.miners import InductiveMiner

In [None]:
# Miner
inductive_miner = InductiveMiner(data_holder)
inductive_miner.apply()
graph = inductive_miner.graph

# Visualization
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

### 7. __ML-miners__

In [None]:
from sberpm.miners import MLMiner

__ML-miner__ - майнер основанный на lasso-регрессии. 

В данном майнере подсчитываются количество повторений каждого этапа в каждом процессе. Рассчитывается лассо-регрессия, в которой столбец одного вида деятельности рассматривается как цель, а остальные столбцы других видов деятельности - как признаки. На ребрах графа отображаются только те отношения, которые имеют абсолютное значение коэффициента лассо-регрессии больше, чем значение порогового значения.

``ML-miner`` рисует ребра между такими парами активностей $X$ и $Y$, если $X$ влияет на $Y$.

* data_holder : DataHolder
    Объект, содержащий журнал событий и имена его необходимых колонок.

* threshold: float (По умолчанию 0.05)
    Порог абсолютного значения коэффициента регрессии. Значения превышающие пороговое значение, считаются значимыми связями между деятельностью.


In [None]:
# Miner
ml_miner = MLMiner(data_holder, threshold=0.1)
ml_miner.apply()
graph = ml_miner.graph

# Visualization
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

#### __Auto-miner__

``Auto-miner`` основан на Sequence Feature Selector.

``Auto-miner`` рисует ребра между такими парами активностей $X$ и $Y$, если $X$ влияет на $Y$.

* data_holder : DataHolder
    Объект, содержащий журнал событий и имена его необходимых столбцов.


In [None]:
from sberpm.miners import AutoMiner

In [None]:
# Miner
autominer = AutoMiner(data_holder)
autominer.apply()
graph = autominer.graph

# Visualization
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

### 8. __NLP-miner__

##### <font color='red'>В полной версии библиотеки</font>

``NLP-miner`` использует для анализа этапов процесса библиотеку ``navec``.

``NLP-miner`` объединяет активности $X$ и $Y$ и удаляет ребра между $X$ и $Y$, если название $X$ похоже на $Y$.

### 9. __Correlation-miner__

``Correlation-miner`` может создать граф журнала событий, в котором нет графы ID экземпляра процесса.

Граф будет иметь метрику 'count' для узлов и ребер.

``Correlation-miner`` использует линейное программирование, чтобы восстановить утраченные экземпляры процесса на основе времени каждого этапа.

* data_holder: DataHolder
    Объект, содержащий журнал событий и имена его необходимых колонки.

* greedy: bool, default=True
    Если True, матрица длительности времени вычисляется жадным способом. Существует вероятность, что решение не будет оптимальным, но это значительно сокращает время и память для больших журналов.

* sparse: bool, default=False
    Используется только когда greedy=False. Если значение True, вычисление матрицы длительности будет производиться с использованием разреженной матрицы. Это может немного увеличить время вычислений, но немного уменьшить память.


In [None]:
from sberpm.miners import CorrelationMiner

# Miner
corr_miner = CorrelationMiner(data_holder)
corr_miner.apply()
graph = corr_miner.graph

# Visualization
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

### 10. __II-miner__

Майнер для анализа параллельных действий.
 Подсчитывает пересечения по временным меткам действий.
 Параллельные этапы - это этапы с такими экземплярами процессов, что время их начала и
окончания перекрывается.
 Добавлен узел `parallel_metric`, который показывает количество пересечений времени на
этом этапе и других этапах. От синих узлов стрелки указывают на параллельные этапы.

Параметры:
 data_holder: DataHolder
 Объект, содержащий журнал событий и имена его необходимых столбцов.

 Аргументы:
 graph: добытый график процесса для рисования

In [None]:
from sberpm.miners import ParallelMiner

# Miner
parallel_miner = ParallelMiner(data_holder)
parallel_miner.apply()
graph = parallel_miner.graph

# Visualization
painter = GraphvizPainter()
painter.apply(graph)
painter.show()

## II. Метрики

На данный момент в модуле __`sberpm.metrics`__ есть 5 основных типов метрик:
1. `ActivityMetric` – метрики по активностям (группировка по activity_column)
2. `TransitionMetric` – метрики по переходам (группировка по уникальным переходам)
3. `IdMetric`– метрики по id (группировка по id_column)
4. `TraceMetric` – метрики по цепочкам активностей (группировка по уникальным цепочкам)
5. `UserMetric` – метрики по пользователям (группировка по user_column)

In [None]:
from sberpm.metrics import ActivityMetric, TransitionMetric, IdMetric, TraceMetric, UserMetric

Параметры:
- __data_holder__ – объект типа DataHolder, для которого надо рассчитать метрики
- __time_unit__ – единица времени, по умолчанию расчет временных метрик происходит в часах
- __round__ – количество цифр после запятой (только для метрик, значения которых могут быть с плавающей точкой)

Общие методы для всех классов:
- __apply__ – расчет всех характеристик
- __calc_metrics(...)__ – расчет указанных метрик (соответствуют методам/названиям колонок в DataFrame из apply)
- __calculate_time_metrics__ – расчет временных характеристик

- __total_duration__ – расчет суммарного времени работы
- __min_duration__ – расчет минимального времени работы
- __max_duration__ – расчет максимального времени работы
- __mean_duration__ – расчет среднего времени работы
- __median_duration__ – расчет медианного времени работы
- __std_duration__ – расчет стандартного отклонения времени работы
- __var_duration__ – расчет дисперсии времени работы

Дополнительные методы:
- ActivityMetric
    - __count__ - сколько раз активность встречается в логе
    - __unique_ids__ - уникальные id для каждой активности
    - __unique_ids_num__ - количество уникальных id для каждой активности
    - __aver_count_in_trace__ - среднее количество раз встречаемости активности в цепочке
    - __loop_percent__ - процент зацикленности
    - __throughput__ - частота - количество выполненных активностей за единицу времени
    - __unique_users__ - уникальные пользователи, работавшие с данной активностью
    - __unique_users_num__ - количество уникальных пользователей, работающих над данной активностью
    - __success_rate(...)__ - доля id, имеющих данную активность, которая выполнилась успешно (закончились успешными активностями)
    - __failure_rate(...)__ - доля id, имеющих данную активность, которая выполнилась неуспешно (закончились неуспешными активностями)
    
    
- IdMetric
    - __trace__ - цепочка (список активностей)
    - __trace_length__ - длина цепочки (кол-во активностей в цепочке)
    - __unique_activities__ - уникальные активности в цепочке
    - __unique_activities_num__ - количество уникальных активностей в цепочке
    - __loop_percent__ - процент зацикленности
    - __unique_users__ - уникальные пользователи, работающие с этим ID
    - __unique_users_num__ - кол-во уникальных пользователей, работавших с данным ID

- TraceMetric
    - __count__ - сколько раз данная цепочка встречается в логе
    - __ids__ - уникальные id с данной цепочкой
    - __trace_length__ - длина цепочки (кол-во активностей в цепочке)
    - __unique_activities__ - уникальные активности в цепочке
    - __unique_activities_num__ - количество уникальных активностей в цепочке активностей
    - __unique_users__ - уникальные пользователи, работающие над цепочкой активностей
    - __unique_users_num__ - количество уникальных пользователей, работающих над цепочкой активностей

 
- TransitionMetric
    - __count__ - сколько раз данный переход встречается в логе
    - __unique_ids__ - уникальные id  для каждого перехода
    - __unique_ids_num__ - количество уникальных id для каждого перехода
    - __aver_count_in_trace__ - среднее количество раз встречаемости объекта в цепочке
    - __loop_percent__ - процент зацикленности
    - __throughput__ - частота - количество выполненных переходов за единицу времени
    - __unique_users__ - уникальные пользователи, работающие над объектом
    - __unique_users_num__ - кол-во уникальных пользователей, работающих над объектом
    - __success_rate(...)__ - доля id, имеющих текущий переход, которые выполнились успешно (закончились успешными активностями)
    - __failure_rate(...)__ - доля id, имеющих текущий переход, которые выполнились неуспешно (закончились неуспешными активностями)
    
    
- UserMetric
    - __count__ - сколько раз данный пользователь встречается в логе
    - __unique_activities__ - уникальные активности, с которыми работал пользователь
    - __unique_activities_num__ - количество уникальных активностей, с которыми работал пользователь
    - __unique_ids__ - уникальные id с данным пользователем
    - __unique_ids_num__ - количество уникальных id с данным пользователем
    - __throughput__ - число раз выполнения объекта за единицу времени
    - __workload__ - доля активности лога, выполненных данным пользователем

### 1. ActivityMetric

In [None]:
# Создание объекта ActivityMetric
activity_metric = ActivityMetric(data_holder, time_unit='d')

# Расчет всех метрик
activity_metric.apply().head()

### 2. TransitionMetric

In [None]:
# Создание объекта TransitionMetric
transition_metric = TransitionMetric(data_holder, time_unit='d')

# Расчет всех метрик
transition_metric.apply().head()

### 3. IdMetric

In [None]:
# Создание объекта IdMetric
id_metric = IdMetric(data_holder, time_unit='d')

# Расчет всех метрик
id_metric.apply().head()

### 4. TraceMetric

In [None]:
# Создание объекта TraceMetric
trace_metric = TraceMetric(data_holder, time_unit='d')

# Расчет всех метрик
trace_metric.apply().head()

### 5. UserMetric

In [None]:
# Создание объекта UserMetric
user_metric = UserMetric(data_holder, time_unit='d')

# Расчет всех метрик
user_metric.apply().head()

### Метрики + графы

В библиотеке реализована возможность представить ряд метрик на графе. Сделать это можно в классе `Graph` с помощью методов:
- __add_node_metric__ – добавить метрику, связанную с узлами графа
- __add_edge_metric__ – добавить метрику, связанную с ребрами графа

In [None]:
# Расчет метрик
nodes_count_metric = activity_metric.count().to_dict()
edges_count_metric = transition_metric.count().to_dict()
mean_time_node_metric = activity_metric.mean_duration().fillna(0).to_dict()

# Получение графа из майнера
graph = causal_miner.graph

# Добавление метрик на граф
graph.add_node_metric('count', nodes_count_metric)
graph.add_edge_metric('count', edges_count_metric)
graph.add_node_metric('mean_time', mean_time_node_metric)

In [None]:
# Создание объекта GraphvizPainter
painter = GraphvizPainter()

# Отрисовать граф и связать цвет узлов и ребер с нужными метриками
painter.apply(graph, node_style_metric='count', edge_style_metric='count')
# или painter.apply(graph, node_style_metric='mean_time', edge_style_metric='count')

# Сохранение графа
painter.write_graph("metric_graph.png", format = 'png')

# Отображение в jupyter-notebook
painter.show()

Чтобы удалить метрики с графа, следует воспользоваться следующими методами:
- __clear_node_metrics__ – удалить все метрики с нод (узлов)
- __clear_edge_metrics__ – удалить все метрики с ребер

In [None]:
graph.clear_node_metrics()
graph.clear_edge_metrics()

## III. Conformance Checking

### TokenReplay

`TokenReplay` позволяет рассчитать *fitness*, который показывает, насколько хорошо граф описывает бизнесс-процесс (1 – хорошо, 0 – плохо). Fitness вычисляется отдельно для каждой цепочки (id) при ее проигрывании по сети Петри по следующей формуле:
$$ Fitness = \frac{1}{2}\Big(1-\frac{missed}{consumed}\Big) + \frac{1}{2}\Big(1-\frac{remaining}{produced}\Big) $$
- produced tokens – появились в результате перехода
- consumed tokens – удалились в результате перехода
- remaining tokens – остались в конце проигрывания
- missing tokens – не было, но они необходимы для проигрывания, поэтому их вставляют

Библиотека выдает следующие метрики:
- значения 4 величин и fitness каждой цепочки
- усредненный fitness по всем цепочкам (__mean_fitness__)
- fitness по всему логу – в формулу подставляются суммарные значения 4 величин по всем цепочкам в логе (__average_fitness__)

In [None]:
from sberpm.conformance_checking import TokenReplay

In [None]:
token_replay = TokenReplay(data_holder, alpha_miner.graph)
token_replay.apply()
token_replay.result

In [None]:
print('mean:', token_replay.mean_fitness)
print('average:', token_replay.average_fitness)

Также в библиотеке доступен более общий класс ConformanceChecking, сдержащий TokenReplay и рад других метрик:
- precision
- generalization
- simplicity

In [None]:
from sberpm.conformance_checking import ConformanceChecking

In [None]:
cc = ConformanceChecking(data_holder, alpha_miner.graph)
cc.get_conformance_checking()

In [None]:
cc.get_fitness_df()

## IV. BPMN

Для сохранения графа в формате BPMN (Business Process Model and Notation) можно воспользоваться `BpmnExporter` из модуля __`sberpm.bpmn`__. Он имеет следующие методы:
- __apply_petri__ – построить BPMN для сети Петри
- __get_string_representation__ – получить BPMN-нотацию графа
- __write__ – записать граф в BPMN формате

На данный момент сохранять можно только графы, полученные из Alpha Miner.

In [None]:
from sberpm.bpmn import BpmnExporter

In [None]:
bpmn_exporter = BpmnExporter()
bpmn_exporter.apply(alpha_miner.graph)
bpmn_exporter.get_string_representation()[:1000]

In [None]:
bpmn_exporter.write('exported.bpmn')

Для загрузки BPMN-файла есть класс `BpmnImporter` со следующими методами:
- __load_bpmn_from_xml__ – загрузить граф, представленный в виде BPMN
- __get_pydotplus_graph__ – получить граф в формате pydotplus

In [None]:
from sberpm.bpmn import BpmnImporter

In [None]:
bpmn_importer = BpmnImporter()
bpmn_importer.load_bpmn_from_xml('exported.bpmn')
pydot_graph = bpmn_importer.get_pydotplus_graph()
pydot_graph.write('imported_bpmn.svg', prog='dot', format='svg')

## V. Визуализация

Класс `ChartPainter` из модуля __`sberpm.visual`__ предназначен для создания основных типов графиков. В основе визуализации лежит библиотека __`plotly`__, благодаря чему все диаграммы являются интерактивными. 

In [None]:
from sberpm.visual import ChartPainter

Параметры:
- __data__ – данные, которые необходимо визуализировать (DataFrame, DataHolder или объекта класса метрик)
- __template__ – стиль графиков, по умолчанию _plotly_
- __palette__ – цветовая палитра графиков, по умолчанию _sequential.Sunset_r_

Каждый метод `ChartPainter` позволяет отрисовать график определенного типа:
- __hist__ – гистограмма
- __bar__ – столбчатая диаграмма
- __box__ – ящичковая диаграмма
- __scatter__ – диаграмма рассеяния
- __line__ – линейный график
- __pie__ – круговая диаграмма
- __sunburst__ – диаграмма солнечные лучи
- __heatmap__ – 2D гистограмма
- __timeline__ – диаграмма Ганта
- __pareto__ – диаграмма Парето

Основные параметры методов (для более подробной информации см. документацию):
- __x__, __y__ – названия столбцов для отрисовки по осям X и Y соответственно
- __sort__ – название столбца для сортировки значений
- __n__ – количество строк для визуализации
- __color__ – название столбца для задания цвета элементам графика
- __subplots__ – кортеж вида (rows, cols, ncols), где rows и cols – это названия столбцов для отрисовки нескольких графиков по рядам и столбцам соответственно, а ncols – это количество столбцов
- __text__ – название столбца с текстовой информацией (или ее вид) для отображения на графике
- __orientation__ – ориентация графика
- __opacity__ – прозрачность элементов графика
- __edge__ – границы элементов графика
- __title__ – название графика

Каждый метод прост в использовании, но при этом обладает достаточно широким функционалом, который позволяет построить графики для любых задач.

### Гистограмма

In [None]:
painter = ChartPainter(id_metric)
painter.hist(x='total_duration', edge=True)

### Столбчатая диаграмма

In [None]:
painter = ChartPainter(user_metric)
painter.bar(x=data_holder.user_column, y='total_duration', text=True)

### Диаграмма рассеяния

In [None]:
painter = ChartPainter(id_metric)
painter.scatter(x='mean_duration', y='median_duration', color='unique_users_num', size='trace_length', 
                edge=True, opacity=0.8)

### Круговая диаграмма

In [None]:
painter = ChartPainter(user_metric)
painter.pie(labels='count', n=15)

### Гистограмма распределения активностей по диапазонам времени

##### По всем активностям

In [None]:
painter = ChartPainter(data_holder)
painter.hist_activity_of_dur(top= False, use_median=False)

##### По топ активностям

In [None]:
painter.hist_activity_of_dur(top= True)

##### По одной активности

In [None]:
painter.hist_activity_of_dur(by_activity='Stage_6')

# ----------Машинное обучение----------

## I. Кластеризация этапов

##### <font color='red'>В полной версии библиотеки</font>

Данный модуль служит для кластеризации этапов процесса, для нахождения близких или идентичных этапов процессов. 

##  II. Автоматический поиск неэффективностей

##### <font color='red'>В полной версии библиотеки</font>

Модуль автоматического поиска неэффективностей __`sberpm.autoinsights`__ позволяет в автоматическом режиме выявить __слабые места и уязвимости процесса__ и наглядно продемонстрировать их на графе процесса. При анализе классом `AutoInsights` учитываются такие факторы, как:
1. Длительность этапа
2. Рост длительности этапа
3. Нерегулярность (редкость) этапа
4. Этап имеет bottleneck c низкой вариативностью
5. Этап имеет bottleneck c высокой вариативностью
6. Этап имеет большую длительность из-за частых повторений инцидентов
7. Этап имеет большую длительность из-за разовых инцидентов
8. Этап приводит к росту времени процесса и/или прочих этапов
9. Этап проходит с ошибками, что приводит к замедлению процесса
10. Этап проходит с критическими ошибками системы, что приводит к неуспеху процесса
11. Этап проходит со структурными ошибками, что приводят к неуспеху процесса
12. Сторнирование на данном этапе приводит к неуспеху замедлению процесса
13. Сторнирование на данном этапе приводит к неуспеху процесса
14. Уровень аномальности
15. Сумма финансовых эффектов

## III. Поиск аномалий

__Выявление аномалий__ (также __обнаружение выбросов__) — это распознавание во время интеллектуального анализа данных редких данных, событий или наблюдений, которые вызывают подозрения ввиду существенного отличия от большей части данных.

Для поиска аномалий (выбросов) в данных в библиотеке есть модуль __`sberpm.ml.anomaly_detection`__, в котором есть классы `OutlierCBLOF`, `OutlierForest`, `OutlierLOF`, `OutlierOCSVM`, `OutlierCustom`, `OutlierEnsemble`. В каждом классе реализован свой алгоритм __выявления аномалий без учителя__, который обнаруживает аномалии в непомеченных наборах данных при предположении, что большая часть набора данных нормальна, путем поиска представителей, которые меньше подходят к остальному набору данных. 

`OutlierEnsemble` это композиция алгоритмов обнаружения аномалий, итоговой ответ которой представляет собой голосование (объект считается выбросом, если большинство алгоритмов определило его как выброс) следующих алгоритмов: [KNN](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.knn), [ABOD](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.abod), [HBOS](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.hbos), [Isolation Forest](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.iforest).

In [None]:
from sberpm.ml.anomaly_detection import OutlierCBLOF, OutlierForest, OutlierLOF, \
                                        OutlierOCSVM, OutlierCustom, OutlierEnsemble

В качестве параметра объект принимает на вход DataHolder, по которому рассчитывает базовые статистики, такие как среднее время, длина цепочки активностей, число уникальных пользователей (если они есть) и т. д. 

In [None]:
outlier_detector = OutlierForest(data_holder)

Каждый класс имеет следующие методы:
- __add_feature__ – добавление признака, по которому требуется найти аномалии 
- __add_groupby_feature__ – добавление признака для поиска аномалий, рассчитанного по сгруппированным данным 
- __apply__ – запуск алгоритма
- __get_outlier_ids__ – вывод id аномальных процессов
- __print_result__ – вывод статистики по аномалиям
- __show_permutation_importance__ – иллюстрация permutation importance признаков, по которым отличаются выбросы (работает везде кроме `OutlierEnsemble`)

In [None]:
# Добавление признака с именем max_time, вычисляемого путем применения функции max к колонке 
# data_holder.duration_column в сгруппированных по id данных (масимальное время активности в процессе)
outlier_detector.add_groupby_feature('max_time', data_holder.duration_column, max)

В модуле реализовано 5 техник выявления аномалий:
1. __Isolation Forest (IF)__
2. __One-Class Support Vector Machines (OCSVM)__
3. __Local Outlier Factor (LOF)__
4. __Cluster-Based Local Outlier Factor (CBLOF)__
5. `OutlierEnsemble` в котором есть __KNN__, __HBOS__, __ABOD__, __Isolation Forest__

Также можно использовать любой другой алгоритм поиска аномалий (например, из библиотеки __pyod__).

### Isolation Forest

> В основе техники __изолирующего леса__ лежит идея о том, что аномальные наблюдения легче отделить от остальных (нормальных) объектов датасета. Алгоритм строит ансамбль изолирующих бинарных деревьев решений, в каждом узле которого выбор признака и порога разбиения производится случайным образом. Дерево строится до тех пор, пока в листе не останется только один объект или объекты с одинаковыми значениями. Интуитивно понятно, что __аномальные__ точки – это те, что имеют меньшую длину пути в дереве, которая определяется как число ребер, которые объект проходит от корневого узла до листа. 

In [None]:
outlier_detector = OutlierForest(data_holder)

### One-Class Support Vector Machines

> Основная идея классического __метода опорных векторов (SVM)__ заключается в разделении объектов, относящихся к разным классам, гиперплоскостью так, чтобы максимизировать расстояние между ними. Алгоритм __OCSVM__, как следует из названия, обучается на данных, принадлежащих одному классу – классу нормальных объектов. Он определяет границы этих объектов и классифицирует все остальные точки, лежащие по другую сторону от разделяющей поверхности, как __аномальные__.

In [None]:
outlier_detector = OutlierOCSVM(data_holder)

### Local Outlier Factor

> __Локальный уровень выброса (LOF)__ основывается на концепции локальной плотности объекта, где локальность задается его $k$ ближайшими соседями, расстояния до которых используются в качестве оценки плотности. Путем сравнения локальной плотности объекта с локальной плотностью его соседей, можно выделить области с аналогичной плотностью и точки, которые имеют существенно меньшую плотность, чем ее соседи. Эти точки считаются __выбросами__.

In [None]:
outlier_detector = OutlierLOF(data_holder)

### Cluster-Based Local Outlier Factor

> В отличие от стандартного LOF, основанном на метрическом подходе к выявлению локальных выбросов, __CBLOF__ выявляет кластерную структуру данных, разделяет кластеры на "большие" и "малые" и затем определяет локальность малых кластеров по отношению к большим. Кластеры, чья локальность по отношению к другим мала, определяются как __выбросы__.

In [None]:
outlier_detector = OutlierCBLOF(data_holder)

Помимо указанных 4 алгоритмов поиска аномалий, можно воспользоваться любым другим, который не встроен в библиотеку, но есть в pyod – например, __histogram-based outlier detection (HBOS)__.

In [None]:
from pyod.models.hbos import HBOS

hbos = HBOS(contamination=0.1)
outlier_detector = OutlierCustom(data_holder, hbos, outlier_label=1)

После выбора алгоритма, его следует применить с помощью метода __apply__.

In [None]:
outlier_detector.apply()

Результаты представляют собой список id аномалий (метод __get_outlier_ids__), таблицу с описательными статистиками по аномальным и нормальным объектам (метод __print_result__), а также графическую иллюстрацию важности использованных для поиска аномалий признаков (метод __show_permutation_importance__). 

In [None]:
outlier_detector.get_outlier_ids()

In [None]:
outlier_detector.print_result()

In [None]:
outlier_detector.show_permutation_importance()

### `OutlierEnsemble`
> `OutlierEnsemble` это композиция алгоритмов обнаружения аномалий, итоговой ответ которой представляет собой голосование (объект считается выбросом, если большинство алгоритмов определило его как выброс) следующих алгоритмов: [KNN](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.knn), [ABOD](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.abod), [HBOS](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.hbos), [Isolation Forest](https://pyod.readthedocs.io/en/latest/pyod.models.html#module-pyod.models.iforest). В качестве алгоритмов можно выбрать любое подмножетво из {"HBOS", "ABOD", "KNN", "IForest"}.

In [None]:
outlier_detector = OutlierEnsemble(data_holder, ["HBOS", "ABOD", "KNN", "IForest"])

In [None]:
outlier_detector.apply()

In [None]:
outlier_detector.print_result()

## IV. Факторный анализ

##### <font color='red'>В полной версии библиотеки</font>


__Факторный анализ__ – это многомерный метод, применяемый для изучения взаимосвязей между значениями переменных. Предполагается, что известные переменные зависят от меньшего количества неизвестных переменных и случайной ошибки. С помощью факторного анализа возможно выявление скрытых переменных факторов, отвечающих за наличие линейных статистических корреляций между наблюдаемыми переменными.


## V. Модуль автоматического построения моделей

##### <font color='red'>В полной версии библиотеки</font>


Модуль автоматического построения моделей позволяет использовать методы машинного обучения для предсказания временных рядов и панельных данных. 


## VI. Рекомендательная система

##### <font color='red'>В полной версии библиотеки</font>


Данный модуль представляет собой рекомендательную систему, ранжирующую этапы процесса в порядке их приоритетности для реинжениринга. Система показывает, на какие активности нужно обратить внимание в первую очередь при оптимизации процесса. Сначала выбирается лучшая модель, описывающую зависимость таргетной метрики (metric) каждой из Активностей от признаковых метрик (metric_f) всех остальных Активносетй. В качестве метрик могут выступать количество рециклов (количество появлений активности, __"appearance"__), время выполнения(__"time"__), количество повторений (__"recycles"__), кастомная метрика пользователя ("__user_metric__"). Далее на основании метрики строятся коэффициенты проблемности, в порядке убывания которых ранжируются Активности.

## VII. Анализ текстов

##### <font color='red'>В полной версии библиотеки</font>


Данный модуль служит для кластеризации текстов. 
Для каждого кластера алгоритм выдает __номер кластера__ (название кластера или самое близкое сообщение к центроиду кластера), и 10 самых распространенных слов в кластере.

## VIII. Сентиментный анализ

##### <font color='red'>В полной версии библиотеки</font>


Данный модуль представляет собой систему для анализа тональности словесных комментариев в текстовом поле. Модуль анализа тональности имеет два режима: «базовый» и «продвинутый». В «базовом» режиме тональность текста определяется как «positive» или «negative», численное значение тональности определяется в пределах от -1 до 1 (от негатива к позитиву).

## IX. Поиск счастливого пути

##### <font color='red'>В полной версии библиотеки</font>


Задачу поиска счастливого пути можно решить с помощью обучения с подкреплением (RL), которое по своей сути адаптировано к поиску оптимальных действий. RL работает с двумя объектами: агентом и средой. Во время обучения агент взаимодействует с окружающей средой, совершает действия и получает обратную связь, которая называется вознаграждением. Задача формулируется в рамках марковского процесса принятия решений, который основан на:
* множестве состояний в мире 
* множестве действий 
* вероятностном распределении следующего состояния при условии текущего состояния и завершенного действия 
* награды при переходе между состояниями при выполнении действий. 

Выполнение марковского свойства состоит в том, что следующее состояние условно не зависит от прошлых состояний и действий, учитывая текущее состояние и действие. Граф процесса рассматривается как среда, состояния — узлы графа (активности), действия — ребра (выбор следующей активности для перехода), награда — среднее отрицательное время перехода между прошлым и настоящим состояниями. При наличии ключевых состояний за переход в них также начисляется награда. Цель состоит в том, чтобы выбрать оптимальную политику — отображение из пространства состояний в пространство действий или, другими словами, руководство к действию в каждом состоянии — которое максимизирует ожидаемую дисконтированную сумму вознаграждений, проходящих через граф процесса.
Оптимальная политика и, как следствие, путь находятся при помощи AutoRL с использованием лучшего по дисконтированной сумме наград  метода из:  value iteration,  Q-learning, cross entropy, genetic algorithm.



## X. Предсказание структуры графа

##### <font color='red'>В полной версии библиотеки</font>


Модуль __GSPredictor__ (graph structure predictor) содержит алгоритм предсказания структуры графа, а именно, предсказываются две величины: вероятности и средние времена выполнения нод и рёбер графа. Эти величины представляются как временные ряды, получаемые из имеющихся данных, далее используются ml- и специализированные для работы с временными рядами алгоритмы для предсказания.

## XI. Имитационное моделирование и what-if анализ

In [None]:
import os
import pandas as pd
from sberpm import DataHolder
from sberpm.visual import GraphvizPainter
from sberpm.miners import SimpleMiner, CausalMiner
from sberpm.metrics import ActivityMetric, TransitionMetric

%matplotlib inline

data = pd.read_excel('example.xlsx')
data.head()

dh = DataHolder(
    data=data,
    id_column='id',
    activity_column='stages',
    start_timestamp_column='dt'
)

# Имитационное моделирование и what-if анализ

Модуль имитационного моделирования __`sberpm.imitation`__ позволяет симулировать процесс в as-is форме, вносить изменения в процесс и проводить what-if моделирование, а также оценивать схожесть симуляции по сравнению с исходным лог-файлом с помощью классов `Simulation` и `SimilarityMetric` соответственно. 

Класс Simulation содержит алгоритм симуляции идентичного лога процесса, а так же инструменты позволяющие изменять структуру графа процесса. 

Шаги алгоритма:

I. __Подготовка данных__

1. Генерация cross table с вероятностями переходов в ячейках таблицы
    - В данные добавляются 'start' и 'end' события, они не отображаются в логах, но помогают при изменении структуры графа процесса (например если требуется добавить альтернативный вход в процесс, то используется следующая функция : __add_edge__('start', 'node_name', prob=float)) 
    - Создается матрица смежности (с количеством переходов в ячейках), после значения приводятся к вероятностям
    
2. Экстрагирование временных данных из оригинального лога, для сохранения картины распределения времени активностей.
    - Из переданного data_holder сохраняются значения duration по активностям (далее они будут использованы при генерации новых этапов с идентичным распределением duration)

II. __Генерация__

0. Данные таблицы преобразовываются в словарь __{'action' : np.array({'action' : 'prob'})}__, считается интервал между временными точками входа в процесс (нужен чтобы получить start_timestamp для каждой итерации)
1. В цикле генерируются логи процесса
    - На каждой итерации рекурсивно строится цепочка активностей
    - В лог записываются активности, время начала процесса и id процесса  
    
2. Генерация времени (длительности этапов): 
    - Если активность есть в оригинальном data_holder, то эти данные сжимаются\растягиваются до количества этого этапа в сгенерированном логе
    - Если активность отсутствует и при создании установлен like_node, то время генерируется с распределением, как у указанной активности (время будет масштабировано в зависимости от указанного mean_time)
    - Если активность отсутствует и при создании не указан like_node, то берется значение среднего времени (или значение среднего по всем средним времени процесса, если при добавлении активности не было указано) и строится нормальное распределение.

III. __Изменение структуры графа__

Ниже указанны основные функции для работы со структурой графа.

1. Удаление вершин и активностей
    - __delete_node__(node, save_con=True) - удаляет активность по имени, флаг save_con означает будут ли сохранены соединения. 
        Пример: 
            A -> B -> C 
            delete_node('B', save_con=True) 
            A -> C
    - __delete_edge__(node, node, side='right') - удаляет ребра (переходы) между переданными активностями, т.к связь может быть в обе стороны, применяется флаг side означающий будет ли связь слева направо, справа налево или в обе стороны.
        Пример:
            A <-> B
            delete_edge('A', 'B', side='right')
            A <- B

2. Добавление ребер и активностей
    - __add_node__(new_node, nodes=list, probabilities=list, mean_time=float, time_like='node', side='both') - добавление и связывание новой активности с переданным списком активностей, probabilities - вероятности перехода, mean_time - среднее время выполнения активности, side - в какую сторону будет связь, time_like - копирует распределение уже существующей активности (будет масштабировано в зависимости от mean_time)
    - __add_edge__(node, node, prob, side) - добавление связи между активностями, prob - вероятности перехода, side - в какую сторону будет связь
    - __swap_nodes__(node, node, save_probabilities=True) - меняет местами активности (вместе с распределением времени), save_probabilities - флаг указывающий на то, будут ли тянуться вероятности предшествующих нод при свапе активностей (если False, то производится перестановка и пересчет вероятностей)
    
    
3. Изменение длительности и вероятностей
    - __change_edge_prob__(node, node, prob=float) - изменяет вероятность перехода между активностями ( prob = 0, аналогичен удалению перехода)
    - __scale_time_node__(node, scale=1) - изменяет время процесса (распределение останется прежним - как в оригинальном датасете), scale - это коэффициент уменьшения (если < 1) или увеличения (если > 1) продолжительности выполнения активности.

In [None]:
from sberpm.imitation import Simulation, SimilarityMetric

Параметры `Simulation`
- data_holder : DataHolder

Методы класса `Simulation`:
- __generate__ – запуск симуляции iterations (количество) цепочек активностей (id)
- ___mean_duration__ – средняя длительность выполнения активностей или переходов в процессе
- __scale_time_node__ – изменение времени выполнения активности
- __change_edge_probability__ - изменяет вероятность перехода (ребра) в процессе
- __delete_node__, __delete_edge__, __delete_loop__, __delete_all_loops__ – удаление ноды и ребра из процесса (delete_loop - удаляет ребро "в себя")
- __add_edge__, __add_node__, __add_loop__ - добавление ноды и ребра в процесс (loop - добавляет ребро "в себя")
- __swap_nodes__ – меняет местами ноды (с сохранением или с пересчетом вероятностей)
- __get_result__ – возвращает результаты генерации 
- __compute_metric__ - считает различные метрики
- __get_probabilities_tab__ - возвращает матрицу смежности, позволяет увидеть вероятности переходов

На вход класс принимает объект типа DataHolder.

In [None]:
# Инициализация
sim = Simulation(dh)

## As-is моделирование

Метод __generate__ запускает симуляцию процесса. Он имеет параметры __iterations__ – число цепочек событий для симуляции. 

In [None]:
sim.generate(1000)
sim_data = sim.get_result()
sim_data.head()

In [None]:
generated_dh = DataHolder(
    data=sim_data,
    id_column='id',
    activity_column='stages',
    start_timestamp_column='dt',
)

Полученный лог можно отрисовать с помощью майнера и встроенного инструмента для визуализации графов.

In [None]:
simple_miner = SimpleMiner(generated_dh)
simple_miner.apply()
graph = simple_miner.graph

painter = GraphvizPainter()
painter.apply(graph)
painter.show()

## What-if анализ

Методы __delete_node__, __delete_edge__, __add_node__, __add_edge__, __add_loop__, __delete_loop__ и __swap_nodes__ позволяют изменять граф процесс. После запуска симуляции процесс будет реализовываться по альтернативным путям.

In [None]:
# удаление нод
sim.delete_node("Stage_5")
# удаление ребер (side=True - только в одну сторону)
sim.delete_edge('Stage_7', 'Stage_5', side='right')
# добавление ноды (action), nodes - лист связанных вершин с новой вершиной, probabilities - вероятности перехода в связанные вершины
sim.add_node('Stages_10', 
             nodes=['Stage_8', 'Stage_5', 'Stage_10'], 
             probabilities=[0.15, 0.35], mean_time=3333, side='both')
# добавление вершины, prob - вероятность перехода в нее
sim.add_edge('Stage_7', 'Stage_7', prob=0.15, side='right')

# работа с петлями (можно писать и sim.add_edge('node1', 'node1', prob=0.5))
sim.delete_loop('Stage_10')

# меняет местами ноды и их среднее время (вероятности не меняет)
sim.swap_nodes('Stage_2', 'Stage_0', save_probabilities=False)

sim.generate(5000)

sim.get_result()

Для того чтобы контролировать то, как изменяются вероятности переходов между action в графе процесса, был добавлен метод __get_probabilities_tab__. Он возвращает таблицу переходов : столбец слева - это action "откуда", строка сверху - это "куда" делается переход, значения в ячейках это вероятности.

In [None]:
sim.get_probabilities_tab()

sim.change_edge_probability('Stage_10', 'Stage_10', 3)
sim.change_edge_probability('Stage_9', 'end', 0.75)

С помощью метода __scale_time_node__ можно изменить время процесса (обратите внимание, распределение останется прежним - как в оригинальном датасете), scale - это коэффициент уменьшения (если < 1) или увеличения (если > 1) продолжительности выполнения активности

In [None]:
sim.scale_time_node('Stage_4', scale=1.5)
sim.scale_time_node('Stage_3', scale=0.75)

sim.generate(10000)
sim_data = sim.get_result()
sim_data.shape

generated_dh = DataHolder(
    data=sim.get_result(),
    id_column='id',
    activity_column='stages',
    start_timestamp_column='dt'
)

In [None]:
simple_miner = SimpleMiner(generated_dh)
simple_miner.apply()
graph = simple_miner.graph

painter = GraphvizPainter()
painter.apply(graph)
painter.show()

##  XII. Decision Mining

Модуль __`sberpm.decision_mining`__ предназначен для проведения __decision point analysis__, который заключается в определении причин, почему процесс идет по тому или иному пути. Класс `DecisionMining` выявляет, как те или иные свойства (атрибуты) процесса влияют на выбор конкретного пути. 

In [None]:
from sberpm.decision_mining import DecisionMining

На вход `DecisionMining` принимает объект типа DataHolder. 

In [None]:
# Инициализация
dm = DecisionMining(data_holder)

`DecisionMining` имеет следующие методы:
- __print_decision_points__ – выводит decision points (активности, после которых идет выбор)
- __apply__ – выполняет анализ decision points, строя дерево решений по указанным атрибутам
- __get_clf_metrics__ – выводит метрики классификации
- __plot_confusion_matrix__ – рисует матрицы ошибок
- __plot_feature_importance__ – рисует важность признаков в дереве
- __plot_feature_distribution__ – рисует распределение признаков по классам 
- __plot_decision_tree__ – рисует дерево решений
- __print_decision_rule__ – выводит решающие правила

Decision points – точки, где процесс имеет разветвление, можно посмотреть с помощью метода __print_decision_points__.

In [None]:
dm.print_decision_points()

Метод __apply__ запускает алгоритм decision mining. Он имеет следующие параметры:
- __categorical_attrs__ – названия категориальных признаков
- __noncategorical_attrs__ – названия некатегориальных признаков
- __decision_points__ – точки, по которым необходимо построить деревья решений, по умолчанию рассматриваются все
- __sampling__ – нужен ли sampling (over- или under-), следует использовать в случае несбалансированных классов
- __tree_params__ – параметры дерева решений
- __grid_search__ – нужен ли подбор оптимальных гиперпараметров дерева решений
- __param_grid__ – сетка параметров, используется только при grid_search=True
- __random_state__ – используется в дереве решений и sampling
- __n_jobs__ – используется в sampling и grid_search

In [None]:
dm.apply(categorical_attrs=[data_holder.user_column],
         noncategorical_attrs=[data_holder.duration_column],
         decision_points='all', 
         sampling='RandomOverSampler',
         tree_params='default',
         grid_search=False, 
         param_grid='default',
         random_state=42,
         n_jobs=None)

Результаты классификации можно посмотреть с помощью методов __get_clf_metrics__, __plot_confusion_matrix__ и __plot_feature_importance__. 

In [None]:
dm.get_clf_metrics()

Качество невысокое из-за особенностей синтетического датасета.

Все plot методы имеют параметры:
- __decision_points__ – точки, для которых необходимо изобразить харатеристики
- __savefig__ – нужно ли сохранить изображение

In [None]:
dm.plot_confusion_matrix(decision_points=['Stage_0'], savefig=False)

In [None]:
dm.plot_feature_importance(decision_points=['Stage_0'], savefig=False)

Метод __plot_feature_importance__ дополнительно имеет еще два параметра:
- __drop_outliers__ – нужно ли удалить выбросы для количественных признаков
- __clf_results__ – нарисовать распределение признаков по результатам классификации (True) или по исходному логу (False)

In [None]:
dm.plot_feature_distribution(decision_points=['Stage_0'], drop_outliers=True, clf_results=True, savefig=False)

Методы __plot_decision_tree__ и __print_decision_rule__ выводят результаты работы decision mining алгоритма в виде дерева и правил соответственно.

Параметры __plot_decision_tree__:
- __decision_points__ – точки, для которых необходимо нарисовать дерево решений
- __max_depth__ – максимальная глубина дерева
- __scale__ – масштаб графика
- __savefig__ – нужно ли сохранить изображение

In [None]:
dm.plot_decision_tree(decision_points=['Stage_0'], max_depth=None, scale=1, savefig=False)

Параметры __print_decision_rule__:
- __decision_points__ – точки, для которых необходимо вывести решающие правила
- __paths__ – пути, по которым необходимо вывести решающие правила

In [None]:
dm.print_decision_rule(decision_points=['Stage_0'], paths=['Stage_1'])

## XIII. Хронометраж

Расчёт длительности процесса с предварительной очисткой выбросов при помощи алгоритмов машинного обучения.

- __data_holder (SberPM DataHolder)__ - класс с хранящимися данными 
- __start_query__ (str) - запрос указывающий на начало нового процесса
- __end_query__ (str) - запрос указывающий на окончание процесса
- __query__ (str) - запрос указывающий на начало нового процесса или на завершение процесса в данной строке
- __change_columns__ (List[str]) - список с названиями колонок по которым можно определить что начался новый процесс при изменении значения в колонке (например изменения идентификатора процесса или пользователя) 
- __sort_params__ (List[str]) - список названий колонок по которым будет производиться предварительная сортировка данных

Параметры __query__, __start_query__, __end_query__ могут быть типа __"sql"__ или __"pandas"__, они оба должны ссылаться на фрейм данных как __"df"__, они должны возвращать один столбец: булевую маску или столбец из 0 и 1.

В случае, если задаётся __"sql"__ запрос, то он должен выглядеть как __"SELECT ... from df"__.

Метод __get_chrono()__ начнёт процесс расчёта длительности процесса и в результате выведет словарь(dict) с элементами:
- среднее временя процесса в секундах
- количество отобранных элементов
- количество уникальных процессов
- максимальное количество уникальных идентификаторов рассчитанных в хронометраже 


In [None]:
from sberpm.ml.chronometrage import Chronometrage

In [None]:
df = pd.read_excel('chrono_data.xlsx', engine='openpyxl')
dh = DataHolder(df, 'process_id', 'event_type', 'data_timestamp')

In [None]:
example_start_query = """(df['event_type'] == 'Процесс_16961') & (df['event_action'].isin(['Начало']))"""
example_end_query = """(df['event_type'] == 'Процесс_16961') & (df['event_action'].isin(['Конец']))"""

In [None]:
cr = Chronometrage(dh, 
                   sort_params=['process_id', 'user_id', 'data_timestamp'], 
                   start_query=example_start_query,
                   end_query=example_end_query,
                   change_columns=['process_id', 'user_id'])
res = cr.get_chrono()

In [None]:
res