In [1]:
import sys
sys.path.insert(0, '..')

# Инициализируем граф

In [2]:
import pandas as pd

from src.eventstream.eventstream import Eventstream
from src.eventstream.schema import RawDataSchema, EventstreamSchema
from src.graph.p_graph import PGraph, EventsNode

raw_data = pd.read_csv('simple-onlineshop.csv')
# для теста кастомной колонки
cash_users = raw_data[raw_data['event'].str.contains('cash')]['user_id'].to_list()
raw_data['user_type'] = raw_data['user_id'].apply(
                lambda x: 'cash' if x in cash_users else 'not_cash')

custom_cols = ['user_type']


raw_data_schema = RawDataSchema(
                            event_name="event",
                            event_timestamp="timestamp",
                            user_id="user_id",
                            custom_cols = [{"custom_col": 'user_type',
                                           "raw_data_col": "user_type"}]
                                )

source = Eventstream(
    raw_data=raw_data,
    raw_data_schema=raw_data_schema,
    schema=EventstreamSchema(custom_cols=custom_cols)
)

graph = PGraph(source_stream=source)

In [3]:
raw_data

Unnamed: 0,user_id,event,timestamp,user_type
0,219483890,catalog,2019-11-01 17:59:13.273932,not_cash
1,219483890,product1,2019-11-01 17:59:28.459271,not_cash
2,219483890,cart,2019-11-01 17:59:29.502214,not_cash
3,219483890,catalog,2019-11-01 17:59:32.557029,not_cash
4,964964743,catalog,2019-11-01 21:38:19.283663,not_cash
...,...,...,...,...
35376,501098384,catalog,2020-04-29 12:47:40.975732,not_cash
35377,501098384,catalog,2020-04-29 12:48:01.809577,not_cash
35378,501098384,main,2020-04-29 12:48:01.938488,not_cash
35379,501098384,catalog,2020-04-29 12:48:06.595390,not_cash


In [4]:
source_df = source.to_dataframe()

In [5]:
source_df.head(3)

Unnamed: 0,event_id,event_type,event_index,event_name,event_timestamp,user_id,user_type
0,1e7ea0f9-c14d-47ba-a370-5e8a3083ce78,raw,0,catalog,2019-11-01 17:59:13.273932,219483890,not_cash
1,b6e568ca-4ffe-400d-9c2e-5493395a9968,raw,1,product1,2019-11-01 17:59:28.459271,219483890,not_cash
2,6ce87735-cd86-4c85-93e6-ed39cc47dbed,raw,2,cart,2019-11-01 17:59:29.502214,219483890,not_cash


In [6]:
source_df['event_name'].value_counts()

catalog             14518
main                 5635
lost                 3098
cart                 2842
product2             2172
delivery_choice      1686
product1             1515
payment_choice       1107
delivery_courier      834
payment_done          706
payment_card          565
delivery_pickup       506
payment_cash          197
Name: event_name, dtype: int64

In [7]:
source_df[source_df['user_id'] == 122915]

Unnamed: 0,event_id,event_type,event_index,event_name,event_timestamp,user_id,user_type
18665,77083c8f-a7d0-408c-8e02-b62f67d89b71,raw,18665,main,2020-04-07 03:27:32.806542,122915,not_cash
18666,e23b66d5-377e-4ec5-a48a-c9cc9e6634d3,raw,18666,catalog,2020-04-07 03:27:49.914239,122915,not_cash
18667,ae1959d1-ae1a-4852-a4d3-cdec80b4a57f,raw,18667,main,2020-04-07 03:27:57.320839,122915,not_cash
18668,ae1632ab-e235-4b2c-ab4b-9d18fb5bfac3,raw,18668,main,2020-04-07 03:28:00.580589,122915,not_cash
18669,ffe79f34-4ca1-4638-a896-69d166348c2c,raw,18669,catalog,2020-04-07 03:28:01.815559,122915,not_cash
18670,83f5d369-cf25-4e0c-b3d2-a2f1b9ec9d08,raw,18670,catalog,2020-04-07 03:28:45.697560,122915,not_cash
18671,651dd375-c026-4caa-9952-9700675825d6,raw,18671,product2,2020-04-07 03:29:04.983348,122915,not_cash
18672,72ebbf1f-58ea-43fc-9609-07f17584d538,raw,18672,catalog,2020-04-07 03:29:44.892554,122915,not_cash
18673,dbf58ad4-397f-4b81-951c-5ee5b3706a1b,raw,18673,catalog,2020-04-07 03:30:28.058167,122915,not_cash
18674,7650d504-6c8e-44a4-8485-906d59744e54,raw,18674,catalog,2020-04-07 03:30:58.013806,122915,not_cash


In [8]:
source_df['event_name'].isin(['product1', 'product2'])

0        False
1         True
2        False
3        False
4        False
         ...  
35376    False
35377    False
35378    False
35379    False
35380    False
Name: event_name, Length: 35381, dtype: bool

# Grouping

## Описание работы функции

Датапроцессор переименовывает события по заданному условию.
Новых событий не добавляется, у переименованных событий изменяется ```event_name``` и ```event_type```


Параметры:
```event_name: str```
Новое имя для событий, которые подойдут под условие из параметра ```filter```

```filter: EventstreamFilter```
EventstreamFilter = Callable[[DataFrame, EventstreamSchema], Any]
Кастомная функция, в которую передается датафрейм, схема и на выходе она дает маску (условие) для текущего eventstream.
Событие для которых условие = True -- > переименовывается

```event_type: Optional[str] = "group_alias"```
По дефолту новый тип события - group_alias, но можно задать свой
Изменение типа события происходит также по условию из функции filter

 ## Простое переименование 2-ух событий в одно

In [9]:
# Объединим в группу product события product1 и product2
from src.data_processors_lib.simple_processors import SimpleGroup, SimpleGroupParams

product_agg = EventsNode(
    SimpleGroup(params=SimpleGroupParams(**{
        'event_name': 'product1',
        'filter': lambda df, schema: df[schema.event_name].isin(['product1', 'product2']),
        'event_type' : 'lalala'
    }))
)

graph.add_node(
    node=product_agg,
    parents=[graph.root]
)

result = graph.combine(
    node=product_agg
)

In [10]:
product_agg_df = result.to_dataframe()

In [11]:
product_agg_df[product_agg_df['user_id'] == 122915]

Unnamed: 0,event_id,event_type,event_index,event_name,event_timestamp,user_id,user_type
20596,77083c8f-a7d0-408c-8e02-b62f67d89b71,raw,20596,main,2020-04-07 03:27:32.806542,122915.0,not_cash
20597,e23b66d5-377e-4ec5-a48a-c9cc9e6634d3,raw,20597,catalog,2020-04-07 03:27:49.914239,122915.0,not_cash
20598,ae1959d1-ae1a-4852-a4d3-cdec80b4a57f,raw,20598,main,2020-04-07 03:27:57.320839,122915.0,not_cash
20599,ae1632ab-e235-4b2c-ab4b-9d18fb5bfac3,raw,20599,main,2020-04-07 03:28:00.580589,122915.0,not_cash
20600,ffe79f34-4ca1-4638-a896-69d166348c2c,raw,20600,catalog,2020-04-07 03:28:01.815559,122915.0,not_cash
20601,83f5d369-cf25-4e0c-b3d2-a2f1b9ec9d08,raw,20601,catalog,2020-04-07 03:28:45.697560,122915.0,not_cash
20603,e097f96c-c834-46f6-8812-1e576ca608a7,lalala,20603,product1,2020-04-07 03:29:04.983348,122915.0,not_cash
20604,72ebbf1f-58ea-43fc-9609-07f17584d538,raw,20604,catalog,2020-04-07 03:29:44.892554,122915.0,not_cash
20605,dbf58ad4-397f-4b81-951c-5ee5b3706a1b,raw,20605,catalog,2020-04-07 03:30:28.058167,122915.0,not_cash
20606,7650d504-6c8e-44a4-8485-906d59744e54,raw,20606,catalog,2020-04-07 03:30:58.013806,122915.0,not_cash


In [12]:
source_df[source_df['user_id'] == 122915]

Unnamed: 0,event_id,event_type,event_index,event_name,event_timestamp,user_id,user_type
18665,77083c8f-a7d0-408c-8e02-b62f67d89b71,raw,18665,main,2020-04-07 03:27:32.806542,122915,not_cash
18666,e23b66d5-377e-4ec5-a48a-c9cc9e6634d3,raw,18666,catalog,2020-04-07 03:27:49.914239,122915,not_cash
18667,ae1959d1-ae1a-4852-a4d3-cdec80b4a57f,raw,18667,main,2020-04-07 03:27:57.320839,122915,not_cash
18668,ae1632ab-e235-4b2c-ab4b-9d18fb5bfac3,raw,18668,main,2020-04-07 03:28:00.580589,122915,not_cash
18669,ffe79f34-4ca1-4638-a896-69d166348c2c,raw,18669,catalog,2020-04-07 03:28:01.815559,122915,not_cash
18670,83f5d369-cf25-4e0c-b3d2-a2f1b9ec9d08,raw,18670,catalog,2020-04-07 03:28:45.697560,122915,not_cash
18671,651dd375-c026-4caa-9952-9700675825d6,raw,18671,product2,2020-04-07 03:29:04.983348,122915,not_cash
18672,72ebbf1f-58ea-43fc-9609-07f17584d538,raw,18672,catalog,2020-04-07 03:29:44.892554,122915,not_cash
18673,dbf58ad4-397f-4b81-951c-5ee5b3706a1b,raw,18673,catalog,2020-04-07 03:30:28.058167,122915,not_cash
18674,7650d504-6c8e-44a4-8485-906d59744e54,raw,18674,catalog,2020-04-07 03:30:58.013806,122915,not_cash


In [13]:
(len(product_agg_df[product_agg_df['user_id'] == 122915]) ==
len(source_df[source_df['user_id'] == 122915]))

True

In [14]:
product_agg_df[product_agg_df['user_id'] == 122915]['event_name'].value_counts()

catalog     18
main         7
product1     6
cart         1
lost         1
Name: event_name, dtype: int64

In [15]:
source_df[source_df['user_id'] == 122915]['event_name'].value_counts()

catalog     18
main         7
product1     4
product2     2
cart         1
lost         1
Name: event_name, dtype: int64

In [16]:
(source_df[source_df['event_name'].isin(['product1', 'product2'])]['event_name'].count() == product_agg_df[product_agg_df['event_name'].isin(['product'])]['event_name'].count())

False

## По 2 условиям из 2 колонок

In [17]:
# Объединим в группу product события product1 и product2

def filter_(df, schema):
    return ((df[schema.user_id].isin([122915])) |
            (df.event_name.str.contains('product')))


product_agg = EventsNode(
    SimpleGroup(params=SimpleGroupParams(**{
        'event_name': 'product',
        'filter': filter_
    }))
)

graph.add_node(
    node=product_agg,
    parents=[graph.root]
)

result = graph.combine(
    node=product_agg
)

In [18]:
source_df['event_name'].str.contains('product')

0        False
1         True
2        False
3        False
4        False
         ...  
35376    False
35377    False
35378    False
35379    False
35380    False
Name: event_name, Length: 35381, dtype: bool

In [19]:
source_df['user_type'] == 'cash'

0        False
1        False
2        False
3        False
4        False
         ...  
35376    False
35377    False
35378    False
35379    False
35380    False
Name: user_type, Length: 35381, dtype: bool

In [20]:
result.to_dataframe()[result.to_dataframe()['user_id'] == 122915]

Unnamed: 0,event_id,event_type,event_index,event_name,event_timestamp,user_id,user_type
20596,c830491c-bd78-4e4e-b4fa-430bd81d9dc8,group_alias,20596,product,2020-04-07 03:27:32.806542,122915.0,not_cash
20598,f303b181-8ffb-4e75-9c2c-49bc1f4a2745,group_alias,20598,product,2020-04-07 03:27:49.914239,122915.0,not_cash
20600,20b821ce-9d64-4757-8846-a092ed947584,group_alias,20600,product,2020-04-07 03:27:57.320839,122915.0,not_cash
20602,bd64ef59-7748-48b5-a69a-272a90fb9fd7,group_alias,20602,product,2020-04-07 03:28:00.580589,122915.0,not_cash
20604,f9843374-8cf2-4bf3-8b29-45a0d80ddf38,group_alias,20604,product,2020-04-07 03:28:01.815559,122915.0,not_cash
20606,0d6c37e7-0eae-4a76-8d46-c5123b3b4058,group_alias,20606,product,2020-04-07 03:28:45.697560,122915.0,not_cash
20608,8aa2be81-205c-4c74-8946-43339488624f,group_alias,20608,product,2020-04-07 03:29:04.983348,122915.0,not_cash
20610,b2b0f158-2fac-430b-8809-161256846b1b,group_alias,20610,product,2020-04-07 03:29:44.892554,122915.0,not_cash
20612,c8e32b36-a966-41b1-b902-33343e9c0331,group_alias,20612,product,2020-04-07 03:30:28.058167,122915.0,not_cash
20614,c5367235-e913-4ace-ae9e-7f5b7de3f473,group_alias,20614,product,2020-04-07 03:30:58.013806,122915.0,not_cash


In [21]:
result.to_dataframe()['event_name'].value_counts()

catalog             14500
main                 5628
product              3714
lost                 3097
cart                 2841
delivery_choice      1686
payment_choice       1107
delivery_courier      834
payment_done          706
payment_card          565
delivery_pickup       506
payment_cash          197
Name: event_name, dtype: int64

# Delete

## Описание работы функции

Датапроцессор фильрует события по заданному условию (проставляет метку delete=True)

Параметры:
```filter: EventstreamFilter```
EventstreamFilter = Callable[[DataFrame, EventstreamSchema], Any]
Кастомная функция, в которую передается датафрейм, схема и на выходе она дает маску (условие) для текущего eventstream.
Событие для которых условие = True -- > отфильтровываются


In [22]:
from src.data_processors_lib.simple_processors import DeleteEvents, DeleteEventsParams

def filter_1(df, schema):
    return (df['event_name'] == 'lost')

delete_lost = EventsNode(DeleteEvents(
                    params=DeleteEventsParams(filter=filter_1)))

graph.add_node(
    node=delete_lost,
    parents=[product_agg]
)

result = graph.combine(
    node=delete_lost
)

In [23]:
result.to_dataframe()['event_name'].value_counts()

catalog             14500
main                 5628
product              3714
cart                 2841
delivery_choice      1686
payment_choice       1107
delivery_courier      834
payment_done          706
payment_card          565
delivery_pickup       506
payment_cash          197
Name: event_name, dtype: int64

Удалились события lost

In [24]:
result.to_dataframe()

Unnamed: 0,event_id,event_type,event_index,event_name,event_timestamp,user_id,user_type
0,1e7ea0f9-c14d-47ba-a370-5e8a3083ce78,raw,0,catalog,2019-11-01 17:59:13.273932,219483890.0,not_cash
1,8ad381d3-24c0-4592-96be-45387aeb0c7f,group_alias,1,product,2019-11-01 17:59:28.459271,219483890.0,not_cash
3,6ce87735-cd86-4c85-93e6-ed39cc47dbed,raw,3,cart,2019-11-01 17:59:29.502214,219483890.0,not_cash
4,8da4434d-9bec-430b-b526-094350627686,raw,4,catalog,2019-11-01 17:59:32.557029,219483890.0,not_cash
5,3406b9ac-b298-4369-a8c2-9978338d6899,raw,5,catalog,2019-11-01 21:38:19.283663,964964743.0,not_cash
...,...,...,...,...,...,...,...
42185,3cd4acba-3c4c-4302-9ad8-712c6ca4484b,raw,42185,main,2020-04-29 12:47:39.956925,501098384.0,not_cash
42186,f60a3996-5b3d-412e-99a6-620d503c0b5f,raw,42186,catalog,2020-04-29 12:47:40.975732,501098384.0,not_cash
42187,6e0d4cdb-c8ba-42a4-be84-440563b9ef51,raw,42187,catalog,2020-04-29 12:48:01.809577,501098384.0,not_cash
42188,6a931876-6dba-4f9e-b06d-97087bbc0c05,raw,42188,main,2020-04-29 12:48:01.938488,501098384.0,not_cash


# Последовательное применение нод

In [25]:
# Объединим в группу delivery события:
# delivery_choice, delivery_courier, delivery_pickup

def filter_delivery(df, schema):
    return ((df['user_type'] == 'cash') |
            (df['event_name'].str.contains('delivery')))


delivery_agg = EventsNode(
    SimpleGroup(params=SimpleGroupParams(**{
        'event_name': 'delivery',
        'filter': filter_delivery
    })))

graph.add_node(
    node=delivery_agg,
    parents=[delete_lost]
)

result = graph.combine(
    node=delivery_agg
)

In [26]:
df_res = result.to_dataframe()

In [27]:
df_res['event_name'].value_counts()

catalog           12911
delivery           6757
main               4939
product            3267
cart               2452
payment_choice      854
payment_done        571
payment_card        533
Name: event_name, dtype: int64

In [28]:
len(source_df[(source_df['user_type'] == 'cash') |
            (source_df['event_name'].str.contains('delivery'))])

6834

In [29]:
source_df['event_name'].value_counts()

catalog             14518
main                 5635
lost                 3098
cart                 2842
product2             2172
delivery_choice      1686
product1             1515
payment_choice       1107
delivery_courier      834
payment_done          706
payment_card          565
delivery_pickup       506
payment_cash          197
Name: event_name, dtype: int64

In [30]:
len(df_res), \
len(source_df[(source_df['event_name'] != 'lost')|((source_df['event_name'] == 'lost')
    & (source_df['user_id'] == 122915)
                                            )
    ]
)

(32284, 32284)

# check change sorting

In [34]:
new_list = source.index_order.copy()

In [35]:
new_list

['profile',
 'start',
 'new_user',
 'resume',
 'truncated_left',
 'session_start',
 'group_alias',
 'raw',
 'raw_sleep',
 None,
 'synthetic',
 'synthetic_sleep',
 'positive_target',
 'negative_target',
 'session_end',
 'session_sleep',
 'truncated_right',
 'pause',
 'lost',
 'end']

In [36]:
new_list.insert(5, 'lalala')

In [37]:
new_list

['profile',
 'start',
 'new_user',
 'resume',
 'truncated_left',
 'lalala',
 'session_start',
 'group_alias',
 'raw',
 'raw_sleep',
 None,
 'synthetic',
 'synthetic_sleep',
 'positive_target',
 'negative_target',
 'session_end',
 'session_sleep',
 'truncated_right',
 'pause',
 'lost',
 'end']

# Результаты тестирования

<b>Grouping

1) Зачем мы передаем параметр "schema" в функцию фильтра?
2) [TODO] Если мы можем задать кастомный тип события - то как оно отсортируется? - по идее в любом месте до комбайна нам надо изменить сортировку в классе + как этот кейс надо решать с визуальным графом?


<b>Delete

1) [TO_Discuss] Надо подумать про переименование в Filter или что-то в этом роде, тогда не нужно отдельного
датапроцессора для фильтрации

<b>Общее

1) [TO_Discuss] Хорошо бы иметь метод, который выводит граф от текущей вершины (последовательность нод)
2) [TODO_analytics] Потестить сортировку, если порядок меняется где-то посередине
3)