In [2]:
import pandas as pd
import numpy as np
import random

## Допустим
###  У нас есть некий продукт с чатом поддержки. Клиенты пишут в него, чтобы найти решение возникающим проблемам. На вопросы клиентов отвечают операторы. Чтобы облегчить нагрузку на операторов мы подключили чатбота, который в состоянии ответить на самые распростараненные вопросы.

### Таким образом чат поддержки генерирует поток данных, которые сохраняются в нашей базе данных в виде таблиц. Пусть одна из них имеет следующий формат:

- id - уникальный идентификатор диалога
- date - дата поступления диалога (в формате dd-mm-yyyy)
- participants - участники диалога ('CUST_BOT', 'CUST_BOT_OPER', 'CUST_OPER')
- theme - тема диалога; последний вопрос заданный клиентом ('THEME1', 'THEME2', 'THEME3')
- rate - оценка диалога клиентом (по 5-ти бальной шкале)
- duration - длительность диалога (в секундах)
- oper_wait_time - время, которое потребовалось оператору, чтобы подключится к клиенту; время ожидания оператора (в секундах)
- all_mes_count - общее количество сообщений в диалоге (в штуках)
- cust_mes_count - количество сообщений клиента в диалоге (в штуках)
- bot_mes_count - количество сообщений бота в диалоге (в штуках)
- oper_mes_count - количество сообщений оператора в диалоге (в штуках)
- oper_name - имя оператора, включившегося в разговор (None, 'Игорь', 'Полнина', 'Гоша','Николай', 'Владимир', 'Маша', 'Света', 'Андрей')

## Генерация синтетичестких данных для презентации

### Выберем размер нашей выборки

In [3]:
sample_size = 30000

### Теперь сгенерируем датасет в указанном формате, обладающий следующими особенностями:

###### id:
 - значения id представлены в виде десятизначной строки чисел

In [4]:
ids = ['{:010}'.format(i) for i in range(sample_size)]

###### date: 
 - Пусть количество диалогов в выходные будет в целом на 25% больше чем в будние дни 

In [None]:
def get_dates(start, end, date_format=None):
    """
    date_format: "%d/%m/%Y", "%d.%m.%Y", "%Y-%m-%d", "%Y_%m_%d"
    """
    sdate = np.datetime64(start)
    edate = np.datetime64(end)
    delta = edate - sdate
    
    if date_format:
        dates = [pd.to_datetime(sdate + i).strftime(date_format) for i in range(delta.astype(int) + 1)]
    else:
        dates = [pd.to_datetime(sdate + i) for i in range(delta.astype(int) + 1)]
    
    return dates

In [5]:
unique_dates = get_dates('2021-07-01', '2021-07-30')
weekends = [day for day in unique_dates if day.weekday() in [5,6]]
weekdays = [day for day in unique_dates if day.weekday() not in [5,6]]

dates = sorted([*np.random.choice(weekends, int(sample_size*0.625), replace=True), 
                *np.random.choice(weekdays, int(sample_size*0.375), replace=True)])

NameError: name 'get_dates' is not defined

###### participants: 
- Пусть значения колонки participants распределяются в следующем соотношении: CUST_BOT - 60%, CUST_BOT_OPER - 30%, CUST_OPER - 10%

In [None]:
participants = [
    *['CUST_BOT']*int(sample_size*0.6), 
    *['CUST_BOT_OPER']*int(sample_size*0.3), 
    *['CUST_OPER']*int(sample_size*0.1)
]
random.shuffle(participants)

###### oper_name
 - Бот закрывает 60% диалогов (У 60% диалогов oper_name == None)
 - Диалоги распределены между операторами случайным образом

In [None]:
unique_oper_names = ['Игорь', 'Полина', 'Гоша','Николай', 'Владимир', 'Маша', 'Света', 'Андрей']
oper_names = [None if part == 'CUST_BOT' else np.random.choice(unique_oper_names, 1, replace=True)[0] for part in participants]

###### theme 
 - Тематики распределены между диалогами случайным образом

In [None]:
unique_themes = ['THEME1', 'THEME2', 'THEME3']
themes = list(np.random.choice(themes, sample_size, replace=True))

###### rates: 
- Пусть только 6% от всех диалогов были оценены клиентами
- Пусть клиенты оценивают диалоги в следующей пропорции: '1' - 30%, '2' - 1%, '3' - 2%, '4' - 2%, '5' - 65% 
- Пусть диалоги с тематикой THEME3 оцениваются 1-ей на 20% чаще (и 5-кой на 20% реже)
- Пусть диалоги в которых участвовал оператор Андрей оцениваются 1-ей на 10% чаще (и 5-кой на 10% реже)

In [None]:
rates = []
rate_probability = 0.06
probability_dict = {None: 1-rate_probability, 
                    '1': rate_probability*0.3, 
                    '2': rate_probability*0.01, 
                    '3': rate_probability*0.02, 
                    '4': rate_probability*0.02, 
                    '5': rate_probability*0.65}

for theme, name in zip(themes, oper_names):
    d = probability_dict.copy()
    
    if theme == 'THEME3':
        d['1'] += rate_probability*0.2
        d['5'] -= rate_probability*0.2
    if name == 'Андрей':
        d['1'] += rate_probability*0.1
        d['5'] -= rate_probability*0.1
    
    rates.append(np.random.choice(list(d.keys()), 1, p=list(d.values()))[0])


###### oper_wait_time:
 - Пусть минимальное время реакции оператора - 3 секунды, максимальная - 10 минут
 - Оператор Андрей включается в диалог на 5 минут позже чем остальные операторы

In [6]:
min_owt = 3
max_owt = 10*60

oper_wait_times = []

for part, oper_name in zip(participants, oper_names):
    if part in ['CUST_BOT_OPER', 'CUST_OPER']:
        if oper_name == 'Андрей':
            oper_wait_times.append(np.random.choice(range(min_owt+5*60+1, max_owt+5*60+1), 1)[0])
        else:
            oper_wait_times.append(np.random.choice(range(min_owt, max_owt), 1)[0])
    else:
        oper_wait_times.append(0)

NameError: name 'participants' is not defined

###### duration:
- Длительность диалога не может быть меньше времени реакции оператора
- Пусть длительность диалога без учета времени ожидания оператора лежит в диапазоне от 10 секунд до 15 минут

In [7]:
min_addit_dur = 10
max_addit_dur = 15*60

durations = []

for wait_time in oper_wait_times:
    durations.append(np.random.choice(range(wait_time + min_addit_dur+1, wait_time + max_addit_dur+1), 1)[0])

###### cust_mes_count:
 - Пусть минимальное количество сообщений клиента - 1, максимальное - 25
 - Если в диалоге участвовал и бот и оператор (participants == 'CUST_BOT_OPER'), то количество сообщений клиента должно быть больше 1

In [267]:
min_cmc = 1
max_cmc = 25

cust_mes_counts = []

for part in participants:
    if part == 'CUST_BOT_OPER':
        if min_cmc <= 1:
            cust_mes_counts.append(np.random.choice(range(2, max_cmc), 1)[0])
    else:
        cust_mes_counts.append(np.random.choice(range(min_cmc, max_cmc), 1)[0])

###### bot_mes_count:
 - Пусть минимальное количество сообщений бота - 1
 - Если бот не участвовал в диалоге (participants == 'CUST_OPER'), то количество сообщений бота равно нулю (bot_mes_count == 0)
 - Если в диалоге участвовал только бот и клиент (participants == 'CUST_BOT'), то количество сообщений бота равно количеству сообщений клиента
 - Если в диалоге участвовал клиент, бот и оператор, (participants == 'CUST_BOT_OPER'), то количесво сообщений бота строго меньше количества сообщений клиента
 

In [268]:
min_bmc = 1
bot_mes_counts = []

for cmc, part in zip(cust_mes_counts, participants):
    if part == 'CUST_OPER':
        bot_mes_counts.append(0)
    elif part == 'CUST_BOT':
        bot_mes_counts.append(cmc)
    elif part == 'CUST_BOT_OPER':
        bot_mes_counts.append(np.random.choice(range(min_bmc, cmc), 1)[0])


###### oper_mes_count:
 - Пусть минимальное количество сообщений клиента - 1, максимальное - 35
 - Если оператор не участвовал в диалоге (participants == 'CUST_BOT'), то количество сообщений оператора равно нулю (oper_mes_count == 0)

In [269]:
min_omc = 1
max_omc = 35

oper_mes_counts = []

for part in participants:
    if part == 'CUST_BOT':
        oper_mes_counts.append(0)
    else:
        oper_mes_counts.append(np.random.choice(range(min_omc, max_omc), 1)[0])

###### all_mes_count:
 - Общее количество сообщений в диалоге это сумма сообщений клиента, бота и оператора

In [270]:
all_mes_counts = [sum(x) for x in zip(cust_mes_counts, bot_mes_counts, oper_mes_counts)]

### Формирует и сохраняем наш датасет

In [271]:
df = pd.DataFrame({
    'date': dates,
    'id': ids,
    'participants': participants, 
    'theme': themes,
    'rate': rates, 
    'oper_name': oper_names,
    'duration': durations, 
    'oper_wait_time': oper_wait_times,
    'all_mes_count': all_mes_counts, 
    'cust_mes_count': cust_mes_counts, 
    'bot_mes_count': bot_mes_counts, 
    'oper_mes_count': oper_mes_counts,
    
})

df.head()

Unnamed: 0,date,id,participants,theme,rate,oper_name,duration,oper_wait_time,all_mes_count,cust_mes_count,bot_mes_count,oper_mes_count
0,2021-07-01,0,CUST_BOT,THEME2,,,327,0,32,16,16,0
1,2021-07-01,1,CUST_BOT,THEME2,,,241,0,8,4,4,0
2,2021-07-01,2,CUST_BOT,THEME1,,,802,0,48,24,24,0
3,2021-07-01,3,CUST_BOT,THEME3,,,440,0,24,12,12,0
4,2021-07-01,4,CUST_BOT_OPER,THEME3,,Андрей,1249,816,38,16,5,17


In [272]:
df = df.sort_values('date')

In [273]:
df.to_csv("../data/input/example.csv", index=False)

### В дальнейшем мы сможем выделить все эти особенности с помощью графиков графиков. 