## Работа Анны Коврижкиной, [InData](https://useindata.com/)

In [8]:
import pandas as pd
import numpy as np

import time
import datetime

In [9]:
df = pd.read_csv("/home/sk27/repo/eremeev/test_projects/call_center_data.csv")

In [10]:
df.rename(columns={"action": "Операция", "date": "Дата", "time": "Время", "user_id": "Пользов"}, inplace=True)

In [11]:
# Соединяем дату и время в один столбец 
df['Дата_время'] = df['Дата'] + ' ' + df['Время']

# Переводим в тип данных datetime
df['Дата_время'] = pd.to_datetime(df['Дата_время'])

# Переводим в тип данных unixtime
df['unixtime'] = (df['Дата_время'] - pd.Timestamp('1970-01-01 00:00:00')) // pd.Timedelta('1s')

# Сортируем датафрейм по пользователю и времени
df = df.sort_values(by = ['Пользов', 'unixtime'])
df = df.reset_index(drop=True)
df

Unnamed: 0,Операция,Дата,Время,Пользов,Дата_время,unixtime
0,15,1/3/2018,14:50:14,30134,2018-01-03 14:50:14,1514991014
1,2006,1/3/2018,15:58:07,30134,2018-01-03 15:58:07,1514995087
2,2006,1/3/2018,15:58:14,30134,2018-01-03 15:58:14,1514995094
3,2006,1/3/2018,15:58:19,30134,2018-01-03 15:58:19,1514995099
4,2006,1/3/2018,15:58:29,30134,2018-01-03 15:58:29,1514995109
...,...,...,...,...,...,...
196777,2001,1/30/2018,18:06:18,40138,2018-01-30 18:06:18,1517335578
196778,2003,1/30/2018,18:08:13,40138,2018-01-30 18:08:13,1517335693
196779,2003,1/30/2018,18:08:17,40138,2018-01-30 18:08:17,1517335697
196780,2003,1/30/2018,18:08:21,40138,2018-01-30 18:08:21,1517335701


In [12]:
# Сгруппируем датафрейм по пользователю, посчитав уникальные значения unixtime 
a = df.groupby('Пользов')['unixtime'].value_counts().reset_index(name='t')

# Выведем строки, в которых количество уникальных значений > 1
a.loc[a['t'] > 1]

Unnamed: 0,Пользов,unixtime,t
32532,38830,1514972006,2
32533,38830,1514988603,2
32534,38830,1514988673,2
32535,38830,1514988719,2
32536,38830,1514988767,2
...,...,...,...
84828,39037,1516204817,2
84829,39037,1516277278,2
84830,39037,1516635212,2
84831,39037,1516706037,2


Так как в контактном центре вполне вероятна ситуация, когда одновременно выполняется несколько задач, для таких строк delta_ считаем одинаковой.

In [13]:
%%time

# Создаём столбец с разницей между временем завершения текущей операции и предыдущей 
# Если у одного пользователя одинаковые значения времени
# В таких строках будет одинаковое значение в delta_
for i in range(1, len(df)):
    if df.loc[i, 'Пользов'] == df.loc[i-1, 'Пользов'] and df.loc[i, 'unixtime'] != df.loc[i-1, 'unixtime']:
        df.loc[i, 'delta_'] = df.loc[i, 'unixtime'] - df.loc[i-1, 'unixtime']
    elif df.loc[i, 'Пользов'] == df.loc[i-1, 'Пользов'] and df.loc[i, 'unixtime'] == df.loc[i-1, 'unixtime']:
        df.loc[i, 'delta_'] = df.loc[i-1, 'delta_']
    else:
        df.loc[i, 'delta_'] = 0

CPU times: user 4min 31s, sys: 76.3 ms, total: 4min 31s
Wall time: 4min 31s


In [14]:
# Удаляем первую строку с NaN в delta_
# Удаляем строки, в которых delta_ > 20 минут (1200 в unixtime)
# и delta_ = 0
df = df.dropna(axis=0)
df = df.loc[(df.delta_ <= 1200)&(df.delta_!= 0)]

In [15]:
# Создаём сводную таблицу по операциям, где значения - медиана от delta_ по этим операциям
pivot_operation = df.pivot_table(index = ['Операция'], values = ['delta_'], aggfunc = 'median').reset_index()

#Переводим delta_ в тип данных int
pivot_operation['delta_'] = pivot_operation['delta_'].astype(int)
pivot_operation

Unnamed: 0,Операция,delta_
0,0,96
1,1,17
2,2,37
3,4,22
4,6,12
...,...,...
38,3330,121
39,9001,20
40,9002,42
41,9003,2


In [16]:
# Переводим delta_ в datetime и оставляем только время
pivot_operation['delta_'] = pd.to_datetime(pivot_operation['delta_'], unit='s').apply(lambda x: x.strftime('%H:%M:%S'))
pivot_operation

Unnamed: 0,Операция,delta_
0,0,00:01:36
1,1,00:00:17
2,2,00:00:37
3,4,00:00:22
4,6,00:00:12
...,...,...
38,3330,00:02:01
39,9001,00:00:20
40,9002,00:00:42
41,9003,00:00:02


In [17]:
# Создаем excel writer object 
# writer = pd.ExcelWriter('Operation_median_time.xlsx')
 
# Записываем датафрейм в excel 
# pivot_operation.to_excel(writer) 

# Сохраняем файл excel 
# writer.save() 
# print('Файл успешно выгружен')