# Анализ данных из TFS

__Цель__: определить зависимость "описания задачи" (title, description) и "ответственного" (assigned_to)

П.С.: данные получены 22.08.2023 17:05

In [2]:
import pandas as pd
import numpy as np
import re
from datetime import date, datetime, timedelta

In [3]:
# считываем данные при помощи pandas
data = pd.read_csv('../datasets/tfs.csv', low_memory=False, sep='\t')
data.columns = ['id', 'title', 'state', 'created_date', 'assigned_to', 'iteration_path', 'created_by', 
           'activated_date', 'resolved_date', 'closed_date', 'area_path', 'work_item_type', 'effort', 
           'original_estimate', 'remaining_work', 'completed_work', 'target_date', 'size', 
           'work_date', 'target_resolve_date', 'blocked', 'root_cause', 'description', 'parent', 'path']
# удаляем все записи у которых id=None
data = data.dropna(subset='id')

In [4]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 33440 entries, 0 to 33439
Data columns (total 25 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   id                   33440 non-null  int64  
 1   title                33440 non-null  object 
 2   state                33440 non-null  object 
 3   created_date         33440 non-null  object 
 4   assigned_to          33228 non-null  object 
 5   iteration_path       33440 non-null  object 
 6   created_by           33440 non-null  object 
 7   activated_date       23757 non-null  object 
 8   resolved_date        28298 non-null  object 
 9   closed_date          20455 non-null  object 
 10  area_path            33440 non-null  object 
 11  work_item_type       33440 non-null  object 
 12  effort               4431 non-null   float64
 13  original_estimate    17479 non-null  float64
 14  remaining_work       20198 non-null  float64
 15  completed_work       28381 non-null 

## Обработка данных

In [5]:
# предобработка данных
DEFAULT_DATE_FORMAT='%m/%d/%Y %I:%M:%S %p'

data['id'] = data['id'].astype(int)

data['created_date'] = pd.to_datetime(data['created_date'], format=DEFAULT_DATE_FORMAT).dt.normalize()
data['closed_date'] = pd.to_datetime(data['closed_date'], format=DEFAULT_DATE_FORMAT).dt.normalize()
data['target_date'] = pd.to_datetime(data['target_date'], format=DEFAULT_DATE_FORMAT).dt.normalize()
data['target_resolve_date'] = pd.to_datetime(data['target_resolve_date'], format=DEFAULT_DATE_FORMAT).dt.normalize()
data['resolved_date'] = pd.to_datetime(data['resolved_date'], format=DEFAULT_DATE_FORMAT).dt.normalize()
data['activated_date'] = pd.to_datetime(data['activated_date'], format=DEFAULT_DATE_FORMAT).dt.normalize()
data['work_date'] = pd.to_datetime(data['work_date'], format=DEFAULT_DATE_FORMAT).dt.normalize()

data['parent'] = data['parent'].fillna(0)
data['parent'] = data['parent'].astype(int)

data['original_estimate'] = data['original_estimate'].fillna(data['effort'])

data['original_estimate'] = data['original_estimate'].fillna(0)
data['remaining_work'] = data['remaining_work'].fillna(0)
data['completed_work'] = data['completed_work'].fillna(0)

data['activated_date'] = data['activated_date'].fillna(data['created_date'])
# предполагаем, что дата закрытия равна дате активации
data['closed_date'] = data['closed_date'].fillna(data['created_date'])

data['resolved_date'] = data['resolved_date'].fillna(data['closed_date'])

In [6]:
import re
data['description'] = data['description'].fillna('')
data['description'] = data['description'].apply(lambda x: re.sub('<[^<]+?>', '', x))

In [7]:
# находим артефакты
feature_items = data[(data['work_item_type'].isin(['Feature', 'Issue'])) & (data['completed_work'] > 0)].copy()

# собираем информацию по проектам
project_items = data.loc[data['work_item_type'] == 'Hyper Epic', ['id', 'title', 'assigned_to', 'path']]
project_items['feature'] = project_items['path'].str.split(pat='/').apply(lambda x: int(x[0]))
project_items.drop(columns='path', inplace=True)
project_items.set_index('feature', inplace=True)
project_items.rename(columns={'id': 'root_id', 'assigned_to': 'owner', 'title': 'project'}, inplace=True)

# формируем итоговый набор объектов поставок
feature_items = project_items.merge(feature_items, left_on='feature', right_on='id', how='inner')
feature_items.drop(columns=['path', 'root_id', 'created_date', 'created_by', 'assigned_to', 'activated_date', 'closed_date', 'target_date', 'activated_date', 'owner', 'parent', 'work_date', 'size', 'area_path', 'iteration_path', 'root_cause', 'target_resolve_date', 'effort', 'resolved_date', 'blocked', 'state', 'assigned_to', 'remaining_work'], inplace=True)
feature_items.set_index('id', inplace=True)

# список задач по которым были списания
task_items = data.loc[data['work_item_type'] == 'Task', ['id', 'completed_work', 'assigned_to', 'path', 'created_date', 'activated_date', 'resolved_date', 'closed_date']]
task_items['feature_id'] = task_items['path'].str.split(pat='/').apply(lambda x: int(x[0]))
task_items.drop(columns='path', inplace=True)
task_items.rename(columns={'id': 'task_id', 'completed_work': 'completed_task_work'}, inplace=True)

# объединяем данные
task_items = feature_items.merge(task_items, left_on='id', right_on='feature_id', how='inner')
task_items.dropna(subset='assigned_to', inplace=True)

In [8]:
# удаляем все задачи у которых completed_work равен 0.0
task_items.drop(task_items[task_items['completed_task_work'] == 0.0].index, inplace=True)

task_items['year'] = task_items['created_date'].dt.year
task_items['month'] = task_items['created_date'].dt.month

# дней активной работы
task_items['days'] = (task_items['resolved_date'] - task_items['created_date']).dt.days + 1

# рабочих часов в день
task_items['hours'] = task_items['days'] * 8
task_items.loc[task_items['hours'] == 0, 'hours'] = task_items['completed_task_work']

### Анализ данных объектов поставки

In [9]:
feature_items.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1733 entries, 778485 to 613069
Data columns (total 6 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   project            1733 non-null   object 
 1   title              1733 non-null   object 
 2   work_item_type     1733 non-null   object 
 3   original_estimate  1733 non-null   float64
 4   completed_work     1733 non-null   float64
 5   description        1733 non-null   object 
dtypes: float64(2), object(4)
memory usage: 94.8+ KB


In [10]:
feature_items.head()

Unnamed: 0_level_0,project,title,work_item_type,original_estimate,completed_work,description
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
778485,Россети МР,[МОЭСК МС] #4670 Необходимо доработать визуал...,Feature,30.0,72.5,Необходимо в АРМ Диспетчера доработать визуали...
815658,Россети ЦиП,[МРСК ЦиП] #1907081 В АРМ не загружается план ...,Issue,3.0,2.5,Не загружается план на август (корректировка) ...
729069,КСК,[МС] КСК. 06.03 ПМИ. ПСИ. В разделе создания ...,Feature,8.0,5.0,
729092,КСК,[МС] КСК. 09.02 Реализация. Инвентаризации при...,Feature,64.0,57.5,ФП во вложении и по ссылке:http://tfs2017.comp...
729093,КСК,[МС] КСК. 09.03 ПМИ. ПСИ. Инвентаризации прибо...,Feature,12.0,5.0,


* ___id___ - идентификатор объекта поставки
* ___project___ - наименование проекта
* ___title___ - описание проекта
* ___work_item_type___ - тип объекта поставки
* ___original_estimate___ - оценочная стоимость
* ___completed_work___ - фактическая стоимость
* ___description___ - описание

### Анализ задач

In [11]:
task_items.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 10155 entries, 0 to 10637
Data columns (total 18 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   project              10155 non-null  object        
 1   title                10155 non-null  object        
 2   work_item_type       10155 non-null  object        
 3   original_estimate    10155 non-null  float64       
 4   completed_work       10155 non-null  float64       
 5   description          10155 non-null  object        
 6   task_id              10155 non-null  int32         
 7   completed_task_work  10155 non-null  float64       
 8   assigned_to          10155 non-null  object        
 9   created_date         10155 non-null  datetime64[ns]
 10  activated_date       10155 non-null  datetime64[ns]
 11  resolved_date        10155 non-null  datetime64[ns]
 12  closed_date          10155 non-null  datetime64[ns]
 13  feature_id           10155 non-

In [12]:
def normal_title(txt):
    return re.sub(r'^\[.+\]\s*#*\d*\s*', '', txt)

task_items['title'] = task_items['title'].apply(normal_title)

In [13]:
task_items.head()

Unnamed: 0,project,title,work_item_type,original_estimate,completed_work,description,task_id,completed_task_work,assigned_to,created_date,activated_date,resolved_date,closed_date,feature_id,year,month,days,hours
0,Россети МР,Необходимо доработать визуализацию на карте ре...,Feature,30.0,72.5,Необходимо в АРМ Диспетчера доработать визуали...,794417,24.0,Вадим Егоров,2023-06-27,2023-06-27,2023-06-30,2023-06-30,778485,2023,6,4,32
1,Россети МР,Необходимо доработать визуализацию на карте ре...,Feature,30.0,72.5,Необходимо в АРМ Диспетчера доработать визуали...,780503,17.0,Алексей Костюхин,2023-05-25,2023-06-05,2023-06-16,2023-06-16,778485,2023,5,23,184
2,Россети МР,Необходимо доработать визуализацию на карте ре...,Feature,30.0,72.5,Необходимо в АРМ Диспетчера доработать визуали...,780768,3.0,Александр Пушкин,2023-05-26,2023-06-02,2023-06-02,2023-06-02,778485,2023,5,8,64
3,Россети МР,Необходимо доработать визуализацию на карте ре...,Feature,30.0,72.5,Необходимо в АРМ Диспетчера доработать визуали...,796091,21.0,Вадим Егоров,2023-06-30,2023-07-03,2023-07-12,2023-07-12,778485,2023,6,13,104
4,Россети МР,Необходимо доработать визуализацию на карте ре...,Feature,30.0,72.5,Необходимо в АРМ Диспетчера доработать визуали...,807437,2.5,Мария Егорова,2023-07-27,2023-07-27,2023-07-31,2023-07-31,778485,2023,7,5,40


* ___project___ - наименование проекта
* ___title___ - описание проекта
* ___work_item_type___ - тип объекта поставки
* ___original_estimate___ - оценочная стоимость
* ___completed_work___ - фактическая стоимость
* ___description___ - описание
* ___task_id___ - идентификатор задачи
* ___completed_task_work___ - фактические трудозатраты
* ___assigned_to___ - исполнитель
* ___created_date___ - дата создания задачи
* ___activated_date___ - дата взятия задачи в работу
* ___resolved_date___ - дата завершения выполнения задачи
* ___closed_date___ - дата закрытия задачи
* ___feature_id___ - идентификатор объекта поставки
* ___year___ - год создания задачи
* ___month___ - месяц создания задачи
* ___days___ - день создания задачи
* ___hours___ - длительных рабочих часов 

In [14]:
feature_items.head()

Unnamed: 0_level_0,project,title,work_item_type,original_estimate,completed_work,description
id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
778485,Россети МР,[МОЭСК МС] #4670 Необходимо доработать визуал...,Feature,30.0,72.5,Необходимо в АРМ Диспетчера доработать визуали...
815658,Россети ЦиП,[МРСК ЦиП] #1907081 В АРМ не загружается план ...,Issue,3.0,2.5,Не загружается план на август (корректировка) ...
729069,КСК,[МС] КСК. 06.03 ПМИ. ПСИ. В разделе создания ...,Feature,8.0,5.0,
729092,КСК,[МС] КСК. 09.02 Реализация. Инвентаризации при...,Feature,64.0,57.5,ФП во вложении и по ссылке:http://tfs2017.comp...
729093,КСК,[МС] КСК. 09.03 ПМИ. ПСИ. Инвентаризации прибо...,Feature,12.0,5.0,
