## Подготовка

In [305]:
# Предварительная настройка системы
import numpy as np
import pandas as pd

pd.set_option('display.notebook_repr_html', False)
pd.set_option('display.max_columns', 8)
pd.set_option('display.max_rows', 10)
pd.set_option('display.width', 80)

import datetime
from datetime import datetime, date

In [306]:
# Каталог с CSV-файлами
src_csv_dir = '../csv/'
src_hackaton_file = 'data_for_spb_hakaton_entities1-Table 1.csv'  # данные хакатона
src_history_file  = 'history-Table 1.csv'                         # история изменений
src_sprints_file  = 'sprints-Table 1.csv'                         # спринты

In [307]:
# Загружаем исходник спринтов
dS = pd.read_csv(f"{src_csv_dir}{src_sprints_file}",
                    header=1,
                    parse_dates=[
                        'sprint_start_date',
                        'sprint_end_date'
                    ],
                    delimiter=";"
                  )
# dS.head(10)

In [308]:
# Считываем данные для таблицы связей спринтов и задач
dSE_add_list = list([])
for _, row in dS[['sprint_name', 'entity_ids']].iterrows():
    esl = list(map(int, row['entity_ids'].strip("{}").split(",")))
    for l in esl:
        dSE_add_list.append({
            'entity_id': l,
            'sprint': row['sprint_name']  # TODO Заменить на ID
        })

# dSE_add_list[:20]

In [309]:
# Создаём таблицу связей спринтов и задач
dSE = pd.DataFrame(dSE_add_list)
dSE['entity_id'] = pd.to_numeric(dSE['entity_id'])

# dSE.dtypes

In [310]:
# Загружаем историю
dH = pd.read_csv(f"{src_csv_dir}{src_history_file}",
                     header=1,
                     delimiter=";"
                )

# dH

In [311]:
# Удаляем лишние колонки в истории
dH.drop(columns=['Столбец1', 'Unnamed: 7'], inplace=True)
# dH.dtypes
dH

       entity_id   history_property_name   history_date  history_version  \
0        94297.0  Время решения 3ЛП ФАКТ  9/10/24 11:17              1.0   
1        94297.0    Время решения (ФАКТ)  9/10/24 11:17              1.0   
2        94297.0             Исполнитель  7/13/23 11:07              1.0   
3            NaN                     NaN            NaN              NaN   
4        94297.0             Исполнитель  7/21/23 11:06              3.0   
...          ...                     ...            ...              ...   
64174  5179881.0                  Спринт  10/23/24 7:00             11.0   
64175  5179881.0                  Спринт  10/23/24 7:00             11.0   
64176  5179881.0                  Спринт  10/23/24 7:00             11.0   
64177  5179881.0               Резолюция  10/23/24 7:00             12.0   
64178  5179881.0                  Статус  10/23/24 7:00             12.0   

      history_change_type                                     history_change  
0       

In [312]:
# Нормализуем типы данных в истории
dH['entity_id'] = dH['entity_id'].astype('Int64')
dH['history_version'] = dH['history_version'].astype('Int64')
dH['history_date'] = pd.to_datetime(dH['history_date'], format='%m/%d/%y %H:%M', errors='coerce')
# dH.dtypes
dH

       entity_id   history_property_name        history_date  history_version  \
0          94297  Время решения 3ЛП ФАКТ 2024-09-10 11:17:00                1   
1          94297    Время решения (ФАКТ) 2024-09-10 11:17:00                1   
2          94297             Исполнитель 2023-07-13 11:07:00                1   
3           <NA>                     NaN                 NaT             <NA>   
4          94297             Исполнитель 2023-07-21 11:06:00                3   
...          ...                     ...                 ...              ...   
64174    5179881                  Спринт 2024-10-23 07:00:00               11   
64175    5179881                  Спринт 2024-10-23 07:00:00               11   
64176    5179881                  Спринт 2024-10-23 07:00:00               11   
64177    5179881               Резолюция 2024-10-23 07:00:00               12   
64178    5179881                  Статус 2024-10-23 07:00:00               12   

      history_change_type  

In [313]:
# Готовим данные для таблицы истории изменений статусов
dHS_pre = dH.loc[dH['history_property_name'] == 'Статус']
dHS_add_list = list([])
for index, row in dHS_pre.iterrows():
    (before, after) = row['history_change'].split(" -> ")
    dHS_add_list.append({
        'entity_id': row['entity_id'],
        'history_date': row['history_date'],
        'history_version': row['history_version'],
        'before': before,
        'after': after
    })

# dHS_add_list[:20]

In [323]:
# Заполняем таблицу истории изменений статусов
dHS = pd.DataFrame(dHS_add_list)
dHS['entity_id'] = dHS['entity_id'].astype('Int64')
dHS['history_version'] = dHS['history_version'].astype('Int64')
dHS['history_date'] = pd.to_datetime(dHS['history_date'])
dHS

      entity_id        history_date  history_version      before       after
0         94297 2024-09-10 11:16:00                7     created    analysis
1         94297 2024-09-10 11:17:00                8    analysis      fixing
2         94297 2024-09-10 11:17:00                9      fixing     testing
3         94297 2024-09-10 11:17:00               10     testing      closed
4        102481 2023-10-23 15:52:00               34     created    analysis
...         ...                 ...              ...         ...         ...
6959    5179847 2024-09-24 12:35:00                7     created  inProgress
6960    5179847 2024-09-26 06:43:00               10  inProgress        done
6961    5179847 2024-09-26 06:44:00               11        done      closed
6962    5179881 2024-10-08 06:47:00                8     created  inProgress
6963    5179881 2024-10-23 07:00:00               12  inProgress      closed

[6964 rows x 5 columns]

## Метрики