In [1]:
import pandas as pd
from dataclasses import dataclass
import os

# необработанные данные ровно в таком виде как были предоставлены
DATA_ZIP_RAW = "../../data/raw/data_for_spb_hakaton_entities.zip"
DATA_DIR_RAW = "../../data/raw/data_for_spb_hakaton_entities/data_for_spb_hakaton_entities"

@dataclass(frozen=True)
class DatasetConfig():
    path_entities: str
    path_history: str
    path_sprints: str

raw_data = DatasetConfig(
    path_entities=os.path.join(DATA_DIR_RAW, "data_for_spb_hakaton_entities1-Table 1.csv"),
    path_history=os.path.join(DATA_DIR_RAW, "history-Table 1.csv"),
    path_sprints=os.path.join(DATA_DIR_RAW, "sprints-Table 1.csv")
)

# загрузка данных из CSV файлов
entities_df = pd.read_csv(raw_data.path_entities, skiprows=1, sep=";", na_values=["", "<empty>"], keep_default_na=True)
history_df  = pd.read_csv(raw_data.path_history, skiprows=1, sep=";", na_values=["", "<empty>"], keep_default_na=True)
sprints_df  = pd.read_csv(raw_data.path_sprints, skiprows=1, sep=";", na_values=["", "<empty>"], keep_default_na=True)

In [2]:
entities_df.head(5)

Unnamed: 0,entity_id,area,type,status,state,priority,ticket_number,name,create_date,created_by,...,updated_by,parent_ticket_id,assignee,owner,due_date,rank,estimation,spent,workgroup,resolution
0,94297,Система.Таск-трекер,Дефект,Закрыто,Normal,Средний,PPTS-1965,[FE] Бэклог. Кастомизация колонок. Кастомизаци...,2023-03-16 16:59:00.000000,А. К.,...,А. К.,72779.0,А. К.,А. К.,,0|qzzywk:,60.0,,,Готово
1,102481,Система.Ошибки,История,Закрыто,Normal,Критический,PPIN-1175,[ГенераторДокументов] Интеграция со Система.Ге...,2023-05-12 13:33:55.918127,А. З.,...,,3488105.0,А. Е.,А. Е.,,0|qv7n1c:y,432000.0,,Новая функциональность,Готово
2,1805925,Система.Таск-трекер,Дефект,Тестирование,Normal,Высокий,PPTS-3189,[FE] История изменений. Пустые строки в истори...,2023-07-12 09:36:04.479760,А. К.,...,А. К.,,А. К.,А. К.,,0|qzsklw:,60.0,,,
3,1934905,Система.Таск-трекер,Дефект,Закрыто,Normal,Средний,PPTS-3383,[FE] Зависимые поля. Тип реакции disable НЕ ра...,2023-08-04 11:32:25.829919,А. Д.,...,А. К.,,А. К.,Я. П.,,0|qzh3e8:,,,,Готово
4,1943849,Система.Ошибки,Дефект,Отклонен исполнителем,Normal,Низкий,PPIN-1609,[BE] При сортировке по Теме если знаки препина...,2023-08-09 06:20:44.391950,А. С.,...,А. Е.,2083371.0,А. М.,А. Ж.,,0|qzzywj:zzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzz...,,,,Отклонено


In [3]:
history_df.head()

Unnamed: 0,entity_id,history_property_name,history_date,history_version,history_change_type,history_change,Столбец1,Unnamed: 7
0,94297.0,Время решения 3ЛП ФАКТ,9/10/24 11:17,1.0,FIELD_CHANGED,<empty> -> 2024-09-10 11:17:06.680223,,
1,94297.0,Время решения (ФАКТ),9/10/24 11:17,1.0,FIELD_CHANGED,<empty> -> 2024-09-10 11:17:06.680223,,
2,94297.0,Исполнитель,7/13/23 11:07,1.0,FIELD_CHANGED,user409017mail@mail.com -> user408045mail@mail...,,
3,,,,,,,,
4,94297.0,Исполнитель,7/21/23 11:06,3.0,FIELD_CHANGED,user4080458@mail.com -> user4091341@mail.com,,


In [4]:
sprints_df.head(5)

Unnamed: 0,sprint_name,sprint_status,sprint_start_date,sprint_end_date,entity_ids
0,Спринт 2024.3.1.NPP Shared Sprint,Закрыт,2024-07-03 19:00:00.000000,2024-07-16 19:00:00.000000,"{4449728,4450628,4451563,4451929,4452033,44522..."
1,Спринт 2024.3.2.NPP Shared Sprint,Закрыт,2024-07-17 19:00:00.000000,2024-07-30 19:00:00.000000,"{4506286,4429413,4327418,4370041,4525683,43267..."
2,Спринт 2024.3.3.NPP Shared Sprint,Закрыт,2024-07-31 19:00:00.000000,2024-08-13 19:00:00.000000,"{4646403,4176602,4555571,4497495,4340795,46178..."
3,Спринт 2024.3.4.NPP Shared Sprint,Закрыт,2024-08-14 19:00:00.000000,2024-08-27 19:00:00.000000,"{4805777,4596004,4594168,4523718,4579094,46853..."
4,Спринт 2024.3.5.NPP Shared Sprint,Закрыт,2024-08-28 19:00:00.000000,2024-09-10 19:00:00.000000,"{4861060,4856927,4868451,4092647,4932565,49838..."


In [5]:
from rich.jupyter import print as print_rich

tables: dict[str, pd.DataFrame] = {
    "задачи": entities_df,
    "история": history_df,
    "спринты": sprints_df
}


def remove_full_duplicates(
    df_name: str,
    df: pd.DataFrame
) -> tuple[pd.DataFrame, pd.Series]:
    count = int(df.duplicated().sum())
    print_rich(f"Всего в '[italic yellow]{df_name}[/italic yellow]' полных дубликатов: [red]{count}[/red]")
    return df.drop_duplicates(), df.duplicated()

# сохраняем дубликаты просто на всякий случай (они скорее всего не понадобятся)
duplicates: dict[str, pd.Series] = {}
tables_cleaned: dict[str, pd.DataFrame] = {}

for name, df in tables.items():
    cleaned_df, duplicates = remove_full_duplicates(name, df)
    duplicates[name] = duplicates
    tables_cleaned[name] = cleaned_df

In [6]:
for name, df in tables.items():
    dups_were = tables[name].duplicated().sum()
    dups_now = tables_cleaned[name].duplicated().sum()
    print(f"'{name}' было: {dups_were} - стало: {dups_now}")

'задачи' было: 1 - стало: 0
'история' было: 3068 - стало: 0
'спринты' было: 0 - стало: 0


In [7]:
def remove_empty_rows(
    df_name: str,
    df: pd.DataFrame
) -> tuple[pd.DataFrame]:
    count = int(df.isna().all(axis=1).sum())
    print_rich(f"Всего в '[italic yellow]{df_name}[/italic yellow]' удалено полных пропусков: [red]{count}[/red]")
    return df.dropna(how='all')

for name, df in tables_cleaned.items():
    cleaned_df = remove_empty_rows(name, df)
    tables_cleaned[name] = cleaned_df

In [8]:
tables_cleaned["задачи"]

Unnamed: 0,entity_id,area,type,status,state,priority,ticket_number,name,create_date,created_by,...,updated_by,parent_ticket_id,assignee,owner,due_date,rank,estimation,spent,workgroup,resolution
0,94297,Система.Таск-трекер,Дефект,Закрыто,Normal,Средний,PPTS-1965,[FE] Бэклог. Кастомизация колонок. Кастомизаци...,2023-03-16 16:59:00.000000,А. К.,...,А. К.,72779.0,А. К.,А. К.,,0|qzzywk:,60.0,,,Готово
1,102481,Система.Ошибки,История,Закрыто,Normal,Критический,PPIN-1175,[ГенераторДокументов] Интеграция со Система.Ге...,2023-05-12 13:33:55.918127,А. З.,...,,3488105.0,А. Е.,А. Е.,,0|qv7n1c:y,432000.0,,Новая функциональность,Готово
2,1805925,Система.Таск-трекер,Дефект,Тестирование,Normal,Высокий,PPTS-3189,[FE] История изменений. Пустые строки в истори...,2023-07-12 09:36:04.479760,А. К.,...,А. К.,,А. К.,А. К.,,0|qzsklw:,60.0,,,
3,1934905,Система.Таск-трекер,Дефект,Закрыто,Normal,Средний,PPTS-3383,[FE] Зависимые поля. Тип реакции disable НЕ ра...,2023-08-04 11:32:25.829919,А. Д.,...,А. К.,,А. К.,Я. П.,,0|qzh3e8:,,,,Готово
4,1943849,Система.Ошибки,Дефект,Отклонен исполнителем,Normal,Низкий,PPIN-1609,[BE] При сортировке по Теме если знаки препина...,2023-08-09 06:20:44.391950,А. С.,...,А. Е.,2083371.0,А. М.,А. Ж.,,0|qzzywj:zzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzzz...,,,,Отклонено
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2480,5179477,Управление релизами изменениями,Задача,Закрыто,Normal,Средний,PPRC-2511,[PPPL] [FE] - Исследовать ui-kit andt на приме...,2024-09-24 12:12:21.879096,Е. Б.,...,В. М.,4933112.0,В. М.,Е. Б.,,0|qm0tow:,57600.0,,Новая функциональность,
2481,5179714,Управление релизами изменениями,Задача,Закрыто,Normal,Средний,PPRC-2512,[PPPL] [FE] - Написать базовую структуру прило...,2024-09-24 12:18:13.307422,Е. Б.,...,В. М.,4933112.0,В. М.,Е. Б.,,0|qm0sbk:,86400.0,,Новая функциональность,Готово
2482,5179793,Управление релизами изменениями,Задача,Закрыто,Normal,Средний,PPRC-2513,[PPPL] [FE] - Сделать роутинги в админке плаг...,2024-09-24 12:19:51.036183,Е. Б.,...,В. М.,4933112.0,В. М.,Е. Б.,,0|qm0rw0:,28800.0,,Новая функциональность,Готово
2483,5179847,Управление релизами изменениями,Задача,Закрыто,Normal,Средний,PPRC-2515,[PPPL] [FE] - Написать парсинга json файла,2024-09-24 12:21:27.373853,Е. Б.,...,И. К.,4933112.0,В. М.,Е. Б.,,0|qm0rko:,28800.0,,Новая функциональность,Готово


In [9]:
sprints_df: pd.DataFrame = tables_cleaned["спринты"]
entities_df: pd.DataFrame = tables_cleaned["задачи"]
history_df: pd.DataFrame = tables_cleaned["история"]

In [10]:
empty_rows_count = (
    history_df.map(
        lambda x: pd.isna(x) or str(x).strip() == ""
    ).all(axis=1)
).sum()

# ещё раз проверяем сколько полностью пустых
empty_rows_count

np.int64(0)

In [11]:
sprints_df["entity_ids"]

0    {4449728,4450628,4451563,4451929,4452033,44522...
1    {4506286,4429413,4327418,4370041,4525683,43267...
2    {4646403,4176602,4555571,4497495,4340795,46178...
3    {4805777,4596004,4594168,4523718,4579094,46853...
4    {4861060,4856927,4868451,4092647,4932565,49838...
5    {5034080,5052223,4620977,5137167,4072346,44107...
Name: entity_ids, dtype: object

In [12]:
import ast
sprints_df["entity_ids"].apply(lambda x: set(ast.literal_eval(x)))

0    {4433921, 4335618, 4500482, 2867204, 4400132, ...
1    {4534279, 4581389, 4544530, 4599826, 4065300, ...
2    {4623364, 4669445, 4584456, 3864586, 4679691, ...
3    {4701184, 4749317, 4854792, 4753418, 4834319, ...
4    {4556808, 4964364, 4708365, 4792334, 4917263, ...
5    {4968451, 5091343, 5015568, 5005327, 4818970, ...
Name: entity_ids, dtype: object

In [13]:
# Преобразование entity_ids из строки в set
sprints_df["entity_ids"] = sprints_df["entity_ids"].apply(lambda x: set(ast.literal_eval(x)))

In [14]:
# создание таблицы для связи задач со спринтами
sprint_tasks = []
for _, row in sprints_df.iterrows():
    sprint_id = row["sprint_name"]
    for task_id in row["entity_ids"]:
        sprint_tasks.append({
            "sprint_name": sprint_id,
            "task_id": task_id
        })

sprint_tasks_df = pd.DataFrame(sprint_tasks)

In [15]:
sprint_tasks_df

Unnamed: 0,sprint_name,task_id
0,Спринт 2024.3.1.NPP Shared Sprint,4433921
1,Спринт 2024.3.1.NPP Shared Sprint,4335618
2,Спринт 2024.3.1.NPP Shared Sprint,4500482
3,Спринт 2024.3.1.NPP Shared Sprint,2867204
4,Спринт 2024.3.1.NPP Shared Sprint,4400132
...,...,...
2825,Спринт 2024.3.6.NPP Shared Sprint,5005288
2826,Спринт 2024.3.6.NPP Shared Sprint,4456425
2827,Спринт 2024.3.6.NPP Shared Sprint,4741105
2828,Спринт 2024.3.6.NPP Shared Sprint,5076987


In [16]:
# объединение таблиц спринтов и задач
tasks_with_sprints_df = pd.merge(sprint_tasks_df, entities_df,
    left_on="task_id",
    right_on="entity_id",
    how="left"
)

tasks_with_sprints_df

Unnamed: 0,sprint_name,task_id,entity_id,area,type,status,state,priority,ticket_number,name,...,updated_by,parent_ticket_id,assignee,owner,due_date,rank,estimation,spent,workgroup,resolution
0,Спринт 2024.3.1.NPP Shared Sprint,4433921,4433921,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7386,[QA] Автоматизация (рефакторинг+написание),...,В. С.,,В. С.,В. С.,,0|qpd1fk:,28800.0,28800.0,Линейная деятельность,Готово
1,Спринт 2024.3.1.NPP Shared Sprint,4335618,4335618,Система.Вики,Подзадача,Закрыто,Normal,Средний,PPWI-5213,[BE] Поддержка большого кол-ва пользователей ...,...,М. К.,4197760.0,М. К.,Д. С.,,0|qps6ig:,14400.0,14400.0,,Готово
2,Спринт 2024.3.1.NPP Shared Sprint,4500482,4500482,Система.Таск-трекер,Дефект,Закрыто,Normal,Высокий,PPTS-7808,[FE] Импорт CSV. Исправить инструкицю для поля...,...,Я. П.,,Я. П.,Я. П.,,0|qp2e70:,,,,Готово
3,Спринт 2024.3.1.NPP Shared Sprint,2867204,2867204,Система. Движок,Задача,Создано,Normal,Средний,PPFW-1314,[QA] API v1 Получение полной сущности со смапп...,...,Н. Н.,2435333.0,Н. Н.,Н. К.,,0|qwbal8:,57600.0,,Линейная деятельность,
4,Спринт 2024.3.1.NPP Shared Sprint,4400132,4400132,Система. Движок,Дефект,Закрыто,Normal,Критический,PPFW-2642,[BE] CFO. Не создается экземпляр сущности при ...,...,И. Т.,,И. Т.,И. Т.,,0|qpib58:,,,,Готово
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2825,Спринт 2024.3.6.NPP Shared Sprint,5005288,5005288,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-8094,[QA] ЦК Активности,...,В. С.,,В. С.,В. С.,,0|qmt8uc:,144000.0,144000.0,Линейная деятельность,Готово
2826,Спринт 2024.3.6.NPP Shared Sprint,4456425,4456425,Управление релизами изменениями,История,Закрыто,Normal,Высокий,PPRC-2285,[PPPL] Регистрация точек расширения,...,Д. З.,4178116.0,Е. Б.,Р. Б.,,0|qmxu9b:y,,,Новая функциональность,
2827,Спринт 2024.3.6.NPP Shared Sprint,4741105,4741105,Система.Таск-трекер,Дефект,Закрыто,Normal,Средний,PPTS-8167,"[FE] Доски. Невозможно отредактировать доску, ...",...,Я. П.,,Я. П.,Я. П.,9/18/24,0|qnzmy8:,86400.0,,,Готово
2828,Спринт 2024.3.6.NPP Shared Sprint,5076987,5076987,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-8152,"Устранение уязвимостей Вики, Согласования",...,В. С.,4463870.0,В. С.,С. Т.,,0|qmhqw4:,28800.0,28800.0,Новая функциональность,Готово


In [17]:
# объединение с таблицей истории выполнения
full_merged_df = pd.merge(tasks_with_sprints_df, history_df,
    left_on="task_id",
    right_on="entity_id",
    how="left"
)
full_merged_df

Unnamed: 0,sprint_name,task_id,entity_id_x,area,type,status,state,priority,ticket_number,name,...,workgroup,resolution,entity_id_y,history_property_name,history_date,history_version,history_change_type,history_change,Столбец1,Unnamed: 7
0,Спринт 2024.3.1.NPP Shared Sprint,4433921,4433921,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7386,[QA] Автоматизация (рефакторинг+написание),...,Линейная деятельность,Готово,4433921.0,Дата решения,7/26/24 6:00,1.0,FIELD_CHANGED,<empty> -> 2024-07-16T07:38:18+00:00,,
1,Спринт 2024.3.1.NPP Shared Sprint,4433921,4433921,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7386,[QA] Автоматизация (рефакторинг+написание),...,Линейная деятельность,Готово,4433921.0,Задача,7/2/24 12:07,1.0,CREATED,,,
2,Спринт 2024.3.1.NPP Shared Sprint,4433921,4433921,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7386,[QA] Автоматизация (рефакторинг+написание),...,Линейная деятельность,Готово,4433921.0,Связанные Задачи,7/2/24 12:07,2.0,FIELD_CHANGED,<empty> -> isClonedBy,,
3,Спринт 2024.3.1.NPP Shared Sprint,4433921,4433921,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7386,[QA] Автоматизация (рефакторинг+написание),...,Линейная деятельность,Готово,4433921.0,Связанные Задачи,7/2/24 12:07,2.0,FIELD_CHANGED,<empty> -> PPAR-7105,,
4,Спринт 2024.3.1.NPP Shared Sprint,4433921,4433921,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7386,[QA] Автоматизация (рефакторинг+написание),...,Линейная деятельность,Готово,4433921.0,Связанные Задачи,7/2/24 12:08,3.0,FIELD_CHANGED,,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
78773,Спринт 2024.3.6.NPP Shared Sprint,4818940,4818940,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7912,[ВЕ] Нотификации. Просмотр подписанных пользов...,...,Новая функциональность,Готово,4818940.0,Родительская задача,9/6/24 10:02,20.0,FIELD_CHANGED,PPMGM-1401 -> PPMGM-1324,,
78774,Спринт 2024.3.6.NPP Shared Sprint,4818940,4818940,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7912,[ВЕ] Нотификации. Просмотр подписанных пользов...,...,Новая функциональность,Готово,4818940.0,Оценка,9/10/24 13:14,21.0,FIELD_CHANGED,28800 -> 14400,,
78775,Спринт 2024.3.6.NPP Shared Sprint,4818940,4818940,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7912,[ВЕ] Нотификации. Просмотр подписанных пользов...,...,Новая функциональность,Готово,4818940.0,Статус,9/12/24 7:08,22.0,FIELD_CHANGED,created -> inProgress,,
78776,Спринт 2024.3.6.NPP Shared Sprint,4818940,4818940,Система.ХранениеАртефактов,Задача,Закрыто,Normal,Средний,PPAR-7912,[ВЕ] Нотификации. Просмотр подписанных пользов...,...,Новая функциональность,Готово,4818940.0,Резолюция,9/12/24 8:12,23.0,FIELD_CHANGED,<empty> -> Готово,,


In [18]:
def calculate_to_do_metric(full_merged_df: pd.DataFrame):
    # Фильтрация задач, находящихся в статусе "Создано" на конец спринта
    latest_status_df = full_merged_df.sort_values(by=["history_date", "history_version"]).groupby("task_id").tail(1)
    to_do_tasks_df = latest_status_df[(latest_status_df["status"] == "Создано") & (latest_status_df["sprint_name"].notna())]

    # Расчет метрики "К выполнению" для каждого спринта
    to_do_metric = to_do_tasks_df.groupby("sprint_name")["estimation"].sum() / 3600

    to_do_metric_df = to_do_metric.reset_index()
    to_do_metric_df.columns = ["Sprint Name", "To Do Metric (hours)"]
    return to_do_metric_df

# Вычисление метрики "К выполнению"
to_do_metric_df = calculate_to_do_metric(full_merged_df)

In [19]:
# # Фильтрация задач, находящихся в статусе "Создано"
# to_do_tasks_df = full_merged_df[full_merged_df["status"] == "Создано"]


# Фильтрация задач, находящихся в статусе "Создано" на конец спринта

latest_status_df = full_merged_df.sort_values(by=["history_date", "history_version"]).groupby("task_id").tail(1)
to_do_tasks_df = latest_status_df[(latest_status_df["status"] == "Создано") & (latest_status_df["sprint_name"].notna())]
to_do_tasks_df

Unnamed: 0,sprint_name,task_id,entity_id_x,area,type,status,state,priority,ticket_number,name,...,workgroup,resolution,entity_id_y,history_property_name,history_date,history_version,history_change_type,history_change,Столбец1,Unnamed: 7
11442,Спринт 2024.3.1.NPP Shared Sprint,4234185,4234185,Система. Движок,Подзадача,Создано,Normal,Средний,PPFW-2536,[QA] Тестирование карточки: компоненты,...,,,4234185.0,Связанные Задачи,6/18/24 8:20,9.0,FIELD_CHANGED,,,
82,Спринт 2024.3.1.NPP Shared Sprint,2867204,2867204,Система. Движок,Задача,Создано,Normal,Средний,PPFW-1314,[QA] API v1 Получение полной сущности со смапп...,...,Линейная деятельность,,2867204.0,Исполнитель,7/10/24 8:10,11.0,FIELD_CHANGED,user4070630@mail.com -> user4104337@mail.com,,
21455,Спринт 2024.3.2.NPP Shared Sprint,3988216,3988216,Система.Таск-трекер,Задача,Создано,Normal,Высокий,PPTS-6917,[FE] Гант. Базовый компонент. Контейнер. Слой ...,...,Новая функциональность,,3988216.0,Спринт,7/16/24 15:58,15.0,FIELD_CHANGED,Спринт 2024.2.4.NPP Shared Sprint -> Спринт 20...,,
23029,Спринт 2024.3.2.NPP Shared Sprint,3988352,3988352,Система.Таск-трекер,Задача,Создано,Normal,Высокий,PPTS-6919,[FE] Гант. Базовый компонент. Контейнер. Слой ...,...,Новая функциональность,,3988352.0,Спринт,7/16/24 15:58,17.0,FIELD_CHANGED,Спринт 2024.2.4.NPP Shared Sprint -> Спринт 20...,,
23990,Спринт 2024.3.2.NPP Shared Sprint,3987391,3987391,Система.Таск-трекер,Задача,Создано,Normal,Высокий,PPTS-6914,[FE] Гант. Базовый компонент. Контейнер. Вирту...,...,Новая функциональность,,3987391.0,Спринт,7/16/24 15:58,18.0,FIELD_CHANGED,Спринт 2024.2.4.NPP Shared Sprint -> Спринт 20...,,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
66391,Спринт 2024.3.6.NPP Shared Sprint,4987066,4987066,Система.Таск-трекер,Дефект,Создано,Normal,Средний,PPTS-8418,[РЫНОК][Клиент] Документация. Не исправлены за...,...,,,4987066.0,Вложения,9/30/24 9:29,7.0,FIELD_CHANGED,<empty> -> Система_Таск-трекер_Руководство_пол...,,
61346,Спринт 2024.3.5.NPP Shared Sprint,4900428,4900428,Система.Таск-трекер,Дефект,Создано,Normal,Низкий,PPTS-8307,[BE] [BA] Экспорт в файл. Нечитаемый текст при...,...,,,4900428.0,Приоритет,9/4/24 13:54,11.0,FIELD_CHANGED,high -> low,,
76617,Спринт 2024.3.6.NPP Shared Sprint,4943528,4943528,Система. Движок,Подзадача,Создано,Normal,Средний,PPFW-2967,[QA] Тестирование хранения изображений во вне...,...,,,4943528.0,Исполнитель,9/5/24 12:06,6.0,FIELD_CHANGED,user4110507@mail.com -> user4104337@mail.com,,
67072,Спринт 2024.3.6.NPP Shared Sprint,4178222,4178222,Система.Таск-трекер,Задача,Создано,Normal,Средний,PPTS-7317,[BE] Дашборд. Bulk PATCH при обновлении позици...,...,Новая функциональность,,4178222.0,Спринт,9/6/24 7:29,17.0,FIELD_CHANGED,<empty> -> Спринт 2024.3.6.NPP Shared Sprint,,


In [20]:
# Расчет метрики "К выполнению" для каждого спринта
to_do_metric = to_do_tasks_df.groupby("sprint_name")["estimation"].sum() / 3600
to_do_metric


sprint_name
Спринт 2024.3.1.NPP Shared Sprint    112.0
Спринт 2024.3.2.NPP Shared Sprint    111.0
Спринт 2024.3.3.NPP Shared Sprint    148.0
Спринт 2024.3.4.NPP Shared Sprint     12.0
Спринт 2024.3.5.NPP Shared Sprint     96.0
Спринт 2024.3.6.NPP Shared Sprint     34.0
Name: estimation, dtype: float64

In [21]:
to_do_metric_df = to_do_metric.reset_index()
to_do_metric_df.columns = ["Sprint Name", "To Do Metric (hours)"]

to_do_metric_df

Unnamed: 0,Sprint Name,To Do Metric (hours)
0,Спринт 2024.3.1.NPP Shared Sprint,112.0
1,Спринт 2024.3.2.NPP Shared Sprint,111.0
2,Спринт 2024.3.3.NPP Shared Sprint,148.0
3,Спринт 2024.3.4.NPP Shared Sprint,12.0
4,Спринт 2024.3.5.NPP Shared Sprint,96.0
5,Спринт 2024.3.6.NPP Shared Sprint,34.0


In [None]:
full_merged_df["history_date"]

0         7/26/24 6:00
1         7/2/24 12:07
2         7/2/24 12:07
3         7/2/24 12:07
4         7/2/24 12:08
             ...      
78773     9/6/24 10:02
78774    9/10/24 13:14
78775     9/12/24 7:08
78776     9/12/24 8:12
78777     9/12/24 8:12
Name: history_date, Length: 78778, dtype: object

In [23]:
pd.to_datetime(full_merged_df["history_date"], format="%m/%d/%y %H:%M")

0       2024-07-26 06:00:00
1       2024-07-02 12:07:00
2       2024-07-02 12:07:00
3       2024-07-02 12:07:00
4       2024-07-02 12:08:00
                ...        
78773   2024-09-06 10:02:00
78774   2024-09-10 13:14:00
78775   2024-09-12 07:08:00
78776   2024-09-12 08:12:00
78777   2024-09-12 08:12:00
Name: history_date, Length: 78778, dtype: datetime64[ns]