In [1]:
import pandas as pd
import numpy as np

#Загрузка данных
finance = pd.read_csv('office_data/financial_data.csv')
prolong = pd.read_csv('office_data/prolongations.csv')

#Смотрим на данные в таблице
finance.info()
prolong.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 451 entries, 0 to 450
Data columns (total 19 columns):
 #   Column         Non-Null Count  Dtype 
---  ------         --------------  ----- 
 0   id             451 non-null    int64 
 1   Причина дубля  301 non-null    object
 2   Ноябрь 2022    156 non-null    object
 3   Декабрь 2022   159 non-null    object
 4   Январь 2023    139 non-null    object
 5   Февраль 2023   145 non-null    object
 6   Март 2023      168 non-null    object
 7   Апрель 2023    174 non-null    object
 8   Май 2023       190 non-null    object
 9   Июнь 2023      190 non-null    object
 10  Июль 2023      195 non-null    object
 11  Август 2023    199 non-null    object
 12  Сентябрь 2023  186 non-null    object
 13  Октябрь 2023   182 non-null    object
 14  Ноябрь 2023    171 non-null    object
 15  Декабрь 2023   146 non-null    object
 16  Январь 2024    95 non-null     object
 17  Февраль 2024   101 non-null    object
 18  Account        451 non-null   

In [3]:
#Подгатавливаем данные:
prolong['month'] = [s.lower() if isinstance(s, str) else s for s in prolong['month']]
finance.columns = finance.columns.str.lower()

months = [c for c in finance.columns if any(m in c.lower() for m in [
    'янв', 'фев', 'мар', 'апр', 'май', 'июн', 'июл', 'авг', 'сен', 'окт', 'ноя', 'дек'
])] #Выделяем список месяцев

#Переводим значения отгрузки в числовой формат
for m in months:
    finance[m] = (
        finance[m]
        .astype(str)
        .str.strip()
        .str.replace(',', '.', regex=False)   # заменяем запятые на точки
        .str.replace(' ', '', regex=False)    # убираем пробелы и неразрывные пробелы
        .str.replace('\u00A0', '', regex=False)
    )
finance[months] = finance[months].replace({'в ноль': 0, 'В ноль': 0, 'стоп': -1 , 'end': -1, 'Стоп': -1 , 'End': -1})    
finance[months] = finance[months].apply(pd.to_numeric, errors='coerce')

#Объединяем таблицы по id
data = finance.merge(prolong, on = 'id', how = 'left')

print(data.shape) #Проверка размера таблицы до

#Проверка на  раннее окончание проекта
def ended_early(row):
    end_month = row['month']
    if end_month not in months:
        return False  # если вдруг месяц не найден
    end_index = months.index(end_month)
    # Проверяем все значения до (и включая) месяца завершения
    return (row[months[:end_index+1]] == -1).any()


#Применяем функцию к каждой строке таблицы
mask = data.apply(ended_early, axis=1)

#Убираем проекты, которые завершились раньше
data = data[~mask]
print(data.shape) #Проверка размера после


(726, 21)
(665, 21)


In [5]:
#Рассчёт коэффициентов

results = []  #все коэффициенты

#Перебираем месяцы, начиная со второго
for i in range(1, len(months)):
    if '2023' in months[i]:
        target_month = months[i]
        prev_month_1 = months[i - 1]
        
        #Рассчёт по менеджерам
        for am in data['AM'].unique():
            am_data = data[data['AM'] == am]
    
            #К1 - Коэффициент пролонгации первого месяца
            ended_prev = am_data[am_data['month'] == prev_month_1]
            print(ended_prev[prev_month_1])
            sum_last = ended_prev[prev_month_1].sum()
            sum_next = ended_prev[target_month].sum()
            K1 = sum_next / sum_last if sum_last > 0 else 0
          
            #К2 -Коэффициент пролонгации второго месяца
            if i >= 2:
                prev_month_2 = months[i - 2]
                ended_prev2 = am_data[am_data['month'] == prev_month_2]
                #Исключаем те, у кого была отгрузка в промежуточный месяц
                ended_prev2 = ended_prev2[(ended_prev2[prev_month_1].isna()) | (ended_prev2[prev_month_1] == 0)]
                sum_last2 = ended_prev2[prev_month_2].sum()
                sum_next2 = ended_prev2[target_month].sum()
                K2 = sum_next2 / sum_last2 if sum_last2 > 0 else 0
            else:
                K2 = None  #Для первых месяцев невозможно посчитать K2
            results.append({
                'Месяц пролонгации': target_month,
                'Менеджер': am,
                'K1 (первый месяц)': K1,
                'K2 (второй месяц)': K2
            })

#Преобразуем в таблицу
coef_df = pd.DataFrame(results)

18      55100.00
57      29127.50
58      29127.50
60      29960.00
62      74650.00
82      72900.00
129     71000.00
133          NaN
256    602370.00
259          NaN
533    501895.00
538          NaN
557     37939.50
559     85842.00
673     28200.00
685     74986.18
687          NaN
Name: декабрь 2022, dtype: float64
0.556235833953774
0.0
25      18710.00
26       2110.00
42     231057.76
43     100485.00
59      88850.00
61      45950.00
280    170268.00
285          NaN
502          NaN
504     68120.00
519     64755.50
521     72807.00
648     48400.00
Name: декабрь 2022, dtype: float64
0.42733223650525937
0.7102548684027938
32           NaN
39      92140.00
40      55000.00
178    107275.00
195     83400.00
527    190675.00
529     19340.21
716     79950.00
719     13300.00
Name: декабрь 2022, dtype: float64
0.6879234191303456
0.0
31     20590.0
35     34100.0
41     82435.0
96         NaN
553        NaN
555    47400.0
605    57545.0
611        NaN
617        NaN
Name: декабрь

In [None]:
#Рассчёт средних коэффициентов по отделу (можно сделать взвешенно при необходимости)
dept_summary = (
    coef_df.groupby('Месяц пролонгации')[['K1 (первый месяц)', 'K2 (второй месяц)']]
    .mean()
    .reset_index()
)
dept_summary['Менеджер'] = 'Отдел в целом'
dept_summary.sort_values('Месяц пролонгации')
#Объединяем
final_df = pd.concat([coef_df, dept_summary], ignore_index=True)

#Сортируем месяцы в алфавитном порядке
final_df['Месяц пролонгации'] = pd.Categorical(
    final_df['Месяц пролонгации'],
    categories=months,
    ordered=True
)

final_df = final_df.sort_values('Месяц пролонгации')

print(final_df.head(10)) #Оцениваем результат

In [11]:
#Записываем в файл результат
final_df.to_excel('prolongation_coefficients_2023.xlsx', index=False)