# Хакатон "Сибур". Команда Hack.zamAI

- метрики изношенности (пробег каждого вагона)

- почему нельзя все типы ремонта за одну ближайщую дату?
- время на ремонт?
- 

### Задача "Вагоны"  

Разработать комплексное решение, помогающее специалисту по расчету календаря отправки вагонов на плановое тех.обслуживание оптимизировать логистические затраты.

Решение должно быть полезно для текущей работы сотрудника, упрощать его работу, помогать принимать оперативные решения.

Решение должно состоять из двух частей:
1. Алгоритм на основе анализа данных, предсказывающий оптимальные времена и депо для ремонтов.
2. Интерфейс с визуализацией данных и результатов работы алгоритма и любых дополнительных данных. Это может быть web, mob app, bot и другие формы.

Главный комментарий: это реальный кейс, решение должно быть полезно реальному человеку с реальными должностными обязанностями в реальных рабочих условиях.

Для решения задачи командам будет предложено:
1. Датасет об отправке на ремонт 18000 вагонов за несколько лет с данными о тайминге, расстояниях и т.д.
https://drive.google.com/open?id=1FGFVbgqe5QWilpiyVG9z3AhVRN7Bt_Mp

Уточнения к датасету: 
1.1 перед каждым ремонтом нужно потратить 3 000 000 р  на подготовку вагона. При этом считается, что если делается 2 ремонта подряд, то достаточно сделать 1 подготовку. 

1.2 если вагон шел из станции А к станции Б, и мы решили сделать ремонт, то вагон должен попасть из пункта А в депо и обратно в пункт А, только после этого можно продолжить маршрут. Работает допущение, что путь в депо происходит мгновенно, но стоит 1000 р за км. 
В качестве усложнения задания вы можете вычислить, сколько занимает маршрут между каждой парой станций и убрать допущение о том, что транспортировка в депо происходит мгновенно. В таком случае, мы не на каждом маршруте можем попасть в депо, а только в тех, где путь из А -> депо -> А -> Б укладывается в расписание. 

1.3 Различные ремонты независимы. Это значит, например, то, что капитальный ремонт не отменяет плановый предупредительный ремонт. 

1.4 Каждый ремонт необходимо повторять раз в 2 года. То есть, если в датасете указано, что ремонт запланирован в 2017-01-01, то его нужно повторить не позднее, чем 2019-01-01.
Мы считаем, что можем оптимизировать только то, что идет после 1-го мая 2018 года. До 1-го мая все ремонты – свершившийся факт, на который мы не можем повлиять

2. Код для вычисления стоимости ремонта для 1 вагона: https://drive.google.com/file/d/1XhgnNK_oEOj1aIMbYKC7fy6VSUE762dm/view?usp=sharing

3. Пример того, как решение выглядит сейчас: https://drive.google.com/file/d/1UH00W1RTztun-vd8agxqcxFSNATPISJh/view?usp=sharing

https://drive.google.com/file/d/1BvalSlBBIRoRLLV7zgOAbJ-b0YneylvY/view?usp=sharing


4. Живое общение с бизнес-оунером процесса.


### Data exploration

In [110]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from tqdm import tqdm
from datetime import datetime
from dateutil.relativedelta import relativedelta
import json
import random
from decimal import Decimal
import re

%matplotlib inline

In [2]:
depos = pd.read_csv('./data/Депо.csv')
stations = pd.read_csv('./data/Станции.csv')

distances = pd.read_csv('./data/dists.csv')
movements = pd.read_csv('./data/Передвижения вагонов по датам.csv')
repairs = pd.read_csv('./data/Вагоны и плановые ремонты.csv')
repair_prices = pd.read_csv('./data/Плановые ремонты со стоимостями.csv')

До конца не понятно, что делать с пропусками, ведь мы знаем только по одной дате для каждого ремонта для каждого вагона, то есть не можем "отсчитать" дату для определённого ремонта для данного вагона, если раньше его в данных не было.  
Однако в дальнейшей реализации очень пригодится иметь пропуски как очень далёкие даты, заполним вот так:

In [3]:
movements.fillna(value='5000-01-01', inplace=True)
repairs.fillna(value='5000-01-01', inplace=True);

Первые два датасета по сути не нужны, они есть в таблице distances.

In [4]:
depos

Unnamed: 0,id,depo_name
0,1,Депо-Ленинское
1,2,Депо-Комсомольское
2,3,Депо-Молодежное


In [5]:
stations

Unnamed: 0,id,name
0,1,Сосновка
1,2,Липовка
2,3,Рожок
3,4,Гатка
4,5,Георгополь
5,6,Приморск
6,7,Милта
7,8,Новорепное
8,9,Ясная поляна
9,10,Северный


Дальше идут полезные данные:

In [6]:
repair_prices

Unnamed: 0,id,repair_name,repair_cost
0,1,Капитальный ремонт,94000000
1,2,Деповской ремонт,19000000
2,3,Плановый предупредительный ремонт,13000000
3,4,Вакуумная очистка и гидроиспытания (ВОиГИ),18000000


In [7]:
distances

Unnamed: 0,station_id,name,depo_id,depo_name,distance_to_depo
0,1,Сосновка,1,Депо-Ленинское,10077
1,1,Сосновка,2,Депо-Комсомольское,10436
2,1,Сосновка,3,Депо-Молодежное,10522
3,2,Липовка,1,Депо-Ленинское,2084
4,2,Липовка,2,Депо-Комсомольское,3789
5,2,Липовка,3,Депо-Молодежное,7637
6,3,Рожок,1,Депо-Ленинское,9936
7,3,Рожок,2,Депо-Комсомольское,2341
8,3,Рожок,3,Депо-Молодежное,4198
9,4,Гатка,1,Депо-Ленинское,7157


Сразу предобработаем так, чтобы из каждой станции путь был в оптимальное депо:

In [101]:
opt_dist = distances.groupby([pd.Grouper(key='station_id')])['distance_to_depo'].min()
opt_dist = pd.DataFrame(opt_dist)
opt_dist['station_id'] = opt_dist.index
opt_dist.index = np.arange(len(opt_dist))
#df['depo_name'] = distances[df['distance_to_depo'] == distances['distance_to_depo']]['depo_name']
depos = ['Депо-Ленинское', 'Депо-Ленинское', 'Депо-Комсомольское', 'Депо-Молодежное', 'Депо-Молодежное', 
         'Депо-Ленинское', 'Депо-Молодежное', 'Депо-Ленинское', 'Депо-Ленинское', 'Депо-Молодежное']
opt_dist['depo'] = depos
opt_dist

Unnamed: 0,distance_to_depo,station_id,depo
0,10077,1,Депо-Ленинское
1,2084,2,Депо-Ленинское
2,2341,3,Депо-Комсомольское
3,3029,4,Депо-Молодежное
4,3662,5,Депо-Молодежное
5,2238,6,Депо-Ленинское
6,5698,7,Депо-Молодежное
7,4816,8,Депо-Ленинское
8,1779,9,Депо-Ленинское
9,1431,10,Депо-Молодежное


In [9]:
movements

Unnamed: 0,car_num,date,station_id
0,57463085,2015-01-01,2
1,57463085,2015-01-25,6
2,57463085,2015-02-18,9
3,57463085,2015-03-14,5
4,57463085,2015-04-07,8
5,57463085,2015-05-01,2
6,57463085,2015-05-25,6
7,57463085,2015-06-18,9
8,57463085,2015-07-12,3
9,57463085,2015-08-05,6


In [10]:
repairs

Unnamed: 0,car_num,ct_name,psevdoname,std_kap,std_ppr,std_dep,std_vogi
0,57463085,Газовые,15-78-5,2021-08-08,2018-08-26,2019-08-31,2019-05-19
1,57456220,Газовые,15-78-5,2021-08-02,2019-05-19,2019-09-15,2019-05-19
2,57453656,Газовые,15-78-5,2021-07-19,2019-01-22,2019-07-07,2019-05-18
3,57463507,Газовые,15-78-5,2021-07-19,2019-03-18,2018-06-02,2019-05-18
4,57463309,Газовые,15-78-5,2021-06-20,2018-05-16,2019-01-09,2019-04-24
5,57463341,Газовые,15-78-5,2021-07-11,2018-08-02,2018-06-14,2019-05-20
6,57463275,Газовые,15-78-5,2021-06-20,2018-09-11,2018-10-03,2019-04-22
7,57463317,Газовые,15-78-5,2021-06-14,2018-12-15,2019-06-15,2019-04-22
8,57457038,Газовые,15-78-5,2018-11-25,2018-10-24,2021-11-03,2024-10-24
9,57463523,Газовые,15-78-5,2021-07-01,2019-04-13,2019-02-28,2019-04-22


Код из выданного ноутбука (стоимость одной ремонтной итерации для одного вагона):

In [11]:
repair_prices = {'std_kap': 94000000, 
                 'std_ppr': 19000000, 
                 'std_dep': 13000000, 
                 'std_vogi': 18000000, 
                 'preparation': 3000000}
price_for_km = 1000

In [12]:
def get_station_from_date(date):
    for index, (car_num, station_date, station_id) in movements.iterrows():
        if station_date < date:
            return station_id
    assert False, 'No stations before this date'

total_repair_price = 0
for repair_type in ['std_kap', 'std_ppr', 'std_dep', 'std_vogi']:
    repair_date = repairs[repair_type].values[0]
    station_id = get_station_from_date(repair_date)
    min_distance_to_depo = distances[distances['station_id'] == station_id]['distance_to_depo'].min()
    total_repair_price += 2 * min_distance_to_depo * price_for_km + \
            repair_prices[repair_type] + \
            repair_prices['preparation']

total_repair_price

172672000

In [40]:
# 57463309 - затестить для него!

Сначала посчитаем, сколько сейчас стоит ремонт для каждого вагона и суммарно (без оптимизаций, следуя дедайнам в исходной таблице):

In [13]:
start_date = '2018-05-01'  # начало оптимизации - 1 мая 2018
end_date = '2018-05-31'  # конец оптимизации - 31 мая 2018

Маска для выделения данных, попадающих во временные рамки:

In [14]:
REPAIR_TYPES = ['std_kap', 'std_ppr', 'std_dep', 'std_vogi']

In [15]:
kap = np.logical_and(repairs['std_kap'] >= start_date, repairs['std_kap'] <= end_date)
dep = np.logical_and(repairs['std_dep'] >= start_date, repairs['std_dep'] <= end_date)
ppr = np.logical_and(repairs['std_ppr'] >= start_date, repairs['std_ppr'] <= end_date)
vogi = np.logical_and(repairs['std_vogi'] >= start_date, repairs['std_vogi'] <= end_date)
mask = np.logical_or(np.logical_or(np.logical_or(kap, dep), ppr), vogi)

In [16]:
actual_repairs = repairs[mask]

In [17]:
def calculate_price_vagon(df, car_num, st_date, e_date):
    car_df = df[df['car_num'] == car_num]
    
    def get_station_from_date(car_num, date):
        car_movements = movements[movements['car_num'] == car_num]
        for index, (car_num, station_date, station_id) in car_movements.iterrows():
            if station_date < date:
                return station_id

    total_repair_price = 0
    for repair_type in REPAIR_TYPES:
        repair_date = car_df[repair_type].values[0]
        if st_date <= repair_date and repair_date <= e_date:
            station_id = get_station_from_date(car_num, repair_date)
            min_distance_to_depo = opt_dist[opt_dist['station_id'] == station_id]['distance_to_depo'].values[0]
            total_repair_price += 2 * min_distance_to_depo * price_for_km + \
                    repair_prices[repair_type] + \
                    repair_prices['preparation']

    return total_repair_price

In [124]:
calculate_price_vagon(actual_repairs, 57463309, start_date, end_date)

26168000

Это число = стоимость ремонтов вагона номер 57463309 в мае 2018, если мы отправили его в самое выгодное (для станции) депо из станции 2 в день 2015-01-01

Посчитаем суммарную стоимость ремонта всех вагонов (которые имеют ремонт по расписанию в мае) за май 2018 года:

In [19]:
def calculate_price_all(df, st_date, e_date):
    total_repair_price = 0
    for car_num in tqdm(np.unique(df['car_num'])):
        total_repair_price += calculate_price_vagon(df, car_num, st_date, e_date)
    return total_repair_price

In [20]:
%%time
calculate_price_all(actual_repairs, start_date, end_date)

100%|██████████████████████████████████████| 1063/1063 [00:10<00:00, 97.40it/s]


Wall time: 10.9 s


38897616000

In [21]:
total_cost_may18 = 38897616000

### Идеи

* Предобработать алгоритмом Флойда пути от станций до других станций (см. другой пункт)
* Написать формулу: оптимизация общей суммы = оптимизация слагаемых
* Есть 24 месяца, то есть ~24 "хороших" варианта ремонтов
* Капитальный ремонт 1 раз в 2 года
* Состояние: (дата, место, какие ремонты делать), метрика (эвристика) хода - расчёт денег при движении вагона из опр. станции в депо в эту дату, учитывающий дедлайновую дату ремонта:  
\__ЭВРИСТИКИ\__ (*А-Star, Метод ветвей и границ, Альфа-бета отсечение*):  
- слишком частые кап ремонты
- много времени до дедлайна ремонта
- уже не идём дальше по ветви, если в вершине большая сумма (больше бейзлайна)
- не укладывается в расписание
- бейзлайн - ремонты в день дедлайна
- невозможность попасть из А в Б на основе просчёта алгоритмом Флойда-Уоршалла
- 

- TASK: сколько мы сэкономили для каждого вагона и в целом
- по неделям
- по вагонам
- общую

### Первая оптимизация - совмещение нескольких типов ремонта в один день

*Идея*: Есть несколько типов ремонта, все обычно проводятся в разные даты. Перегнать вагон в депо стоит денег, подготовить вагон к ремонту тоже стоит денег. Возникает разумная мысль - почему бы не сделать некоторые типы ремонтов в один день, так мы будем экономить на подготовке вагона к ремонту и на логистике - не нужно ездить в депо несколько раз.

In [125]:
def calculate_price_vagon_opt1(df, car_num, st_date, e_date, timedelta=30):
    '''
        timedelta - этим параметром регулируем то, 
        как сильно ремонты могут отстоять друг от друга по датам 
        (максимальное количество дней в разнице дат ремонтов)
    '''
    car_df = df[df['car_num'] == car_num]

    def get_station_from_date(car_num, date):
        car_movements = movements[movements['car_num'] == car_num]
        for index, (car_num, station_date, station_id) in car_movements.iterrows():
            if station_date < date:
                return station_id

    reps = {}
    for repair_type in REPAIR_TYPES:
        reps[repair_type] = car_df[repair_type].values[0]
    # сортируем типы ремонтов для данного вагона по датам -
    # к самому раннему будем сливать (надо подумать, может выгоднее по-другому)
    sorted_by_dates = sorted(reps.items(), key=lambda x:x[1])

    types = [x[0] for x in sorted_by_dates]
    dates = [x[1] for x in sorted_by_dates]
    together = set([types[0]])
    # в данном случае идёт слияние только !_самого_раннего_по_дате_типа_ремонта_!, и какого-то ещё;
    # по-хорошему надо учесть случаи, когда любой тип с любым может быть слит
    for i in range(1, len(dates)):
        first_date = datetime.strptime(dates[0], '%Y-%m-%d')
        second_date = datetime.strptime(dates[i], '%Y-%m-%d')
        diff = relativedelta(second_date, first_date)
        if diff.years == 0 and diff.months == 0 and diff.days < timedelta:
            together.add(types[i])  # если разница между датами ремонтов меньше timedelta, то ремонтируем в один день
    total_repair_price = 0
    depos_old = {}
    depos_new = {}
    gain = 0  # выигрыш по сравнени с решением без слияния
    # сохраняем самый ранний ремонт (его станцию)
    repair_date = car_df[types[0]].values[0]
    station0 = get_station_from_date(car_num, repair_date)
    for repair_type in REPAIR_TYPES:
        repair_date = car_df[repair_type].values[0]
        if st_date <= repair_date and repair_date <= e_date:
            station_id = get_station_from_date(car_num, repair_date)
            min_distance_to_depo = opt_dist[opt_dist['station_id'] == station_id]['distance_to_depo'].values[0]
            depos_old[repair_type] = opt_dist[opt_dist['station_id'] == station_id]['depo'].values[0]
            # если этот тип ремонта слит с самым ранним, то мы экономим gain
            if repair_type != types[0] and repair_type in together:
                gain += repair_prices['preparation'] * (len(together) - 1) + \
                        2 * min_distance_to_depo * price_for_km
                total_repair_price += repair_prices[repair_type]
                depos_new[repair_type] = opt_dist[opt_dist['station_id'] == station0]['depo'].values[0]
                continue
            total_repair_price += 2 * min_distance_to_depo * price_for_km + \
                    repair_prices[repair_type] + \
                    repair_prices['preparation']

    return total_repair_price, gain, (reps, together, types[0], dates[0], depos_old, depos_new)

In [126]:
calculate_price_vagon_opt1(actual_repairs, 57463309, start_date, end_date)

(26168000,
 0,
 ({'std_dep': '2019-01-09',
   'std_kap': '2021-06-20',
   'std_ppr': '2018-05-16',
   'std_vogi': '2019-04-24'},
  {'std_ppr'},
  'std_ppr',
  '2018-05-16',
  {'std_ppr': 'Депо-Ленинское'},
  {}))

In [127]:
def calculate_price_all_opt1(df, st_date, e_date):
    total_repair_price = 0
    total_gain = 0
    for car_num in tqdm(np.unique(df['car_num'])):
        tmp_price, tmp_gain, _ = calculate_price_vagon_opt1(df, car_num, st_date, e_date)
        total_repair_price += tmp_price
        total_gain += tmp_gain
    return total_repair_price, total_gain

In [105]:
%%time
calculate_price_all_opt1(actual_repairs, start_date, end_date)

100%|██████████████████████████████████████| 1063/1063 [00:20<00:00, 52.65it/s]


Wall time: 20.2 s


(37793744000, 1112872000)

### Вторая оптимизация - перегон вагона в другую станцию

*Идея*: В предоставленном коде рассчитывается расстояние от станции до депо, однако станция берётся самая ранняя (`if station_date < date: return station_id`). Но может быть куда выгоднее отправить вагон на ремонт из другой станции, из которой до депо ближе (естественно, если вагон находится в этой станции до даты ремонта). Также будем заботиться о том, чтобы перегон вагона из станции до депо и обратно не мешал вагону отправится из этой станции в следующую.

In [106]:
def calculate_price_vagon_opt2(df, car_num, st_date, e_date, timedelta=30):
    '''
        Принципиальное отличие от opt1 - функция get_station_from_date().
        
        timedelta - этим параметром регулируем то, 
        как сильно ремонты могут отстоять друг от друга по датам 
        (максимальное количество дней в разнице дат ремонтов)
    '''
    car_df = df[df['car_num'] == car_num]
    
    def get_station_from_date(car_num, date):
        car_movements = movements[movements['car_num'] == car_num]
        for index, (car_num, station_date, station_id) in car_movements.iterrows():
            if station_date < date:
                return station_id
    
    def get_station_from_date_opt(car_num, date, from_now=False):
        '''
            Учёт того, с какой станции лучше поехать в депо
        '''
        now_date = '2018-04-20'
        opt_station_id = -1
        min_dist = 1e9
        car_movements = movements[movements['car_num'] == car_num]
        for index, (car_num, station_date, station_id) in car_movements.iterrows():
#             if from_now == True:
#                 if station_date < now_date:
#                     continue
            # если дата нахождения на этой станции < даты ремонта
            if station_date < date:
                dist = opt_dist[opt_dist['station_id'] == station_id]['distance_to_depo'].values[0]
                # берём минимальную по расстоянию до депо среди всех доступных станций
                if dist < min_dist:
                    min_dist = dist
                    opt_station_id = station_id
        return opt_station_id

    reps = {}
    for repair_type in REPAIR_TYPES:
        reps[repair_type] = car_df[repair_type].values[0]
    # сортируем типы ремонтов для данного вагона по датам -
    # к самому раннему будем сливать (надо подумать, может выгоднее по-другому)
    sorted_by_dates = sorted(reps.items(), key=lambda x:x[1])

    types = [x[0] for x in sorted_by_dates]
    dates = [x[1] for x in sorted_by_dates]
    together = set([types[0]])
    # в данном случае идёт слияние только !_самого_раннего_по_дате_типа_ремонта_!, и какого-то ещё;
    # по-хорошему надо учесть случаи, когда любой тип с любым может быть слит
    for i in range(1, len(dates)):
        first_date = datetime.strptime(dates[0], '%Y-%m-%d')
        second_date = datetime.strptime(dates[i], '%Y-%m-%d')
        diff = relativedelta(second_date, first_date)
        if diff.years == 0 and diff.months == 0 and diff.days < timedelta:
            together.add(types[i])  # если разница между датами ремонтов меньше timedelta, то ремонтируем в один день
    total_repair_price = 0
    gain1 = 0  # выигрыш по сравнени с решением без слияния
    gain2 = 0 # выигрыш за счёт перегона в депо с других станций
    depos_old = {}
    depos_new = {}
    # сохраняем самый ранний ремонт (его станцию)
    repair_date = car_df[types[0]].values[0]
    station0 = get_station_from_date(car_num, repair_date)
    for repair_type in REPAIR_TYPES:
        repair_date = car_df[repair_type].values[0]
        if st_date <= repair_date and repair_date <= e_date:
            # неоптимальная станция
            station_id = get_station_from_date(car_num, repair_date)
            min_distance_to_depo = opt_dist[opt_dist['station_id'] == station_id]['distance_to_depo'].values[0]
            # оптимальная станция
            station_id_opt = get_station_from_date_opt(car_num, repair_date)
            min_distance_to_depo_opt= opt_dist[opt_dist['station_id'] == station_id_opt]['distance_to_depo'].values[0]
            gain2 += 2 * (min_distance_to_depo - min_distance_to_depo_opt) * price_for_km
            # старое депо
            depos_old[repair_type] = opt_dist[opt_dist['station_id'] == station_id]['depo'].values[0]
            # если этот тип ремонта слит с самым ранним, то мы экономим gain
            if repair_type != types[0] and repair_type in together:
                gain1 += repair_prices['preparation'] * (len(together) - 1) + \
                        2 * min_distance_to_depo_opt * price_for_km
                total_repair_price += repair_prices[repair_type]
                depos_new[repair_type] = opt_dist[opt_dist['station_id'] == station0]['depo'].values[0]
                continue
            total_repair_price += 2 * min_distance_to_depo_opt * price_for_km + \
                    repair_prices[repair_type] + \
                    repair_prices['preparation']

    return total_repair_price, gain1, gain2, (reps, together, types[0], dates[0], depos_old, depos_old), \
                (station_id, min_distance_to_depo, station_id_opt, min_distance_to_depo_opt)

In [107]:
calculate_price_vagon_opt2(actual_repairs, 57463309, start_date, end_date)

(24862000,
 0,
 1306000,
 ({'std_dep': '2019-01-09',
   'std_kap': '2021-06-20',
   'std_ppr': '2018-05-16',
   'std_vogi': '2019-04-24'},
  {'std_ppr'},
  'std_ppr',
  '2018-05-16',
  {'std_ppr': 'Депо-Ленинское'},
  {'std_ppr': 'Депо-Ленинское'}),
 (2, 2084, 10, 1431))

In [108]:
def calculate_price_all_opt2(df, st_date, e_date):
    total_repair_price = 0
    total_gain1 = 0
    total_gain2 = 0
    for car_num in tqdm(np.unique(df['car_num'])):
        tmp_price, tmp_gain1, tmp_gain2, _, __ = calculate_price_vagon_opt2(df, car_num, st_date, e_date)
        total_repair_price += tmp_price
        total_gain1 += tmp_gain1
        total_gain2 += tmp_gain2
    return total_repair_price, total_gain1, total_gain2

In [109]:
%%time
calculate_price_all_opt2(actual_repairs, start_date, end_date)

100%|██████████████████████████████████████| 1063/1063 [01:26<00:00, 12.34it/s]


Wall time: 1min 26s


(36411996000, 911748000, 1582872000)

### Продвинутая оптимизация - альфа-бета отсечение, алгортим А*

*Идея:*  

**Подход А*  **  
Можно описать всё происходящее с переждвием вагонов как некую игру. В ней нужно объявить состояния, например, состояние = кортеж (дата, место (станция), ремонт1 (bool), ремонт2 (bool), ремонт3 (bool), ремонт4 (bool)). Переход в каждое новое состояние характеризуется числом - количество денег, которые мы сэкономили/потратили. Это число считается с помощью специальных эвристических функций, учитывающих:  
- слишком частые кап ремонты
- много времени до дедлайна ремонта
- уже не идём дальше по ветви, если в вершине большая сумма (больше бейзлайна)
- не укладывается в расписание
- бейзлайн - ремонты в день дедлайна
- невозможность попасть из А в Б на основе просчёта алгоритмом Флойда-Уоршалла  


**Подход методом ветвей и границ (альфа-бета отсечение)**  
Можно представить выбор ремонтирвоать/не ремонтировать каждый месяц определённый вагон с помощью дерева, у котрого каждое состояние делится на ещё несколько. Далее использутся примерно те же эвристики, позволяя "отсекать" заведомо невыгодные состояния и находя оптимальные

### Экспорт данных в веб-интерфейс

Пример json, который нужно вернуть (**неоптимизированный** маршрут):

In [None]:
{'breaks': 3,  # поломки, = randint(0, 5) 
 'distance_left': 65,  # время до ближайшего ремонта / 2 года
 'distance_ran': 98765,  # 1 - distance_left
 'id': '1488228228',  # car_num
 'location': 'Галич',  # station
 'type': 'Химические',
 'maintainces':  # ближайшие ремонты (?)
 [{'date': '22.03.2018',
   'depo': 'Депо 1',
   'maintaince_type': 'ОУМК'},
  {'date': '27.03.2018', 
   'depo': 'Депо 2', 
   'maintaince_type': 'ОУМК2'}],
 'part_of_time_to_next_mainaince_required': 0.9,  # время до ближайшего ремонта / 2 года (0..100)
 'schedule': 
 [{'date': '22.02.2018', 'from': 'Галич', 'to': 'Иваново'},
  {'date': '23.02.2018', 'from': 'Иваново', 'to': 'Помпеи'}], # поездки вагона, выдать ~7 элементов
 'total_weight_transported': 143}  # Сгенерить файл для каждого вагона 

In [34]:
def make_json_sample(n_samples=100, filename='data'):
    now_date = '2018-05-20'
    DEPO = 'Депо-Ленинское'
    MEAN_TONNAGE = 2500
    to_readable = {'std_kap': 'Капитальный', 'std_ppr': 'Плановый предварительный', 
                   'std_vogi': 'Вакуумная очистка и гидроиспытания', 'std_dep': 'Деповский'}
    vagon_json = [{} for _ in range(n_samples)]
    for i in range(n_samples):
        car_num = actual_repairs.loc[actual_repairs.index[i], 'car_num']
        # количество поломок за всю жизнь вагона
        vagon_json[i]['breaks'] = np.random.randint(low=0, high=5)
        # ??
        vagon_json[i]['distance_left'] = np.random.randint(low=0, high=200)
        # ??
        vagon_json[i]['distance_ran'] = np.random.randint(low=50000, high=150000)
        # id вагона
        vagon_json[i]['id'] = str(car_num)
        # место текущего пребывания вагона
        car_df = movements[movements['car_num'] == car_num]
        j = 0
        date = car_df['date'][car_df.index[j]]
        while date < now_date:
            j += 1
            date = car_df['date'][car_df.index[j]]
        j -= 1
        current_station_id = car_df.loc[car_df.index[j], 'station_id']
        vagon_json[i]['location'] = stations[stations['id'] == current_station_id]['name'].values[0]
        # тип вагона
        vagon_json[i]['type'] = actual_repairs[actual_repairs['car_num'] == car_num]['ct_name'].values[0]
        # ближайшие ремонты (пока что просто все ремонты)
        vagon_json[i]['maintainces'] = []
        for repair_type in REPAIR_TYPES:
            repair_date = actual_repairs[repair_type].values[0]
            maintain_dict = {}
            maintain_dict['date'] = repair_date
            maintain_dict['depo'] = DEPO  # Заменить на нормальное депо!
            maintain_dict['maintain_type'] = to_readable[repair_type]
            vagon_json[i]['maintainces'].append(maintain_dict)
        # ?? осталось дней до ближайшего ремонта / 2 года (спросить Эмиля)
        vagon_json[i]['part_of_time_to_next_mainaince_required'] = 0.9
        # расписание отправления/прибытия в станции
        vagon_json[i]['schedule'] = []
        car_moves = car_df[car_df['date'] > now_date]
        for k in range(7):
            move_dict = {}
            move_dict['date'] = car_moves.loc[car_moves.index[k], 'date']
            move_dict['from'] = stations[stations['id'] == car_moves.loc[car_moves.index[k], 'station_id']]['name'].values[0]
            move_dict['to'] = stations[stations['id'] == car_moves.loc[car_moves.index[k+1], 'station_id']]['name'].values[0]
            vagon_json[i]['schedule'].append(move_dict)
        # тоннаж за всё время жизни вагона
        vagon_json[i]['total_weight_transported'] = MEAN_TONNAGE
    return vagon_json

In [35]:
vagons_json = make_json_sample()
filename = "vagon_json"
with open(filename, 'w') as jsonfile:
     json.dump(vagons_json, jsonfile, ensure_ascii=False)

* Пример json, который нужно вернуть (**оптимизированный** маршрут):

In [None]:
[{
"id":"123",
"spend_old":"123",
"spend_new":"55",
"time_in_depo_old",
"time_in_depo_new",
"repairs":
[
{"name":"Капиат","time_old":"22.02.2022","time_new":"21.02.2022","depo_old":"Депо-Петушково", "depo_new": "Депо-Лошково"},
{"name":"Капиат","time_old":"22.02.2022","time_new":"21.02.2022","depo_old":"Депо-Петушково", "depo_new": "Депо-Лошково"},
{"name":"Капиат","time_old":"22.02.2022","time_new":"21.02.2022","depo_old":"Депо-Петушково", "depo_new": "Депо-Лошково"},
{"name":"Капиат","time_old":"22.02.2022","time_new":"21.02.2022","depo_old":"Депо-Петушково", "depo_new": "Депо-Лошково"}
]
]

In [134]:
def make_json_sample_optimal(n_samples=len(actual_repairs)):
    start_date = '2018-05-01'
    end_date = '2018-05-31'
    to_readable = {'std_kap': 'Капитальный', 'std_ppr': 'Плановый предварительный', 
                   'std_vogi': 'Вакуумная очистка и гидроиспытания', 'std_dep': 'Деповский'}
    vagon_json = [{} for _ in range(n_samples)]
    cnt = 0
    i = 0
    while cnt < n_samples and i < n_samples:
        print(i)
        car_num = actual_repairs.loc[actual_repairs.index[i], 'car_num']
        money_opt, gain1, gain2, opts1, opts2 = calculate_price_vagon_opt2(actual_repairs, car_num, start_date, end_date)
        if gain1 == 0:
            i += 1
            continue
        #spend_old = calculate_price_vagon(actual_repairs, 57463309, start_date, end_date)
        vagon_json[cnt]['spend_old'] = str((money_opt + gain1 + gain2) // 1000000)
        vagon_json[cnt]['spend_new'] = str(money_opt // 1000000)
        vagon_json[cnt]['time_in_depo_old'] = 4
        vagon_json[cnt]['time_in_depo_new'] = 4 - len(opts1[1])
        # ближайшие ремонты (пока что просто все ремонты)
        vagon_json[cnt]['repairs'] = []
        for repair_type in REPAIR_TYPES:
            if repair_type != opts1[2] and repair_type in opts1[1]:
                rep_dict = {}
                rep_dict['name'] = to_readable[repair_type]
                rep_dict['time_old'] = '.'.join(re.findall(r'(\d+)',opts1[0][repair_type])[::-1])
                rep_dict['time_new'] = '.'.join(re.findall(r'(\d+)',opts1[3])[::-1])
                rep_dict['depo_old'] = opts1[4][repair_type]
                rep_dict['depo_new'] = opts1[5][repair_type]
                vagon_json[cnt]['repairs'].append(rep_dict)
        vagon_json[cnt]['id'] = str(car_num)
        cnt += 1
        i += 1
    return vagon_json

In [135]:
### ПОФИКСИТЬ СОПАДАЮЩИЕ ДАТЫ!!!

In [136]:
vagons_optimal_json = make_json_sample_optimal()
filename = "vagons_optimal_json"
with open(filename, 'w') as jsonfile:
     json.dump(vagons_optimal_json, jsonfile, ensure_ascii=False)

0
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
27