Digital Team

Система прогнозирования частоты вызовов скорой помощи в зависимости от внешних факторов

Задача: Интеллектуальный сервис для оптимизации работы скорой помощи

Тизер

Высокоточная система прогнозирования частоты вызовов скорой помощи, которая учитывает входящие данные от оператора и множество дополнительных внешних факторов. На основе данных показывается число вызовов предсказанное системой, количество рекомендуемых бригад, а также подробная статистика, помогающая пользователю решить сколько нужно выделить бригад на следующий день/неделю. Решение не требует обучение персонала и использует только свободно распространяемое программного обеспечения. Приложение обладает интуитивно понятным интерфейсом. Снижает время подачи машины и увеличивает эффективность использования ресурсов больниц, включая персонал и оборудование.

Уникальность:

В системе объединены несколько методов прогнозирования, для обеспечения большей точности. Учли наиболее частые причины обращений и проработали отдельно зависимости внешних факторов по каждой из причин.Алгоритм подсказывает наиболее эффективную связку подстанций и больницы, основываясь на расстоянии между местом вызова и подстанцией, типе бригады и количестве свободных бригад.

Стек технологий:

Python, HTML/CSS, PHP, Pandas, CatBoost, Geopy, Numpy, Open Street Map, Matplotlib, Jupyter Notebook.

ССылка на демо: https://disk.yandex.ru/d/Rlwz-GXpwmrSjw

Описание работы парсера

Вначале производится сканирование корневой директории и построение списка xls файлов, затем каждый файл с помощью свободнораспространяемой библиотеки xlrd по очереди загружается в объект памяти book. Далее таблица анализируется на предмет цветовых признаков ячеек (серый RGB 240,240,240) - они являются ключами, а все что после двоеточия за ними - значениями. Так же сразу на лету выполняется отбраковка и проверка значений, так же производятся предварительные вычисления, такие как время прибытия скорой с момента звонка, возраст догодовалого ребенка десятичных долях года вместо месяцев (6 месяцев = 0.5), время в формате юникс и так далее. Полученный словарь (ключ:значение) объединяется с другими в единый датасет и сохраняется на диск в друх вариантах - CSV и JSON

Описание и обоснование выбора гипотез для расчетов статистики

Для статистических расчетов использовалась свободнораспространяемая библиотека pandas, с её помощью загружается датафрейм из текстового файла главным индексом и сортировкой по времени. В первую очередь интересовало время подачи кареты скорой помощи с момента вызова, что на наш взгляд является одним из ключевых факторов качества оказания медицинской услуги, на то она и "скорая". При среднедневной разбивке за весь предоставленный период каких-то особых отклонений на наше удивление замечено не было ( в том числе с разбивкой по дням недели нельзя было выделить какой либо из дней ) - скорая стабильно изо дня в день за редкими исключениями приезжала в среднем за 10-15 минут, что вполне приемлемо, хотя если данные о времени прибытия заполнялись вручную, не опираясь на показания ГЛОНАСС, быть может они и "подогнаны" под нормативы, дабы избежать штрафных санкций (человеческий фактор). Либо число бригад выходит на дежурство с большим избытком и это число как раз потому возможно и нуждается в оптимизации.

Описание методики и моделей построения прогноза

Очищенный парсером и библиотекой pandas от аномалий и вбросов датасет был поделен классически на три выборки - тренировочный, проверочный, тестовый. Далее для модели созданной в свободнораспространяемом отечественном пакете cat_boost были созданы различные временные ряды, такие как скользящая средняя на 7 дней (наилучший результат), -2 дня, -1 день и так далее. Метрика оценки была выбрана так же по классике R^2. На 7-дневном графике точность составила порядка 80%, что не есть отлично, поэтому было принято решения обогатить данные из сторонних источников. В качестве гипотез для этого рассматривались такие факторы как начиная с классических температуры и давления, заканчивая данными о солнечной активности, магнитных бурь, лунных циклов, загрязненности воздуха, частотой упоминания в СМИ тех или иных ключевых слов (ковид, пожар, гололедица, мчс). Увы, не все данные хорошо и в нужном готовом формате представлены в открытых источниках, и так же нуждаются в своих отдельных парсерах. Более подробную схему моделей и каналов обогащения смотрите в нашей презентации.

Name		Name	Last commit message	Last commit date
Latest commit History 31 Commits
data		data
distance		distance
weather_data		weather_data
web		web
.gitignore		.gitignore
EDA and FE.ipynb		EDA and FE.ipynb
README.md		README.md
dbcsv.zip		dbcsv.zip
dbjs.zip		dbjs.zip
first look on Excel.ipynb		first look on Excel.ipynb
graphs and other.ipynb		graphs and other.ipynb
hack_20220603_nn.ipynb		hack_20220603_nn.ipynb
hack_20220603_nn_2.ipynb		hack_20220603_nn_2.ipynb
megaparser.ipynb		megaparser.ipynb
stata.ipynb		stata.ipynb

dimka11/Digital_Team_Ambulance

Folders and files

Latest commit

History

Repository files navigation

Digital Team

Система прогнозирования частоты вызовов скорой помощи в зависимости от внешних факторов

Задача: Интеллектуальный сервис для оптимизации работы скорой помощи

Тизер

Уникальность:

Стек технологий:

ССылка на демо: https://disk.yandex.ru/d/Rlwz-GXpwmrSjw

Описание работы парсера

Описание и обоснование выбора гипотез для расчетов статистики

Описание методики и моделей построения прогноза

Наша команда

Касмынин Кирилл - kirill.kas@mail.ru

Леонтьев Михаил - ulstaer@gmail.com

Останина Алина - alin.ostanina2016@yandex.ru

Хозяинов Александр - aleksho@gmail.com

Дмитрий Соколов - dimka11_94@mail.ru

About

Resources

Stars

Watchers

Forks

Languages