# Прогнозирование тяжести дорожно-транспортного происшествия

## Описание задачи и данных

#### Контекст

По каждому факту телесного повреждения (т.е. ДТП на дороге, открытой для общественного движения, с участием хотя бы одного транспортного средства и с пострадавшим, требующим медицинской помощи) производится изъятие информации, характеризующей происшествие, подразделением правоохранительных органов (полицией, жандармерией и т.д.), выехавшим на место происшествия. Эти материалы собираются в лист, озаглавленный "Протокол разбора несчастного случая с пострадавшими". Все эти листы составляют национальную картотеку дорожно-транспортных происшествий, известную как "картотека TBAA", которая ведется Национальной межведомственной обсерваторией по безопасности дорожного движения "ONISR".

Базы данных, извлеченные из файла TBAA, содержат перечень всех дорожно-транспортных происшествий, произошедших за определенный год в континентальной Франции, в заморских департаментах (Гваделупа, Гайана, Мартиника, остров Реюньон и Майотта с 2012 года) и в других заморских территориях (Сен-Пьер-и-Микелон, Сен-Бартелеми, Сен-Мартен, Уоллис-и-Футуна, Французская Полинезия и Новая Каледония; в открытых данных доступны только с 2019 года) с упрощенным описанием. Сюда входит информация о месте аварии, например, завершенная, а также информация о характеристиках аварии и ее месте, о транспортных средствах, участвовавших в ней, и их жертвах.

Тем не менее в этих базах данных скрыты некоторые специфические данные, касающиеся пользователей и транспортных средств, а также их поведения, поскольку раскрытие этих данных может подорвать защиту частной жизни легко идентифицируемых физических лиц или раскрыть поведение таких лиц, когда раскрытие такого поведения может нанести им ущерб (мнение CADA - 2 января 2012 г.). Предупреждение: Данные о квалификации раненых, госпитализированных с 2018 года, не могут быть сопоставлены с предыдущими годами в связи с изменениями в процедуре зачисления в распоряжение. Показатель "госпитализированные раненые" с 2019 года перестал маркироваться официальным органом статистики. Достоверность статистических анализов, которые могут быть сделаны на основе этой базы, зависит от собственных проверок режимов в области применения безопасности дорожного движения и, в частности, от точного знания определений, относящихся к каждой используемой переменной.

Следует помнить, что ряд показателей из этой базы данных подлежит маркировке, по органу официальной статистики (постановление от 27 ноября 2019 года).

#### Определения национального массива данных TBAA (Traffic Body Accident Analysis Bulletins)

Телесное происшествие (со смертельным и несмертельным исходом) в дорожном движении, о котором сообщает полиция:

- с участием по крайней мере одного пострадавшего;
- происходит на общественной или частной дороге, открытой для общественного движения;
- с участием по крайней мере одного транспортного средства;

В ДТП с травмами участвует определенное количество участников. Среди них мы выделяем:

- непострадавшие: пострадавшие, не погибшие, состояние которых не требует медицинского лечения в связи с ДТП;
- пострадавшие: участвовавшие и не пострадавшие;
- погибшие: люди, которые погибли в результате аварии сразу или в течение тридцати дней после аварии;
- раненые: пострадавшие, не получившие травм;
- так называемые "госпитализированные" раненые: пострадавшие, госпитализированные на срок более 24 часов;
- легкораненые: пострадавшие, которым была оказана медицинская помощь, но которые не находились в качестве пациентов в стационаре более 24 часов;

#### Спецификации данных

База данных Etalab по дорожно-транспортным происшествиям за тот или иной год распределена по 4 рубрикам в виде для каждой из них файла в формате csv.

1. Раздел CHARACTERISTICS, в котором описываются общие обстоятельства ДТП.
2. Раздел PLACES, в котором описывается основное место происшествия, даже если оно произошло на перекрестке.
3. Раздел VEHICLES.
4. Раздел DRIVERS.

Каждая из переменных, содержащихся в элементе, должна иметь возможность быть связанной с переменными других заголовков. Для установления связи между всеми переменными, описывающими ДТП, используется идентификационный номер ДТП (ср. "Num_Acc") в этих четырех разделах. Если в ДТП участвуют несколько транспортных средств, то необходимо также иметь возможность связать каждое транспортное средство с его пассажирами. Эту связь обеспечивает переменная vehicle_id.

Большинство переменных, содержащихся в четырех вышеперечисленных файлах, могут содержать пустые ячейки, нуль или точку. Во всех трех случаях речь идет о ячейках, не заполненных правоохранительными органами или неприменимых.

#### Полный список признаков с описанием для каждого раздела данных:

1. *Num_Acc*: идентификационный номер аварии.

2. *jour*: день аварии.

3. *mois*: месяц аварии.

4. *an*: год аварии.

5. *hrmn*: час и минуты аварии.
	Этот параметр сложный, он соответствует проценту от 24 часов

6. *lum*
	Свет: условия освещения, при которых произошла авария:
		1. Полный день
		2. Сумерки или рассвет
		3. Ночь без общественного освещения
		4. Ночь, когда общественное освещение не включено
		5. Ночь с включенным общественным освещением

7. *dep*
	Департамент: Код INSEE (Национальный институт статистики и экономических исследований) департамента (2A Corse-du-Sud. 2B Haute-Corse).

8. *com*
Муниципалитет: Номер муниципалитета - это код, присваиваемый INSEE. Код состоит из кода INSEE департамента и трех цифр.

9. *agg*
	Местонахождение :
		1. За пределами агломерации
		2. На застроенных территориях

10. *int*
	Пересечение:
		1. Исключающий перекресток
		2. Пересечение в X
		3. Т-образное пересечение
		4. Y-пересечение
		5. Пересечение с более чем 4 ветвями
		6. Круговой перекресток
		7. Место
		8. Уровневый переход
		9. Другое пересечение 

11. *atm*
	Атмосферные условия:
		-1. Не определены
		1. Нормальный
		2. Небольшой дождь
		3. Сильный дождь
		4. Снег. град
		5. Туман. дым
		6. Сильный ветер. буря
		7. Ослепительная погода
		8. Облачная погода
		9. Другое

12. *col*
	Тип столкновения:
		-1. Не определено
		1. Два автомобиля. лобовое
		2. Два транспортных средства. сзади
		3. Два транспортных средства. сбоку
		4. Три транспортных средства и более. в цепи
		5. Три и более транспортных средств. множественное столкновение
		6. Другое столкновение 
		7. Нет столкновения

13. *adr*
	Почтовый адрес: переменная вводится для аварий, произошедших в населенных пунктах.

14. *lat*
	Широта

15. Long
	Долгота 

16. *catr*
	Категория дороги:
		1. Автомагистраль
		2. Национальная дорога
		3. Ведомственная дорога
		4. Коммунальные дороги
		5. Вне сети общего пользования
		6. Автостоянка, открытая для общественного движения
		7. Дороги городского мегаполиса
		9. Прочее

17. *voie*
	Номер маршрута.

18. *V1*
	Числовой индекс номера дороги (пример: 2 bis, 3 ter и т.д.). 

19. *V2*
	Буквенно-цифровой индекс дороги.

20. *circ*
	Режим движения:
		-1. Не определен
		1. Односторонний
		2. Двунаправленный
		3. Отдельная проезжая часть
		4. С переменными каналами назначения

21. *nbv*
	Общее количество полос движения.

22. *vosp*
	Указывает на наличие зарезервированной полосы движения, независимо от того, произошла ли авария на этом пути.
		-1. Не указано
		0. Не применимо
		1. Велосипедная дорожка
		2. Велосипедная дорожка
		3. Зарезервированная полоса

23. *prof*
	Продольный профиль характеризует уклон дороги в месте аварии:
		-1. Не определено
		1. Плоская
		2. Склон
		3. вершина холма
		4. Нижняя часть берега

24. *pr*
	Номер ассоциированного ПР (номер терминала выше по течению). 
	Значение -1 означает, что PR не информируется.

25. pr1
Расстояние в метрах от ПР (по отношению к терминалу выше по течению). 
Значение -1 означает, что PR не информируется.

26. *plan*
	План расположения:
		-1. Не указано
		1. Прямолинейная часть
		2. По кривой влево
		3. По кривой вправо
		4. В "S"

27. *lartpc*
	Ширина центральной резервации (TPC), если она существует (в м).

28. *larrout*
	Ширина проезжей части, используемой для движения автотранспорта 
	не включает в себя полосы аварийной остановки, ТПК и парковочные места (в м).

29. *surf*
	Состояние поверхности: 
		-1. Не определено
		1. Нормальное
		2. Влажный
		3. Лужи
		4. Затопленный
		5. Заснеженный
		6. Грязь
		7. Ледяной
		8. Жир. масло
		9. Другое

30. *infra*
	Развитие. Инфраструктура:
		-1. Не определено
		0. Нет
		1. Подземный. туннель
		2. Мост. эстакада
		3. Вытяжная или соединительная стропа
		4. Железная дорога
		5. Перекресток
		6. Пешеходная зона
		7. Платная зона
		8. Сайт
		9. Другие

31. *situ*
	Ситуация аварии:
		-1. Не определена
		0. Нет
		1. На дороге
		2. На аварийной полосе
		3. На обочине
		4. На тротуаре
		5. На велосипедной дорожке
		6. На другой специальной дорожке
		8. Другие

32. *vma*
	Максимальная разрешенная скорость на месте и в момент аварии. 

33. *vehicle_id*
	Уникальный идентификатор транспортного средства, используемый для каждого пользователя, находящегося в этом транспортном средстве (включая пешеходов, прикрепленных к транспортным средствам 
	с которыми произошло столкновение). Числовой код.

34. *Num_Veh*
	Идентификатор транспортного средства, взятого назад, для каждого из пользователей, находящихся в данном транспортном средстве (включая пешеходов, прикрепленных к столкнувшимся транспортным средствам). Буквенно-цифровой код.

35. *senc*
	Направление потока :
		-1. Не указано
		0. Неизвестно
		1. PK или PR или увеличивающийся номер почтового адреса
		2. PK или PR или уменьшающийся номер почтового адреса
		3. Отсутствие ссылки

36. *catv*
	Категория транспортного средства:
		00. Не поддается определению
		01. Велосипед
		02. Мопед &lt;50 см3
		03. Тележка (квадрицикл с двигателем в кузове) (ранее "тележка или мототрицикл")
		04. Скутер, не используемый с 2006 года (зарегистрированный скутер)
		05. Ссылка, не используемая с 2006 года (мотоцикл)
		06. Ссылка не используется с 2006 года (мотоколяска)
		07. Только VL
		08. Ссылка не используется с 2006 года (VL + караван)
		09. Ссылка, не используемая с 2006 года (легкие автомобили + прицеп)
		10. VU только 1,5T &lt;= PTAC &lt;= 3,5T с прицепом или без него (ранее VU только 1,5T &lt;= PTAC &lt;= 3,5T)
		11. Ссылка не используется с 2006 года (VU (10) + автофургон)
		12. Ссылка не используется с 2006 года (VU (10) + прицеп)
		13. PL только 3,5T <PTCA <= 7,5T 
		14. Только ПЛ > 7,5Т
		15. ПЛ> 3,5Т + прицеп
		16. Только дорожный тягач
		17. Дорожный тягач + полуприцеп
		18. Не используется с 2006 года (общественный транспорт)
		19. Ссылка не используется с 2006 года (трамвай)
		20. Специальное оборудование
		21. Сельскохозяйственный трактор
		30. Скутер <50 см3
		31. Мотоцикл> 50 см3 и <= 125 см3
		32. Скутер> 50 см3 и <= 125 см3
		33. Мотоцикл> 125 см3
		34. Скутер> 125 см3
		35. Легкий квадроцикл <= 50 см3 (Квадрицикл без двигателя с кузовом)
		36. Тяжелый квадроцикл> 50 см3 (Квадрицикл без двигателя с кузовом)
		37. Автобус
		38. Междугородний автобус
		39. Поезд
		40. Трамвай
		41. 3WD <= 50 см3
		42. 3WD> 50 см3 <= 125 см3
		43. 3WD> 125 см3
		50. ЭДП с двигателем
		60. EDP без двигателя
		80. VAE
		99. Другое транспортное средство 

37. *obs*
	Наезд на неподвижное препятствие:
		-1. Не указано
		0. Не применимо
		1. Припаркованный автомобиль
		2. Дерево
		3. Металлическая горка
		4. Бетонная горка
		5. Другая горка
		6. Здание, стена, опора моста
		7. Вертикальная опора вывески или станция экстренного вызова
		8. Столб
		9. Уличная мебель
		10. Парапет
		11. Остров, убежище, верхний терминал
		12. Край тротуара
		13. Канава, насыпь, скальный выступ
		14. Другое неподвижное препятствие на дороге
		15. Другое неподвижное препятствие на тротуаре или обочине
		16. Проходимость проезжей части без препятствия
		17. Насадка. головка акведука

38. *obsm*
	Наезд на подвижное препятствие:
		-1. Не указано
		0. Нет
		1. Пешеход
		2. Транспортное средство
		4. Железнодорожный транспорт
		5. Домашнее животное
		6. Дикое животное
		9. Другое 

39. *choc*
	Начальная точка шока:
		-1. Не определена
		0. Нет
		1. До
		2. Справа спереди
		3. Передний левый
		4. Задний
		5. Правый задний
		6. Левый задний
		7. Правая сторона
		8. Левая сторона
		9. Множественные удары (рулоны) 

40. *manv*
	Основной маневр перед аварией:
		-1. Не указано
		0. Неизвестно
		1. Без изменения направления
		2. В том же направлении, в том же ряду
		3. Между двумя линиями
		4. В обратном направлении
		5. Неправильно
		6. Пересечение центральной резервации
		7. На автобусной полосе в том же направлении
		8. На автобусной полосе в противоположном направлении
		9. Вставкой
		10. Выполняя разворот на дороге
	Меняя полосу движения
		11. Налево
		12. Правая
	Депортированный
		13. Левый
		14. Правый
	Поворот
		15. Левый
		16. Правый
	Превышение
		17. Левый
		18. Правый
	Разное
		19. Пересечение дороги
		20. Маневр парковки
		21. Маневр уклонения
		22. Открытие двери
		23. Остановка (кроме парковки)
		24. Припаркован (с пассажирами)
		25. Движение по тротуару
		26. Другие маневры 

41. *motor*
	Тип двигателя автомобиля:
		-1. Не указан
		0. Неизвестно
		1. Углеводороды
		2. Электрический гибрид
		3. Электрический
		4. Водородный
		5. Человек
		6. Другое 

42. *occutc*
	Количество пассажиров в общественном транспорте. 

43. *id_vehicule*
	Уникальный идентификатор транспортного средства, используемый для каждого пользователя, находящегося в этом транспортном средстве (включая
	пешеходов, прикрепленных к столкнувшимся с ними транспортным средствам). Числовой код. 

44. *Num_Veh*
	Идентификатор транспортного средства, взятого назад, для каждого из пользователей, находившихся в данном транспортном средстве 
	(включая пешеходов, прикрепленных к столкнувшимся транспортным средствам). Буквенно-цифровой код. 

45. *place*
	Используется для определения места, занимаемого пользователем в транспортном средстве в момент аварии.
	Шаблон смотрите по ссылке : https://ibb.co/NsTxbXP

46. *catu*
	Категория пользователя:
		1. Водитель
		2. Пассажир
		3. Пешеход 

47. *grav*
	Тяжесть травмы пользователя, пострадавшие пользователи делятся на три категории
	пострадавшие плюс невредимые:
		1. Неповрежденные
		2. Убитые
		3. Раненые госпитализированы
		4. Легко ранен 

48. *sexe*
	Пол водителя:
		1. Мужчина
		2. Женский

49. *An_nais*
	Год рождения водителя

50. *trajet*
	Причина поездки в момент аварии:
		-1. Не указана
		0. Не указано
		1. Дом. работа
		2. Дом. школа
		3. Шопинг. покупки
		4. Профессиональное использование
		5. Прогулка. отдых
		9. Другое  


Охранное оборудование до 2018 года делилось на 2 переменные: наличие и использование.
С 2019 года речь идет об использовании, причем для одного и того же пользователя может использоваться до 3 устройств
(особенно для мотоциклистов, для которых обязательны шлемы и перчатки). 


51. *secu1*
	Интеллект-символ указывает на наличие и использование средств безопасности:
		-1. Не указано
		0. Оборудование отсутствует
		1. Ремень
		2. Шлем
		3. Детское устройство
		4. светоотражающий жилет
		5. Подушка безопасности (2WD / 3WD)
		6. Перчатки (2WD / 3WD)
		7. Перчатки + подушка безопасности (2WD / 3WD)
		8. Не поддается определению
		9. Другое

52. *secu2*
	Символ intelligence указывает на наличие и использование средств безопасности:
		-1. Не указано
		0. Оборудование отсутствует
		1. Ремень
		2. Шлем
		3. Детское устройство
		4. светоотражающий жилет
		5. Подушка безопасности (2WD / 3WD)
		6. Перчатки (2WD / 3WD)
		7. Перчатки + подушка безопасности (2WD / 3WD)
		8. Не поддается определению
		9. Другое

53. *secu3*
	Символ intelligence указывает на наличие и использование средств безопасности:
		-1. Не указано
		0. Оборудование отсутствует
		1. Ремень
		2. Шлем
		3. Детское устройство
		4. светоотражающий жилет
		5. Подушка безопасности (2WD / 3WD)
		6. Перчатки (2WD / 3WD)
		7. Перчатки + подушка безопасности (2WD / 3WD)
		8. Не поддается определению
		9. Другое

54. *locp*
	Расположение пешеходов :
		-1. Нет информации
		0. Не применимо
	На тротуаре :
		1. На расстоянии + 50 м от пешеходного перехода
		2. На расстоянии 50 м от пешеходного перехода
	На пешеходном переходе :
		3. Без световых сигналов
		4. С освещенными знаками
	Разное :
		5. На тротуаре
		6. На тротуаре
		7. В укрытии или на БАУ
		8. На проезжей части
		9. Неизвестно

55. *actp*
	Действие пешехода:
		-1. Не указано
	Перемещение
		0. Не указано или не применимо
		1. Направление движения столкнувшегося автомобиля
		2. Противоположное направление движения транспортного средства
	Различные
		3. Пересечение
		4. Маска
		5. Игра. бег
		6. С животным
		9. Другое
		A. Посадка/высадка из транспортного средства
		B. Неизвестно 

56. *etatp*
	Эта переменная используется для указания того, был ли пострадавший пешеход один или нет:
		-1. Не указано
		1. Один
		2. В сопровождении
		3. В группе

## Прогнозирование

#### Подключение необходимых библиотек

In [9]:
import numpy                            # Одномерные и многомерные массивы
import pandas as pd                     # Таблицы и временные ряды
import matplotlib.pyplot as plt         # Научная графика
import seaborn as sea                   # Еще больше графики для визуализации данных

%matplotlib inline

#### Загрузка набора данных

In [7]:
raw_common_url = "https://raw.githubusercontent.com/reloadif/masters-course-machine-learning/main/data/"

characteristics = pd.read_csv(raw_common_url + "caracteristiques-2019.csv")
characteristics.name = 'characteristics'

places = pd.read_csv(raw_common_url + "lieux-2019.csv")
places.name = 'places'

drivers = pd.read_csv(raw_common_url + "usagers-2019.csv")
drivers.name = 'drivers'

vehicles = pd.read_csv(raw_common_url + "vehicules-2019.csv")
vehicles.name = 'vehicles'

datasets = [characteristics, places, vehicles, drivers]

characteristics = characteristics.set_index('Num_Acc')
places = places.set_index('Num_Acc')
vehicles = vehicles.set_index('id_vehicule')
drivers = drivers.set_index('id_vehicule')

for ds in datasets:
    print("The dataset", ds.name, "has", ds.shape[0], "rows and" ,ds.shape[1], "columns")

The dataset characteristics has 58840 rows and 15 columns
The dataset places has 58840 rows and 18 columns
The dataset vehicles has 100710 rows and 11 columns
The dataset drivers has 132977 rows and 15 columns


In [None]:
sea.set(font_scale = 1.5)
plt.figure(figsize=(10, 30))
plt.title('Number of accidents in 2019 per Department')
sea.countplot(y=characteristics['dep'])
plt.xlabel("Number of accidents")
plt.ylabel("Department")
plt.show()

In [None]:
sea.set(font_scale = 1.5)
plt.figure(figsize=(10, 15))
plt.title('Number of accidents in 2019 per number of occupants (by category)')
sea.countplot(y=vehicles['num_veh'])
plt.xlabel("Number of accidents")
plt.ylabel("Category")
plt.show()