# Анализ системы прогнозирования вероятности ДТП

## Введение

Заказчик проекта: каршеринговая компания.

Заказчик хочет понять, можно ли ли предсказывать ДТП, опираясь на исторические данные об авариях и участвовавших в них водителях и транспортных средств.

Чтобы это понять, заказчик ставит перед нами задачу:
- провести статистический анализ факторов, влияющих на ДТП;
- построить не менее трех моделей, оценивающих вероятность ДТП с любым повреждением транспортного средства, кроме царапин.
- выбрать лучшую модель,
- сделать анализ факторов, влияющих на предсказания лучшей модели,
- сформулировать для заказчика свою точку зрения о возможности предсказывать ДТП на основе анализа факторов и результатов модели, и дать рекомендации по расширению собираемых данных для решения или улучшения решения задачи предсказания ДТП.

Заказчика интересуют ДТП с типом виновника — только машина (car) и случаи, когда ДТП привело к любым повреждениям транспортного средства, кроме типа SCRATCH (царапина).

Для моделирования заказчик требует ограничиться данными за 2012 год.

Также заказчик выдвигает обязательное условие — учесть фактор возраста автомобиля.

### Цель проекта

Целью проекта является разработка аргументированного заключения о возможности предсказания ДТП на основании исторических данных об авариях и участвовавших в них водителях и транспортных средств, содержащего:
- анализ факторв, влияющих на ДТП, 
- пример моделей и оценку их качества,
- рекомендации по дополнительным данным, способствующим решению задачи.

### Основные этапы

В проекте мы выполнили следующие основные этапы:
- изучили предоставленные заказчиком данные;
- выполнили статистический анализ факторов, влияющих на ДТП;
- подготовили данные для обучения моделей;
- разработали три модели предсказания ДТП;
- проанализировали важность факторов для лучшей модели.

### Выводы

## Подготовка кода

### Загрузка библиотек

### Инициализация

### Функции и классы

## Первичное исследование данных

### Описание данных от заказчика

Заказчик предоставил нам следующую схему и описание данных.

![ER-диаграмма](https://pictures.s3.yandex.net/resources/1.7_2880border_1_1654004672.png)

#### collisions — общая информация о ДТП
Имеет уникальный case_id. Эта таблица описывает общую информацию о ДТП. Например, где оно произошло и когда

|Описание |Обозначение в таблице |Значения|
|:---|:---|:---|
|Идентификационный номер в базе данных| CASE_ID| Уникальный номер для зарегистрированного происшествия в таблице происшествий.|
|Дата происшествия|COLLISION_DATE|Формат год/месяц/день|
|Время происшествия|COLLISION_TIME|Формат: 24-часовой|
|Является ли место происшествие перекрёстком|INTERSECTION|Y — Intersection (перекрёсток)<br/>N — Not Intersection (не перекрёсток)<br/>-- — Not stated (Не указано)|
|Погода|WEATHER_1|A — Clear (Ясно)<br/>B — Cloudy (Облачно)<br/>C — Raining (Дождь)<br/>D — Snowing (Снегопад)<br/>E — Fog (Туман)<br/>F — Other (Другое)<br/>G — Wind (Ветер)- — Not Stated (Не указано)|
|Серьёзность происшествия|COLLISION_DAMAGE|1 — FATAL ТС (Не подлежит восстановлению)<br/>2 — SEVERE DAMAGE (Серьёзный ремонт, большая часть под замену/Серьёзное повреждение капитального строения)<br/>3 — MIDDLE DAMAGE (Средний ремонт, машина в целом на ходу/Строение в целом устояло)<br/>4 — SMALL DAMAGE (Отдельный элемент кузова под замену/покраску)<br/>0 – SCRATCH (Царапина)|
|Основной фактор аварии|PRIMARY_COLL_FACTOR|A — Code Violation (Нарушение правил ПДД)<br/>B — Other Improper Driving (Другое неправильное вождение)<br/>C — Other Than Driver (Кроме водителя)<br/>D — Unknown (Неизвестно)<br/>E — Fell Asleep (Заснул)<br/>- — Not Stated (Не указано)|
|Состояние дороги|ROAD_SURFACE|A — Dry (Сухая)<br/>B — Wet (Мокрая)<br/>C — Snowy or Icy (Заснеженная или обледенелая)<br/>D — Slippery (Muddy, Oily, etc.) (Скользкая, грязная, маслянистая и т. д.)<br/>- — Not Stated (Не указано)|
<br/>Освещение|LIGHTING|A — Daylight (Дневной свет)<br/>B — Dusk-Dawn (Сумерки-Рассвет)<br/>C — Dark-Street Lights (Темно-Уличные фонари)<br/>D — Dark-No Street Lights (Темно-Нет уличных фонарей)<br/>E — Dark-Street Lights Not Functioning (Темно-Уличные фонари не работают)<br/>- — Not Stated (Не указано)|
|Номер географических районов, где произошло ДТП|COUNTY_CITY_LOCATION|число|
|Названия географических районов, где произошло ДТП|COUNTY_LOCATION|список разных названий, категориальный тип данных|
|Направление движения|DIRECTION|N — North (Север)<br/>E — East (Восток)<br/>S — South (Юг)<br/>W — West (Запад)<br/>- or blank — Not State (Не указано)<br/>на перекрёстке|
|Расстояние от главной дороги (метры)|DISTANCE|число|
|Тип дороги|LOCATION_TYPE|H — Highway (Шоссе)<br/>I — Intersection<br/> (Перекрёсток)<br/>R — Ramp (or Collector) (Рампа)<br/>- or blank — Not State Highway (Не указано)|
|Количество участников|PARTY_COUNT|число|
|Категория нарушения|PCF_VIOLATION_CATEGORY|01 — Driving or Bicycling Under the Influence of Alcohol or Drug (Вождение или езда на велосипеде в состоянии алкогольного или наркотического опьянения)<br/>02 — Impeding Traffic (Препятствие движению транспорта)<br/>03 — Unsafe Speed (Превышение скорости)<br/>04 — Following Too Closely (Опасное сближение)<br/>05 — Wrong Side of Road (Неправильная сторона дороги)<br/>06 — Improper Passing (Неправильное движение)<br/>07 — Unsafe Lane Change (Небезопасная смена полосы движения)<br/>08 — Improper Turning (Неправильный поворот)<br/>09 — Automobile Right of Way (Автомобильное право проезда)<br/>10 — Pedestrian Right of Way (Пешеходное право проезда)<br/>11 — Pedestrian Violation (Нарушение пешеходами)<br/>12 — Traffic Signals and Signs (Дорожные сигналы и знаки)<br/>13 — Hazardous Parking (Неправильная парковка)<br/>14 — Lights (Освещение)<br/>15 — Brakes (Тормоза)<br/>16 — Other Equipment (Другое оборудование)<br/>17 — Other Hazardous Violation (Другие нарушения)<br/>18 — Other Than Driver (or Pedestrian) (Кроме водителя или пешехода)<br/>19 — Speeding (Скорость)<br/>20 — Pedestrian dui (Нарушение пешехода)<br/>21 — Unsafe Starting or Backing (Опасный старт)<br/>22 — Other Improper Driving (Другое неправильное вождение)<br/>23 — Pedestrian or “Other” Under the Influence of Alcohol or Drug (Пешеход или «Другой» в состоянии алкогольного или наркотического опьянения)<br/>24 — Fell Asleep (Заснул)<br/>00 — Unknown (Неизвестно)<br/>- — Not Stated (Не указано)|
|Тип аварии|TYPE_OF_COLLISION|A — Head-On (Лоб в лоб)<br/>B — Sideswipe (Сторона)<br/>C — Rear End (Столкновение задней частью)<br/>D — Broadside (Боковой удар)<br/>E — Hit Object (Удар объекта)<br/>F — Overturned (Опрокинутый)<br/>G — Vehicle (транспортное средство/ Пешеход)<br/>H — Other (Другое)<br/>- — Not Stated (Не указано)|
|Дополнительные участники ДТП|MOTOR_VEHICLE_INVOLVED_WITH|Other motor vehicle (Другой автомобиль)<br/>Fixed object (Неподвижный объект)<br/>Parked motor vehicle (Припаркованный автомобиль)<br/>Pedestrian (Пешеход)<br/>Bicycle (Велосипедист)<br/>Non-collision (Не столкновение)<br/>Other object (Другой объект)<br/>Motor vehicle on other roadway (Автомобиль на другой проезжей)<br/>Animal (Животное)<br/>Train (Поезд)|
|Дорожное состояние|ROAD_CONDITION_1|A — Holes, Deep Ruts (Ямы, глубокая колея)<br/>B — Loose Material on Roadway (Сыпучий материал на проезжей части)<br/>C — Obstruction on Roadway (Препятствие на проезжей части)<br/>D — Construction or Repair Zone (Зона строительства или ремонта)<br/>E — Reduced Roadway Width (Уменьшенная ширина проезжей части)<br/>F — Flooded (Затоплено)<br/>G — Other (Другое)<br/>H — No Unusual Condition (Нет ничего необычного)<br/>- — Not Stated (Не указано)|
|Устройство управления|CONTROL_CONDITION_1|A — Functioning (Функционирует)<br/>B — Not Functioning (Не функционирует)<br/>C — Obscured (Затемнённый)<br/>D — None (Нет)<br/>- — Not Stated (Не указано)|

#### Parties — информация об участниках ДТП

Имеет неуникальный case_id, который сопоставляется с соответствующим ДТП в таблице collisions. Каждая строка здесь описывает одну из сторон, участвующих в ДТП. Если столкнулись две машины, в этой таблице должно быть две строки с совпадением case_id. Если нужен уникальный идентификатор, это case_id and party_number.

|Описание |Обозначение в таблице |Значения|
|:---|:---|:---|
|Идентификационный номер в базе данных|CASE_ID|Уникальный номер для зарегистрированного происшествия в таблице происшествий|
|Номер участника происшествия|PARTY_NUMBER|От 1 до N — по числу участников происшествия|
|Тип участника происшествия|PARTY_TYPE|1 — Car (Авто)<br/>2 — Road bumper (Дорожные знаки)<br/>3 — Building (Строения)<br/>4 — Road signs (Отбойник)<br/>5 — Other (Другое)<br/>6 — Operator (Оператор)<br/>- — Not Stated (Не указано)|
|Виновность участника|AT_FAULT|0/1|
|Сумма страховки (тыс. $)|INSURANCE_PREMIUM|число|
|Состояние участника: физическое или с учётом принятых лекарств|PARTY_DRUG_PHYSICAL|E — Under Drug Influence (Под воздействием лекарств)<br/>F — Impairment — Physical (Ухудшение состояния)<br/>G — Impairment Unknown (Не известно)<br/>H — Not Applicable (Не оценивался)<br/>I — Sleepy/Fatigued (Сонный/Усталый)<br/>- — Not Stated (Не указано)|
|Трезвость участника|PARTY_SOBRIETY|A — Had Not Been Drinking (Не пил)<br/>B — Had Been Drinking, Under Influence (Был пьян, под влиянием)<br/>C — Had Been Drinking, Not Under Influence (Был пьян, не под влиянием)<br/>D — Had Been Drinking, Impairment Unknown (Был пьян, ухудшение неизвестно)<br/>G — Impairment Unknown (Неизвестно ухудшение)<br/>H — Not Applicable (Не оценивался)<br/>- — Not Stated (Не указано)|
|Наличие телефона в автомобиле (возможности разговаривать по громкой связи)|CELLPHONE_IN_USE|0/1|


#### Vehicles — информация о пострадавших машинах

Имеет неуникальные case_id и неуникальные party_number, которые сопоставляются с таблицей collisions и таблицей parties. Если нужен уникальный идентификатор, это case_id and party_number.

|Описание |Обозначение в таблице |Значения|
|:---|:---|:---|
|Индекс текущей таблицы|ID|Номер в таблице|
|Идентификационный номер в базе данных|CASE_ID|Уникальный номер для зарегистрированного происшествия в таблице происшествий.|
|Тип кузова|VEHICLE_TYPE|MINIVAN<br/>COUPE<br/>SEDAN<br/>HATCHBACK<br/>OTHER|
|Тип КПП|VEHICLE_TRANSMISSION|auto (Автоматическая)<br/>manual (Ручная)<br/>- — Not Stated (Не указано)|
|Возраст автомобиля (в годах)|VEHICLE_AGE|число|

#### Обзор данных

Проверим:
- Все ли таблицы имеют набор данных;
- Соответствует ли количество таблиц условию задачи;
- Имеется ли общий ключ для связи таблиц.

### Вывод

## Статистичкский анализ факторов ДТП

### Количество ДТП по месяцам

Выясните, в какие месяцы происходит наибольшее количество аварий. Проанализируйте весь период наблюдений (таблица collisions).
- Создайте sql-запрос;
- Постройте график;
- Сделайте вывод.

### Аналитические задачи

Создайте не менее шести задач, для решения должна использоваться связь не менее 2 таблиц, например
- Проведите анализ серьёзности повреждений транспортного средства, исходя из состояния дороги в момент ДТП (связать collisions и parties);
- Найдите самые частые причины ДТП (таблица parties).

Решим не менее двух задач самостоятельно

> Студент сам ставит аналитическую задачу. Как минимум должен записать шесть. А по 3-м из них создать запрос, построить график, сделать вывод

## Подготовка данных для моделирования

1. Подготовьте набор данных на основе первичного предположения заказчика:
- Выберите тип виновника — только машина (car). **
- Возьмите случаи, когда ДТП привело к любым значимым повреждениям автомобиля любого из участников — все, кроме типа SCRATCH (царапина).
- Для моделирования возьмите данные только за 2012 год.
- Подготовка исходной таблицы должна проводиться с помощью sql-запроса.

2. Проведите первичный отбор факторов, необходимых для модели.
- Изучите описание факторов. Нужно отобрать те, которые могут влиять на вероятность ДТП. Будет хорошо, если вы аргументируете свой выбор. Пример:

```
columms =['party_type',     # Тип участника происшествия. Таблица parties
          'party_sobriety', # Уровень трезвости виновника (точно может влиять) Таблица parties
           ......
         ] 
```

3. Проведите статистическое исследование отобранных факторов.
- По результату исследовательского анализа внесите корректировки, если они нужны. Сделайте вывод.
- Если необходимо, категоризируйте исходные данные, проведите масштабирование.
- Подготовьте обучающую и тестовую выборки.

## Модели оценки водительского риска

1. Смоделируйте не менее 3-х типов моделей с перебором гиперпараметров.
    1. 1–2 модели из числа линейные модели, деревья и леса;
    1. 1–2 модели из числа градиентных бустингов;
1. Выберите метрику для оценки модели, исходя из поставленной бизнесом задачи. Обоснуйте свой выбор.
1. Оформите вывод в виде сравнительной таблицы.

## Анализ важности факторов ДТП

1. Проведите графический анализ «Матрица ошибок». Выведите полноту и точность на график.
1. Проанализируйте важность основных факторов, влияющих на вероятность ДТП.
1. Для одного из выявленных важных факторов проведите дополнительное исследование:
- Покажите график зависимости фактора и целевой переменной.
- Предложите, чем можно оборудовать автомобиль, чтобы учесть этот фактор во время посадки водителя.


Пример решения задачи 3:

Выявили, что самый важный фактор ДТП — уровень трезвости виновника party_sobriety. Из таблицы исходных данных известно: есть несколько уровней трезвости. Тогда решение по пунктам выглядит так:
- Для графического анализа будем использовать столбчатую диаграмму. В ней отразим зависимость числа ДТП от уровня трезвости. Проанализируем график, сделаем выводы.
- Предложить оборудовать автомобиль анализатором алкогольного опьянения. Измерение состояния при посадке сделать обязательным условием допуска за руль. А чтобы убедиться, что в трубку дышит именно водитель, добавить камеру, направленную на водительское место.

## Вывод

Кратко опишите лучшую модель.

Сделайте вывод: насколько возможно создание адекватной системы оценки риска при выдаче авто?

Какие факторы ещё необходимо собирать, чтобы улучшить модель?