# Оценка рисков ДТП

## Описание задачи

- Заказчик каршеринговая компания
- Нужно оценить риск ДТП по выбранному маршруту движения
- Под риском понимается вероятность ДТП с любым повреждением транспортного средства
- Как только водитель забронировал автомобиль, сел за руль и выбрал маршрут, система должна оценить уровень риска
- Если уровень риска высок, водитель увидит предупреждение и рекомендации по маршруту
- Идея создания такой системы находится в стадии предварительного обсуждения и проработки. Чёткого алгоритма работы и подобных решений на рынке ещё не существует. Текущая задача — понять, возможно ли предсказывать ДТП, опираясь на исторические данные одного из регионов


- Провести статистический анализ факторов ДТП
  1. Выясните, в какие месяцы происходит наибольшее количество аварий. Проанализируйте весь период наблюдений (таблица `collisions`).
    - Постройте график
  2. Скоро состоится первое совещание вашей рабочей группы. Чтобы обсуждение было конструктивным, каждый сотрудник должен понимать данные. Для этого вы должны создать подходящие аналитические задачи и поручить их решение коллегам. Примеры задач:
    - Проведите анализ серьёзности повреждений транспортного средства, исходя из состояния дороги в момент ДТП (связать `collisions` и `parties`)
    - Найдите самые частые причины ДТП (таблица `parties`)
    1. Создайте не менее шести задач для коллег. Опирайтесь на примеры и таблицы
    2. Пропишите порядок решения для двух задач из списка. Обязательное условие — решение этих задач должно включать связь не менее 2-х таблиц


- Создать модель предсказания ДТП (целевое значение — `at_fault` (виновник) в таблице `parties`)
    - Для модели выбрать тип виновника — только машина (`car`).
    - Выбрать случаи, когда ДТП привело к любым повреждениям транспортного средства, кроме типа SCRATCH (царапина).
    - Для моделирования ограничиться данными за 2012 год — они самые свежие.
    - Обязательное условие — учесть фактор возраста автомобиля.
- На основе модели исследовать основные факторы ДТП.
- Понять, помогут ли результаты моделирования и анализ важности факторов ответить на вопросы:
  - Возможно ли создать адекватную системы оценки водительского риска при выдаче авто?
  - Какие ещё факторы нужно учесть?
  - Нужно ли оборудовать автомобиль какими-либо датчиками или камерой?


- Создать модель для оценки водительского риска
  1. Подготовьте набор данных на основе первичного предположения заказчика:
    - Выберите тип виновника — только машина (`car`)
    - Возьмите случаи, когда ДТП привело к любым значимым повреждениям автомобиля любого из участников — все, кроме типа SCRATCH (царапина).
    - Для моделирования возьмите данные только за 2012 год.
    - Подготовка исходной таблицы должна проводиться с помощью sql-запроса.
  2. Проведите первичный отбор факторов, необходимых для модели.
      Изучите описание факторов. Нужно отобрать те, которые могут влиять на вероятность ДТП. Будет хорошо, если вы аргументируете свой выбор. Пример:
      
      ```python
      columms =['party_type',     # Тип участника происшествия. Таблица parties
                'party_sobriety', # Уровень трезвости виновника (точно может влиять) Таблица parties
                ......
              ]
      ```
  3. Проведите статистическое исследование отобранных факторов.
    - По результату исследовательского анализа внесите корректировки, если они нужны. Сделайте вывод.
    - Если необходимо, категоризируйте исходные данные, проведите масштабирование.
    - Подготовьте обучающую и тестовую выборки


- Найдите лучшую модель
  1. Смоделируйте не менее 3-х типов моделей с перебором гиперпараметров.
  2. 1–2 модели из спринта 2 (классическое обучение)
  3. 1–2 модели из спринта 3 (XGBoost, LightGBM, CatBoost)
  4. Выберите метрику для оценки модели, исходя из поставленной бизнесом задачи. Обоснуйте свой выбор.
  5. Оформите вывод в виде сравнительной таблицы.


- Проверьте лучшую модель в работе
  1. Проведите графический анализ «Матрица ошибок». Выведите полноту и точность на график.
  2. Проанализируйте важность основных факторов, влияющих на вероятность ДТП.
  3. Для одного из выявленных важных факторов проведите дополнительное исследование:
    - Покажите график зависимости фактора и целевой переменной.
    - Предложите, чем можно оборудовать автомобиль, чтобы учесть этот фактор во время посадки водителя.


## Описание задачи в терминах бизнеса

Максимизировать количество выданных каршерингом автомобилей и минимизировать ДТП с их участием

## Описание задачи в терминах машинного обучения

- Целевой признак — `parties.at_fault` — виновен или нет в ДТП
- Бинарная классификация
- Метрика `F1`, так как нужно не только предотвратить ДТП но и не потерять клиента запретив управлять автомобилем, по этому нужно определять не только правильно ли модель определила класс целевого признака, но и насколько полно она это сделала

## Описание данных

SQL таблицы

- `collisions` — общая информация о ДТП, например, где оно произошло и когда
  - уникальный `case_id`
- `parties` — информация об участниках ДТП
    - неуникальный `case_id`, который сопоставляется с соответствующим ДТП в таблице `collisions`
    - Каждая строка описывает одну из сторон, участвующих в ДТП
    - Если столкнулись две машины, в этой таблице должно быть две строки с совпадением `case_id`
    - Если нужен уникальный идентификатор, это `case_id and party_number`
- `vehicles` — информация о пострадавших машинах
    - Имеет неуникальные `case_id` и неуникальные `party_number`, которые сопоставляются с таблицей `collisions` и таблицей `parties`
    - Если нужен уникальный идентификатор, это `case_id and party_number`

## Подключение библиотек

In [None]:
!pip install -U scikit-learn -q
!pip install catboost -q

In [None]:
import math
import random
import numpy as np
import pandas as pd
import psycopg2

import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px

from sqlalchemy import create_engine

from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler, OneHotEncoder
from sklearn.model_selection import train_test_split, GridSearchCV

from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier

from sklearn.metrics import confusion_matrix, ConfusionMatrixDisplay, classification_report
from sklearn.metrics import precision_recall_curve, PrecisionRecallDisplay

# Transform + Pipeline
from sklearn.preprocessing import OneHotEncoder, OrdinalEncoder, StandardScaler, LabelEncoder
from sklearn.compose import make_column_transformer, make_column_selector
from sklearn.pipeline import make_pipeline


import lightgbm as lgb

from catboost import CatBoostClassifier
# Посмотреть выполненный блокнот по ним

from IPython.display import display, Markdown

import warnings
# Отключение предупреждений
warnings.filterwarnings('ignore')

In [None]:
RANDOM_STATE = 12345


USER = 'praktikum_student'
PWD = 'Sdf4$2;d-d30pp'
HOST = 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net'
PORT = 6432
DB = 'data-science-vehicle-db'

# Устраняет ошибку numpy при которой маленькие числа не отображаются как нули
# Количество знаков после запятой
np.set_printoptions(precision=9, suppress=True)

# Делаем случайность воспроизводимой
random.seed(RANDOM_STATE)
np.random.seed(RANDOM_STATE)

## Подключитесь к базе. Загрузите таблицы sql

In [None]:
connection_string = f'postgresql://{USER}:{PWD}@{HOST}:{PORT}/{DB}'

engine = create_engine(connection_string)

## Проведите первичное исследование таблиц

In [None]:
pd.read_sql_query('''
SELECT table_name
FROM information_schema.tables
WHERE table_schema NOT IN ('information_schema', 'pg_catalog')
''', con=engine)

Все таблицы из условия задачи присутствуют

In [None]:
pd.read_sql_query('''
SELECT
    table_name,
    column_name,
    data_type
FROM information_schema.columns
WHERE table_name IN ('case_ids', 'collisions', 'parties', 'vehicles');
''', con=engine)

Все колонки так же присутствуют. Таблицы можно связать по `case_id`

##  Проведите статистический анализ факторов ДТП

### Зависимость количества аварий от месяца

In [None]:
car_accidents_per_month = pd.read_sql_query('''
SELECT
    COUNT(case_id) AS count,
    DATE_TRUNC('month', collision_date)::DATE AS month
FROM collisions
GROUP BY DATE_TRUNC('month', collision_date)
ORDER BY DATE_TRUNC('month', collision_date);
''', con=engine)

car_accidents_per_month.plot(kind='bar', x='month', title='Зависимость количества аварий от месяца', figsize=(16, 8));

In [None]:
car_accidents_group_month = pd.read_sql_query('''
SELECT
    COUNT(case_id) AS count,
    EXTRACT(MONTH FROM collision_date) AS month
FROM collisions
WHERE EXTRACT(YEAR FROM collision_date) != 2012
GROUP BY EXTRACT(MONTH FROM collision_date)
''', con=engine)

car_accidents_group_month.plot(kind='bar', x='month', title='Количество аварий по месяцам в сумме по всем годам',
                               figsize=(16, 8));

**Вывод к разделу:**
- Основная часть данных есть с 2009.01.01 по 2012.06.01, а после этого периода их почти нет
- Больше всего аварий было в Октябре (начало заморозков)
- Меньше всего аварий было в Феврале

### Составить и поручить аналитические задачи коллегам

- Выполнить задачи:
    - Проанализируйте как состояние и трезвость участника влияет на его виновность (collisions, parties)
    - Проанализируйте как тип участника влияет на серьёзность проишествия (collisions, parties)
    - Проанализируйте как тип КПП влияет на виновность участника (parties, vehicles)
    - Проанализируйте как возраст автомобиля влияет на серьёзность проишествия (parties, vehicles)
    - Проанализируйте как сумма страховки влияет на категорию нарушения и серьёзность проишествия  (collisions, parties)
    - Проанализируйте как расстояние от главной дороги и серьёзность проишествия влияет на виновность участника (collisions, parties)


- По шаблону:
    - Получить данные
    - Сделать предобработку
    - Построить графики
    - Найти закономерности
    - Сделать выводы

### Зависимость состояния и трезвости участника на его виновность

- Получите данные из таблиц `parties` и `collisions` SQL-запросом

In [None]:
query = '''
SELECT *
FROM parties AS p
FULL JOIN collisions AS c ON c.case_id = p.case_id
WHERE
    p.party_type = 'car' AND
    c.collision_damage != 'scratch' AND
    EXTRACT(YEAR FROM c.collision_date) = 2012
'''

df = pd.read_sql_query(query, con=engine)
df.sample(10, random_state=RANDOM_STATE)

- Постройте график зависимости состояния и трезвости участника от его виновностьи

In [None]:
fig = px.histogram(
    df, x=['party_sobriety', 'party_drug_physical'], color='at_fault',
    barmode='group',
    title='Зависимость состояния и трезвости участника на его виновность',
    histfunc='count'
)
fig.show()

- Найти закономерности

In [None]:
ca = df.groupby(['party_sobriety', 'party_drug_physical', 'at_fault']).count()['id']

# Удаляем multiindex-строки которые не влияют на анализ
ca = ca.drop(('impairment unknown', 'G'), axis=0)
ca = ca.drop(('not applicable'), axis=0)
ca.to_frame()

In [None]:
ca.plot(kind='barh', figsize=(16, 12));

- Сделать выводы

**Вывод к разделу:**

В целом из графиков видно что при определённых "негативных" состояниях `Had Been Drinking, Under Influence (Был пьян, под влиянием)`, `Had Been Drinking, Not Under Influence (Был пьян, не под влиянием)`, `Had Been Drinking, Impairment Unknown (Был пьян, ухудшение неизвестно)`, `Under Drug Influence (Под воздействием лекарств)`, `Sleepy/Fatigued (Сонный/Усталый)` больше виновных участников чем невиновных в ДТП

### Зависимость виновности участника от типа КПП

- Получите данные из таблиц `parties` и `collisions` SQL-запросом

In [None]:
query = '''
SELECT
    p.case_id || p.party_number AS id,
    v.vehicle_transmission,
    p.at_fault
FROM parties AS p
FULL JOIN vehicles AS v ON v.case_id = p.case_id AND v.party_number = p.party_number
'''

df = pd.read_sql_query(query, con=engine)
df.head(5)

- Постройте график зависимости виновности участника от типа КПП

In [None]:
fig = px.histogram(
    df, x='vehicle_transmission', color='at_fault',
    barmode='group',
    title='Зависимость виновности участника от типа КПП',
    histfunc='count'
)
fig.show()

- Найти закономерности
- Сделать выводы

**Вывод к разделу:**

По графику видно что разница между виновными и невиновными больше у автоматической коробки по сравнению с механической, так же по абсолютным уровням невиновынх больше с автоматической и виновных уже меньше у автмоматической, что означает что с КПП меньше вероятность быть виновным

## Получение данных

In [None]:
# Объеденить все таблицы по case_id
# Взять по collision_date только 2012 год
# collision_damage не должен быть scratch
# case_id должен быть таким что в нём участвовала
# машина которая оказалась виновата в ДТП
query = '''
SELECT
    p.cellphone_in_use,
    v.vehicle_type,
    v.vehicle_transmission,
    c.county_location,
    c.direction,
    c.intersection,
    c.weather_1,
    c.location_type,
    c.road_surface,
    c.road_condition_1,
    c.lighting,
    c.control_device,
    p.insurance_premium,
    v.vehicle_age,
    c.distance,
    c.party_count,
    p.at_fault
FROM parties AS p
INNER JOIN vehicles AS v ON v.case_id = p.case_id AND v.party_number = p.party_number
INNER JOIN collisions AS c ON c.case_id = p.case_id
WHERE
    p.party_type = 'car' AND
    c.collision_damage != 'scratch' AND
    EXTRACT(YEAR FROM c.collision_date) = 2012
'''

cdf = pd.read_sql_query(query, con=engine)

cdf.head()

## Изучение данных

In [None]:
cdf.info()

In [None]:
cdf.describe().T

## Предобработка данных

Переименуем столбцы

In [None]:
cdf.rename(columns={'weather_1':'weather', 'road_condition_1':'road_condition'}, inplace=True)

Обозначим столбцы с категориальными и численными данными

In [None]:
categorial = [
    'cellphone_in_use', 'vehicle_type', 'vehicle_transmission', 'county_location',
    'direction', 'weather', 'location_type', 'intersection',
    'road_surface','road_condition', 'lighting', 'control_device'
]

numeric = [
    'insurance_premium', 'vehicle_age',
    'distance', 'party_count'
]

- Категориальные
    - `party_sobriety` — трезовость участника
    - `party_drug_physical` — физическое состояние участника
    - `cellphone_in_use` — наличие телефона в автомобиле
    - `vehicle_type` — тип кузова ТС
    - `vehicle_transmission` — тип КПП ТС
    - `county_location` — название географического района, где произошло ДТП
    - `direction` — направление движения
    - `intersection` — место ДТП является перекрёстком
    - `weather` — погода
    - `location_type` — тип дороги
    - `collision_damage` — серьёзность происшествия
    - `primary_collision_factor` — основной фактор аварии
    - `pcf_violation_category` — категория нарушения
    - `type_of_collision` — тип аварии
    - `motor_vehicle_involved_with` — дополнительные участники ДТП
    - `road_surface` — состояние дороги
    - `road_condition` — дорожное состояние
    - `lighting` — освещение
    - `control_device` — устройство контроля (камера)


- Численные
    - `insurance_premium` — сумма страховки (тыс. $)
    - `vehicle_age` — возраст ТС (годы)
    - `distance` — расстояние от главной дороги (метры)
    - `party_count` — количество участников


- Целевой признак (категориальный)
    - `at_fault` — является виновником ДТП

In [None]:
def check_data_problems(df, categorial, numeric):
    nans = df.isna().sum().to_frame()
    nans.columns = ['пропуски']
    nans['пропуски %'] = df.isna().sum() / df.shape[0]
    print('Всего наблюдений:', df.shape[0])
    print('Если удалить 10%:', int(df.shape[0]*0.9))

    qu = pd.Series(0, index=nans.index, name='значений > 0.99 квантиля')
    for column in numeric:
        qu[column] = (df[column] > df[column].quantile(0.99)).value_counts()[True]

    cat = pd.Series(0, index=nans.index, name='уникальных значений')
    for column in categorial:
        cat[column] = len(df[column].unique())
        display(Markdown(f'Уникальные значения `{column}` ' + str(df[column].unique())))

    # Можно ещё смотреть соотношения классов
    # и смотреть есть ли пропуски которые затрагивают малочисленные классы

    display(pd.concat([nans, qu, cat], axis=1).style.format({'пропуски %': '{:.0%}', 'значений > 0.99 квантиля': '{:.0f}'}))

In [None]:
check_data_problems(cdf, categorial, numeric)

Устраняем проблемы в данных:
- `insurance_premium`, `vehicle_age`, `distance`, `party_count` пропуски заполним медианой, проверим выбивающиеся значения на графике, удалим если отклонение большое
- `party_sobriety` пропущенные значения заменим уже существующей категорией для неизвестного значения `impairment unknown`
- `party_drug_physical` есть категория `G` которая является `impairment unknown` так и переименуем эти значения, и так же пропуски
- `cellphone_in_use`, `vehicle_type`, `vehicle_transmission`, `direction`, `location_type`, `primary_collision_factor`, `pcf_violation_category` пропуски заполним отдельной категорией `unknown`
- `intersection`, `weather`, `type_of_collision`, `motor_vehicle_involved_with`, `road_surface`, `road_condition`, `lighting`, `control_device` пропусков менее 10% от всех данных, можно удалить

In [None]:
cdf.insurance_premium.plot(kind='box', ylabel='сумма страховки (тыс. $)', figsize=(16, 12));

In [None]:
cdf.vehicle_age.plot(kind='box', ylabel='возраст ТС (годы)', figsize=(16, 12));

In [None]:
cdf.distance.plot(kind='box', ylabel='расстояние от главной дороги (метры)', figsize=(16, 12));

In [None]:
cdf.party_count.plot(kind='box', ylabel='количество участников', figsize=(16, 12));

## Анализ данных

In [None]:
for category in categorial:
    cdf[category].value_counts().plot.bar().set_title(category)
    plt.ylabel('Количество')
    plt.show()

**Вывод к разделу:**
- Чем меньше количество участников тем больше дистанция
- 90% участников ДТП не пили
- 90% не использовали телефон
- Чуть меньше половины данных из Лос-Анджелес
- 20% ДТП случается на перекрёстке
- 80% случаев похода ясная
- 90% случев повреждения маленький урон
- 95% причина ДТП это нарушение ПДД
- Больше всего ДТП случается с 2 участниками
- Топ 5 нарушений ПДД:
    - Speeding (Скорость)
    - Improper Turning (Неправильный поворот)
    - Automobile Right of Way (Автомобильное право проезда)
    - Unsafe Lane Change (Небезопасная смена полосы движения)
    - Pedestrian dui (Нарушение пешехода)
- Самый частый тип аварии, Rear End (Столкновение задней частью)
- 70% дополнительных участников ДТП, другой автомобиль
- 90% случаев дорога сухая
- 95% случаев дорога в нормальном состоянии
- 70% случаев происходит при дневном освещении
- 65% случаев нет устройства контроля, а тех у кого есть в 2 раза меншье

## Предобработка признаков

In [None]:
cdf.cellphone_in_use = cdf.cellphone_in_use.fillna('unknown')
cdf.vehicle_type = cdf.vehicle_type.fillna('unknown')
cdf.vehicle_transmission = cdf.vehicle_transmission.fillna('unknown')
cdf.direction = cdf.direction.fillna('unknown')
cdf.location_type = cdf.location_type.fillna('unknown')

In [None]:
cdf = cdf.dropna(subset=[
    'intersection', 'weather','road_surface', 'road_condition', 'lighting', 'control_device'
])

In [None]:
#Убираем смешение типов в cellphone_in_use и intersection
cdf.cellphone_in_use = cdf.cellphone_in_use.replace(0, 'no')
cdf.cellphone_in_use = cdf.cellphone_in_use.replace(1, 'yes')
cdf.intersection = cdf.intersection.replace(0, 'no')
cdf.intersection = cdf.intersection.replace(1, 'yes')

In [None]:
X = cdf.drop('at_fault', axis=1)
y = cdf.at_fault

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=RANDOM_STATE)

In [None]:
y_train.value_counts().plot.bar().set_title('Баланс классов at_fault');

Обработаем тренировочные данные

In [None]:
#Для обработки тренировочных данных объеденим X_train и y_train
merged_train = pd.merge(X_train, y_train, left_index=True, right_index=True)
merged_train.head(10)

In [None]:
check_data_problems(merged_train, categorial, numeric)

Устраняем проблемы в данных:
- `insurance_premium`, `vehicle_age`, `distance`, `party_count` пропуски заполним медианой, проверим выбивающиеся значения на графике, удалим если отклонение большое
- `cellphone_in_use`, `vehicle_type`, `vehicle_transmission`, `direction`, `location_type`, `primary_collision_factor`, `pcf_violation_category`, `party_drug_physical`, `party_sobriety` пропуски заполним отдельной категорией `unknown`
- `intersection`, `weather`, `type_of_collision`, `motor_vehicle_involved_with`, `road_surface`, `road_condition`, `lighting`, `control_device` пропусков менее 10% от всех данных, можно удалить

In [None]:
med_ins_prem = merged_train.insurance_premium.median()
med_vech_age = merged_train.vehicle_age.median()
merged_train.insurance_premium = merged_train.insurance_premium.fillna(merged_train.insurance_premium.median())
merged_train.vehicle_age = merged_train.vehicle_age.fillna(merged_train.vehicle_age.median())
X_test.insurance_premium = X_test.insurance_premium.fillna(med_ins_prem)
X_test.vehicle_age = X_test.vehicle_age.fillna(med_vech_age)

In [None]:
merged_train.insurance_premium.plot(kind='box', ylabel='сумма страховки (тыс. $)', figsize=(16, 12));

In [None]:
merged_train.vehicle_age.plot(kind='box', ylabel='возраст ТС (годы)', figsize=(16, 12));

In [None]:
merged_train.distance.plot(kind='box', ylabel='расстояние от главной дороги (метры)', figsize=(16, 12));

In [None]:
merged_train.party_count.plot(kind='box', ylabel='количество участников', figsize=(16, 12));

Удаляем для `insurance_premium`, `vehicle_age` и `distance` значеня меньше 0.99 квантиля

In [None]:
merged_train.drop(index=merged_train[merged_train.distance > merged_train.distance.quantile(0.99)].index, inplace=True)
merged_train.drop(index=merged_train[merged_train.vehicle_age > merged_train.vehicle_age.quantile(0.99)].index, inplace=True)
merged_train.drop(index=merged_train[merged_train.insurance_premium >
                                     merged_train.insurance_premium.quantile(0.99)].index, inplace=True)

In [None]:
check_data_problems(merged_train, categorial, numeric)

Удалим дубликаты

In [None]:
merged_train.drop_duplicates(ignore_index=True, inplace=True)

Преобразуем типы для гарантии соответствия содержащимся значениям

In [None]:
merged_train = merged_train.astype({
    **{_:'int' for _ in numeric},
    **{_:'category' for _ in categorial}
})

In [None]:
merged_train.sample(10, random_state=RANDOM_STATE)

In [None]:
merged_train.info()

In [None]:
X_train = merged_train.drop('at_fault', axis=1)
y_train = merged_train.at_fault

Трансформер данных для линейных моделей

In [None]:
linear_transformer = make_column_transformer(
    (
        OneHotEncoder(drop='first', handle_unknown='ignore', sparse_output=False),
        make_column_selector(dtype_include=['category', 'object'])
    ),
    (
        StandardScaler(),
        make_column_selector(dtype_include='number')
    ),
    remainder='passthrough'
)

Трансформер данных для древесных моделей

In [None]:
tree_transformer = make_column_transformer(
    (
        OrdinalEncoder(dtype='int16', handle_unknown='use_encoded_value', unknown_value=-1),
        make_column_selector(dtype_include=['category', 'object'])
    ),
    remainder='passthrough'
)

## Создайте модель для оценки водительского риска

### Обоснование выбора метрики

Выбрана метрика `F1`, так как нужно не только предотвратить ДТП но и не потерять клиента запретив управлять автомобилем, по этому нужно определять не только правильно ли модель определила класс целевого признака (часть от `precision`), но и насколько полно она это сделала (часть от `recall`)

In [None]:
results = {}

### Модель 1. LogisticRegression

In [None]:
linear_pipeline = make_pipeline(
    linear_transformer,
    LogisticRegression(
        class_weight='balanced',
        n_jobs=-1,
        random_state=RANDOM_STATE
    )
)

In [None]:
linear_params_grid = {
    'logisticregression__solver':['newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'],
    'logisticregression__C':[.001, .01],
    'logisticregression__max_iter':[500, 1000]
}

linear_model = GridSearchCV(
    linear_pipeline,
    linear_params_grid,
    scoring='f1',
    n_jobs=-1,
    verbose=1
)

In [None]:
%%time
X_train_lin = X_train.copy()
y_train_lin = y_train.copy()
linear_model.fit(X_train_lin, y_train_lin)

In [None]:
results['LogisticRegression'] = linear_model.best_score_
results['LogisticRegression']

### Модель 2. RandomForestClassifier

In [None]:
tree_pipeline = make_pipeline(
    tree_transformer,
    RandomForestClassifier(
        class_weight='balanced',
        verbose=0,
        n_jobs=-1,
        random_state=RANDOM_STATE
    )
)

In [None]:
tree_params_grid = {
    'randomforestclassifier__n_estimators':np.arange(100, 151, 50),
    'randomforestclassifier__max_depth':np.arange(1, 10, 2),
}

tree_model = GridSearchCV(
    tree_pipeline,
    tree_params_grid,
    scoring='f1',
    n_jobs=-1,
    verbose=1
)

In [None]:
%time
X_train_tree = X_train.copy()
y_train_tree = y_train.copy()
tree_model.fit(X_train_tree, y_train_tree)

In [None]:
results['RandomForestClassifier'] = tree_model.best_score_
results['RandomForestClassifier']

### Модель 3. LGBMClassifier

In [None]:
lgb_pipeline = make_pipeline(
    tree_transformer,
    lgb.LGBMClassifier(
        objective='binary',
        metric='f1',
        n_jobs=-1,
        verbosity=-1,
        random_state=RANDOM_STATE
    )
)

In [None]:
lgb_params_grid = {
    'lgbmclassifier__max_depth':[-1, 10],
    'lgbmclassifier__num_leaves':[10],
    'lgbmclassifier__learning_rate':[.1, .5]
}

lgb_model = GridSearchCV(
    lgb_pipeline,
    lgb_params_grid,
    scoring='f1',
    n_jobs=-1,
    verbose=1
)

In [None]:
%time
X_train_lgb = X_train.copy()
y_train_lgb = y_train.copy()
lgb_model.fit(X_train_lgb, y_train_lgb)
None

In [None]:
results['LGBMClassifier'] = lgb_model.best_score_
results['LGBMClassifier']

### Модель 4. CatBoostClassifier

In [None]:
catboost_model = CatBoostClassifier(
    eval_metric='F1',
    #cat_features=categorial,
    logging_level='Silent',
    random_state=RANDOM_STATE
)

In [None]:
X_train_cb = tree_transformer.fit_transform(X_train)
y_train_cb = y_train.copy()

In [None]:
%time
catboost_model.fit(X_train_cb, y_train_cb)
None

In [None]:
results['CatBoostClassifier'] = catboost_model.get_best_score()['learn']['F1']
results['CatBoostClassifier']

Сравненение всех моделей

In [None]:
res = pd.DataFrame(results.values(), index=results.keys(), columns=['F1'])
res

In [None]:
best_model = catboost_model

### Тестирование лучшей модели

In [None]:
X_test_cb = tree_transformer.transform(X_test)

In [None]:
best_model_prediction = best_model.predict(X_test_cb)

best_model_report = classification_report(
    y_test, best_model_prediction,
    output_dict=True, zero_division=0
)

pd.DataFrame(best_model_report).round(decimals=3).transpose()

Метрика `F1` лучшей модели

In [None]:
best_model_report['weighted avg']['f1-score']

Гиперпараметры лучшей модели

In [None]:
best_model.get_params()

**Вывод к разделу:**
- Было использовано 4 модели для сравнения, лучшей оказалась `CatBoostClassifier` с метрикой **F1 0.686** на кросс-валидации и **F1 0.66** на тестовой выборке

## Проведите анализ важности факторов ДТП

### Матрица ошибок

In [None]:
cm = confusion_matrix(y_test, best_model_prediction, labels=catboost_model.classes_)

fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(15, 5))
cmd = ConfusionMatrixDisplay(cm, display_labels=catboost_model.classes_)
cmd.plot(ax=ax1)
ax1.set_title('Матрица ошибок')
prec, recall, _ = precision_recall_curve(y_test, best_model_prediction)
PrecisionRecallDisplay(prec, recall).plot(ax=ax2)
ax2.set_title('Полнота-точность')
plt.show()

### Важность признаков

In [None]:
cat_model_importances = pd.Series(best_model.get_feature_importance(), index=X.columns).sort_values()
plt.figure(figsize=(10, 6))
cat_model_importances.plot.barh().set_title("Важность факторов ДТП");

In [None]:
fig = px.histogram(
    cdf, x='party_count', color='at_fault',
    barmode='group',
    title='Зависимость виновности в ДТП от основного фактора аварии',
    histfunc='count'
)
fig.show()

**Вывод к разделу:**
- Самым важным фактором виновности в ДТП по версии этой модели это `party_count` — количество участников.
- Топ 6 самых важных факторов
    - `party_count` — количество участников
    - `insurance_premium` — сумма страховки (тыс. долл)
    - `distance` — расстояние от главной дороги (метры)
    - `vehicle_age` — возраст ТС (годы)
    - `county_location` — название географического района, где произошло ДТП
    - `vehicle_type` — тип кузова ТС

## Выводы

- Основная часть данных есть с 2009.01.01 по 2012.06.01, а после этого периода их почти нет
- В среднем аварий примерно на 20000 больше в первые 5 месяцев года, чем в остальные месяца
- Больше всего аварий было в Октябре (начало заморозков)
- Меньше всего аварий было в Феврале


- Были поручены аналитические задачи коллегам для исследования данных


- Чем меньше количество участников тем больше дистанция
- 90% участников ДТП не пили
- 90% не использовали телефон
- Чуть меньше половины данных из Лос-Анджелес
- 20% ДТП случается на перекрёстке
- 80% случаев похода ясная
- 90% случев повреждения маленький урон
- 95% причина ДТП это нарушение ПДД
- Больше всего ДТП случается с 2 участниками
- Топ 5 нарушений ПДД:
    - Speeding (Скорость)
    - Improper Turning (Неправильный поворот)
    - Automobile Right of Way (Автомобильное право проезда)
    - Unsafe Lane Change (Небезопасная смена полосы движения)
    - Pedestrian dui (Нарушение пешехода)
- Самый частый тип аварии, Rear End (Столкновение задней частью)
- 70% дополнительных участников ДТП, другой автомобиль
- 90% случаев дорога сухая
- 95% случаев дорога в нормальном состоянии
- 70% случаев происходит при дневном освещении
- 65% случаев нет устройства контроля, а тех у кого есть в 2 раза меншье

In [None]:
# Результаты на кросс-валидации по всем моделям
res

- Было использовано 4 модели для сравнения, лучшей оказалась `CatBoostClassifier` с метрикой **F1 0.686** на кросс-валидации и **F1 0.66** на тестовой выборке
- Самым важным фактором виновности в ДТП по версии этой модели это `party_count` — количество участников.
- Топ 6 самых важных факторов
    - `party_count` — количество участников
    - `insurance_premium` — сумма страховки (тыс. долл)
    - `distance` — расстояние от главной дороги (метры)
    - `vehicle_age` — возраст ТС (годы)
    - `county_location` — название географического района, где произошло ДТП
    - `vehicle_type` — тип кузова ТС
- Учитывая другие важные факторы аварии, можно подумать о сборе таких дополнительных данных для возможного улучшения предсказания рисков:
    - Плотность движения и пробок для, возможно, построения маршрута где может находится наименьшее количество потенциальных участников ДТП
    - Сложность/особенности/топология дорог для выбора наименее рискованных