<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Подключение-к-базе-данных-и-первичны-обзор-данных" data-toc-modified-id="Подключение-к-базе-данных-и-первичны-обзор-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Подключение к базе данных и первичны обзор данных</a></span><ul class="toc-item"><li><span><a href="#Импорт-библиотек-и-настройка-графиков" data-toc-modified-id="Импорт-библиотек-и-настройка-графиков-1.1"><span class="toc-item-num">1.1&nbsp;&nbsp;</span>Импорт библиотек и настройка графиков</a></span></li></ul></li></ul></div>

# Проект: "Система оценки риска для прогнозирования дорожно-транспортных происшествий на основе исторических данных"

**ПОСТАНОВКА ЗАДАЧИ**

**Заказчик исследования:**  
Каршеринговая компания

**Исходные данные:**  
Исторические данные о дорожно-транспортных происшествиях (ДТП) за 2010-2012 года. Данные включают информацию о происшествиях, участниках и транспортных средствах. Основной интерес представляют ДТП с повреждениями автомобилей, за исключением лёгких повреждений типа "царапина", с учетом возраста автомобиля и виновности водителя.

**Цель исследования:**  
Разработать систему оценки риска ДТП, которая на основе выбранного маршрута сможет предсказывать вероятность аварий с повреждением транспортного средства и предоставлять предупреждения водителям в случае высокого риска.

**Задачи исследования:**

1. Исследовать возможность предсказания ДТП, используя исторические данные.
2. Определить основные факторы, влияющие на вероятность ДТП, с акцентом на возраст автомобиля.
3. Оценить возможность создания адекватной системы предупреждений для водителей на основе полученных данных.
4. Определить дополнительные факторы, которые могут повысить точность модели.
5. Исследовать необходимость установки датчиков, камер или иных мер в автомобиле для улучшения системы.

**Ход исследования:**  
Исследование будет включать в себя следующие этапы:


1. **Сбор и подготовка данных:**
   - Подключение к базе данных и загрузка необходимых таблиц (case_ids, collisions, parties, vehicles).
   - Проведение первичного анализа данных для понимания структуры и связей между таблицами.


2. **Анализ факторов ДТП:**
   - Проведение статистического анализа факторов, влияющих на вероятность аварии.
   - Исследование взаимосвязей между факторами и вероятностью ДТП.


3. **Создание и обучение модели:**
   - Формирование набора данных для моделирования на основе случаев ДТП с участием автомобилей.
   - Проведение первичного отбора факторов и обучение нескольких моделей для предсказания виновности водителя в аварии.
   - Оценка модели с помощью соответствующих метрик и анализ важности факторов.


4. **Оценка модели:**
   - Выбор наилучшей модели по результатам перебора гиперпараметров.
   - Проведение графического анализа "Матрицы ошибок" и оценка важности факторов.


5. **Выводы и рекомендации:**
   - Анализ результатов модели и оценка возможности создания адекватной системы предупреждений для водителей.
   - Рекомендации по установке дополнительных сенсоров или камер в автомобиле для улучшения безопасности.

## Подключение к базе данных и первичны обзор данных

### Импорт библиотек и настройка графиков

Импортируем библиотеки torch, pandas, numpy, matplotlib, seaborn, sklearn, shap, psycopg2 и другие. 

In [12]:
#!pip install sqlalchemy 

In [1]:
# Импорт стандартных библиотек
import os
import re
import time
import random
import warnings
from IPython.display import IFrame  # Для отображения файлов в Jupyter

# Импорт библиотек для работы с БД
import psycopg2
from sqlalchemy import create_engine

# Импорт библиотек для научных вычислений и визуализации данных
import numpy as np
import pandas as pd
import seaborn as sns
import plotly.express as px
import matplotlib.pyplot as plt

# Импорт библиотек для анализа корреляций и отчетов
from phik import phik_matrix
from phik.report import plot_correlation_matrix
import sweetviz as sv

# Импорт библиотек для предобработки данных и работы с моделями
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline, make_pipeline
from sklearn.model_selection import train_test_split, KFold
from sklearn.preprocessing import OneHotEncoder, StandardScaler
import optuna

# Импорт библиотек для работы с PyTorch
import torch  # Основная библиотека для работы с тензорами
import torch.nn as nn  # Модуль для создания нейронных сетей
import torch.optim as optim  # Модуль для оптимизации
# Для работы с загрузкой данных
from torch.utils.data import DataLoader, TensorDataset

# Настройка отображения в Pandas, чтобы видеть весь список параметров
pd.set_option('display.max_colwidth', None)

# Константы
LINE_1 = '-' * 125
RANDOM_STATE = 42
TEST_SIZE = 0.20
N_FOLDS = 5

Подключимся к БД где хранятся вся необходимая информация

In [2]:
# Настройки для подключения у БД:
db_config = {
'user': 'praktikum_student', # имя пользователя,
'psw': 'Sdf4$2;d-d30pp', # пароль,
'host': 'rc1b-wcoijxj3yxfsf3fs.mdb.yandexcloud.net',
'port': 6432, # порт подключения,
'db': 'data-science-vehicle-db' # название базы данных,
} 

In [6]:
# Формируем строку подключения
connection_string = 'postgresql://{}:{}@{}:{}/{}'.format(
    db_config['user'],
    db_config['pwd'],
    db_config['host'],
    db_config['port'],
    db_config['db'],
)

# Создаем движок (соединение) SQLAlchemy
engine = create_engine(connection_string)

In [16]:
# Выполняем запрос и загружаем результат в DataFrame
query = """
SELECT *
FROM vehicles;
"""

# Результат выдачи SQL-запроса
retention_rate_df = pd.read_sql_query(query, con = engine)

#df = pd.read_sql(query, engine) # Сохраним датасет

In [17]:
retention_rate_df

Unnamed: 0,id,case_id,party_number,vehicle_type,vehicle_transmission,vehicle_age
0,1175713,5305032,2,sedan,manual,3.0
1,1,3858022,1,sedan,auto,3.0
2,1175712,5305030,1,sedan,auto,3.0
3,1175717,5305033,3,sedan,auto,5.0
4,1175722,5305034,2,sedan,auto,5.0
...,...,...,...,...,...,...
1021229,1175684,5304990,2,sedan,manual,6.0
1021230,1175686,5304993,2,sedan,manual,3.0
1021231,1175687,5304994,2,sedan,manual,3.0
1021232,1175693,5305002,1,sedan,manual,5.0


In [20]:
# создаём сводную таблицу с результатами
retention = df.pivot('vehicle_type', 'vehicle_transmission', 'vehicle_age')
retention.index = [str(x)[0:10] for x in retention.index]
retention.columns = [str(x)[0:10] for x in retention.columns]

# строим хитмэп
plt.figure(figsize=(16, 16)) # задаём размер графика
sns.heatmap(retention, # датафрейм с данными
            annot=True, # добавляем подписи
            fmt='') # задаём исходный формат
plt.title('Тепловая карта') # название графика
plt.show() 

TypeError: pivot() takes 1 positional argument but 4 were given

In [19]:
# Выводим результат
df.head()  # Выводим первые несколько строк результата

Unnamed: 0,id,case_id,party_number,vehicle_type,vehicle_transmission,vehicle_age
0,1175713,5305032,2,sedan,manual,3.0
1,1,3858022,1,sedan,auto,3.0
2,1175712,5305030,1,sedan,auto,3.0
3,1175717,5305033,3,sedan,auto,5.0
4,1175722,5305034,2,sedan,auto,5.0


In [5]:
"""
SELECET *
FROM vehicles
"""

SyntaxError: invalid syntax (1080065117.py, line 1)

In [11]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1021234 entries, 0 to 1021233
Data columns (total 6 columns):
 #   Column                Non-Null Count    Dtype  
---  ------                --------------    -----  
 0   id                    1021234 non-null  int64  
 1   case_id               1021234 non-null  object 
 2   party_number          1021234 non-null  int64  
 3   vehicle_type          1021234 non-null  object 
 4   vehicle_transmission  997575 non-null   object 
 5   vehicle_age           996652 non-null   float64
dtypes: float64(1), int64(2), object(3)
memory usage: 46.7+ MB
