# Классификация уровня серьёзности дорожных происшествий в Америке, штат Огайо за 2016-2020 гг.

### Имеется следующий набор данных:
1. Severity - степень серьёзности аварии;
2. Start_Time - время начала дорожного происшествия;
3. End_Time - время окончания дорожного происшествия (обозначает время, когда происшествие перестаёт влиять на транспортный поток);
4. Start_Lat - широта координат точки начала происшествия по данным GPS;
5. Start_Lng - долгота координат точки начала происшествия по данным GPS;
6. End_Lat - широта координат точки окончания происшествия по данным GPS;
7. End_Lng - долгота координат точки окончания происшествия по данным GPS;
8. Distance - длина дороги, задействованная происшествием;
9. Description - описание происшествия;
10. Number - номер улицы, на которой произошло происшествие;
11. Street - название улицы, на которой произошло происшествие;
12. Side - сторона дороги, на которой произошло происшествие;
13. City - город;
14. County - округ;
15. State - штат;
16. Zipcode - почтовый индекс в записи адреса места, в котором произошло происшествие;
17. Country - страна;
18. Timezone - часовой пояс;
19. Airport_Code - кол ближайшего аэропорта;
20. Weather_Time - время, в которое записаны данные о погоде;
21. Temperature - температура;
22. Wind_Chill - ветро-холодовой индекс;
23. Humidity - влажность воздуха;
24. Pressure - давление воздуха;
25. Visibility - видимость;
26. Wind_Direction - направление ветра;
27. Wind_Speed - скорость ветра;
28. Precipitation - количество осадков;
29. Weather_Condition - состояние погоды;
30. Amenity - наличие удобств поблизости от места происшествия;
31. Bump - наличие искусственных неровностей на дороге (лежачие полицейские или неровная дорога);
32. Crossing - наличие пересечения дорог поблизости от места происшествия;
33. Give_Way - наличие условий, в которых один участник дорожного движения должен уступить дорогу другому;
34. Junction - наличие перекрёстков поблизости от места происшествия;
35. No_Exit - наличие тупиков поблизости от места происшествия;
36. Railway - наличие железных дорог поблизости от места происшествия;
37. Roundabout - наличие кругового движения поблизости от места происшествия;
38. Station - наличие ж/д, метро и пр. станций поблизости от места происшествия;
39. Stop - наличие знака "Стоп" поблизости от места происшествия;
40. Traffic_Calming - наличие на дороге мер по замедлению дорожного движения;
41. Traffic_Signal - наличие светофоров;
42. Turning_Loop - наличие разворота;
43. Sunrise_Sunset - восход или закат;
44. Civil_Twilight - гражданские сумерки;
45. Nautical_Twilight - навигационные сумерки;
46. Astronomical_Twilight - астрономические сумерки;

По данному набору данных необходимо предсказать степень серьёзности дорожных происшествий. Целевая переменная - severity, может принимать целые значения из диапазона \[1, 4\].

## 1. Чтение данных из файла

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
import seaborn as sns
import sklearn
%matplotlib inline 

In [None]:
path = "./US_Accidents_OH_state.csv"
data = pd.read_csv(path)

Первые и последние значения из таблицы данных:

In [None]:
data.head()

In [None]:
data.tail()

Более подробное описание данных датасета:

In [None]:
data.info()

## 2. Визуализация данных и вычисление основных характеристик

Как видно из следующего графика, распределение целевой переменной несбалансированно:

In [None]:
data.Severity.value_counts().plot.pie()
pass

Выберем бинарные, числовые и некоторые категориальные признаки:

In [None]:
binaries = data.select_dtypes(include='bool')
numerics = data.select_dtypes(include='float64')
categorials =  data[['Side', 'Wind_Direction', 'Weather_Condition', 'Sunrise_Sunset', 'Civil_Twilight', 'Nautical_Twilight', 'Astronomical_Twilight']]

Построим круговые диаграммы для бинарных и категориальных признаков:

In [None]:
bin_cat = pd.concat((binaries, numerics), axis=1)
print(len(bin_cat.columns))
print(bin_cat)

In [None]:
bin_cat.plot(kind='pie', subplots=True, autopct='%1.1f%%', startangle=270, fontsize=17)
display()