
# Кейс спринта


Заказчик проекта — «Карта ДТП». Это некоммерческий проект, посвящённый проблеме дорожно-транспортных происшествий в России. Цель проекта — повысить безопасность на дорогах.

«Карта ДТП» помогает выявлять реальные причины ДТП, оценивать уровень развития инфраструктуры, а также разрабатывать качественные решения и программы по повышению безопасности на улицах и дорогах. Заказчик хочет собирать данные более высокого качества и ожидает от вас рекомендаций: на какие проблемы или особенности обратить внимание.

## Что нужно сделать

Вам необходимо проверить, встречаются ли в данных дубликаты и пропуски. Это поможет заказчикам собирать более качественные данные.

Вам также понадобится ответить на следующие вопросы:

- как менялось число ДТП по временным промежуткам;

- различается ли число ДТП для групп водителей с разным стажем.


## Описание данных

Данные `Kirovskaya_oblast.csv`, `Moscowskaya_oblast.csv` содержат информацию ДТП:

* `geometry.coordinates` — координаты ДТП;

* `id` — идентификатор ДТП;

*  `properties.tags` — тег происшествия;

*  `properties.light` — освещённость;

*  `properties.point.lat` — широта;

*  `properties.point.long` — долгота;

*  `properties.nearby` — ближайшие объекты;

*  `properties.region` — регион;

*  `properties.scheme` — схема ДТП;

*  `properties.address` — ближайший адрес;

*  `properties.weather` — погода;

*  `properties.category` — категория ДТП;

*  `properties.datetime` — дата и время ДТП;

*  `properties.injured_count` — число пострадавших;

*  `properties.parent_region` — область;

*  `properties.road_conditions` — состояние покрытия;

*  `properties.participants_count` — число участников;

*  `properties.participant_categories` — категории участников.

`Moscowskaya_oblast_participiants.csv`, `Kirovskaya_oblast_participiants.csv` — сведения об участниках ДТП:

* `role` — роль;

* `gender` — пол;

* `violations` — какие правила дорожного движения были нарушены конкретным участником;

* `health_status` — состояние здоровья после  ДТП;

* `years_of_driving_experience` — число лет опыта;

* `id` — идентификатор ДТП.


`Kirovskaya_oblast_vehicles.csv`, `Moscowskaya_oblast_vehicles.csv` — сведения о транспортных средствах:

* `year` — год выпуска;

* `brand` — марка транспортного средства;

* `color` — цвет;

* `model` — модель;

* `category` — категория;

* `id` — идентификатор ДТП.

# Проверка ошибок в данных и их предобработка



### 1) Замена названий (меток) столбцов на оптимальные для работы

In [3]:
import pandas as pd
# Загрузим датасеты для дальнейшей работы
df_kirov_obl = pd.read_csv('Kirovskaya_oblast.csv')
df_msc_obl = pd.read_csv('Moscowskaya_oblast.csv')

В представленных датасетах название полей некорректны для дальнейшей работы, для удоства их следует заменить.

In [5]:
df_kirov_obl.columns

Index(['geometry.coordinates', 'id', 'properties.tags', 'properties.light',
       'properties.point.lat', 'properties.point.long', 'properties.nearby',
       'properties.region', 'properties.scheme', 'properties.address',
       'properties.weather', 'properties.category', 'properties.datetime',
       'properties.injured_count', 'properties.parent_region',
       'properties.road_conditions', 'properties.participants_count',
       'properties.participant_categories'],
      dtype='object')

In [6]:
df_kirov_obl.columns = ['coordinates', 'id', 'tags', 'light',
       'lat', 'long', 'nearby',
       'region', 'scheme', 'address',
       'weather', 'category', 'datetime',
       'injured_count', 'parent_region',
       'road_conditions', 'participants_count',
       'participant_categories']
df_msc_obl.columns = ['coordinates', 'id', 'tags', 'light',
       'lat', 'long', 'nearby',
       'region', 'scheme', 'address',
       'weather', 'category', 'datetime',
       'injured_count', 'parent_region',
       'road_conditions', 'participants_count',
       'participant_categories']

В сотальных представленных датасетах название столбцов подходят для комфортной работы с ними.

### 2) Проверка пропусков в данных

На примере датасета `Kirovskaya_oblast.csv` изучите, в каких столбцах есть пропуски. Предположите причины их возникновения. Напишите рекомендации, как работать с  пропусками и как их в дальнейшем избежать.

In [8]:
df_kirov_obl.isna().sum() / df_kirov_obl.shape[0]*100

coordinates               0.000000
id                        0.000000
tags                      0.000000
light                     0.000000
lat                       0.220431
long                      0.220431
nearby                    0.000000
region                    0.000000
scheme                    7.832197
address                   4.642833
weather                   0.000000
category                  0.000000
datetime                  0.000000
injured_count             0.000000
parent_region             0.000000
road_conditions           0.000000
participants_count        0.000000
participant_categories    0.000000
dtype: float64

Пропуски в данных содержаться в следующих столбцах: широта и долгота, схема и адрес. Во всех перечисленных полях количество пропусков не превышает 8% от общего объема данных. Больше всего пропусков в схеме дтп и в адресе. Пропуски в адресе возможны, так как не все аварии происходят в населенных пунктах или же поле является необязательным к заполнению. Пропуски в схемах также возможны, так как не всегда возможно сделать точную зарисовку аварии.

In [9]:
df_msc_obl.isna().sum() / df_kirov_obl.shape[0]*100

coordinates                0.000000
id                         0.000000
tags                       0.000000
light                      0.000000
lat                        0.020665
long                       0.020665
nearby                     0.000000
region                     0.000000
scheme                     9.526762
address                   12.096163
weather                    0.000000
category                   0.000000
datetime                   0.000000
injured_count              0.000000
parent_region              0.000000
road_conditions            0.000000
participants_count         0.000000
participant_categories     0.000000
dtype: float64

При проверки данных по Мск, можно так;е заметить два поля, в которых аккумулированы пропуски: схема и адрес.
Учитывая специфику задач, которые требует заказчик, обработка пропусков не нужна.

### 3) Наличие явных и неявных дубликатов в данных



Есть ли явные дубликаты в данных, какой это процент значений?

In [10]:
df_kirov_obl.duplicated(keep = 'first').sum()

0

Количество полных дубликатов равно нулю. Проверим также дубликаты, которые могут быть неявными. Уникальными полями кроме id можно считать комбинацию времени и места.

In [11]:
df_kirov_obl[df_kirov_obl.duplicated(subset = ['lat', 'long', 'datetime'])]

Unnamed: 0,coordinates,id,tags,light,lat,long,nearby,region,scheme,address,weather,category,datetime,injured_count,parent_region,road_conditions,participants_count,participant_categories


Дубликатов также не найдено

In [13]:
#Повторим аналогичные действия для другого датасета
df_msc_obl.duplicated(keep = 'first').sum()

0

In [14]:
df_msc_obl[df_msc_obl.duplicated(subset = ['lat', 'long', 'datetime'])]

Unnamed: 0,coordinates,id,tags,light,lat,long,nearby,region,scheme,address,weather,category,datetime,injured_count,parent_region,road_conditions,participants_count,participant_categories


В датасетах об авариях явных и неявных дубликатов не выявлено.

### 4) Проверка корректности типов данных

In [15]:
#Рассмотрим типы данных выведя обшщую информацию о датафрейме
df_kirov_obl.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14517 entries, 0 to 14516
Data columns (total 18 columns):
 #   Column                  Non-Null Count  Dtype  
---  ------                  --------------  -----  
 0   coordinates             14517 non-null  object 
 1   id                      14517 non-null  int64  
 2   tags                    14517 non-null  object 
 3   light                   14517 non-null  object 
 4   lat                     14485 non-null  float64
 5   long                    14485 non-null  float64
 6   nearby                  14517 non-null  object 
 7   region                  14517 non-null  object 
 8   scheme                  13380 non-null  float64
 9   address                 13843 non-null  object 
 10  weather                 14517 non-null  object 
 11  category                14517 non-null  object 
 12  datetime                14517 non-null  object 
 13  injured_count           14517 non-null  int64  
 14  parent_region           14517 non-null

In [16]:
df_kirov_obl.head(5)

Unnamed: 0,coordinates,id,tags,light,lat,long,nearby,region,scheme,address,weather,category,datetime,injured_count,parent_region,road_conditions,participants_count,participant_categories
0,"[47.875603, 57.24379]",1983180,Дорожно-транспортные происшествия,Светлое время суток,57.24379,47.875603,[],Яранский район,600.0,Р-176 Вятка Чебоксары - Йошкар-Ола - Киров - С...,['Дождь'],Опрокидывание,2017-07-01 18:00:00,1,Кировская область,['Мокрое'],3,['Все участники']
1,"[47.87903, 57.304807]",2889433,Дорожно-транспортные происшествия,Светлое время суток,57.304807,47.87903,"['Административные здания', 'Нерегулируемый пе...",Яранский район,710.0,"г Яранск, ул Кирова, 10",['Ясно'],Наезд на пешехода,2023-09-12 17:10:00,1,Кировская область,"['Сухое', 'Отсутствие, плохая различимость гор...",2,"['Все участники', 'Пешеходы']"
2,"[47.840781, 57.297156]",2591208,Дорожно-транспортные происшествия,Сумерки,57.297156,47.840781,"['Жилые дома индивидуальной застройки', 'Нерег...",Яранский район,,"г Яранск, ул Чапаева, 80",['Пасмурно'],Съезд с дороги,2021-07-02 21:25:00,1,Кировская область,['Мокрое'],1,['Все участники']
3,"[47.834365, 57.244775]",2577639,Дорожно-транспортные происшествия,Светлое время суток,57.244775,47.834365,['Жилые дома индивидуальной застройки'],Яранский район,200.0,"м Знаменка, ул Кирова, 15",['Пасмурно'],Столкновение,2021-05-31 18:55:00,1,Кировская область,['Сухое'],2,"['Все участники', 'Мотоциклисты']"
4,"[47.968197, 57.357738]",1981026,Дорожно-транспортные происшествия,Светлое время суток,57.357738,47.968197,['Нерегулируемый перекрёсток неравнозначных ул...,Яранский район,,"с/п Никольское, Киров-Советск- Яранск - подъез...",['Ясно'],Опрокидывание,2018-05-16 16:25:00,2,Кировская область,"['Сухое', 'Отсутствие, плохая различимость гор...",2,['Все участники']


На основе анализа данных и типов данных, которые были подобраны при разгрузке было выялвено следующее:
- поле coordanetes содержит в себе информацию, которая дублируется в полях lat и long - для оптимизации поле можно убрать, так как с данными о широте и долготе проще работать в разбивке, кроме того их можно преобразовать в float32;
- поле id можно заменить на int32;
- поле scheme также можно заменить на int, однако тогда нужно избавиться от пропусков, но из-за этого мы потеряем небольшой объем данных (приблизительно 5% от общего объема);
- поле datetime представлено в типе object, при этом в самом поле хранится данные даты и времени, требуется перевод в datetime;
- поле injured_count и participants_count хранят небольшие числа, поэтому можно заменить int64 на int 4.

Типы данных требуеют корректировки.

## Исследовательский анализ



### Какое число ДТП случилось в каждый день недели. Разбивка числа происшествий по месяцам

In [18]:
# Для начала необходимо преобразовать тип данных даты и времени
df_kirov_obl['datetime'] = pd.to_datetime(df_kirov_obl['datetime'])

In [19]:
# Вывдем  день и месяц в отдельное поле
df_kirov_obl['day'] = df_kirov_obl['datetime'].dt.day_name()
df_kirov_obl['month'] = df_kirov_obl['datetime'].dt.month

Повторим аналогичные действия для датасета Москвы и Московской области.

In [20]:
# Для начала необходимо преобразовать тип данных даты и времени
df_msc_obl['datetime'] = pd.to_datetime(df_msc_obl['datetime'])

In [21]:
# Вывдем  день и месяц в отдельное поле
df_msc_obl['day'] = df_msc_obl['datetime'].dt.day_name()
df_msc_obl['month'] = df_msc_obl['datetime'].dt.month

Теперь выведем информацию о ДТП в разбивке по дням и месяцам для каждого датасета.

In [22]:
display(df_kirov_obl['day'].value_counts())
df_kirov_obl['month'].value_counts()

Friday       2344
Saturday     2246
Sunday       2054
Monday       2010
Tuesday      1988
Wednesday    1939
Thursday     1936
Name: day, dtype: int64

8     1654
7     1635
6     1421
9     1370
10    1333
11    1200
5     1189
12    1164
1     1069
4      875
2      808
3      799
Name: month, dtype: int64

В Кировской области самыми активными месяцами ДТП является летние месяцы (август, Июль, Июнь), а дни - пятница, суботта, воскресенье. Веротянее всего большое количество аварий в период с пятницы по воскресенье связано с потерью бдительности - люди больше отдыхают и чаще отвлекаются. В летние месяцы аварий может быть больше из-за положения солнца (в летние месяцы солнце находится в зените и погода чаще безоблачная), что приводи к частому ослеплению солнечными лучами.

In [23]:
display(df_msc_obl['day'].value_counts())
df_msc_obl['month'].value_counts()

Saturday     7285
Friday       7024
Monday       6390
Thursday     6343
Sunday       6318
Tuesday      6156
Wednesday    6102
Name: day, dtype: int64

8     4787
9     4571
7     4401
6     4354
10    4113
5     3992
12    3732
11    3618
1     3254
4     3172
3     2880
2     2744
Name: month, dtype: int64

В Московской области данные почти похожи, однако происходит смещение по дням и месяцам: больше всего аварий происходило в период июль - сентябрь, а в днях - пятница, суббота и понедельник. Так как в москве движение более плотное и оживленное, то большое количество аварий в москве в понедельник можно объяснить тем, что люди еще не успели вернуться "в ресурс" и во время поездки на работу попали в ДТП.

### Категории водителей по стажу. Встречаются ли категории, которые разительно отличаются по числу ДТП

Для решения исследовательской задачи необходимо дозагрузить другой датасет, в котором хранится информации об участних ДТП.

In [25]:
df_kirov_user = pd.read_csv('https://code.s3.yandex.net/datasets/Kirovskaya_oblast_participiants.csv')
df_msc_user = pd.read_csv('https://code.s3.yandex.net/datasets/Moscowskaya_oblast_participiants.csv')

In [26]:
df_kirov_user.head()

Unnamed: 0,role,gender,violations,health_status,years_of_driving_experience,id
0,Водитель,Мужской,['Несоответствие скорости конкретным условиям ...,"Раненый, находящийся (находившийся) на амбулат...",26.0,1983180
1,Водитель,Мужской,[],Не пострадал,34.0,2889433
2,Пассажир,Мужской,[],"Раненый, находящийся (находившийся) на амбула...",,2591208
3,Пассажир,Мужской,[],"Раненый, находящийся (находившийся) на амбула...",,2591208
4,Водитель,Мужской,[],Не пострадал,27.0,2577639


Не для всех участников ДТП заполнен стаж, вероятнее всего у них не было прав. Выберем только водителей.

In [28]:
df_kirov_user[df_kirov_user['role']=='Водитель']
df_msc_user[df_msc_user['role']=='Водитель']

Unnamed: 0,role,gender,violations,health_status,years_of_driving_experience,id
0,Водитель,Мужской,[],Не пострадал,13.0,2163589
1,Водитель,Мужской,[],Не пострадал,13.0,2163589
2,Водитель,Мужской,['Неправильный выбор дистанции'],Не пострадал,5.0,2155398
3,Водитель,Мужской,['Неправильный выбор дистанции'],Не пострадал,5.0,2155398
4,Водитель,Женский,[],Не пострадал,11.0,2163319
...,...,...,...,...,...,...
82157,Водитель,Мужской,['Несоответствие скорости конкретным условиям ...,Не пострадал,30.0,2651606
82180,Водитель,Мужской,[],Не пострадал,11.0,2140870
82181,Водитель,Мужской,[],Не пострадал,11.0,2140870
82221,Водитель,Мужской,[],Не пострадал,33.0,2145783


Из полученных данных заметно, чо есть водители у которых нет прав, добавим также это условие и создадим новые датасеты.

In [29]:
df_kirov_prav = df_kirov_user[(df_kirov_user['role']=='Водитель') & df_kirov_user['years_of_driving_experience'].notna()]
df_msc_prav = df_msc_user[(df_msc_user['role']=='Водитель') & df_msc_user['years_of_driving_experience'].notna()]

Теперь категоризуем водителей с правами по опыту. Чтобы создать единые группы возьмем промежуток в 5 лет.

In [31]:
df_kirov_prav['category'] = pd.cut(df_kirov_prav['years_of_driving_experience'], [0,5,10,15,20,25,30,35,40,50,60,70])
df_msc_prav['category'] = pd.cut(df_msc_prav['years_of_driving_experience'], [0,5,10,15,20,25,30,35,40,50,60,70])

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_kirov_prav['category'] = pd.cut(df_kirov_prav['years_of_driving_experience'], [0,5,10,15,20,25,30,35,40,50,60,70])
A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  df_msc_prav['category'] = pd.cut(df_msc_prav['years_of_driving_experience'], [0,5,10,15,20,25,30,35,40,50,60,70])


In [32]:
display(df_kirov_prav['category'].value_counts())
df_msc_prav['category'].value_counts()

(0, 5]      3533
(5, 10]     3238
(10, 15]    2769
(15, 20]    2280
(20, 25]    1587
(25, 30]    1137
(30, 35]     921
(35, 40]     697
(40, 50]     629
(50, 60]     106
(60, 70]      12
Name: category, dtype: int64

(0, 5]      11919
(5, 10]     11853
(10, 15]    10037
(15, 20]     9085
(20, 25]     6004
(25, 30]     4007
(30, 35]     2713
(35, 40]     2051
(40, 50]     1600
(50, 60]      361
(60, 70]       49
Name: category, dtype: int64

Разбивка на категории по водительскому стажу демоснтрирует уменьшение количество ДТП с увеличением срока вождения, однако чтобы лучше оценить частоту ДТП в категориях необходимо посмотреть долю аварий от общего числа водителе со стажем. В рамках данного задания это не представляется возможным

### Как менялось число аварий в Кировской (Киров входит в численность) и Московской области (Москва исключена). Где аварий больше в относительном выражении — в пересчёте на 100 тысяч жителей

# Итоговые выводы
