# Предобработка данных

Отработка алгоритма решения задачи предобработки данных. 

Датасет <code>dtp_last.csv</code> содержит информацию о ДТП в Российской Федерации в 2018 году.

<li>'reg_code' - код региона (октмо)
<li>'регион' - название региона
<li>'road_code' - код дороги
<li>'Дорога' -  название дороги
<li>'road_type' - тип дороги
<li>'address' -  адрес
<li>'crash_type_name' -тип ДТП
<li>'crash_date' - дата ДТП
<li>'crash_time' - время ДТП
<li>'crash reason' - причина ДТП
<li>'fatalities_amount' - число погибших
<li>'victims_amount' - число пострадавших
<li>'vehicles_amount' - число транспортных средств
<li>'participants_amount' - число участников



Задача: Подготовить данные для дальнейшего исследования.
1. Изучите общую информацию.
2. Осуществите предобработку заголовков.
3. Заполните пропуски.
4. Найдите проблемы в данных.
5. Преобразуйте типы данных. Добавьте столбец datetime из имеющихся столбцов, используя разделитель T. Преобразуйте к типу данных "дата/время".
6. Удалите дубликаты.
7. Добавьте столбец с днями недели на русском языке.
8. Экспортируйте результат в excel.
9. Сформулируйте общий вывод по работе.

Работу сопроводите выводами и комментариями к коду.

### Загрузка данных. Общая информация

In [41]:
import pandas as pd
data = pd.read_csv('dtp_last.csv', sep=';')

In [42]:
data.head()

Unnamed: 0,reg_code,регион,road_code,Дорога,road_type,address,crash_type_name,crash_date,crash_time,crash reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount
0,46,Московская область,,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,12
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,2
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,20181231,23:40:00,Превышение установленной скорости движения,1,0,1,2
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,20181231,23:20:00,Нахождение на проезжей части без цели её перех...,0,1,1,2
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,20181231,23:00:00,Нарушение правил проезда пешеходного перехода,1,0,1,2


In [43]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39102 entries, 0 to 39101
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   reg_code             39102 non-null  int64 
 1   регион               39083 non-null  object
 2   road_code            20777 non-null  object
 3   Дорога               38910 non-null  object
 4   road_type            38910 non-null  object
 5   address              39102 non-null  object
 6   crash_type_name      39102 non-null  object
 7   crash_date           39102 non-null  int64 
 8   crash_time           39102 non-null  object
 9   crash reason         38467 non-null  object
 10  fatalities_amount    39102 non-null  int64 
 11  victims_amount       39102 non-null  int64 
 12  vehicles_amount      39102 non-null  int64 
 13  participants_amount  39102 non-null  object
dtypes: int64(5), object(9)
memory usage: 4.2+ MB


### Выводы:

1. Всего 39102 строки и 14 столбцов;
2. Заголовки на русском и английском языке, да еще и не в змеином регистре;
3. Дата в формате object;

Это пока все выводы, которые мы можем сделать просто взглянув на данные.

<div class="alert alert-block alert-success">
Ok<br>
<code>participants_amount</code> тоже object

### Предобработка заголовков

In [44]:
# помню, что желательно, чтобы заголовки были на английском языке, но проше прощения за плохой английский и оставляю все на русском, чтобы было легче ориентироваться
data.columns = ['код_региона', 'название_региона', 'код_дороги', 'название_дороги', 'тип_дороги', 'адрес', 'тип_ДТП', 'дата_ДТП', 'время_ДТП', 'причина_ДТП', 'число_погибших', 'число_пострадавших', 'число_транспортных_средств', 'число_участников']

In [45]:
# проверим
data.head()

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
0,46,Московская область,,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,12
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,2
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,20181231,23:40:00,Превышение установленной скорости движения,1,0,1,2
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,20181231,23:20:00,Нахождение на проезжей части без цели её перех...,0,1,1,2
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,20181231,23:00:00,Нарушение правил проезда пешеходного перехода,1,0,1,2


### Обработка пропущенных значений

In [46]:
# проверим количество пропусков в каждом столбце
data.isnull().sum()

код_региона                       0
название_региона                 19
код_дороги                    18325
название_дороги                 192
тип_дороги                      192
адрес                             0
тип_ДТП                           0
дата_ДТП                          0
время_ДТП                         0
причина_ДТП                     635
число_погибших                    0
число_пострадавших                0
число_транспортных_средств        0
число_участников                  0
dtype: int64

In [47]:
# начнем со столбца с названием региона
data[data['название_региона'].isna()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
36583,78,,,ПРЕЧИСТОЕ-КОЗА-СЕМЕНОВСКОЕ,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Первомайский район",Опрокидывание,20180427,22:10:00,"Превышение установленной скорости движения, На...",1,1,1,2
36685,78,,М-8,Подъезд к городу Кострома от а/д М-8,Федеральная дорога общего пользования,"ЦФО, Ярославская область, Ярославский район",Столкновение,20180427,3:50:00,Неправильный выбор дистанции,1,0,6,4
36725,78,,,ЯРОСЛАВЛЬ-КРАСНЫЕ ТКАЧИ-ШОПША,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Ярославский район",Столкновение,20180426,16:05:00,Неправильный выбор дистанции,1,0,2,3
36746,78,,,КРАСНЫЙ ПРОФИНТЕРН-ВЯТСКОЕ,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Некрасовский район",Наезд на пешехода,20180426,12:20:00,Переход через проезжую часть вне пешеходного п...,3,0,1,3
36808,78,,,ЛЮБИМ-ТРОИЦА,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Любимский район",Наезд на стоящее ТС,20180425,20:50:00,Нарушение правил расположения ТС на проезжей ч...,1,0,2,12
36908,78,,,ЯРОСЛАВЛЬ-РЫБИНСК,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Ярославский район, Н...",Столкновение,20180424,20:11:00,Выезд на полосу встречного движения,5,0,2,5
37146,78,,М-8,"""Холмогоры"" Москва - Ярославль - Вологда – Арх...",Федеральная дорога общего пользования,"ЦФО, Ярославская область, Первомайский район",Столкновение,20180422,1:50:00,Выезд на полосу встречного движения,1,1,3,2
37164,78,,М-8,"""Холмогоры"" Москва - Ярославль - Вологда – Арх...",Федеральная дорога общего пользования,"ЦФО, Ярославская область, Даниловский район",Наезд на пешехода,20180421,23:10:00,Нахождение на проезжей части без цели её перехода,1,0,1,3
37273,78,,,УГЛИЧ-НЕКОУЗ-БРЕЙТОВО,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Угличский район",Съезд с дороги,20180421,2:20:00,Нарушение правил расположения ТС на проезжей ч...,2,0,1,2
37350,78,,,"ОБХОД ЯРОСЛАВЛЯ С МОСТОМ ЧЕРЕЗ р,ВОЛГА",Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Ярославль, Дзержинский",Столкновение,20180420,9:40:00,Неправильный выбор дистанции,1,0,2,2


In [48]:
# Все пропуски в названии региона под кодом 78. Спасибо гуглу, который подсказал, что 78 - это Ярославская область, которой мы и заполним все пропуски
data['название_региона'] = data['название_региона'].fillna('Ярославская область')

In [49]:
# проверка
data[data['название_региона'].isna()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников


In [50]:
# проверим столбец "код_дороги" на пропуски, возможно найдется закономероность
data[data['код_дороги'].isna()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
0,46,Московская область,,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,12
6,1,Алтайский край,,Вторая Каменка - Гилево,Региональная или межмуниципальная дорога общег...,"СФО, Алтайский край, Локтевский район, Гилевск...",Наезд на пешехода,20181231,21:40:00,Несоответствие скорости конкретным условиям дв...,1,0,1,2
8,56,Пензенская область,,"""Автодорога """"р.п. Беково - с. Варварино - р.п...",Региональная или межмуниципальная дорога общег...,"ПФО, Пензенская область, Бековский район, Верт...",Наезд на пешехода,20181231,21:20:00,Переход через проезжую часть в неустановленном...,1,0,1,2
12,7,Ставропольский край,,Ачикулак - Махмуд-Мектеб Тукуй Мектеб 0000 - 4...,Региональная или межмуниципальная дорога общег...,"СКФО, Ставропольский край, Нефтекумский район,...",Опрокидывание,20181231,21:00:00,Другие нарушения ПДД водителями,4,0,1,4
13,3,Краснодарский край,,г.Армавир-с.Успенское-г.Невинномысск,Региональная или межмуниципальная дорога общег...,"ЮФО, Краснодарский край, Успенский район, Коно...",Столкновение,20181231,20:59:00,Несоблюдение очередности проезда,1,0,2,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39085,63,Саратовская область,,"""автомобильная дорога """"Самара - Пугачев - Энг...",Региональная или межмуниципальная дорога общег...,"ПФО, Саратовская область, Энгельсский район",Столкновение,20180401,0:05:00,Выезд на полосу встречного движения,2,0,3,2
39087,46,Московская область,,МКАД-Крутицы-Железнодорожный-Ликино-Дулево,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Железнодорожный",Наезд на пешехода,20180401,4:15:00,Нахождение на проезжей части без цели её перехода,0,1,1,2
39095,46,Московская область,,Куровское-Шатура-Дмитровский Погост-Самойлиха,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Орехово-Зуевский район",Столкновение,20180401,2:40:00,Несоблюдение очередности проезда,1,0,2,4
39098,79,Республика Адыгея,,Подъезд к а.Вочепший,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Адыгея, Теучежский район",Наезд на животное,20180401,1:30:00,Другие нарушения ПДД водителями,0,1,1,12


In [51]:
# к сожалению закономерность не найдено, поэтому просто заменим на слово неизвестно
data['код_дороги'] = data['код_дороги'].fillna('Неизвестно')

In [52]:
# проверка
data[data['код_дороги'].isna()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников


In [53]:
# проверим столбец "название_дороги" на пропуски, возможно найдется закономероность
data[data['название_дороги'].isna()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
229,52,Омская область,Неизвестно,,,"СФО, Омская область, Знаменский район",Столкновение,20181230,15:00:00,Нарушение правил расположения ТС на проезжей ч...,0,1,3,3
347,87,Республика Коми,Неизвестно,,,"СЗФО, Республика Коми, Усть-Вымский район",Опрокидывание,20181229,23:30:00,Несоответствие скорости конкретным условиям дв...,1,0,1,2
521,11,Архангельская область,Неизвестно,,,"СЗФО, Архангельская область, Каргопольский район",Наезд на пешехода,20181229,5:10:00,Неожиданный выход из-за сооружений (деревьев),1,0,1,2
549,22,Нижегородская область,Неизвестно,,,"ПФО, Нижегородская область, Краснобаковский ра...",Столкновение,20181228,22:15:00,"Превышение установленной скорости движения, Вы...",3,0,2,4
672,11,Архангельская область,Неизвестно,,,"СЗФО, Архангельская область, Холмогорский район",Наезд на препятствие,20181228,12:00:00,Другие нарушения ПДД водителями,1,0,1,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38158,66,Смоленская область,Неизвестно,,,"ЦФО, Смоленская область, Велижский район",Наезд на пешехода,20180412,4:20:00,Другие нарушения ПДД водителями,1,0,1,2
38306,22,Нижегородская область,Неизвестно,,,"ПФО, Нижегородская область, Воротынский район",Опрокидывание,20180410,11:30:00,Нарушение правил расположения ТС на проезжей ч...,1,0,1,12
38351,52,Омская область,Неизвестно,,,"СФО, Омская область, Омский район",Столкновение,20180409,18:10:00,Несоблюдение очередности проезда,2,0,2,3
38838,22,Нижегородская область,Неизвестно,,,"ПФО, Нижегородская область, Володарский район",Наезд на стоящее ТС,20180404,8:30:00,Несоответствие скорости конкретным условиям дв...,1,0,2,2


In [54]:
# закономерность не найдена, поэтому просто заменим на слово неизвестно
data['код_дороги'] = data['код_дороги'].fillna('Неизвестно')

In [55]:
# проверим столбец "тип_дороги" на пропуски, возможно найдется закономероность
data[data['тип_дороги'].isna()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
229,52,Омская область,Неизвестно,,,"СФО, Омская область, Знаменский район",Столкновение,20181230,15:00:00,Нарушение правил расположения ТС на проезжей ч...,0,1,3,3
347,87,Республика Коми,Неизвестно,,,"СЗФО, Республика Коми, Усть-Вымский район",Опрокидывание,20181229,23:30:00,Несоответствие скорости конкретным условиям дв...,1,0,1,2
521,11,Архангельская область,Неизвестно,,,"СЗФО, Архангельская область, Каргопольский район",Наезд на пешехода,20181229,5:10:00,Неожиданный выход из-за сооружений (деревьев),1,0,1,2
549,22,Нижегородская область,Неизвестно,,,"ПФО, Нижегородская область, Краснобаковский ра...",Столкновение,20181228,22:15:00,"Превышение установленной скорости движения, Вы...",3,0,2,4
672,11,Архангельская область,Неизвестно,,,"СЗФО, Архангельская область, Холмогорский район",Наезд на препятствие,20181228,12:00:00,Другие нарушения ПДД водителями,1,0,1,12
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38158,66,Смоленская область,Неизвестно,,,"ЦФО, Смоленская область, Велижский район",Наезд на пешехода,20180412,4:20:00,Другие нарушения ПДД водителями,1,0,1,2
38306,22,Нижегородская область,Неизвестно,,,"ПФО, Нижегородская область, Воротынский район",Опрокидывание,20180410,11:30:00,Нарушение правил расположения ТС на проезжей ч...,1,0,1,12
38351,52,Омская область,Неизвестно,,,"СФО, Омская область, Омский район",Столкновение,20180409,18:10:00,Несоблюдение очередности проезда,2,0,2,3
38838,22,Нижегородская область,Неизвестно,,,"ПФО, Нижегородская область, Володарский район",Наезд на стоящее ТС,20180404,8:30:00,Несоответствие скорости конкретным условиям дв...,1,0,2,2


In [56]:
# закономерность не найдена, поэтому просто заменим на слово неизвестно
data['тип_дороги'] = data['тип_дороги'].fillna('Неизвестно')

In [57]:
# проверим столбец "тип_дороги" на пропуски, возможно найдется закономероность
data[data['причина_ДТП'].isna()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
56,718,Ханты-Мансийский автономный округ — Югра,Неизвестно,а/д г.Сургут - г.Нижневартовск,Региональная или межмуниципальная дорога общег...,"УФО, Ханты-Мансийский автономный округ, Нижнев...",Опрокидывание,20181231,15:00:00,,1,0,1,12
308,84,Республика Алтай,Р-256,"""Чуйский тракт"" Новосибирск - Барнаул - Горно-...",Федеральная дорога общего пользования,"СФО, Республика Алтай, Шебалинский район",Опрокидывание,20181230,9:00:00,,1,0,2,2
375,80,Республика Башкортостан,Неизвестно,"Арсланово-Кушнаренково(Дмитриевка,Бишкази,Ст.Т...",Региональная или межмуниципальная дорога общег...,"ПФО, Республика Башкортостан, Кушнаренковский ...",Наезд на пешехода,20181229,19:30:00,,0,1,1,2
392,29,Калужская область,Неизвестно,Калуга-Медынь,Региональная или межмуниципальная дорога общег...,"ЦФО, Калужская область, Дзержинский район",Столкновение,20181229,18:30:00,,1,0,2,2
533,52,Омская область,Р-402,Тюмень - Ялуторовск - Ишим - Омск,Федеральная дорога общего пользования,"СФО, Омская область, Саргатский район",Опрокидывание,20181229,0:30:00,,1,0,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
38765,45,Москва,А-109,Ильинское шоссе,Федеральная дорога общего пользования,"ЦФО, Москва, Участки обслуживания на территори...",Падение пассажира,20180405,11:10:00,,1,0,1,2
38775,99,Еврейская автономная область,Р-297,"""Амур"" Чита - Невер - Свободный - Архара - Бир...",Федеральная дорога общего пользования,"ДФО, Еврейская автономная область, Смидовичски...",Опрокидывание,20180405,7:20:00,,2,0,1,2
38946,11,Архангельская область,11К-612,Карпогоры - Сосновка - Нюхча - граница с Респу...,Региональная или межмуниципальная дорога общег...,"СЗФО, Архангельская область, Пинежский район",Столкновение,20180402,16:30:00,,1,0,2,3
38950,35,Республика Крым,35К-013,Черноморское - Евпатория,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Черноморский район",Опрокидывание,20180402,15:05:00,,1,0,1,2


In [58]:
# закономерность не найдена, поэтому просто заменим на слово неизвестно
data['причина_ДТП'] = data['причина_ДТП'].fillna('Неизвестно')

<div class="alert alert-block alert-success">
Согласен, пропуски заполнены верно!

### Поиск проблем в данных

In [59]:
# спустя долгих поисков проблемы, я наткнулась на такое интересное наблюдение: все числа числятся как строки, да  еще и строка больше 25
data['число_участников'].unique()

array(['12', '2', '5', '3', '4', '6', '8', '10', '7', '14', '9', '24',
       '16', '11', '13', '15', 'больше 25', '22', '20', '18', '19', '17',
       '23'], dtype=object)

In [60]:
# исправим больше 25 на 25 и переведем в числовой формат
data['число_участников'] = data['число_участников'].replace('больше 25', '25')
data['число_участников'] = data['число_участников'].astype(int)

In [61]:
data['число_участников'].unique()

array([12,  2,  5,  3,  4,  6,  8, 10,  7, 14,  9, 24, 16, 11, 13, 15, 25,
       22, 20, 18, 19, 17, 23])

In [62]:
# еще одна проблема: неявные дубликаты из-за слов обл. и области, еще и регионов из-за этого 119
print(data['название_региона'].unique())
data['название_региона'].nunique()

['Московская область' 'Оренбургская область' 'Хабаровский край'
 'Республика Крым' 'Республика Ингушетия' 'Алтайский край'
 'Республика Башкортостан' 'Пензенская область' 'Республика Адыгея'
 'Ставропольский край' 'Краснодарский край' 'Республика Тыва'
 'Пермский край' 'Чувашская Республика — Чувашия' 'Камчатский край'
 'Иркутская область' 'Новосибирская область' 'Калужская область'
 'Кировская область' 'Еврейская автономная область'
 'Архангельская область' 'Тульская область' 'Владимирская область'
 'Нижегородская область' 'Астраханская область' 'Ивановская область'
 'Ярославская область' 'Удмуртская Республика' 'Вологодская область'
 'Красноярский край' 'Ростовская область' 'Республика Калмыкия'
 'Ханты-Мансийский автономный округ — Югра' 'Воронежская область'
 'Тюменская область' 'Мурманская область' 'Ленинградская область'
 'Карачаево-Черкесская Республика' 'Тверская область'
 'Республика Марий Эл' 'Республика Мордовия' 'Приморский край'
 'Республика Бурятия' 'Республика Коми' 'Смо

119

In [63]:
# исправим это недоразумение
data['название_региона'] = data['название_региона'].str.replace('обл\.', 'область')

  data['название_региона'] = data['название_региона'].str.replace('обл\.', 'область')


In [64]:
# а еще Лен область лучше переименовать в Ленинградскую область
data['название_региона'] = data['название_региона'].replace(to_replace=['Лен.обл.'], value=['Ленинградская область'], regex=True)

In [66]:
# проверочка
print(data['название_региона'].unique())
data['название_региона'].nunique()

['Московская область' 'Оренбургская область' 'Хабаровский край'
 'Республика Крым' 'Республика Ингушетия' 'Алтайский край'
 'Республика Башкортостан' 'Пензенская область' 'Республика Адыгея'
 'Ставропольский край' 'Краснодарский край' 'Республика Тыва'
 'Пермский край' 'Чувашская Республика — Чувашия' 'Камчатский край'
 'Иркутская область' 'Новосибирская область' 'Калужская область'
 'Кировская область' 'Еврейская автономная область'
 'Архангельская область' 'Тульская область' 'Владимирская область'
 'Нижегородская область' 'Астраханская область' 'Ивановская область'
 'Ярославская область' 'Удмуртская Республика' 'Вологодская область'
 'Красноярский край' 'Ростовская область' 'Республика Калмыкия'
 'Ханты-Мансийский автономный округ — Югра' 'Воронежская область'
 'Тюменская область' 'Мурманская область' 'Ленинградская область'
 'Карачаево-Черкесская Республика' 'Тверская область'
 'Республика Марий Эл' 'Республика Мордовия' 'Приморский край'
 'Республика Бурятия' 'Республика Коми' 'Смо

84

<div class="alert alert-block alert-success">
Отлично! Все проблемы найдены

### Преобразование типов данных

In [67]:
# число участников лучше оставить в численном виде
data['число_участников'] = data['число_участников'].astype(int)

In [68]:
# дату перевели в соотвествующий формат
data['дата_ДТП'] = pd.to_datetime(data['дата_ДТП'], format='%Y%m%d')

In [69]:
# теперь все в порядке
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39102 entries, 0 to 39101
Data columns (total 14 columns):
 #   Column                      Non-Null Count  Dtype         
---  ------                      --------------  -----         
 0   код_региона                 39102 non-null  int64         
 1   название_региона            39102 non-null  object        
 2   код_дороги                  39102 non-null  object        
 3   название_дороги             38910 non-null  object        
 4   тип_дороги                  39102 non-null  object        
 5   адрес                       39102 non-null  object        
 6   тип_ДТП                     39102 non-null  object        
 7   дата_ДТП                    39102 non-null  datetime64[ns]
 8   время_ДТП                   39102 non-null  object        
 9   причина_ДТП                 39102 non-null  object        
 10  число_погибших              39102 non-null  int64         
 11  число_пострадавших          39102 non-null  int64     

<div class="alert alert-block alert-success">
Верно!

### Поиск дубликатов

In [70]:
# итак, найдем явные дубликаты
data.duplicated().sum()

17

In [71]:
data[data.duplicated()]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
37227,22,Нижегородская область,22К-0016,Семенов - Ковернино,Региональная или межмуниципальная дорога общег...,"ПФО, Нижегородская область, Городской округ Се...",Столкновение,2018-04-21,14:40:00,Неправильный выбор дистанции,1,0,3,4
39086,61,Рязанская область,М-5,"""Урал"" Москва - Рязань - Пенза - Самара - Уфа ...",Федеральная дорога общего пользования,"ЦФО, Рязанская область, Шацкий район",Наезд на препятствие,2018-04-01,5:20:00,Нарушение правил расположения ТС на проезжей ч...,8,0,1,8
39087,46,Московская область,Неизвестно,МКАД-Крутицы-Железнодорожный-Ликино-Дулево,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Железнодорожный",Наезд на пешехода,2018-04-01,4:15:00,Нахождение на проезжей части без цели её перехода,0,1,1,2
39088,61,Рязанская область,Р-22,"«Каспий» автомобильная дорога М-4 ""Дон"" - Тамб...",Федеральная дорога общего пользования,"ЦФО, Рязанская область, Михайловский район",Столкновение,2018-04-01,4:00:00,"Выезд на полосу встречного движения в местах, ...",1,1,4,4
39089,27,Калининградская область,27А-007,Северный обход г. Калининграда,Региональная или межмуниципальная дорога общег...,"СЗФО, Калининградская область, Гурьевский район",Наезд на пешехода,2018-04-01,3:50:00,Ходьба вдоль проезжей части попутного направле...,1,0,1,2
39090,32,Кемеровская область,Р-255,Подъезд к городу Томск от а/д Р-255,Федеральная дорога общего пользования,"СФО, Кемеровская область, Юргинский район",Столкновение,2018-04-01,3:50:00,Выезд на полосу встречного движения,1,0,2,2
39091,61,Рязанская область,Р-132,Калуга - Тула - Михайлов - Рязань,Федеральная дорога общего пользования,"ЦФО, Рязанская область, Рязань, Железнодорожный",Наезд на препятствие,2018-04-01,3:30:00,Нарушение правил расположения ТС на проезжей ч...,1,0,3,3
39092,86,Республика Карелия,А-121,"""Сортавала"" Санкт-Петербург - Сортавала - авто...",Федеральная дорога общего пользования,"СЗФО, Республика Карелия, Лахденпохский район,...",Наезд на пешехода,2018-04-01,3:20:00,Иные нарушения ПДД пешеходом,0,1,1,2
39093,56,Пензенская область,М-5,"""Урал"" Москва - Рязань - Пенза - Самара - Уфа ...",Федеральная дорога общего пользования,"ПФО, Пензенская область, Кузнецкий район, Евла...",Столкновение,2018-04-01,3:10:00,Выезд на полосу встречного движения,1,0,3,2
39094,18,Волгоградская область,Р-22,"«Каспий» автомобильная дорога М-4 ""Дон"" - Тамб...",Федеральная дорога общего пользования,"ЮФО, Волгоградская область, Иловлинский район",Наезд на пешехода,2018-04-01,3:00:00,Переход через проезжую часть вне пешеходного п...,0,1,1,2


In [72]:
# на всякий случай еще один способ
data[data.duplicated() == True]

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников
37227,22,Нижегородская область,22К-0016,Семенов - Ковернино,Региональная или межмуниципальная дорога общег...,"ПФО, Нижегородская область, Городской округ Се...",Столкновение,2018-04-21,14:40:00,Неправильный выбор дистанции,1,0,3,4
39086,61,Рязанская область,М-5,"""Урал"" Москва - Рязань - Пенза - Самара - Уфа ...",Федеральная дорога общего пользования,"ЦФО, Рязанская область, Шацкий район",Наезд на препятствие,2018-04-01,5:20:00,Нарушение правил расположения ТС на проезжей ч...,8,0,1,8
39087,46,Московская область,Неизвестно,МКАД-Крутицы-Железнодорожный-Ликино-Дулево,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Железнодорожный",Наезд на пешехода,2018-04-01,4:15:00,Нахождение на проезжей части без цели её перехода,0,1,1,2
39088,61,Рязанская область,Р-22,"«Каспий» автомобильная дорога М-4 ""Дон"" - Тамб...",Федеральная дорога общего пользования,"ЦФО, Рязанская область, Михайловский район",Столкновение,2018-04-01,4:00:00,"Выезд на полосу встречного движения в местах, ...",1,1,4,4
39089,27,Калининградская область,27А-007,Северный обход г. Калининграда,Региональная или межмуниципальная дорога общег...,"СЗФО, Калининградская область, Гурьевский район",Наезд на пешехода,2018-04-01,3:50:00,Ходьба вдоль проезжей части попутного направле...,1,0,1,2
39090,32,Кемеровская область,Р-255,Подъезд к городу Томск от а/д Р-255,Федеральная дорога общего пользования,"СФО, Кемеровская область, Юргинский район",Столкновение,2018-04-01,3:50:00,Выезд на полосу встречного движения,1,0,2,2
39091,61,Рязанская область,Р-132,Калуга - Тула - Михайлов - Рязань,Федеральная дорога общего пользования,"ЦФО, Рязанская область, Рязань, Железнодорожный",Наезд на препятствие,2018-04-01,3:30:00,Нарушение правил расположения ТС на проезжей ч...,1,0,3,3
39092,86,Республика Карелия,А-121,"""Сортавала"" Санкт-Петербург - Сортавала - авто...",Федеральная дорога общего пользования,"СЗФО, Республика Карелия, Лахденпохский район,...",Наезд на пешехода,2018-04-01,3:20:00,Иные нарушения ПДД пешеходом,0,1,1,2
39093,56,Пензенская область,М-5,"""Урал"" Москва - Рязань - Пенза - Самара - Уфа ...",Федеральная дорога общего пользования,"ПФО, Пензенская область, Кузнецкий район, Евла...",Столкновение,2018-04-01,3:10:00,Выезд на полосу встречного движения,1,0,3,2
39094,18,Волгоградская область,Р-22,"«Каспий» автомобильная дорога М-4 ""Дон"" - Тамб...",Федеральная дорога общего пользования,"ЮФО, Волгоградская область, Иловлинский район",Наезд на пешехода,2018-04-01,3:00:00,Переход через проезжую часть вне пешеходного п...,0,1,1,2


In [84]:
# просто удалим эти 17 дубликатов, при этом поменяем индекс после наших преобразований
data.drop_duplicates(inplace=True)
data = data.drop_duplicates().reset_index(drop=True)

<div class="alert alert-block alert-success">
Дубликаты уничтожены

### Добавление столбцов.

In [77]:
# объеденим наши два столбца даты и времении в один
data['дата_и_время'] = data['дата_ДТП'].astype(str) + 'T' + data['время_ДТП']
data['дата_и_время'] = pd.to_datetime(data['дата_и_время'], format='%Y-%m-%d %H:%M:%S')

In [78]:
# сначала создала столбец с днями неделями на английском
data['день_недели'] = data['дата_ДТП'].dt.day_name()

In [79]:
dict = {'Monday' : 'Понедельник',
        'Tuesday' : 'Вторник',
        'Wednesday' : 'СРеда',
        'Thursday' : 'Четверг',
        'Friday' : 'Пятница',
        'Saturday' : 'Суббота',
        'Sunday' : 'Воскресение'}

In [80]:
# с помощью словаря перевела все на русский язык + проверочка
data['день_недели_на_русском'] = data['день_недели'].map(dict)
data.head()

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,дата_ДТП,время_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников,день_недели,дата_и_время,день_недели_на_русском
0,46,Московская область,Неизвестно,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,2018-12-31,23:55:00,Другие нарушения ПДД водителями,1,0,1,12,Monday,2018-12-31 23:55:00,Понедельник
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,2018-12-31,23:55:00,Другие нарушения ПДД водителями,1,0,1,2,Monday,2018-12-31 23:55:00,Понедельник
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,2018-12-31,23:40:00,Превышение установленной скорости движения,1,0,1,2,Monday,2018-12-31 23:40:00,Понедельник
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,2018-12-31,23:20:00,Нахождение на проезжей части без цели её перех...,0,1,1,2,Monday,2018-12-31 23:20:00,Понедельник
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,2018-12-31,23:00:00,Нарушение правил проезда пешеходного перехода,1,0,1,2,Monday,2018-12-31 23:00:00,Понедельник


<div class="alert alert-block alert-success">
Мой любимый способ, хотя можно импортировать локаль )

In [83]:
# все шикарно, теперь удалим ненужные столбцы!
data.drop(data.columns[[7,8, 14]], axis=1)

Unnamed: 0,код_региона,название_региона,код_дороги,название_дороги,тип_дороги,адрес,тип_ДТП,причина_ДТП,число_погибших,число_пострадавших,число_транспортных_средств,число_участников,дата_и_время,день_недели_на_русском
0,46,Московская область,Неизвестно,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,Другие нарушения ПДД водителями,1,0,1,12,2018-12-31 23:55:00,Понедельник
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,Другие нарушения ПДД водителями,1,0,1,2,2018-12-31 23:55:00,Понедельник
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,Превышение установленной скорости движения,1,0,1,2,2018-12-31 23:40:00,Понедельник
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,Нахождение на проезжей части без цели её перех...,0,1,1,2,2018-12-31 23:20:00,Понедельник
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,Нарушение правил проезда пешеходного перехода,1,0,1,2,2018-12-31 23:00:00,Понедельник
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39097,80,Республика Башкортостан,80Н-069,Аскарово - Альмухаметово - Сибай,Региональная или межмуниципальная дорога общег...,"ПФО, Республика Башкортостан, Абзелиловский ра...",Наезд на животное,Нарушение правил расположения ТС на проезжей ч...,2,0,1,4,2018-04-01 01:55:00,Воскресение
39098,79,Республика Адыгея,Неизвестно,Подъезд к а.Вочепший,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Адыгея, Теучежский район",Наезд на животное,Другие нарушения ПДД водителями,0,1,1,12,2018-04-01 01:30:00,Воскресение
39099,3,Краснодарский край,Р-217,Подъезд к городу Майкоп от а/д Р-217,Федеральная дорога общего пользования,"ЮФО, Краснодарский край, Новокубанский район",Столкновение,"Выезд на полосу встречного движения в местах, ...",2,0,2,3,2018-04-01 01:00:00,Воскресение
39100,76,Забайкальский край,А-350,Чита - Забайкальск - граница с Китайской Народ...,Федеральная дорога общего пользования,"СФО, Забайкальский край, Читинский район, Ново...",Опрокидывание,Нарушение правил расположения ТС на проезжей ч...,3,1,1,4,2018-04-01 00:30:00,Воскресение


### Экспорт результатов

In [88]:
data.to_excel('prikol.xlsx', index=False)

### Выводы:

1. Были проблемы с Ярославской областью. Возможно там какие-то неполадки, либо она на какое-то время пропала и не высвечилась в базе данных, но мы все исправили!
2. Дубликатов было 17, все были успешно ликвидированы.
3. Разобрались с облс. и областями и теперь их 84. Тем кто составлял эти данные нужно договориться и ввести единый стандарт по заполнению.
4. Для более удобного использование объеденили дату и время, еще и столбец добавили с днем недели. Теперь можно легко построить график и установить зависимость, например, между днем неделей и любым другим признаком из таблицы.