# Предобработка данных

Отработка алгоритма решения задачи предобработки данных. 

Датасет <code>dtp_last.csv</code> содержит информацию о ДТП в Российской Федерации в 2018 году.

<li>'reg_code' - код региона (октмо)
<li>'регион' - название региона
<li>'road_code' - код дороги
<li>'Дорога' -  название дороги
<li>'road_type' - тип дороги
<li>'address' -  адрес
<li>'crash_type_name' -тип ДТП
<li>'crash_date' - дата ДТП
<li>'crash_time' - время ДТП
<li>'crash reason' - причина ДТП
<li>'fatalities_amount' - число погибших
<li>'victims_amount' - число пострадавших
<li>'vehicles_amount' - число транспортных средств
<li>'participants_amount' - число участников



Задача: Подготовить данные для дальнейшего исследования.
1. Изучите общую информацию.
2. Осуществите предобработку заголовков.
3. Заполните пропуски.
4. Найдите проблемы в данных.
5. Преобразуйте типы данных. Добавьте столбец datetime из имеющихся столбцов, используя разделитель T. Преобразуйте к типу данных "дата/время".
6. Удалите дубликаты.
7. Добавьте столбец с днями недели на русском языке.
8. Экспортируйте результат в excel.
9. Сформулируйте общий вывод по работе.

Работу сопроводите выводами и комментариями к коду.

### Загрузка данных. Общая информация

In [1]:
import pandas as pd 
df = pd.read_csv('dtp_last.csv', sep=';')

In [2]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39102 entries, 0 to 39101
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   reg_code             39102 non-null  int64 
 1   регион               39083 non-null  object
 2   road_code            20777 non-null  object
 3   Дорога               38910 non-null  object
 4   road_type            38910 non-null  object
 5   address              39102 non-null  object
 6   crash_type_name      39102 non-null  object
 7   crash_date           39102 non-null  int64 
 8   crash_time           39102 non-null  object
 9   crash reason         38467 non-null  object
 10  fatalities_amount    39102 non-null  int64 
 11  victims_amount       39102 non-null  int64 
 12  vehicles_amount      39102 non-null  int64 
 13  participants_amount  39102 non-null  object
dtypes: int64(5), object(9)
memory usage: 4.2+ MB


### Предобработка заголовков

In [3]:
df.columns=['reg_code','region','road_code','road','road_type', 'address','crash_type_name','crash_date','crash_time','crash_reason','fatalities_amount','victims_amount','vehicles_amount','participants_amount']
df

Unnamed: 0,reg_code,region,road_code,road,road_type,address,crash_type_name,crash_date,crash_time,crash_reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount
0,46,Московская область,,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,12
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,2
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,20181231,23:40:00,Превышение установленной скорости движения,1,0,1,2
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,20181231,23:20:00,Нахождение на проезжей части без цели её перех...,0,1,1,2
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,20181231,23:00:00,Нарушение правил проезда пешеходного перехода,1,0,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39097,80,Республика Башкортостан,80Н-069,Аскарово - Альмухаметово - Сибай,Региональная или межмуниципальная дорога общег...,"ПФО, Республика Башкортостан, Абзелиловский ра...",Наезд на животное,20180401,1:55:00,Нарушение правил расположения ТС на проезжей ч...,2,0,1,4
39098,79,Республика Адыгея,,Подъезд к а.Вочепший,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Адыгея, Теучежский район",Наезд на животное,20180401,1:30:00,Другие нарушения ПДД водителями,0,1,1,12
39099,3,Краснодарский край,Р-217,Подъезд к городу Майкоп от а/д Р-217,Федеральная дорога общего пользования,"ЮФО, Краснодарский край, Новокубанский район",Столкновение,20180401,1:00:00,"Выезд на полосу встречного движения в местах, ...",2,0,2,3
39100,76,Забайкальский край,А-350,Чита - Забайкальск - граница с Китайской Народ...,Федеральная дорога общего пользования,"СФО, Забайкальский край, Читинский район, Ново...",Опрокидывание,20180401,0:30:00,Нарушение правил расположения ТС на проезжей ч...,3,1,1,4


### Обработка пропущенных значений

In [4]:
df.isna().sum()

reg_code                   0
region                    19
road_code              18325
road                     192
road_type                192
address                    0
crash_type_name            0
crash_date                 0
crash_time                 0
crash_reason             635
fatalities_amount          0
victims_amount             0
vehicles_amount            0
participants_amount        0
dtype: int64

In [5]:
# так как перечисленные данные имеют формат object и пропущенные значения имеют незначительный характер, заменим
# пропущенные значения на 'информация отсутствует'
df['road_code']=df['road_code'].fillna('информациия отсутствует')
df['road']=df['road'].fillna('информациия отсутствует')
df['road_type']=df['road_type'].fillna('информациия отсутствует')
df['crash_reason']=df['crash_reason'].fillna('информациия отсутствует')

In [6]:
df

Unnamed: 0,reg_code,region,road_code,road,road_type,address,crash_type_name,crash_date,crash_time,crash_reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount
0,46,Московская область,информациия отсутствует,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,12
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,20181231,23:55:00,Другие нарушения ПДД водителями,1,0,1,2
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,20181231,23:40:00,Превышение установленной скорости движения,1,0,1,2
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,20181231,23:20:00,Нахождение на проезжей части без цели её перех...,0,1,1,2
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,20181231,23:00:00,Нарушение правил проезда пешеходного перехода,1,0,1,2
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39097,80,Республика Башкортостан,80Н-069,Аскарово - Альмухаметово - Сибай,Региональная или межмуниципальная дорога общег...,"ПФО, Республика Башкортостан, Абзелиловский ра...",Наезд на животное,20180401,1:55:00,Нарушение правил расположения ТС на проезжей ч...,2,0,1,4
39098,79,Республика Адыгея,информациия отсутствует,Подъезд к а.Вочепший,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Адыгея, Теучежский район",Наезд на животное,20180401,1:30:00,Другие нарушения ПДД водителями,0,1,1,12
39099,3,Краснодарский край,Р-217,Подъезд к городу Майкоп от а/д Р-217,Федеральная дорога общего пользования,"ЮФО, Краснодарский край, Новокубанский район",Столкновение,20180401,1:00:00,"Выезд на полосу встречного движения в местах, ...",2,0,2,3
39100,76,Забайкальский край,А-350,Чита - Забайкальск - граница с Китайской Народ...,Федеральная дорога общего пользования,"СФО, Забайкальский край, Читинский район, Ново...",Опрокидывание,20180401,0:30:00,Нарушение правил расположения ТС на проезжей ч...,3,1,1,4


In [7]:
df.isna().sum()

reg_code                0
region                 19
road_code               0
road                    0
road_type               0
address                 0
crash_type_name         0
crash_date              0
crash_time              0
crash_reason            0
fatalities_amount       0
victims_amount          0
vehicles_amount         0
participants_amount     0
dtype: int64

In [8]:
# так как регион имеет формат int и при этом влияет на категоризацию данных (в том числе и на обработку дубликатов)
# определим пропущенные значения и, ввиду малого объёма данных, вручную заполним необходимую информацию
df[df['region'].isna()]

Unnamed: 0,reg_code,region,road_code,road,road_type,address,crash_type_name,crash_date,crash_time,crash_reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount
36583,78,,информациия отсутствует,ПРЕЧИСТОЕ-КОЗА-СЕМЕНОВСКОЕ,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Первомайский район",Опрокидывание,20180427,22:10:00,"Превышение установленной скорости движения, На...",1,1,1,2
36685,78,,М-8,Подъезд к городу Кострома от а/д М-8,Федеральная дорога общего пользования,"ЦФО, Ярославская область, Ярославский район",Столкновение,20180427,3:50:00,Неправильный выбор дистанции,1,0,6,4
36725,78,,информациия отсутствует,ЯРОСЛАВЛЬ-КРАСНЫЕ ТКАЧИ-ШОПША,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Ярославский район",Столкновение,20180426,16:05:00,Неправильный выбор дистанции,1,0,2,3
36746,78,,информациия отсутствует,КРАСНЫЙ ПРОФИНТЕРН-ВЯТСКОЕ,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Некрасовский район",Наезд на пешехода,20180426,12:20:00,Переход через проезжую часть вне пешеходного п...,3,0,1,3
36808,78,,информациия отсутствует,ЛЮБИМ-ТРОИЦА,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Любимский район",Наезд на стоящее ТС,20180425,20:50:00,Нарушение правил расположения ТС на проезжей ч...,1,0,2,12
36908,78,,информациия отсутствует,ЯРОСЛАВЛЬ-РЫБИНСК,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Ярославский район, Н...",Столкновение,20180424,20:11:00,Выезд на полосу встречного движения,5,0,2,5
37146,78,,М-8,"""Холмогоры"" Москва - Ярославль - Вологда – Арх...",Федеральная дорога общего пользования,"ЦФО, Ярославская область, Первомайский район",Столкновение,20180422,1:50:00,Выезд на полосу встречного движения,1,1,3,2
37164,78,,М-8,"""Холмогоры"" Москва - Ярославль - Вологда – Арх...",Федеральная дорога общего пользования,"ЦФО, Ярославская область, Даниловский район",Наезд на пешехода,20180421,23:10:00,Нахождение на проезжей части без цели её перехода,1,0,1,3
37273,78,,информациия отсутствует,УГЛИЧ-НЕКОУЗ-БРЕЙТОВО,Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Угличский район",Съезд с дороги,20180421,2:20:00,Нарушение правил расположения ТС на проезжей ч...,2,0,1,2
37350,78,,информациия отсутствует,"ОБХОД ЯРОСЛАВЛЯ С МОСТОМ ЧЕРЕЗ р,ВОЛГА",Региональная или межмуниципальная дорога общег...,"ЦФО, Ярославская область, Ярославль, Дзержинский",Столкновение,20180420,9:40:00,Неправильный выбор дистанции,1,0,2,2


In [9]:
# видим, что те места где пропущен регион принадлежат субъекту "Санкт-Петербург"
df['region']=df['region'].fillna('Санкт-Петербург')

In [10]:
df.isna().sum()

reg_code               0
region                 0
road_code              0
road                   0
road_type              0
address                0
crash_type_name        0
crash_date             0
crash_time             0
crash_reason           0
fatalities_amount      0
victims_amount         0
vehicles_amount        0
participants_amount    0
dtype: int64

### Поиск проблем в данных

In [11]:
print(df['region'].unique())

['Московская область' 'Оренбургская область' 'Хабаровский край'
 'Республика Крым' 'Республика Ингушетия' 'Алтайский край'
 'Республика Башкортостан' 'Пензенская область' 'Республика Адыгея'
 'Ставропольский край' 'Краснодарский край' 'Республика Тыва'
 'Пермский край' 'Чувашская Республика — Чувашия' 'Камчатский край'
 'Иркутская область' 'Новосибирская область' 'Калужская область'
 'Кировская область' 'Еврейская автономная область'
 'Архангельская область' 'Тульская область' 'Владимирская область'
 'Нижегородская область' 'Астраханская область' 'Ивановская область'
 'Ярославская область' 'Удмуртская Республика' 'Вологодская область'
 'Красноярский край' 'Ростовская область' 'Республика Калмыкия'
 'Ханты-Мансийский автономный округ — Югра' 'Воронежская область'
 'Тюменская область' 'Мурманская область' 'Ленинградская область'
 'Карачаево-Черкесская Республика' 'Тверская область'
 'Республика Марий Эл' 'Республика Мордовия' 'Приморский край'
 'Республика Бурятия' 'Республика Коми' 'Смо

In [12]:
df['region'].nunique()

119

In [13]:
df['region'] = df['region'].replace(to_replace=['Лен.обл.',
 'Воронежская обл.', 'Ивановская обл.',
 'Амурская обл.', 'Тюменская обл.', 'Ульяновская обл.', 'Владимирская обл.',
 'Свердловская обл.' ,'Нижегородская обл.' ,'Московская обл.',
 'Астраханская обл.' ,'Курганская обл.' ,'Калининградская обл.',
 'Саратовская обл.', 'Курская обл.', 'Тульская обл.', 'Ярославская обл.',
 'Самарская обл.' ,'Волгоградская обл.' ,'Кемеровская обл.',
 'Еврейская автономная обл.' ,'Пензенская обл.', 'Смоленская обл.',
 'Тамбовская обл.', 'Рязанская обл.','Тверская обл.', 'Орловская обл.',
 'Ростовская обл.', 'Псковская обл.', 'Ленинградская обл.',
 'Вологодская обл.' ,'Белгородская обл.', 'Иркутская обл.',
 'Челябинская обл.', 'Сахалинская обл.', 'Калужская обл.'],value=['Ленинградская.область',
 'Воронежская область', 'Ивановская область',
 'Амурская область', 'Тюменская область', 'Ульяновская область', 'Владимирская область',
 'Свердловская область' ,'Нижегородская область' ,'Московская область',
 'Астраханская область' ,'Курганская область' ,'Калининградская область',
 'Саратовская область', 'Курская область', 'Тульская область', 'Ярославская область',
 'Самарская область' ,'Волгоградская область' ,'Кемеровская область',
 'Еврейская автономная область' ,'Пензенская область', 'Смоленская область',
 'Тамбовская область', 'Рязанская область','Тверская область', 'Орловская область',
 'Ростовская область', 'Псковская область', 'Ленинградская область',
 'Вологодская область' ,'Белгородская область', 'Иркутская область',
 'Челябинская область', 'Сахалинская область', 'Калужская область'])

<div class="alert alert-block alert-warning">
Это лучше автоматизировать <br>
df['region_name'] = df['region_name'].str.replace('обл\.','область')<br>
df['region_name'] = df['region_name'].str.replace('Лен\.','Ленинградская ')

In [14]:
df['region'].nunique()

84

In [15]:
df['road_type'].unique()

array(['Региональная или межмуниципальная дорога общего пользования',
       'Федеральная дорога общего пользования', 'информациия отсутствует'],
      dtype=object)

In [16]:
df['crash_reason'].unique()

array(['Другие нарушения ПДД водителями',
       'Превышение установленной скорости движения',
       'Нахождение на проезжей части без цели её перехода, Другие нарушения ПДД водителями',
       'Нарушение правил проезда пешеходного перехода',
       'Выезд на полосу встречного движения',
       'Несоответствие скорости конкретным условиям движения',
       'Нарушение правил обгона',
       'Переход через проезжую часть в неустановленном месте (при наличии в зоне видимости перекрёстка), Другие нарушения ПДД водителями',
       'Другие нарушения ПДД водителями, Переход через проезжую часть вне пешеходного перехода в зоне его видимости либо при наличии в непосредственной близости подземного (надземного) пешеходного перехода',
       'Нарушение требований дорожных знаков',
       'Несоблюдение очередности проезда', 'Неправильный выбор дистанции',
       'Несоблюдение бокового интервала',
       'Нарушение правил расположения ТС на проезжей части',
       'Нахождение на проезжей части без 

In [17]:
df['crash_type_name'].unique()

array(['Опрокидывание', 'Наезд на препятствие', 'Наезд на пешехода',
       'Столкновение', 'Наезд на стоящее ТС', 'Съезд с дороги',
       'Падение пассажира', 'Наезд на животное', 'Наезд на велосипедиста',
       'Иной вид ДТП', 'Падение груза',
       'Наезд на лицо, не являющееся участником дорожного движения(иного участника ДТП), осуществляющее несение службы',
       'Отбрасывание предмета(отсоединение колеса)',
       'Наезд на лицо, не являющееся участником дорожного движения(иного участника ДТП), осуществляющее производство работ',
       'Наезд на внезапно возникшее препятствие',
       'Наезд на гужевой транспорт',
       'Наезд на лицо, не являющееся участником дорожного движения(иного участника ДТП), осуществляющее какую-либо другую деятельность',
       'Возгорание вследствие технической неисправности движущегося или остановившегося ТС, участвующего в дорожном движении'],
      dtype=object)

In [18]:
# столбцы road_type, crash_reason и crash_type_name не требуют дополнительной обработки 

### Преобразование типов данных

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39102 entries, 0 to 39101
Data columns (total 14 columns):
 #   Column               Non-Null Count  Dtype 
---  ------               --------------  ----- 
 0   reg_code             39102 non-null  int64 
 1   region               39102 non-null  object
 2   road_code            39102 non-null  object
 3   road                 39102 non-null  object
 4   road_type            39102 non-null  object
 5   address              39102 non-null  object
 6   crash_type_name      39102 non-null  object
 7   crash_date           39102 non-null  int64 
 8   crash_time           39102 non-null  object
 9   crash_reason         39102 non-null  object
 10  fatalities_amount    39102 non-null  int64 
 11  victims_amount       39102 non-null  int64 
 12  vehicles_amount      39102 non-null  int64 
 13  participants_amount  39102 non-null  object
dtypes: int64(5), object(9)
memory usage: 4.2+ MB


In [20]:
df['date_time']=df['crash_date'].astype(str)+'T'+df['crash_time']
df['date_time']=pd.to_datetime(df['date_time'],format='%Y-%m-%d %H:%M:%S')

In [21]:
df['crash_date']=pd.to_datetime(df['date_time'],format='%Y%m%d')
df['crash_time']=pd.to_datetime(df['date_time'],format='%H:%M:%S')


In [22]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39102 entries, 0 to 39101
Data columns (total 15 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   reg_code             39102 non-null  int64         
 1   region               39102 non-null  object        
 2   road_code            39102 non-null  object        
 3   road                 39102 non-null  object        
 4   road_type            39102 non-null  object        
 5   address              39102 non-null  object        
 6   crash_type_name      39102 non-null  object        
 7   crash_date           39102 non-null  datetime64[ns]
 8   crash_time           39102 non-null  datetime64[ns]
 9   crash_reason         39102 non-null  object        
 10  fatalities_amount    39102 non-null  int64         
 11  victims_amount       39102 non-null  int64         
 12  vehicles_amount      39102 non-null  int64         
 13  participants_amount  39102 non-

In [23]:
df

Unnamed: 0,reg_code,region,road_code,road,road_type,address,crash_type_name,crash_date,crash_time,crash_reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount,date_time
0,46,Московская область,информациия отсутствует,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,2018-12-31 23:55:00,2018-12-31 23:55:00,Другие нарушения ПДД водителями,1,0,1,12,2018-12-31 23:55:00
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,2018-12-31 23:55:00,2018-12-31 23:55:00,Другие нарушения ПДД водителями,1,0,1,2,2018-12-31 23:55:00
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,2018-12-31 23:40:00,2018-12-31 23:40:00,Превышение установленной скорости движения,1,0,1,2,2018-12-31 23:40:00
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,2018-12-31 23:20:00,2018-12-31 23:20:00,Нахождение на проезжей части без цели её перех...,0,1,1,2,2018-12-31 23:20:00
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,2018-12-31 23:00:00,2018-12-31 23:00:00,Нарушение правил проезда пешеходного перехода,1,0,1,2,2018-12-31 23:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39097,80,Республика Башкортостан,80Н-069,Аскарово - Альмухаметово - Сибай,Региональная или межмуниципальная дорога общег...,"ПФО, Республика Башкортостан, Абзелиловский ра...",Наезд на животное,2018-04-01 01:55:00,2018-04-01 01:55:00,Нарушение правил расположения ТС на проезжей ч...,2,0,1,4,2018-04-01 01:55:00
39098,79,Республика Адыгея,информациия отсутствует,Подъезд к а.Вочепший,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Адыгея, Теучежский район",Наезд на животное,2018-04-01 01:30:00,2018-04-01 01:30:00,Другие нарушения ПДД водителями,0,1,1,12,2018-04-01 01:30:00
39099,3,Краснодарский край,Р-217,Подъезд к городу Майкоп от а/д Р-217,Федеральная дорога общего пользования,"ЮФО, Краснодарский край, Новокубанский район",Столкновение,2018-04-01 01:00:00,2018-04-01 01:00:00,"Выезд на полосу встречного движения в местах, ...",2,0,2,3,2018-04-01 01:00:00
39100,76,Забайкальский край,А-350,Чита - Забайкальск - граница с Китайской Народ...,Федеральная дорога общего пользования,"СФО, Забайкальский край, Читинский район, Ново...",Опрокидывание,2018-04-01 00:30:00,2018-04-01 00:30:00,Нарушение правил расположения ТС на проезжей ч...,3,1,1,4,2018-04-01 00:30:00


In [24]:
df.drop (df.columns [[7,8]], axis= 1 , inplace= True )

In [25]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39102 entries, 0 to 39101
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   reg_code             39102 non-null  int64         
 1   region               39102 non-null  object        
 2   road_code            39102 non-null  object        
 3   road                 39102 non-null  object        
 4   road_type            39102 non-null  object        
 5   address              39102 non-null  object        
 6   crash_type_name      39102 non-null  object        
 7   crash_reason         39102 non-null  object        
 8   fatalities_amount    39102 non-null  int64         
 9   victims_amount       39102 non-null  int64         
 10  vehicles_amount      39102 non-null  int64         
 11  participants_amount  39102 non-null  object        
 12  date_time            39102 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(4),

In [29]:
df.loc[2866,'participants_amount']=26
# для анализа числовых данны потребуется обработка единственного значения "больше 25"
# так как точное число неизвестно, а массив данных довольно большой, значит будет достаточно заменить "больше 25" на "26"
# данная мера не внесёт значительные изменения в значения медианы, средней и других показателей 
# данная мера предоставит возможность работы со всем массивом числовых данных

<div class="alert alert-block alert-success">
Согласен!

In [30]:
df['participants_amount']= pd.to_numeric(df['participants_amount'], errors='coerce')

In [31]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 39102 entries, 0 to 39101
Data columns (total 13 columns):
 #   Column               Non-Null Count  Dtype         
---  ------               --------------  -----         
 0   reg_code             39102 non-null  int64         
 1   region               39102 non-null  object        
 2   road_code            39102 non-null  object        
 3   road                 39102 non-null  object        
 4   road_type            39102 non-null  object        
 5   address              39102 non-null  object        
 6   crash_type_name      39102 non-null  object        
 7   crash_reason         39102 non-null  object        
 8   fatalities_amount    39102 non-null  int64         
 9   victims_amount       39102 non-null  int64         
 10  vehicles_amount      39102 non-null  int64         
 11  participants_amount  39102 non-null  int64         
 12  date_time            39102 non-null  datetime64[ns]
dtypes: datetime64[ns](1), int64(5),

### Поиск дубликатов

In [32]:
df.loc[df.duplicated(keep=False)]

Unnamed: 0,reg_code,region,road_code,road,road_type,address,crash_type_name,crash_reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount,date_time
37226,22,Нижегородская область,22К-0016,Семенов - Ковернино,Региональная или межмуниципальная дорога общег...,"ПФО, Нижегородская область, Городской округ Се...",Столкновение,Неправильный выбор дистанции,1,0,3,4,2018-04-21 14:40:00
37227,22,Нижегородская область,22К-0016,Семенов - Ковернино,Региональная или межмуниципальная дорога общег...,"ПФО, Нижегородская область, Городской округ Се...",Столкновение,Неправильный выбор дистанции,1,0,3,4,2018-04-21 14:40:00
39070,61,Рязанская область,М-5,"""Урал"" Москва - Рязань - Пенза - Самара - Уфа ...",Федеральная дорога общего пользования,"ЦФО, Рязанская область, Шацкий район",Наезд на препятствие,Нарушение правил расположения ТС на проезжей ч...,8,0,1,8,2018-04-01 05:20:00
39071,46,Московская область,информациия отсутствует,МКАД-Крутицы-Железнодорожный-Ликино-Дулево,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Железнодорожный",Наезд на пешехода,Нахождение на проезжей части без цели её перехода,0,1,1,2,2018-04-01 04:15:00
39072,61,Рязанская область,Р-22,"«Каспий» автомобильная дорога М-4 ""Дон"" - Тамб...",Федеральная дорога общего пользования,"ЦФО, Рязанская область, Михайловский район",Столкновение,"Выезд на полосу встречного движения в местах, ...",1,1,4,4,2018-04-01 04:00:00
39073,27,Калининградская область,27А-007,Северный обход г. Калининграда,Региональная или межмуниципальная дорога общег...,"СЗФО, Калининградская область, Гурьевский район",Наезд на пешехода,Ходьба вдоль проезжей части попутного направле...,1,0,1,2,2018-04-01 03:50:00
39074,32,Кемеровская область,Р-255,Подъезд к городу Томск от а/д Р-255,Федеральная дорога общего пользования,"СФО, Кемеровская область, Юргинский район",Столкновение,Выезд на полосу встречного движения,1,0,2,2,2018-04-01 03:50:00
39075,61,Рязанская область,Р-132,Калуга - Тула - Михайлов - Рязань,Федеральная дорога общего пользования,"ЦФО, Рязанская область, Рязань, Железнодорожный",Наезд на препятствие,Нарушение правил расположения ТС на проезжей ч...,1,0,3,3,2018-04-01 03:30:00
39076,86,Республика Карелия,А-121,"""Сортавала"" Санкт-Петербург - Сортавала - авто...",Федеральная дорога общего пользования,"СЗФО, Республика Карелия, Лахденпохский район,...",Наезд на пешехода,Иные нарушения ПДД пешеходом,0,1,1,2,2018-04-01 03:20:00
39077,56,Пензенская область,М-5,"""Урал"" Москва - Рязань - Пенза - Самара - Уфа ...",Федеральная дорога общего пользования,"ПФО, Пензенская область, Кузнецкий район, Евла...",Столкновение,Выезд на полосу встречного движения,1,0,3,2,2018-04-01 03:10:00


In [33]:
df.drop_duplicates(inplace=True)

In [34]:
df = df.drop_duplicates().reset_index(drop=True)
df

Unnamed: 0,reg_code,region,road_code,road,road_type,address,crash_type_name,crash_reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount,date_time
0,46,Московская область,информациия отсутствует,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,Другие нарушения ПДД водителями,1,0,1,12,2018-12-31 23:55:00
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,Другие нарушения ПДД водителями,1,0,1,2,2018-12-31 23:55:00
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,Превышение установленной скорости движения,1,0,1,2,2018-12-31 23:40:00
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,Нахождение на проезжей части без цели её перех...,0,1,1,2,2018-12-31 23:20:00
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,Нарушение правил проезда пешеходного перехода,1,0,1,2,2018-12-31 23:00:00
...,...,...,...,...,...,...,...,...,...,...,...,...,...
39080,80,Республика Башкортостан,80Н-069,Аскарово - Альмухаметово - Сибай,Региональная или межмуниципальная дорога общег...,"ПФО, Республика Башкортостан, Абзелиловский ра...",Наезд на животное,Нарушение правил расположения ТС на проезжей ч...,2,0,1,4,2018-04-01 01:55:00
39081,79,Республика Адыгея,информациия отсутствует,Подъезд к а.Вочепший,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Адыгея, Теучежский район",Наезд на животное,Другие нарушения ПДД водителями,0,1,1,12,2018-04-01 01:30:00
39082,3,Краснодарский край,Р-217,Подъезд к городу Майкоп от а/д Р-217,Федеральная дорога общего пользования,"ЮФО, Краснодарский край, Новокубанский район",Столкновение,"Выезд на полосу встречного движения в местах, ...",2,0,2,3,2018-04-01 01:00:00
39083,76,Забайкальский край,А-350,Чита - Забайкальск - граница с Китайской Народ...,Федеральная дорога общего пользования,"СФО, Забайкальский край, Читинский район, Ново...",Опрокидывание,Нарушение правил расположения ТС на проезжей ч...,3,1,1,4,2018-04-01 00:30:00


<div class="alert alert-block alert-success">
Дубликатов больше нет, но не ясно сколько их было

### Добавление столбцов.

Добавьте столбец с днями недели на русском языке.

In [58]:
import locale
locale.setlocale(locale.LC_ALL, ('ru_RU', 'UTF-8'))

'ru_RU.UTF-8'

In [59]:
df['wd_n']=df['date_time'].dt.day_name(locale='ru_RU.utf8')

In [60]:
df

Unnamed: 0,reg_code,region,road_code,road,road_type,address,crash_type_name,crash_reason,fatalities_amount,victims_amount,vehicles_amount,participants_amount,date_time,wd_n
0,46,Московская область,0,мкр. Авиационный-Лямцино-ММК,Региональная или межмуниципальная дорога общег...,"ЦФО, Московская область, Городской округ Домод...",Опрокидывание,Другие нарушения ПДД водителями,1,0,1,12,2018-12-31 23:55:00,Понедельник
1,53,Оренбургская область,53К-2118000,Обход г. Оренбурга,Региональная или межмуниципальная дорога общег...,"ПФО, Оренбургская область, Оренбург",Наезд на препятствие,Другие нарушения ПДД водителями,1,0,1,2,2018-12-31 23:55:00,Понедельник
2,46,Московская область,А-107,"""Московское малое кольцо"" Икша - Ногинск - Бро...",Федеральная дорога общего пользования,"ЦФО, Московская область, Дмитровский район",Опрокидывание,Превышение установленной скорости движения,1,0,1,2,2018-12-31 23:40:00,Понедельник
3,8,Хабаровский край,А-375,"""Восток"" Хабаровск - Красный Яр - Ариадное - Ч...",Федеральная дорога общего пользования,"ДФО, Хабаровский край, Хабаровский район",Наезд на пешехода,Нахождение на проезжей части без цели её перех...,0,1,1,2,2018-12-31 23:20:00,Понедельник
4,35,Республика Крым,35Н-076,Симферополь - Севастополь - Бахчисарай,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Крым, Бахчисарайский район",Наезд на пешехода,Нарушение правил проезда пешеходного перехода,1,0,1,2,2018-12-31 23:00:00,Понедельник
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
39080,80,Республика Башкортостан,80Н-069,Аскарово - Альмухаметово - Сибай,Региональная или межмуниципальная дорога общег...,"ПФО, Республика Башкортостан, Абзелиловский ра...",Наезд на животное,Нарушение правил расположения ТС на проезжей ч...,2,0,1,4,2018-04-01 01:55:00,Воскресенье
39081,79,Республика Адыгея,0,Подъезд к а.Вочепший,Региональная или межмуниципальная дорога общег...,"ЮФО, Республика Адыгея, Теучежский район",Наезд на животное,Другие нарушения ПДД водителями,0,1,1,12,2018-04-01 01:30:00,Воскресенье
39082,3,Краснодарский край,Р-217,Подъезд к городу Майкоп от а/д Р-217,Федеральная дорога общего пользования,"ЮФО, Краснодарский край, Новокубанский район",Столкновение,"Выезд на полосу встречного движения в местах, ...",2,0,2,3,2018-04-01 01:00:00,Воскресенье
39083,76,Забайкальский край,А-350,Чита - Забайкальск - граница с Китайской Народ...,Федеральная дорога общего пользования,"СФО, Забайкальский край, Читинский район, Ново...",Опрокидывание,Нарушение правил расположения ТС на проезжей ч...,3,1,1,4,2018-04-01 00:30:00,Воскресенье


<div class="alert alert-block alert-success">
Отлично, что нашли это решение. Продолжайте работать с документацией.<br>
Например, проблему с датой можно решить на этапе загрузки csv, если внимателно изучить параметры этого метода.

### Экспорт результатов

In [73]:
df.to_excel('crashes.xlsx', index=False)

### Выводы:

1. Была произведена обработка данных, которая в себя включила обработку заголовков, исправление значений, удаление дубликатов и ряд других процессов
2. Данные готовы для анализа
3. Данные выгружены в програму excel

<div class="alert alert-block alert-warning">
Здесь точно нужно подробнее.

<div class="alert alert-block alert-success">
Ожидал увидеть работу вообще без замечаний, однако их набралось.<br>
Одновременно есть и хорошие идеи и видна работа с документацией.<br>
Комментарии к коду отличные, выводы к работе желательно более подробные.<br>
Изученными методами владеете уверенно.<br>
Кое-где плаваете по стилю (пробелы!)

Итоговый балл за работу 17/20 

С учетом доп. баллов у Вас будет 20 за КТ