# Анализ и предобработка данных «Карта ДТП» для последующего использования в исследовании

- Автор:Мусабаева Алеся Талгатовна
- Дата: 28.11.2024


# Кейс спринта


Заказчик проекта — «Карта ДТП». Это некоммерческий проект, посвящённый проблеме дорожно-транспортных происшествий в России. Цель проекта — повысить безопасность на дорогах.

«Карта ДТП» помогает выявлять реальные причины ДТП, оценивать уровень развития инфраструктуры, а также разрабатывать качественные решения и программы по повышению безопасности на улицах и дорогах. Заказчик хочет собирать данные более высокого качества и ожидает от вас рекомендаций: на какие проблемы или особенности обратить внимание.

## Что нужно сделать

Вам необходимо проверить, встречаются ли в данных дубликаты и пропуски. Это поможет заказчикам собирать более качественные данные.

Вам также понадобится ответить на следующие вопросы:

- как менялось число ДТП по временным промежуткам;

- различается ли число ДТП для групп водителей с разным стажем.


## Описание данных

Данные `Kirovskaya_oblast.csv`, `Moscowskaya_oblast.csv` содержат информацию ДТП:

* `geometry.coordinates` — координаты ДТП;

* `id` — идентификатор ДТП;

*  `properties.tags` — тег происшествия;

*  `properties.light` — освещённость;

*  `properties.point.lat` — широта;

*  `properties.point.long` — долгота;

*  `properties.nearby` — ближайшие объекты;

*  `properties.region` — регион;

*  `properties.scheme` — схема ДТП;

*  `properties.address` — ближайший адрес;

*  `properties.weather` — погода;

*  `properties.category` — категория ДТП;

*  `properties.datetime` — дата и время ДТП;

*  `properties.injured_count` — число пострадавших;

*  `properties.parent_region` — область;

*  `properties.road_conditions` — состояние покрытия;

*  `properties.participants_count` — число участников;

*  `properties.participant_categories` — категории участников.

`Moscowskaya_oblast_participiants.csv`, `Kirovskaya_oblast_participiants.csv` — сведения об участниках ДТП:

* `role` — роль;

* `gender` — пол;

* `violations` — какие правила дорожного движения были нарушены конкретным участником;

* `health_status` — состояние здоровья после  ДТП;

* `years_of_driving_experience` — число лет опыта;

* `id` — идентификатор ДТП.


`Kirovskaya_oblast_vehicles.csv`, `Moscowskaya_oblast_vehicles.csv` — сведения о транспортных средствах:

* `year` — год выпуска;

* `brand` — марка транспортного средства;

* `color` — цвет;

* `model` — модель;

* `category` — категория;

* `id` — идентификатор ДТП.

## Содержимое проекта
<font color='#7030a0'> Основные шаги проекта: 
- Замена названий (меток) столбцов на оптимальные для работы;
- Проверка ошибок в данных и их предоработка;
- Проверка на наличие явных и неявных дубликатов в данных;
- Проверка корректности типов
- Исследовательский анализ    
</font>   

##  Проверка ошибок в данных и их предобработка



In [1]:
#Подключаем библиотеку pandas
import pandas as pd

In [2]:
#Загружаем данные в датафрейм
df=pd.read_csv('/datasets/Kirovskaya_oblast.csv')

In [3]:
#Отображение первых пяти строк и их наименований
display(df.head())

Unnamed: 0,geometry.coordinates,id,properties.tags,properties.light,properties.point.lat,properties.point.long,properties.nearby,properties.region,properties.scheme,properties.address,properties.weather,properties.category,properties.datetime,properties.injured_count,properties.parent_region,properties.road_conditions,properties.participants_count,properties.participant_categories
0,"[47.875603, 57.24379]",1983180,Дорожно-транспортные происшествия,Светлое время суток,57.24379,47.875603,[],Яранский район,600.0,Р-176 Вятка Чебоксары - Йошкар-Ола - Киров - С...,['Дождь'],Опрокидывание,2017-07-01 18:00:00,1,Кировская область,['Мокрое'],3,['Все участники']
1,"[47.87903, 57.304807]",2889433,Дорожно-транспортные происшествия,Светлое время суток,57.304807,47.87903,"['Административные здания', 'Нерегулируемый пе...",Яранский район,710.0,"г Яранск, ул Кирова, 10",['Ясно'],Наезд на пешехода,2023-09-12 17:10:00,1,Кировская область,"['Сухое', 'Отсутствие, плохая различимость гор...",2,"['Все участники', 'Пешеходы']"
2,"[47.840781, 57.297156]",2591208,Дорожно-транспортные происшествия,Сумерки,57.297156,47.840781,"['Жилые дома индивидуальной застройки', 'Нерег...",Яранский район,,"г Яранск, ул Чапаева, 80",['Пасмурно'],Съезд с дороги,2021-07-02 21:25:00,1,Кировская область,['Мокрое'],1,['Все участники']
3,"[47.834365, 57.244775]",2577639,Дорожно-транспортные происшествия,Светлое время суток,57.244775,47.834365,['Жилые дома индивидуальной застройки'],Яранский район,200.0,"м Знаменка, ул Кирова, 15",['Пасмурно'],Столкновение,2021-05-31 18:55:00,1,Кировская область,['Сухое'],2,"['Все участники', 'Мотоциклисты']"
4,"[47.968197, 57.357738]",1981026,Дорожно-транспортные происшествия,Светлое время суток,57.357738,47.968197,['Нерегулируемый перекрёсток неравнозначных ул...,Яранский район,,"с/п Никольское, Киров-Советск- Яранск - подъез...",['Ясно'],Опрокидывание,2018-05-16 16:25:00,2,Кировская область,"['Сухое', 'Отсутствие, плохая различимость гор...",2,['Все участники']


In [4]:
#Отображение общей информации по датафрейму
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14517 entries, 0 to 14516
Data columns (total 18 columns):
 #   Column                             Non-Null Count  Dtype  
---  ------                             --------------  -----  
 0   geometry.coordinates               14517 non-null  object 
 1   id                                 14517 non-null  int64  
 2   properties.tags                    14517 non-null  object 
 3   properties.light                   14517 non-null  object 
 4   properties.point.lat               14485 non-null  float64
 5   properties.point.long              14485 non-null  float64
 6   properties.nearby                  14517 non-null  object 
 7   properties.region                  14517 non-null  object 
 8   properties.scheme                  13380 non-null  float64
 9   properties.address                 13843 non-null  object 
 10  properties.weather                 14517 non-null  object 
 11  properties.category                14517 non-null  obj

<font color='#7030a0'> Промежуточные выводы: 
1. Датафрейм содержит 14517 записей и 4 столбца из них есть пропущенные значения:
- ` properties.point.lat ` и   properties.point.long (32 пропуска)
- ` propeddrties.scheme `(1137 пропуска)
- ` properties.address ` (674 пропуска)
Некорректные типы данных:
    -
  
</font>   

<font color='#7030a0'> Промежуточные выводы: Всего 14517 строк, пропуски содержатся в следующих стобцах:
- `properties.point.lat` (32)-широта и долгота не является очевидно обязательными столбцами, можно использовать координаты
- `properties.point.long` (32)-широта и долгота не является очевидно обязательными столбцами, можно использовать координаты
- `properties.scheme` (1137)-схема, надо заполнить значением загрушкой, так как не очевидно, случайно ли пропустили данные или это поле не является обязательным к заполнению
- `properties.address`(674). -адрес, надо заполнить значением загрушкой, так как не очевидно, слуяайно ли пропустили данные или это поле не является обязательным к заполнению
</font>     

### Замена названий (меток) столбцов на оптимальные для работы

In [5]:
df.columns = df.columns.str.replace('properties.', '', regex=True)
df.columns = df.columns.str.replace('.', '_', regex=True)
print(df.columns)

Index(['geometry_coordinates', 'id', 'tags', 'light', 'point_lat',
       'point_long', 'nearby', 'region', 'scheme', 'address', 'weather',
       'category', 'datetime', 'injured_count', 'parent_region',
       'road_conditions', 'participants_count', 'participant_categories'],
      dtype='object')


<font color='#7030a0'> Промежуточные выводы: Наименования приведены к более удобному формату
</font>  

### Проверка пропусков в данных

На примере датасета `Kirovskaya_oblast.csv` изучите, в каких столбцах есть пропуски. Предположите причины их возникновения. Напишите рекомендации, как работать с  пропусками и как их в дальнейшем избежать.

In [6]:
#Находим долю пропущенных данных
round(df.isna().sum()/len(df)*100,0)


geometry_coordinates      0.0
id                        0.0
tags                      0.0
light                     0.0
point_lat                 0.0
point_long                0.0
nearby                    0.0
region                    0.0
scheme                    8.0
address                   5.0
weather                   0.0
category                  0.0
datetime                  0.0
injured_count             0.0
parent_region             0.0
road_conditions           0.0
participants_count        0.0
participant_categories    0.0
dtype: float64

In [7]:

# Условие для NaN или пустых строк
empty_address_df = df[df['address'].isna() | (df['address'] == '')]
display(empty_address_df.head())

Unnamed: 0,geometry_coordinates,id,tags,light,point_lat,point_long,nearby,region,scheme,address,weather,category,datetime,injured_count,parent_region,road_conditions,participants_count,participant_categories
18,"[47.703667, 57.398549]",1981028,Дорожно-транспортные происшествия,"В темное время суток, освещение отсутствует",57.398549,47.703667,[],Яранский район,820.0,,['Пасмурно'],Наезд на пешехода,2018-05-01 22:10:00,1,Кировская область,['Сухое'],2,"['Все участники', 'Пешеходы']"
59,"[47.969474, 57.105731]",2875566,Дорожно-транспортные происшествия,Светлое время суток,57.105731,47.969474,[],Яранский район,950.0,,['Ясно'],Опрокидывание,2023-08-13 16:20:00,1,Кировская область,['Сухое'],1,['Все участники']
63,"[47.891099, 57.309193]",2875597,Дорожно-транспортные происшествия,Светлое время суток,57.309193,47.891099,"['Многоквартирные жилые дома', 'Внутридворовая...",Яранский район,410.0,,['Ясно'],Столкновение,2023-08-01 12:35:00,1,Кировская область,['Сухое'],2,"['Все участники', 'Мотоциклисты']"
95,"[47.906871, 57.020891]",2861063,Дорожно-транспортные происшествия,Светлое время суток,57.020891,47.906871,[],Яранский район,600.0,,['Пасмурно'],Съезд с дороги,2023-07-22 03:50:00,3,Кировская область,['Мокрое'],3,['Все участники']
130,"[47.828239, 57.298419]",1984517,Дорожно-транспортные происшествия,Светлое время суток,57.298419,47.828239,"['АЗС', 'Автостоянка (отделенная от проезжей ч...",Яранский район,830.0,,['Ясно'],Наезд на пешехода,2020-06-25 08:50:00,1,Кировская область,['Сухое'],2,"['Все участники', 'Пешеходы']"


<font color='#7030a0'> Промежуточные выводы:
1. Столбец: `geometry_coordinates`, Тип данных: object. Оюъединенные даные со столбцов `point_lat` и `point_long`. Рекомендация удалить;
2. Столбец: `datetime`, Тип данных: object. Перевести в формат даты и время
3. Проверка оптимизация форматов для `id`,`point_lat`, `point_long`, `scheme`, `injured_count`,`participants_count`
</font>  

Промежуточные выводы:
1. Столбец: `geometry_coordinates`, Тип данных: object. Оюъединенные даные со столбцов `point_lat` и `point_long`. Рекомендация удалить;
2. Столбец: `datetime`, Тип данных: object. Перевести в формат даты и время
3. Проверка оптимизация форматов для `id`,`point_lat`, `point_long`, `scheme`, `injured_count`,`participants_count`

### Наличие явных и неявных дубликатов в данных



Есть ли явные дубликаты в данных, какой это процент значений?

In [8]:
sum_dublicates=df.duplicated().sum()
print(f'Количество дубликатов: {sum_dublicates}') 

Количество дубликатов: 0


In [9]:
# Вывести уникальные значения и тип данных для всех столбцов
for column in df.columns:
    print(f"Столбец: {column}, Тип данных: {df[column].dtype}")
    print(f"Уникальные значения: {df[column].unique()}")
    print("-" * 50)  # Разделитель для читаемости


Столбец: geometry_coordinates, Тип данных: object
Уникальные значения: ['[47.875603, 57.24379]' '[47.87903, 57.304807]' '[47.840781, 57.297156]'
 ... '[51.079817, 56.22997]' '[51.165556, 56.152222]' '[51.1217, 56.2153]']
--------------------------------------------------
Столбец: id, Тип данных: int64
Уникальные значения: [1983180 2889433 2591208 ... 1985949 1986807 1987515]
--------------------------------------------------
Столбец: tags, Тип данных: object
Уникальные значения: ['Дорожно-транспортные происшествия']
--------------------------------------------------
Столбец: light, Тип данных: object
Уникальные значения: ['Светлое время суток' 'Сумерки'
 'В темное время суток, освещение отсутствует'
 'В темное время суток, освещение не включено'
 'В темное время суток, освещение включено']
--------------------------------------------------
Столбец: point_lat, Тип данных: float64
Уникальные значения: [57.24379  57.304807 57.297156 ... 56.1978   56.152222 56.2153  ]
---------------------

<font color='#7030a0'> Промежуточные выводы:
1. Дубликатов не обнаружено
</font>  

### Проверка корректности типов данных

*Числовой формат данных*

In [10]:
#Проверка подборки типа с наименьшими битовыми разрядами:

# Список столбцов, которые нужно преобразовать
columns_to_convert = ['id', 'injured_count', 'participants_count','scheme']
# Типы данных до преобразования
for column in columns_to_convert:
    print(f"Тип данных для столбцов {column}:{df[column].dtype}")
#  Преобразование типов данных
for column in columns_to_convert:
    df[column]=pd.to_numeric(df[column],errors='coerce',downcast='integer')
    print(f"Новый тип данных для столбцов {column}:{df[column].dtype}")

    

Тип данных для столбцов id:int64
Тип данных для столбцов injured_count:int64
Тип данных для столбцов participants_count:int64
Тип данных для столбцов scheme:float64
Новый тип данных для столбцов id:int32
Новый тип данных для столбцов injured_count:int8
Новый тип данных для столбцов participants_count:int8
Новый тип данных для столбцов scheme:float64


In [11]:
#Выводим описание данных
df[['injured_count','participants_count','scheme']].describe()

Unnamed: 0,injured_count,participants_count,scheme
count,14517.0,14517.0,13380.0
mean,1.315699,2.355721,549.431241
std,0.793685,1.004847,293.917023
min,1.0,1.0,10.0
25%,1.0,2.0,300.0
50%,1.0,2.0,610.0
75%,1.0,3.0,820.0
max,30.0,30.0,980.0


*Формат для даты и врмени*

In [12]:
#Преобразования типа данных для даты
print(f"Тип данных для 'datetime' до преобразования:{df['datetime'].dtype}")
df['datetime']=pd.to_datetime(df['datetime'], errors='coerce')
print(f"Тип данных для 'datetime' после преобразования:{df['datetime'].dtype}")

Тип данных для 'datetime' до преобразования:object
Тип данных для 'datetime' после преобразования:datetime64[ns]


*Заполняем пропуски заглушкой*

In [13]:
#Сохраняем старые значения
df['old_scheme']=df['scheme']
df['scheme']=df['scheme'].fillna(-1)
#Выводим измененные данные
changed_rows=df[df['old_scheme'].isna()]
print(changed_rows[['old_scheme', 'scheme']].head())

    old_scheme  scheme
2          NaN    -1.0
4          NaN    -1.0
8          NaN    -1.0
39         NaN    -1.0
49         NaN    -1.0


*Убираем столбцы, которые не будем использовать для анализа*


In [14]:
df.drop(columns=['geometry_coordinates','point_lat','point_long','address','old_scheme','scheme'],inplace=True)
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 14517 entries, 0 to 14516
Data columns (total 13 columns):
 #   Column                  Non-Null Count  Dtype         
---  ------                  --------------  -----         
 0   id                      14517 non-null  int32         
 1   tags                    14517 non-null  object        
 2   light                   14517 non-null  object        
 3   nearby                  14517 non-null  object        
 4   region                  14517 non-null  object        
 5   weather                 14517 non-null  object        
 6   category                14517 non-null  object        
 7   datetime                14517 non-null  datetime64[ns]
 8   injured_count           14517 non-null  int8          
 9   parent_region           14517 non-null  object        
 10  road_conditions         14517 non-null  object        
 11  participants_count      14517 non-null  int8          
 12  participant_categories  14517 non-null  object

<font color='#7030a0'> Промежуточные выводы:
1. Рекомендумый формат данных:
- `id`:int32
- `injured_count`:int8
- `participants_count`:int8
- `scheme`:int16
- `datetime`:datetime64[ns] 
2. Удалены не ключевые столбцы для последующего анализа данных:`geometry_coordinates`,`point_lat`,`point_long`,`address`,`old_scheme`,`scheme`    
</font>  

## Исследовательский анализ



### Какое число ДТП случилось в каждый день недели. Разбивка числа происшествий по месяцам

*Дни недели*

In [15]:
# Получение дня недели в формате строки
df['day_of_week'] = df['datetime'].dt.strftime('%A')

result_per_week =df.groupby('day_of_week')['id'].count()
display(result_per_week)

day_of_week
Friday       2344
Monday       2010
Saturday     2246
Sunday       2054
Thursday     1936
Tuesday      1988
Wednesday    1939
Name: id, dtype: int64

*Месяцы*

In [16]:
# Получение дня недели в формате строки
df['month'] = df['datetime'].dt.strftime('%B')

result_per_month =df.groupby('month')['id'].count()
display(result_per_month)

month
April         875
August       1654
December     1164
February      808
January      1069
July         1635
June         1421
March         799
May          1189
November     1200
October      1333
September    1370
Name: id, dtype: int64

<font color='#7030a0'> Промежуточные выводы:
1. Количество аварий по дням недели:
- В пятницу произошло 2344 аварии, что делает этот день самым аварийным.
Понедельник, суббота и воскресенье также имеют высокие показатели, но немного ниже по сравнению с пятницей.
Меньше всего аварий было зафиксировано в среду и четверг, что может означать, что в эти дни меньше активности на дорогах или другие факторы.
2. Количество аварий по месяцам:
- Август с 1654 авариями — самый аварийный месяц, что может быть связано с высокими летними нагрузками на дороги.
Январь, июль и сентябрь также имеют высокие показатели аварий.
Меньше аварий в марте и апреле, что может указывать на низкую активность на дорогах в эти месяцы.
</font>  

### Категории водителей по стажу. Встречаются ли категории, которые разительно отличаются по числу ДТП

In [17]:
#Загружаем данные в датафрейм
df_p=pd.read_csv('/datasets/Kirovskaya_oblast_participiants.csv')

In [18]:
#Выводим информацию о новом датафрейме
df_p.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 31235 entries, 0 to 31234
Data columns (total 6 columns):
 #   Column                       Non-Null Count  Dtype  
---  ------                       --------------  -----  
 0   role                         31235 non-null  object 
 1   gender                       30387 non-null  object 
 2   violations                   31235 non-null  object 
 3   health_status                31135 non-null  object 
 4   years_of_driving_experience  16909 non-null  float64
 5   id                           31235 non-null  int64  
dtypes: float64(1), int64(1), object(4)
memory usage: 1.4+ MB


In [19]:
#Выводим первые строки датафрейма
df_p.head()

Unnamed: 0,role,gender,violations,health_status,years_of_driving_experience,id
0,Водитель,Мужской,['Несоответствие скорости конкретным условиям ...,"Раненый, находящийся (находившийся) на амбулат...",26.0,1983180
1,Водитель,Мужской,[],Не пострадал,34.0,2889433
2,Пассажир,Мужской,[],"Раненый, находящийся (находившийся) на амбула...",,2591208
3,Пассажир,Мужской,[],"Раненый, находящийся (находившийся) на амбула...",,2591208
4,Водитель,Мужской,[],Не пострадал,27.0,2577639


*Преобразеум формат для колонки 'years_of_driving_experience' в числовой, без разделителей*

In [20]:
df_p['years_of_driving_experience']=df_p['years_of_driving_experience'].fillna(-1).astype('Int64')


In [28]:
#Ставим фильтр на роли:Водитель
df_p=df_p[df_p['role']=='Водитель']
df_p.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 19753 entries, 0 to 31232
Data columns (total 6 columns):
 #   Column                       Non-Null Count  Dtype 
---  ------                       --------------  ----- 
 0   role                         19753 non-null  object
 1   gender                       19018 non-null  object
 2   violations                   19753 non-null  object
 3   health_status                19661 non-null  object
 4   years_of_driving_experience  19753 non-null  Int64 
 5   id                           19753 non-null  int64 
dtypes: Int64(1), int64(1), object(4)
memory usage: 1.1+ MB


In [26]:
#Выведим описание данных по столбцу years_of_driving_experience
df_p['years_of_driving_experience'].describe()

count    19753.000000
mean        13.645016
std         12.548087
min         -1.000000
25%          3.000000
50%         11.000000
75%         21.000000
max         66.000000
Name: years_of_driving_experience, dtype: float64

In [29]:
df_p['categorized_experience'] = pd.cut(df_p['years_of_driving_experience'], [-2,0,5,10,15,20,25,30,35,40,50,60,70])
df_p['categorized_experience'].value_counts()

(0, 5]      3533
(5, 10]     3238
(-2, 0]     2844
(10, 15]    2769
(15, 20]    2280
(20, 25]    1587
(25, 30]    1137
(30, 35]     921
(35, 40]     697
(40, 50]     629
(50, 60]     106
(60, 70]      12
Name: categorized_experience, dtype: int64

<font color='#7030a0'> Промежуточные выводы:
- Видно уменьшение числа аварий в зависимости от опыта. Важно учитывать, какое число водителей есть в каждой когорте, однако таких сведений у нас нет. Можно только сказать, что тех, у кого стаж составляет 60–70 лет, наверняка меньшинство.
- Рекомендации заказчику: сделать столбец со стажем обязательным для заполнения. В нём 2844 пропусков — 14% от общего числа. Тех, у кого не было прав, можно фиксировать отдельно. Вероятно, что причина отсутствия прав также важна: их забрали или водитель их не получил.
</font>  

# Итоговые выводы


 Рекомендации заказчику:
* Использовать названия столбцов без `properties.`.
* Сделать обязательным заполнение столбцов координат (а именно `point_long`, `point_lat`, потому что от столбца `coordinates` избавились) и схемы, если это необходимо. Выяснить причины, почему некоторые адреса не заполнены. Если этот столбец важен, сделать его заполнение обязательным.
* Дубликатов не обнаружено, идентификаторы аварий уникальны.
* Форматы данных неоптимальны, можно использовать типы данных, которые занимают меньше места для экономии.

Выводы:
* Аварий в летние месяцы ощутимо больше. По дням недели есть некоторая тенденция большего числа ДТП, но стоит уточнить, имеется ли такая динамика на большем числе данных.
* С ростом стажа аварий становится меньше, но важно также учитывать, сколько водителей в каждой категории по стажу.
    