Код разворачивает JSON файлы с https://dtp-stat.ru/opendata/ в плоский формат.

Последние правки: 2022.02.06

## Библиотеки и настройки

In [None]:
# импорт библиотек

import geojson
import json
import pandas as pd

import os

# регулярки
import re

# время
from datetime import datetime

# прогресс-бар
from tqdm.notebook import trange, tqdm

In [None]:
# рекурсия для поиска значений

def recurs_find_key(key, obj):
    if key in obj:
        return obj[key]
    
    for k, v in obj.items():
        if type(v) == dict:
            result = recurs_find_key(key, v)
            
            if result is not None:
                return result

In [None]:
# путь к файлам

file_path_data = 'C:/00_Data/dtp-stat/'

In [None]:
# вытаскиваю названия файлов в список file_list

file_list = []

for root, dirs, files in os.walk(file_path_data):
    
    for filename in files:
        file_list += [filename]

#### Код парсера

In [None]:
data = [] # список для данных

for file in tqdm(file_list): # цикл доя перебора файлов
    full_path = file_path_data + file
    
    with open(full_path, 'r', encoding='utf-8') as j: # открываю файл json
        contents = json.loads(j.read())
        
        all_accidents = contents['features'] # содержимое
        for accident in all_accidents:
            
            # id и категория
            accident_id = recurs_find_key('id', accident) # идентификатор
            accident_type =  recurs_find_key('tags', accident) # показатели с официального сайта ГИБДД
            category = recurs_find_key('category', accident) # тип ДТП
            
            # место ДТП
            region = recurs_find_key('parent_region', accident) # регион            
            district = recurs_find_key('region', accident) # город/район
            address = recurs_find_key('address', accident) # адрес
            
            coordinates = recurs_find_key('point', accident) # координаты
            type_coordinates = recurs_find_key('geometry', accident)['type'] # тип координат
            accident_lat = coordinates['lat'] # широта
            accident_long = coordinates['long'] # долгота
            location = recurs_find_key('nearby', accident) # привязки на местности
            
            # время ДТП
            datetime = recurs_find_key('datetime', accident) # дата и время
            day_period = recurs_find_key('light', accident) # время суток
            
            # погода и состояние дороги
            weather = recurs_find_key('weather', accident) # погода
            road_conditions = recurs_find_key('road_conditions', accident) # состояние дорожного покрытия
                      
            # участники ДТП
            participants_count = recurs_find_key('participants_count', accident) # кол-во участников ДТП
            participant_categories = recurs_find_key('participant_categories', accident) # категории участников
            dead_count = recurs_find_key('dead_count', accident) # кол-во погибших в ДТП
            injured_count = recurs_find_key('injured_count', accident) # кол-во раненых в ДТП
            severity = recurs_find_key('severity', accident) # тяжесть ДТП/вред здоровью
            
            vehicles = recurs_find_key('vehicles', accident) # участники – транспортные средства
            out_participants = recurs_find_key('participants', accident) # участники без транспортных средств
            
            # данные транспортных средств
            for item in vehicles:
                auto_year = recurs_find_key('year', item) # год производства транспортного средства
                auto_brand = recurs_find_key('brand', item) # марка транспортного средства
                auto_color = recurs_find_key('color', item) # марка транспортного средства
                auto_model = recurs_find_key('model', item) # модель транспортного средства
                auto_type = recurs_find_key('category', item) # категория транспортного средства
                                
                participants = recurs_find_key('participants', item) # участники внутри транспортных средств
                
                for i in participants:
                    role = recurs_find_key('role', i) # роль участника, водитель / пассажир
                    gender = recurs_find_key('gender', i) # пол
                    violations = recurs_find_key('violations', i) # нарушения правил участником
                    health_status = recurs_find_key('health_status', i) # состояние здоровья участника
                    years_of_driving_experience = recurs_find_key('years_of_driving_experience', i) # стаж вождения, водителя
                    
                    data.append([accident_id, accident_type, category,
                                 region, district, address,
                                 coordinates, type_coordinates,
                                 accident_lat, accident_long,
                                 location,
                                 datetime, day_period,
                                 weather, road_conditions,
                                 participants_count, participant_categories,
                                 dead_count, injured_count,
                                 severity,
                                 auto_type, auto_brand, auto_model,
                                 auto_year, auto_color,
                                 role, gender, violations, health_status,
                                 years_of_driving_experience])            
            
            if out_participants != []:
                
                for i in out_participants:
                    participant_role = recurs_find_key('role', i) # роль участника, пешеход
                    gender = recurs_find_key('gender', i) # пол
                    violations = recurs_find_key('violations', i) # нарушения правил участником
                    health_status = recurs_find_key('health_status', i) # состояние здоровья участника
                    years_of_driving_experience = 'none'
                    
                    
                    data.append([accident_id, accident_type, category,
                                 region, district, address,
                                 coordinates, type_coordinates,
                                 accident_lat, accident_long,
                                 location,
                                 datetime, day_period,
                                 weather, road_conditions,
                                 participants_count, participant_categories,
                                 dead_count, injured_count,
                                 severity,
                                 auto_type, auto_brand, auto_model,
                                 auto_year, auto_color,
                                 role, gender, violations, health_status,
                                 years_of_driving_experience])                

In [None]:
%%time

# создаю датафрейм

headers = ['accident_id', 'accident_type', 'category',
           'region', 'district', 'address',
           'coordinates', 'type_coordinates',
           'accident_lat', 'accident_long',
           'location',
           'datetime', 'day_period',
           'weather', 'road_conditions',
           'participants_count', 'participant_categories',
           'dead_count', 'injured_count',
           'severity',
           'auto_type', 'auto_brand', 'auto_model',
           'auto_year', 'auto_color',
           'role', 'gender', 'violations', 'health_status',
           'years_of_driving_experience']

work = pd.DataFrame(data, columns=headers)

In [None]:
work.shape

In [None]:
work.accident_id.nunique()

In [None]:
work.sample(3)

In [None]:
work.to_csv(file_path + 'dtp_stat_all.csv', index=False)

In [None]:
#work.to_excel(file_path + 'dtp_stat_new.xlsx', index=False, sheet_name='original')