# Анализ решений по апелляциям на постановления ГИБДД

## п. 2. Предобработка решений
Цель данного этапа:   
Предобработать решения - выделение метаданных и признаков: дата вынесения постановления, решения, город, суд, судья, инстанция, наличие представителя привлекаемого лица в суде (юрист/адвокат), номер статьи, доказательная база (наличие фото/видео материалов, свидетелей, понятых), тип решения (удовлетворить/частично/отказать...), возможно что-то ещё.

## 1. Creating df of resolusions filtrated be parameters

Существующая база решений всех судом РФ за 2010...2013 годы нахиодится в папке data/sou/ и имеет следующйю структуру: data/sou/court_name/year/resolution_n.xml

В данном проекте будут рассматриваться только дела одновременно соответствующие всем следующим критериям:
1. Вид судопроизводства: административное (Дела об админитсративных правонарушениях)
2. Этап: Апелляция
3. Статьи: главы 12 КоАП РФ (правонарушения в сфере ПДД)
4. Вид документа: решение
5. Первая инстанция: ГИБДД (инспектор ДПС)
6. Суд: все районные суды г. Москвы

In [44]:
from glob import glob
from tqdm import tqdm
import os
from bs4 import BeautifulSoup
from IPython.core.display import display, HTML
import pandas as pd
import numpy as np
import re

In [2]:
#Structure
glob('../../data/sou/*')

['../../data/sou/svobodnenskij-rajonnyj-sud-amurskaya-oblast-1759',
 '../../data/sou/motovilixinskij-rajonnyj-sud-g-permi-permskij-kraj-1277',
 '../../data/sou/arkadakskij-rajonnyj-sud-saratovskaya-oblast-190',
 '../../data/sou/oktyabrskij-rajonnyj-sud-g-tomska-tomskaya-oblast-1468',
 '../../data/sou/tunkinskij-rajonnyj-sud-respublika-buryatiya-2034',
 '../../data/sou/zarechenskij-gorodskoj-sud-penzenskaya-oblast-654',
 '../../data/sou/ulyanovskij-rajonnyj-sud-ulyanovskaya-oblast-2067',
 '../../data/sou/bogorodskij-gorodskoj-sud-nizhegorodskaya-oblast-312',
 '../../data/sou/sosnovskij-rajonnyj-sud-nizhegorodskaya-oblast-1875',
 '../../data/sou/plavskij-rajonnyj-sud-tulskaya-oblast-1584',
 '../../data/sou/sakmarskij-rajonnyj-sud-orenburgskaya-oblast-1723',
 '../../data/sou/pervomajskij-rajonnyj-sud-g-krasnodara-krasnodarskij-kraj-1547',
 '../../data/sou/staropoltavskij-rajonnyj-sud-volgogradskaya-oblast-1895',
 '../../data/sou/voskresenskij-rajonnyj-sud-nizhegorodskaya-oblast-440',
 '..

In [3]:
#Creating list of all Moscow district courts
all_courts_list = glob('../../data/sou/*') #all courts
sub = 'rajonnyj-sud-gorod-moskva' #sub name of folder of Moscow district courts
msk_districts_courts_list = sorted([s for s in all_courts_list if sub in s]) # sorted list of all Moscow district courts
print('Районных судов в Москве: {}'.format(len(msk_districts_courts_list)))
msk_districts_courts_list

Районных судов в Москве: 33


['../../data/sou/babushkinskij-rajonnyj-sud-gorod-moskva-218',
 '../../data/sou/basmannyj-rajonnyj-sud-gorod-moskva-247',
 '../../data/sou/butyrskij-rajonnyj-sud-gorod-moskva-368',
 '../../data/sou/cheremushkinskij-rajonnyj-sud-gorod-moskva-2205',
 '../../data/sou/chertanovskij-rajonnyj-sud-gorod-moskva-2225',
 '../../data/sou/dorogomilovskij-rajonnyj-sud-gorod-moskva-563',
 '../../data/sou/gagarinskij-rajonnyj-sud-gorod-moskva-462',
 '../../data/sou/golovinskij-rajonnyj-sud-gorod-moskva-479',
 '../../data/sou/izmajlovskij-rajonnyj-sud-gorod-moskva-706',
 '../../data/sou/koptevskij-rajonnyj-sud-gorod-moskva-934',
 '../../data/sou/kuncevskij-rajonnyj-sud-gorod-moskva-1047',
 '../../data/sou/kuzminskij-rajonnyj-sud-gorod-moskva-1030',
 '../../data/sou/lefortovskij-rajonnyj-sud-gorod-moskva-1148',
 '../../data/sou/lyublinskij-rajonnyj-sud-gorod-moskva-1178',
 '../../data/sou/meshhanskij-rajonnyj-sud-gorod-moskva-1232',
 '../../data/sou/nagatinskij-rajonnyj-sud-gorod-moskva-1298',
 '../../

In [87]:
%%time
#creating df of all_msk-districts_courts

cols = ['region', 'court', 'judge', 'vidpr', 'etapd', 'category', 'result', 'date', 'vid_dokumenta', 'file']
df_msk_districts = pd.DataFrame(columns=cols)


for court in msk_districts_courts_list: 
    print(court)
    path = court
    years_list = glob(os.path.join(path, '*'))
    for year in years_list:
        path = year
        files = glob(os.path.join(path, '*'))
        for file in tqdm(files):
            with open(file, 'r', encoding='utf-8') as fd:
                doc = fd.read()
            parsed_html = BeautifulSoup(doc)
            df_msk_districts = df_msk_districts.append(
                {
                    'region': parsed_html.region.text,
                    'court': parsed_html.court.text,
                    'judge': parsed_html.judge.text,
                    'vidpr': parsed_html.vidpr.text,
                    'etapd': parsed_html.etapd.text,
                    'category': parsed_html.category.text,
                    'result': parsed_html.result.text,
                    'date': parsed_html.date.text,
                    'vid_dokumenta': parsed_html.vid_dokumenta.text,
                    'file': file
                }, 
                ignore_index=True
            )

  1%|          | 15/1964 [00:00<00:13, 149.31it/s]

../../data/sou/babushkinskij-rajonnyj-sud-gorod-moskva-218


100%|██████████| 1964/1964 [00:08<00:00, 218.23it/s]
100%|██████████| 146/146 [00:00<00:00, 216.68it/s]
100%|██████████| 681/681 [00:03<00:00, 215.30it/s]
100%|██████████| 2342/2342 [00:11<00:00, 203.92it/s]
  0%|          | 20/4618 [00:00<00:23, 191.78it/s]

../../data/sou/basmannyj-rajonnyj-sud-gorod-moskva-247


100%|██████████| 4618/4618 [00:26<00:00, 172.35it/s]
100%|██████████| 115/115 [00:00<00:00, 159.56it/s]
100%|██████████| 767/767 [00:04<00:00, 153.82it/s]
100%|██████████| 2713/2713 [00:19<00:00, 142.32it/s]
  1%|          | 14/2707 [00:00<00:19, 136.66it/s]

../../data/sou/butyrskij-rajonnyj-sud-gorod-moskva-368


100%|██████████| 2707/2707 [00:21<00:00, 128.05it/s]
100%|██████████| 540/540 [00:04<00:00, 121.78it/s]
100%|██████████| 532/532 [00:04<00:00, 117.84it/s]
100%|██████████| 3966/3966 [00:36<00:00, 110.05it/s]
  1%|          | 11/1923 [00:00<00:18, 104.68it/s]

../../data/sou/cheremushkinskij-rajonnyj-sud-gorod-moskva-2205


100%|██████████| 1923/1923 [00:19<00:00, 99.63it/s]
100%|██████████| 143/143 [00:01<00:00, 97.20it/s]
100%|██████████| 4825/4825 [00:53<00:00, 90.82it/s]
  1%|          | 9/1102 [00:00<00:12, 86.04it/s]

../../data/sou/chertanovskij-rajonnyj-sud-gorod-moskva-2225


100%|██████████| 1102/1102 [00:13<00:00, 84.20it/s]
100%|██████████| 10/10 [00:00<00:00, 83.07it/s]
100%|██████████| 816/816 [00:09<00:00, 82.73it/s]
100%|██████████| 1005/1005 [00:12<00:00, 81.32it/s]
  0%|          | 8/2093 [00:00<00:26, 79.93it/s]

../../data/sou/dorogomilovskij-rajonnyj-sud-gorod-moskva-563


100%|██████████| 2093/2093 [00:26<00:00, 78.19it/s]
100%|██████████| 40/40 [00:00<00:00, 76.52it/s]
100%|██████████| 79/79 [00:01<00:00, 76.55it/s]
100%|██████████| 544/544 [00:07<00:00, 75.50it/s]
  0%|          | 8/4058 [00:00<00:53, 76.17it/s]

../../data/sou/gagarinskij-rajonnyj-sud-gorod-moskva-462


100%|██████████| 4058/4058 [00:56<00:00, 72.26it/s]
100%|██████████| 281/281 [00:04<00:00, 69.31it/s]
100%|██████████| 1620/1620 [00:23<00:00, 67.99it/s]
100%|██████████| 2863/2863 [00:44<00:00, 65.06it/s]
  0%|          | 7/1767 [00:00<00:27, 63.93it/s]

../../data/sou/golovinskij-rajonnyj-sud-gorod-moskva-479


100%|██████████| 1767/1767 [00:28<00:00, 62.27it/s]
100%|██████████| 51/51 [00:00<00:00, 61.61it/s]
100%|██████████| 762/762 [00:12<00:00, 60.91it/s]
100%|██████████| 2756/2756 [00:46<00:00, 59.10it/s]
  0%|          | 6/3744 [00:00<01:03, 58.48it/s]

../../data/sou/izmajlovskij-rajonnyj-sud-gorod-moskva-706


100%|██████████| 3744/3744 [01:06<00:00, 56.25it/s]
100%|██████████| 50/50 [00:00<00:00, 54.39it/s]
100%|██████████| 187/187 [00:03<00:00, 54.43it/s]
100%|██████████| 1034/1034 [00:19<00:00, 53.82it/s]
100%|██████████| 5449/5449 [01:45<00:00, 51.61it/s]
  1%|          | 6/1174 [00:00<00:23, 50.23it/s]

../../data/sou/koptevskij-rajonnyj-sud-gorod-moskva-934


100%|██████████| 1174/1174 [00:23<00:00, 49.34it/s]
100%|██████████| 103/103 [00:02<00:00, 48.97it/s]
100%|██████████| 285/285 [00:05<00:00, 49.14it/s]
  2%|▏         | 5/245 [00:00<00:04, 49.49it/s]

../../data/sou/kuncevskij-rajonnyj-sud-gorod-moskva-1047


100%|██████████| 245/245 [00:05<00:00, 48.78it/s]
100%|██████████| 3/3 [00:00<00:00, 48.58it/s]
100%|██████████| 472/472 [00:09<00:00, 48.70it/s]
100%|██████████| 1360/1360 [00:28<00:00, 47.60it/s]
  0%|          | 5/5709 [00:00<02:00, 47.31it/s]

../../data/sou/kuzminskij-rajonnyj-sud-gorod-moskva-1030


100%|██████████| 5709/5709 [02:05<00:00, 45.45it/s]
100%|██████████| 890/890 [00:20<00:00, 43.99it/s]
100%|██████████| 1280/1280 [00:29<00:00, 43.35it/s]
100%|██████████| 3597/3597 [01:25<00:00, 42.12it/s]
  0%|          | 5/2321 [00:00<00:56, 41.23it/s]

../../data/sou/lefortovskij-rajonnyj-sud-gorod-moskva-1148


100%|██████████| 2321/2321 [00:57<00:00, 40.35it/s]
100%|██████████| 230/230 [00:05<00:00, 39.40it/s]
100%|██████████| 1008/1008 [00:25<00:00, 39.26it/s]
100%|██████████| 920/920 [00:23<00:00, 38.98it/s]
  0%|          | 4/8710 [00:00<03:43, 39.02it/s]

../../data/sou/lyublinskij-rajonnyj-sud-gorod-moskva-1178


100%|██████████| 8710/8710 [03:52<00:00, 37.42it/s]
100%|██████████| 356/356 [00:09<00:00, 35.77it/s]
100%|██████████| 625/625 [00:17<00:00, 35.80it/s]
100%|██████████| 4133/4133 [01:58<00:00, 34.94it/s]
  0%|          | 4/1234 [00:00<00:35, 34.23it/s]

../../data/sou/meshhanskij-rajonnyj-sud-gorod-moskva-1232


100%|██████████| 1234/1234 [00:36<00:00, 33.97it/s]
100%|██████████| 31/31 [00:00<00:00, 33.79it/s]
100%|██████████| 880/880 [00:26<00:00, 33.65it/s]
100%|██████████| 1866/1866 [00:55<00:00, 33.64it/s]
  0%|          | 4/6236 [00:00<03:05, 33.53it/s]

../../data/sou/nagatinskij-rajonnyj-sud-gorod-moskva-1298


100%|██████████| 6236/6236 [03:12<00:00, 32.45it/s]
100%|██████████| 54/54 [00:01<00:00, 31.60it/s]
100%|██████████| 745/745 [00:23<00:00, 31.39it/s]
100%|██████████| 2875/2875 [01:33<00:00, 30.85it/s]
  0%|          | 4/2928 [00:00<01:36, 30.27it/s]

../../data/sou/nikulinskij-rajonnyj-sud-gorod-moskva-1357


100%|██████████| 2928/2928 [01:36<00:00, 30.30it/s]
100%|██████████| 683/683 [00:22<00:00, 29.89it/s]
100%|██████████| 2144/2144 [01:12<00:00, 29.44it/s]
  0%|          | 3/1128 [00:00<00:38, 29.31it/s]

../../data/sou/ostankinskij-rajonnyj-sud-gorod-moskva-1506


100%|██████████| 1128/1128 [00:38<00:00, 29.07it/s]
100%|██████████| 12/12 [00:00<00:00, 29.24it/s]
100%|██████████| 436/436 [00:15<00:00, 28.95it/s]
100%|██████████| 493/493 [00:17<00:00, 28.92it/s]
  0%|          | 3/860 [00:00<00:29, 29.07it/s]

../../data/sou/perovskij-rajonnyj-sud-gorod-moskva-1559


100%|██████████| 860/860 [00:29<00:00, 28.73it/s]
100%|██████████| 61/61 [00:02<00:00, 28.60it/s]
100%|██████████| 546/546 [00:19<00:00, 28.58it/s]
100%|██████████| 1013/1013 [00:35<00:00, 28.38it/s]
  0%|          | 3/1891 [00:00<01:06, 28.52it/s]

../../data/sou/preobrazhenskij-rajonnyj-sud-gorod-moskva-1618


100%|██████████| 1891/1891 [01:07<00:00, 28.09it/s]
100%|██████████| 27/27 [00:00<00:00, 27.93it/s]
100%|██████████| 1361/1361 [00:49<00:00, 27.77it/s]
100%|██████████| 3929/3929 [02:24<00:00, 27.24it/s]
  0%|          | 3/1190 [00:00<00:43, 27.16it/s]

../../data/sou/presnenskij-rajonnyj-sud-gorod-moskva-1619


100%|██████████| 1190/1190 [00:44<00:00, 26.78it/s]
100%|██████████| 5/5 [00:00<00:00, 26.64it/s]
100%|██████████| 384/384 [00:14<00:00, 26.47it/s]
100%|██████████| 2214/2214 [01:24<00:00, 26.19it/s]
  0%|          | 3/1779 [00:00<01:07, 26.34it/s]

../../data/sou/savelovskij-rajonnyj-sud-gorod-moskva-1721


100%|██████████| 1779/1779 [01:08<00:00, 25.98it/s]
100%|██████████| 36/36 [00:01<00:00, 25.86it/s]
100%|██████████| 137/137 [00:05<00:00, 25.94it/s]
100%|██████████| 1513/1513 [00:58<00:00, 25.80it/s]
  0%|          | 3/791 [00:00<00:30, 25.93it/s]

../../data/sou/simonovskij-rajonnyj-sud-gorod-moskva-1797


100%|██████████| 791/791 [00:30<00:00, 25.72it/s]
100%|██████████| 45/45 [00:01<00:00, 25.62it/s]
100%|██████████| 899/899 [00:35<00:00, 25.53it/s]
100%|██████████| 1976/1976 [01:18<00:00, 25.15it/s]
  0%|          | 3/1631 [00:00<01:04, 25.21it/s]

../../data/sou/solncevskij-rajonnyj-sud-gorod-moskva-1858


100%|██████████| 1631/1631 [01:05<00:00, 24.93it/s]
100%|██████████| 285/285 [00:11<00:00, 24.77it/s]
100%|██████████| 1151/1151 [00:46<00:00, 24.61it/s]
100%|██████████| 1022/1022 [00:41<00:00, 24.45it/s]
  0%|          | 3/2786 [00:00<01:53, 24.61it/s]

../../data/sou/taganskij-rajonnyj-sud-gorod-moskva-1943


100%|██████████| 2786/2786 [01:56<00:00, 23.89it/s]
100%|██████████| 64/64 [00:02<00:00, 23.58it/s]
100%|██████████| 789/789 [00:33<00:00, 23.49it/s]
100%|██████████| 2730/2730 [01:57<00:00, 23.33it/s]
  0%|          | 3/2108 [00:00<01:29, 23.42it/s]

../../data/sou/timiryazevskij-rajonnyj-sud-gorod-moskva-1987


100%|██████████| 2108/2108 [01:30<00:00, 23.19it/s]
100%|██████████| 107/107 [00:04<00:00, 23.14it/s]
100%|██████████| 1813/1813 [01:19<00:00, 22.90it/s]
100%|██████████| 3555/3555 [02:36<00:00, 22.65it/s]
  1%|          | 3/421 [00:00<00:18, 22.67it/s]

../../data/sou/tushinskij-rajonnyj-sud-gorod-moskva-2040


100%|██████████| 421/421 [00:18<00:00, 22.42it/s]
100%|██████████| 1147/1147 [00:51<00:00, 22.28it/s]
  1%|          | 3/511 [00:00<00:22, 22.24it/s]

../../data/sou/tverskoj-rajonnyj-sud-gorod-moskva-1971


100%|██████████| 511/511 [00:22<00:00, 22.23it/s]
100%|██████████| 7/7 [00:00<00:00, 22.09it/s]
100%|██████████| 10/10 [00:00<00:00, 22.15it/s]
100%|██████████| 1317/1317 [00:59<00:00, 22.11it/s]
  0%|          | 3/967 [00:00<00:43, 22.36it/s]

../../data/sou/xamovnicheskij-rajonnyj-sud-gorod-moskva-2134


100%|██████████| 967/967 [00:43<00:00, 22.03it/s]
100%|██████████| 533/533 [00:24<00:00, 21.91it/s]
100%|██████████| 839/839 [00:38<00:00, 21.73it/s]
  0%|          | 3/912 [00:00<00:41, 21.76it/s]

../../data/sou/xoroshevskij-rajonnyj-sud-gorod-moskva-2153


100%|██████████| 912/912 [00:42<00:00, 21.67it/s]
100%|██████████| 508/508 [00:23<00:00, 21.81it/s]
100%|██████████| 345/345 [00:15<00:00, 21.81it/s]
100%|██████████| 2119/2119 [01:39<00:00, 21.33it/s]
  2%|▏         | 3/132 [00:00<00:06, 21.44it/s]

../../data/sou/zamoskvoreckij-rajonnyj-sud-gorod-moskva-649


100%|██████████| 132/132 [00:06<00:00, 21.17it/s]
100%|██████████| 800/800 [00:37<00:00, 21.10it/s]
100%|██████████| 949/949 [00:45<00:00, 21.02it/s]
  0%|          | 3/3294 [00:00<02:34, 21.27it/s]

../../data/sou/zelenogradskij-rajonnyj-sud-gorod-moskva-668


100%|██████████| 3294/3294 [02:38<00:00, 20.81it/s]
100%|██████████| 664/664 [00:32<00:00, 20.57it/s]
100%|██████████| 771/771 [00:37<00:00, 20.47it/s]
100%|██████████| 3200/3200 [02:38<00:00, 20.25it/s]
  0%|          | 3/1178 [00:00<00:58, 20.24it/s]

../../data/sou/zyuzinskij-rajonnyj-sud-gorod-moskva-691


100%|██████████| 1178/1178 [00:58<00:00, 20.05it/s]
100%|██████████| 124/124 [00:06<00:00, 19.93it/s]
100%|██████████| 213/213 [00:10<00:00, 19.85it/s]
100%|██████████| 1266/1266 [01:04<00:00, 19.77it/s]

CPU times: user 1h 20min 9s, sys: 39.1 s, total: 1h 20min 48s
Wall time: 1h 20min 15s





In [550]:
#save to csv
df_msk_districts.to_csv('df_msk_districts.csv', index=False)

In [45]:
#load from csv back
df_msk_districts = pd.read_csv('df_msk_districts.csv')
df_msk_districts

Unnamed: 0,region,court,judge,vidpr,etapd,category,result,date,vid_dokumenta,file
0,Москва,Бабушкинский районный суд (Город Москва),Скулина Юлия Андреевна,Гражданское,Первая инстанция,Иски о взыскании сумм по договору займа,Иск (заявление) удовлетворен (в том числе част...,30.03.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
1,Москва,Бабушкинский районный суд (Город Москва),Романцова Татьяна Алексеевна,Гражданское,Первая инстанция,Прочие исковые дела,Иск (заявление) удовлетворен (в том числе част...,09.02.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
2,Москва,Бабушкинский районный суд (Город Москва),Романцова Татьяна Алексеевна,Гражданское,Первая инстанция,"Другие споры, связанные с землепользованием",Иск (заявление) удовлетворен (в том числе част...,20.01.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
3,Москва,Бабушкинский районный суд (Город Москва),Рябова Елена Вячеславовна,Гражданское,Первая инстанция,Иски о возмещении ущерба от ДТП,Иск (заявление) удовлетворен (в том числе част...,13.07.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
4,Москва,Бабушкинский районный суд (Город Москва),Мартыненко Антон Анатольевич,Уголовное,Первая инстанция,162 ч.2,Обвинительный приговор,18.05.2012,приговор,../../data/sou/babushkinskij-rajonnyj-sud-goro...
5,Москва,Бабушкинский районный суд (Город Москва),Никитин Владимир Федорович,Уголовное,Первая инстанция,228.1 ч.1,Обвинительный приговор,21.08.2012,приговор,../../data/sou/babushkinskij-rajonnyj-sud-goro...
6,Москва,Бабушкинский районный суд (Город Москва),Рябова Елена Вячеславовна,Гражданское,Первая инстанция,Трудовые споры (независимо от форм собственнос...,Отказано,10.02.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
7,Москва,Бабушкинский районный суд (Город Москва),Иваненко Юлия Сергеевна,Гражданское,Первая инстанция,"О защите чести, достоинства, деловой репутации...",Иск (заявление) удовлетворен (в том числе част...,27.07.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
8,Москва,Бабушкинский районный суд (Город Москва),Чернышева Татьяна Викторовна,Гражданское,Первая инстанция,Иски о взыскании платы за жилую площадь и комм...,Иск (заявление) удовлетворен (в том числе част...,10.02.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
9,Москва,Бабушкинский районный суд (Город Москва),Романцова Татьяна Алексеевна,Гражданское,Первая инстанция,Прочие исковые дела,Иск (заявление) удовлетворен (в том числе част...,13.07.2012,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...


In [46]:
# create sub df of court resolutions on appeal by administrative cases
vidpr = 'Административное'
etapd = 'Апелляция'
vid_dokumenta = 'решение'
category = '12.'

df_12koap=df_msk_districts[(df_msk_districts.vidpr==vidpr)&(df_msk_districts.etapd==etapd)& \
                 (df_msk_districts.vid_dokumenta==vid_dokumenta)&
                 (df_msk_districts['category'].apply(lambda x: True if str(x).find('12.')>=0 else False) == True)]

df_12koap

Unnamed: 0,region,court,judge,vidpr,etapd,category,result,date,vid_dokumenta,file
3125,Москва,Бабушкинский районный суд (Город Москва),Иваненко Юлия Сергеевна,Административное,Апелляция,12.27 ч.2,Оставлено без изменения,08.08.2011,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
3291,Москва,Бабушкинский районный суд (Город Москва),Иваненко Юлия Сергеевна,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,08.08.2011,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
4446,Москва,Бабушкинский районный суд (Город Москва),Иваненко Юлия Сергеевна,Административное,Апелляция,12.26 ч.1,Оставлено без изменения,08.08.2011,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
4521,Москва,Бабушкинский районный суд (Город Москва),Иваненко Юлия Сергеевна,Административное,Апелляция,12.26 ч.1,Оставлено без изменения,08.08.2011,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
4728,Москва,Бабушкинский районный суд (Город Москва),Иваненко Юлия Сергеевна,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,08.08.2011,решение,../../data/sou/babushkinskij-rajonnyj-sud-goro...
5292,Москва,Басманный районный суд (Город Москва),Дударь Н. Н.,Административное,Апелляция,12.8 ч.1,Оставлено без изменения,05.07.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...
5327,Москва,Басманный районный суд (Город Москва),Дударь Н. Н.,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,18.01.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...
5396,Москва,Басманный районный суд (Город Москва),Дударь Наталия Николаевна,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,13.09.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...
5400,Москва,Басманный районный суд (Город Москва),Дударь Наталия Николаевна,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,13.09.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...
5495,Москва,Басманный районный суд (Город Москва),Скуридина Ирина Анатольевна,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,23.10.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...


## 2. Preprocessing

### 2.1 Reveiw some statistics

In [58]:
# get statictics (absolute numbers)
def df_statistics(df):
    for col in df.columns:
        print(col)
        print('Absolute values: \n')
        print(df[col].value_counts())
        print('\n')
        print('Percentages: \n')
        print(df[col].value_counts()/len(df)*100)
        print('-'*40)

In [124]:
df_statistics(df_12koap)

region
Absolute values: 

Москва    3317
Name: region, dtype: int64


Percentages: 

Москва    100.0
Name: region, dtype: float64
----------------------------------------
court
Absolute values: 

Черемушкинский районный суд (Город Москва)    544
Зеленоградский районный суд (Город Москва)    458
Кузьминский районный суд (Город Москва)       414
Симоновский районный суд (Город Москва)       248
Хорошевский районный суд (Город Москва)       218
Бутырский районный суд (Город Москва)         190
Басманный районный суд (Город Москва)         181
Солнцевский районный суд (Город Москва)       133
Тимирязевский районный суд (Город Москва)     132
Лефортовский районный суд (Город Москва)      123
Перовский районный суд (Город Москва)         118
Останкинский районный суд (Город Москва)      104
Чертановский районный суд (Город Москва)       83
Коптевский районный суд (Город Москва)         77
Измайловский районный суд (Город Москва)       60
Головинский районный суд (Город Москва)        47
Нику

### 2.2 Editing categories' values

Видим, что в качестве значения признака category есть такие значения как '12.26 ч.1; 12.26' или '12.26; 12.26 ч.1', которые являются другим видом записи значения признака '12.26 ч.1'.
Приведём все такие записи значений в единый вид.

In [125]:
# edit categories like '12.xx ч.y; 12.xx or 12.xx; 12.xx ч.y' into '12.xx ч.y'
def edit_category(category):
    import re
    if type(category) != str: stat_part = category
    elif len(re.findall(r'12\.\d+(?:\.\d)? ч.\d+; 12\.\d+(?:\.\d)?', category)) == 1:
        stat_part = re.findall(r'(12\.\d+(?:\.\d)? ч.\d+); 12\.\d+(?:\.\d)?', category)[0]
    elif len(re.findall(r'12\.\d+(?:\.\d)?; 12\.\d+ ч.\d+(?:\.\d)?', category)) == 1:
        stat_part = re.findall(r'12\.\d+(?:\.\d)?; (12\.\d+ ч.\d+(?:\.\d)?)', category)[0]
    else: stat_part = category
    return stat_part

In [89]:
df_12koap.loc[:,'category'] = df_12koap['category'].apply(edit_category)

In [126]:
df_statistics(df_12koap)

region
Absolute values: 

Москва    3317
Name: region, dtype: int64


Percentages: 

Москва    100.0
Name: region, dtype: float64
----------------------------------------
court
Absolute values: 

Черемушкинский районный суд (Город Москва)    544
Зеленоградский районный суд (Город Москва)    458
Кузьминский районный суд (Город Москва)       414
Симоновский районный суд (Город Москва)       248
Хорошевский районный суд (Город Москва)       218
Бутырский районный суд (Город Москва)         190
Басманный районный суд (Город Москва)         181
Солнцевский районный суд (Город Москва)       133
Тимирязевский районный суд (Город Москва)     132
Лефортовский районный суд (Город Москва)      123
Перовский районный суд (Город Москва)         118
Останкинский районный суд (Город Москва)      104
Чертановский районный суд (Город Москва)       83
Коптевский районный суд (Город Москва)         77
Измайловский районный суд (Город Москва)       60
Головинский районный суд (Город Москва)        47
Нику

Теперь все значения приобразованы к единому виду. Такие значения как '12.26 ч.1; 12.26' или '12.26; 12.26 ч.1' исчезли.

### 2.3 Editing results' values

Значение признака result:  
'Отменено c возвращением на новое рассмотрение' то же самое что и 'Отменено возвращением на новое рассмотрение',  
'Производство по делу прекращено' то же самое что и 'Отменено с прекращением производства'.  
Изменим все одинаковые по сути значения на те, которые используются чаще.

In [216]:
# edit the same decisions into single type
df_12koap.replace('Отменено с возвращением на новое рассмотрение', \
                  'Отменено возвращением на новое рассмотрение', inplace=True)
df_12koap.replace('Производство по делу прекращено', \
                  'Отменено с прекращением производства', inplace=True)

In [217]:
df_statistics(df_12koap)

region
Absolute values: 

Москва    3317
Name: region, dtype: int64


Percentages: 

Москва    100.0
Name: region, dtype: float64
----------------------------------------
court
Absolute values: 

Черемушкинский районный суд (Город Москва)    544
Зеленоградский районный суд (Город Москва)    458
Кузьминский районный суд (Город Москва)       414
Симоновский районный суд (Город Москва)       248
Хорошевский районный суд (Город Москва)       218
Бутырский районный суд (Город Москва)         190
Басманный районный суд (Город Москва)         181
Солнцевский районный суд (Город Москва)       133
Тимирязевский районный суд (Город Москва)     132
Лефортовский районный суд (Город Москва)      123
Перовский районный суд (Город Москва)         118
Останкинский районный суд (Город Москва)      104
Чертановский районный суд (Город Москва)       83
Коптевский районный суд (Город Москва)         77
Измайловский районный суд (Город Москва)       60
Головинский районный суд (Город Москва)        47
Нику

### 2.4 Add feature 'first instance'

Не все постановления по статьям 12 гл. КоАП выносятся ГИБДД. Согласно ч.1 ст. 23.1 КоАП РФ есть перечень статей, по которым постановление выносит мировой судья судебного участка, однако согласно ч. 2 той же статьи есть другой перечень статей, по которым постановление может вынести как ГИБДД, так и судья в случае, если сотруднк ГИБДД передаст это дело на рассмотрение в суд. Поэтому одназначно разделить подсудность между ГИБДД и судьями только на основании статьи невозможно. Кроме того, в пследние годы постановления по 12. гл. КоАП также стали выносить сотрудники таких организаций как МАДИ и АМПП (в Москве), в других регионах возможно тоже есть аналогичные службы, которые наряду с ГИБДД и судьями наделены полномочиями выносить постановления по 12 гл. КоАП РФ.   

Для определения первой инстанции: 
- 1) сначла проверяем докумнет по номеру статьи, если по данной статье решения однозначно выносятся только мировым судьёй судебного участка - то присваиваем этому документу в качестве 1-й инстанции - "Мировой суд", 
- 2) если же статья не входит в список статей, которые рассматриваются исключительно судьями, то 1-я инстанция определяется с помощью поиска ключевых слов и словосочетаний в тексте решений.

#### 2.4.1 Creating list of stats for mirovoy_sud only

В данной части сформируем список статей по которым постановление принимает не инспектор ГИБДД, а мировой судья.
Данный перечень содержится в тексте главы 23 КоАП РФ. Для формирования списка статей в виде, используемом в судебных актах воспользуемся регулярными выражениями.

In [36]:
# convert text with comma separaterd stats to list of standard veiw stats
def text_to_stats(text, gl='12'):
    #separate text into lines like 'parts...of stat...'
    import re
    mir_sud_cats = re.split(r'(?<='+gl+r'.\d), |(?<='+gl+r'.\d\d), |(?<='+gl+r'.\d\d.\d), |(?<=[)]), ', text)
    
    #convert stats to standard form
    stat_parts = []
    for category in mir_sud_cats:
        if len(re.findall(r' (\d(?:\.\d)?)\b', category)) == 1:
            stat = re.findall(r''+gl+r'\.\d+(?:\.\d)?', category)[0]
            part = re.findall(r' (\d(?:\.\d)?)\b', category)[0]
            stat_part = stat+' ч.'+part
            stat_parts.append(stat_part)
        if len(re.findall(r' (\d(?:\.\d)?)\b', category)) == 0:
            stat = re.findall(r''+gl+r'\.\d+(?:\.\d)?', category)[0]
            stat_part = stat
            stat_parts.append(stat_part)
        if len(re.findall(r' (\d(?:\.\d)?)\b', category)) > 1:
            stat = re.findall(r''+gl+r'\.\d+(?:\.\d)?', category)[0]
            parts = list(re.findall(r' (\d(?:\.\d)?)\b', category))
            if len(re.findall(r'\d - \d', category)) >=1:
                start = int(re.findall(r'\d - \d', category)[0][0])
                end = int(re.findall(r'\d - \d', category)[0][-1])
                parts.extend(str(i) for i in range(start, end+1))
                parts = sorted(set(parts))
            for part in parts:
                stat_part = stat+' ч.'+part
                stat_parts.append(stat_part)
    return stat_parts

Подсудность дел об административных правонарушениях

Мировой судья рассматривает дела об административных правонарушениях предусмотренные КоАП РФ в пределах компетенции установленной главой 23 КоАП РФ.

ч.1 ст. 23.1 КоАП РФ: (только статьи по Главе 12 КоАП РФ - нарущения в сфере ПДД)

... частью 4 статьи 12.2, частью 2.1 статьи 12.3, частями 1, 2, частью 3 (в случаях незаконного нанесения цветографической схемы легкового такси) статьи 12.4, частями 3, 4 - 7 статьи 12.5, частью 2 статьи 12.7, статьей 12.8, частью 7 статьи 12.9 (за исключением случаев фиксации административного правонарушения работающими в автоматическом режиме специальными техническими средствами, имеющими функции фото- и киносъемки, видеозаписи), частью 3 статьи 12.10, частью 5 статьи 12.15 (за исключением случаев фиксации административного правонарушения работающими в автоматическом режиме специальными техническими средствами, имеющими функции фото- и киносъемки, видеозаписи, или средствами фото- и киносъемки, видеозаписи), частью 3.1 статьи 12.16 (за исключением случаев фиксации административного правонарушения работающими в автоматическом режиме специальными техническими средствами, имеющими функции фото- и киносъемки, видеозаписи, или средствами фото- и киносъемки, видеозаписи), статьями 12.24, 12.26, частями 2 и 3 статьи 12.27, статьями 12.34, 12.35, ...

In [37]:
mir_sud_text = 'частью 4 статьи 12.2, частью 2.1 статьи 12.3, частями 1, 2, частью 3 (в случаях незаконного нанесения цветографической схемы легкового такси) статьи 12.4, частями 3, 4 - 7 статьи 12.5, частью 2 статьи 12.7, статьей 12.8, частью 7 статьи 12.9 (за исключением случаев фиксации административного правонарушения работающими в автоматическом режиме специальными техническими средствами, имеющими функции фото- и киносъемки, видеозаписи), частью 3 статьи 12.10, частью 5 статьи 12.15 (за исключением случаев фиксации административного правонарушения работающими в автоматическом режиме специальными техническими средствами, имеющими функции фото- и киносъемки, видеозаписи, или средствами фото- и киносъемки, видеозаписи), частью 3.1 статьи 12.16 (за исключением случаев фиксации административного правонарушения работающими в автоматическом режиме специальными техническими средствами, имеющими функции фото- и киносъемки, видеозаписи, или средствами фото- и киносъемки, видеозаписи), статьями 12.24, 12.26, частями 2 и 3 статьи 12.27, статьями 12.34, 12.35'

Постановления по данным частям могут выноситься сотрудниками ГИБДД, поэтому их удаляем:
<br>
частью 3 статьи 12.4 - ГИБДД
<br>
частью 7 статьи 12.9 (повторное превышение скорости) - ЦАФАП ГИБДД
<br>
частью 5 статьи 12.15 (повторный выезд на стречную полосу) - ГИБДД ЦАФАП
<br>
частью 3.1 статьи 12.16 (повторное движение во встречном направлении по односторонней дороге) - ГИБДД ЦАФАП

In [38]:
#creating list of gibdd_stats
text_gibdd_stats = 'частью 3 статьи 12.4, частью 7 статьи 12.9, частью 5 статьи 12.15, частью 3.1 статьи 12.16'
gibdd_stats = text_to_stats(text_gibdd_stats)
gibdd_stats

['12.4 ч.3', '12.9 ч.7', '12.15 ч.5', '12.16 ч.3.1']

In [39]:
#creating list of mir_sud_stats withot gibdd_stats
mir_sud_stat_parts = []
mir_sud_stat_parts = text_to_stats(mir_sud_text)
#del_gibdd_stats
mir_sud_stat_parts = set(mir_sud_stat_parts)
mir_sud_stat_parts.difference_update(set(gibdd_stats))
mir_sud_stat_parts

{'12.10 ч.3',
 '12.2 ч.4',
 '12.24',
 '12.26',
 '12.27 ч.2',
 '12.27 ч.3',
 '12.3 ч.2.1',
 '12.34',
 '12.35',
 '12.4 ч.1',
 '12.4 ч.2',
 '12.5 ч.3',
 '12.5 ч.4',
 '12.5 ч.5',
 '12.5 ч.6',
 '12.5 ч.7',
 '12.7 ч.2',
 '12.8'}

#### 2.4.2 Creating functions for text analisys

In [49]:
#check if resolutions of mirovoy sud
def is_mir_sud(text):
    import re
    if len(re.findall(r'[Сс]удебн\w+ [Уу]част\w+ |[Мм]иров\w+ [Сс]удь\w+', text)) > 0: return True
    else: return False

In [50]:
#check if resolutions of GIBDD
def is_gibdd(text):
    import re
    if len(re.findall(r'ГИБДД|ДПС|МВД|[Аа]втоматическ\w+', text)) > 0: return True
    elif (len(re.findall(r'[Ии]нспектор', text))>0)&(len(re.findall(r'12.', text))>0): return True
    else: return False

#### 2.4.3 Creating first_instance feature

In [60]:
def first_instance(file, mir_sud_stats = mir_sud_stat_parts):
    with open(file, 'r', encoding='utf-8') as fd: doc = fd.read()
    if BeautifulSoup(doc).category.text in mir_sud_stats: return 'Мировой суд'
    else:  
        text = BeautifulSoup(doc).body.text
        if is_mir_sud(text): return 'Мировой суд'
        elif is_gibdd(text): return 'ГИБДД'
        else: return 'Не определено'

In [64]:
df_12koap.loc[:,'first_instance'] = df_12koap['file'].apply(first_instance)
df_12koap[df_12koap['first_instance'] == 'Не определено']

Unnamed: 0,region,court,judge,vidpr,etapd,category,result,date,vid_dokumenta,file,first_instance
29495,Москва,Чертановский районный суд (Город Москва),Маркина Надежда Николаевна,Административное,Апелляция,12.8 ч.1,Оставлено без изменения,29.11.2010,решение,../../data/sou/chertanovskij-rajonnyj-sud-goro...,Не определено
30700,Москва,Чертановский районный суд (Город Москва),Тюркина Галина Михайловна,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,25.03.2011,решение,../../data/sou/chertanovskij-rajonnyj-sud-goro...,Не определено
66156,Москва,Кузьминский районный суд (Город Москва),Езерская Жанна Анатольевна,Административное,Апелляция,12.13 ч.2,Оставлено без изменения,17.09.2012,решение,../../data/sou/kuzminskij-rajonnyj-sud-gorod-m...,Не определено
113155,Москва,Останкинский районный суд (Город Москва),Ложкомоев Александр Юрьевич,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,08.11.2011,решение,../../data/sou/ostankinskij-rajonnyj-sud-gorod...,Не определено


Посмотрим кто выносил Постановления из тех, которые выносили не мировые судьи

In [159]:
def get_files_list(df):
    print('Всего документов: {}'.format(len(df)))
    return df.file.to_list()

In [161]:
#get text of sud act
def get_sud_text(files_list, doc_number):
    file = files_list[doc_number]
    with open(file, 'r', encoding='utf-8') as fd:
        doc = fd.read()
    parsed_html = BeautifulSoup(doc)
    return parsed_html.body.text

In [203]:
df = df_12koap[df_12koap['first_instance'] == 'Не определено']
no_mir_suf_list = get_files_list(df)

Всего документов: 4


В оставшихся 4 документах, где не определена 1-я инстанция: либо в метаданных неверно указана статья КоАП и в действительности не относится к гл. 12 либо из текста не очевидна первая инстанция

In [207]:
doc_number = 0

display(HTML(get_sud_text(no_mir_suf_list, doc_number)))

### 2.5 Creating sub df with only GIBDD first instance

In [210]:
df_gibdd = df_12koap[df_12koap.first_instance == 'ГИБДД']
print('Всего документов: {}'.format(len(df_gibdd)))
df_gibdd

Всего документов: 331


Unnamed: 0,region,court,judge,vidpr,etapd,category,result,date,vid_dokumenta,file,first_instance
6114,Москва,Басманный районный суд (Город Москва),Карпов Артур Геннадьевич,Административное,Апелляция,12.16 ч.1,Оставлено без изменения,06.11.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
7447,Москва,Басманный районный суд (Город Москва),Дударь Н. Н.,Административное,Апелляция,12.14 ч.3,Оставлено без изменения,05.07.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
8919,Москва,Басманный районный суд (Город Москва),Дударь Н. Н.,Административное,Апелляция,12.14 ч.3,Оставлено без изменения,05.07.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
9005,Москва,Басманный районный суд (Город Москва),Дударь Наталия Николаевна,Административное,Апелляция,12.14 ч.3,Оставлено без изменения,13.09.2012,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
9784,Москва,Басманный районный суд (Город Москва),Скуридина Ирина Анатольевна,Административное,Апелляция,12.16 ч.5,Оставлено без изменения,07.03.2013,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
9796,Москва,Басманный районный суд (Город Москва),Скуридина Ирина Анатольевна,Административное,Апелляция,12.16 ч.5,Оставлено без изменения,07.03.2013,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
9804,Москва,Басманный районный суд (Город Москва),Скуридина Ирина Анатольевна,Административное,Апелляция,12.16 ч.1,Оставлено без изменения,06.03.2013,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
10476,Москва,Басманный районный суд (Город Москва),Карпов А. Г.,Административное,Апелляция,12.13 ч.2,Оставлено без изменения,03.11.2010,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
10661,Москва,Басманный районный суд (Город Москва),Скуридина И. А.,Административное,Апелляция,12.19 ч.4,Оставлено без изменения,25.05.2011,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД
11171,Москва,Басманный районный суд (Город Москва),Мушникова Н. Е.,Административное,Апелляция,12.15 ч.4,Оставлено без изменения,02.06.2011,решение,../../data/sou/basmannyj-rajonnyj-sud-gorod-mo...,ГИБДД


### 2.6 Fill NaN

In [211]:
df_gibdd.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 331 entries, 6114 to 172816
Data columns (total 11 columns):
region            331 non-null object
court             331 non-null object
judge             329 non-null object
vidpr             331 non-null object
etapd             331 non-null object
category          331 non-null object
result            311 non-null object
date              331 non-null object
vid_dokumenta     331 non-null object
file              331 non-null object
first_instance    331 non-null object
dtypes: object(11)
memory usage: 31.0+ KB


Есть пропуски по судьям и пропуски по результату. Судьи нас пока не сильно волнуют, а вот результат важен. Посмотрим на данные тексты и решим как можно заполнить пропуски по результатам

In [262]:
def get_result(file):
    with open(file, 'r', encoding='utf-8') as fd: doc = fd.read()
    text = BeautifulSoup(doc).body.text
    if len(re.findall(r'[Пп]рекрат\w+', text)) > 0: return 'Отменено с прекращением производства'
    elif len(re.findall(r'[Оо]тказать', text)) > 0: return 'Оставлено без изменения'
    else: return 'Не определено'

In [264]:
df_gibdd.loc[(df_gibdd['result'].isna()==True)|(df_gibdd['result']== 'Не определено'), 'result'] = \
    df_gibdd.loc[(df_gibdd['result'].isna()==True), 'file'].apply(get_result)
df_gibdd[df_gibdd['result'] == 'Не определено']

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,region,court,judge,vidpr,etapd,category,result,date,vid_dokumenta,file,first_instance


In [268]:
df = df_gibdd[df_gibdd['result'] == 'Не определено']
na_list = get_files_list(df)

doc_number = 0
#display(HTML(get_sud_text(na_list, doc_number)))

Всего документов: 0


## 3. Adding keywords from text to features

### 3.1 Searching and adding 'Представитель/Адвокат/Защитник'

In [None]:
#В текстах судебных актов упоминается представтель, даже если по факту представителя привлекаемого лица нет, 
#проверим акты в ручную и посмотрим в каких случаях представитель имеется, а в каких случаях нет

#Наличие представителя:
#Представитель Шутовой Е.В. по доверенности
#В судебном заседании представитель Горбушин жалобу поддержал.
#с участием ФИО5, представителя ФИО2,
#ФИО5 и его представитель ФИО6 доводы жалобы поддержали
#с участием заявителя ФИО3 и его представителя ФИО7
#Заявитель ФИО3 и его представитель по доверенности ФИО7
#ФИО1 и ее представитель в суд явились, доводы жалобы поддержали
#ФИО4 и его представитель в суд не явились, дело просили рассмотреть в их отсутствие (л.д.64-65).
#Представитель Болдырь Н.И. просил отменить постановление
#Представитель заявителя в судебное заседание не явился, извещен.
#Представитель ЗАО « Мерседес Бенц Рус» просил отменить постановление
#Представитель заявителя в судебное заседание не явился, просил рассмотреть дело в свое отсутствие.
#Представитель ООО « Экстенал Менеджмент Груп» просил отменить постановление
#Заявитель и его представитель по доверенности ФИО3 в судебное заседание явились

#Отсутствие представителя:
#помощью защитника или представителя Героев И.Б. не воспользовался
#Заслушиваются объяснения физического лица или законного представителя юридического лица
#представитель МГУП «Мосводоканал»
#законным представителем физического лица, в том числе, несовершеннолетнего, законным представителем юридического лица, защитником и представителем.
#Представитель ЦАФАП РДД ГИБДД ГУ МВД России
#Представитель ОБ ГИБДД ... по ... ... в судебное заседание не явился, извещен надлежащим образом.
#Представитель ОБ ГИБДД ... по ЗАО ... в судебное заседание явился
#Представитель ЦАФАП ОДД ГИБДД ГУ МВД России
#законным представителем юридического лица, защитником и представителем.

In [442]:
# Проверка наличия представителя/защитника/адвоката привлекаемого лица
def get_representative_existence(file):
    with open(file, 'r', encoding='utf-8') as fd: doc = fd.read()
    text = BeautifulSoup(doc).body.text
    #представитель
    if (len(re.findall(r'[Пп]редставител\w+', text)) > 0)&(len(re.findall(r'по доверенности', text)) > 0): return True
    elif len(re.findall(r'\b(?:его|е[её]) представител\w+', text)) > 0: return True
    elif len(re.findall(r'представитель \w+ жалобу', text)) > 0: return True
    elif len(re.findall(r'представител\w+ ФИО', text)) > 0: return True
    elif (len(re.findall(r'[Пп]редставител\w+ (?:\w+)+ просил отменить постановление', text)) > 0) : return True
    #&(len(re.findall(r'просил отменить постановление', text)) > 0): return True
    elif len(re.findall(r'[Пп]редставитель заявител\w+', text)) > 0: return True
    #адвокат
    elif len(re.findall(r'(?<!отсутствии) [Аа]двокат\w+', text)) > 0: return True
    #защитник
    elif (len(re.findall(r'[Зз]ащитник\w+', text)) > 0)&\
        (len(re.findall(r'[Зз]ащитник\w+ (?:и|или) [Пп]редставител\w+', text)) == 0)&\
        (len(re.findall(r'[Пп]омощ\w+ [Зз]ащитник\w+', text)) == 0): return True
    else: return False

In [462]:
text = 'Представитель ОБ дпс просил отменить постановление'
re.findall(r'[Пп]редставител\w+ (?:\w+){1,3} просил отменить постановление', text)

[]

In [443]:
df_gibdd.loc[:,'representative'] = df_gibdd['file'].apply(get_representative_existence)
df_gibdd.representative.value_counts()

False    250
True      81
Name: representative, dtype: int64

In [447]:
df = df_gibdd[df_gibdd['representative'] == True]
na_list = get_files_list(df)

doc_number = 50
display(HTML(get_sud_text(na_list, doc_number)))

#выборочная проверка документов не обнаружила ошибок определния наличия представителя/адвоката/защитника привлекаемого лица

Всего документов: 81


### 3.2 Searching and adding 'Фото'

In [270]:
def get_representative_existence(file):
    with open(file, 'r', encoding='utf-8') as fd: doc = fd.read()
    text = BeautifulSoup(doc).body.text
    if len(re.findall(r'[Пп]редставител\w+', text)) > 0: return True
    else: return False

In [273]:
df_gibdd.loc[:,'representative'] = df_gibdd['file'].apply(get_representative_existence)
df_gibdd.representative.value_counts()

False    271
True      60
Name: representative, dtype: int64