<a href="https://colab.research.google.com/github/jackashore/judgement/blob/develop/Ngrams.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [58]:
import os
import re
import nltk
import pandas as pd
import random
from bs4 import BeautifulSoup
from string import punctuation
from pymorphy2 import MorphAnalyzer
from nltk.collocations import *
from nltk.corpus import stopwords
from nltk.util import everygrams

stops = set(stopwords.words('russian'))
punct = punctuation+'«»—…“”*№–).'
morph = MorphAnalyzer()

In [3]:
# nltk.download('stopwords')

In [4]:
court1 = pd.DataFrame()

In [22]:
# препроцессинг

meta_data = {'court': '', 'judge': '', 'prosecutor': '', 'secretary': '', 'accused': '', 'result': '', 'category': '', 
            'punishment_type': '', 'punishment_term': ''}

def parse_xml(path):   # парсим xml
    with open(path, 'r', encoding='utf-8')as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        
        meta_data['court'] = soup.court.string     # добавляем в метаданные то, что имеется в разметке
        meta_data['judge'] = soup.judge.string
        meta_data['result'] = soup.result.string
        meta_data['category'] = soup.category.string
        
        html = []
        for line in soup.body:
            line = line.replace('[', '')
            line = line.replace(']', '') 
            html.append(line)
        true_html = ' '.join(html)
                
        html_soup = BeautifulSoup(true_html, 'html.parser')
        return html_soup.get_text()
    
def get_parts(text):    # делим на части
    lines = [line for line in text.split('\n')]
    beg, end = 0, 0 
    for num, line in enumerate(lines):
        if re.search(r'у\s*с\s*т\s*а\s*н\s*о\s*в\s*и\s*л', line.lower()):
            beg = num + 1
        
        if re.search(r'п\s*р\s*и\s*г\s*о\s*в\s*о\s*р\s*и\s*л', line.lower()) \
        or re.search(r'п\s*о\s*с\s*т\s*а\s*н\s*о\s*в\s*и\s*л', line.lower()):
        #if re.search(r'[приговорил ]{10,}', line.lower()) or re.search(r'[постановил ]{10,}', line.lower()):
        #if 'приговорил' in line.lower() or 'п р и г о в о р и л' in line.lower() or 'постановил'\
         #in line.lower() or 'п о с т а н о в и л' in line.lower():
            end = num + 1

        if beg and end:
            beginning = [stroka.strip() for stroka in lines[:beg]]
            main_part = [stroka.strip() for stroka in lines[beg:end]]
            ending = [stroka.strip() for stroka in lines[end:]]
            return [' '.join(main_part), ' '.join(beginning), ' '.join(ending)]
                
        
def clean(text):
    pattern1 = re.compile(r'(п|ч|ст)(\.|\s|\d)')             # обозначение статьи (пункт,часть,статья)
    pattern2 = re.compile(r'((У|Г)П?К|КоАП|ПДД)\sРФ')     # названия кодексов
    pattern3 = re.compile('\d')                            # цифры
    pattern4 = re.compile('(ДД.ММ.ГГ|дд.мм.гг)')           # даты

    text = re.sub(pattern1, ' ABBR ', text)
    text = re.sub(pattern2, ' DOCUMENT ', text)
    text = re.sub(pattern3, ' DIGIT ', text)
    text = re.sub(pattern4, ' DATE ', text)
    text = text.replace('\xad', '')
    text = text.replace('п р и г о в о р и л', '')
    text = text.replace('п о с т а н о в и л', '')
    text = text.replace('П Р И Г О В О Р И Л', '')
    text = text.replace('П О С Т А Н О В И Л', '')
    return text
        
def process_xml(path):
    try:
        return clean(get_parts(parse_xml(path))[0])
    except TypeError:
        return None

In [23]:
def get_texts(main_path):  # получаем тексты приговоров
    raw_texts = []
    for items in os.walk(main_path):
        for file in items[2]:
            if file.split('.')[~0] == 'xml':
                file_path = os.path.join(items[0], file)
                raw_texts.append(process_xml(file_path))
    return raw_texts

In [7]:
# записываем тексты в датафрейм
# в этом суде больше всего приговоров (6 тысяч)

court1['raw_main_parts'] = get_texts('data/leninskij-rajonnyj-sud-g-barnaula-altajskij-kraj-1102')

In [8]:
court1.head()

Unnamed: 0,raw_main_parts
0,"Котелевцев А.Г. совершил кражу, то есть тайно..."
1,Агулова М.А. совершила тайное хищение чужого и...
2,"Подсудимый Шакеров Р.А. совершил грабеж, то ес..."
3,+++ в период времени с DIGIT DIGIT часов D...
4,Лукьянченко А.В. совершил тайное хищение чужог...


In [60]:
def normalize(text):
    words = [word.strip(punct) for word in text.lower().split()] 
    words = [word for word in words if word]
    words = [morph.parse(word)[0].normal_form for word in words if word]

    return words

In [10]:
court1 = court1.dropna()

In [11]:
court1['norm_main_parts'] = court1['raw_main_parts'].apply(normalize)  # нормализуем

In [12]:
court1.head()

Unnamed: 0,raw_main_parts,norm_main_parts
0,"Котелевцев А.Г. совершил кражу, то есть тайно...","[котелевец, а.г, совершить, кража, то, есть, т..."
1,Агулова М.А. совершила тайное хищение чужого и...,"[агулов, м.а, совершить, тайный, хищение, чужо..."
2,"Подсудимый Шакеров Р.А. совершил грабеж, то ес...","[подсудимый, шакер, р.а, совершить, грабёж, то..."
3,+++ в период времени с DIGIT DIGIT часов D...,"[в, период, время, с, часы, минута, до, часы, ..."
4,Лукьянченко А.В. совершил тайное хищение чужог...,"[лукьянченко, а.в, совершить, тайный, хищение,..."


In [15]:
def get_ngrams(court):   # выделяем 5000 самых частотных энграмм
    all_texts = []
    colloc_5000 = [] 
    for text in court.norm_main_parts:    # записываем все тексты в одно место
        all_texts.extend(text)
    for col in Counter(list(everygrams(all_texts, min_len=3, max_len=20))).most_common(5000):
        colloc_5000.append(' '.join(col[0]))
    return colloc_5000

In [16]:
gold_std = get_ngrams(court1)    # 5000 частотных энграмм большого суда

In [18]:
print(*(gold_std[:20]), sep='\n')

в судебный заседание
кодекс российский федерация
в соответствие с
без цель сбыт
степень общественный опасность
сбыт наркотический средство
в связь с
характер и степень
и степень общественный
и степень общественный опасность
хищение чужое имущество
характер и степень общественный
характер и степень общественный опасность
явка с повинный
уголовный кодекс российский
уголовный кодекс российский федерация
по адрес адрес
цель сбыт наркотический
цель сбыт наркотический средство
без цель сбыт наркотический


In [19]:
random.shuffle(os.listdir('data'))     # взяли 10 рандомных судов
ten_courts = os.listdir('data')[:10]

Дальше нужно снова выделить для этих 10 судов их частотные энграммы и по очереди пересечь с `gold_std`

In [20]:
ten_courts

['krasnozerskij-rajonnyj-sud-novosibirskaya-oblast-986',
 'kondinskij-rajonnyj-sud-xanty-mansijskij-avtonomnyj-okrug-927',
 'kulundinskij-rajonnyj-sud-altajskij-kraj-1040',
 'primorskij-rajonnyj-sud-arxangelskaya-oblast-1632',
 'korochanskij-rajonnyj-sud-belgorodskaya-oblast-941',
 'verxnepyshminskij-gorodskoj-sud-sverdlovskaya-oblast-400',
 'saratovskij-oblastnoj-sud-saratovskaya-oblast-2403',
 'ketchenerovskij-rajonnyj-sud-respublika-kalmykiya-834',
 'bogdanovichskij-gorodskoj-sud-sverdlovskaya-oblast-310',
 'severouralskij-gorodskoj-sud-sverdlovskaya-oblast-1768']

In [21]:
court_dict = {court:'court_'+str(i) for i, court in enumerate(ten_courts, 2)}
court_dict

{'krasnozerskij-rajonnyj-sud-novosibirskaya-oblast-986': 'court_2',
 'kondinskij-rajonnyj-sud-xanty-mansijskij-avtonomnyj-okrug-927': 'court_3',
 'kulundinskij-rajonnyj-sud-altajskij-kraj-1040': 'court_4',
 'primorskij-rajonnyj-sud-arxangelskaya-oblast-1632': 'court_5',
 'korochanskij-rajonnyj-sud-belgorodskaya-oblast-941': 'court_6',
 'verxnepyshminskij-gorodskoj-sud-sverdlovskaya-oblast-400': 'court_7',
 'saratovskij-oblastnoj-sud-saratovskaya-oblast-2403': 'court_8',
 'ketchenerovskij-rajonnyj-sud-respublika-kalmykiya-834': 'court_9',
 'bogdanovichskij-gorodskoj-sud-sverdlovskaya-oblast-310': 'court_10',
 'severouralskij-gorodskoj-sud-sverdlovskaya-oblast-1768': 'court_11'}

In [22]:
def get_all_done(dictionary):
    d_ngrams = {}
    for court, df in dictionary.items():
        print(court)
        df = pd.DataFrame()
        df['raw_main_parts'] = get_texts(os.path.join('data', court))
        df = df.dropna()
        print('got texts for %s' % court)
        print(df.shape)
        df['norm_main_parts'] = df['raw_main_parts'].apply(normalize)
        print('%s normalized' % court)
        d_ngrams[court] = get_ngrams(df)
        print('got ngrams for %s' % court)
    return d_ngrams

In [23]:
courts_ngrams = get_all_done(court_dict)

krasnozerskij-rajonnyj-sud-novosibirskaya-oblast-986
got texts for krasnozerskij-rajonnyj-sud-novosibirskaya-oblast-986
(274, 1)
krasnozerskij-rajonnyj-sud-novosibirskaya-oblast-986 normalized
got ngrams for krasnozerskij-rajonnyj-sud-novosibirskaya-oblast-986
kondinskij-rajonnyj-sud-xanty-mansijskij-avtonomnyj-okrug-927
got texts for kondinskij-rajonnyj-sud-xanty-mansijskij-avtonomnyj-okrug-927
(364, 1)
kondinskij-rajonnyj-sud-xanty-mansijskij-avtonomnyj-okrug-927 normalized
got ngrams for kondinskij-rajonnyj-sud-xanty-mansijskij-avtonomnyj-okrug-927
kulundinskij-rajonnyj-sud-altajskij-kraj-1040
got texts for kulundinskij-rajonnyj-sud-altajskij-kraj-1040
(349, 1)
kulundinskij-rajonnyj-sud-altajskij-kraj-1040 normalized
got ngrams for kulundinskij-rajonnyj-sud-altajskij-kraj-1040
primorskij-rajonnyj-sud-arxangelskaya-oblast-1632
got texts for primorskij-rajonnyj-sud-arxangelskaya-oblast-1632
(445, 1)
primorskij-rajonnyj-sud-arxangelskaya-oblast-1632 normalized
got ngrams for primorskij

In [24]:
for ngrams in courts_ngrams.values():
    final_ngrams = []
    final_ngrams.extend(set(gold_std)&set(ngrams))
final_ngrams=set(final_ngrams)
print(final_ngrams)

{'по уголовный кодекс', 'уголовный кодекс российский федерация в', 'не находить основание для', 'не находить основание', 'психотропный вещество и', 'в тот число', 'ходатайство о постановление приговор без проведение судебный', 'и личность виновный', 'есть открытый хищение чужое имущество', 'следующий обстоятельство год около', 'цель сбыт наркотический средство в особо', 'применение насилие не', 'магазин дать изъять', 'год в период', 'крупный размер при', 'средство в особо крупный', 'есть тайный хищение чужое имущество совершенный', 'наказание суд учитывать', 'обстоятельство год около', 'влияние назначить наказание на исправление осудить и на условие жизнь', 'квартира по адрес адрес', 'грабёж то есть открытый', 'на исправление осудить и на условие жизнь', 'осознать характер и', 'россия по год', 'в установленный закон', 'по уголовный дело', 'в состояние алкогольный опьянение', 'о постановление приговор', 'без цель сбыт наркотический средство в особо', 'с часы до', 'наказание суд учитыват

In [25]:
len(final_ngrams)

495

In [26]:
with open('juridisms.txt', 'w', encoding='utf-8') as f:
    for item in final_ngrams:
        f.write(item+'\n')