<a href="https://colab.research.google.com/github/jackashore/judgement/blob/develop/Ngrams.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
import os
import nltk
import pandas as pd
from bs4 import BeautifulSoup
from string import punctuation
from pymorphy2 import MorphAnalyzer
from nltk.collocations import *
from nltk.corpus import stopwords
from nltk.util import everygrams
from collections import Counter, OrderedDict
from sklearn.feature_extraction.text import TfidfVectorizer

stops = set(stopwords.words('russian'))
punct = punctuation+'«»—…“”*№–'
morph = MorphAnalyzer()

In [2]:
# nltk.download('stopwords')

In [3]:
df = pd.DataFrame()

In [4]:
# Функции скопированы из тетрадки про парсинг xml, со временем это превратится в прекрасного лебедя (импортируемый модуль)

meta_data = {'court': '', 'judge': '', 'prosecutor': '', 'secretary': '', 'accused': '', 'result': '', 'category': '', 
            'punishment_type': '', 'punishment_term': ''}

def parse_xml(path):   # парсим xml
    with open(path, 'r', encoding='utf-8')as f:
        soup = BeautifulSoup(f.read(), 'html.parser')
        
        meta_data['court'] = soup.court.string     # добавляем в метаданные то, что имеется в разметке
        meta_data['judge'] = soup.judge.string
        meta_data['result'] = soup.result.string
        meta_data['category'] = soup.category.string
        
        html = []
        for line in soup.body:
            line = line.replace('[', '')
            line = line.replace(']', '') 
            html.append(line)
        true_html = ' '.join(html)
                
        html_soup = BeautifulSoup(true_html, 'html.parser')
        return html_soup.get_text()
    
def get_parts(text):    # делим на части
    lines = [line for line in text.split('\n')]
    beg, end = 0, 0 
    for num, line in enumerate(lines):
        if 'установил' in line.lower() or 'у с т а н о в и л' in line.lower(): 
            beg = num + 1
        if 'приговорил' in line.lower() or 'п р и г о в о р и л' in line.lower() or 'постановил'\
         in line.lower() or 'п о с т а н о в и л' in line.lower():
            end = num + 1
        
        if beg and end:
            beginning = [stroka.strip() for stroka in lines[:beg]]
            main_part = [stroka.strip() for stroka in lines[beg:end]]
            ending = [stroka.strip() for stroka in lines[end:]]
            return [' '.join(main_part), ' '.join(beginning), ' '.join(ending)]
        
def process_xml(path):
    return get_parts(parse_xml(path))[0]

In [5]:
main_path = r'C:\Users\a.reshetniko\Documents\trash\judgment\judgement\belinskij-rajonnyj-sud-penzenskaya-oblast-263'
raw_texts = []
for items in os.walk(main_path):
    for file in items[2]:
        file_path = os.path.join(items[0], file)
        raw_texts.append(process_xml(file_path))

df['raw_main_parts'] = raw_texts

* Прикрутить Верин токенизатор
* Подумать о лемматизаторе

In [6]:
def normalize(text):
    words = [word.strip(punct) for word in text.lower().split()] 
    # words = [word for word in words if word and word not in stops]
    words = [morph.parse(word)[0].normal_form for word in words if word]

    return words

In [7]:
df['norm_main_parts'] = df['raw_main_parts'].apply(normalize)

In [8]:
df.head()

Unnamed: 0,raw_main_parts,norm_main_parts
0,"Стульников С.В. совершил кражу, т.е. тайное х...","[стульник, с.в, совершить, кража, т.е, тайный,..."
1,"Крутилин С.В., являясь лицом, управляющим авт...","[крутилина, с.в, являться, лицо, управлять, ав..."
2,Видюлин П.А. обвиняется в совершении неправом...,"[видюлина, п.а, обвиняться, в, совершение, неп..."
3,"Кузнецов М.Ю. совершил нарушение лицом, управ...","[кузнецов, м.ю, совершить, нарушение, лицо, уп..."
4,"Кочетков Д.Г. совершил нарушение лицом, управ...","[кочетков, д.г, совершить, нарушение, лицо, уп..."


In [9]:
df = df.dropna()

In [10]:
df.shape

(115, 2)

In [11]:
all_t = []
for text in df.norm_main_parts:
    all_t.extend(text)


In [12]:
colloc_1000 = []
for col in Counter(list(everygrams(all_t, min_len=3, max_len=10))).most_common(1000):
    print(col)
    colloc_1000.append(' '.join(col[0]))

(('в', 'судебный', 'заседание'), 559)
(('без', 'проведение', 'судебный'), 228)
(('проведение', 'судебный', 'разбирательство'), 228)
(('без', 'проведение', 'судебный', 'разбирательство'), 228)
(('приговор', 'без', 'проведение'), 227)
(('приговор', 'без', 'проведение', 'судебный'), 227)
(('приговор', 'без', 'проведение', 'судебный', 'разбирательство'), 227)
(('хищение', 'чужое', 'имущество'), 225)
(('правило', 'дорожный', 'движение'), 202)
(('проезжий', 'часть', 'автодорога'), 194)
(('постановление', 'приговор', 'без'), 193)
(('постановление', 'приговор', 'без', 'проведение'), 193)
(('постановление', 'приговор', 'без', 'проведение', 'судебный'), 193)
(('постановление', 'приговор', 'без', 'проведение', 'судебный', 'разбирательство'), 193)
(('наказание', 'в', 'вид'), 172)
(('в', 'сумма', 'рубль'), 170)
(('тяжкий', 'вред', 'здоровье'), 166)
(('тайный', 'хищение', 'чужое'), 155)
(('тайный', 'хищение', 'чужое', 'имущество'), 155)
(('сторона', 'проезжий', 'часть'), 150)
(('судебный', 'заседани

(('что', 'данный', 'ходатайство', 'заявить', 'имя', 'добровольно', 'и'), 41)
(('ходатайство', 'заявить', 'имя', 'добровольно', 'и', 'после', 'консультация'), 41)
(('заявить', 'имя', 'добровольно', 'и', 'после', 'консультация', 'с'), 41)
(('имя', 'добровольно', 'и', 'после', 'консультация', 'с', 'защитник'), 41)
(('что', 'он', 'полностью', 'осознать', 'последствие', 'постановление', 'приговор'), 41)
(('он', 'полностью', 'осознать', 'последствие', 'постановление', 'приговор', 'без'), 41)
(('хищение', 'чужое', 'имущество', 'группа', 'лицо', 'по', 'предварительный'), 41)
(('чужое', 'имущество', 'группа', 'лицо', 'по', 'предварительный', 'сговор'), 41)
(('суд', 'не', 'находить', 'поскольку', 'исключительный', 'обстоятельство', 'существенно'), 41)
(('по', 'дело', 'заявить', 'что', 'данный', 'ходатайство', 'заявить', 'имя'), 41)
(('дело', 'заявить', 'что', 'данный', 'ходатайство', 'заявить', 'имя', 'добровольно'), 41)
(('заявить', 'что', 'данный', 'ходатайство', 'заявить', 'имя', 'добровольно

In [13]:
colloc_1000[:10]

['в судебный заседание',
 'без проведение судебный',
 'проведение судебный разбирательство',
 'без проведение судебный разбирательство',
 'приговор без проведение',
 'приговор без проведение судебный',
 'приговор без проведение судебный разбирательство',
 'хищение чужое имущество',
 'правило дорожный движение',
 'проезжий часть автодорога']

In [14]:
tfidf = TfidfVectorizer(ngram_range=(3,10), min_df=40)

In [15]:
df['tokens_str'] = [' '.join(i) for i in df.norm_main_parts]

In [16]:
texts_vectors = tfidf.fit_transform(df['tokens_str'])

In [17]:
texts_vectors

<115x366 sparse matrix of type '<class 'numpy.float64'>'
	with 20103 stored elements in Compressed Sparse Row format>

In [18]:
id2word = {i:word for i,word in enumerate(tfidf.get_feature_names())}

In [19]:
df['tf-idf'] = pd.Series()


In [20]:
df.head()

Unnamed: 0,raw_main_parts,norm_main_parts,tokens_str,tf-idf
0,"Стульников С.В. совершил кражу, т.е. тайное х...","[стульник, с.в, совершить, кража, т.е, тайный,...",стульник с.в совершить кража т.е тайный хищени...,
1,"Крутилин С.В., являясь лицом, управляющим авт...","[крутилина, с.в, являться, лицо, управлять, ав...",крутилина с.в являться лицо управлять автомоби...,
2,Видюлин П.А. обвиняется в совершении неправом...,"[видюлина, п.а, обвиняться, в, совершение, неп...",видюлина п.а обвиняться в совершение неправоме...,
3,"Кузнецов М.Ю. совершил нарушение лицом, управ...","[кузнецов, м.ю, совершить, нарушение, лицо, уп...",кузнецов м.ю совершить нарушение лицо управлят...,
4,"Кочетков Д.Г. совершил нарушение лицом, управ...","[кочетков, д.г, совершить, нарушение, лицо, уп...",кочетков д.г совершить нарушение лицо управлят...,


In [21]:
some_array = []
for i in range(len(df.tokens_str)):
    some_dict = {}
    for num, s in enumerate(texts_vectors.toarray()[i]):
        some_dict.setdefault((id2word[num]), s)
    sorted_dict = OrderedDict(sorted(some_dict.items(), key=lambda t: t[1])[::-1])    # сортировка значений по убыванию
    minim_array = [[item[0] for item in sorted_dict.items() if item[1]!=0]]
    df.iloc[i, 3] = minim_array

ValueError: Must have equal len keys and value when setting with an ndarray

In [None]:
df.head()

In [None]:
df['jur'] = pd.Series()
for num, item in enumerate(df['tf-idf']):
    print(item)
    for i in item:
        df.iloc[num, 4] = set(colloc_1000)&set(i)