In [75]:
import numpy as np
import pandas as pd
import orjson
import textract
from tqdm.auto import tqdm
import os
import re, string 
import ftfy

In [143]:
!pip install striprtf

Collecting striprtf
  Downloading striprtf-0.0.22-py3-none-any.whl (6.9 kB)
Installing collected packages: striprtf
Successfully installed striprtf-0.0.22


In [149]:
from striprtf.striprtf import rtf_to_text


def get_file_list(root_folder):
    file_content = {}
    pattern = re.compile('[\W_]')
    file_list = [f for f in os.listdir(root_folder)]
    for f in tqdm(file_list):
        if "rtf" not in f:
            f_text = textract.process(os.path.join(root_folder,f))
            text = ftfy.ftfy((f_text).decode('utf-8'))
        if ".rtf" in f:
            with open(os.path.join(root_folder,f)) as infile:
                content = infile.read()
                text = rtf_to_text(content)
        file_content[f] = pattern.sub(' ', text).lower().lstrip().rstrip().replace('  ',' ')

    return file_content
        



In [150]:
docs = get_file_list('../docs/')

HBox(children=(FloatProgress(value=0.0, max=120.0), HTML(value='')))




In [153]:
docs['2c758805e2917306e6cbb079e2adcfcf.rtf']

'утверждена приказом минобразования россии от 28 07 2003  3177 примерная форма договора на оказание платных образовательных услуг в сфере профессионального образования    200 г        место заключения    полное наименование образовательного учреждения осуществляющего подготовку в сфере профессионального образования в соответствии с уставом на основании лицензии   выданной   наименование органа выдавшего лицензию на срок с    г до    г  и свидетельства о государственной аккредитации 1   выданного   наименование органа выдавшего свидетельство на срок с    г до    г  в лице    должность ф и о  действующего на основании    наименование документа зарегистрированного  наименование зарегистрировавшего органа дата регистрации регистрационный номер 2 далее  исполнитель  с одной стороны и  ф и о совершеннолетнего заключающего договор от своего имени  или ф и о родителя законного представителя несовершеннолетнего или наименование организации предприятия с указанием ф и о  должности лица действующ

In [154]:
with open("../classes.json", "rb") as f:
    labels = orjson.loads(f.read())

In [155]:
from collections import Counter
Counter(labels.values())

Counter({'Договоры для акселератора/Договоры поставки': 21,
         'Договоры для акселератора/Договоры оказания услуг': 32,
         'Договоры для акселератора/Договоры подряда': 21,
         'Договоры для акселератора/Договоры аренды': 23,
         'Договоры для акселератора/Договоры купли-продажи': 23})

In [156]:
docs_df = pd.DataFrame({'Docs':pd.Series(docs),'labels':pd.Series(labels)})
docs_df = docs_df.astype(str).dropna()

In [157]:
train = docs_df.sample(frac=0.65)
test = docs_df[~docs_df.isin(train)].dropna()

In [158]:
docs_df

Unnamed: 0,Docs,labels
02682d726b725f95b9ee85f751c043d0.doc,договор г москва ...,Договоры для акселератора/Договоры оказания услуг
03a70fe60be9ecc2a63798a361fc9689.docx,договор от г г ...,Договоры для акселератора/Договоры подряда
073a0d372820c3c2bffe9ba24a7ed7af.doc,договор московская область город девя...,Договоры для акселератора/Договоры купли-продажи
084edc7dfc3db04e3a3c55c102f47bcb.doc,договор г 200 года на ...,Договоры для акселератора/Договоры аренды
086ad48895d2a73854b6151decc28800.pdf,типовая форма договор купли продажи г москв...,Договоры для акселератора/Договоры купли-продажи
...,...,...
f57fe87f15a6dee2b17e804421be63b5.pdf,договор купли продажи оборудования бывшего в...,Договоры для акселератора/Договоры купли-продажи
f6377999f8a5aa9a09b03e428ac93153.doc,договор г 20 г ...,Договоры для акселератора/Договоры поставки
f8eabec67b770c384d84f9feb7e02543.doc,приложение 10 договор г м...,Договоры для акселератора/Договоры оказания услуг
f96c2a58215aa54aeb6713cbb457fad9.doc,договор г москва ...,Договоры для акселератора/Договоры оказания услуг


In [159]:
import csv
train.to_csv('train.csv',index = False)
test.to_csv('test.csv',index = False)

In [129]:
test

Unnamed: 0,Docs,labels
02682d726b725f95b9ee85f751c043d0.doc,"""договор г москва ...",Договоры для акселератора/Договоры оказания услуг
03a70fe60be9ecc2a63798a361fc9689.docx,"""договор от ...",Договоры для акселератора/Договоры подряда
073a0d372820c3c2bffe9ba24a7ed7af.doc,"""договор московская область город ...",Договоры для акселератора/Договоры купли-продажи
084edc7dfc3db04e3a3c55c102f47bcb.doc,"""договор г ...",Договоры для акселератора/Договоры аренды
0b4be82b86eff410d69d1d6b5553d220.docx,"""скачано с http www advocatshmelev narod ru ...",Договоры для акселератора/Договоры оказания услуг
0ca2f9faecdbc67d6686a9f5b6636eba.doc,"""договор г омск ...",Договоры для акселератора/Договоры купли-продажи
0f7f507d0af90aba3c35484de016d8b4.doc,"""договор г санкт петербург ...",Договоры для акселератора/Договоры поставки
2c758805e2917306e6cbb079e2adcfcf.rtf,"""8 07 8 1 07 20 8o aa88 b 28 07 2003 31...",Договоры для акселератора/Договоры оказания услуг
2d4708c800dc003466fa9a8a64e2e2b7.docx,"""договор г ...",Договоры для акселератора/Договоры аренды
35b6a0f57d909507c5aa9a8972b15f35.pdf,"""приложение 6 к приказу от 29 12 2018 213 ...",Договоры для акселератора/Договоры оказания услуг


In [113]:
import torch

import flash
from flash.core.data.utils import download_data
from flash.text import TextClassificationData, TextClassifier

datamodule = TextClassificationData.from_csv(
    "Docs",
    "labels",
    train_file="train.csv",
    val_file="test.csv",
    batch_size=4,
)

# 2. Build the task
model = TextClassifier(backbone="cointegrated/rubert-tiny2", labels=datamodule.labels)

# 3. Create the trainer and finetune the model
trainer = flash.Trainer(max_epochs=3)
trainer.finetune(model, datamodule=datamodule, strategy="freeze")


Using custom data configuration default


Downloading and preparing dataset csv/default-354adabccb8613ec (download: Unknown size, generated: Unknown size, post-processed: Unknown size, total: Unknown size) to /home/kglin/.cache/huggingface/datasets/csv/default-354adabccb8613ec/0.0.0/2960f95a26e85d40ca41a230ac88787f715ee3003edaacb8b1f0891e9f04dda2...


HBox(children=(FloatProgress(value=1.0, bar_style='info', layout=Layout(width='20px'), max=1.0), HTML(value=''…

Dataset csv downloaded and prepared to /home/kglin/.cache/huggingface/datasets/csv/default-354adabccb8613ec/0.0.0/2960f95a26e85d40ca41a230ac88787f715ee3003edaacb8b1f0891e9f04dda2. Subsequent calls will reuse this data.




  for obj in iterable:


  for obj in iterable:


HBox(children=(FloatProgress(value=0.0, max=78.0), HTML(value='')))




AttributeError: 'Dataset' object has no attribute 'to_dict'