### Установка

In [2]:
!pip install setfit

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/
Collecting setfit
  Downloading setfit-0.7.0-py3-none-any.whl (45 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m45.9/45.9 kB[0m [31m4.3 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting datasets>=2.3.0
  Downloading datasets-2.11.0-py3-none-any.whl (468 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m468.7/468.7 kB[0m [31m19.8 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting evaluate>=0.3.0
  Downloading evaluate-0.4.0-py3-none-any.whl (81 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m81.4/81.4 kB[0m [31m7.7 MB/s[0m eta [36m0:00:00[0m
[?25hCollecting sentence-transformers>=2.2.1
  Downloading sentence-transformers-2.2.2.tar.gz (85 kB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m86.0/86.0 kB[0m [31m10.4 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting 

In [3]:
!pip install sentence-transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


### Импорты

In [4]:
from utils import split_df_texts_by_sentences, choose_max_rate_sentence, text_accuracy_score
from sentence_transformers.losses import CosineSimilarityLoss
from sklearn.model_selection import train_test_split
from setfit import SetFitModel, SetFitTrainer
from datasets import Dataset
import pandas as pd
import numpy as np
import joblib
import json
import pickle
import gc

### Агрегация данных

In [None]:
with open('../data/pickle_objects/contract_enforcement.pkl', 'rb') as fp:
  contract_enforcement = pickle.load(fp)
print(len(contract_enforcement))
contract_enforcement = pd.Series(contract_enforcement)

contract_enforcement = contract_enforcement[~contract_enforcement.isna()]
contract_enforcement = contract_enforcement.values
len(contract_enforcement)

988


984

In [None]:
with open('../data/pickle_objects/garantee_enforcement.pkl', 'rb') as fp:
  garantee_enforcement = pickle.load(fp)
print(len(garantee_enforcement))
garantee_enforcement = pd.Series(garantee_enforcement)

garantee_enforcement = garantee_enforcement[~garantee_enforcement.isna()]
garantee_enforcement = garantee_enforcement.values
len(garantee_enforcement)

811


508

In [None]:
with open('../data/pickle_objects/nonetype.pkl', 'rb') as fp:
  nonetype_sentences = pickle.load(fp)

In [None]:
nonetype_sentences[:5]

array(['Извещение о проведении открытого конкурса в электронной форме для закупки №0328300032822000806',
       'Общая информация', 'Номер извещения 0328300032822000806',
       'Наименование объекта закупки', 'Поставка продуктов питания'],
      dtype='<U1071')

In [None]:
len(nonetype_sentences)

46897

In [None]:
nonetype_1500 = np.random.choice(nonetype_sentences, 1500)
df_for_contract_enforcement = pd.DataFrame(list(set(contract_enforcement)), columns=['sentence'])
df_for_nonetype = pd.DataFrame(nonetype_1500, columns=['sentence'])

In [None]:
df_for_contract_enforcement['label'] = 1
df_for_nonetype['label'] = 0

In [None]:
df_for_contract_enforcement.head()

Unnamed: 0,sentence,label
0,"В случае если Поставщиком, при участии в закуп...",1
1,В размере 5% от начальной максимальной цены До...,1
2,Поставщик внес обеспечение исполнения Контракт...,1
3,Размер обеспечения исполнения договора составл...,1
4,Размер обеспечения исполнения договора 5 % от ...,1


In [None]:
df_for_nonetype.head()

Unnamed: 0,sentence,label
0,Восход. ие об одностороннем отказе от исполнен...,0
1,Оплата Стороной неустойки (штрафа,0
2,1. ОБЕСПЕЧЕНИЕ ИСПОЛНЕНИЯ КОНТРАКТА,0
3,Кущевская «__»__________2022 г.,0
4,Требования к гарантии качества товара,0


In [None]:
df_contract_enforcement_model = pd.concat([df_for_contract_enforcement, df_for_nonetype], axis=0)

In [None]:
df_contract_enforcement_model = df_contract_enforcement_model.sample(frac=1).reset_index(drop=True)

In [None]:
nonetype_1500 = np.random.choice(nonetype_sentences, 1500)
df_for_garantee_enforcement = pd.DataFrame(list(set(garantee_enforcement)), columns=['sentence'])
df_for_nonetype = pd.DataFrame(nonetype_1500, columns=['sentence'])

df_for_garantee_enforcement['label'] = 1
df_for_nonetype['label'] = 0

df_for_garantee_enforcement_model = pd.concat([df_for_garantee_enforcement, df_for_nonetype], axis=0)



In [None]:
df_for_garantee_enforcement_model = df_for_garantee_enforcement_model.sample(frac=1).reset_index(drop=True)


In [None]:
df_for_garantee_enforcement_model.head()

Unnamed: 0,sentence,label
0,Гарантии качества распространяются на все конс...,0
1,Коэффициент снижения (К) рассчитывается по фор...,0
2,Размер обеспечения гарантийных обязательств со...,1
3,"Порядок обеспечения исполнения контракта, треб...",0
4,Гарантийный срок на технологическое и инженерн...,0


### SetFit model

In [None]:
train, test = train_test_split(df_contract_enforcement_model, test_size=0.98)

In [None]:
len(train), len(test)

(31, 1567)

In [None]:
train_dataset = Dataset.from_pandas(train)
test_dataset = Dataset.from_pandas(test)

model = SetFitModel.from_pretrained("sentence-transformers/paraphrase-mpnet-base-v2")

trainer = SetFitTrainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    loss_class=CosineSimilarityLoss,
    num_iterations=20,
    column_mapping={"sentence": "text", "label": "label"},
)

model_head.pkl not found on HuggingFace Hub, initialising classification head with random weights. You should TRAIN this model on a downstream task to use it for predictions and inference.


In [None]:
trainer.train()
metrics = trainer.evaluate()

Applying column mapping to training dataset
***** Running training *****
  Num examples = 1240
  Num epochs = 1
  Total optimization steps = 78
  Total train batch size = 16


Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/78 [00:00<?, ?it/s]

Applying column mapping to evaluation dataset
***** Running evaluation *****


Downloading builder script:   0%|          | 0.00/4.20k [00:00<?, ?B/s]

Так как модель SetFit отлично работает на малом количестве данных, можем оставить основную часть датасета в валидационной выборке

In [None]:
metrics

{'accuracy': 0.982769623484365}

In [None]:
del trainer

In [None]:
gc.collect()


217

модель показывает accuracy 0.98 на наборе из 31 строки данных. 


### Batch size = 3
попробуем уменьшить размер батча, чтобы не перегружать ОЗУ

In [None]:
train, test = train_test_split(df_contract_enforcement_model, test_size=0.94)

In [None]:
len(train), len(test)

(125, 1973)

In [None]:
del df_for_garantee_enforcement_model, df_for_nonetype, nonetype_1500, df_contract_enforcement_model, nonetype_sentences, garantee_enforcement, contract_enforcement
gc.collect()

15

In [None]:
train_dataset = Dataset.from_pandas(train)
test_dataset = Dataset.from_pandas(test)

model = SetFitModel.from_pretrained("sentence-transformers/paraphrase-mpnet-base-v2")

trainer = SetFitTrainer(
    model=model,
    train_dataset=train_dataset,
    eval_dataset=test_dataset,
    loss_class=CosineSimilarityLoss,
    num_iterations=20,
    batch_size=3,
    column_mapping={"sentence": "text", "label": "label"},
)

Downloading (…)lve/main/config.json:   0%|          | 0.00/594 [00:00<?, ?B/s]

Downloading (…)f39ef/.gitattributes:   0%|          | 0.00/690 [00:00<?, ?B/s]

Downloading (…)_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

Downloading (…)0182ff39ef/README.md:   0%|          | 0.00/3.70k [00:00<?, ?B/s]

Downloading (…)82ff39ef/config.json:   0%|          | 0.00/594 [00:00<?, ?B/s]

Downloading (…)ce_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

Downloading pytorch_model.bin:   0%|          | 0.00/438M [00:00<?, ?B/s]

Downloading (…)nce_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

Downloading (…)cial_tokens_map.json:   0%|          | 0.00/239 [00:00<?, ?B/s]

Downloading (…)f39ef/tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

Downloading (…)okenizer_config.json:   0%|          | 0.00/1.19k [00:00<?, ?B/s]

Downloading (…)0182ff39ef/vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

Downloading (…)2ff39ef/modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

model_head.pkl not found on HuggingFace Hub, initialising classification head with random weights. You should TRAIN this model on a downstream task to use it for predictions and inference.


In [None]:
trainer.train()
metrics = trainer.evaluate()

Applying column mapping to training dataset


Generating Training Pairs:   0%|          | 0/20 [00:00<?, ?it/s]

***** Running training *****
  Num examples = 5000
  Num epochs = 1
  Total optimization steps = 1667
  Total train batch size = 3


Epoch:   0%|          | 0/1 [00:00<?, ?it/s]

Iteration:   0%|          | 0/1667 [00:00<?, ?it/s]

Applying column mapping to evaluation dataset
***** Running evaluation *****


Downloading builder script:   0%|          | 0.00/4.20k [00:00<?, ?B/s]

In [None]:
metrics

{'accuracy': 0.9655347187024835}

In [None]:
model.predict_proba(['Размер обеспечения 1000 рублей'])

tensor([[0.0166, 0.9834]], dtype=torch.float64)

In [None]:
joblib.dump(model, '../data/pickle_objects/contract_enforcement_setfit_model.joblib')

['contract_enforcement_setfit_model.joblib']

In [None]:
# joblib.dump(model, '/content/drive/MyDrive/забег/contract_enforcement_setfit_model.joblib')


['/content/drive/MyDrive/забег/contract_enforcement_setfit_model.joblib']

['/content/drive/MyDrive/забег/contract_enforcement_setfit_model.joblib']

In [None]:
# from google.colab import files
# files.download('contract_enforcement_setfit_model.joblib')

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

### Применение моделей на неразмеченных данных

так как модель получает на вход целые предложения, без особой предобработки, алгоритм выглядит так:


1.   Делим текст на предложения
2.   В зависимости от label отправляем в цикле предложения текста в соответствующуюю модель.
3.   Выбираем предложение с наибольшим скором



In [5]:
contract_enforcement_model = joblib.load('../data/models/contract_enforcement_setfit_model.joblib')
garantee_enforcement_model = joblib.load('../data/models/garantee_enforcement_setfit_model.joblib')

In [25]:
# contract_enforcement_model = joblib.load('/content/drive/MyDrive/забег/contract_enforcement_setfit_model.joblib')
# garantee_enforcement_model = joblib.load('/content/drive/MyDrive/забег/garantee_enforcement_setfit_model.joblib')

In [36]:
def get_contract_enforcement_best_sentence(text:list, max_val=0.7):
  result = {}
  for sentence in text:
    if sentence:
      res = contract_enforcement_model.predict_proba([sentence])[0][1].item()
      result[sentence] = res

  sentence, value = choose_max_rate_sentence(result)

  if value > max_val:
    return sentence, value
  return None, None

In [37]:
def get_garantee_enforcement_best_sentence(text:list, max_val):
  result = {}
  for sentence in text:
    if sentence:
      res = garantee_enforcement_model.predict_proba([sentence])[0][1].item()
      result[sentence] = res

  sentence, value = choose_max_rate_sentence(result)

  if value > max_val:
    return sentence, value
  return None, None

In [38]:
def predict(dataframe:pd.DataFrame, max_val):
  predictions = []
  # делим датафрейм на предложения 
  df_splitted_by_sentences = split_df_texts_by_sentences(dataframe.copy())
  lenght = len(df_splitted_by_sentences)

  # проходим в циклe, используем соответствующую модель
  for i in range(lenght):
    if df_splitted_by_sentences.loc[i, 'label'] == 'обеспечение исполнения контракта':
      text = df_splitted_by_sentences.loc[i, 'text']
      best_sentence, val = get_contract_enforcement_best_sentence(text)

    elif df_splitted_by_sentences.loc[i, 'label'] == 'обеспечение гарантийных обязательств':
      text = df_splitted_by_sentences.loc[i, 'text']
      best_sentence, val = get_garantee_enforcement_best_sentence(text, max_val)

    else: 
      print('Неверный формат label')
    print(f'{i} из {lenght} предсказано\n {best_sentence} score: {val}\n{best_sentence==df_splitted_by_sentences.loc[i, "target"]}\n {df_splitted_by_sentences.loc[i, "target"]}')
    predictions.append(best_sentence)

  return predictions

In [29]:
df = pd.read_json('../data/train_unpacked.json', encoding='utf-8')
df.sample(3)

Unnamed: 0,id,text,label,target
817,561226408,3 УТВЕРЖДЕНО приказом филиала АО «Мособлгаз» «...,обеспечение исполнения контракта,Сумма обеспечения исполнения договора предусмо...
1648,586142786,Государственное автономное учреждение Республи...,обеспечение гарантийных обязательств,Обеспечение гарантийных обязательств установле...
1641,30093679,ДОГОВОР № _________ на выполнение комплекса ра...,обеспечение гарантийных обязательств,


Для замера accuracy для уменьшения времени работы (датасет из 1799 объектов пресказывается 12 часов на колабе) возьмём 500 объектов. 

In [30]:
df_500 = df.sample(500)
df_500.reset_index(drop=True, inplace=True)

In [31]:
df_500.head()

Unnamed: 0,id,text,label,target
0,214648417,УТВЕРЖДЕНА приказом Федеральной службы по экол...,обеспечение гарантийных обязательств,
1,445125138,Федеральное государственное бюджетное образова...,обеспечение гарантийных обязательств,
2,504104789,Федеральное государственное унитарное предприя...,обеспечение гарантийных обязательств,
3,110916274,«УТВЕРЖДАЮ» Заместитель генерального директора...,обеспечение исполнения контракта,Размер обеспечения исполнения договора: 5 % от...
4,39069440,«Проект договора» Договор №_____ на поставку а...,обеспечение гарантийных обязательств,Обеспечение гарантийных обязательств устанавли...


In [34]:
pred = predict(df_500, 0.93)

0 из 500 предсказано
 УТВЕРЖДЕНА приказом Федеральной службы по экологическому, технологическому и атомному надзору от 4 марта 2019 г. score: 0.9928834958858669
False
 None
1 из 500 предсказано
 None score: None
True
 None
2 из 500 предсказано
 Руководитель ГЦЗ отд. 055 ________________ С.Г. score: 0.9924874849784977
False
 None
3 из 500 предсказано
 Размер обеспечения заявок на участие в электронном аукционе: 1% от начальной (максимальной) цены договора score: 0.9870363977528901
False
 Размер обеспечения исполнения договора: 5 % от начальной (максимальной) цены договора
4 из 500 предсказано
 Обеспечение гарантийных обязательств устанавливается в размере 1 % начальной (максимальной) цены контракта. score: 0.9935411324535374
True
 Обеспечение гарантийных обязательств устанавливается в размере 1 % начальной (максимальной) цены контракта.
5 из 500 предсказано
 Размер обеспечения исполнения договора составляет 5 % от начальной (максимальной) цены договора – 4 450 (четыре тысячи четыреста п

In [35]:
text_accuracy_score(pred, df_500.loc[:, 'target'].values)


0.55

accurcy 0.55 для сравнения предскажем тоже самое с помощью xgboost. на том же самом датасете xgboost показывает accuracy 0.62