# Пример использования простых методов векторизации на Python

Векторизуем тексты отзывов на банки с сайта banki.ru.


In [1]:
!pip install pymorphy2[fast] 



In [2]:
import pandas as pd
import numpy as np
import pymorphy2
import nltk
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [3]:
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Downloading package punkt to /home/genalll/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     /home/genalll/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

## Загружаем и готовим набор данных

In [4]:
banks = pd.read_json('dataset/train.json', orient='records')

In [5]:
def preprocess(text, stop_words, punctuation_marks, morph):
    tokens = word_tokenize(text.lower())
    preprocessed_text = []
    for token in tokens:
        if token not in punctuation_marks:
            lemma = morph.parse(token)[0].normal_form
            if lemma not in stop_words:
                preprocessed_text.append(lemma)
    return preprocessed_text

In [6]:
punctuation_marks = ['!', ',', '(', ')', ':', '-', '?', '.', '..', '...', '«', '»', ';', '–', '--']
stop_words = stopwords.words("russian")
morph = pymorphy2.MorphAnalyzer()

In [7]:
banks['texts'] = banks.apply(lambda row: preprocess(row['text'], punctuation_marks, stop_words, morph), axis=1)

In [8]:
banks

Unnamed: 0,id,text,label,extracted_part,texts
0,809436509,Извещение о проведении открытого конкурса в эл...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, открытый, конкурс, эле..."
1,854885310,ТРЕБОВАНИЯ К СОДЕРЖАНИЮ ЗАЯВКИ участника запро...,обеспечение исполнения контракта,{'text': ['Поставщик должен предоставить обесп...,"[требование, содержание, заявка, участник, зап..."
2,4382157,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ..."
3,184555082,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ..."
4,211645258,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ..."
...,...,...,...,...,...
1794,938335285,"«УТВЕРЖДАЮ» Директор МУП ""ПКП и ОРТ"" _________...",обеспечение гарантийных обязательств,{'text': ['Заказчиком установлено требование о...,"[утверждать, директор, муп, ``, пкп, орт, '', ..."
1795,214609521,ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ УНИТАРНОЕ ПРЕДПРИЯ...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[федеральный, государственный, унитарный, пред..."
1796,94811748,ДОГОВОР ПОДРЯДА № _____ «___»___________20____...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[договор, подряд, №, _____, ___, ___________20..."
1797,903507299,ДОКУМЕНТАЦИЯ О ЗАКУПКЕ ЗАПРОС ПРЕДЛОЖЕНИЙ В ЭЛ...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[документация, закупка, запрос, предложение, э..."


## Определяем частоту слов

In [9]:
from collections import Counter

Тестируем работу Counter

In [10]:
test_counter = Counter(banks['texts'][0])

In [11]:
test_counter

Counter({'извещение': 2,
         'проведение': 1,
         'открытый': 2,
         'конкурс': 2,
         'электронный': 1,
         'форма': 1,
         'закупка': 9,
         '№0328300032822000806': 1,
         'общий': 1,
         'информация': 2,
         'номер': 4,
         '0328300032822000806': 1,
         'наименование': 2,
         'объект': 1,
         'поставка': 1,
         'продукт': 1,
         'питание': 1,
         'способ': 3,
         'определение': 1,
         'поставщик': 1,
         'подрядчик': 1,
         'исполнитель': 1,
         'бль': 1,
         'порядок': 3,
         'внесение': 2,
         'денежный': 3,
         'средство': 4,
         'качество': 1,
         'обеспечение': 10,
         'заявка': 4,
         'участие': 3,
         'также': 1,
         'условие': 2,
         'гарантия': 8,
         'предоставляться': 2,
         'участник': 4,
         'вид': 1,
         'независимый': 7,
         'предусмотреть': 1,
         'ст': 6,
         '45': 3,
 

In [12]:
test_counter.most_common(10)

[('обеспечение', 10),
 ('закупка', 9),
 ('гарантия', 8),
 ('контракт', 8),
 ('независимый', 7),
 ('закон', 7),
 ('№', 7),
 ('44-фз', 7),
 ('соответствие', 7),
 ('исполнение', 7)]

Считаем частоту слов во всех отзывах

In [13]:
words = Counter()

In [14]:
for txt in banks['texts']:
    words.update(txt)

Количество слов в отзывах

In [15]:
len(words)

16330

Самые популярные слова

In [16]:
words.most_common(10)

[('обеспечение', 12488),
 ('контракт', 10955),
 ('исполнение', 9482),
 ('договор', 8227),
 ('закупка', 7565),
 ('заказчик', 5095),
 ('обязательство', 4977),
 ('требование', 4696),
 ('гарантия', 4624),
 ('гарантийный', 3763)]

## Создаем словарь, упорядоченный по частоте

В словаре будем использовать 2 специальных кода:
- Код заполнитель: 0
- Неизвестное слово: 1

Нумерация слов в словаре начинается с 2.

In [17]:
# Словарь, отображающий слова в коды
word_to_index = dict()
# Словарь, отображающий коды в слова
index_to_word = dict()

Максимальное количество обрабатываемых слов

In [18]:
max_words = 10000

Создаем словари

In [19]:
for i, word in enumerate(words.most_common(max_words - 2)):
    word_to_index[word[0]] = i + 2
    index_to_word[i + 2] = word[0]

In [20]:
word_to_index

{'обеспечение': 2,
 'контракт': 3,
 'исполнение': 4,
 'договор': 5,
 'закупка': 6,
 'заказчик': 7,
 'обязательство': 8,
 'требование': 9,
 'гарантия': 10,
 'гарантийный': 11,
 '№': 12,
 'счёт': 13,
 'размер': 14,
 'товар': 15,
 'срок': 16,
 'участник': 17,
 'который': 18,
 'цена': 19,
 'соответствие': 20,
 'закон': 21,
 '``': 22,
 "''": 23,
 'независимый': 24,
 'поставщик': 25,
 'средство': 26,
 'работа': 27,
 'предоставление': 28,
 'электронный': 29,
 'случай': 30,
 'заявка': 31,
 'услуга': 32,
 'извещение': 33,
 'номер': 34,
 '%': 35,
 'настоящий': 36,
 'федеральный': 37,
 'денежный': 38,
 'статья': 39,
 '1': 40,
 '44-фз': 41,
 'г.': 42,
 'российский': 43,
 'предусмотреть': 44,
 'порядок': 45,
 'информация': 46,
 'должный': 47,
 'форма': 48,
 'начальный': 49,
 'максимальный': 50,
 'государственный': 51,
 'проведение': 52,
 'наименование': 53,
 'аукцион': 54,
 'указанный': 55,
 'заключаться': 56,
 'поставка': 57,
 'документация': 58,
 'способ': 59,
 'подрядчик': 60,
 'качество': 61,
 

In [21]:
index_to_word

{2: 'обеспечение',
 3: 'контракт',
 4: 'исполнение',
 5: 'договор',
 6: 'закупка',
 7: 'заказчик',
 8: 'обязательство',
 9: 'требование',
 10: 'гарантия',
 11: 'гарантийный',
 12: '№',
 13: 'счёт',
 14: 'размер',
 15: 'товар',
 16: 'срок',
 17: 'участник',
 18: 'который',
 19: 'цена',
 20: 'соответствие',
 21: 'закон',
 22: '``',
 23: "''",
 24: 'независимый',
 25: 'поставщик',
 26: 'средство',
 27: 'работа',
 28: 'предоставление',
 29: 'электронный',
 30: 'случай',
 31: 'заявка',
 32: 'услуга',
 33: 'извещение',
 34: 'номер',
 35: '%',
 36: 'настоящий',
 37: 'федеральный',
 38: 'денежный',
 39: 'статья',
 40: '1',
 41: '44-фз',
 42: 'г.',
 43: 'российский',
 44: 'предусмотреть',
 45: 'порядок',
 46: 'информация',
 47: 'должный',
 48: 'форма',
 49: 'начальный',
 50: 'максимальный',
 51: 'государственный',
 52: 'проведение',
 53: 'наименование',
 54: 'аукцион',
 55: 'указанный',
 56: 'заключаться',
 57: 'поставка',
 58: 'документация',
 59: 'способ',
 60: 'подрядчик',
 61: 'качество',
 

## Преобразуем слова в коды

Функция для преобразования списка слов в список кодов

In [22]:
def text_to_sequence(txt, word_to_index):
    seq = []
    for word in txt:
        index = word_to_index.get(word, 1) # 1 означает неизвестное слово
        # Неизвестные слова не добавляем в выходную последовательность
        if index != 1:
            seq.append(index)
    return seq

In [23]:
txt = banks['texts'][0]

In [24]:
txt

['извещение',
 'проведение',
 'открытый',
 'конкурс',
 'электронный',
 'форма',
 'закупка',
 '№0328300032822000806',
 'общий',
 'информация',
 'номер',
 'извещение',
 '0328300032822000806',
 'наименование',
 'объект',
 'закупка',
 'поставка',
 'продукт',
 'питание',
 'способ',
 'определение',
 'поставщик',
 'подрядчик',
 'исполнитель',
 'открытый',
 'конкурс',
 'бль',
 'порядок',
 'внесение',
 'денежный',
 'средство',
 'качество',
 'обеспечение',
 'заявка',
 'участие',
 'закупка',
 'также',
 'условие',
 'гарантия',
 'обеспечение',
 'заявка',
 'участие',
 'закупка',
 'предоставляться',
 'участник',
 'закупка',
 'вид',
 'денежный',
 'средство',
 'независимый',
 'гарантия',
 'предусмотреть',
 'ст',
 '45',
 'федеральный',
 'закон',
 '№',
 '44-фз',
 'выбор',
 'способ',
 'обеспечение',
 'осуществляться',
 'участник',
 'закупка',
 'самостоятельно',
 'срок',
 'действие',
 'независимый',
 'гарантия',
 'должный',
 'составлять',
 'менее',
 'месяц',
 'дата',
 'окончание',
 'срок',
 'подача',
 'зая

In [25]:
seq = text_to_sequence(txt, word_to_index)

In [26]:
seq

[33,
 52,
 269,
 302,
 29,
 48,
 6,
 7515,
 107,
 46,
 34,
 33,
 7516,
 53,
 97,
 6,
 57,
 358,
 351,
 59,
 155,
 25,
 60,
 91,
 269,
 302,
 4952,
 45,
 64,
 38,
 26,
 61,
 2,
 31,
 76,
 6,
 151,
 86,
 10,
 2,
 31,
 76,
 6,
 109,
 17,
 6,
 122,
 38,
 26,
 24,
 10,
 44,
 105,
 110,
 37,
 21,
 12,
 41,
 335,
 59,
 2,
 205,
 17,
 6,
 116,
 16,
 72,
 24,
 10,
 47,
 65,
 88,
 121,
 98,
 227,
 16,
 197,
 31,
 2,
 31,
 76,
 6,
 109,
 20,
 174,
 66,
 105,
 385,
 37,
 21,
 12,
 41,
 86,
 24,
 10,
 20,
 105,
 110,
 37,
 21,
 12,
 41,
 73,
 13,
 20,
 541,
 174,
 40,
 105,
 505,
 21,
 12,
 41,
 22,
 34,
 118,
 13,
 23,
 487,
 22,
 34,
 133,
 13,
 23,
 433,
 419,
 82,
 22,
 102,
 23,
 480,
 22,
 53,
 145,
 101,
 23,
 22,
 34,
 150,
 13,
 23,
 2,
 4,
 3,
 74,
 2,
 4,
 3,
 14,
 2,
 4,
 3,
 7517,
 43,
 67,
 45,
 2,
 4,
 3,
 9,
 2,
 4,
 3,
 11,
 8,
 188,
 120,
 28,
 24,
 10,
 89,
 9,
 105,
 110,
 37,
 21,
 12,
 41,
 64,
 38,
 26,
 55,
 7,
 13,
 18,
 20,
 108,
 43,
 70,
 146,
 138,
 26,
 147,
 7,
 59,
 

In [27]:
index_to_word[241]

'перечень'

In [28]:
seq = [word_to_index.get(word, 1) for word in txt]

In [29]:
seq

[33,
 52,
 269,
 302,
 29,
 48,
 6,
 7515,
 107,
 46,
 34,
 33,
 7516,
 53,
 97,
 6,
 57,
 358,
 351,
 59,
 155,
 25,
 60,
 91,
 269,
 302,
 4952,
 45,
 64,
 38,
 26,
 61,
 2,
 31,
 76,
 6,
 151,
 86,
 10,
 2,
 31,
 76,
 6,
 109,
 17,
 6,
 122,
 38,
 26,
 24,
 10,
 44,
 105,
 110,
 37,
 21,
 12,
 41,
 335,
 59,
 2,
 205,
 17,
 6,
 116,
 16,
 72,
 24,
 10,
 47,
 65,
 88,
 121,
 98,
 227,
 16,
 197,
 31,
 2,
 31,
 76,
 6,
 109,
 20,
 174,
 66,
 105,
 385,
 37,
 21,
 12,
 41,
 86,
 24,
 10,
 20,
 105,
 110,
 37,
 21,
 12,
 41,
 73,
 13,
 20,
 541,
 174,
 40,
 105,
 505,
 21,
 12,
 41,
 22,
 34,
 118,
 13,
 23,
 487,
 22,
 34,
 133,
 13,
 23,
 433,
 419,
 82,
 22,
 102,
 23,
 480,
 22,
 53,
 145,
 101,
 23,
 22,
 34,
 150,
 13,
 23,
 2,
 4,
 3,
 74,
 2,
 4,
 3,
 14,
 2,
 4,
 3,
 7517,
 43,
 67,
 45,
 2,
 4,
 3,
 9,
 2,
 4,
 3,
 11,
 8,
 188,
 120,
 28,
 24,
 10,
 89,
 9,
 105,
 110,
 37,
 21,
 12,
 41,
 64,
 38,
 26,
 55,
 7,
 13,
 18,
 20,
 108,
 43,
 70,
 146,
 138,
 26,
 147,
 7,
 59,
 

Преобразуем все тексты в последовательность кодов слов

In [30]:
banks['Sequences'] = banks.apply(lambda row: text_to_sequence(row['texts'], word_to_index), axis=1)

In [31]:
banks

Unnamed: 0,id,text,label,extracted_part,texts,Sequences
0,809436509,Извещение о проведении открытого конкурса в эл...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, открытый, конкурс, эле...","[33, 52, 269, 302, 29, 48, 6, 7515, 107, 46, 3..."
1,854885310,ТРЕБОВАНИЯ К СОДЕРЖАНИЮ ЗАЯВКИ участника запро...,обеспечение исполнения контракта,{'text': ['Поставщик должен предоставить обесп...,"[требование, содержание, заявка, участник, зап...","[9, 244, 31, 17, 87, 114, 29, 48, 31, 76, 87, ..."
2,4382157,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ...","[33, 52, 29, 54, 6, 7522, 107, 46, 34, 33, 752..."
3,184555082,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ...","[33, 52, 29, 54, 6, 7534, 107, 46, 34, 33, 753..."
4,211645258,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ...","[33, 52, 29, 54, 6, 7537, 107, 46, 34, 33, 753..."
...,...,...,...,...,...,...
1794,938335285,"«УТВЕРЖДАЮ» Директор МУП ""ПКП и ОРТ"" _________...",обеспечение гарантийных обязательств,{'text': ['Заказчиком установлено требование о...,"[утверждать, директор, муп, ``, пкп, орт, '', ...","[161, 179, 628, 22, 5997, 5998, 23, 1410, 2542..."
1795,214609521,ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ УНИТАРНОЕ ПРЕДПРИЯ...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[федеральный, государственный, унитарный, пред...","[37, 51, 338, 308, 1088, 1955, 4934, 161, 677,..."
1796,94811748,ДОГОВОР ПОДРЯДА № _____ «___»___________20____...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[договор, подряд, №, _____, ___, ___________20...","[5, 965, 12, 407, 128, 7334, 357, 572, 1584, 1..."
1797,903507299,ДОКУМЕНТАЦИЯ О ЗАКУПКЕ ЗАПРОС ПРЕДЛОЖЕНИЙ В ЭЛ...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[документация, закупка, запрос, предложение, э...","[58, 6, 87, 131, 29, 48, 181, 75, 5, 213, 32, ..."


In [32]:
banks['text'][1]

'ТРЕБОВАНИЯ К СОДЕРЖАНИЮ ЗАЯВКИ участника запроса котировок в электронной форме Заявка на участие в запросе котировок в электронной форме должна содержать следующие информацию и документы: 1) об участнике запроса котировок носят на банковский счет, открытый в банке, включенном в перечень, который утвержден распоряжением Правительства Российской Федерации от 13.07.2018 N 1451-р. Требования к банкам, договору специального счета, к порядку использования имеющегося у участника закупки банковского счета в качестве специального счета Правительство РФ установило в постановлении от 30.05.2018 №626. Независимая гарантия должна соответствовать требованиям статьи 45 Закона № 44-ФЗ Реквизиты счета, на котором в соответствии с законодательством Российской Федерации учитываются операции со средствами, поступающими заказчику: Наименование заказчика: Санкт-Петербургское государственное бюджетное учреждение здравоохранения «Городская поликлиника № 95» (СПб ГБУЗ ГП № 95) Реквизиты: ИНН 7817026947, КПП 7

In [33]:
banks['texts'][1]

['требование',
 'содержание',
 'заявка',
 'участник',
 'запрос',
 'котировка',
 'электронный',
 'форма',
 'заявка',
 'участие',
 'запрос',
 'котировка',
 'электронный',
 'форма',
 'должный',
 'содержать',
 'следующий',
 'информация',
 'документ',
 '1',
 'участник',
 'запрос',
 'котировка',
 'носить',
 'банковский',
 'счёт',
 'открытый',
 'банк',
 'включить',
 'перечень',
 'который',
 'утвердить',
 'распоряжение',
 'правительство',
 'российский',
 'федерация',
 '13.07.2018',
 'n',
 '1451-р',
 'требование',
 'банк',
 'договор',
 'специальный',
 'счёт',
 'порядок',
 'использование',
 'иметься',
 'участник',
 'закупка',
 'банковский',
 'счёт',
 'качество',
 'специальный',
 'счёт',
 'правительство',
 'рф',
 'установить',
 'постановление',
 '30.05.2018',
 '№626',
 'независимый',
 'гарантия',
 'должный',
 'соответствовать',
 'требование',
 'статья',
 '45',
 'закон',
 '№',
 '44-фз',
 'реквизит',
 'счёт',
 'который',
 'соответствие',
 'законодательство',
 'российский',
 'федерация',
 'учитывать

In [34]:
len(banks['texts'][1])

254

In [35]:
len(banks['Sequences'][1])

254

# Добавим искомые фразы в датасет в кодированном виде.


In [36]:
banks['quest']=banks['extracted_part'].values

In [37]:
banks['quest']

0       {'text': ['Размер обеспечения исполнения контр...
1       {'text': ['Поставщик должен предоставить обесп...
2       {'text': ['Размер обеспечения исполнения контр...
3       {'text': ['Размер обеспечения исполнения контр...
4       {'text': ['Размер обеспечения исполнения контр...
                              ...                        
1794    {'text': ['Заказчиком установлено требование о...
1795    {'text': [''], 'answer_start': [0], 'answer_en...
1796    {'text': [''], 'answer_start': [0], 'answer_en...
1797    {'text': [''], 'answer_start': [0], 'answer_en...
1798    {'text': [''], 'answer_start': [0], 'answer_en...
Name: quest, Length: 1799, dtype: object

In [38]:
banks['quest'] = banks.apply(lambda row: dict(row['quest'])['text'], axis=1)

In [39]:
banks['quest']

0       [Размер обеспечения исполнения контракта 6593....
1       [Поставщик должен предоставить обеспечение исп...
2        [Размер обеспечения исполнения контракта 10.00%]
3        [Размер обеспечения исполнения контракта 10.00%]
4        [Размер обеспечения исполнения контракта 10.00%]
                              ...                        
1794    [Заказчиком установлено требование обеспечения...
1795                                                   []
1796                                                   []
1797                                                   []
1798                                                   []
Name: quest, Length: 1799, dtype: object

In [40]:
banks['quest'] = banks.apply(lambda row: preprocess(str(row['quest']), punctuation_marks, stop_words, morph), axis=1)

In [41]:
banks['quest']

0       [[, 'размер, обеспечение, исполнение, контракт...
1       [[, 'поставщик, должный, предоставить, обеспеч...
2       [[, 'размер, обеспечение, исполнение, контракт...
3       [[, 'размер, обеспечение, исполнение, контракт...
4       [[, 'размер, обеспечение, исполнение, контракт...
                              ...                        
1794    [[, 'заказчик, установить, требование, обеспеч...
1795                                           [[, ``, ]]
1796                                           [[, ``, ]]
1797                                           [[, ``, ]]
1798                                           [[, ``, ]]
Name: quest, Length: 1799, dtype: object

In [42]:
banks['quest'] = banks.apply(lambda row: text_to_sequence(row['quest'], word_to_index), axis=1)

In [43]:
banks['quest']

0                 [191, 2, 4, 3, 7517, 43, 67, 3705, 169]
1       [191, 47, 112, 2, 4, 3, 14, 142, 35, 19, 3, 37...
2                      [191, 2, 4, 3, 724, 35, 3705, 169]
3                      [191, 2, 4, 3, 724, 35, 3705, 169]
4                      [191, 2, 4, 3, 724, 35, 3705, 169]
                              ...                        
1794    [191, 69, 9, 2, 4, 5, 2, 4, 11, 8, 66, 35, 49,...
1795                                       [191, 22, 169]
1796                                       [191, 22, 169]
1797                                       [191, 22, 169]
1798                                       [191, 22, 169]
Name: quest, Length: 1799, dtype: object

In [44]:
banks

Unnamed: 0,id,text,label,extracted_part,texts,Sequences,quest
0,809436509,Извещение о проведении открытого конкурса в эл...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, открытый, конкурс, эле...","[33, 52, 269, 302, 29, 48, 6, 7515, 107, 46, 3...","[191, 2, 4, 3, 7517, 43, 67, 3705, 169]"
1,854885310,ТРЕБОВАНИЯ К СОДЕРЖАНИЮ ЗАЯВКИ участника запро...,обеспечение исполнения контракта,{'text': ['Поставщик должен предоставить обесп...,"[требование, содержание, заявка, участник, зап...","[9, 244, 31, 17, 87, 114, 29, 48, 31, 76, 87, ...","[191, 47, 112, 2, 4, 3, 14, 142, 35, 19, 3, 37..."
2,4382157,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ...","[33, 52, 29, 54, 6, 7522, 107, 46, 34, 33, 752...","[191, 2, 4, 3, 724, 35, 3705, 169]"
3,184555082,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ...","[33, 52, 29, 54, 6, 7534, 107, 46, 34, 33, 753...","[191, 2, 4, 3, 724, 35, 3705, 169]"
4,211645258,Извещение о проведении электронного аукциона д...,обеспечение исполнения контракта,{'text': ['Размер обеспечения исполнения контр...,"[извещение, проведение, электронный, аукцион, ...","[33, 52, 29, 54, 6, 7537, 107, 46, 34, 33, 753...","[191, 2, 4, 3, 724, 35, 3705, 169]"
...,...,...,...,...,...,...,...
1794,938335285,"«УТВЕРЖДАЮ» Директор МУП ""ПКП и ОРТ"" _________...",обеспечение гарантийных обязательств,{'text': ['Заказчиком установлено требование о...,"[утверждать, директор, муп, ``, пкп, орт, '', ...","[161, 179, 628, 22, 5997, 5998, 23, 1410, 2542...","[191, 69, 9, 2, 4, 5, 2, 4, 11, 8, 66, 35, 49,..."
1795,214609521,ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ УНИТАРНОЕ ПРЕДПРИЯ...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[федеральный, государственный, унитарный, пред...","[37, 51, 338, 308, 1088, 1955, 4934, 161, 677,...","[191, 22, 169]"
1796,94811748,ДОГОВОР ПОДРЯДА № _____ «___»___________20____...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[договор, подряд, №, _____, ___, ___________20...","[5, 965, 12, 407, 128, 7334, 357, 572, 1584, 1...","[191, 22, 169]"
1797,903507299,ДОКУМЕНТАЦИЯ О ЗАКУПКЕ ЗАПРОС ПРЕДЛОЖЕНИЙ В ЭЛ...,обеспечение гарантийных обязательств,"{'text': [''], 'answer_start': [0], 'answer_en...","[документация, закупка, запрос, предложение, э...","[58, 6, 87, 131, 29, 48, 181, 75, 5, 213, 32, ...","[191, 22, 169]"


In [46]:
def vectorize_sequences(sequences, dimension=10000):
    results = np.zeros((len(sequences), dimension))
    for i, sequence in enumerate(sequences):
        results[i, sequence] = 1.
    return results

In [61]:
x_train = vectorize_sequences(banks['Sequences'])
y_train = vectorize_sequences(banks['quest'])

In [84]:
x_train.shape


(1799, 10000)

In [85]:
y_train.shape

(1799, 10000)

In [95]:
import tensorflow as tf 
import tensorflow as tf 
from keras import models
from keras import layers


def build_model():
    model = tf.keras.Sequential([
    tf.keras.layers.Dense(10000,input_shape=(10000,)),
    tf.keras.layers.Dense(200, activation='relu'),  
    tf.keras.layers.Dense(100, activation='relu'), 
    tf.keras.layers.Dense(50, activation='relu'), 
    tf.keras.layers.Dense(320000)

])
    model.compile(optimizer='adam',loss=tf.keras.losses.SparseCategoricalCrossentropy(),metrics=['accuracy'])

    return model

model = build_model()


history = model.fit(x_train,y_train,
                    epochs=20, 
                    )



Epoch 1/20


InvalidArgumentError: Graph execution error:

Detected at node 'sparse_categorical_crossentropy/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits' defined at (most recent call last):
    File "/usr/lib/python3.8/runpy.py", line 194, in _run_module_as_main
      return _run_code(code, main_globals, None,
    File "/usr/lib/python3.8/runpy.py", line 87, in _run_code
      exec(code, run_globals)
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel_launcher.py", line 17, in <module>
      app.launch_new_instance()
    File "/home/genalll/.local/lib/python3.8/site-packages/traitlets/config/application.py", line 982, in launch_instance
      app.start()
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel/kernelapp.py", line 712, in start
      self.io_loop.start()
    File "/home/genalll/.local/lib/python3.8/site-packages/tornado/platform/asyncio.py", line 215, in start
      self.asyncio_loop.run_forever()
    File "/usr/lib/python3.8/asyncio/base_events.py", line 570, in run_forever
      self._run_once()
    File "/usr/lib/python3.8/asyncio/base_events.py", line 1859, in _run_once
      handle._run()
    File "/usr/lib/python3.8/asyncio/events.py", line 81, in _run
      self._context.run(self._callback, *self._args)
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel/kernelbase.py", line 510, in dispatch_queue
      await self.process_one()
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel/kernelbase.py", line 499, in process_one
      await dispatch(*args)
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel/kernelbase.py", line 406, in dispatch_shell
      await result
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel/kernelbase.py", line 730, in execute_request
      reply_content = await reply_content
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel/ipkernel.py", line 383, in do_execute
      res = shell.run_cell(
    File "/home/genalll/.local/lib/python3.8/site-packages/ipykernel/zmqshell.py", line 528, in run_cell
      return super().run_cell(*args, **kwargs)
    File "/home/genalll/.local/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 2940, in run_cell
      result = self._run_cell(
    File "/home/genalll/.local/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 2995, in _run_cell
      return runner(coro)
    File "/home/genalll/.local/lib/python3.8/site-packages/IPython/core/async_helpers.py", line 129, in _pseudo_sync_runner
      coro.send(None)
    File "/home/genalll/.local/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 3194, in run_cell_async
      has_raised = await self.run_ast_nodes(code_ast.body, cell_name,
    File "/home/genalll/.local/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 3373, in run_ast_nodes
      if await self.run_code(code, result, async_=asy):
    File "/home/genalll/.local/lib/python3.8/site-packages/IPython/core/interactiveshell.py", line 3433, in run_code
      exec(code_obj, self.user_global_ns, self.user_ns)
    File "/tmp/ipykernel_24788/3850338170.py", line 23, in <module>
      history = model.fit(x_train,y_train,
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/utils/traceback_utils.py", line 65, in error_handler
      return fn(*args, **kwargs)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/engine/training.py", line 1650, in fit
      tmp_logs = self.train_function(iterator)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/engine/training.py", line 1249, in train_function
      return step_function(self, iterator)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/engine/training.py", line 1233, in step_function
      outputs = model.distribute_strategy.run(run_step, args=(data,))
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/engine/training.py", line 1222, in run_step
      outputs = model.train_step(data)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/engine/training.py", line 1024, in train_step
      loss = self.compute_loss(x, y, y_pred, sample_weight)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/engine/training.py", line 1082, in compute_loss
      return self.compiled_loss(
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/engine/compile_utils.py", line 265, in __call__
      loss_value = loss_obj(y_t, y_p, sample_weight=sw)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/losses.py", line 152, in __call__
      losses = call_fn(y_true, y_pred)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/losses.py", line 284, in call
      return ag_fn(y_true, y_pred, **self._fn_kwargs)
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/losses.py", line 2098, in sparse_categorical_crossentropy
      return backend.sparse_categorical_crossentropy(
    File "/home/genalll/.local/lib/python3.8/site-packages/keras/backend.py", line 5633, in sparse_categorical_crossentropy
      res = tf.nn.sparse_softmax_cross_entropy_with_logits(
Node: 'sparse_categorical_crossentropy/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits'
logits and labels must have the same first dimension, got logits shape [32,320000] and labels shape [320000]
	 [[{{node sparse_categorical_crossentropy/SparseSoftmaxCrossEntropyWithLogits/SparseSoftmaxCrossEntropyWithLogits}}]] [Op:__inference_train_function_15876]