## Импорт необходимых библиотек

In [1]:
import re
import spacy
import csv
import torch
import nltk
import pandas as pd

from collections import Counter
from itertools import chain
from tqdm import tqdm
from typing import List
from sklearn import model_selection

## Подготовка данных

In [2]:
nlp = spacy.load('ru_core_news_lg')

In [3]:
data_path = "./data/some_data/processed_data/"

In [4]:
with open(data_path + "original_texts.txt", 'r', encoding='utf-8') as f:
    orig_texts = f.read().split('\n')

In [9]:
pipeline = nlp.pipe_names.copy()
pipeline

['tok2vec', 'morphologizer', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']

In [10]:
pipeline.remove('parser')
pipeline.remove('tok2vec')
pipeline.remove('lemmatizer')
pipeline.remove('morphologizer')
pipeline

['ner', 'attribute_ruler']

In [11]:
tokenized_lemm_texts = []

In [12]:
for text in tqdm(nlp.pipe(orig_texts, disable=pipeline)):
    lemm_text = []
    for token in text:
        if token.dep_ == 'nsubj':
            lemm_text.append('<PH>')
        else:
            lemm_text.append(token.lemma_.lower())
    tokenized_lemm_texts.append(lemm_text)

360279it [09:45, 615.54it/s]


In [14]:
lemm_texts = []

In [15]:
for text in tqdm(tokenized_lemm_texts):
    assembled = ""
    for token in text:
        assembled += token + ' '
    assembled = re.sub(r'\s([?.!"](?:\s|$))', r'\1', assembled).rstrip()
    lemm_texts.append(assembled)

100%|██████████████████████████████████████████████████████████████████████| 360279/360279 [00:01<00:00, 219633.93it/s]


### Построение csv-файла с необходимыми признаками

In [25]:
pipeline = nlp.pipe_names.copy()
pipeline

['tok2vec', 'morphologizer', 'parser', 'ner', 'attribute_ruler', 'lemmatizer']

In [26]:
pipeline.remove('parser')
pipeline.remove('tok2vec')
pipeline.remove('morphologizer')
pipeline

['ner', 'attribute_ruler', 'lemmatizer']

In [28]:
dataset = []

for i, text in tqdm(enumerate((nlp.pipe(orig_texts, disable=pipeline)))):
    for token in text:
        if token.dep_ == 'nsubj':
            dataset.append({
                'orig_texts': orig_texts[i].lower(),
                'lemm_texts': lemm_texts[i].lower(),
                'nsubj': token.text.lower(),
            })
            break

360279it [02:26, 2465.22it/s]


In [38]:
dataset[:5]

[{'orig_texts': 'я предлагаю оригинальный подарок для малыша!',
  'lemm_texts': '<PH> предлагать оригинальный подарок для малыш!',
  'nsubj': 'я'},
 {'orig_texts': 'я обезательно перезвоню в любом случае.',
  'lemm_texts': '<PH> обезательно перезвонить в любой случай.',
  'nsubj': 'я'},
 {'orig_texts': 'цены на память я не помню.',
  'lemm_texts': 'цена на память <PH> не помнить.',
  'nsubj': 'я'},
 {'orig_texts': 'я не помню, где находились.',
  'lemm_texts': '<PH> не помнить, где находиться.',
  'nsubj': 'я'},
 {'orig_texts': 'я работаю на высококачественных американских материалах.',
  'lemm_texts': '<PH> работать на высококачественный американский материал.',
  'nsubj': 'я'}]

In [39]:
with open(data_path + 'dataset.csv', 'w', encoding='utf-8') as f:
    csv_writer = csv.writer(f, delimiter=',')
    csv_writer.writerow(['orig_texts', 'lemm_texts', 'nsubj'])
    for item in tqdm(dataset):
        csv_writer.writerow(item.values())

100%|██████████████████████████████████████████████████████████████████████| 358502/358502 [00:00<00:00, 445856.68it/s]


In [4]:
class InputEncoderFeatures:
    def __init__(self, tokens_idx: List[int], nsubj_idx: int):
        self.tokens_idx = tokens_idx
        self.nsubj_idx = nsubj_idx

In [2]:
class Vocab:
    def __init__(self, tokens: List[str], unk_idx: int):
        self._tokens = tokens
        self._token_to_idx = {token: i for i, token in enumerate(tokens) if token not in self._token_to_idx}
        self._unk_idx = unk_idx
        
    def __len__(self):
        return len(self._tokens)
    
    def word_to_idx(self, word):
        return self._token_to_idx.get(word, self._unk_idx)
    
    def idx_to_word(self, idx):
        return self._tokens[idx]

In [20]:
class TextTransformer:
    def __init__(self, vocab_size):
        self.vocab = None
        self.vocab_size = vocab_size
        self.special_words_to_idx = {'<PH>': 0, '<UNK>': 1, '<EOS>': 2, '<SOS>': 3, '<PAD>': 4}
        self._tokenizer = nltk.tokenize.wordpunct_tokenize
        
    def tokenize(self, text):
        return self._tokenizer(text.lower())

    def build_vocab(self, tokens):
        inp_tokens = [special_word for special_word in self.special_words_to_idx.keys()]
        for token, _ in Counter(tokens).most_common(self.max_vocab_size - len(self.special_words)):
            inp_tokens.append(token)
        
        self.vocab = Vocab(inp_tokens, self.unk_idx)
        
    def transform_single_text(self, text):
        tokens = self.tokenize(text)
        idxs = [self.vocab.word_to_idx(token) for token in tokens]
        return idxs
        
    def transform(self, texts):
        result = []
        for text in texts:
            result.append(self.transform_single_text(text))
        return result
    
    def fit_transform(self, texts):
        result = []
        tokenized_texts = [self.tokenize(text) for text in texts]
        self.build_vocab(chain(tokenized_texts))
        for tokens in tokenized_texts:
            idxs = [self.vocab.word_to_idx(token) for token in tokens]
            result.append(idxs)
        return result

In [9]:
def build_encoder_features(token_idxs: List[int], nsubj_idx: int, special_idxs: dict, max_seq_len=10):
    pad_idx = special_idxs['<PAD>']
    if len(token_idxs) >= max_seq_len:
        inp_idxs = token_idxs[:max_seq_len]
    else:
        pad_completion_size = len(token_idxs - max_seq_len)
        inp_idxs = token_idxs + [pad_idx for i in range(pad_completion_size)]
    
    sos_idx = special_idxs['<SOS>']
    ph_idx = special_idxs['<PH>']
    eos_idx = special_idxs['<EOS>']
    
    inp_idxs.insert(0, sos_idx)
    inp_idxs.insert(0, ph_idx)
    inp_idxs.append(eos_idx)
    
    return InputEncoderFeatures(inp_idxs, nsubj_idx)

In [6]:
def features_to_tensor(features, for_encoder=False):
    if for_encoder:
        text_tensor = torch.tensor([feature.tokens_idx for feature in features])
        nsubj_tensor = torch.tensor([feature.nsubj_idx for feature in features])
        return text_tensor, nsubj_tensor
    else:
        text_tensor = torch.tensor([feature for feature in features])
        return text_tensor

In [11]:
data_path = "./data/some_data/processed_data/dataset.csv"

In [12]:
df = pd.read_csv(data_path)

In [13]:
df = df[df.lemm_texts.str.startswith('<PH>')]

In [16]:
df

Unnamed: 0,orig_texts,lemm_texts,nsubj
0,я предлагаю оригинальный подарок для малыша!,<PH> предлагать оригинальный подарок для малыш!,я
1,я обезательно перезвоню в любом случае.,<PH> обезательно перезвонить в любой случай.,я
3,"я не помню, где находились.","<PH> не помнить, где находиться.",я
4,я работаю на высококачественных американских м...,<PH> работать на высококачественный американск...,я
5,я же продам за 400 руб.,<PH> же продать за 400 руб.,я
...,...,...,...
358476,хелена ясно выразилась на этот счет.,<PH> ясно выразиться на этот счёт.,хелена
358477,она ясно прочерчивалась среди опадающей листвы.,<PH> ясно прочерчивалась среди опадать листва.,она
358478,она ясно видела сквозь обманывающую маску.,<PH> ясно видеть сквозь обманывать маска.,она
358479,я ясно видел против пламени.,<PH> ясно видеть против пламя.,я


In [17]:
train_df, test_df = model_selection.train_test_split(df, test_size=0.1)

In [18]:
test_df, val_df = model_selection.train_test_split(test_df, test_size=0.5)