In [None]:
import numpy as np
import pandas as pd
import warnings
import os
import wget
import tensorflow as tf
import kashgari
from kashgari.embeddings import BERTEmbedding
from kashgari.tasks.classification import BiLSTM_Model
from kashgari.utils import load_model
from sklearn.model_selection import train_test_split
import logging
from zipfile import ZipFile
warnings.simplefilter("ignore", category=PendingDeprecationWarning)

from keras import backend
print("Is gpu available:", tf.test.is_gpu_available())
print("Available gpus:", backend.tensorflow_backend._get_available_gpus())

In [None]:
def bert_preprocess(data):
    tokenizer = bert_embedding.tokenizer
    sentences_tokenized = []
    for sentence in data:
        sentence_tokenized = tokenizer.tokenize(sentence)
        sentences_tokenized.append(sentence_tokenized)
    return sentences_tokenized

In [None]:
root_dir = '/mnt/sdc/'
logging.basicConfig(level='DEBUG')
bert_model_name='google-bert-multi'
bert_model_path = root_dir + 'bert_model/'
bert_embedding = BERTEmbedding(bert_model_path, sequence_length=300, task=kashgari.CLASSIFICATION)
model = BiLSTM_Model(bert_embedding)

# Обучим классификатор ошибочного употребления тся/ться

In [None]:
from keras import backend
print("Is gpu available:", tf.test.is_gpu_available())
print("Available gpus:", backend.tensorflow_backend._get_available_gpus())

root_dir = '/home/orpho/data'

train_data = pd.read_csv(root_dir + '/train_data_bklif.csv', index_col=0)
val_data = pd.read_csv(root_dir + '/val_data_bklif.csv', index_col=0)
print("Train and val data shape", train_data.shape, val_data.shape)

logging.basicConfig(level='DEBUG')

"""## Train: simple biLSTM
### Define model
"""

bert_model_name='google-bert-multi'
bert_model_path = root_dir + '/models/'

if not os.path.exists(bert_model_path+bert_model_name):
    if not os.path.exists(bert_model_path):
        os.mkdir(bert_model_path)
    bert_url = 'https://storage.googleapis.com/bert_models/2018_11_23/multi_cased_L-12_H-768_A-12.zip'
    wget.download(bert_url, out=bert_model_path+bert_model_name+'.zip')
    zipdata = ZipFile(bert_model_path+bert_model_name+'.zip')
    zipinfos = zipdata.infolist()
    for zipinfo in zipinfos:
        zipinfo.filename = zipinfo.filename.replace('multi_cased_L-12_H-768_A-12', bert_model_name)
        zipdata.extract(zipinfo, path=bert_model_path)
    print("Unzipped")

bert_model_path += bert_model_name
bert_embedding = BERTEmbedding(bert_model_path, sequence_length=300, task=kashgari.CLASSIFICATION)
model = BiLSTM_Model(bert_embedding)

"""### Data generation"""

print(pd.Series(train_data['y']).value_counts())

x_train_preprocessed = bert_preprocess(train_data['x'])
x_val_preprocessed = bert_preprocess(val_data['x'])
bert_embedding.processor.add_bos_eos = False

y_train = list(map(bool, train_data['y']))
y_val = list(map(bool, val_data['y']))
print("Len of current training data", len(y_train), len(x_train_preprocessed))
print(type(y_train[0]))

"""### Train model

#### Train from checkpoint
"""
train_from_chkpt = False
multi_gpu = False
test_mode = False
model_name = 'bilstm_with_vocab_bklif_from_scratch'
model_save_dir = root_dir + '/trained/'
if not os.path.exists(root_dir + '/trained'):
    os.mkdir(root_dir + '/trained')

chkpt_callback = tf.keras.callbacks.ModelCheckpoint(root_dir+'/chkpt/weights_bklif.{epoch:02d}-{acc:.2f}-{val_acc:.2f}.hdf5',
                        monitor='val_loss', verbose=1, save_best_only=False, save_weights_only=False, mode='auto')

chkpt_dir = root_dir + '/chkpt/'

if test_mode:
    model = load_model(root_dir+'/trained/' + model_name, load_weights=True)
    replicas = np.array(['Надо чаще встречаться', 'Надо чаще встречатся', 'Собака не шевелится', 'Собака не шевелиться',
            'Собака не хочет шевелится', 'Собака не хочет шевелиться', 'Он всё равно со всеми перессорится.',
            'Он всё равно со всеми перессориться.', 'Не дай ему там со всеми перессориться.',
            'Не дай ему там со всеми перессорится.'])
    replicas_preprocessed = bert_preprocess(replicas)
    for i, s in enumerate(replicas_preprocessed):
        print(replicas[i], model.predict([s]))
else:
    if train_from_chkpt:
        if not os.path.exists(root_dir + '/chkpt'):
            raise Exception("Checkpoint does not exist")
        else:
            chkpt_path = chkpt_dir + 'weights2.06-0.68.hdf5'
            model.build_model(x_train_preprocessed, y_train, x_val_preprocessed, y_val)
            model.tf_model.load_weights(chkpt_path)
            model.fit(x_train_preprocessed, y_train, x_val_preprocessed, y_val,
                epochs = 1,
                batch_size = 1024,
                callbacks = [chkpt_callback],
                fit_kwargs = {'initial_epoch': 0})
    else:
        if not os.path.exists(root_dir + '/chkpt'):
            os.mkdir(root_dir + '/chkpt')
        if multi_gpu:
            model.build_multi_gpu_model(self,
                gpus=2,
                x_train=x_train_preprocessed,
                y_train= y_train,
                x_validate=x_val_preprocessed,
                y_validate=y_val)
        model.fit(x_train_preprocessed, y_train, x_val_preprocessed, y_val,
                epochs=10,
                batch_size=1024,            
                callbacks=[chkpt_callback])

    model.save(model_save_dir + model_name)

    replicas = np.array(['Надо чаще встречаться', 'Надо чаще встречатся', 'Собака не шевелится', 'Собака не шевелиться',
                'Собака не хочет шевелится', 'Собака не хочет шевелиться', 'Он всё равно со всеми перессорится.',
                'Он всё равно со всеми перессориться.', 'Не дай ему там со всеми перессориться.',
                'Не дай ему там со всеми перессорится.'])
    replicas_preprocessed = bert_preprocess(replicas)
    for i, s in enumerate(replicas_preprocessed):
        print(replicas[i], model.predict([s]))


# Воспользуемся полученной моделью, чтобы сделать корректор ошибок

In [None]:
model = load_model(root_dir+'lstm_model/', load_weights=True)

In [None]:
#s = np.array(['Что-то мне не хочеться играть сегодня, а должно хотеться'])

___ для одномерного случая есть ___

In [None]:
replicas = np.array(['Надо чаще встречатся'])
replicas_preprocessed = bert_preprocess(replicas)
for i, s in enumerate(replicas_preprocessed):
    result = model.predict([s])
    if result != ['true']:
        while result != ['true']:
            s = str(replicas[0])
            words = s.split(' ')
            for i in range(len(words)):
                if 'тся' in words[i]:
                    words[i] = 'ться'.join(words[i].split('тся'))
                    #print('я')

                else:
                    if 'ться' in words[i]:
                        words[i] = 'тся'.join(words[i].split('ться')) 
                        #print('й')

            s = ' '.join(words)
            replicas = np.array([s])

            replicas_preprocessed = bert_preprocess(replicas)
            for i, s in enumerate(replicas_preprocessed):
                result = model.predict([s])

In [None]:
replicas

_______

_ для многомерного случая есть _

In [None]:
replicas = np.array(['Надо чаще встречатся, смеятся'])
replicas_preprocessed = bert_preprocess(replicas)
for i, s in enumerate(replicas_preprocessed):
    result = model.predict([s])
    if result != ['true']:
        while result != ['true']:
            s = str(replicas[0])
            words = s.split(' ')
            
            ###
            suspended = []
            idx = []
            for w in words:
                if 'тся' in w:
                    suspended.append(w)
                    idx.append(words.index(w))
                    
                if 'ться' in w:
                    suspended.append(w)
                    idx.append(words.index(w))
                    
                    
            
            BITSIZE = len(suspended)

            for y in range(1<<BITSIZE):
                a = y
                b = 0
                for k in range(BITSIZE):
                    b <<= 1
                    b ^= i&1
                    y >>= 1
                current = '{:010b}'.format(a, b)[-BITSIZE:]

                for j in range(BITSIZE):
                    
                    if 'тся' in suspended[j]:
                        q = suspended[j].split('тся')
                        if current[j] == 1:
                            suspended[j] = 'тся'.join(q)
                            #print('1')
                        else: 
                            suspended[j] = 'ться'.join(q)
                            #print('2')

                    else:
                        q = suspended[j].split('ться')
                        if current[j] == 1:
                            suspended[j] = 'тся'.join(q)
                            #print('3')
                        else: 
                            suspended[j] = 'ться'.join(q)
                            #print('4')




                #склеить
                counter = 0
                for j in idx:
                    words[j] = suspended[counter]
                    counter = counter +1
            
            
        
            
            ###
            #проверка
            
            s = ' '.join(words)
            replicas = np.array([s])

            replicas_preprocessed = bert_preprocess(replicas)
            for i, s in enumerate(replicas_preprocessed):
                result = model.predict([s])
#print('хай')

In [None]:
replicas