In [1]:
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import *

import pandas as pd
import numpy as np

In [2]:
vowels = 'а у о ы и э я ю ё е'.split(' ')

In [3]:
df = pd.read_csv('all_accents.tsv', sep='\t', header=None)
df = df[~df[0].apply(lambda x: '-' in x and not x.startswith('-'))]
df = df[df[0].apply(lambda x: len(x) <= 20)]
df = df[~df[1].apply(lambda x: '^' not in x and len(set(x) & set(vowels)) > 0)]

chars = (set(list(''.join(df[0].values))))
corpus = {value: i for i, value in enumerate(sorted(chars))}
corpus_inv = {value: key for key, value in corpus.items()}

print(f'Всего слов: {df.shape[0]}')

Всего слов: 1669471


In [4]:
X = [[corpus[x] for x in word] for word in df[0]]
X = pad_sequences(X, 20, padding='post')
y = df[1].apply(lambda x: x.index('^') if '^' in x else -1)

In [5]:
model = Sequential([
    Input(shape=[20]),
    Embedding(len(corpus), 8),
    LSTM(128, return_sequences=True),
    LSTM(128),
    Dense(1),
])

model.compile('adam', 'mean_squared_error')

In [6]:
model.summary()

Model: "sequential"
_________________________________________________________________
Layer (type)                 Output Shape              Param #   
embedding (Embedding)        (None, 20, 8)             280       
_________________________________________________________________
lstm (LSTM)                  (None, 20, 128)           70144     
_________________________________________________________________
lstm_1 (LSTM)                (None, 128)               131584    
_________________________________________________________________
dense (Dense)                (None, 1)                 129       
Total params: 202,137
Trainable params: 202,137
Non-trainable params: 0
_________________________________________________________________


In [7]:
history = model.fit(X, y, epochs=100)

Epoch 1/100
Epoch 2/100
Epoch 3/100
Epoch 4/100
Epoch 5/100
Epoch 6/100
Epoch 7/100
Epoch 8/100
Epoch 9/100
Epoch 10/100
Epoch 11/100
Epoch 12/100
Epoch 13/100
Epoch 14/100
Epoch 15/100
Epoch 16/100
Epoch 17/100
Epoch 18/100
Epoch 19/100
Epoch 20/100
Epoch 21/100
Epoch 22/100
Epoch 23/100
Epoch 24/100
Epoch 25/100
Epoch 26/100
Epoch 27/100
Epoch 28/100
Epoch 29/100
Epoch 30/100
Epoch 31/100
Epoch 32/100
Epoch 33/100
Epoch 34/100
Epoch 35/100
Epoch 36/100
Epoch 37/100
Epoch 38/100
Epoch 39/100
Epoch 40/100
Epoch 41/100
Epoch 42/100
Epoch 43/100
Epoch 44/100
Epoch 45/100
Epoch 46/100
Epoch 47/100
Epoch 48/100
Epoch 49/100
Epoch 50/100
Epoch 51/100
Epoch 52/100
Epoch 53/100
Epoch 54/100
Epoch 55/100
Epoch 56/100
Epoch 57/100
Epoch 58/100
Epoch 59/100
Epoch 60/100
Epoch 61/100
Epoch 62/100
Epoch 63/100
Epoch 64/100
Epoch 65/100
Epoch 66/100
Epoch 67/100
Epoch 68/100
Epoch 69/100
Epoch 70/100
Epoch 71/100
Epoch 72/100
Epoch 73/100
Epoch 74/100
Epoch 75/100
Epoch 76/100
Epoch 77/100
Epoch 78

Epoch 93/100
Epoch 94/100
Epoch 95/100
Epoch 96/100
Epoch 97/100
Epoch 98/100
Epoch 99/100
Epoch 100/100


In [8]:
test_words = ['привет', 'задание', 'телефон', 'признание', 'комната', 'уважение', 'табель', 'задница', 'морковь', 'желудь', 'язык', 'машиностроение', 'единообразие', 'леха', 'образование', 'миграция', 'желтый', 'деревья']
X_test = [[corpus[x] for x in word] for word in test_words]
X_test = pad_sequences(X_test, 20, padding='post')

y_pred = model.predict(X_test)
for i, [idx] in enumerate(y_pred):
    word = test_words[i]
    for j in np.argsort(np.abs(np.arange(len(word)) - idx)):
        if word[j] in vowels: break
    print(word[:j+1] + u'\u0301' + word[j+1:])

приве́т
зада́ние
телефо́н
призна́ние
ко́мната
уваже́ние
та́бель
за́дница
морко́вь
желу́дь
язы́к
машинострое́ние
единообра́зие
леха́
образова́ние
мигра́ция
же́лтый
дере́вья


In [9]:
test_words = ['приивет', 'сдание', 'обожуние', 'призенание', 'комнатка', 'уважка', 'табелек', 'задницкой', 'кекушка', 'облолился', 'затролировал']
X_test = [[corpus[x] for x in word] for word in test_words]
X_test = pad_sequences(X_test, 20, padding='post')

y_pred = model.predict(X_test)
for i, [idx] in enumerate(y_pred):
    word = test_words[i]
    for j in np.argsort(np.abs(np.arange(len(word)) - idx)):
        if word[j] in vowels: break
    print(word[:j+1] + u'\u0301' + word[j+1:])

прииве́т
сда́ние
обожу́ние
призена́ние
ко́мнатка
ува́жка
табе́лек
за́дницкой
ке́кушка
облоли́лся
затроли́ровал


In [10]:
from tensorflow.keras.models import load_model

model = load_model('striker.tf')

In [21]:
def print_striked(word: str):
    word = word.lower()
    if 'ё' in word:
        idx = word.index('ё')
    else:
        X = [[corpus[x] for x in word]]
        idx = model.predict(X)
    print(idx)

print_striked('келка')

[[-0.96517575]]


In [20]:
model.predict(X)

KeyboardInterrupt: 