In [130]:
import pandas as pd
import numpy as np
import pandas as pd
import tensorflow as tf
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.layers import Input, Embedding, LSTM, Dense
from tensorflow.keras.models import Model
import Levenshtein

# Для обучения модели взял набор русских слов размерность 10к

In [99]:
with open("dict.txt",'r',encoding="UTF-8") as file:
    lines = file.readlines()

In [100]:
df = pd.DataFrame()

In [101]:
lines = [l.strip() for l in lines]

In [102]:
df["right"] = lines

# Функция для добавления ошибок в слова

In [103]:
import random

def make_typo(word):
    error_type = random.choice(["replace", "omit", "swap", "add"])
    typo = ""
    
    if error_type == "replace":
        index = random.randint(0, len(word)-1)
        new_letter = random.choice([chr(i) for i in range(1072, 1104) if chr(i) != word[index]])
        typo = word[:index] + new_letter + word[index+1:]
    elif error_type == "omit":
        index = random.randint(0, len(word)-2)
        typo = word[:index] + word[index+1:]
    elif error_type == "swap":
        index = random.randint(0, len(word)-2)
        typo = word[:index] + word[index+1] + word[index] + word[index+2:]
    elif error_type == "add":
        index = random.randint(0, len(word)-1)
        new_letter = random.choice([chr(i) for i in range(1072, 1104)])
        typo = word[:index] + new_letter + word[index:]

    return typo


In [104]:
test_df = df.sample(100, replace=False)

In [105]:
test_df

Unnamed: 0,right
45221,ржавчинник
7430,выбрасывание
40261,привратница
27282,наползание
42729,пустолайка
...,...
35439,перидий
42512,псица
27093,наклонность
5306,варакушка


In [106]:
data = {"right":[],"wrong":[]}
for word in test_df["right"]:
    for _ in range(100):
        data["right"].append(word)
        data["wrong"].append(make_typo(word))

In [107]:
data = pd.DataFrame(data)

# Создал DF в котором у каждого слова с ошибкой есть его вариант без ошибки

In [96]:
data

Unnamed: 0,right,wrong
0,пойнтер,пойнетр
1,пойнтер,пойнтр
2,пойнтер,пщйнтер
3,пойнтер,пойтер
4,пойнтер,пойтнер
...,...,...
9995,смотрок,смотрох
9996,смотрок,смотрко
9997,смотрок,сморок
9998,смотрок,смцотрок


# Использовал подход с ML и без

# Здесь я ипользую расстояние Левенштейна, которое для неправильного слова находит правильное, из переданного списка.

In [97]:
def correct_word(word, dictionary):
    word = word.lower()
    min_distance = float('inf')#При начале ставим расстояние на максимум
    corrected_word = None#Правильное слово пока что нул
    
    for correct_word in dictionary:#Бежим по словарю
        distance = Levenshtein.distance(word, correct_word)
        if distance < min_distance:#Если найденное растояние меньше уже записаннаого, то запоминаем это растояние и слово
            min_distance = distance
            corrected_word = correct_word
    
    return corrected_word#Возвращаем слово с самым маленьким растоянием

dictionary = list(data["right"])

data["corrected"] = data["wrong"].apply(lambda x: correct_word(x, dictionary))

KeyboardInterrupt: 

In [108]:
data

Unnamed: 0,right,wrong
0,ржавчинник,ржавчиннрк
1,ржавчинник,ржвчинник
2,ржавчинник,ржавчилнник
3,ржавчинник,државчинник
4,ржавчинник,ржавчинниек
...,...,...
9995,колобашка,колобаша
9996,колобашка,колобашкча
9997,колобашка,колоаашка
9998,колобашка,колобшака


# С использованием ML

# Токенезируем каждое слово, то есть у каждого слова теперь есть числовой индекс

In [109]:
all_words = list(data['right']) + list(data['wrong'])

tokenizer = Tokenizer()
tokenizer.fit_on_texts(all_words)

sequences_right = tokenizer.texts_to_sequences(data['right'])
sequences_wrong = tokenizer.texts_to_sequences(data['wrong'])

In [110]:
vocab_size = len(tokenizer.word_index) + 1 #Кол-во слов в словаре
embedding_dim = 50 #Длинна вектора для каждого слова
lstm_units = 128 # Кол-во нейронов в LSTM

input_layer = Input(shape=(max_length,)) #Входной слой нейронки


embedding_layer = Embedding(vocab_size, embedding_dim, input_length=max_length)(input_layer) # Каждое слово переводим в вектор


lstm_layer = LSTM(lstm_units)(embedding_layer)


output_layer = Dense(vocab_size, activation='softmax')(lstm_layer) # Выходной слой

In [111]:



model = Model(inputs=input_layer, outputs=output_layer)
model.compile(optimizer='adam', loss='sparse_categorical_crossentropy', metrics=['accuracy'])


model.fit(sequences_wrong, sequences_right, epochs=10, batch_size=32, validation_split=0)


Epoch 1/10
Epoch 2/10
Epoch 3/10
Epoch 4/10
Epoch 5/10
Epoch 6/10
Epoch 7/10
Epoch 8/10
Epoch 9/10
Epoch 10/10


<keras.src.callbacks.History at 0x24ff95cf550>

# На вход функции подается слово, его переводит в токен и модель предсказывает как его исправить

In [112]:
def correct_spelling(wrong_word):
    sequence = tokenizer.texts_to_sequences([wrong_word])
    padded_sequence = pad_sequences(sequence, maxlen=max_length, padding='post')
    predicted_sequence = model.predict(padded_sequence)
    predicted_index = np.argmax(predicted_sequence, axis=-1)
    predicted_word = tokenizer.index_word[predicted_index[0]]
    return predicted_word


In [113]:
data

Unnamed: 0,right,wrong
0,ржавчинник,ржавчиннрк
1,ржавчинник,ржвчинник
2,ржавчинник,ржавчилнник
3,ржавчинник,државчинник
4,ржавчинник,ржавчинниек
...,...,...
9995,колобашка,колобаша
9996,колобашка,колобашкча
9997,колобашка,колоаашка
9998,колобашка,колобшака


In [114]:
test = data.sample(100, replace=False)

In [121]:
test

Unnamed: 0,right,wrong
8147,мелкоплодие,мелкоплодеи
5436,привнесение,привнлесение
8562,умирение,умиревние
4911,комиссарша,кыомиссарша
4767,нозология,нозологзя
...,...,...
4805,докалка,окалка
5855,автозаводцы,автозаодцы
4884,докалка,докака
6947,копепод,кочепод


# Сделал маленький тест где можно ввести слова с ошибками из test и потом модель исрпавит их на правильные слова

In [126]:
import ipywidgets as widgets
from IPython.display import display

def correct_words(b):
    input_text = input_text_area.value.strip()
    corrected_text = []
    for word in input_text.split():
        correct_word = word
        if(correct_word not in list(test["right"])):
            correct_word = correct_text(correct_word)
        corrected_text.append(correct_word)
    output_text_area.value = " ".join(corrected_text)

def correct_text(input_text):
    sequence = tokenizer.texts_to_sequences([input_text])
    padded_sequence = pad_sequences(sequence, maxlen=max_length, padding='post')
    predicted_sequence = model.predict(padded_sequence)
    predicted_index = np.argmax(predicted_sequence, axis=-1)
    predicted_word = tokenizer.index_word[predicted_index[0]]
    return predicted_word

input_text_area = widgets.Textarea(
    value='',
    placeholder='Введите текст',
    description='Текст:',
    disabled=False,
    layout={'width': '50%'}
)

run_button = widgets.Button(description="Пуск")
run_button.on_click(correct_words)

output_text_area = widgets.Textarea(
    value='',
    placeholder='Исправленный текст',
    description='Исправлено:',
    disabled=True,
    layout={'width': '50%'}
)

display(input_text_area)
display(run_button)
display(output_text_area)


Textarea(value='', description='Текст:', layout=Layout(width='50%'), placeholder='Введите текст')

Button(description='Пуск', style=ButtonStyle())

Textarea(value='', description='Исправлено:', disabled=True, layout=Layout(width='50%'), placeholder='Исправле…



# Такой же тест, только с использованием алгоритма Левенштейна

In [131]:
import ipywidgets as widgets
from IPython.display import display

def correct_words(b):
    input_text = input_text_area.value.strip()
    corrected_text = []
    for word in input_text.split():
        correct_word = Levenshtein_correct(word,list(test["right"]))
        corrected_text.append(correct_word)
    output_text_area.value = " ".join(corrected_text)

def Levenshtein_correct(word, dictionary):
    word = word.lower()
    min_distance = float('inf')#При начале ставим расстояние на максимум
    corrected_word = None#Правильное слово пока что нул
    
    for correct_word in dictionary:#Бежим по словарю
        distance = Levenshtein.distance(word, correct_word)
        if distance < min_distance:#Если найденное растояние меньше уже записаннаого, то запоминаем это растояние и слово
            min_distance = distance
            corrected_word = correct_word
    
    return corrected_word#Возвращаем слово с самым маленьким растоянием

input_text_area = widgets.Textarea(
    value='',
    placeholder='Введите текст',
    description='Текст:',
    disabled=False,
    layout={'width': '50%'}
)

run_button = widgets.Button(description="Пуск")
run_button.on_click(correct_words)

output_text_area = widgets.Textarea(
    value='',
    placeholder='Исправленный текст',
    description='Исправлено:',
    disabled=True,
    layout={'width': '50%'}
)

display(input_text_area)
display(run_button)
display(output_text_area)


Textarea(value='', description='Текст:', layout=Layout(width='50%'), placeholder='Введите текст')

Button(description='Пуск', style=ButtonStyle())

Textarea(value='', description='Исправлено:', disabled=True, layout=Layout(width='50%'), placeholder='Исправле…