In [None]:
from rapidfuzz import process, fuzz

class PhraseCorrector:
    def __init__(self, words_file="words.csv"):
        with open(words_file, "r", encoding="utf-8") as f:
            self.reference_words = [line.strip() for line in f]





    def correct_words_in_text(self,text, score_cutoff=70, min_len = 5):
        corrected_lines = []
        for line in text.strip().split('\n'):
            corrected_words = []
            for word in line.upper().replace("Ё", "Е").split():
                if len(word) < min_len:
                    corrected_words.append(word)
                    continue
                # Ищем наиболее близкое слово из словаря
                match = process.extractOne(word, self.reference_words, scorer=fuzz.ratio, score_cutoff=score_cutoff)
                #print(match)
                corrected_word = match[0] if match else word
                corrected_words.append(corrected_word)
            corrected_lines.append(' '.join(corrected_words))
        return '\n'.join(corrected_lines)

In [8]:
phrase_corrector = PhraseCorrector()

In [9]:
to_be_corrected = '''
Пюре Фрутонята
Цыпленок 80г
Мясое изделие для детского питания
'''


corrected_text = phrase_corrector.correct_words_in_text(to_be_corrected)
print(corrected_text)

ПЮРЕ ФРУТОНЯНЯ
ЦЫПЛЕНОК 80Г
МЯСНОЕ ИЗДЕЛИЯ ДЛЯ ДЕТСКОГО ПИТАНИЯ


In [11]:
to_be_corrected = '''
Пюре фруктоня
цыбленок 80000г
мясное для детского питания
'''

corrected_text = phrase_corrector.correct_words_in_text(to_be_corrected)
print(corrected_text)

ПЮРЕ ФРУТОНЯНЯ
ЦЫПЛЕНОК 80000Г
МЯСНОЕ ДЛЯ ДЕТСКОГО ПИТАНИЯ


In [12]:
to_be_corrected = '''
бальзам ШАУМ 7
ТРАВ 300мл 
для нормальных и жирных волос
'''

corrected_text = phrase_corrector.correct_words_in_text(to_be_corrected)
print(corrected_text)

БАЛЬЗАМ ШАУМ 7
ТРАВ 300МЛ
ДЛЯ НОРМАЛЬНЫХ И ЖИРНЫХ ВОЛОС


In [13]:
to_be_corrected = '''
Балъзам ШАУМА 7
ТРАВ 300мл
для нормальных и жирных волос
'''

corrected_text = phrase_corrector.correct_words_in_text(to_be_corrected)
print(corrected_text)

БАЛЬЗАМ ШАУМА 7
ТРАВ 300МЛ
ДЛЯ НОРМАЛЬНЫХ И ЖИРНЫХ ВОЛОС


In [15]:

to_be_corrected = '''
Тютюнок Занукелия
500 мг
'''

corrected_text = phrase_corrector.correct_words_in_text(to_be_corrected)
print(corrected_text)

ТЮТЮНОК ЗАНДУКЕЛИ
500 МГ
