In [None]:
import spacy
import os

# Загрузка русской языковой модели
nlp = spacy.load("ru_core_news_md")

# Список стоп-слов для удаления
stop_words = nlp.Defaults.stop_words

# Функция для удаления стоп-слов из текста
def remove_stop_words(text):
    doc = nlp(text)
    filtered_tokens = [token.text for token in doc if token.text.lower() not in stop_words]
    return " ".join(filtered_tokens)

# Функция для обработки файлов
def process_files(file_paths):
    sentence_data = []
    for file_idx, file_path in enumerate(file_paths):
        with open(file_path, 'r', encoding='utf-8') as file:
            content = file.read()
        
        # Разбиваем текст на предложения
        doc = nlp(content)
        sentences = [sent.text.strip() for sent in doc.sents]
        
        # Обрабатываем каждое предложение
        for sent_idx, sentence in enumerate(sentences):
            # Удаляем стоп-слова
            filtered_sentence = remove_stop_words(sentence)
            
            # Векторизуем предложение
            vector = nlp(filtered_sentence).vector
            
            # Сохраняем данные
            sentence_data.append({
                "file_name": os.path.basename(file_path),
                "sentence_number": sent_idx + 1,
                "sentence": sentence,
                "filtered_sentence": filtered_sentence,
                "vector": vector
            })
    
    return sentence_data

# Функция для поиска ближайшего предложения
def find_closest_sentence(target_vector, sentence_data):
    max_similarity = -1
    closest_sentence = None
    
    for data in sentence_data:
        similarity = target_vector.dot(data["vector"])
        if similarity > max_similarity:
            max_similarity = similarity
            closest_sentence = data
    
    return closest_sentence, max_similarity

# Основной код
if __name__ == "__main__":
    # Пути к файлам
    file_paths = ["file1.txt", "file2.txt", "file3.txt", "file4.txt", "file5.txt", 
                  "file6.txt", "file7.txt", "file8.txt", "file9.txt", "file10.txt", "file11.txt"]
    
    # Обрабатываем файлы
    sentence_data = process_files(file_paths)
    
    # Выбираем произвольное предложение для поиска
    target_sentence = "добрый доктор"
    target_doc = nlp(remove_stop_words(target_sentence))
    target_vector = target_doc.vector
    
    # Ищем ближайшее предложение
    closest_sentence, similarity = find_closest_sentence(target_vector, sentence_data)
    
    print("Искомое предложение:", target_sentence)
    print("Ближайшее предложение найдено в файле:", closest_sentence["file_name"])
    print("Номер предложения:", closest_sentence["sentence_number"])
    print("Сходство:", similarity)
    
    # Проверяем результат после фильтрации стоп-слов
    target_filtered = remove_stop_words(target_sentence)
    target_filtered_doc = nlp(target_filtered)
    target_filtered_vector = target_filtered_doc.vector
    
    closest_filtered_sentence, filtered_similarity = find_closest_sentence(target_filtered_vector, sentence_data)
    
    print("\nПосле фильтрации стоп-слов:")
    print("Ближайшее предложение найдено в файле:", closest_filtered_sentence["file_name"])
    print("Номер предложения:", closest_filtered_sentence["sentence_number"])
    print("Сходство:", filtered_similarity)
    
    # Вывод о влиянии фильтрации стоп-слов
    if similarity == filtered_similarity:
        print("\nФильтрация стоп-слов не повлияла на результат.")
    else:
        print("\nФильтрация стоп-слов изменила результат.")