In [17]:
import math

In [25]:
support_data = [
    {"text": "Компьютер не включается, горит красный индикатор на материнской плате.", "solution": "Проверьте блок питания и подключение к материнской плате."},
    {"text": "Компьютер перегревается и автоматически выключается через 10 минут работы.", "solution": "Проверьте систему охлаждения, почистите вентиляторы и замените термопасту."},
    {"text": "Монитор не показывает изображение, но компьютер включается.", "solution": "Проверьте подключение монитора и видеокарты, попробуйте другой кабель."},
    {"text": "Компьютер работает медленно и долго загружается.", "solution": "Очистите диск от ненужных файлов и проверьте наличие вирусов."},
]

In [26]:
def preprocess_text(text):
    text = text.lower()
    symbols = ".,:;!?-"
    for symbol in symbols:
        text = text.replace(symbol, "")
    tokens = text.split()
    stop_words = {"и", "на", "в"}
    tokens = [word for word in tokens if word not in stop_words]
    return tokens

In [27]:
def text_to_vector(tokens, vocabulary):
    return [1 if word in tokens else 0 for word in vocabulary]

vocabulary = set()
for entry in support_data:
    tokens = preprocess_text(entry["text"])
    vocabulary.update(tokens)
vocabulary = list(vocabulary)
print(vocabulary)

['работы', 'материнской', 'монитор', 'индикатор', 'минут', 'работает', 'красный', 'выключается', 'долго', 'изображение', 'включается', 'медленно', 'загружается', 'через', '10', 'горит', 'автоматически', 'перегревается', 'плате', 'компьютер', 'но', 'показывает', 'не']


In [28]:
def cosine_similarity(vec1, vec2):
        dot_product = sum(a * b for a, b in zip(vec1, vec2))
        magnitude1 = math.sqrt(sum(a ** 2 for a in vec1))
        magnitude2 = math.sqrt(sum(b ** 2 for b in vec2))
        if magnitude1 == 0 or magnitude2 == 0:
            return 0
        return dot_product / (magnitude1 * magnitude2)

In [29]:
def predict_solution(new_text, support_data, vocabulary):
    tokens = preprocess_text(new_text)
    new_vector = text_to_vector(tokens, vocabulary)
    
    best_match = None
    best_similarity = -1
    
    for entry in support_data:
        entry_tokens = preprocess_text(entry["text"])
        entry_vector = text_to_vector(entry_tokens, vocabulary)
        similarity = cosine_similarity(new_vector, entry_vector)
        if similarity > best_similarity:
            best_similarity = similarity
            best_match = entry["solution"]
    
    return best_match

In [30]:
new_text = "Компьютер включается, но потом выключается"

predicted_solution = predict_solution(new_text, support_data, vocabulary)
print(f"Описание проблемы: {new_text}")
print(f"Рекомендованное решение: {predicted_solution}")

Описание проблемы: Компьютер включается, но потом выключается
Рекомендованное решение: Проверьте подключение монитора и видеокарты, попробуйте другой кабель.
