In [159]:
import numpy as np
import pandas as pd
from sentence_transformers import SentenceTransformer
from sklearn.cluster import KMeans
from sklearn.cluster import SpectralClustering
from sklearn.cluster import DBSCAN
from sklearn.decomposition import PCA
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score

In [160]:
# Шаг 1: Загрузка данных
# Предположим, у вас есть датасет с предложениями
cases = pd.read_csv('cases.csv', sep=';')
cases.head()

Unnamed: 0,﻿Номер поручения,Заказчик,Дата поручения,Выполнено,Дата выполнения,Затрачено дней,Сумма вознаграждения,Описание
0,11000,Анна,1051-08-11,да,1051-08-21,4.0,6000,В лесу по дороге от пещеры звери нападают на л...
1,11001,Мария,1051-07-09,да,1051-09-02,2.0,20000,В лесу по дороге от пещеры были замечены разбо...
2,11002,Эмилио,1053-10-05,да,1053-10-20,7.0,22500,По дороге из деревни монстры похитили путников...
3,11003,Бьянка,1052-11-24,да,1052-12-02,5.0,5500,Недалеко от города видели монстров. Нужно побе...
4,11004,Бьянка,1052-02-23,да,1052-03-30,8.0,10500,В деревне у меня пропала сумка с документами. ...


In [161]:


# Шаг 2: Инициализация модели трансформера для получения эмбеддингов
model = SentenceTransformer('all-MiniLM-L6-v2')

# Получаем эмбеддинги для предложений
embeddings = model.encode(cases['Описание'])

In [162]:
# Шаг 3: Кластеризация предложений с помощью KMeans
# Определим количество кластеров (например, 2, можно настроить)
num_clusters = 4
kmeans = KMeans(n_clusters=num_clusters, algorithm='full', random_state=42)
kmeans.fit(embeddings)

# Получаем метки кластеров для каждого предложения
labels = kmeans.labels_

#clustering = DBSCAN(algorithm='ball_tree')
#clustering.fit(embeddings)

#labels = clustering.labels_

labels


  super()._check_params_vs_input(X, default_n_init=10)


array([3, 3, 1, 1, 2, 3, 0, 0, 2, 0, 3, 3, 0, 3, 3, 3, 1, 0, 1, 2, 1, 3,
       0, 2, 3, 2, 3, 2, 2, 2, 2, 2, 2, 1, 2, 2, 3, 0, 1, 0, 1, 3, 1, 3,
       3, 0, 2, 2, 2, 0, 3, 2, 2, 2, 0, 0, 2, 0, 0, 0, 2, 0, 0, 3, 2, 0,
       0, 0, 0, 3, 1, 3, 0, 0, 0, 0, 3, 3, 0, 0, 3, 3, 3, 3, 0, 3, 1, 3,
       0, 0, 3, 3, 3, 3, 1, 2, 2, 3, 0, 2, 3, 3, 0, 0, 3, 1, 2, 2, 1, 3,
       3, 3, 2, 1, 2, 1, 0, 2, 2, 0, 3, 3, 1, 1, 3, 2, 0, 3, 2, 3, 1, 0,
       3, 0, 0, 0, 0, 3, 0, 2, 3, 0, 1, 0, 0, 2, 0, 2, 2, 1, 2, 0, 0, 0,
       2, 0, 0, 2, 3, 3, 2, 2, 3, 1, 2, 1, 2, 0, 0, 1, 2, 3, 2, 3, 2, 3,
       3, 2, 2, 0, 2, 2, 2, 3, 0, 3, 0, 2, 3, 3, 3, 2, 3, 1, 3, 3, 1, 0,
       3, 3, 3, 3, 1, 1, 2, 3, 2, 3, 1, 3, 3, 0, 2, 0, 2, 2, 2, 2, 1, 1,
       3, 2, 2, 3, 2, 0, 1, 3, 2, 3, 2, 3, 1, 2, 3, 2, 3, 3, 3, 3, 3, 1,
       2, 2, 0, 2, 0, 1, 1, 1, 0, 3, 1, 3, 3, 0, 0, 3, 3, 0, 1, 2, 3, 3,
       3, 0, 2, 3, 3, 2, 0, 3, 0, 2, 1, 0, 1, 0, 2, 0, 3, 1, 2, 0, 2, 2,
       2, 1, 1, 1, 2, 2, 2, 3, 3, 0, 3, 2, 1, 2, 3,

In [163]:
# Добавим метки в DataFrame для удобства
df = pd.DataFrame({'sentence': cases['Описание'], 'cluster': labels})
df = df.sort_values('cluster')
print(df.loc[df['cluster'] == 3]['sentence'].to_list(), sep='\n')

['В лесу по дороге от пещеры встречаются звери. Нужно прогнать их. Осмотрите все возможные укрытия, чтобы найти зверей.', 'В лесу по дороге от пещеры монстры нападают на людей. Нужно победить их.', 'В лесу около деревни встречаются звери. Нужно убить их.', 'В лесу около деревни встречаются звери. Нужно убить их.', 'По дороге из деревни заметили разбойников. Нужно прогнать их. Будьте осторожны, так как разбойники могут быть опасными.', 'В лесу по дороге от пещеры видели монстров. Нужно уничтожить их.', 'В лесу около деревни заметили разбойников. Нужно прогнать их.', 'В лесу между городом и деревней видели монстров. Нужно победить их.', 'В лесу около деревни встречаются звери. Нужно прогнать их.', 'В лесу недалеко от города видели монстров. Нужно уничтожить их.', 'По дороге из деревни звери нападают на людей. Нужно прогнать их. Будьте осторожны, так как звери могут быть опасными.', 'В лесу между городом и деревней разбойники нападают на людей. Нужно проучить их.', 'В лесу между городом и

In [164]:
# Шаг 4: Визуализация кластеров с использованием PCA для уменьшения размерности до 2D
pca = PCA(n_components=2)
reduced_embeddings = pca.fit_transform(embeddings)

In [165]:
import bokeh.models as bm
import bokeh.plotting as pl
from bokeh.io import output_notebook

output_notebook()


def draw_vectors(
    x,
    y,
    radius=10,
    alpha=0.9,
    #color="blue",
    width=600,
    height=400,
    show=True,
    **kwargs,
):
    color = np.array([(0, 0, 0)] * len(x))
    for i in range(num_clusters):
        new_color = (np.random.randint(100), np.random.randint(100), np.random.randint(100))
        color[labels==i] = new_color
    """draws an interactive plot for data points with auxilirary info on hover"""
    data_source = bm.ColumnDataSource({"x": x, "y": y, "color": color.tolist(), **kwargs})

    fig = pl.figure(active_scroll="wheel_zoom", width=width, height=height)
    fig.scatter("x", "y", size=radius, color="color", alpha=alpha, source=data_source)

    fig.add_tools(bm.HoverTool(tooltips=[(key, "@" + key) for key in kwargs.keys()]))
    if show:
        pl.show(fig)
    return fig

In [319]:
draw_vectors(reduced_embeddings[:, 0], reduced_embeddings[:, 1], token=cases['Описание'])

In [167]:
cases.head()

Unnamed: 0,﻿Номер поручения,Заказчик,Дата поручения,Выполнено,Дата выполнения,Затрачено дней,Сумма вознаграждения,Описание
0,11000,Анна,1051-08-11,да,1051-08-21,4.0,6000,В лесу по дороге от пещеры звери нападают на л...
1,11001,Мария,1051-07-09,да,1051-09-02,2.0,20000,В лесу по дороге от пещеры были замечены разбо...
2,11002,Эмилио,1053-10-05,да,1053-10-20,7.0,22500,По дороге из деревни монстры похитили путников...
3,11003,Бьянка,1052-11-24,да,1052-12-02,5.0,5500,Недалеко от города видели монстров. Нужно побе...
4,11004,Бьянка,1052-02-23,да,1052-03-30,8.0,10500,В деревне у меня пропала сумка с документами. ...


In [181]:
diaries = pd.read_csv('diaries.csv', sep=';')
diaries.head()

Unnamed: 0,Номер поручения,Герой,Запись в дневнике,Затрачено часов,Роль
0,11000,Мартин,разжечь костёр,1,рейнджер
1,11000,Мартин,выследить цель,6,следопыт
2,11001,Альфред,разжечь костёр,1,рейнджер
3,11001,Альфред,залечить раны,18,лекарь
4,11002,Мартин,выследить цель,6,следопыт


In [None]:
note_types = diaries['Запись в дневнике'].unique()
print(*note_types, sep=', ')
print()

for note in note_types:
    ids = diaries.loc[diaries['Запись в дневнике'] == note]['Номер поручения']
    texts = set(cases.loc[cases['\ufeffНомер поручения'].isin(ids)]['Описание'].to_list())
    print(note, len(texts), texts)

разжечь костёр, выследить цель, залечить раны, найти пропажу, отыскать заказчика

разжечь костёр 136 {'В лесу между городом и деревней заметили зверей. Нужно прогнать их.', 'В лесу между городом и деревней видели монстров. Нужно уничтожить их.', 'По дороге из деревни разбойники нападают на людей. Нужно прогнать их. Будьте осторожны, так как разбойники могут быть опасными.', 'В лесу между городом и деревней заметили разбойников. Нужно прогнать их.', 'По дороге из деревни заметили разбойников. Нужно прогнать их. Будьте осторожны, так как разбойники могут быть опасными.', 'В лесу по дороге от пещеры заметили монстров. Нужно победить их. Осмотрите все возможные укрытия, чтобы найти монстров.', 'В лесу между городом и деревней разбойники нападают на людей. Нужно прогнать их.', 'В лесу между городом и деревней монстры нападают на людей. Нужно победить их.', 'В лесу между городом и деревней разбойники нападают на людей. Нужно проучить их.', 'В лесу по дороге от пещеры монстры нападают на люде

In [200]:
heroes = diaries['Герой'].unique()
print(*heroes, sep=', ')
print()
diaries.value_counts()
for hero in heroes:
    print(hero + '\n', diaries.loc[diaries['Герой'] == hero][['Запись в дневнике', 'Затрачено часов']].groupby('Запись в дневнике').value_counts())
    print()

Мартин, Альфред, Юлия, Агата, Фредерик, Соня, Пастушок, Леопольд, Бендер, Глюкоза, Бенедикт, Синеглазый

Мартин
 Запись в дневнике   Затрачено часов
выследить цель      6                   3
залечить раны       18                  8
найти пропажу       4,5                14
отыскать заказчика  3                  14
разжечь костёр      1                  23
Name: count, dtype: int64

Альфред
 Запись в дневнике   Затрачено часов
выследить цель      4                   8
залечить раны       18                 22
найти пропажу       3                   6
отыскать заказчика  2                   6
разжечь костёр      2                  26
                    1                  13
Name: count, dtype: int64

Юлия
 Запись в дневнике   Затрачено часов
выследить цель      6                  11
залечить раны       18                 23
найти пропажу       4,5                13
отыскать заказчика  3                  13
разжечь костёр      1                  33
                    0,666666667       

In [171]:
marks = pd.read_csv('marks.csv', sep=';')
marks.head()

Unnamed: 0,Номер поручения,Герой,Оценка за качество,Оценка по срокам,Оценка за вежливость
0,11000,Мартин,4,3,4
1,11001,Альфред,5,5,4
2,11002,Мартин,5,4,4
3,11003,Бендер,2,4,3
4,11004,Юлия,4,4,5


In [None]:
cases.rename(columns={'\ufeffНомер поручения':'Номер поручения'}, inplace=True)
diaries = pd.merge(diaries, cases[['Номер поручения', 'Описание']], on=['Номер поручения'], how='left')

In [285]:
cases.columns

Index(['Номер поручения', 'Заказчик', 'Дата поручения', 'Выполнено',
       'Дата выполнения', 'Затрачено дней', 'Сумма вознаграждения',
       'Описание'],
      dtype='object')

In [288]:
def map_roles_to_orders(s):
    # Создаем новый словарь для хранения результата
    result = {}
    
    # Для каждой оценки в серии
    for grade, orders in s.items():
        # Извлекаем роли для каждого номера заказа из 'diaries'
        roles = diaries[diaries['Номер поручения'].isin(orders)].groupby('Описание')['Запись в дневнике'].apply(set).to_dict()
        # Записываем в результат
        #result[grade] = roles
        print(grade, roles)
    
    # Возвращаем результат в виде Series
    #return pd.Series(result)

In [289]:
for hero in heroes:
    print(hero + '\n')
    for grade_type in ['Оценка за качество', 'Оценка по срокам', 'Оценка за вежливость']:
        grade_to_order = marks.loc[(marks['Герой'] == hero)][['Номер поручения', grade_type]].groupby(grade_type)['Номер поручения'].apply(list).sort_index(ascending=False)
        map_roles_to_orders(grade_to_order)
        print()
    

Мартин

5 {'В городе у меня была украдена драгоценность. Нужно найти её как можно скорее.': {'найти пропажу', 'отыскать заказчика'}, 'В деревне у меня пропал рюкзак. Нужно вернуть его как можно скорее.': {'найти пропажу', 'отыскать заказчика'}, 'В лесу недалеко от города звери нападают на людей. Нужно убить их.': {'залечить раны', 'разжечь костёр'}, 'В пещере завёлся дракон. Нужно его убить.': {'залечить раны', 'разжечь костёр'}, 'В пещере завёлся дракон. Нужно его убить. Это может потребовать времени и усилий, так как дракон очень опасен.': {'залечить раны', 'разжечь костёр'}, 'Недалеко от города у меня был украден рюкзак. Нужно найти его как можно скорее.': {'найти пропажу', 'отыскать заказчика'}, 'Недалеко от города у меня потерялась сумка с документами. Нужно найти её как можно скорее. Проверьте все места, где она могла быть оставлена.': {'найти пропажу', 'отыскать заказчика'}, 'По дороге из деревни заметили зверей. Нужно прогнать их.': {'разжечь костёр'}, 'По дороге из деревни мон