In [1]:
import pandas as pd

In [2]:
# Загрузка CSV файла
df = pd.read_csv('comments.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2308 entries, 0 to 2307
Data columns (total 8 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   id                                    2308 non-null   int64  
 1   rating                                2308 non-null   int64  
 2   comment                               2308 non-null   object 
 3   Нравится скорость отработки заявок    0 non-null      float64
 4   Нравится качество выполнения заявки   0 non-null      float64
 5   Нравится качество работы сотрудников  0 non-null      float64
 6   Понравилось выполнение заявки         0 non-null      float64
 7   Вопрос решен                          0 non-null      float64
dtypes: float64(5), int64(2), object(1)
memory usage: 144.4+ KB


In [4]:
# Удаление дубликатов
df = df.drop_duplicates()

In [5]:
# Удаление строк, где столбец 'comment' пустой
df = df[df['comment'].notna() & (df['comment'] != '')]

# Сохранение очищенного CSV файла
df.to_csv('comments.csv', index=False)

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2308 entries, 0 to 2307
Data columns (total 8 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   id                                    2308 non-null   int64  
 1   rating                                2308 non-null   int64  
 2   comment                               2308 non-null   object 
 3   Нравится скорость отработки заявок    0 non-null      float64
 4   Нравится качество выполнения заявки   0 non-null      float64
 5   Нравится качество работы сотрудников  0 non-null      float64
 6   Понравилось выполнение заявки         0 non-null      float64
 7   Вопрос решен                          0 non-null      float64
dtypes: float64(5), int64(2), object(1)
memory usage: 144.4+ KB


С помощью ключевых слов определяются категории у комментариев

In [7]:

# Определяем категории и ключевые слова
categories = {
    "Нравится скорость отработки заявок": ["быстро", "быстрая", "быстрый", "скорость", "оперативно"],
    "Нравится качество выполнения заявки": ["качество", "хорошо", "прекрасно", "сервис"],
    "Нравится качество работы сотрудников": ["работа", "сотрудники", "сотрудник", "мастер", "команда"],
    "Понравилось выполнение заявки": ["выполнение", "решение"],
    "Вопрос решен": ["решен", "решена", "ответ", "разрешен", "спасибо", "благодарю", "отлично"]
}

# Функция для определения категорий по комментарию
def categorize_comment(comment):
    
    matched_categories = []
    # Проверяем на положительные ключевые слова
    for category, keywords in categories.items():
        if any(keyword in comment.lower() for keyword in keywords):
            matched_categories.append(category)
    
    # Если нет совпадений по положительным категориям, добавляем "Вопрос не решён"
    if not matched_categories:
        matched_categories.append("Не определено")
    
    return matched_categories

# Создаем новый столбец для категорий
df['categories'] = ''

# Применяем функцию ко всем комментариям
for index, row in df.iterrows():
    matched_categories = categorize_comment(row['comment'])
    # Объединяем категории в одну строку, разделенную запятыми
    df.at[index, 'categories'] = ', '.join(matched_categories)

# Сохраняем результат в новый CSV файл
df.to_csv('output_file.csv', index=False)


In [8]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2308 entries, 0 to 2307
Data columns (total 9 columns):
 #   Column                                Non-Null Count  Dtype  
---  ------                                --------------  -----  
 0   id                                    2308 non-null   int64  
 1   rating                                2308 non-null   int64  
 2   comment                               2308 non-null   object 
 3   Нравится скорость отработки заявок    0 non-null      float64
 4   Нравится качество выполнения заявки   0 non-null      float64
 5   Нравится качество работы сотрудников  0 non-null      float64
 6   Понравилось выполнение заявки         0 non-null      float64
 7   Вопрос решен                          0 non-null      float64
 8   categories                            2308 non-null   object 
dtypes: float64(5), int64(2), object(2)
memory usage: 162.4+ KB


Размечаю остальные данные в Excel

Открытие размеченного файла

In [9]:
df = pd.read_csv('output_excel_file.csv')
df.head()

Unnamed: 0,id,rating,comment,categories,Вопрос решен,Нравится скорость отработки заявок,Нравится качество выполнения заявки,Нравится качество работы сотрудников,Понравилось выполнение заявки,Критика
0,2945792,5,спасибо,Вопрос решен,1.0,0.0,0.0,0.0,0.0,0.0
1,3234340,5,спасибо!,Вопрос решен,1.0,0.0,0.0,0.0,0.0,0.0
2,3380332,5,Отлично,Вопрос решен,1.0,0.0,0.0,0.0,0.0,0.0
3,3381812,5,Благодарю за оперативное решение проблемы !,"Нравится скорость отработки заявок, Понравилос...",1.0,1.0,1.0,0.0,0.0,0.0
4,3461991,5,Прекрасный специалист! Побольше таких,Нравится качество работы сотрудников,0.0,0.0,0.0,1.0,0.0,0.0


In [10]:
print(df.isnull().sum())


id                                      0
rating                                  0
comment                                 0
categories                              1
Вопрос решен                            0
Нравится скорость отработки заявок      0
Нравится качество выполнения заявки     0
Нравится качество работы сотрудников    0
Понравилось выполнение заявки           0
Критика                                 0
dtype: int64


In [12]:
df.dropna(inplace=True)


In [13]:
print(df.isnull().sum())


id                                      0
rating                                  0
comment                                 0
categories                              0
Вопрос решен                            0
Нравится скорость отработки заявок      0
Нравится качество выполнения заявки     0
Нравится качество работы сотрудников    0
Понравилось выполнение заявки           0
Критика                                 0
dtype: int64


In [14]:
print(df.dtypes)


id                                        int64
rating                                    int64
comment                                  object
categories                               object
Вопрос решен                            float64
Нравится скорость отработки заявок      float64
Нравится качество выполнения заявки     float64
Нравится качество работы сотрудников    float64
Понравилось выполнение заявки           float64
Критика                                 float64
dtype: object


In [15]:
df['comment'] = df['comment'].astype(str)

In [16]:
print(df.dtypes)


id                                        int64
rating                                    int64
comment                                  object
categories                               object
Вопрос решен                            float64
Нравится скорость отработки заявок      float64
Нравится качество выполнения заявки     float64
Нравится качество работы сотрудников    float64
Понравилось выполнение заявки           float64
Критика                                 float64
dtype: object


In [17]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report

In [18]:
df = pd.read_csv('output_excel_file.csv')

In [20]:
print(df['Вопрос решен'].isnull().sum())  # Проверка на пропуски в первой категории
print(df['Нравится скорость отработки заявок'].isnull().sum())  # Проверка на пропуски во второй категории
print(df['Нравится качество выполнения заявки'].isnull().sum())  # Проверка на пропуски во второй категории
print(df['Нравится качество работы сотрудников'].isnull().sum())  # Проверка на пропуски во второй категории
print(df['Понравилось выполнение заявки'].isnull().sum())  # Проверка на пропуски во второй категории
print(df['Критика'].isnull().sum())  # Проверка на пропуски во второй категории

0
0
0
0
0
0


In [21]:
df['Вопрос решен'].fillna(0, inplace=True)
df['Нравится скорость отработки заявок'].fillna(0, inplace=True)
df['Нравится качество выполнения заявки'].fillna(0, inplace=True)
df['Нравится качество работы сотрудников'].fillna(0, inplace=True)
df['Понравилось выполнение заявки'].fillna(0, inplace=True)
df['Критика'].fillna(0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Вопрос решен'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['Нравится скорость отработки заявок'].fillna(0, inplace=True)
The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are 

In [23]:
df.to_csv('output_excel_file.csv', index=False)

In [24]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, classification_report
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer

# Загрузка данных
df = pd.read_csv('output_excel_file.csv')

# Векторизация текстовых данных
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(df['comment'])

# Целевые переменные
y = df[['Вопрос решен', 
         'Нравится скорость отработки заявок', 
         'Нравится качество выполнения заявки', 
         'Нравится качество работы сотрудников', 
         'Понравилось выполнение заявки', 
         'Критика']]

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Словари для хранения метрик
roc_auc_scores = []
accuracy_scores = []
f1_scores_macro = []
f1_scores_weighted = []

# Обучение и оценка модели для каждой категории
for col in y.columns:
    model = RandomForestClassifier()
    model.fit(X_train, y_train[col])

    # Получение предсказанных вероятностей
    y_scores = model.predict_proba(X_test)[:, 1]
    
    # Оценка ROC AUC
    roc_auc = roc_auc_score(y_test[col], y_scores)
    roc_auc_scores.append(roc_auc)
    
    # Вывод отчета по классификации
    y_pred = model.predict(X_test)
    report = classification_report(y_test[col], y_pred, output_dict=True)

    accuracy_scores.append(report['accuracy'])
    f1_scores_macro.append(report['macro avg']['f1-score'])
    f1_scores_weighted.append(report['weighted avg']['f1-score'])

# Округление значений
roc_auc_scores_rounded = [round(score, 2) for score in roc_auc_scores]
accuracy_scores_rounded = [round(score, 2) for score in accuracy_scores]
f1_scores_macro_rounded = [round(score, 2) for score in f1_scores_macro]
f1_scores_weighted_rounded = [round(score, 2) for score in f1_scores_weighted]

# Вывод округленных результатов
print("Rounded ROC AUC Scores:", roc_auc_scores_rounded)
print("Rounded Accuracy Scores:", accuracy_scores_rounded)
print("Rounded F1 Scores (Macro):", f1_scores_macro_rounded)
print("Rounded F1 Scores (Weighted):", f1_scores_weighted_rounded)



Rounded ROC AUC Scores: [0.97, 0.99, 0.97, 0.99, 0.81, 0.93]
Rounded Accuracy Scores: [0.94, 0.99, 0.98, 0.96, 0.96, 0.93]
Rounded F1 Scores (Macro): [0.92, 0.99, 0.85, 0.9, 0.54, 0.74]
Rounded F1 Scores (Weighted): [0.94, 0.99, 0.97, 0.96, 0.97, 0.91]
