In [1]:
# imports
import os

import pandas as pd
from sklearn.metrics import classification_report, f1_score

In [2]:
# configs
PROJECT_PATH = "/home/alex/paper-2025-anonymous-submission"

In [3]:
# load data
df_gigachat_lite = pd.read_json(
    os.path.join(
        PROJECT_PATH,
        "Data/predictions/wordplay_detection_gigachat_lite_predictions.json"
    ),
    orient="index"
)
df_gigachat_max = pd.read_json(
    os.path.join(
        PROJECT_PATH,
        "Data/predictions/wordplay_detection_gigachat_max_predictions.json"
    ),
    orient="index"
)
df_yandexgpt = pd.read_json(
    os.path.join(
        PROJECT_PATH,
        "Data/predictions/wordplay_detection_yandex_gpt4_predictions.json"
    ),
    orient="index"
)
df_mistral = pd.read_json(
    os.path.join(
        PROJECT_PATH,
        "Data/predictions/wordplay_detection_mistral_nemo_predictions.json"
    ),
    orient="index"
)
df_gpt4 = pd.read_json(
    os.path.join(
        PROJECT_PATH,
        "Data/predictions/wordplay_detection_gpt_4o_predictions.json"
    ),
    orient="index"
)
dataset = pd.read_json(
    os.path.join(
        PROJECT_PATH,
        "Data/processed_data/dataset.json"
    ),
    orient="index"
)

In [4]:
# explore GigaChat-Lite

def clear_gigachar_lite_predictions(text_pred):
    text_pred = text_pred.replace("<|message_sep|>", "")
    text_pred = text_pred.replace(".", "")
    return str.lower(text_pred)

def binary_convert(text_pred):
    if "да" in text_pred:
        return True
    else:
        return False

df_gigachat_lite.head(2)

Unnamed: 0,user_prompt,system_prompt,gigachat_lite_preds
0,Заголовок новости: Комфортная среда. Cодержани...,Присутствует ли в заголовке новости игра слов?...,Да<|message_sep|>
1,Заголовок новости: Свинина стушевалась. Cодерж...,Присутствует ли в заголовке новости игра слов?...,нет<|message_sep|>


In [5]:
df_gigachat_lite["gigachat_lite_preds"].value_counts()

Да<|message_sep|>          1225
нет<|message_sep|>          786
Не знаю.<|message_sep|>     389
не знаю<|message_sep|>       76
Нет<|message_sep|>           20
Да.<|message_sep|>            4
Name: gigachat_lite_preds, dtype: int64

In [6]:
df_gigachat_lite["gigachat_lite_preds"] = df_gigachat_lite["gigachat_lite_preds"].apply(clear_gigachar_lite_predictions)

In [7]:
df_gigachat_lite["gigachat_lite_preds"].value_counts()

да         1229
нет         806
не знаю     465
Name: gigachat_lite_preds, dtype: int64

In [8]:
df_gigachat_lite["gigachat_lite_preds"] = df_gigachat_lite["gigachat_lite_preds"].apply(binary_convert)

In [9]:
df_gigachat_lite["gigachat_lite_preds"].value_counts()

False    1271
True     1229
Name: gigachat_lite_preds, dtype: int64

In [10]:
print(classification_report(dataset["is_word_play"], df_gigachat_lite["gigachat_lite_preds"]))

              precision    recall  f1-score   support

       False       0.51      0.51      0.51      1259
        True       0.50      0.50      0.50      1241

    accuracy                           0.50      2500
   macro avg       0.50      0.50      0.50      2500
weighted avg       0.50      0.50      0.50      2500



In [11]:
# explore GigaChat-Max

df_gigachat_max.head(2)

Unnamed: 0,user_prompt,system_prompt,gigachat_max_pred
0,Заголовок новости: Комфортная среда. Cодержани...,Присутствует ли в заголовке новости игра слов?...,нет
1,Заголовок новости: Свинина стушевалась. Cодерж...,Присутствует ли в заголовке новости игра слов?...,да


In [12]:
df_gigachat_max["gigachat_max_pred"].value_counts()

нет                                                                                                                        1146
да                                                                                                                          968
не люблю менять тему разговора, но вот сейчас тот самый случай.                                                             134
как у нейросетевой языковой модели у меня не может быть настроения, но почему-то я совсем не хочу говорить на эту тему.     126
что-то в вашем вопросе меня смущает. может, поговорим на другую тему?                                                       125
не знаю                                                                                                                       1
Name: gigachat_max_pred, dtype: int64

In [13]:
def clear_gigachat_max_predictions(text_pred):
    if text_pred.strip() == "нет":
        return "нет"
    elif text_pred.strip() == "да":
        return "да"
    elif text_pred.strip() == "не знаю":
        return "не знаю"
    else:
        return "нет"

In [14]:
df_gigachat_max["gigachat_max_pred"] = df_gigachat_max["gigachat_max_pred"].apply(clear_gigachat_max_predictions)

In [15]:
df_gigachat_max["gigachat_max_pred"].value_counts()

нет        1531
да          968
не знаю       1
Name: gigachat_max_pred, dtype: int64

In [16]:
df_gigachat_max["gigachat_max_pred"] = df_gigachat_max["gigachat_max_pred"].apply(binary_convert)

In [18]:
print(classification_report(dataset["is_word_play"], df_gigachat_max["gigachat_max_pred"]))

              precision    recall  f1-score   support

       False       0.58      0.71      0.64      1259
        True       0.62      0.48      0.54      1241

    accuracy                           0.59      2500
   macro avg       0.60      0.59      0.59      2500
weighted avg       0.60      0.59      0.59      2500



In [21]:
# yandex gpt4

df_yandexgpt.head(2)

Unnamed: 0,user_prompt,system_prompt,yagpt_pred
0,Заголовок новости: Комфортная среда. Cодержани...,Присутствует ли в заголовке новости игра слов?...,нет
1,Заголовок новости: Свинина стушевалась. Cодерж...,Присутствует ли в заголовке новости игра слов?...,нет


In [22]:
df_yandexgpt["yagpt_pred"].value_counts()

нет                                                                                                           1262
в интернете есть много сайтов с информацией на эту тему. [посмотрите, что нашлось в поиске](https://ya.ru)     619
не знаю                                                                                                        477
да                                                                                                             142
Name: yagpt_pred, dtype: int64

In [23]:
def clear_yandex_predictions(text_pred):
    if text_pred.strip() == "нет":
        return "нет"
    elif text_pred.strip() == "да":
        return "да"
    elif text_pred.strip() == "не знаю":
        return "не знаю"
    else:
        return "нет"

In [24]:
df_yandexgpt["yagpt_pred"] = df_yandexgpt["yagpt_pred"].apply(clear_yandex_predictions)

In [25]:
df_yandexgpt["yagpt_pred"].value_counts()

нет        1881
не знаю     477
да          142
Name: yagpt_pred, dtype: int64

In [26]:
df_yandexgpt["yagpt_pred"] = df_yandexgpt["yagpt_pred"].apply(binary_convert)

In [27]:
print(classification_report(dataset["is_word_play"], df_yandexgpt["yagpt_pred"]))

              precision    recall  f1-score   support

       False       0.52      0.98      0.68      1259
        True       0.83      0.10      0.17      1241

    accuracy                           0.54      2500
   macro avg       0.68      0.54      0.43      2500
weighted avg       0.68      0.54      0.43      2500



In [28]:
# mistral
df_mistral.head(2)

Unnamed: 0,user_prompt,system_prompt,mistral_nemo_preds
0,Заголовок новости: Комфортная среда. Cодержани...,Присутствует ли в заголовке новости игра слов?...,"[{'generated_text': [{'role': 'system', 'conte..."
1,Заголовок новости: Свинина стушевалась. Cодерж...,Присутствует ли в заголовке новости игра слов?...,"[{'generated_text': [{'role': 'system', 'conte..."


In [35]:
def clear_mistral_prediction(text_pred):
    
    text = text_pred[0]["generated_text"][-1]["content"]

    return text

In [36]:
df_mistral["mistral_nemo_preds"] = df_mistral["mistral_nemo_preds"].apply(clear_mistral_prediction)

In [37]:
df_mistral["mistral_nemo_preds"].value_counts()

Нет.    2500
Name: mistral_nemo_preds, dtype: int64

In [39]:
# GPT4-o

df_gpt4.head()

Unnamed: 0,json_response,task_id,gpt4o_yes_no
0,{'id': 'batch_req_67961e978118819092d351bbadcc...,0,нет
1,{'id': 'batch_req_67961e97a5f0819089ed462ea616...,1,да
2,{'id': 'batch_req_67961e97d634819083cb126efe14...,2,да
3,{'id': 'batch_req_67961e97fb088190af852a25ef94...,3,да
4,{'id': 'batch_req_67961e981f6081908b5e999ec82c...,4,да


In [41]:
df_gpt4["gpt4o_yes_no"].value_counts()

да          1610
нет          819
не знаю       42
Да.           20
Нет.           8
Не знаю.       1
Name: gpt4o_yes_no, dtype: int64

In [42]:
def clear_gpt4o_prediction(text_pred):
    
    text = str.lower(text_pred)
    text = text.replace(".", "")

    return text

In [43]:
df_gpt4["gpt4o_yes_no"] = df_gpt4["gpt4o_yes_no"].apply(clear_gpt4o_prediction)

In [44]:
df_gpt4["gpt4o_yes_no"].value_counts()

да         1630
нет         827
не знаю      43
Name: gpt4o_yes_no, dtype: int64

In [45]:
df_gpt4["gpt4o_yes_no"] = df_gpt4["gpt4o_yes_no"].apply(binary_convert)

In [46]:
print(classification_report(dataset["is_word_play"], df_gpt4["gpt4o_yes_no"]))

              precision    recall  f1-score   support

       False       0.73      0.51      0.60      1259
        True       0.62      0.81      0.70      1241

    accuracy                           0.66      2500
   macro avg       0.67      0.66      0.65      2500
weighted avg       0.67      0.66      0.65      2500

