In [1]:
import json

import pandas as pd

from ast import literal_eval
from typing import Union

In [2]:
def load_json(fn: str) -> Union[list, dict]:
    with open(fn, 'r', encoding="utf8") as inp:
        data = json.load(inp)
    return data

In [None]:
ege_dataset = pd.read_excel("../data_input/EgeEvalDataset.xlsx")
ege_processed = load_json("../data_input/ege_processed.json")
ege_dataset["distractors"] = ege_dataset["distractors"].apply(literal_eval)

In [4]:
ege_dataset.iloc[5]

index                                                           6
reading_text     В те отдалённые прежние времена приблизительн...
question              Какое высказывание НЕ СООТВЕТСТВУЕТ тексту?
right_answer     Человеческое общество за последние века дости...
distractors     [ Одних знаний людям недостаточно, чтобы не со...
Name: 5, dtype: object

In [5]:
def str_ege_example_small(row: pd.Series) -> str:
    text = '.'.join(row["reading_text"].split('.')[:2])
    question = f"ВОПРОС: {row['question']}"
    right_answer = row["right_answer"]
    distractors = row["distractors"]

    output = f"{text}... {question}\n"
    output += f"ВАРИАНТЫ ОТВЕТА:\n"
    output += f"  {right_answer}\n"
    output += '\n'.join([f"  {option}" for option in distractors])

    return output

In [6]:
print(str_ege_example_small(ege_dataset.iloc[12]))

 — Мне в Борисоглебский переулок, — сообщила я молодому таксисту, — дом-музей Марины Цветаевой. — Парень включил навигатор, стал всматриваться в карту маршрута... ВОПРОС: Какое высказывание СООТВЕТСТВУЕТ тексту?
ВАРИАНТЫ ОТВЕТА:
   Рассказчица очень ценит поэзию Цветаевой, посещает мероприятия в музее поэтессы.
   Рассказчица, порасспросив парня-таксиста, поняла, почему он ничего не слышал о Цветаевой.
   Умение ценить поэзию говорит не о душевной мудрости, а об уровне образования.
   Рассказчица выяснила, кто была та девушка возле памятника Цветаевой, и решила познакомиться с ней.


In [7]:
def str_ege_example_full(row: pd.Series) -> str:
    text = row["reading_text"]
    question = f"ВОПРОС: {row['question']}"
    right_answer = row["right_answer"]
    distractors = row["distractors"]

    output = f"{text}... {question}\n"
    output += f"ВАРИАНТЫ ОТВЕТА:\n"
    output += f"  {right_answer}\n"
    output += '\n'.join([f"  {option}" for option in distractors])

    return output

In [8]:
print(str_ege_example_full(ege_dataset.iloc[12]))

 — Мне в Борисоглебский переулок, — сообщила я молодому таксисту, — дом-музей Марины Цветаевой. — Парень включил навигатор, стал всматриваться в карту маршрута. — Там она и жила с семьёй, — добавила я задумчиво скорее самой себе. — Кто жил? — переспросил он через минуту. — Цветаева, поэт, знаете? Он улыбнулся: — Не-а. Такого ответа я никак не ожидала. В принципе, размышляла я, уставившись в окно перед собой и изредка косясь на водителя, симпатичного и блондинистого, человеком можно быть хорошим... и не знать поэтов-писателей. Но мне вдруг стало любопытно, кто он и откуда: очень уж хотелось понять, почему имя Цветаевой (и, полагаю, многих других великих деятелей литературы) для него ничего не значит. Я решила порасспросить парня. Узнала, что ему 24 года, москвич в третьем поколении. Родители служащие, с высшим образованием. Да и сам он окончил что-то вроде специализированного колледжа. Как же он мог не слышать о Цветаевой? В общем, причины столь низкой осведомлённости в области поэзии т

In [None]:
fact_scores = pd.read_excel("../data_output_table/distractor_metrics/DistractorFactScores1.xlsx", index_col="Unnamed: 0")

In [12]:
fact_scores.head()

Unnamed: 0,source,vso_intersec_ind,vs_intersec_ind,vs_passivized_intersec_ind,vso_intersec,vs_intersec,vs_passivized_intersec,noun_intersec,propn_intersec,noun_intersec_ind,propn_intersec_ind,reading_text,distractor
0,BartDG,0,0,0,set(),set(),set(),{'родина'},set(),1,0,На задворках нашего села стояло на сваях длин...,Автор очень любил свою родину.
1,BartDG,0,0,0,set(),set(),set(),"{'скрипка', 'родина'}",set(),1,0,На задворках нашего села стояло на сваях длин...,Автор часто играл на скрипке на своей родине.
2,BartDG,0,0,0,set(),set(),set(),"{'война', 'жизнь'}",set(),1,0,На задворках нашего села стояло на сваях длин...,Соотечественник автора спас жизнь своему сыну ...
3,BartDG,0,0,0,set(),set(),set(),set(),set(),0,0,"Мы ехали берегом Лены на юг, а зима догоняла ...",Оба козла были горными козлами.
4,BartDG,0,0,0,set(),set(),set(),{'коза'},set(),1,0,"Мы ехали берегом Лены на юг, а зима догоняла ...","Старая коза, маленькая, была готова снова прыг..."


In [13]:
fact_scores["vso_intersec"] = fact_scores["vso_intersec"].apply(literal_eval)
fact_scores["vs_intersec"] = fact_scores["vs_intersec"].apply(literal_eval)
fact_scores["vs_passivized_intersec"] = fact_scores["vs_passivized_intersec"].apply(literal_eval)
fact_scores["noun_intersec"] = fact_scores["noun_intersec"].apply(literal_eval)
fact_scores["propn_intersec"] = fact_scores["propn_intersec"].apply(literal_eval)

In [14]:
set() == set()

True

In [15]:
fact_scores_examples = fact_scores[
    (fact_scores["vso_intersec"]!=set()) &
    (fact_scores["vs_intersec"]!=set()) &
    (fact_scores["noun_intersec"]!=set()) &
    (fact_scores["propn_intersec"]!=set())
]

In [16]:
fact_scores_examples

Unnamed: 0,source,vso_intersec_ind,vs_intersec_ind,vs_passivized_intersec_ind,vso_intersec,vs_intersec,vs_passivized_intersec,noun_intersec,propn_intersec,noun_intersec_ind,propn_intersec_ind,reading_text,distractor
12,BartDG,1,1,0,"{(стать, иван, режиссёр)}","{(стать, иван)}",{},{режиссёр},{иван},1,1,В суровые военные годы во время бомбёжки моя ...,Иван стал заслуженным художником и режиссёром.
103,BartDG,1,1,0,"{(мочь, которые, слышать)}","{(мочь, которые)}",{},{животное},{фёдор},1,1,"Есть животные, которые не могут слышать, и их...","Фёдор Тат издевался над животными, которые мог..."
583,MuSeRC_GPT3,1,1,0,"{(получить, берг, письмо)}","{(получить, берг)}",{},"{художник, письмо}","{ярцев, берг}",1,1,"Когда при Берге произносили слово «Родина», о...",Когда Берг получил письмо от художника Ярцева.
986,RuRace_T5,1,1,0,"{(получить, берг, письмо)}","{(получить, берг)}",{},{письмо},{берг},1,1,"Когда при Берге произносили слово «Родина», о...","Когда Берг получил письмо от автора, он не зна..."
1148,Deepseek,1,1,0,"{(взять, берг, краска)}","{(взять, берг)}",{},"{лес, краска, пейзаж}",{берг},1,1,"Когда при Берге произносили слово «Родина», о...","Берг взял с собой масляные краски, чтобы напис..."
1384,ChatGPT4o,1,1,0,"{(получать, кто, двойка)}","{(получать, кто)}",{},"{двойка, закон, незнание}",{архимед},1,1,Однажды Архимед сел в ванну и вдруг почувство...,"Те, кто получают «двойки» за незнание закона А..."
1550,true_distractors,1,1,0,"{(получать, кто, двойка)}","{(получать, кто)}",{},"{открытие, двойка, закон, незнание}",{архимед},1,1,Однажды Архимед сел в ванну и вдруг почувство...,"Те, кто получает двойки за незнание закона Арх..."


In [18]:
fact_scores_examples.loc[1148]["distractor"]

'Берг взял с собой масляные краски, чтобы написать пейзаж в муромских лесах.'

In [20]:
fact_scores_examples.loc[1148]["reading_text"]

' Когда при Берге произносили слово «Родина», он усмехался. Он не понимал, что это значит. Родина, земля отцов, страна, где он родился, – не так важно, где человек появился на свет. Земля отцов! Берг не чувствовал никакой привязанности ни к своему детству, ни к маленькому городку, где он родился.– Эх, Берг, сухарная душа! – с тяжёлым укором говорили ему друзья.– Какой из тебя художник, когда ты землю родную не любишь, чудак! Может быть, поэтому Бергу и не удавались пейзажи. Он предпочитал портрет, плакат. Он старался найти стиль своего времени, но эти попытки были полны неудач и неясностей. Однажды Берг получил письмо от художника Ярцева. Он звал его приехать в муромские леса, где проводил лето. Август стоял жаркий и безветренный. Ярцев жил далеко от безлюдной станции, в лесу, на берегу глубокого озера с чёрной водой. Он снимал избу у лесника. Вёз Берга на озеро сын лесника Ваня Зотов, сутулый и застенчивый мальчик. На озере Берг прожил около месяца. Он не собирался работать и не взял 

In [19]:
fact_scores_examples.loc[1148]["vs_intersec"]

{('взять', 'берг')}

In [21]:
fact_scores_examples.loc[1148]["vso_intersec"]

{('взять', 'берг', 'краска')}

In [23]:
fact_scores_examples.loc[1148]["noun_intersec"]

{'краска', 'лес', 'пейзаж'}

In [24]:
fact_scores_examples.loc[1148]["propn_intersec"]

{'берг'}