# Компьютерная семантика

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://www.nltk.org/howto/wordnet.html
* https://ruwordnet.ru/ru
* https://habr.com/ru/companies/unistar_digital/articles/687148/
* https://www.scaler.com/topics/nlp/wordnet-in-nlp/

## Задачи для совместного разбора

1\. Дано описание классов `Sence` и `Synset`. Создайте объект `Synset` на основе файлов из `data/rwn`.

In [None]:
from dataclasses import dataclass, field

@dataclass
class Sense:
    id: str
    name: str
    lemma: str
    main_word: str
    synt_type: str
    poses: str
    synset_id: str
    meaning: str

@dataclass
class Synset:
    id: str
    ruthes_name: str
    definition: str
    part_of_speech: str
    senses: list[Sense] = field(default_factory=list)
    hyponyms: list["Synset"] = field(default_factory=list, repr=False)
    hypernyms: list["Synset"] = field(default_factory=list, repr=False)

In [None]:
from bs4 import BeautifulSoup

In [None]:
with open("./synsets.N.xml", "r", encoding="utf8") as fp:
  synsets_bs = BeautifulSoup(fp)

In [None]:
example_synset = synsets_bs.find("synset")
example_synset

<synset definition="" id="N12658" part_of_speech="N" ruthes_name="КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ">
<sense id="115643">МЕДИЦИНСКИЙ КОДИРОВАНИЕ</sense>
<sense id="115640">КОДИРОВАНИЕ</sense>
<sense id="115641">КОДИРОВАНИЕ ОТ ЗАВИСИМОСТЬ</sense>
<sense id="115642">КОДИРОВАНИЕ ЗАВИСИМОСТЬ</sense>
</synset>

In [None]:
example_synset.attrs

{'id': 'N12658',
 'ruthes_name': 'КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ',
 'definition': '',
 'part_of_speech': 'N'}

In [None]:
synset = Synset(**example_synset.attrs)
synset

Synset(id='N12658', ruthes_name='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ', definition='', part_of_speech='N', senses=[])

In [None]:
synset.id

'N12658'

In [None]:
with open("./senses.N.xml", "r", encoding="utf8") as fp:
  senses_bs = BeautifulSoup(fp)

In [None]:
senses_list = [
    Sense(**sense.attrs)
    for sense in senses_bs.find_all("sense", synset_id=synset.id)
]
synset.senses = senses_list

In [None]:
synset

Synset(id='N12658', ruthes_name='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ', definition='', part_of_speech='N', senses=[Sense(id='115643', name='МЕДИЦИНСКОЕ КОДИРОВАНИЕ', lemma='МЕДИЦИНСКИЙ КОДИРОВАНИЕ', main_word='КОДИРОВАНИЕ', synt_type='NG', poses='Adj N', synset_id='N12658', meaning='1'), Sense(id='115640', name='КОДИРОВАНИЕ', lemma='КОДИРОВАНИЕ', main_word='', synt_type='N', poses='', synset_id='N12658', meaning='3'), Sense(id='115641', name='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ', lemma='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТЬ', main_word='КОДИРОВАНИЕ', synt_type='NG', poses='N Prep N', synset_id='N12658', meaning='1'), Sense(id='115642', name='КОДИРОВАНИЕ ЗАВИСИМОСТИ', lemma='КОДИРОВАНИЕ ЗАВИСИМОСТЬ', main_word='КОДИРОВАНИЕ', synt_type='NG', poses='N N', synset_id='N12658', meaning='1')])

## Задачи для самостоятельного решения

In [None]:
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [None]:
from bs4 import BeautifulSoup
from dataclasses import dataclass, field

In [None]:
@dataclass
class Sense:
    id: str
    name: str
    lemma: str
    main_word: str
    synt_type: str
    poses: str
    synset_id: str
    meaning: str

@dataclass
class Synset:
    id: str
    ruthes_name: str
    definition: str
    part_of_speech: str
    senses: list[Sense] = field(default_factory=list)
    hyponyms: list["Synset"] = field(default_factory=list, repr=False)
    hypernyms: list["Synset"] = field(default_factory=list, repr=False)

<p class="task" id="1"></p>

1\. На основе файлов `rwn/synsets.A.xml`, `rwn/synsets.N.xml` и `rwn/synsets.V.xml` создайте словарь `synsets`, где ключом является ID синсета, а значением - объекта класса `Synset`. Поля `senses`, `hyponyms`, `hypernyms` оставьте со значениями по умолчанию. Выведите количество объектов в полученном словаре на экран.

- [x] Проверено на семинаре

In [None]:
with open("/content/drive/MyDrive/NLP/data/rwn/synsets.A.xml", "r", encoding="utf8") as fp:
  synsets_A_list = BeautifulSoup(fp).find_all("synset")

with open("/content/drive/MyDrive/NLP/data/rwn/synsets.N.xml", "r", encoding="utf8") as fp:
  synsets_N_list = BeautifulSoup(fp).find_all("synset")

with open("/content/drive/MyDrive/NLP/data/rwn/synsets.V.xml", "r", encoding="utf8") as fp:
  synsets_V_list = BeautifulSoup(fp).find_all("synset")

In [None]:
synsets_A_list[0]

<synset definition="" id="A1" part_of_speech="Adj" ruthes_name="ПОДПИСКА НА ПЕРИОДИЧЕСКИЕ ИЗДАНИЯ">
<sense id="95459">ПОДПИСНОЙ</sense>
</synset>

In [None]:
synsets_A_dict = {Synset(**synset.attrs).id : Synset(**synset.attrs) for synset in synsets_A_list}
synsets_N_dict = {Synset(**synset.attrs).id : Synset(**synset.attrs) for synset in synsets_N_list}
synsets_V_dict = {Synset(**synset.attrs).id : Synset(**synset.attrs) for synset in synsets_V_list}

synsets_all_dict = synsets_A_dict | synsets_N_dict | synsets_V_dict
len(synsets_all_dict)

49492

In [None]:
synsets_all_dict['A100']

Synset(id='A100', ruthes_name='САЛЬДО ПО РАСЧЕТАМ', definition='разность между денежными поступлениями и расходами за определенный промежуток времени', part_of_speech='Adj', senses=[])

<p class="task" id="2"></p>

2\. Обновите поле `senses` у объектов в словаре `synsets` на основе файлов `rwn/senses.A.xml`, `rwn/senses.N.xml` и `rwn/senses.V.xml`. Выведите на экран среднее количество синонимов у синсетов.

- [x] Проверено на семинаре

In [None]:
with open("/content/drive/MyDrive/NLP/data/rwn/senses.A.xml", "r", encoding="utf8") as fp:
  senses_A_list = BeautifulSoup(fp).find_all("sense")

with open("/content/drive/MyDrive/NLP/data/rwn/senses.N.xml", "r", encoding="utf8") as fp:
  senses_N_list = BeautifulSoup(fp).find_all("sense")

with open("/content/drive/MyDrive/NLP/data/rwn/senses.V.xml", "r", encoding="utf8") as fp:
  senses_V_list = BeautifulSoup(fp).find_all("sense")

In [None]:
senses_A_list[0]

<sense id="95459" lemma="ПОДПИСНОЙ" main_word="" meaning="2" name="ПОДПИСНОЙ" poses="" synset_id="A1" synt_type="Adj"></sense>

In [None]:
senses_A_dict = {Sense(**sense.attrs).id : Sense(**sense.attrs) for sense in senses_A_list}
senses_N_dict = {Sense(**sense.attrs).id : Sense(**sense.attrs) for sense in senses_N_list}
senses_V_dict = {Sense(**sense.attrs).id : Sense(**sense.attrs) for sense in senses_V_list}

senses_all_dict = senses_A_dict | senses_N_dict | senses_V_dict
len(senses_all_dict)

130416

In [None]:
for sid, sense in senses_all_dict.items():
    synsets_all_dict[sense.synset_id].senses.append(sense)

In [None]:
synsets_all_dict['A100']

Synset(id='A100', ruthes_name='САЛЬДО ПО РАСЧЕТАМ', definition='разность между денежными поступлениями и расходами за определенный промежуток времени', part_of_speech='Adj', senses=[Sense(id='54387', name='САЛЬДОВЫЙ', lemma='САЛЬДОВЫЙ', main_word='', synt_type='Adj', poses='', synset_id='A100', meaning='1')])

In [None]:
count = 0
for i in synsets_all_dict.values():
    count += len(i.senses)
print(count / len(synsets_all_dict))

2.6350925402085186


<p class="task" id="3"></p>

3\. Проанализируйте, какие типы отношений представлены в файле `rwn/relation.xml`. Выведите множество типов отношений на экран.
Обновите поля `hyponyms` и `hypernyms` у объектов в словаре `synsets` на основе файла `rwn/relation.xml`.

- [ ] Проверено на семинаре

<p class="task" id="4"></p>

4\. Напишите функцию `find_by_name`, которая ищет синсеты по вхождению заданного слова в поле `ruthes_name`. При поиске приводите введенное слово к нормальной форме и не учитывайте регистр слов. Функция должна вернуть список, отсортированный по возрастаю значений расстояния Левенштейна между названием синсета и введенным словом. Продемонстрируйте, какие синсеты находятся по слову "собака".

- [ ] Проверено на семинаре

<p class="task" id="5"></p>

5\. Для пары слов "собака" и "кошка" найдите ближайший общий родительский синсет и выведите на экран его название. Синсет `A` назовем родительским синсетом синсета `B`, если от `B` можно подняться к `A` в таксономии синсетов, используя отношения гиперонимии. Найдите общий родительский синсет для пары слов "кошка" и "студент" и выведите на экран его название.

- [ ] Проверено на семинаре

<p class="task" id="6"></p>

6\. Для каждого слова из представленного текста найдите все возможные синонимы. Набор синонимов получите на основе поля `senses` у объектов `Synset`. В случае обнаружения точного совпадения введенного слова хотя бы с одним элементом из `senses`, весь набор `senses` трактуйте как синонимы. При поиске приводите слово к нормальной форме и не учитывайте регистр слов.

Составьте все возможные вариации данного предложения, заменяя слова на найденные синонимы. В случае отсутствия синонимов для какого-то из слов, используйте исходное слово для генерации предложения. Выведите на экран общее количество перефразированных предложений.

- [ ] Проверено на семинаре

In [None]:
text = "Студент ужаснулся когда увидел задачу"

## Обратная связь
- [ ] Хочу получить обратную связь по решению