# Компьютерная семантика

__Автор задач: Блохин Н.В. (NVBlokhin@fa.ru)__

Материалы:
* https://www.nltk.org/howto/wordnet.html
* https://ruwordnet.ru/ru
* https://habr.com/ru/companies/unistar_digital/articles/687148/
* https://www.scaler.com/topics/nlp/wordnet-in-nlp/

## Задачи для совместного разбора

1\. Дано описание классов `Sence` и `Synset`. Создайте объект `Synset` на основе файлов из `data/rwn`.

In [1]:
from dataclasses import dataclass, field

@dataclass
class Sense:
    id: str
    name: str
    lemma: str
    main_word: str
    synt_type: str
    poses: str
    synset_id: str
    meaning: str

@dataclass
class Synset:
    id: str
    ruthes_name: str
    definition: str
    part_of_speech: str
    senses: list[Sense] = field(default_factory=list)
    hyponyms: list["Synset"] = field(default_factory=list, repr=False)
    hypernyms: list["Synset"] = field(default_factory=list, repr=False)

In [2]:
from bs4 import BeautifulSoup

In [17]:
with open("./synsets.N.xml", "r", encoding="utf8") as fp:
  synsets_bs = BeautifulSoup(fp)

In [18]:
example_synset = synsets_bs.find("synset")
example_synset

<synset definition="" id="N12658" part_of_speech="N" ruthes_name="КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ">
<sense id="115643">МЕДИЦИНСКИЙ КОДИРОВАНИЕ</sense>
<sense id="115640">КОДИРОВАНИЕ</sense>
<sense id="115641">КОДИРОВАНИЕ ОТ ЗАВИСИМОСТЬ</sense>
<sense id="115642">КОДИРОВАНИЕ ЗАВИСИМОСТЬ</sense>
</synset>

In [5]:
example_synset.attrs

{'id': 'N12658',
 'ruthes_name': 'КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ',
 'definition': '',
 'part_of_speech': 'N'}

In [7]:
synset = Synset(**example_synset.attrs)
synset

Synset(id='N12658', ruthes_name='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ', definition='', part_of_speech='N', senses=[])

In [8]:
synset.id

'N12658'

In [81]:
with open("./senses.N.xml", "r", encoding="utf8") as fp:
  senses_bs = BeautifulSoup(fp)

In [82]:
for sense in senses_bs.find_all("sense", synset_id=synset.id):
  print(sense)
  break

<sense id="115643" lemma="МЕДИЦИНСКИЙ КОДИРОВАНИЕ" main_word="КОДИРОВАНИЕ" meaning="1" name="МЕДИЦИНСКОЕ КОДИРОВАНИЕ" poses="Adj N" synset_id="N12658" synt_type="NG"></sense>


In [None]:
senses_list = [
    Sense(**sense.attrs)
    for sense in senses_bs.find_all("sense", synset_id=synset.id)
]
synset.senses = senses_list

In [None]:
synset

Synset(id='N12658', ruthes_name='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ', definition='', part_of_speech='N', senses=[Sense(id='115643', name='МЕДИЦИНСКОЕ КОДИРОВАНИЕ', lemma='МЕДИЦИНСКИЙ КОДИРОВАНИЕ', main_word='КОДИРОВАНИЕ', synt_type='NG', poses='Adj N', synset_id='N12658', meaning='1'), Sense(id='115640', name='КОДИРОВАНИЕ', lemma='КОДИРОВАНИЕ', main_word='', synt_type='N', poses='', synset_id='N12658', meaning='3'), Sense(id='115641', name='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТИ', lemma='КОДИРОВАНИЕ ОТ ЗАВИСИМОСТЬ', main_word='КОДИРОВАНИЕ', synt_type='NG', poses='N Prep N', synset_id='N12658', meaning='1'), Sense(id='115642', name='КОДИРОВАНИЕ ЗАВИСИМОСТИ', lemma='КОДИРОВАНИЕ ЗАВИСИМОСТЬ', main_word='КОДИРОВАНИЕ', synt_type='NG', poses='N N', synset_id='N12658', meaning='1')])

## Задачи для самостоятельного решения

<p class="task" id="1"></p>

1\. На основе файлов `rwn/synsets.A.xml`, `rwn/synsets.N.xml` и `rwn/synsets.V.xml` создайте словарь `synsets`, где ключом является ID синсета, а значением - объекта класса `Synset`. Поля `senses`, `hyponyms`, `hypernyms` оставьте со значениями по умолчанию. Выведите количество объектов в полученном словаре на экран.

- [ ] Проверено на семинаре

In [188]:
with open("./synsets.A.xml", "r", encoding="utf8") as fp:
  synsets_bsA = BeautifulSoup(fp)

with open("./synsets.N.xml", "r", encoding="utf8") as fp:
  synsets_bsN = BeautifulSoup(fp)

with open("./synsets.V.xml", "r", encoding="utf8") as fp:
  synsets_bsV = BeautifulSoup(fp)

In [189]:
synsets = {}

for file in [synsets_bsA, synsets_bsN, synsets_bsV]:
  for i in file.find_all('synset'):
    attrs = i.attrs
    synsets[attrs['id']] = Synset(**attrs)

In [190]:
len(synsets)

49492

<p class="task" id="2"></p>

2\. Обновите поле `senses` у объектов в словаре `synsets` на основе файлов `rwn/senses.A.xml`, `rwn/senses.N.xml` и `rwn/senses.V.xml`. Выведите на экран среднее количество синонимов у синсетов.

- [ ] Проверено на семинаре

In [112]:
with open("./senses.A.xml", "r", encoding="utf8") as fp:
  senses_bsA = BeautifulSoup(fp)

with open("./senses.N.xml", "r", encoding="utf8") as fp:
  senses_bsN = BeautifulSoup(fp)

with open("./senses.V.xml", "r", encoding="utf8") as fp:
  senses_bsV = BeautifulSoup(fp)

In [191]:
for file in [senses_bsA, senses_bsN, senses_bsV]:
  for i in file.find_all('sense'):
    syns_id = i.attrs['synset_id']
    synsets[syns_id].senses.append(Sense(**i.attrs))

In [192]:
sm = 0

for i in synsets:
  sm += len(synsets[i].senses)

sm/len(synsets) # среднее количество синонимов

2.6350925402085186

<p class="task" id="3"></p>

3\. Проанализируйте, какие типы отношений представлены в файле `rwn/synset_relations.*.xml`. Выведите множество типов отношений на экран.
Обновите поля `hyponyms` и `hypernyms` у объектов в словаре `synsets` на основе файла `rwn/relation.xml`.

- [ ] Проверено на семинаре

In [122]:
with open("./synset_relations.A.xml", "r", encoding="utf8") as fp:
  synset_relationsA = BeautifulSoup(fp)

with open("./synset_relations.N.xml", "r", encoding="utf8") as fp:
  synset_relationsN = BeautifulSoup(fp)

with open("./synset_relations.V.xml", "r", encoding="utf8") as fp:
  synset_relationsV = BeautifulSoup(fp)

In [193]:
files = [synset_relationsA, synset_relationsN, synset_relationsV]
types = set()

for file in files:
  types |= set([i.attrs['name'] for i in file.find_all('relation')])

types

{'POS-synonymy',
 'antonym',
 'cause',
 'domain',
 'entailment',
 'hypernym',
 'hyponym',
 'instance hypernym',
 'instance hyponym',
 'part holonym',
 'part meronym'}

In [204]:
synset_relationsN.find_all('relation', parent_id='N12906')

[<relation child_id="N28789" name="hypernym" parent_id="N12906"></relation>,
 <relation child_id="N24059" name="hyponym" parent_id="N12906"></relation>,
 <relation child_id="N24860" name="hyponym" parent_id="N12906"></relation>,
 <relation child_id="V48376" name="POS-synonymy" parent_id="N12906"></relation>]

In [207]:
synsets['N12906'].ruthes_name

'ПИЛОТИРОВАТЬ'

In [208]:
synsets['N28789'].ruthes_name   # name="hypernym"

'УПРАВЛЕНИЕ УСТРОЙСТВОМ'

In [209]:
synsets['N24059'].ruthes_name   # name="hyponym"

'ПИКИРОВАНИЕ САМОЛЕТА'

In [194]:
files = [synset_relationsA, synset_relationsN, synset_relationsV]

for file in files:
  for i in file.find_all('relation', attrs={'name':'hypernym'}):
    ch_id, par_id = i.attrs['child_id'], i.attrs['parent_id']
    synsets[par_id].hypernyms.append(ch_id)
    #synsets[ch_id].hyponyms.append(par_id)

  for i in file.find_all('relation', attrs={'name':'hyponym'}):
    ch_id, par_id = i.attrs['child_id'], i.attrs['parent_id']
    synsets[par_id].hyponyms.append(ch_id)
    #synsets[ch_id].hypernyms.append(par_id)

In [195]:
cnt_ = 0
for i in synsets:
  print(synsets[i].hyponyms)
  cnt_ += 1
  if cnt_ > 5:
    break

[]
['A8709', 'A11873']
[]
[]
[]
['A4654']


<p class="task" id="4"></p>

4\. Напишите функцию `find_by_name`, которая ищет синсеты по вхождению заданного слова в поле `ruthes_name`. При поиске приводите введенное слово к нормальной форме и не учитывайте регистр слов. Функция должна вернуть список, отсортированный по возрастаю значений расстояния Левенштейна между названием синсета и введенным словом. Продемонстрируйте, какие синсеты находятся по слову "собака".

- [ ] Проверено на семинаре

In [None]:
!pip install pymorphy2

In [None]:
!pip install Levenshtein

In [160]:
import pymorphy2
from Levenshtein import distance as lev

In [161]:
morph = pymorphy2.MorphAnalyzer()
morph.parse('ЗАВИСИМОСТИ'.lower())[0].normal_form

'зависимость'

In [164]:
lev('Loe','loE'), lev('loe','loe')

(2, 0)

In [173]:
def find_by_name(synsets, word, morph):
  word = word.lower()
  word_inf = morph.parse(word)[0].normal_form

  res = []
  for i in synsets:
    nm = synsets[i].ruthes_name
    res.append((nm, lev(nm.lower(), word_inf)))

  return sorted(res, key=(lambda x: x[1]))

In [174]:
find_by_name(synsets, 'собака', morph)

[('СОБАКА', 0),
 ('СОБАКА', 0),
 ('ОСАКА', 2),
 ('СОНАТА', 2),
 ('СОПКА', 2),
 ('СОПКА', 2),
 ('ОСАКА', 2),
 ('СОНАТА', 2),
 ('САЛАКА', 2),
 ('ШОСТКА', 3),
 ('БАКУ', 3),
 ('КОВКА', 3),
 ('ОСАДА', 3),
 ('СУДАК', 3),
 ('СОСИСКА', 3),
 ('КОШКА', 3),
 ('ДОНКА', 3),
 ('ОКА', 3),
 ('МОНАКО', 3),
 ('ОТАРА', 3),
 ('САХАРА', 3),
 ('АБАКАН', 3),
 ('СПИЧКА', 3),
 ('СКАЛА', 3),
 ('МОМБАСА', 3),
 ('СТРОКА', 3),
 ('ЛОПАТА', 3),
 ('СОМАЛИ', 3),
 ('ЛОШАК', 3),
 ('СОЛОМА', 3),
 ('ОБОРКА', 3),
 ('СОБОЛЬ', 3),
 ('ЛОДКА', 3),
 ('КОБЫЛА', 3),
 ('ЛОЖКА', 3),
 ('ГОТИКА', 3),
 ('СОДА', 3),
 ('СИГАРА', 3),
 ('ЮБКА', 3),
 ('СТИРКА', 3),
 ('СОЛОДКА', 3),
 ('ВОДКА', 3),
 ('КОЛБАСА', 3),
 ('МОЧАЛКА', 3),
 ('ОПАРА', 3),
 ('СОСНА', 3),
 ('НОРКА', 3),
 ('РЫБАК', 3),
 ('СОСОК', 3),
 ('ОБИВКА', 3),
 ('ТОБАГО', 3),
 ('ОБВА', 3),
 ('СКАЛКА', 3),
 ('СУДАК', 3),
 ('ДОЯРКА', 3),
 ('РОБА', 3),
 ('ДОГАДКА', 3),
 ('ДРАКА', 3),
 ('КОБУРА', 3),
 ('НОРКА', 3),
 ('ЛОЖКА', 3),
 ('ЛОПАТА', 3),
 ('ЛОШАК', 3),
 ('СТРОКА', 3),
 ('СИБАЙ

<p class="task" id="5"></p>

5\. Для пары слов "собака" и "кошка" найдите ближайший общий родительский синсет и выведите на экран его название. Синсет `A` назовем родительским синсетом синсета `B`, если от `B` можно подняться к `A` в таксономии синсетов, используя отношения гиперонимии. Найдите общий родительский синсет для пары слов "кошка" и "студент" и выведите на экран его название.

- [ ] Проверено на семинаре

In [196]:
for i,v in synsets.items():
  if v.ruthes_name.lower() == 'кошка':
    print(i)

A3055
N27811


In [197]:
synsets['A3055'] # прилагательное

Synset(id='A3055', ruthes_name='КОШКА', definition='небольшое хищное млекопитающее семейства кошачьих, истребляющее грызунов (преимущественно мышей и крыс)', part_of_speech='Adj', senses=[Sense(id='26088', name='КОШАЧИЙ', lemma='КОШАЧИЙ', main_word='', synt_type='Adj', poses='', synset_id='A3055', meaning='1')])

In [198]:
synsets['N27811'] # существительное

Synset(id='N27811', ruthes_name='КОШКА', definition='небольшое хищное млекопитающее семейства кошачьих, истребляющее грызунов (преимущественно мышей и крыс)', part_of_speech='N', senses=[Sense(id='26087', name='КОШКА', lemma='КОШКА', main_word='', synt_type='N', poses='', synset_id='N27811', meaning='2'), Sense(id='26089', name='КОШЕЧКА', lemma='КОШЕЧКА', main_word='', synt_type='N', poses='', synset_id='N27811', meaning='1'), Sense(id='26090', name='ДОМАШНЯЯ КОШКА', lemma='ДОМАШНИЙ КОШКА', main_word='КОШКА', synt_type='NG', poses='Adj N', synset_id='N27811', meaning='1')])

In [199]:
for i,v in synsets.items():
  if v.ruthes_name.lower() == 'студент':
    print(i)

N36005


In [200]:
synsets['N36005']

Synset(id='N36005', ruthes_name='СТУДЕНТ', definition='учащийся высшего учебного заведения', part_of_speech='N', senses=[Sense(id='78952', name='СТУДЕНТ', lemma='СТУДЕНТ', main_word='', synt_type='N', poses='', synset_id='N36005', meaning='1'), Sense(id='78953', name='СТУДЕНТКА', lemma='СТУДЕНТКА', main_word='', synt_type='N', poses='', synset_id='N36005', meaning='1')])

In [221]:
def find_parents(synsets, id1):
  parents = set(synsets[id1].hypernyms)
  return parents


old_el1 = set()
old_el2 = set()

parents1 = set(synsets['N27811'].hypernyms) # кошка
parents2 = set(synsets['N36005'].hypernyms) # студент

while not parents1&parents2:
  new_el1 = parents1 - old_el1
  new_el2 = parents2 - old_el2
  old_el1 = parents1.copy()
  old_el2 = parents2.copy()

  for i in new_el1:
    parents1 |= find_parents(synsets, i)

  for i in new_el2:
    parents2 |= find_parents(synsets, i)

In [222]:
parents1&parents2

{'N13063'}

In [223]:
synsets['N13063'].ruthes_name

'ЖИВОЙ ОРГАНИЗМ'

<p class="task" id="6"></p>

6\. Для каждого слова из представленного текста найдите все возможные синонимы. Набор синонимов получите на основе поля `senses` у объектов `Synset`. В случае обнаружения точного совпадения введенного слова хотя бы с одним элементом из `senses`, весь набор `senses` трактуйте как синонимы. При поиске приводите слово к нормальной форме и не учитывайте регистр слов.

Составьте все возможные вариации данного предложения, заменяя слова на найденные синонимы. В случае отсутствия синонимов для какого-то из слов, используйте исходное слово для генерации предложения. Выведите на экран общее количество перефразированных предложений.

- [ ] Проверено на семинаре

In [225]:
text = "Студент ужаснулся когда увидел задачу"

morph = pymorphy2.MorphAnalyzer()
words6 = [morph.parse(word)[0].normal_form for word in text.lower().split()]
words6

['студент', 'ужаснуться', 'когда', 'увидеть', 'задача']

In [249]:
synonims = {}
for word in words6:
  synonims[word] = set()

  for i in synsets:
    names = set()
    fl = 0
    fl2 = 0
    for j in synsets[i].senses:
      names.add(j.name)
      if fl == 0 and j.name.lower() == word:
        fl = 1
      if fl2 == 0 and j.lemma.lower() == word:
        fl2 = 1

    if fl2:
      synonims[word].add(synsets[i].ruthes_name)
    if fl:
      synonims[word] |= names

In [250]:
synonims

{'студент': {'СТУДЕНТ', 'СТУДЕНТКА'},
 'ужаснуться': {'НЕПРИЯТНО УДИВИТЬСЯ',
  'ПРИЙТИ В УЖАС',
  'ПРИХОДИТЬ В УЖАС',
  'СТЫНЕТ КРОВЬ',
  'СТЫНЕТ КРОВЬ В ЖИЛАХ',
  'СХВАТИТЬСЯ ЗА ГОЛОВУ',
  'УЖАСАТЬСЯ',
  'УЖАСНУТЬСЯ',
  'УЖАСНУТЬСЯ (ИСПУГАТЬСЯ)',
  'УЖАСНУТЬСЯ, НЕПРИЯТНО УДИВИТЬСЯ',
  'ХВАТАТЬСЯ ЗА ГОЛОВУ'},
 'когда': set(),
 'увидеть': {'ВИДАТЬСЯ',
  'ВИДЕТЬ',
  'ВИДЕТЬ ГЛАЗАМИ',
  'ВИДЕТЬ, ВОСПРИНИМАТЬ ЗРЕНИЕМ',
  'ВИДЕТЬСЯ',
  'ВОСПРИНИМАТЬ ЗРЕНИЕМ',
  'ВСКРЫВАТЬ',
  'ВСКРЫТЬ',
  'ВСТРЕТИТЬ',
  'ВСТРЕТИТЬ, УВИДЕТЬСЯ',
  'ВСТРЕТИТЬСЯ',
  'ВСТРЕЧАТЬ',
  'ВСТРЕЧАТЬСЯ',
  'ВЫСВЕТИТЬ',
  'ВЫСВЕЧИВАТЬ',
  'ВЫЯВИТЬ',
  'ВЫЯВЛЯТЬ',
  'ЗАМЕТИТЬ',
  'ЗАМЕТИТЬ, ОБНАРУЖИТЬ',
  'ЗАМЕЧАТЬ',
  'ЗАПРИМЕТИТЬ',
  'ЗАСЕКАТЬ',
  'ЗАСЕЧЬ',
  'ИМЕТЬ ВСТРЕЧУ',
  'ЛИЦЕЗРЕТЬ',
  'НЕ УСКОЛЬЗНУТЬ ОТ ВНИМАНИЯ',
  'ОБНАРУЖИВАТЬ',
  'ОБНАРУЖИТЬ',
  'ПЕРЕСЕКАТЬСЯ',
  'ПЕРЕСЕЧЬСЯ',
  'ПОВИДАТЬ',
  'ПОВИДАТЬСЯ',
  'ПОДМЕТИТЬ',
  'ПОДМЕЧАТЬ',
  'ПРИМЕТИТЬ',
  'ПРИМЕЧАТЬ',
  'РАЗГЛЯДЕТЬ',
  'СВИДЕТЬСЯ',
  'УВИДАТЬ',

## Обратная связь
- [ ] Хочу получить обратную связь по решению