# Word sense disambiguation with Simplified Lesk for Ukrainian

## Senses

Send requests to http://sum.in.ua/ to collect senses for a word.

In [1]:
from lxml import html
import requests

In [2]:
# http://sum.in.ua/ uses custom transliteration

conversion = {
    u'\u0410' : 'A',    u'\u0430' : 'a',
    u'\u0411' : 'B',    u'\u0431' : 'b',
    u'\u0412' : 'V',    u'\u0432' : 'v',
    u'\u0413' : 'Gh',    u'\u0433' : 'gh',
    u'\u0490' : 'G',    u'\u0491' : 'g',
    u'\u0414' : 'D',    u'\u0434' : 'd',
    u'\u0415' : 'E',    u'\u0435' : 'e',
    u'\u0404' : 'Ye',   u'\u0454' : 'je',
    u'\u0416' : 'Zh',   u'\u0436' : 'zh',
    u'\u0417' : 'Z',    u'\u0437' : 'z',
    u'\u0418' : 'Y',    u'\u0438' : 'y',
    u'\u0406' : 'I',    u'\u0456' : 'i',
    u'\u0407' : 'Ji',   u'\u0457' : 'ji',
    u'\u0419' : 'J',    u'\u0439' : 'j',
    u'\u041a' : 'K',    u'\u043a' : 'k',
    u'\u041b' : 'L',    u'\u043b' : 'l',
    u'\u041c' : 'M',    u'\u043c' : 'm',
    u'\u041d' : 'N',    u'\u043d' : 'n',
    u'\u041e' : 'O',    u'\u043e' : 'o',
    u'\u041f' : 'P',    u'\u043f' : 'p',
    u'\u0420' : 'R',    u'\u0440' : 'r',
    u'\u0421' : 'S',    u'\u0441' : 's',
    u'\u0422' : 'T',    u'\u0442' : 't',
    u'\u0423' : 'U',    u'\u0443' : 'u',
    u'\u0424' : 'F',    u'\u0444' : 'f',
    u'\u0425' : 'Kh',    u'\u0445' : 'kh',
    u'\u0426' : 'C',   u'\u0446' : 'c',
    u'\u0427' : 'Ch',   u'\u0447' : 'ch',
    u'\u0428' : 'Sh',   u'\u0448' : 'sh',
    u'\u0429' : 'Shh',  u'\u0449' : 'shh',
    u'\u044c' : 'j',
    u'\u042e' : 'Ju',   u'\u044e' : 'ju',
    u'\u042f' : 'Ja',   u'\u044f' : 'ja',
    u'\'' : '.'
}

def transliterate(word):
    translit = []
    for c in word:
        translit.append(conversion.get(c, c))
    return ''.join(translit)

In [3]:
print(transliterate("серце"))
print(transliterate("знущається"))
print(transliterate("бур'ян"))

serce
znushhajetjsja
bur.jan


In [4]:
URL = "http://sum.in.ua/s/"

def get_senses(word):
    """
    Extract senses for WORD from the dictionary.
    """
    word = transliterate(word)
    page = requests.get(URL + word)
    tree = html.fromstring(page.text)
    senses = tree.xpath("//p[@class='znach']")
    print(len(senses), "senses found.")
    return list(enumerate([" ".join(i.xpath('text()')) for i in senses], 1))

In [5]:
word = "серце"
senses = get_senses(word)
print(senses[5][1])

7 senses found.
   Металева, циліндричної форми частина
дзвона, розташована у внутрішній його частині; язик.
Стара дзвіниця.. Від серця дзвона падав вірьовка. Місячна
 ніч. Церковний сторож відбивав години  ; Він хотів ще потягнути мотуза, напружився і таки;
потягнув, але важке металеве серце ледве дійшло до
обідка дзвона  .



## Collect sentenses from the brown-uk corpus

Read files from https://github.com/brown-uk/corpus/tree/master/data/good. Find all sentences that contain the word in question.

Use https://github.com/lang-uk/tokenize-uk for tokenization:
pip install tokenize_uk

and https://github.com/kmike/pymorphy2 for lemmatization:

pip install -U https://github.com/kmike/pymorphy2/archive/master.zip#egg=pymorphy2

pip install -U pymorphy2-dicts-uk

In [6]:
import os
import re
import pymorphy2
import tokenize_uk

CORPUS_PATH = "/home/natalia/src/ucu-nlp-2019/good/"

morph = pymorphy2.MorphAnalyzer(lang='uk')

In [7]:
def find_sentences(text, word):
    """
    From TEXT select sentences that contain WORD.
    """
    sentences_w_word = []
    paragraphs = tokenize_uk.tokenize_text(text)
    for paragraph in paragraphs:
        for sentence in paragraph:
            for token in sentence:
                if morph.parse(token)[0].normal_form == word:
                    sentences_w_word.append(sentence)
                    break
    return sentences_w_word

In [8]:
data = []

for filename in os.listdir(CORPUS_PATH):
    with open(CORPUS_PATH + filename, "r") as f:
        text = f.read()
    body = text[text.find("<body>"):]
    body = re.sub(r"<[^<>]+>", "", body)
    data += find_sentences(body, word)

print(len(data))

202


In [9]:
data[0]

['Може',
 ',',
 'в',
 'сю',
 'світлу',
 'хвилю',
 'душа',
 'ясновельможного',
 ',',
 'чию',
 'одежу',
 'я',
 'доношував',
 ',',
 'вселилася',
 'в',
 'мене',
 ',',
 'потіснивши',
 'мою',
 'душу',
 'в',
 'куток',
 ',',
 'бо',
 'я',
 'й',
 'справді',
 'відчував',
 'у',
 'грудях',
 'тісноту',
 ',',
 'а',
 'в',
 'серці',
 'збурення',
 '—',
 'те',
 ',',
 'що',
 'чоловік',
 'без',
 'уяви',
 'назвав',
 'би',
 'втомою',
 'від',
 'сходження',
 'на',
 'гору',
 '.']

## Implement Simplified Lesk

### 1. Collect context words from senses

Tokenize, downcase, lemmatize, and remove stop-words.

In [13]:
def collect_bow(text):
    """
    Tokenize TEXT with tokenize_uk, lemmatize TEXT with pymorphy2,
    and remove functional words.
    """
    tokens = tokenize_uk.tokenize_words(text)
    bow = []
    for token in tokens:
        parse = morph.parse(token)[0]
        if parse.tag.POS not in {'NUMR', 'NPRO', 'PREP', 'CONJ', 'PRCL'} and \
            not 'PNCT' in parse.tag and \
            not token.isdigit() and \
            token not in ['до', 'на', 'за', 'його']:
            bow.append(parse.normal_form)
    return set(bow)

In [14]:
collect_bow(senses[5][1])

{'важкий',
 'внутрішній',
 'відбивати',
 'вірьовка',
 'година',
 'дзвін',
 'дзвіниця',
 'дійти',
 'металевий',
 'мотуз',
 'місячний',
 'напружитися',
 'ніч',
 'обідок',
 'падати',
 'потягнути',
 'розташований',
 'серце',
 'старий',
 'сторож',
 'форма',
 'хотіти',
 'церковний',
 'циліндричний',
 'частина',
 'язик'}

In [15]:
collect_bow(data[0])

{'вселитися',
 'втома',
 'відчувати',
 'гора',
 'груди',
 'доношувати',
 'душа',
 'душити',
 'збурення',
 'куток',
 'мен',
 'може',
 'назвати',
 'одежа',
 'потіснивши',
 'світлий',
 'серце',
 'сходження',
 'тіснота',
 'уявити',
 'хвиля',
 'чоловік',
 'ясновельможний'}

### 2. Define the best sense for the word

Find the sense that has the biggest overlap with the word context. Use sense 1 as default.

In [16]:
signatures = [(idx, collect_bow(sense)) for idx, sense in senses]

def classify(sentence, word, senses, log=False):
    """
    Find the sense that has the biggest overlap with the word context.
    Use sense 1 as default.
    """
    context = collect_bow(sentence)
    best_sense = 1
    max_overlap = 0
    max_overlap_words = []
    for sense_id, signature in signatures:
        overlap = context.intersection(signature)
        if len(overlap) > max_overlap:
            max_overlap_words = overlap
            max_overlap = len(overlap)
            best_sense = sense_id
    if log:
        print(" ".join(sentence))
        print("Best sense:", best_sense)
        print("{} words overlap: {}.\n".format(max_overlap, ", ".join(max_overlap_words)))
    return best_sense

In [17]:
classify(data[0], word, signatures, log=True)

Може , в сю світлу хвилю душа ясновельможного , чию одежу я доношував , вселилася в мене , потіснивши мою душу в куток , бо я й справді відчував у грудях тісноту , а в серці збурення — те , що чоловік без уяви назвав би втомою від сходження на гору .
Best sense: 2
9 words overlap: відчувати, груди, хвиля, може, душа, душити, чоловік, мен, серце.



2

In [18]:
classify(data[1], word, signatures, log=True)

І не лише тіло , а й серце прагнуло зігрітись після довгої зимової стужі .
Best sense: 2
4 words overlap: після, тіло, серце, довгий.



2

In [19]:
classify(data[2], word, signatures, log=True)

Тут мене не було стільки часу , недавно якось я навіть заблукав тут , уявляєш ? — у самому серці Львова , між Оперним і твоїм театром .
Best sense: 2
6 words overlap: час, бути, недавно, театр, мен, серце.



2

In [20]:
classify(data[90], word, signatures, log=True)

Її серце так калатало , що їй здавалося : навіть через бронежилет оцей несподіваний її рятівник може його почути .
Best sense: 2
5 words overlap: здавалося, може, почути, несподіваний, серце.



2

In [21]:
classify(data[130], word, signatures, log=True)

У процесі розвитку серце стає трикамерним , виникає друге коло кровообігу , зябра разом із хвостом зникають , проте з’являються легені і передні кінцівки .
Best sense: 2
5 words overlap: виникати, ставати, другий, раз, серце.



2

In [22]:
classify(data[157], word, signatures, log=True)

Стінки усіх чотирьох камер серця утворені особливим серцевим м`язом .
Best sense: 2
3 words overlap: особливий, серцевий, серце.



2

In [23]:
from collections import Counter

sense_counts = []
for i in range(len(data)):
    sense_id = classify(data[i], word, signatures)
    sense_counts.append(sense_id)
Counter(sense_counts)

Counter({1: 38, 2: 162, 4: 1, 5: 1})

## Your task

1. Choose a word (or a list of words).
2. Collect real-world sentences for the word(s).
3. Implement Simplified Lesk for disambiguating the word(s).
4. Set aside 50 sentences as a test set and manually fix the disambiguation errors that Lesk made. Calculate the quality of WSD by Lesk.
5. Improve the quality of WSD by:
- taking into account word count
- counting IDF score (log of total number of senses divided by the number of senses where the word was used)
- extending the word lists for senses in a semi-supervised manner (using the context of words that were disambiguated with high confidence)