In [37]:
import pandas as pd

### Load clean data and extract unigrams

In [38]:
df = pd.read_csv(
    'unigrams.csv', 
    keep_default_na=False,
    na_values=[
        '-1.#IND', '1.#QNAN', '1.#IND', '-1.#QNAN', '#N/A N/A', '#N/A', 'N/A', 'n/a', '', '#NA', 'NULL', 'null', 'NaN', '-NaN', 'nan', '-nan', ''
    ]
)

## Test distance algorithms

### Get top unigrams

In [39]:
unigrams = list(df[['Word', 'Count']].itertuples(index=False, name=None))
print('====Unigrams length====')
print(len(unigrams))
print('====First 30 unigrams====')
print(unigrams[0:30])

top_unigrams_count = round(len(unigrams) * 0.01)
print('====Top unigrams length====')
print(top_unigrams_count)
top_unigrams = unigrams[0:top_unigrams_count]

====Unigrams length====
43291
====First 30 unigrams====
[('и', 31679), ('на', 27252), ('без', 27204), ('б.о', 22399), ('RR', 22049), ('Корем', 17239), ('Cor', 16872), ('в', 16477), ('дишане', 14264), ('мек', 12803), ('РСД', 12270), ('с', 12264), ('тонове', 11832), ('се', 10480), ('отоци', 10069), ('не', 9817), ('дейност', 9076), ('ясни', 8517), ('Пулмо', 8514), ('мин', 8215), ('за', 8093), ('Крайници', 7748), ('везикуларно', 7612), ('сърдечна', 6929), ('хрипове', 6524), ('неболезнен', 6524), ('дроб', 6019), ('ритмична', 5503), ('по', 5476), ('статус', 5347)]
====Top unigrams length====
433


### Jaccard distance

In [45]:
from nltk.metrics.distance import jaccard_distance

top_variants = []

for unigram, _ in top_unigrams:
    if len(unigram) < 3: continue
    variants = { unigram: [] }
    for other_unigram, _ in unigrams:
        distance = jaccard_distance(set(unigram), set(other_unigram))
        if distance < 0.25 and unigram != other_unigram:
            variants[unigram].append(other_unigram)
    top_variants.append(variants)

print('====First 30 unigram variants (Jaccard distance)====')
print(top_variants[0:30])

====First 30 unigram variants (Jaccard distance)====
[{'без': ['безз', 'безе', 'ебез']}, {'б.о': ['б.о.', 'б.оо', 'бб.о']}, {'Корем': ['Коремен', 'мм.Корем', 'м.Корем', 'орем', 'Кожрем', 'Кореммек', 'о.Корем', 'Кореим', 'Кореммеко', 'Корема', 'Коер', 'Корме', 'Коарем', 'Коремно', 'UКорем', 'Коремп', 'Коре']}, {'Cor': []}, {'дишане': ['дадени', 'вдишване', 'дишанес', 'дишанел', 'дишани', 'дешане', 'издишане', 'дишаен', 'дишене', 'дишан', 'диишане', 'диашне', 'дишне', 'днешна', 'дишване', 'дишени', 'ишане', 'дишишане', 'дишанне', 'диша-не', 'деишане', 'дишанеи', 'дишавне', 'дишание', 'иьдишане', 'дишане.', 'дишае', 'дишанеRR', 'дишанев', 'дишанееедри', 'дишанеез', 'дзишане', 'идишване', 'дишарне', 'шишане', 'дишанене', 'дишаяне', 'издишнане']}, {'мек': []}, {'РСД': ['РДС', 'СРД', 'ДРС']}, {'тонове': ['цветно', 'Цветно', 'тоновете', 'отново', 'неговото', 'тонове.', 'тоново', 'сетовност', 'нове', 'тоонве', 'тонов', 'онове', 'тонаве', 'тононве', 'товнове', 'оцветено', 'новото', 'тоонове', '

### Edit (Levenshtein) distance

In [41]:
from nltk.metrics.distance import edit_distance

top_variants = []

for unigram, _ in top_unigrams:
    if len(unigram) < 3: continue
    variants = { unigram: [] }
    for other_unigram, _ in unigrams:
        distance = jaccard_distance(set(unigram), set(other_unigram))
        if distance > 0.35: continue
        distance = edit_distance(unigram, other_unigram)
        if distance < 3 and unigram != other_unigram:
            variants[unigram].append(other_unigram)
    top_variants.append(variants)

print('====First 30 unigram variants (Edit (Levenshtein) distance)====')
print(top_variants[0:30])

====First 30 unigram variants (Edit (Levenshtein) distance)====
[{'без': ['бе', 'ез', 'белз', 'зе', 'бз', 'б.ез', 'Сбез', 'обез', 'беиз', 'безп', 'сбез', 'Лбез', 'бмез', 'безь', 'безз', 'безе', 'Дбез', 'бедз', 'бжез', 'убез', 'ебез', 'буез', 'пбез']}, {'б.о': ['б.', 'о.', 'б.о.', 'бо', 'боб', 'б.ол', 'б.б', 'б.о-', 'об.г', 'б.оо', 'б.ло', 'бб.о']}, {'Корем': ['корем', 'Коремен', 'Коремни', 'м.Корем', 'орем', 'Кожрем', 'Коремна', 'Кореm', 'Kорем', 'Кохер', 'о.Корем', 'Корен', 'О.Корем', 'Кореим', 'Кореб', 'd.Корем', 'Карем', 'Коремът', 'Корема', 'Корев', 'Коер', 'д.Корем', 'горем', 'Корме', 'Коарем', 'СДКорем', 'Коремно', 'UКорем', 'Коремп', 'Корeм', 'С.Корем', 'Коре']}, {'Cor': ['ЛCor', 'Corр', 'or', 'Cor-']}, {'дишане': ['Дишане', 'дишането', 'вдишване', 'дищане', 'дишания', 'дишанес', 'дишанел', 'дишани', 'дишанe', 'дешане', 'диша', 'издишане', 'дишаен', 'дишене', 'дишан', 'диишане', 'дошане', 'сишане', 'шане', 'вишане', 'дипане', 'диашне', 'дишне', 'дихане', 'дишване', 'дишени', 'иш

### Masi distance

In [56]:
from nltk.metrics.distance import masi_distance

top_variants = []

for unigram, _ in top_unigrams:
    if len(unigram) < 3: continue
    variants = { unigram: [] }
    for other_unigram, _ in unigrams:
        # distance = jaccard_distance(set(unigram), set(other_unigram))
        # if distance > 0.35: continue
        distance = masi_distance(set(unigram), set(other_unigram))
        if distance < 0.35 and unigram != other_unigram:
            variants[unigram].append(other_unigram)
    top_variants.append(variants)

print('====First 30 unigram variants (MASI distance)====')
print(top_variants[0:30])

====First 30 unigram variants (MASI distance)====
[{'без': ['безз', 'безе', 'ебез']}, {'б.о': ['б.о.', 'б.оо', 'бб.о']}, {'Корем': ['Корме']}, {'Cor': []}, {'дишане': ['дишаен', 'диишане', 'диашне', 'дишишане', 'дишанне', 'деишане', 'дишанеи', 'дишание', 'дишанене']}, {'мек': []}, {'РСД': ['РДС', 'СРД', 'ДРС']}, {'тонове': ['тоновете', 'тоонве', 'тононве', 'товнове', 'тоонове', 'тонве', 'ттонове', 'тнове', 'тоновет', 'тоннове', 'тоновве', 'тонвое', 'тонтове', 'тооннове']}, {'отоци': ['оттоци', 'отци', 'тоци', 'отоиц', 'оитоци', 'отооци', 'ототци']}, {'дейност': ['дейносст', 'деййност', 'дейностс', 'дейнсот', 'дейносттон', 'денйност']}, {'ясни': ['сясни', 'иясни', 'ясин', 'яснии', 'синя', 'яясни']}, {'Пулмо': ['Пуллмо', 'Пулмоо']}, {'мин': ['миним', 'мини', 'мни']}, {'Крайници': ['Крайнци', 'Крайниц', 'Кранйици', 'Карйници', 'Краайници', 'Крайнници', 'Краийници', 'Крайниции']}, {'везикуларно': ['везикуларнор', 'везиукларно', 'везиккуларно', 'везикуларено', 'везикурларно', 'везикуларнно'