# Lexical Similarity
Levenstein Distance

In [1]:
import math
import random
import numpy as np
import pandas as pd
import nltk
import csv
import codecs
nltk.data.path.append('.')
from nltk.tokenize import word_tokenize
stop_word_list = nltk.corpus.stopwords.words('turkish')
import re
import editdistance

<a name='1'></a>
## Part 1: Load and Preprocess Data

<a name='1.1'></a>
### Part 1.1: Load the data

https://github.com/selimfirat/bilkent-turkish-writings-dataset

In [2]:
data = pd.read_csv('corpus/texts.csv', encoding='utf-8')
veri = data["text"].values.tolist()

In [3]:
def norm_doc(single_doc):
    # TR: Dokümandan belirlenen özel karakterleri ve sayıları at
    # EN: Remove special characters and numbers
    single_doc = re.sub("\d+", "", single_doc)
    single_doc = re.sub("[0-9]", "", single_doc)
    single_doc = re.sub("[?!]", ".", single_doc)
    single_doc = re.sub("[\r\n-]", "", single_doc)
    pattern = r"[{}]".format(".,;") 
    single_doc = re.sub(pattern, "", single_doc) 
    # TR: Dokümanı küçük harflere çevir
    # EN: Convert document to lowercase
    single_doc = single_doc.lower()
    single_doc = single_doc.strip()
    # TR: Dokümanı token'larına ayır
    # EN: Tokenize documents
    tokens = word_tokenize(single_doc)
    # TR: Stop-word listesindeki kelimeler hariç al
    # EN: Filter out the stop-words 
    filtered_tokens = [token for token in tokens if token not in stop_word_list]
    # TR: Dokümanı tekrar oluştur
    # EN: Reconstruct the document
   # single_doc = ' '.join(filtered_tokens)
    return single_doc

In [4]:
veri = ''
data['text']=data['text'].apply(str)
for i in range(len(data['text'])):
    if data['text'][i] is not None:
        data['text'][i] = norm_doc(data['text'][i])
        veri = veri + data['text'][i]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['text'][i] = norm_doc(data['text'][i])


In [5]:
def tokenized_data(data):    
    tokenized_data = nltk.word_tokenize(data.lower())
    return tokenized_data

In [6]:
tokenized_veri = tokenized_data(veri)

In [7]:
def count_words(tokenized_data , count_threshold = 5):

    word_counts = {}
    word_threshold_high = []
    word_threshold_low = []

    for i in range(len(tokenized_data)): 

        if tokenized_data[i] not in word_counts.keys(): 
            word_counts[tokenized_data[i]] = 1
        else:
            word_counts[tokenized_data[i]] += 1
            
            
    for word, cnt in word_counts.items():
        
        if cnt > count_threshold:
            word_threshold_high.append(word)
            
        if cnt < count_threshold:
            word_threshold_low.append(word)
  
    return word_threshold_high , word_threshold_low

In [8]:
word_high, word_low = count_words(tokenized_veri , 5)
word_l = word_low[:50]


In [9]:
def estimate_similarity(word, word_high):
    
    high_prob = 100
    high_prob_word = ''

    for i in range(len(word_high)):
        dist = editdistance.eval(word, word_high[i])
        if high_prob > dist:
            high_prob = dist

            high_prob_word = word_high[i]
            
    return high_prob_word

In [10]:
similar = []
for i in range(len(word_l)):
    high_prob_word =  estimate_similarity(word_l[i] , word_high)
    similar.append([word_l[i],high_prob_word])
    print('%s kelimesinin yerine %s kullanılabilir' % (word_l[i], high_prob_word))

erdurcan kelimesinin yerine erduran kullanılabilir
i̇kon kelimesinin yerine i̇ron kullanılabilir
monreo kelimesinin yerine monroe kullanılabilir
hırçınlğıyla kelimesinin yerine kırıklığıyla kullanılabilir
hırçınlığının kelimesinin yerine kırıklığının kullanılabilir
ızdırapla kelimesinin yerine ızdırap kullanılabilir
notlarda kelimesinin yerine notlar kullanılabilir
farkederek kelimesinin yerine farkeder kullanılabilir
tanıyacağımı kelimesinin yerine tanışacağım kullanılabilir
dökümanla kelimesinin yerine zamanla kullanılabilir
besleyemezdim kelimesinin yerine beklenemezdi kullanılabilir
emsalsizliği kelimesinin yerine emsalsiz kullanılabilir
hırpalanmıştı kelimesinin yerine sıralanmış kullanılabilir
haketmemişti kelimesinin yerine etmemişti kullanılabilir
haketmediklerini kelimesinin yerine etmediklerini kullanılabilir
seçmedi kelimesinin yerine geçmedi kullanılabilir
benimsedi kelimesinin yerine benimsedim kullanılabilir
kandırmamıştı kelimesinin yerine kalmamıştı kullanılabilir
anlat

In [11]:
similar

[['erdurcan', 'erduran'],
 ['i̇kon', 'i̇ron'],
 ['monreo', 'monroe'],
 ['hırçınlğıyla', 'kırıklığıyla'],
 ['hırçınlığının', 'kırıklığının'],
 ['ızdırapla', 'ızdırap'],
 ['notlarda', 'notlar'],
 ['farkederek', 'farkeder'],
 ['tanıyacağımı', 'tanışacağım'],
 ['dökümanla', 'zamanla'],
 ['besleyemezdim', 'beklenemezdi'],
 ['emsalsizliği', 'emsalsiz'],
 ['hırpalanmıştı', 'sıralanmış'],
 ['haketmemişti', 'etmemişti'],
 ['haketmediklerini', 'etmediklerini'],
 ['seçmedi', 'geçmedi'],
 ['benimsedi', 'benimsedim'],
 ['kandırmamıştı', 'kalmamıştı'],
 ['anlatmamıştı', 'anlamamıştım'],
 ['arzulanmayı', 'arzulama'],
 ['çizmişti', 'çizmiştir'],
 ['savunmadan', 'savunmaya'],
 ['başarabilmişti', 'başarabilmiştir'],
 ['istediyse', 'isteğiyle'],
 ['olabilmişti', 'olabilmiş'],
 ['sevmeyeceklerse', 'sevmeyenler'],
 ['kalbinizden', 'kalbimizden'],
 ['sahiplendiğiniz', 'sahiplendiğimiz'],
 ['sevgilerden', 'sevgilerde'],
 ['vazgeçirmeyi', 'vazgeçirmeye'],
 ['hırpalanmak', 'yargılanmak'],
 ['hırpalamak', 'parç