In [1]:
import pandas as pd
import levenshtein as lv
import re

In [2]:
df = pd.read_csv('interpress_data.csv')
sentence_list = df['content'].tolist()

print('Number of sentences:', len(sentence_list))
print('Sample sentence:', sentence_list[0])

Number of sentences: 170333
Sample sentence: Bu barədə ordunun mətbuat xidməti məlumat yayıb.“Bir müddət əvvəl Livandan İsrailin şimalına doğru 50-yə yaxın raket buraxılışı qeydə alınıb, onlardan bir neçəsinin qarşısı alınıb, qalanları isə yaşayış olmayan ərazilərə düşüb. Təyyarələr buraxılış qurğularına hücum edib, onlardan bəzilərinin buraxılışı müəyyən edilib”, – İsrail Müdafiə Qüvvələrinin mətbuat xidmətinin bəyanatında deyilir.


In [3]:
def split_into_sentences(text):
    sentence_endings = re.compile(r'(?<=[.!?]) +')
    sentences = sentence_endings.split(text)
    return sentences

def process_sentence(sentence):
    pattern = r'[^\w\s]'
    sentence = re.sub(pattern, '', sentence)
    words = sentence.lower().split()
    return words

corpus = []
for text in sentence_list:
    sentences = split_into_sentences(text.replace('.', '. '))
    for sentence in sentences:
        words = process_sentence(sentence)
        corpus.append(words)

print('Number of sentences in corpus after cleaning:', len(corpus))
print('Sample sentence:', corpus[:3])

Number of sentences in corpus after cleaning: 1860733
Sample sentence: [['bu', 'barədə', 'ordunun', 'mətbuat', 'xidməti', 'məlumat', 'yayıb'], ['bir', 'müddət', 'əvvəl', 'livandan', 'i̇srailin', 'şimalına', 'doğru', '50yə', 'yaxın', 'raket', 'buraxılışı', 'qeydə', 'alınıb', 'onlardan', 'bir', 'neçəsinin', 'qarşısı', 'alınıb', 'qalanları', 'isə', 'yaşayış', 'olmayan', 'ərazilərə', 'düşüb'], ['təyyarələr', 'buraxılış', 'qurğularına', 'hücum', 'edib', 'onlardan', 'bəzilərinin', 'buraxılışı', 'müəyyən', 'edilib', 'i̇srail', 'müdafiə', 'qüvvələrinin', 'mətbuat', 'xidmətinin', 'bəyanatında', 'deyilir']]


In [4]:
trainedData = lv.Weight()
trainedData.train(corpus[:1000000])

100000 sentences processed
200000 sentences processed
300000 sentences processed
400000 sentences processed
500000 sentences processed
600000 sentences processed
700000 sentences processed
800000 sentences processed
900000 sentences processed
1000000 sentences processed


In [5]:
print(trainedData.correct_input('men'))
print(trainedData.correct_input('dwnya'))
print(trainedData.correct_input('qardaw'))

['mən', 'min', 'mln']
['dünya', 'dunya', 'danya']
['qardaş', 'qardan', 'qarda']


In [8]:
print(trainedData.correct_input("dwnya qtisadiyyatı bhran yasamaqdadir"))
print(trainedData.correct_input("azrbaycan siyasiti dunyada taninır"))
print(trainedData.correct_input("futnol üzrə avropa cempionati baslayir"))
print(trainedData.correct_input("meninci ilden beri bu bele davam edir"))

['dünya', 'iqtisadiyyatı', 'böhran', 'yaşamaqdadır']
['azərbaycan', 'siyasəti', 'dünyada', 'tanınır']
['futbol', 'üzrə', 'avropa', 'çempionatı', 'baslayır']
['mininci', 'ildən', 'biri', 'bu', 'belə', 'davam', 'edir']


In [13]:
print(trainedData.correct_input("bazarda xarici vlyuta qiymetinde bahalasma müwahidə ölunur"))

['bazarda', 'xarici', 'valyuta', 'qiymətində', 'bahalaşma', 'müşahidə', 'olunur']


In [24]:
print(trainedData.correct_input("kar yagması gozlenilir"))
print(trainedData.correct_input("qışda nar yağib"))

['qar', 'yağması', 'gözlənilir']
['qışda', 'qar', 'yağıb']
