In [2]:
from pprint import pprint
import pandas as pd
from collections import Counter
import regex

class MarkovChain:
    def __init__(self):
         self.memory = {}

    def _learn_key(self, *key, value):
        if key not in self.memory:
            self.memory[key] = []

        self.memory[key].append(value)

    
    def train2(self, text):
        
        tokens = text.split(" ")
        bigrams = [(tokens[i], tokens[i + 1]) for i in range(0, len(tokens) - 1)]
        bi_count = Counter(bigrams)
        for bigram in bigrams:
            self._learn_key(bigram[0], value = bigram[1])
        return bi_count.most_common(30)
    
    def train3(self, text):
        tokens = text.split(" ")
        trigrams = [(tokens[i], tokens[i + 1], tokens[i + 2]) for i in range(0, len(tokens) - 2)]
        tri_count = Counter(trigrams)
        # pprint(trigrams)
        for trigram in trigrams:
            self._learn_key(trigram[0], trigram[1], value = trigram[2])
        return tri_count.most_common(30)
    
    def train4(self, text):
        tokens = text.split(" ")
        quadgrams = [(tokens[i], tokens[i + 1], tokens[i + 2], tokens[i + 3]) for i in range(0, len(tokens) - 3)]
        quad_count = Counter(quadgrams)
        # pprint(quadgrams)
        for quadgram in quadgrams:
            self._learn_key(quadgram[0], quadgram[1], quadgram[2], value = quadgram[3])
        return quad_count.most_common(30)
    
    def train5(self, text):
        tokens = text.split(" ")
        fivegrams = [(tokens[i], tokens[i + 1], tokens[i + 2], tokens[i + 3], tokens[i + 4]) for i in range(0, len(tokens) - 4)]
        five_count = Counter(fivegrams)
        # pprint(fivegrams)
        for fivegram in fivegrams:
            self._learn_key(fivegram[0], fivegram[1], fivegram[2],fivegram[3], value = fivegram[4])
        return five_count.most_common(30)
    
    def next(self, *current_state):
        next_possible = self.memory.get(current_state)

        if not next_possible:
            next_possible = self.memory.keys()

        cnt = Counter(next_possible) 
        
        most_common = cnt.most_common(1)[0][0]
        elements = list(cnt)
        common_elements = cnt.most_common(10)
        
        return most_common, elements, common_elements

In [4]:
def text_cleaner(text):
    # lower case text
    newString = text.lower()
    # adding space in place of punctuation between two words e.g: "...redaktə edilib.Bu", so it can be split later.
    newString = regex.sub((r"(?<=\w)(\W)(?=\w)"), ' ', newString)
    # remove punctuations
    newString = regex.sub((r"[^\A\p{L}+\z ]"), '', newString) # matches unicode characters 
    # remove short words x_X
    long_words = []
    for i in newString.split():
        if len(i) >= 2:
            long_words.append(i)
    return (" ".join(long_words)).strip()
 
       

In [5]:
data = pd.read_csv("combined_corpus_2.5.csv")
text = data.to_string()

# preprocess the text
data_new = text_cleaner(text)

## Training Bigrams

In [6]:
m2 = MarkovChain()
m2.train2(data_new)

[(('cinsinə', 'aid'), 11150),
 (('aid', 'bitki'), 10370),
 (('bitki', 'növü'), 9984),
 (('fəsiləsinin', 'cinsinə'), 9944),
 (('növü', 'mənbə'), 7755),
 (('ölkələrinə', 'görə'), 7135),
 (('istinadlar', 'kateqoriya'), 6830),
 (('kateqoriya', 'ölkələrinə'), 5839),
 (('xarici', 'keçidlər'), 5719),
 (('mənbə', 'fəsiləsinin'), 5041),
 (('ci', 'ildə'), 3764),
 (('həmçinin', 'bax'), 3737),
 (('cı', 'il'), 3344),
 (('daxil', 'olan'), 2759),
 (('azərbaycan', 'ostanının'), 2610),
 (('əhalisi', 'cı'), 2593),
 (('kənd', 'əhalisi'), 2416),
 (('olan', 'kənd'), 2410),
 (('ərazisinə', 'daxil'), 2408),
 (('şəhristanı', 'ərazisinə'), 2395),
 (('kateqoriya', 'azərbaycan'), 2382),
 (('azərbaycan', 'respublikasının'), 2373),
 (('qərbi', 'azərbaycan'), 2352),
 (('məlumatına', 'görə'), 2336),
 (('görə', 'kənddə'), 2331),
 (('illərinə', 'görə'), 2314),
 (('il', 'məlumatına'), 2310),
 (('iranın', 'qərbi'), 2281),
 (('yaşayır', 'ailə'), 2269),
 (('nəfərkəndin', 'əhalisi'), 2261)]

## Training Trigrams

In [21]:
m3 = MarkovChain()
m3.train3(data_new)

[(('aid', 'bitki', 'növü'), 9963),
 (('fəsiləsinin', 'cinsinə', 'aid'), 9944),
 (('cinsinə', 'aid', 'bitki'), 9936),
 (('bitki', 'növü', 'mənbə'), 6907),
 (('kateqoriya', 'ölkələrinə', 'görə'), 5775),
 (('mənbə', 'fəsiləsinin', 'cinsinə'), 5041),
 (('növü', 'mənbə', 'fəsiləsinin'), 4897),
 (('ərazisinə', 'daxil', 'olan'), 2406),
 (('daxil', 'olan', 'kənd'), 2402),
 (('şəhristanı', 'ərazisinə', 'daxil'), 2395),
 (('olan', 'kənd', 'əhalisi'), 2344),
 (('qərbi', 'azərbaycan', 'ostanının'), 2326),
 (('əhalisi', 'cı', 'il'), 2313),
 (('il', 'məlumatına', 'görə'), 2309),
 (('kənd', 'əhalisi', 'cı'), 2306),
 (('cı', 'il', 'məlumatına'), 2297),
 (('məlumatına', 'görə', 'kənddə'), 2295),
 (('iranın', 'qərbi', 'azərbaycan'), 2281),
 (('nəfərkəndin', 'əhalisi', 'yaşayır'), 2256),
 (('əhalisi', 'yaşayır', 'ailə'), 2254),
 (('görə', 'kənddə', 'nəfərkəndin'), 2245),
 (('kənddə', 'nəfərkəndin', 'əhalisi'), 2245),
 (('yaşayır', 'ailə', 'istinadlar'), 2196),
 (('ailə', 'istinadlar', 'kateqoriya'), 2195

## Training Quadgrams

In [22]:
m4 = MarkovChain()
m4.train4(data_new)

[(('cinsinə', 'aid', 'bitki', 'növü'), 9935),
 (('fəsiləsinin', 'cinsinə', 'aid', 'bitki'), 9854),
 (('aid', 'bitki', 'növü', 'mənbə'), 6906),
 (('mənbə', 'fəsiləsinin', 'cinsinə', 'aid'), 5041),
 (('növü', 'mənbə', 'fəsiləsinin', 'cinsinə'), 4897),
 (('bitki', 'növü', 'mənbə', 'fəsiləsinin'), 4841),
 (('ərazisinə', 'daxil', 'olan', 'kənd'), 2396),
 (('şəhristanı', 'ərazisinə', 'daxil', 'olan'), 2395),
 (('daxil', 'olan', 'kənd', 'əhalisi'), 2344),
 (('olan', 'kənd', 'əhalisi', 'cı'), 2305),
 (('kənd', 'əhalisi', 'cı', 'il'), 2304),
 (('cı', 'il', 'məlumatına', 'görə'), 2297),
 (('əhalisi', 'cı', 'il', 'məlumatına'), 2296),
 (('il', 'məlumatına', 'görə', 'kənddə'), 2294),
 (('iranın', 'qərbi', 'azərbaycan', 'ostanının'), 2277),
 (('nəfərkəndin', 'əhalisi', 'yaşayır', 'ailə'), 2254),
 (('görə', 'kənddə', 'nəfərkəndin', 'əhalisi'), 2245),
 (('kənddə', 'nəfərkəndin', 'əhalisi', 'yaşayır'), 2240),
 (('məlumatına', 'görə', 'kənddə', 'nəfərkəndin'), 2227),
 (('əhalisi', 'yaşayır', 'ailə', 'i

## Training Fivegrams

In [23]:
m5 = MarkovChain()
m5.train5(data_new)

[(('fəsiləsinin', 'cinsinə', 'aid', 'bitki', 'növü'), 9853),
 (('cinsinə', 'aid', 'bitki', 'növü', 'mənbə'), 6906),
 (('mənbə', 'fəsiləsinin', 'cinsinə', 'aid', 'bitki'), 4986),
 (('növü', 'mənbə', 'fəsiləsinin', 'cinsinə', 'aid'), 4897),
 (('bitki', 'növü', 'mənbə', 'fəsiləsinin', 'cinsinə'), 4841),
 (('aid', 'bitki', 'növü', 'mənbə', 'fəsiləsinin'), 4840),
 (('şəhristanı', 'ərazisinə', 'daxil', 'olan', 'kənd'), 2393),
 (('ərazisinə', 'daxil', 'olan', 'kənd', 'əhalisi'), 2344),
 (('daxil', 'olan', 'kənd', 'əhalisi', 'cı'), 2305),
 (('olan', 'kənd', 'əhalisi', 'cı', 'il'), 2303),
 (('əhalisi', 'cı', 'il', 'məlumatına', 'görə'), 2296),
 (('cı', 'il', 'məlumatına', 'görə', 'kənddə'), 2294),
 (('kənd', 'əhalisi', 'cı', 'il', 'məlumatına'), 2287),
 (('görə', 'kənddə', 'nəfərkəndin', 'əhalisi', 'yaşayır'), 2240),
 (('kənddə', 'nəfərkəndin', 'əhalisi', 'yaşayır', 'ailə'), 2238),
 (('il', 'məlumatına', 'görə', 'kənddə', 'nəfərkəndin'), 2227),
 (('məlumatına', 'görə', 'kənddə', 'nəfərkəndin', 

## Implementing MLE

In [15]:
from nltk.util import everygrams
from nltk.lm import MLE
from nltk.lm.preprocessing import padded_everygram_pipeline
from nltk import word_tokenize, sent_tokenize

In [16]:
train, vocab = padded_everygram_pipeline(5, data_new)
sent_tokenize = lambda x: regex.split(r'(?<=[^A-Z].[.?]) +(?=[A-Z])', x)

tokenized_text = [list(map(str.lower, word_tokenize(sent))) 
                  for sent in sent_tokenize(data_new)]

In [17]:
train_data, padded_sents = padded_everygram_pipeline(5, tokenized_text)
mle = MLE(5)

In [18]:
mle.fit(train_data, padded_sents)

## Saving Models 

In [33]:
import joblib

In [34]:
joblib.dump(m2, 'bigrams.pickle')
joblib.dump(m3, 'trigrams.pickle')
joblib.dump(m4, 'quadgrams.pickle')
joblib.dump(m5, 'fivegrams.pickle')
joblib.dump(mle, 'mle.pickle')

['mle.pickle']

## Loading Models

In [27]:
m2 = joblib.load('bigrams.pickle')
m3 = joblib.load('trigrams.pickle')
m4 = joblib.load('quadgrams.pickle')
m5 = joblib.load('fivegrams.pickle')
mle = joblib.load('mle.pickle')

## Testing 

### Testing Bigrams

In [31]:
inp2_1 = input()
inp2 = inp2_1.split(" ")
next_word_bi = m2.next(inp2[len(inp2)-1])
next_word_bi_prob = mle.score(next_word_bi[0], inp2_1.split())
print("Next word:", next_word_bi[0], "\nProbability:", next_word_bi_prob)
print("\nList of unique words coming after",inp2[len(inp2)-1], ":\n", next_word_bi[1])
print("\nCommon words:\n", next_word_bi[2])

əhali
Next word: yaşayır 
Probability: 0.1881720430107527

List of unique words coming after əhali :
 ['yaşayır', 'iqtisadiyyatı', 'tərəfindən', 'rusiya', 'ilə', 'illərə', 'məlumatı', 'arasında', 'siyahıyaalınmasına', 'siyahıyaalmasının', 'əhalisi', 'sayı', 'yaşamaqdadır', 'kürdlərdən', 'əhalinin', 'rayonları', 'siyahıyaalmasına', 'kəndi', 'mövcuddur', 'cənubi', 'əsasən', 'tanınmışları', 'yaşamır', 'məskunlaşmışdır', 'dil', 'sayımına', 'qurtuluşu', 'muxtar', 'əhali', 'bölgə', 'şəkilmilli', 'dublin', 'sahə', 'sayıiləhali', 'sayına', 'ci', 'saymasına', 'məlumatları', 'sıxlığı', 'mahalın', 'siyahıya', 'sıxlığına', 'vilayət', 'etnik', 'sayının', 'statusaqtau', 'qubernatorluq', 'səh', 'siyahıalmasına', 'əhvaz', 'kotonu', 'xülasə', 'illər', 'kənd', 'geniş', 'kateqoriya', 'iqtisadiyyat', 'il', 'qardaşlaşmış', 'istinadlar', 'cı', 'islam', 'coğrafiyası', 'tarixi', 'milli', 'yaşamışdır', 'dinamika', 'bunu', 'mərkəzləri', 'bu', 'siyahıyaalmaya', 'საქართველოს', 'nəfərə', 'ərazi', 'km', 'cədvəlini'

### Testing Trigrams

In [29]:
inp3_1 = input()
inp3 = inp3_1.split(" ")
next_word_tri = m3.next(inp3[len(inp3)-2], inp3[len(inp3)-1])
next_word_tri_prob = mle.score(next_word_tri[0], inp3_1.split())
print("Next word:", next_word_tri[0], "\nProbability:", next_word_tri_prob)
print("\nList of unique words coming after",inp3[len(inp3)-2], inp3[len(inp2)-1], ":\n", next_word_tri[1])
print("\nCommon words: \n", next_word_tri[2])

əhali yaşayır
Next word: azərbaycan 
Probability: 0.8714285714285714

List of unique words coming after əhali əhali :
 ['iran', 'xəbərin', 'qax', 'azərbaycan', 'kateqoriya', 'əhalisi', 'əsasən', 'mənbə', 'территориальный']

Common words: 
 [('azərbaycan', 61), ('территориальный', 2), ('iran', 1), ('xəbərin', 1), ('qax', 1), ('kateqoriya', 1), ('əhalisi', 1), ('əsasən', 1), ('mənbə', 1)]


### Testing Quadgrams

In [30]:
inp4_1 = input()
inp4 = inp4_1.split(" ")
next_word_quad = m4.next(inp4[len(inp4)-3], inp4[len(inp4)-2], inp4[len(inp4)-1])
next_word_quad_prob = mle.score(next_word_quad[0], inp4_1.split())
print("Next word: ", next_word_quad[0], "\nProbability: ", next_word_quad_prob)
print("\nList of unique words coming after",inp4[len(inp4)-3], inp4[len(inp4)-2], inp4[len(inp4)-1], ":\n", next_word_quad[1])
print("\nCommon words:\n", next_word_quad[2])

əhali yaşayır azərbaycan
Next word:  respublikası 
Probability:  0.9836065573770492

List of unique words coming after əhali yaşayır azərbaycan :
 ['respublikası', 'respublikasının']

Common words:
 [('respublikası', 60), ('respublikasının', 1)]


### Testing Fivegrams

In [28]:
inp5_1 = input()
inp5 = inp5_1.split(" ")
next_word_five =  m5.next(inp5[len(inp5)-4], inp5[len(inp5)-3], inp5[len(inp5)-2], inp5[len(inp5)-1])
next_word_five_prob = mle.score(next_word_five[0], inp5_1.split())
print("Next word:", next_word_five[0], "\nProbability:", next_word_five_prob)
print("\nList of unique words coming after", inp5[len(inp5)-4], inp5[len(inp5)-3], inp5[len(inp5)-2], inp5[len(inp5)-1], ":\n", next_word_five[1])
print("\nCommon words:\n", next_word_five[2])

əhali yaşayır azərbaycan respublikası
Next word: əhalisinin 
Probability: 1.0

List of unique words coming after əhali yaşayır azərbaycan respublikası :
 ['əhalisinin']

Common words:
 [('əhalisinin', 60)]
