In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt


In [None]:
# https://www.kaggle.com/datasets/emreokcular/turkish-song-lyrics
df = pd.read_csv("turkish_song_lyrics.csv")
df.head()


In [None]:
df["singer"].unique()


In [None]:
df.info()


In [None]:
df.describe()


In [None]:
df.isna().sum()


In [None]:
df.groupby(["singer"])["song"].count().sort_values(ascending=False)


In [None]:
df.singer.value_counts().plot.bar(title="Sanatçıya Göre Şarkı Sayıları", figsize=(15, 8))
plt.xticks(rotation=90)
plt.show()


In [None]:
sarki_sozleri = df.lyrics.to_numpy()
sarki_sozleri[:2]


In [None]:
satirlar = sarki_sozleri[0].lower().split("\n")
satirlar[10:20]


In [None]:
pi = {}  # sadece satir basi kelimelerin olasilik dict'i
A1 = {}  # onceki kelimeden sonra gelebilecek diğer kelimelerin olasilik dict'i


In [None]:
import string

satir_sonu = "<END>"

for sarki_sozu in sarki_sozleri:  # sarki_sozu : tek bir sarkinin tum satirlari
    satirlar = sarki_sozu.lower().split("\n")  # satirlar : bir sarkinin satirlari

    for satir in satirlar:  # bir sarkinin 1 satiri
        # satirdaki kelimeler (kucuk harf, noktalamasiz)
        tokens = satir.translate(str.maketrans(
            "", "", string.punctuation)).split()
        token_sayisi = len(tokens)  # satirdaki kelime sayisi

        for i in range(token_sayisi):
            token = tokens[i]  # token : satirdaki kelime
            if i == 0:  # ilk kelime icin;
                # pi dict'inde bu kelime onceden gectiyse frekansini 1 arttir
                # eger gecmediyse frekansini 1 yap
                pi[token] = pi.get(token, 0) + 1
            else:
                onceki_token = tokens[i-1]  # bir onceki kelimeyi al
                if onceki_token not in A1:
                    # bir onceki kelime A1'de yoksa ona ait bir list yarat
                    A1[onceki_token] = []

                # A1'de oncekli kelimeye ait listeye simdiki kelimeyi ekle
                A1[onceki_token].append(token)

                if i == (token_sayisi - 1):  # satir sonuna geldiysek
                    # satirin son kelimesi A1'de yoksa A1'de son kelime icin bir list yarat
                    if token not in A1:
                        A1[token] = []
                    # satirin son kelimesinin listesine satir sonu sembolu ekle
                    A1[token].append(satir_sonu)


In [None]:
pi_sorted = sorted(pi, key=pi.get, reverse=True)

for token in pi_sorted[:10]:
    print(token, ": ", pi[token])


In [None]:
i = 0
for k in A1:
    if i == 5:
        break
    print(k, ": ", A1[k][:10], "\n")
    i += 1


In [None]:
pi_total = sum(pi.values())
pi_total


In [None]:
for token in pi:
    # pi dict'indeki frekanslari normalize ediyoruz
    pi[token] = pi[token] / pi_total


In [None]:
i = 0
for token in pi:
    if i == 5:
        break
    print(token, pi[token])
    i += 1


In [None]:
pi_total = sum(pi.values())
pi_total


In [None]:
# A1'deki key, value ikililerinin formati şu an:

# gelirdi :  ['<END>', '<END>', 'ayrılıksa', 'elimizden', '<END>', '<END>', 'sevişirdik', '<END>', 'her', '<END>', ...]

# Bunlari dönüştüreceğimiz format:

# gelirdi :  {'<END>': 0.3, 'ayrılıksa': 0.01, 'elimizden': 0.13, ...}


In [None]:
for token in A1:  # token : gelirdi
    # tokens_list : ['<END>', '<END>', 'ayrılıksa', ...]
    tokens_list = A1[token]
    num_tokens = len(tokens_list)

    tokens_dict = {}
    for t in tokens_list:  # t : '<END>'
        # tokens_dict : { '<END>':7, ... }
        tokens_dict[t] = tokens_dict.get(t, 0) + 1

    for t in tokens_dict:  # tokens_dict'teki butun sayilari normalize et
        tokens_dict[t] = tokens_dict[t] / num_tokens

    A1[token] = tokens_dict  # A1'deki value'ları artık list değil; dictionary


In [None]:
print(A1["giderdi"], "\n")
print(sum(A1["giderdi"].values()))


In [None]:
def kelime_sec(d):
    """
    d: {'<END>': 0.7, 'her': 0.1, 'test': 0.2} gibi bir dict'ten 
    dict'teki olasiliklara göre rastgele bir kelime seçecek.
    '<END>'in seçilme olasiligi 0.7, 'test'in secilme olasiligi 0.2,
    'her'in secilme olasiligi 0.1 olacak.
    """
    rastgele_sayi = np.random.random()  # rastgele_sayi: [0, 1)
    esik = 0
    for token, prob in d.items():
        esik += prob
        if esik >= rastgele_sayi:
            return token

    raise Exception("kelime_sec fonksiyonu yanlis calisiyor!")


In [None]:
for _ in range(5):
    token = kelime_sec(pi)
    print(token, pi[token])


In [None]:
for _ in range(5):
    token = kelime_sec(A1["gelirdi"])
    print(token, A1["gelirdi"][token])


In [None]:
def soz_yaz(satir_sayisi):
    satirlar = []
    for i in range(satir_sayisi):
        satir = []
        ilk_kelime = kelime_sec(pi)
        satir.append(ilk_kelime)

        onceki_kelime = ilk_kelime
        while True:
            yeni_kelime = kelime_sec(A1[onceki_kelime])
            if yeni_kelime == satir_sonu:
                satirlar.append(" ".join(satir))
                break
            satir.append(yeni_kelime)
            onceki_kelime = yeni_kelime

    return "\n".join(satirlar)


In [None]:
print(soz_yaz(4))


2. Derece Markov Modelleri ile nasıl sonuçlar elde edebiliriz?

pi, A1, ve A2 matrislerini oluşturalım

In [None]:
def add2dict(k, v, di):
    """
    From: https://stackoverflow.com/questions/986006/how-do-i-pass-a-variable-by-reference
    Arguments are passed by assignment. The rationale behind this is twofold:

    1. the parameter passed in is actually a reference to an object (but the reference is passed by value)
    2. some data types are mutable, but others aren't
    So:

    * If you pass a mutable object into a method, the method gets a reference to that same object and you can mutate it to your heart's delight, but if you rebind the reference in the method, the outer scope will know nothing about it, and after you're done, the outer reference will still point at the original object.

    * If you pass an immutable object to a method, you still can't rebind the outer reference, and you can't even mutate the object.

    Ex: 
    my_dict = {}
    add2dict("x", 5, my_dict)
    my_dict == {"x": [5]}

    add2dict("x", 7, my_dict)
    my_dict == {"x": [5, 7]}

    my_dict = {}
    add2dict(("x", "y"), 2, my_dict) => tuple'lar hashlenebilen yapilardir. dict'lere key olabilirler. 
    my_dict == {("x", "y"): [5]}
    """
    if k not in di:
        di[k] = []
    di[k].append(v)

In [None]:
satir_sonu = "<END>"

A_0, A_1, A_2 = {}, {}, {} # A_0: pi, A_1: 1. derece Mark. M, A_2: 2. derece Mark. M

for sarki_sozu in sarki_sozleri: # sarki_sozu : tek bir sarkinin tum satirlari
    satirlar = sarki_sozu.lower().split("\n") # satirlar : bir sarkinin satirlari
    
    for satir in satirlar: # bir sarkinin 1 satiri
        # satirdaki kelimeler (kucuk harf, noktalamasiz)
        tokens = satir.translate(str.maketrans("", "", string.punctuation)).split()
        token_sayisi = len(tokens) # satirdaki kelime sayisi
        
        for i in range(token_sayisi):
            t = tokens[i] # token : satirdaki kelime
            if i == 0: # ilk kelime icin;
                # A_0 (pi) dict'inde bu kelime onceden gectiyse frekansini 1 arttir
                # eger gecmediyse frekansini 1 yap
                A_0[t] = A_0.get(t, 0) + 1

            if i == 1: # 2. kelimedeyiz 
                add2dict(tokens[i - 1], t, A_1)

            if i > 1: # 3. ve sonrasındaki bir kelimedeyiz
                add2dict((tokens[i - 2], tokens[i - 1]), t, A_2)
            
            if i == (token_sayisi - 1): # satirin son kelimesine geldik
                if token_sayisi == 1: # satirda sadece 1 kelime varsa
                    add2dict(t, satir_sonu, A_1)
                else: # satirda 1'den fazla kelime var
                    add2dict((tokens[i - 1], t), satir_sonu, A_2)
                

In [None]:
i = 0
for t in A_0:
    if i == 4:
        break
    
    i += 1
    print(t, A_0[t])

In [None]:
i = 0
for t in A_1:
    if i == 5:
        break
    
    i += 1
    print(t, A_1[t][:10])

In [None]:
i = 0
for t in A_2:
    if i == 5:
        break
    
    i += 1
    print(t, A_2[t][:10])

In [None]:
A_0_total = sum(A_0.values())
for token in A_0:
    # A_0 dict'indeki frekanslari normalize ediyoruz
    A_0[token] = A_0[token] / A_0_total

In [None]:
i = 0
for t in A_0:
    if i == 4:
        break
    
    i += 1
    print(t, A_0[t])

In [None]:
for token in A_1:  # token : gelirdi
    # tokens_list : ['<END>', '<END>', 'ayrılıksa', ...]
    tokens_list = A_1[token]
    num_tokens = len(tokens_list)

    tokens_dict = {}
    for t in tokens_list:  # t : '<END>'
        # tokens_dict : { '<END>':7, ... }
        tokens_dict[t] = tokens_dict.get(t, 0) + 1

    for t in tokens_dict:  # tokens_dict'teki butun sayilari normalize et
        tokens_dict[t] = tokens_dict[t] / num_tokens

    A_1[token] = tokens_dict  # A1'deki value'ları artık list değil; dictionary

In [None]:
i = 0
for t in A_1["bir"]:
    if i == 5:
        break
    
    i += 1
    print(t, A_1["bir"][t])

In [None]:
for ikili in A_2:  # ikili : (tren, gelirdi)
    # tokens_list : ['<END>', '<END>', 'hızlıca', ...]
    tokens_list = A_2[ikili]
    num_tokens = len(tokens_list)

    tokens_dict = {}
    for t in tokens_list:  # t : '<END>'
        # tokens_dict : { '<END>':7, ... }
        tokens_dict[t] = tokens_dict.get(t, 0) + 1

    for t in tokens_dict:  # tokens_dict'teki butun sayilari normalize et
        tokens_dict[t] = tokens_dict[t] / num_tokens

    A_2[ikili] = tokens_dict  # A2'deki value'ları artık list değil; dictionary

In [None]:
i = 0
for t in A_2[("bir", "mavi")]:
    if i == 5:
        break
    
    i += 1
    print(t, A_2[("bir", "mavi")][t])

In [None]:
def soz_yaz_2(satir_sayisi):
    satirlar = []
    for i in range(satir_sayisi):
        satir = []
        t0 = kelime_sec(A_0)
        satir.append(t0)

        t1 = kelime_sec(A_1[t0])
        if t1 == satir_sonu:
            satirlar.append(" ".join(satir))
            continue

        satir.append(t1)
        
        while True:
            t_1 = satir[-1]
            t_2 = satir[-2]
            t = kelime_sec(A_2[(t_2, t_1)])
            if t == satir_sonu:
                satirlar.append(" ".join(satir))
                break
            satir.append(t)
            
    return "\n".join(satirlar)


In [None]:
print(soz_yaz_2(8))