# **STRING MATCHING ALGORİTMALARI**

String Matching (dize eşleme), bir metin içinde bir desenin (pattern) bulunmasını sağlayan algoritmaların genel adıdır. Bu algoritmalar özellikle büyük veri içinde küçük bir deseni ararken, hızlı ve verimli sonuçlar elde etmeyi hedefler.

Bu konuda iki temel algoritma öne çıkar; Boyer-Moore ve KMP (Knuth-Morris-Pratt) algoritmaları. İkisi de klasik "naive" string matching algoritmasından çok daha hızlıdır ve özellikle büyük metinlerde arama yaparken verimliliği artırır.

# **1. Boyer-Moore Algoritması**
Boyer-Moore algoritması, desenin eşleşmediği yerlerde geri gitmeden ileriye atlayarak metin arama sürecini hızlandırır. Genellikle uygulamada en hızlı string matching algoritmalarından biridir çünkü eşleşmenin en uzun kısmını göz ardı eder ve hızlı bir şekilde aramayı sürdürür.

**Boyer-Moore’un Çalışma Prensibi**

Bu algoritma, deseni sağdan sola doğru karşılaştırma yapar ve bazı atlama kurallarını kullanarak eşleşmeyi hızlandırır.

İki temel atlama kuralı kullanılır:

**Bad Character Heuristic (Kötü Karakter Sezgisi):**

Boyer-Moore algoritmasında kullanılan bir stratejidir. Bu kural, aranacak dizedeki (desen) karakterlerin tekrar etmeyen biçimde bir tabloya yazılmasını içerir. Bu tablo sayesinde, metin üzerinde bir eşleşme sağlanamadığında, aranacak dizenin karakterleri üzerinde bir kaydırma yapılır.

Her karakterin altında, max(1, length - index - 1) formülü kullanılarak bir maksimum kaydırma değeri hesaplanır. Eğer dizide bir karakter birden fazla kez bulunuyorsa, bu karakter için en son görüldüğü konum baz alınarak kaydırma değeri güncellenir. Böylece, eşleşme sağlanamadığında ne kadar sağa kaydırılacağı belirlenir.


**Good Suffix Heuristic (İyi Sonek Sezgisi):**


Boyer-Moore algoritması gibi dize eşleştirme tekniklerinde önemli bir yer tutar. Bu terim, bir desenin metin içinde ne kadar sağa kaydırılacağını belirlemeye yarayan bir kuraldır. Eğer bir iyi eşleşen sonek varsa, bu sonek için aynı karakterle eşleşen en uzun kısma atlanır.

Boyer-Moore algoritması, aranan deseni metin üzerinde sağdan sola doğru kontrol etmeye başlar. Eşleşme sağlanmadığında, desenin sağ tarafındaki bir kısmın metinde bir karakterle eşleştiği durumlarda, desenin daha önceki bölümlerinin eşleşme ihtimaline bakmadan kaydırma miktarını belirleyebilir. Bu sayede, metin içinde aranan dizenin konumu daha doğru bir şekilde hesaplanır. Good-suffix, bu kaydırma işlemi sırasında kullanılarak algoritmanın etkinliğini artırır.

**Boyer-Moore Algoritmasının Zaman Karmaşıklığı**

Ortalama durum: $O(n/m)$ (n metin uzunluğu, m desen uzunluğu).

En kötü durum: $O(n⋅m)$.

**Python ile Boyer-Moore Algoritması**

Bu kodda, Boyer-Moore algoritması, kötü karakter sezgisine dayanarak metin içinde desenin hangi pozisyonlarda bulunduğunu bulur.

In [None]:
def bad_character_heuristic(pattern):
    """Kötü karakter dizisi oluşturma"""
    bad_char = [-1] * 256  # ASCII tabanlı

    # Pattern içindeki karakterlerin pozisyonlarını güncelle
    for i in range(len(pattern)):
        bad_char[ord(pattern[i])] = i
    return bad_char

def boyer_moore(text, pattern):
    """Boyer-Moore algoritması"""
    m = len(pattern)
    n = len(text)
    bad_char = bad_character_heuristic(pattern)

    s = 0  # Pattern'in metin üzerinde kaydırılma durumu
    while s <= n - m:
        j = m - 1  # Deseni sağdan sola karşılaştır

        # Deseni sağdan sola karşılaştırarak uyuşmayı kontrol et
        while j >= 0 and pattern[j] == text[s + j]:
            j -= 1

        # Eğer desen uyuşuyorsa
        if j < 0:
            print(f"Desen {s} konumunda bulundu.")
            s += (m - bad_char[ord(text[s + m])] if s + m < n else 1)
        else:
            s += max(1, j - bad_char[ord(text[s + j])])

# Örnek kullanım
text = "ABAAABCD"
pattern = "ABC"
boyer_moore(text, pattern)


Desen 4 konumunda bulundu.


# **2. KMP (Knuth-Morris-Pratt) Algoritması**

KMP algoritması, desenin tekrarlayan kısımlarını kullanarak aramayı hızlandırır. Desen içindeki bilgiye dayalı olarak, karakter eşleşmezse desenin en başına dönmek yerine desen içinde nereye geri gitmeniz gerektiğini bilir. Bu özellik de metin içindeki aramayı hızlandırır.

**KMP'nin Temel Prensibi:**

KMP algoritması, desen içinde bir karakter uyuşmadığında, daha önce yapılmış olan karşılaştırmaların sonuçlarını kullanarak nereye geri dönüleceğini belirler.

**Prefix-Suffix Tablosu (Partial Match Table veya LPS Array):** Desenin içinde en uzun tekrar eden sonekleri ve önekleri takip eder. Karakter eşleşmediğinde, desenin başına dönmeden uygun bir şekilde geri dönmeyi sağlar.

**KMP Algoritmasının Zaman Karmaşıklığı**

En kötü durumda zaman karmaşıklığı: $O(n+m)$.

**KMP Algoritmasının Adımları:**

LPS Dizisi (Longest Prefix Suffix): Her desen karakteri için, aynı zamanda bir önek ve sonek olan en uzun kısmı bulur.

Eşleşme: Eğer bir eşleşme olmazsa, LPS dizisine bakarak ne kadar geri dönüleceği belirlenir.

**Python ile KMP Algoritması**

In [None]:
def compute_lps(pattern):
    """LPS (Longest Prefix Suffix) dizisini oluşturma"""
    lps = [0] * len(pattern)
    length = 0  # Önceki en uzun prefix/suffix uzunluğu
    i = 1

    while i < len(pattern):
        if pattern[i] == pattern[length]:
            length += 1
            lps[i] = length
            i += 1
        else:
            if length != 0:
                length = lps[length - 1]
            else:
                lps[i] = 0
                i += 1
    return lps

def kmp(text, pattern):
    """KMP algoritması"""
    m = len(pattern)
    n = len(text)

    lps = compute_lps(pattern)  # Desen için LPS dizisini oluştur
    i = 0  # Metin için indeks
    j = 0  # Desen için indeks

    while i < n:
        if pattern[j] == text[i]:
            i += 1
            j += 1

        if j == m:
            print(f"Desen {i - j} konumunda bulundu.")
            j = lps[j - 1]

        elif i < n and pattern[j] != text[i]:
            if j != 0:
                j = lps[j - 1]
            else:
                i += 1

# Örnek kullanım
text = "ABABDABACDABABCABAB"
pattern = "ABABCABAB"
kmp(text, pattern)


Desen 10 konumunda bulundu.


## **KMP Algoritması Kod Açıklaması**

**compute_lps(pattern):** Bu fonksiyon, LPS dizisini (Longest Prefix Suffix) hesaplar. Desenin hangi kısmına geri dönülmesi gerektiğini gösterir.

**kmp(text, pattern):** Bu fonksiyon, KMP algoritmasını çalıştırır ve metin içinde desenin hangi konumlarda bulunduğunu bulur.

**Özet**

Boyer-Moore algoritması, özellikle uzun desenler ve büyük metinler için oldukça etkili bir dize eşleme algoritmasıdır. "Bad character heuristic" ve "good suffix heuristic" gibi iki ana kuralı kullanarak, eşleşmeyen karakterler tespit edildiğinde desenin büyük bir kısmını atlayarak aramayı hızlandırır. Ancak, kısa desenler için KMP algoritması daha uygun olabilir. KMP algoritması, desen içindeki tekrar eden alt dizileri kullanarak, karakter eşleşmezse desenin başından itibaren aramaya başlamak yerine, daha önce hesaplanan bir tabloya göre uygun bir konuma atlar. Bu sayede, özellikle tekrar eden desenler için daha hızlı sonuçlar verir.