In [9]:
import re
from collections import defaultdict
from math import log

class NaiveBayesClassifier:
    def __init__(self):
        self.class_probs = defaultdict(float)
        self.word_probs = defaultdict(lambda: defaultdict(float))
        self.vocabulary_size = 0  # Kelime dağarcığının boyutunu takip etmek için

    def preprocess_text(self, text):
        # Metni küçük harfe çevirme ve gereksiz karakterleri temizleme
        text = text.lower()
        text = re.sub(r'[^a-z\s]', '', text)
        return text.split()

    def train(self, documents, labels):
        total_docs = len(documents)
        spam_docs = sum(1 for label in labels if label == 'spam')
        ham_docs = total_docs - spam_docs

        # Sınıf olasılıklarını hesaplama
        self.class_probs['spam'] = (spam_docs + 1) / (total_docs + 2)  # Laplace düzeltmesi
        self.class_probs['ham'] = (ham_docs + 1) / (total_docs + 2)  # Laplace düzeltmesi

        # Kelime olasılıklarını hesaplama
        word_counts = defaultdict(lambda: {'spam': 0, 'ham': 0})

        for doc, label in zip(documents, labels):
            words = self.preprocess_text(doc)
            for word in set(words):
                word_counts[word][label] += 1

        self.vocabulary_size = len(word_counts)  # Kelime dağarcığı boyutunu güncelle

        for word, counts in word_counts.items():
            self.word_probs[word]['spam'] = (counts['spam'] + 1) / (spam_docs + self.vocabulary_size)  # Laplace düzeltmesi
            self.word_probs[word]['ham'] = (counts['ham'] + 1) / (ham_docs + self.vocabulary_size)  # Laplace düzeltmesi

    def predict(self, document):
        words = self.preprocess_text(document)

        spam_prob = log(self.class_probs['spam'])
        ham_prob = log(self.class_probs['ham'])

        for word in words:
            spam_prob += log(self.word_probs[word]['spam'] + 1e-10)
            ham_prob += log(self.word_probs[word]['ham'] + 1e-10)

        return 'spam' if spam_prob > ham_prob else 'ham'

# Örnek eğitim verileri
train_documents = [
    "Sayın",
    "Sayın",
    "Sayın",
    "Sayın",
    "Sayın",
    "Sayın",
    "Sayın",
    "Sayın",
    "Arkadaş",
    "Arkadaş",
    "Arkadaş",
    "Arkadaş",
    "Arkadaş",
    "Yemek",
    "Yemek",
    "Yemek",
    "Para",
    "Sayın",
    "Sayın",
    "Arkadaş",
    "Para",
    "Para",
    "Para",
    "Para"
]
train_labels = ['ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'ham',
                'spam',
                'spam',
                'spam',
                'spam',
                'spam',
                'spam',
                'spam']

# Naive Bayes sınıflandırıcıyı eğitme
classifier = NaiveBayesClassifier()
classifier.train(train_documents, train_labels)

# Test verisi
test_document = "yemek"

# Tahmin yapma
prediction = classifier.predict(test_document)

# Sonucu görüntüleme
print(f"Test dokümanı: '{test_document}'")
print(f"Tahmin: {prediction}")


Test dokümanı: 'yemek'
Tahmin: ham
