In [1]:
# NumPy ve Pandas kütüphanelerini yükleme
import numpy as np
import pandas as pd

# Eğitim veri setini yükleme
education_data = pd.read_csv('/Downloads/Education_Data_NB/training.csv')

# Sütun isimlerini yeniden adlandırma
education_data.columns = ['ID', 'Score', 'Passed', 'Gender', 'Class']

# Veri setinin ilk beş satırını görüntüleme
print(education_data.head())

   ID  Score  Passed  Gender   Class
0   1     70    True       1  CLASS1
1   3     90    True       1  CLASS2
2   1     85   False       0  CLASS2
3   1     95   False       0  CLASS2
4   2     70   False       1  CLASS1


In [2]:
# Sütun isimlerini alarak özellikleri belirleme
columns_names = list(education_data.columns)
predictors = columns_names[0:4] # Özellikler: ID, Score, Passed, Gender
target=columns_names[1] # Hedef değişken: Score

In [3]:
# Veri setini eğitim ve test alt kümelerine bölmek için train_test_split fonksiyonunu kullanma
from sklearn.model_selection import train_test_split
train,test = train_test_split(education_data, test_size=0.3, random_state=0)

In [4]:
############# Naive Bayes ############

# Guassian Naive Bayes

In [5]:
# Çok sınıflı sınıflandırma problemleri için macro ortalama stratejisi tercih edilir. 
# Bu strateji, her bir sınıfın performansını eşit olarak değerlendirir ve tüm sınıfların geri çağırma değerlerini bir araya getirerek bir ortalama oluşturur. 
# Bu nedenle, dengesiz sınıflar veya nadir sınıfların performansını göz ardı etmez.
# Önemli Not: zero_division=1 parametresiyle, sıfır bölme durumunda 1 değeri döndürülmesini sağlıyoruz. 
# Bu, tanımsız (undefined) değerlerin yerine geçecek bir yaklaşımdır. 
# Ancak, bu yaklaşımın uygulanmasının doğru olup olmadığını veri setinizin özelliklerine göre değerlendirmeniz önemlidir. 
# (Bazı sınıflar için tanımsız değerlerin oluştuğunu belirtiyor. 
# Bunlar, tahmin edilen ya da gerçek sınıfların bazılarının örneklerinin olmamasından kaynaklanıyor olabilir.)

In [6]:
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

# Gaussian Naive Bayes modelini oluşturma
Gmodel = GaussianNB()
Gmodel.fit(train[predictors], train[target])

# Eğitim ve test veri setleri üzerinde tahmin yapma
train_Gpred = Gmodel.predict(train[predictors])
test_Gpred = Gmodel.predict(test[predictors])

# Doğruluk (Accuracy) hesaplaması 
# (Bu fonksiyon, tahmin edilen değerler ile gerçek değerler arasındaki uyumu ölçmek için kullanılır.)
train_acc_gau = accuracy_score(train[target], train_Gpred)
test_acc_gau = accuracy_score(test[target], test_Gpred)
print('Train Accuracy (Gaussian Naive Bayes):', train_acc_gau)
print('Test Accuracy (Gaussian Naive Bayes):', test_acc_gau)

# Hassasiyet (Precision) hesaplaması
# (Bu fonksiyon, modelin pozitif olarak tahmin ettiği örneklerin gerçekten pozitif olma oranını ifade eder.)
precision_gau = precision_score(test[target], test_Gpred, average='macro', zero_division=1)
print('Precision (Gaussian Naive Bayes):', precision_gau)

# Geri Çağırma (Recall) hesaplaması
# (Bu fonksiyon, gerçek ve tahmin edilen değerler arasındaki uyumu ölçer ve bir geri çağırma değeri döndürür.)
# (Yani, gerçek pozitif örneklerin ne kadarının doğru bir şekilde tespit edildiğini gösterir. 
# Bu değer ne kadar yüksekse, modelin gerçek pozitifleri tespit etme yeteneği o kadar iyidir.)
recall_gau = recall_score(test[target], test_Gpred, average='macro', zero_division=1)
print('Recall (Gaussian Naive Bayes):', recall_gau)

# F1 Skoru hesaplaması
# (F1 skoru, hassasiyet (precision) ve geri çağırma (recall) metriklerinin harmonik ortalamasıdır.)
# (hem hassasiyetin hem de geri çağırmanın yüksek olduğu durumlarda F1 skoru yüksek olacaktır.)
f1_gau = f1_score(test[target], test_Gpred, average='macro')
print('F1 Score (Gaussian Naive Bayes):', f1_gau)


Train Accuracy (Gaussian Naive Bayes): 1.0
Test Accuracy (Gaussian Naive Bayes): 0.4
Precision (Gaussian Naive Bayes): 0.6666666666666666
Recall (Gaussian Naive Bayes): 0.5
F1 Score (Gaussian Naive Bayes): 0.2222222222222222


In [7]:
#Multinomial Naive Bayes

from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score

# Multinomial Naive Bayes modelini oluşturma
Mmodel = MultinomialNB()
Mmodel.fit(train[predictors], train[target])

# Eğitim ve test verileri üzerinde tahmin yapma
train_Mpred = Mmodel.predict(train[predictors])
test_Mpred = Mmodel.predict(test[predictors])

In [8]:
# Doğruluk (accuracy) değerlerini hesaplama
train_acc_multi = accuracy_score(train[target], train_Mpred)
test_acc_multi = accuracy_score(test[target], test_Mpred)

print("Eğitim Doğruluğu (Multinomial Naive Bayes):", train_acc_multi)
print("Test Doğruluğu (Multinomial Naive Bayes):", test_acc_multi)

Eğitim Doğruluğu (Multinomial Naive Bayes): 0.5555555555555556
Test Doğruluğu (Multinomial Naive Bayes): 0.0
