#DERS 17- NAIVE BAYES CLASSIFIER

Naive Bayes Sınıflandırması Makine öğreniminde öğreticili öğrenme alt sınıfındadır. Daha açık bir ifadeyle sınıflandırılması gereken sınıflar(kümeler) ve örnek verilerin hangi sınıflara ait olduğu bellidir. E-posta kutusuna gelen e-postaların spam olarak ayrıştırılması işlemi buna örnek verilebilir. Bu örnekte spam e-posta ve spam olmayan e-posta ayrıştırılacak iki sınıfı temsil eder. Elimizdeki spam ve spam olmayan e-postalardan yaralanarak gelecekte elimize ulaşacak e-postaların spam olup olmadığına karar verecek bir Algoritma da öğreticili makine öğrenmesine örnektir.

Sınıflandırma işleminde genel olarak elde bir örüntü (pattern) vardır. Buradaki işlem de bu örüntüyü daha önceden tanımlanmış sınıflara sınıflandırmaktır. Her örüntü nicelik (feature ya da parametre) kümesi tarafından temsil edilir.

Detaylı Okuma: https://erdincuzun.com/makine_ogrenmesi/naive-bayes-classifier/

Hadi Gelin "Text Sınıflama" ve "SMS sınıflama" uygulamalarını  kodlayalım...

In [None]:
#1- TEXT SINIFLAMA 
import numpy as np
import pandas as pd
import sklearn

docs = pd.read_csv('example_train1.csv') 
# document kolonu cümleleri, class kolonu ise cümlelerin ait olduğu sınıfları gösterir. 
docs

Unnamed: 0,Document,Class
0,Sakarya is a great educational institution.,education
1,Educational greatness depends on quality,education
2,A story of great quality and educational great...,education
3,Interstellar is a great cinema,cinema
4,good movie depends on good story,cinema


In [None]:
# sınıf'ları 1 ve 0 olarak binary şekilde tutalım.
docs['Class'] = docs.Class.map({'cinema':0, 'education':1})
docs

Unnamed: 0,Document,Class
0,Sakarya is a great educational institution.,1
1,Educational greatness depends on quality,1
2,A story of great quality and educational great...,1
3,Interstellar is a great cinema,0
4,good movie depends on good story,0


In [None]:
numpy_array = docs.to_numpy()
# tüm satırlardaki cümleleri bir dizi içerisine koyuyoruz. Tek elemanlı bir dizi gibi davranacaktır. Buna bag of words denmektedir.

X = numpy_array[:,0]
Y = numpy_array[:,1]
Y = Y.astype('int')
print("X")
print(X)
print("Y")
print(Y)

X
['Sakarya is a great educational institution.'
 'Educational greatness depends on quality'
 'A story of great quality and educational greatness'
 'Interstellar is a great cinema' 'good movie depends on good story']
Y
[1 1 1 0 0]


In [None]:
# Daha sonra CountVectorizer() sınıfıyla bag of words dizisini kelimelere parçalayacağız.
from sklearn.feature_extraction.text import CountVectorizer 
vec = CountVectorizer( )

In [None]:
vec.fit(X)
vec.vocabulary_

{'and': 0,
 'cinema': 1,
 'depends': 2,
 'educational': 3,
 'good': 4,
 'great': 5,
 'greatness': 6,
 'institution': 7,
 'interstellar': 8,
 'is': 9,
 'movie': 10,
 'of': 11,
 'on': 12,
 'quality': 13,
 'sakarya': 14,
 'story': 15}

#Countvectorizer() dökümanları kelimelere parçalar ve onları alfabetik sıraya göre sıralayıp index'ler.

In [None]:
# and, is ve of'a benzer stop word'lerin silinmesi
vec = CountVectorizer(stop_words='english' )
vec.fit(X)
vec.vocabulary_

{'cinema': 0,
 'depends': 1,
 'educational': 2,
 'good': 3,
 'great': 4,
 'greatness': 5,
 'institution': 6,
 'interstellar': 7,
 'movie': 8,
 'quality': 9,
 'sakarya': 10,
 'story': 11}

In [None]:
# feature isimlerini yazdırma ve feature sayısını ekrana bastırma
print(vec.get_feature_names())
print(len(vec.get_feature_names()))

['cinema', 'depends', 'educational', 'good', 'great', 'greatness', 'institution', 'interstellar', 'movie', 'quality', 'sakarya', 'story']
12


In [None]:
# feature'ları vector'e çevirelim.
X_transformed=vec.transform(X)
X_transformed

<5x12 sparse matrix of type '<class 'numpy.int64'>'
	with 20 stored elements in Compressed Sparse Row format>

In [None]:
print(X_transformed)

  (0, 2)	1
  (0, 4)	1
  (0, 6)	1
  (0, 10)	1
  (1, 1)	1
  (1, 2)	1
  (1, 5)	1
  (1, 9)	1
  (2, 2)	1
  (2, 4)	1
  (2, 5)	1
  (2, 9)	1
  (2, 11)	1
  (3, 0)	1
  (3, 4)	1
  (3, 7)	1
  (4, 1)	1
  (4, 3)	2
  (4, 8)	1
  (4, 11)	1


#Yukarıdaki veriyi şöyle anlayabiliriz. 0 index numaralı cümle 2,4,6 ve 10 index numaralı kelimeleri birer kere içermiştir. 4 index numaralı kayıtlara gelirsen (4,3) 2 verisi 4. cümlede 3 index numaralı kelime 2 defa geçmiştir diyebiliriz.

In [None]:
# daha anlaşılabilir bir hale getirmek için kolonlara index numaralarına göre kelimeleri koyalım ve 
# satırlar ise dökümanları yani cümleleri temsil etmektedir.
X=X_transformed.toarray()
X

array([[0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 1, 0],
       [0, 1, 1, 0, 0, 1, 0, 0, 0, 1, 0, 0],
       [0, 0, 1, 0, 1, 1, 0, 0, 0, 1, 0, 1],
       [1, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0],
       [0, 1, 0, 2, 0, 0, 0, 0, 1, 0, 0, 1]])

In [None]:
# Daha da iyi anlayabilmek için bir data frame oluşturalım.
pd.DataFrame(X, columns=vec.get_feature_names())

Unnamed: 0,cinema,depends,educational,good,great,greatness,institution,interstellar,movie,quality,sakarya,story
0,0,0,1,0,1,0,1,0,0,0,1,0
1,0,1,1,0,0,1,0,0,0,1,0,0
2,0,0,1,0,1,1,0,0,0,1,0,1
3,1,0,0,0,1,0,0,1,0,0,0,0
4,0,1,0,2,0,0,0,0,1,0,0,1


In [None]:
test_docs = pd.read_csv('example_test1.csv') 
#text in column 1, classifier in column 2.
test_docs

Unnamed: 0,Document,Class
0,Maltepe is a great educational institution.,education
1,Educational greatness depends on hard working,education
2,A story of great ethics and educational greatness,cinema


In [None]:
# Şimdi tahmin işlemine geçelim. Aşağıdaki kodların manalarını yukarıdan biliyorsunuz.
test_docs['Class'] = test_docs.Class.map({'cinema':0, 'education':1})
test_docs

Unnamed: 0,Document,Class
0,Maltepe is a great educational institution.,1
1,Educational greatness depends on hard working,1
2,A story of great ethics and educational greatness,0


In [None]:
test_numpy_array = test_docs.to_numpy()
X_test = test_numpy_array[:,0]
Y_test = test_numpy_array[:,1]
Y_test = Y_test.astype('int')
print("X_test")
print(X_test)
print("Y_test")
print(Y_test)

X_test
['Maltepe is a great educational institution.'
 'Educational greatness depends on hard working'
 'A story of great ethics and educational greatness']
Y_test
[1 1 0]


In [None]:
X_test_transformed=vec.transform(X_test)
X_test_transformed

<3x12 sparse matrix of type '<class 'numpy.int64'>'
	with 10 stored elements in Compressed Sparse Row format>

In [None]:
X_test=X_test_transformed.toarray()
X_test

array([[0, 0, 1, 0, 1, 0, 1, 0, 0, 0, 0, 0],
       [0, 1, 1, 0, 0, 1, 0, 0, 0, 0, 0, 0],
       [0, 0, 1, 0, 1, 1, 0, 0, 0, 0, 0, 1]])

In [None]:
# building a multinomial NB model
from sklearn.naive_bayes import MultinomialNB

mnb=MultinomialNB()

# modelin eğitilmesi
mnb.fit(X,Y)

# olasılıkların ekrana bastırılması
# cinema için kelime olasılıkları
# education için kelime olasılıkları kullanılarak test verisinde 
mnb.predict_proba(X_test)


array([[0.09788567, 0.90211433],
       [0.09788567, 0.90211433],
       [0.08292424, 0.91707576]])

In [None]:
proba=mnb.predict_proba(X_test)
print("probability of test document belonging to class CINEMA" , proba[:,0])
print("probability of test document belonging to class EDUCATION" , proba[:,1])

probability of test document belonging to class CINEMA [0.09788567 0.09788567 0.08292424]
probability of test document belonging to class EDUCATION [0.90211433 0.90211433 0.91707576]


In [None]:
pd.DataFrame(proba, columns=['Cinema','Education'])

Unnamed: 0,Cinema,Education
0,0.097886,0.902114
1,0.097886,0.902114
2,0.082924,0.917076
