<a href="https://colab.research.google.com/github/ilaydaozer/SarcasmDetection/blob/main/SarcasmDetection.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Cümlelerin 'sarcasm' mı yoksa 'not sarcasm' mı olduğunu belirlemek için Bernoulli Naive Bayes algoritmasıyla eğitilmiş bir makine öğrenmesi modelini içerir

Veri seti: https://raw.githubusercontent.com/amankharwal/Website-data/master/Sarcasm.json

In [None]:
import numpy as np
import pandas as pd

lines=True parametresi, pd.read_json() işlevine JSON dosyasının her bir satırını ayrı bir JSON nesnesi olarak işlemesi gerektiğini belirtiyor. Bu parametre genellikle büyük JSON dosyalarıyla çalışırken faydalıdır, çünkü dosya tamamen belleğe yüklenmeden ve işlenmeden önce her bir JSON nesnesi tek tek işlenir. Bu, bellek kullanımını azaltabilir ve daha büyük dosyalarla daha verimli bir şekilde çalışmamıza olanak tanıyor.

In [None]:
data = pd.read_json("/content/data.json",lines = True)

'is_sarcastic' sütununda 1 sarkastik, 0 sarkastik değil anlamına geliyor.

In [None]:
data.head()

Unnamed: 0,article_link,headline,is_sarcastic
0,https://www.huffingtonpost.com/entry/versace-b...,former versace store clerk sues over secret 'b...,0
1,https://www.huffingtonpost.com/entry/roseanne-...,the 'roseanne' revival catches up to our thorn...,0
2,https://local.theonion.com/mom-starting-to-fea...,mom starting to fear son's web series closest ...,1
3,https://politics.theonion.com/boehner-just-wan...,"boehner just wants wife to listen, not come up...",1
4,https://www.huffingtonpost.com/entry/jk-rowlin...,j.k. rowling wishes snape happy birthday in th...,0


Daha basit olması adına bunları kendilerine karşılık gelen kategorik verilere yani 'sarcasm' ve not sarcasm' değerlerine çevireceğiz.

In [None]:
data["is_sarcastic"] = data["is_sarcastic"].map({0: "Not Sarcasm", 1: "Sarcasm"})

In [None]:
data.sample(5)

Unnamed: 0,article_link,headline,is_sarcastic
14017,https://www.huffingtonpost.com/entry/james-cor...,james corden makes emotional plea for gun cont...,Not Sarcasm
660,https://www.huffingtonpost.com/entry/australia...,'religious freedom' clauses are point of conte...,Not Sarcasm
11150,https://www.huffingtonpost.com/entry/a-second-...,a second act: interview with author lesley kagen,Not Sarcasm
20224,https://www.huffingtonpost.com/entry/jeb-bush-...,jeb bush would 'of course' support donald trum...,Not Sarcasm
18221,https://www.huffingtonpost.com/entry/aaron-rod...,aaron rodgers finally breaks his silence on 'b...,Not Sarcasm


Bu veri setinde 3 sütun var fakat bize özellikle 'headline' ve 'is_Sarcastic' sütunları gerekiyor. O yüzden sadece bunları seçiyoruz.

In [None]:
data = data[["headline", "is_sarcastic"]]

In [None]:
data.head()

Unnamed: 0,headline,is_sarcastic
0,former versace store clerk sues over secret 'b...,Not Sarcasm
1,the 'roseanne' revival catches up to our thorn...,Not Sarcasm
2,mom starting to fear son's web series closest ...,Sarcasm
3,"boehner just wants wife to listen, not come up...",Sarcasm
4,j.k. rowling wishes snape happy birthday in th...,Not Sarcasm


Başlıkları kullanarak sarkazm tahmini yapacağımız için, 'headlines' sütununu x ( bağımsız ) , 'is_sarcastic' sütununu ise y ( bağımlı ) değişken olarak atadık.

In [None]:
x = np.array(data["headline"])
y = np.array(data["is_sarcastic"])

CountVectorizer, metin verilerini bir belge terim matrisine dönüştürmek için kullanılan bir scikit-learn sınıfıdır. Metin sınıflandırma, belge kümeleme ve metin madenciliği gibi görevler için sıklıkla kullanılır.

Bu sınıf, her belgedeki kelime frekanslarını içeren bir vektör dönüştürür. Öncelikle, her belgedeki benzersiz kelimelerin bir sözlüğünü oluşturur. Sonra, her belgenin sözlükteki her bir kelimenin frekansını içeren bir vektörle temsil edilmesini sağlar.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

In [None]:
cv = CountVectorizer()

CountVectorizer kullanılarak metin verileri sayısal vektörlere dönüştürülür. x başlıkları içeren metin verilerini içerirken, X bu metin verilerini sayısal bir formata dönüştürmüş ve öznitelik matrisini oluşturmuş olur. Bu, makine öğrenimi modelinin eğitilmesi ve tahmin yapması için girdi olarak kullanılabilir hale getirir.

In [None]:
X = cv.fit_transform(x)

In [None]:
from sklearn.model_selection import train_test_split

X veri setindeki özellik matrisini, y ise karşılık gelen etiketleri (hedef değişkenleri) temsil eder. Bu durumda, X metin verilerini içeren özellik matrisini ve y sarkazm etiketlerini içerir.
train_test_split() fonksiyonu, veri setini eğitim ve test setlerine ayırmak için kullanılır. Bu işlem, genellikle modelin eğitim performansını değerlendirmek için ayrılan test setini kullanarak gerçekleştirilir.
test_size: Test setinin boyutunu belirler. Bu, genellikle 0 ile 1 arasında bir oran olarak belirtilir. Örneğin, 0.20 değeri test setinin tamamının %20'sini alacağını belirtir.
random_state: Veriyi rastgele bölmek için kullanılan seed değeridir. Bu, işlemi tekrar ettiğinizde aynı rastgele bölme işleminin gerçekleşmesini sağlar, bu da sonuçların tekrarlanabilirliğini sağlar.
X_train: Eğitim setinin özellik matrisi
X_test: Test setinin özellik matrisi
y_train: Eğitim setinin etiket vektörü
y_test: Test setinin etiket vektörü

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.20, random_state=42)

Bernoulli Naif Bayes (BernoulliNB), Naif Bayes sınıflandırma yöntemlerinden biridir ve özellikle metin sınıflandırması gibi problemlerde yaygın olarak kullanılır.
BernoulliNB, sadece belirli bir özelliğin var olup olmadığını (1 veya 0) dikkate alır. Bu nedenle, özelliklerin varlık-yokluk bilgisine dayalı olarak sınıflandırma yapar.
Metin sınıflandırması gibi problemlerde, veri setleri genellikle seyrek olabilir. BernoulliNB, bu tür seyrek veri setleriyle iyi başa çıkar ve etkili bir şekilde çalışabilir.
BernoulliNB'nin hiperparametrelerinin az olması, modelin basitliğini ve kolayca uyarlanabilirliğini sağlar. Bu, modelin hızlı eğitim süreleri ve düşük bellek gereksinimleri ile sonuçlanabilir.
BernoulliNB, dengesiz sınıf dağılımlarıyla başa çıkabilen bir modeldir. Eğer veri setinizde sınıflar arasında dengesizlik varsa, bu durum BernoulliNB'nin avantajı olabilir.

In [None]:
from sklearn.naive_bayes import BernoulliNB

In [None]:
model = BernoulliNB()

In [None]:
model.fit(X_train, y_train)

Model, test seti üzerinde değerlendirilir ve doğruluk skoru hesaplanır.

In [None]:
print(model.score(X_test, y_test))

0.8448146761512542


Kullanıcıdan bir metin girişi alınır, CountVectorizer ile öznitelik vektörüne dönüştürülür ve oluşturulan model kullanılarak sarkastiklik tahmini yapılır.

In [None]:
user = input("Enter a Text: ")

Enter a Text: Great, now I have to redo the whole project


In [None]:
data = cv.transform([user]).toarray()

In [None]:
output = model.predict(data)

In [None]:
print(output)

['Sarcasm']
