Twitter' da Fake / Sahte Hesap Tespiti
Bu çalışmada insanları yanlış yönlendirebilecek sahte hesapların tespiti için makine öğrenmesi tabanlı yöntemler kullanılmıştır. Bu amaçla oluşturulan veri kümesi ön işlemden geçirilmiş ve makine öğrenmesi algoritmaları tarafından sahte hesaplar tespit edilmiştir. Sahte hesapların tespiti için k-NN, Decision Tree, Random Forest, Naive Bayes ve Support Vector Machine algoritmaları kullanılacaktır.
Sahte ve gerçek profillerin veri kümesine ihtiyaç vardı. Veri kümesine dahil edilen çeşitli özellikler, arkadaş sayısı, takipçi sayısı, durum sayısıdır. Veri kümesi eğitim ve test verilerine ayrılmıştır. Sınıflandırma algoritmaları eğitim veri seti kullanılarak eğitilir ve algoritmanın etkinliğini belirlemek için test veri seti kullanılır. Kullanılan veri kümesinden her iki profilin % 80'i (gerçek ve sahte) bir eğitim veri kümesi hazırlamak için kullanılır ve her iki profilin % 20'si bir test veri kümesi hazırlamak için kullanılır. Orijinal kullanıcılardan 11459 ve sahte kullanıcılardan 5789 tweet kullanılmıştır.
Bu çalışmada Twitter hesaplarını gerçek veya sahte olarak sınıflandırmak amacıyla makine öğrenmesi tabanlı sınıflandırma yöntemleri kullanılmıştır. Çalışmada sınıflandırma işlemi için K-NN, Decision Tree, Random Forest, Naive Bayes, Support Vector Machine algoritmaları seçilmiştir. Sınıflandırma sonuçlarını değerlendirirken karışıklık matrisi, kesinlik, f l-ölçütü, hassasiyet, ROC ve isabet oranı gibi kriterler dikkate alınmaktadır. Karışıklık matrisi, sınıflandırma algoritmalarının öğrenme düzeyinin ne kadar verimli olduğunun gösteren matrisidir. Karışıklık matrisinden: gerçek pozitif, gerçek negatif, yanlış pozitif, yanlış negatif değerleri öğrenilebilir. İsabet oranı, çalışmanın doğruluğunu gösteren temel kriterdir. Gerçek pozitif ile gerçek negatif sayılarının toplamının toplam tahmine oranıdır. Kesinlik, gerçek pozitif sayısının gerçek pozitif ve yanlış pozitif toplamına oranıdır. Olabildiğince yüksek olmalıdır. Hassasiyet, gerçek pozitiflerin yanlış negatif ve gerçek pozitif toplamına oranıdır. Geliştirilen modelin gerçekleri bilme oranı da denilebilir. F-ölçütü, kesinlik ve hassasiyet değerleriyle hesaplanmaktadır. Bu iki değerin harmonik ortalamasıdır. ROC eğrisi altındaki alan, geliştirilen modelin her iki sınıfı ne kadar iyi ayırt edebildiğini gösteren ölçüttür.
Yöntemlerin AUC’ lerine bakıldığında iki sınıfı en iyi ayırt eden yöntemin K-NN olduğu görülmektedir. Kesinlik ölçütü bakımından K-NN, Random Forest, Support Vector Macihne algoitmaları en iyi sonucu vermektedir. Onu Decision Tree ve Naive Bayes takip etmektedir. Kesinlik ölçütünü tek başına yorumlamak yanlış olabilir. Duyarlılık ölçütüne baktığımızda ise yine aynı sıralama görülmektedir. Kesinlik ve duyarlılık ölçütlerini beraber değerlendirmek için, her iki değerin harmonik ortalaması olan F1 ölçütüne baktığımızda yine K-NN en iyi sonuca sahip olduğu görülmektedir. Hassasiyet ölçütüne baktığımızda en yüksek oran K-NN algoritmasına aittir. Ayrıca en yüksek gerçek negatif rakamı da (FN) 212 ile Naive Bayes algoritmasındadır. Bu da veri kümesindeki sahte hesapların tespitinin daha zor olduğunu göstermektedir. Accuracy değerine bakınca K-NN algoritması en iyi sonuç vermiştir ve Random Forest ve SVM algoritmaları da aynı sonucu vermiştir.
Ayrıntılar için->rapor.pdf