twitterFakeAccountDetection

Twitter' da Fake / Sahte Hesap Tespiti

Bu çalışmada insanları yanlış yönlendirebilecek sahte hesapların tespiti için makine öğrenmesi tabanlı yöntemler kullanılmıştır. Bu amaçla oluşturulan veri kümesi ön işlemden geçirilmiş ve makine öğrenmesi algoritmaları tarafından sahte hesaplar tespit edilmiştir. Sahte hesapların tespiti için k-NN, Decision Tree, Random Forest, Naive Bayes ve Support Vector Machine algoritmaları kullanılacaktır.

Sahte ve gerçek profillerin veri kümesine ihtiyaç vardı. Veri kümesine dahil edilen çeşitli özellikler, arkadaş sayısı, takipçi sayısı, durum sayısıdır. Veri kümesi eğitim ve test verilerine ayrılmıştır. Sınıflandırma algoritmaları eğitim veri seti kullanılarak eğitilir ve algoritmanın etkinliğini belirlemek için test veri seti kullanılır. Kullanılan veri kümesinden her iki profilin % 80'i (gerçek ve sahte) bir eğitim veri kümesi hazırlamak için kullanılır ve her iki profilin % 20'si bir test veri kümesi hazırlamak için kullanılır. Orijinal kullanıcılardan 11459 ve sahte kullanıcılardan 5789 tweet kullanılmıştır.

Bu çalışmada Twitter hesaplarını gerçek veya sahte olarak sınıflandırmak amacıyla makine öğrenmesi tabanlı sınıflandırma yöntemleri kullanılmıştır. Çalışmada sınıflandırma işlemi için K-NN, Decision Tree, Random Forest, Naive Bayes, Support Vector Machine algoritmaları seçilmiştir. Sınıflandırma sonuçlarını değerlendirirken karışıklık matrisi, kesinlik, f l-ölçütü, hassasiyet, ROC ve isabet oranı gibi kriterler dikkate alınmaktadır. Karışıklık matrisi, sınıflandırma algoritmalarının öğrenme düzeyinin ne kadar verimli olduğunun gösteren matrisidir. Karışıklık matrisinden: gerçek pozitif, gerçek negatif, yanlış pozitif, yanlış negatif değerleri öğrenilebilir. İsabet oranı, çalışmanın doğruluğunu gösteren temel kriterdir. Gerçek pozitif ile gerçek negatif sayılarının toplamının toplam tahmine oranıdır. Kesinlik, gerçek pozitif sayısının gerçek pozitif ve yanlış pozitif toplamına oranıdır. Olabildiğince yüksek olmalıdır. Hassasiyet, gerçek pozitiflerin yanlış negatif ve gerçek pozitif toplamına oranıdır. Geliştirilen modelin gerçekleri bilme oranı da denilebilir. F-ölçütü, kesinlik ve hassasiyet değerleriyle hesaplanmaktadır. Bu iki değerin harmonik ortalamasıdır. ROC eğrisi altındaki alan, geliştirilen modelin her iki sınıfı ne kadar iyi ayırt edebildiğini gösteren ölçüttür.

Yöntemlerin AUC’ lerine bakıldığında iki sınıfı en iyi ayırt eden yöntemin K-NN olduğu görülmektedir. Kesinlik ölçütü bakımından K-NN, Random Forest, Support Vector Macihne algoitmaları en iyi sonucu vermektedir. Onu Decision Tree ve Naive Bayes takip etmektedir. Kesinlik ölçütünü tek başına yorumlamak yanlış olabilir. Duyarlılık ölçütüne baktığımızda ise yine aynı sıralama görülmektedir. Kesinlik ve duyarlılık ölçütlerini beraber değerlendirmek için, her iki değerin harmonik ortalaması olan F1 ölçütüne baktığımızda yine K-NN en iyi sonuca sahip olduğu görülmektedir. Hassasiyet ölçütüne baktığımızda en yüksek oran K-NN algoritmasına aittir. Ayrıca en yüksek gerçek negatif rakamı da (FN) 212 ile Naive Bayes algoritmasındadır. Bu da veri kümesindeki sahte hesapların tespitinin daha zor olduğunu göstermektedir. Accuracy değerine bakınca K-NN algoritması en iyi sonuç vermiştir ve Random Forest ve SVM algoritmaları da aynı sonucu vermiştir.

Ayrıntılar için->rapor.pdf

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
DecisionTree.ipynb		DecisionTree.ipynb
DecisionTree.py		DecisionTree.py
K-NN.ipynb		K-NN.ipynb
K-NN.py		K-NN.py
NaiveBayes.ipynb		NaiveBayes.ipynb
NaiveBayes.py		NaiveBayes.py
README.md		README.md
RandomForest.ipynb		RandomForest.ipynb
RandomForest.py		RandomForest.py
Rapor.pdf		Rapor.pdf
Support Vector Machine.ipynb		Support Vector Machine.ipynb
Support Vector Machine.py		Support Vector Machine.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

twitterFakeAccountDetection

About

Releases

Packages

Languages

rotameraklisi/twitterFakeAccountDetection

Folders and files

Latest commit

History

Repository files navigation

twitterFakeAccountDetection

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages