In [2]:
import pandas as pd
import re
from bs4 import BeautifulSoup

# Belirli bir metindeki HTML etiketlerini sayan bir fonksiyonu tanımla
def count_html_tags(text):
    text = str(text)
    # HTML içeriğini Beautiful Soup ile parse et
    soup = BeautifulSoup(text, 'html.parser')
    # Tüm HTML etiketlerini bul
    html_tags = soup.find_all()
    # Bulunan HTML etiketlerinin sayısını döndür
    return len(html_tags)

# CSV dosyasını bir DataFrame'e oku
df = pd.read_csv('./data_with_extra_features/SEFACED_12000.csv', encoding='utf-8')

# Her e-posta için HTML etiketlerinin sayısını hesapla
html_tag_counts = df['Text'].apply(count_html_tags)

# HTML etiketlerinin sayısını DataFrame'e yeni bir sütun olarak ekle
df['html_tag_count'] = html_tag_counts

# DataFrame'i yeni sütunu eklenmiş CSV dosyasına yaz
df.to_csv('./data_with_extra_features/SEFACED_html_count.csv', index=False)





In [4]:
def count_style_tags(text):
    text = str(text)
    # HTML içeriğini Beautiful Soup ile parse et
    soup = BeautifulSoup(text, 'html.parser')
    # Tüm <style> etiketlerini bul
    style_tags = soup.find_all('style')
    # <style> etiketlerinin sayısını döndür
    return len(style_tags)

# CSV dosyasını bir DataFrame'e oku
df = pd.read_csv('./data_with_extra_features/SEFACED_html_count.csv', encoding='utf-8')

# Her e-posta için HTML etiketlerinin sayısını hesapla
css_tag_counts = df['Text'].apply(count_style_tags)

# HTML etiketlerinin sayısını DataFrame'e yeni bir sütun olarak ekle
df['css_tag_count'] = css_tag_counts

# DataFrame'i yeni sütunu eklenmiş CSV dosyasına yaz
df.to_csv('./data_with_extra_features/SEFACED_html_css_count.csv', index=False)



In [5]:
# DataFrame'i bir CSV dosyasına kodlamayla birlikte oku
df = pd.read_csv('./data_with_extra_features/SEFACED_html_css_count.csv', encoding='utf-8')

# Spam ifadelerinin bulunduğu metin dosyasını bir liste olarak oku
with open('./data_with_extra_features/spam-words-EN.txt', 'r', encoding='utf-8') as file:
    spam_phrases = [line.strip() for line in file]

# Belirli bir metindeki spam ifadelerinin sayısını hesaplayan bir fonksiyon
def count_spam_phrases(text):
    text = str(text)   
    count = 0
    for phrase in spam_phrases:
        if phrase.lower() in text.lower():
            count += 1
    return count

# Her e-posta için spam ifadelerinin sayısını hesapla
spam_phrase_counts = df['Text'].apply(count_spam_phrases)

# Spam ifadelerinin sayısını DataFrame'e yeni bir sütun olarak ekle
df['spam_phrase_count'] = spam_phrase_counts

# DataFrame'i yeni sütunu eklenmiş bir CSV dosyasına yaz
df.to_csv('./data_with_extra_features/SEFACED_html_spam_phrase_counts.csv', index=False)


In [6]:
# DataFrame'i bir CSV dosyasına kodlamayla birlikte oku
df = pd.read_csv('./data_with_extra_features/SEFACED_html_spam_phrase_counts.csv', encoding='utf-8')

# Belirli bir metindeki bağlantıların sayısını hesaplayan bir fonksiyon
def count_links(text):
    text = str(text)  
    # URL'leri eşleştirmek için bir düzenli ifade deseni tanımla
    url_pattern = r'https?://\S+|www\.\S+'
    # findall fonksiyonunu kullanarak metinde desene uyan tüm eşleşmeleri bul
    links = re.findall(url_pattern, text)
    # Bulunan bağlantıların sayısını döndür
    return len(links)

# Her e-posta için bağlantı sayısını hesapla
link_counts = df['Text'].apply(count_links)

# Bağlantı sayısını DataFrame'e yeni bir sütun olarak ekle
df['link_count'] = link_counts

# DataFrame'i yeni sütunu eklenmiş bir CSV dosyasına yaz
df.to_csv('./data_with_extra_features/SEFACED_html_spam_phrase_link_counts.csv', index=False)


In [7]:
import language_tool_python
import enchant
import pandas as pd


# Dil denetimi için dil aracını başlat
tool = language_tool_python.LanguageTool('en-US')

# Yazım denetimi için sözlük başlat
dictionary = enchant.Dict('en_US')

# DataFrame'i bir CSV dosyasına kodlamayla birlikte oku
df = pd.read_csv('./data_with_extra_features/SEFACED_html_spam_phrase_link_counts.csv', encoding='utf-8')

# Belirli bir metindeki dilbilgisi hatalarının sayısını hesaplayan bir fonksiyon
def count_grammar_errors(text):
    text = str(text) 
    matches = tool.check(text)
    return len(matches)

def count_misspelled_words(text):
    text = str(text) 
    words = text.split()
    misspelled_count = 0
    for word in words:
        if not dictionary.check(word):
            misspelled_count += 1
    return misspelled_count

# Her e-posta için dilbilgisi hatalarının sayısını hesapla
grammar_error_counts = df['Text'].apply(count_grammar_errors)

# Her e-posta için yanlış yazılmış kelimelerin sayısını hesapla
misspelled_word_counts = df['Text'].apply(count_misspelled_words)

# Yeni sütunlar olarak sayıları DataFrame'e ekle
df['grammar_error_count'] = grammar_error_counts
df['misspelled_word_count'] = misspelled_word_counts

# DataFrame'i yeni sütunları eklenmiş bir CSV dosyasına yaz
df.to_csv('./data_with_extra_features/SEFACED_all_f eatures.csv', index=False)
