In [10]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import accuracy_score
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV

Загрузка данных

In [11]:
data = pd.read_csv('spam_or_not_spam.csv', header=None, names=['email', 'label'])

Замена отсутствующих значений (NaN) на пустые строки

In [12]:
data['email'].fillna('', inplace=True)

Разделение на признаки и целевую переменную

In [13]:
X = data['email']
y = data['label']

Разделение данных на обучающую и тестовую выборки

In [14]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

Создание пайплайнов для моделей с разными векторизаторами

In [15]:
pipelines = {
    'CountVectorizer + Decision Tree': Pipeline([
        ('vectorizer', CountVectorizer()),
        ('classifier', DecisionTreeClassifier())
    ]),
    'TfidfVectorizer + Decision Tree': Pipeline([
        ('vectorizer', TfidfVectorizer()),
        ('classifier', DecisionTreeClassifier())
    ]),
    'CountVectorizer + Logistic Regression': Pipeline([
        ('vectorizer', CountVectorizer()),
        ('classifier', LogisticRegression())
    ]),
    'TfidfVectorizer + Logistic Regression': Pipeline([
        ('vectorizer', TfidfVectorizer()),
        ('classifier', LogisticRegression())
    ]),
    'CountVectorizer + Naive Bayes': Pipeline([
        ('vectorizer', CountVectorizer()),
        ('classifier', MultinomialNB())
    ]),
    'TfidfVectorizer + Naive Bayes': Pipeline([
        ('vectorizer', TfidfVectorizer()),
        ('classifier', MultinomialNB())
    ])
}



Обучение и оценка моделей



In [16]:
for name, pipeline in pipelines.items():
    pipeline.fit(X_train, y_train)
    y_pred = pipeline.predict(X_test)
    acc = accuracy_score(y_test, y_pred)
    print(f"{name}: Accuracy - {acc}")

CountVectorizer + Decision Tree: Accuracy - 0.9700499168053245
TfidfVectorizer + Decision Tree: Accuracy - 0.961730449251248


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


CountVectorizer + Logistic Regression: Accuracy - 0.9883527454242929
TfidfVectorizer + Logistic Regression: Accuracy - 0.978369384359401
CountVectorizer + Naive Bayes: Accuracy - 0.9866888519134775
TfidfVectorizer + Naive Bayes: Accuracy - 0.8718801996672213



CountVectorizer + Decision Tree: Accuracy - 0.973

TfidfVectorizer + Decision Tree: Accuracy - 0.963

CountVectorizer + Logistic Regression: Accuracy - 0.988

TfidfVectorizer + Logistic Regression: Accuracy - 0.978

CountVectorizer + Naive Bayes: Accuracy - 0.987

TfidfVectorizer + Naive Bayes: Accuracy - 0.872

Какой классификатор лучше всего подходит для набора данных.

Decision Tree:

CountVectorizer + Decision Tree: Accuracy - 0.973

TfidfVectorizer + Decision Tree: Accuracy - 0.963

Decision Tree показывает хорошую точность, но может быть склонен к переобучению на некоторых данных.

Logistic Regression:

CountVectorizer + Logistic Regression: Accuracy - 0.988

TfidfVectorizer + Logistic Regression: Accuracy - 0.978

Logistic Regression демонстрирует высокую точность и сходится быстрее, чем наивный байесовский классификатор.

Naive Bayes:

CountVectorizer + Naive Bayes: Accuracy - 0.987

TfidfVectorizer + Naive Bayes: Accuracy - 0.872

Наивный байесовский классификатор также дает хорошие результаты с CountVectorizer, но с TfidfVectorizer точность снижается.

Выводы:

Если главной целью является точность и скорость сходимости, то Logistic Regression с CountVectorizer - лучший выбор, так как он показывает наивысшую точность (0.988).
Если необходимо получить более интерпретируемую модель, которая способна учиться на основе деревьев принятия решений, то Decision Tree также дает хорошие результаты (0.973).
Наивный байесовский классификатор (MultinomialNB) показывает хорошую точность с CountVectorizer (0.987), но его производительность с TfidfVectorizer (0.872) немного снижена из-за предположения о независимости признаков.
Таким образом, основываясь на представленных результатов, Logistic Regression с CountVectorizer выглядит наиболее предпочтительным выбором для этого набора данных, из-за высокой точности и быстрой сходимости.