# Классификация текстов: спам-фильтр для SMS

В этом задании вам предстоит взять открытый датасет с SMS-сообщениями, размеченными на спам ("spam") и не спам ("ham"), построить на нем классификатор текстов на эти два класса, оценить его качество с помощью кросс-валидации, протестировать его работу на отдельных примерах, и посмотреть, что будет происходить с качеством, если менять параметры вашей модели.

In [20]:
import pandas as pd
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.model_selection import cross_val_score
from sklearn.naive_bayes import MultinomialNB
from sklearn.linear_model import LogisticRegression

In [9]:
df = pd.read_csv(
    "./smsspamcollection/SMSSpamCollection.txt", 
    sep="\t", 
    header=None,
    names=["class", "text"]
)

df["target"] = (df["class"]== "spam").astype(int)



In [28]:
count_vec = CountVectorizer()

X = count_vec.fit_transform(df.text)


print(cross_val_score(
    LogisticRegression(random_state=2), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

0.9326402983610631


In [29]:
count_vec = CountVectorizer(ngram_range=(2,2))

X = count_vec.fit_transform(df.text)

print(cross_val_score(
    LogisticRegression(random_state=2), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

0.8224220664187133


In [30]:
count_vec = CountVectorizer(ngram_range=(3,3))

X = count_vec.fit_transform(df.text)

print(cross_val_score(
    LogisticRegression(random_state=2), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

0.7250161555467377


In [31]:
count_vec = CountVectorizer(ngram_range=(1,3))

X = count_vec.fit_transform(df.text)

print(cross_val_score(
    LogisticRegression(random_state=2), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

0.9251382558648837


In [34]:
count_vec = CountVectorizer(ngram_range=(2,2))
X = count_vec.fit_transform(df.text)
print(cross_val_score(
    MultinomialNB(), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

count_vec = CountVectorizer(ngram_range=(3,3))
X = count_vec.fit_transform(df.text)
print(cross_val_score(
    MultinomialNB(), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

count_vec = CountVectorizer(ngram_range=(1,3))
X = count_vec.fit_transform(df.text)
print(cross_val_score(
    MultinomialNB(), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

0.6455015177985443
0.37871948524573595
0.8884859656061002


In [35]:
tfidf_vec = TfidfVectorizer(ngram_range=(2,2))
X = tfidf_vec.fit_transform(df.text)

print(cross_val_score(
    LogisticRegression(random_state=2), 
    cv=10, 
    X=X, 
    y=df.target,
    scoring='f1'
).mean())

0.3445904447864354
