# Спам фильтр для SMS

Рассмотрим открытый датасет с SMS-сообщениями, размеченными на спам ("spam") и не спам ("ham"), построим на нем классификатор текстов на эти два класса, оценим его качество с помощью кросс-валидации и протестируем его работу на отдельных примерах.

In [1]:
import pandas as pd
import numpy as np
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression, SGDClassifier
from sklearn.svm import LinearSVC
from sklearn.cross_validation import cross_val_score
from sklearn.pipeline import Pipeline



Импортируем данные: Описание датасета можно посмотреть [здесь.](http://www.dt.fee.unicamp.br/~tiago/smsspamcollection/)

In [43]:
data = pd.read_csv('SMSSpamCollection.txt', sep='\t', names=['label', 'text'])
data.head()

Unnamed: 0,label,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


In [23]:
data.text[0]

'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...'

Подготовим для дальнейшей работы два списка: список текстов в порядке их следования в датасете и список соответствующих им меток классов. В качестве метки класса используем 1 для спама и 0 для "не спама".

In [56]:
texts = data['text'].values
labels = data['label'].apply(lambda label: 1 if label == 'spam' else 0)

Получим из текстов матрицу Х используя CountVectorizer со стандартными настройками и посмотрим на качество классификации с помощью логистической регрессии. Для оценки качества будем использовать кросс валидацию на 10 фолдах, а в качестве метрики качества f1-меру.

In [66]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

print cross_val_score(LogisticRegression(random_state=2), X, labels, scoring='f1', cv=10).mean()

0.932640298361


Получили достаточно хорошее качество, попробуем обучить классификатор на всей выборке и спрогнозировать с его помощью класс для следующих сообщений:

    "FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! Subscribe6GB"

    "FreeMsg: Txt: claim your reward of 3 hours talk time"

    "Have you visited the last lecture on physics?"

    "Have you visited the last lecture on physics? Just buy this book and you will have all materials! Only 99$"

In [76]:
# Для удобства используем Pipeline
clf_pipeline = Pipeline([("vectorizer", CountVectorizer()),
                         ("classifier", LogisticRegression(random_state=2))])

clf_pipeline.fit(texts, labels)

print clf_pipeline.predict(
    ["FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! Subscribe6GB",
     "FreeMsg: Txt: claim your reward of 3 hours talk time",
     "Have you visited the last lecture on physics?",
     "Have you visited the last lecture on physics? Just buy this book and you will have all materials! Only 99$",
     "Only 99$"])

[1 1 0 0 0]


Расширим теперь пространство признаков. Сначала попробуем обучаться только на биграммах и триграммах, скорее всего качество станец хуже, однако признаков будет существенно меньше. После скомбинируем все n-граммы и посмотрим на качество.

In [77]:
for ngram_range in [(2, 2), (3, 3), (1, 3)]:
    vectorizer = CountVectorizer(ngram_range=ngram_range)
    X = vectorizer.fit_transform(texts)
    print cross_val_score(LogisticRegression(random_state=2), X, labels, scoring='f1', cv=10).mean()

0.822422066419
0.725016155547
0.925138255865


Попробуем тоже самое используя в качестве классификатора наивный Байес.

In [78]:
from sklearn.naive_bayes import MultinomialNB

In [79]:
for ngram_range in [(2, 2), (3, 3), (1, 3)]:
    vectorizer = CountVectorizer(ngram_range=ngram_range)
    X = vectorizer.fit_transform(texts)
    print cross_val_score(MultinomialNB(), X, labels, scoring='f1', cv=10).mean()

0.645501517799
0.378719485246
0.888485965606


Нехватка статистики по биграммам и триграммам существенно влияет на качество классификации наивного Байеса.

Попробуем вместо частот слов использовать TfidfVectorizer на униграммах.

In [80]:
vectorizer = TfidfVectorizer(ngram_range=(1, 3))
X = vectorizer.fit_transform(texts)
print cross_val_score(LogisticRegression(random_state=2), X, labels, scoring='f1', cv=10).mean()

0.648367371228


Получается, что конкретно для этого датасета Tfidf работает значительно хуже частот слов.