In [107]:
import pandas as pd
import numpy as np
from sklearn.model_selection import cross_val_score
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [66]:
# Загружаем исходные данные
df = pd.read_csv('SMSSpamCollection.txt', sep='\t', header=None, names=["status", "text"])
df.head(10)

Unnamed: 0,status,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."
5,spam,FreeMsg Hey there darling it's been 3 week's n...
6,ham,Even my brother is not like to speak with me. ...
7,ham,As per your request 'Melle Melle (Oru Minnamin...
8,spam,WINNER!! As a valued network customer you have...
9,spam,Had your mobile 11 months or more? U R entitle...


In [67]:
# заменяем на метки
df.status.replace(['ham', 'spam'], [0, 1], inplace=True)

labels = df.status
corpus = df.text # корпус слов (он же список писем)

**4.** Используя sklearn.feature_extraction.text.CountVectorizer со стандартными настройками, получите из списка текстов матрицу признаков X.

In [83]:
# матрица подсчёта токенов (слов)
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(corpus)

In [84]:
# X.toarray().shape = (5572, 8713) 5572 писем использует 8713 слов
#vectorizer.get_feature_names()

**5.** Оцените качество классификации текстов с помощью LogisticRegression() с параметрами по умолчанию, используя sklearn.cross_validation.cross_val_score и посчитав среднее арифметическое качества на отдельных fold'ах. Установите random_state=2. Параметр cv задайте равным 10. В качестве метрики качества используйте f1-меру. Получившееся качество - один из ответов, которые потребуются при сдаче задания. Ответ округлить до 1 знака после запятой.

In [86]:
lr = LogisticRegression(random_state=2)

cross_val_score(estimator = lr, X=X, y=labels, cv=10, scoring='f1').mean()

0.9326402983610631

**6.** А теперь обучите классификатор на всей выборке и спрогнозируйте с его помощью класс для следующих сообщений:

In [87]:
# обучаем на всех данных
lr = LogisticRegression(random_state=2).fit(X, labels)

In [88]:
str1 = "FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! Subscribe6GB"
str2 = "FreeMsg: Txt: claim your reward of 3 hours talk time"
str3 = "Have you visited the last lecture on physics?"
str4 = "Have you visited the last lecture on physics? Just buy this book and you will have all materials! Only 99$"
str5 = "Only 99$"

In [90]:
# 0 - не СПАМ, 1 - СПАМ
X_test=vectorizer.transform([str1, str2, str3, str4, str5])
y_pred=lr.predict(X_test)
print(y_pred)

[1 1 0 0 0]


**7.** Задайте в CountVectorizer параметр ngram_range=(2,2), затем ngram_range=(3,3), затем ngram_range=(1,3). Во всех трех случаях измерьте получившееся в кросс-валидации значение f1-меры, округлите до второго знака после точки, и выпишете результаты через пробел в том же порядке. 

В данном эксперименте мы пробовали добавлять в признаки n-граммы для разных диапазонов n - только биграммы, только триграммы, и, наконец, все вместе - униграммы, биграммы и триграммы. Обратите внимание, что статистики по биграммам и триграммам намного меньше, поэтому классификатор только на них работает хуже. В то же время это не ухудшает результат сколько-нибудь существенно, если добавлять их вместе с униграммами, т.к. за счет регуляризации линейный классификатор не склонен сильно переобучаться на этих признаках.

In [96]:
ngram_list = [(2,2), (3,3), (1,3)]
predictions = []

lr = LogisticRegression(random_state=2)

for ngram in ngram_list:
    vectorizer = CountVectorizer(ngram_range=ngram)
    X = vectorizer.fit_transform(corpus)
    predictions.append(cross_val_score(estimator = lr, X=X, y=labels, cv=10, scoring='f1').mean())

In [97]:
predictions

[0.8224220664187133, 0.7250161555467377, 0.9251382558648837]

In [100]:
with open('answer3.txt', 'w') as f:
    f.write(' '.join([str(round(label, 2)) for label in predictions]))

**8.** Повторите аналогичный п.7 эксперимент, используя вместо логистической регрессии MultinomialNB(). Обратите внимание, насколько сильнее (по сравнению с линейным классификатором) наивный Байес страдает от нехватки статистики по биграммам и триграммам.

По какой-то причине обучение наивного байесовского классификатора через Pipeline происходит с ошибкой. Чтобы получить правильный ответ, отдельно посчитайте частоты слов и обучите классификатор.

In [104]:
ngram_list = [(2,2), (3,3), (1,3)]
predictions2 = []

mnb = MultinomialNB()

for ngram in ngram_list:
    vectorizer = CountVectorizer(ngram_range=ngram)
    X = vectorizer.fit_transform(corpus)
    predictions2.append(cross_val_score(estimator = mnb, X=X, y=labels, cv=10, scoring='f1').mean())

In [105]:
predictions2

[0.6455015177985443, 0.37871948524573595, 0.8884859656061002]

In [106]:
with open('answer4.txt', 'w') as f:
    f.write(' '.join([str(round(label, 2)) for label in predictions2]))

**9.** Попробуйте использовать в логистической регрессии в качестве признаков Tf*idf из TfidfVectorizer на униграммах. Повысилось или понизилось качество на кросс-валидации по сравнению с CountVectorizer на униграммах? (напишите в файле с ответом 1, если повысилось, -1, если понизилось, и 0, если изменилось не более чем на 0.01). Обратите внимание, что результат перехода к tf*idf не всегда будет таким - если вы наблюдаете какое-то явление на одном датасете, не надо сразу же его обобщать на любые данные.

In [109]:
lr = LogisticRegression(random_state=2)

vectorizer = CountVectorizer()
X1 = vectorizer.fit_transform(corpus)

Tfidvec = TfidfVectorizer()
X2 = Tfidvec.fit_transform(corpus)

CVScore = cross_val_score(estimator = lr, X=X1, y=labels, cv=10, scoring='f1').mean()
TfidScore = cross_val_score(estimator = lr, X=X2, y=labels, cv=10, scoring='f1').mean()

print ('CountVectorizer=',CVScore)
print ('TfidfVectorizer=',TfidScore)

('CountVectorizer=', 0.9326402983610631)
('TfidfVectorizer=', 0.8528599554172456)


In [110]:
with open('answer5.txt', 'w') as f:
    f.write('-1')