1. В этом задании вам предстоит взять открытый датасет с SMS-сообщениями, размеченными на спам ("spam") и не спам ("ham"), построить на нем классификатор текстов на эти два класса, оценить его качество с помощью кросс-валидации, протестировать его работу на отдельных примерах, и посмотреть, что будет происходить с качеством, если менять параметры вашей модели.

In [14]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfTransformer, CountVectorizer, TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import cross_val_score
from sklearn.pipeline import Pipeline

In [2]:
# Функция сохранения в файл ответа, состоящего из одного числа
def save_answerNum(fname,number):
    with open(fname,"w") as fout:
        fout.write(str(number))

2. Считайте датасет в Python (можете сразу грузить все в память, выборка небольшая), выясните, что используется в качестве разделителей и как проставляются метки классов.

In [3]:
data = pd.read_table('SMSSpamCollection.txt', header=None)
data.columns = ['spam_ind','text']

In [4]:
data.head(3)

Unnamed: 0,spam_ind,text
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...


3. Подготовьте для дальнейшей работы два списка: список текстов в порядке их следования в датасете и список соответствующих им меток классов. В качестве метки класса используйте 1 для спама и 0 для "не спама".

In [5]:
data['ind'] = [1 if sp == 'spam' else 0 for sp in data.spam_ind.values]
data.head(3)

Unnamed: 0,spam_ind,text,ind
0,ham,"Go until jurong point, crazy.. Available only ...",0
1,ham,Ok lar... Joking wif u oni...,0
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...,1


In [6]:
target = data.ind.values
sms = data.text.values
sms[0]

'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...'

4. Используя sklearn.feature_extraction.text.CountVectorizer со стандартными настройками, получите из списка текстов матрицу признаков X.

In [7]:
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(sms)

In [8]:
X.toarray()

array([[0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       ...,
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0],
       [0, 0, 0, ..., 0, 0, 0]])

5. Оцените качество классификации текстов с помощью LogisticRegression() с параметрами по умолчанию, используя sklearn.cross_validation.cross_val_score и посчитав среднее арифметическое качества на отдельных fold'ах. Установите random_state=2. Параметр cv задайте равным 10. В качестве метрики качества используйте f1-меру. Получившееся качество - один из ответов, которые потребуются при сдаче задания. Ответ округлить до 1 знака после запятой.

In [11]:
clf = LogisticRegression(random_state=2)
cross_val_score(clf, X.toarray(), target, cv=10, scoring='f1').mean()

0.9311542822856882

In [10]:
# То же самое, только рассчитанное через Pipeline
print(cross_val_score(Pipeline([("vectorizer", CountVectorizer()),
                                ("classifier", LogisticRegression(random_state=2))]), 
                      sms, target,
                      cv=10, scoring='f1').mean())

0.9311542822856882


In [None]:
save_answerNum('answer5.txt',0.9)

6. А теперь обучите классификатор на всей выборке и спрогнозируйте с его помощью класс для следующих сообщений:

"FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! Subscribe6GB"

"FreeMsg: Txt: claim your reward of 3 hours talk time"

"Have you visited the last lecture on physics?"

"Have you visited the last lecture on physics? Just buy this book and you will have all materials! Only 99$"

"Only 99$"

Прогнозы классификатора (0 - не спам, 1 - спам), записанные через пробел, будут ответом в одном из вопросов ниже.

In [None]:
print(clf_pipeline.predict(["FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! Subscribe6GB",
                            "FreeMsg: Txt: claim your reward of 3 hours talk time",
                            "Have you visited the last lecture on physics?",
                            "Have you visited the last lecture on physics? Just buy this book and you will have all materials! Only 99$",
                            "Only 99$"]))

7. Задайте в CountVectorizer параметр ngram_range=(2,2), затем ngram_range=(3,3), затем ngram_range=(1,3). Во всех трех случаях измерьте получившееся в кросс-валидации значение f1-меры, округлите до второго знака после точки, и выпишете результаты через пробел в том же порядке. В данном эксперименте мы пробовали добавлять в признаки n-граммы для разных диапазонов n - только биграммы, только триграммы, и, наконец, все вместе - униграммы, биграммы и триграммы. Обратите внимание, что статистики по биграммам и триграммам намного меньше, поэтому классификатор только на них работает хуже. В то же время это не ухудшает результат сколько-нибудь существенно, если добавлять их вместе с униграммами, т.к. за счет регуляризации линейный классификатор не склонен сильно переобучаться на этих признаках.

In [13]:
for ngram_range in [(2,2), (3,3), (1,3)]:
    print(cross_val_score(Pipeline([("vectorizer", CountVectorizer(ngram_range=ngram_range)),
                                    ("classifier", LogisticRegression(random_state=2))]), 
                          sms, target,
                          cv=10, scoring='f1').mean())

0.8168951028736983
0.7249691484935827
0.9216545237836128


8. Повторите аналогичный п.7 эксперимент, используя вместо логистической регрессии MultinomialNB(). Обратите внимание, насколько сильнее (по сравнению с линейным классификатором) наивный Байес страдает от нехватки статистики по биграммам и триграммам. По какой-то причине обучение наивного байесовского классификатора через Pipeline происходит с ошибкой. Чтобы получить правильный ответ, отдельно посчитайте частоты слов и обучите классификатор.

### Как и было указано в условии, при использовании pipeline наивный байес дает кривые значения.
Оба правильные в контексте того, что они делают.

Проблема в том, что пайплайн и вычисление частот вручную делают РАЗНЫЕ вещи. С пайплайном, векторайзер тренируется на фолде, для каждого из фолдов. А вручную вы тренируете его один раз на всех объектах и уже потом передаете его в cross_val_score.

На небольшой выборке векторизация на фолде без 10% записей может очень сильно отличаться в результатах от того же на полной выборке.
Хотите полный аналог вручную, не пользуйте cross_val_score. Вместо него стандартный KFold и уже внутри цикла векторизация и классификация на фолд

In [16]:
for ngram_range in [(2,2), (3,3), (1,3)]:
    print(cross_val_score(Pipeline([("vectorizer", CountVectorizer(ngram_range=ngram_range)),
                                    ("classifier", MultinomialNB())]), 
                          sms, target,
                          cv=10, scoring='f1').mean())

0.9337889523587266
0.8711385391426486
0.9472323914162162


In [18]:
clf = MultinomialNB()
for ngram_range in [(2,2), (3,3), (1,3)]:
    vectorizer = CountVectorizer(ngram_range=ngram_range)
    X = vectorizer.fit_transform(sms)
    print(cross_val_score(clf, X.toarray(), target, cv=10, scoring='f1').mean())

0.6457761003991855
0.37861105465217015
0.888454144419353


9. Попробуйте использовать в логистической регрессии в качестве признаков Tf*idf из TfidfVectorizer на униграммах. Повысилось или понизилось качество на кросс-валидации по сравнению с CountVectorizer на униграммах? (напишите в файле с ответом 1, если повысилось, -1, если понизилось, и 0, если изменилось не более чем на 0.01). Обратите внимание, что результат перехода к tf*idf не всегда будет таким - если вы наблюдаете какое-то явление на одном датасете, не надо сразу же его обобщать на любые данные.

In [19]:
print(cross_val_score(Pipeline([("vectorizer", TfidfVectorizer()),
                                ("classifier", LogisticRegression(random_state=2))]), 
                      sms, target,
                      cv=10, scoring='f1').mean())


0.8776671468367306


Уменьшилось