In [2]:
import pandas as pd
import numpy as np

### #1, 2 Считывание данных

Скачав данные и посмотрев на них, понятно, что delimiter='\t':

In [3]:
data = pd.read_csv('./SMSSpamCollection.txt', names=['label', 'content'], delimiter='\t')

In [4]:
data.head()

Unnamed: 0,label,content
0,ham,"Go until jurong point, crazy.. Available only ..."
1,ham,Ok lar... Joking wif u oni...
2,spam,Free entry in 2 a wkly comp to win FA Cup fina...
3,ham,U dun say so early hor... U c already then say...
4,ham,"Nah I don't think he goes to usf, he lives aro..."


### #3 Подготовка двух списков

In [21]:
texts = data.content.values
texts

array([ 'Go until jurong point, crazy.. Available only in bugis n great world la e buffet... Cine there got amore wat...',
       'Ok lar... Joking wif u oni...',
       "Free entry in 2 a wkly comp to win FA Cup final tkts 21st May 2005. Text FA to 87121 to receive entry question(std txt rate)T&C's apply 08452810075over18's",
       ..., 'Pity, * was in mood for that. So...any other suggestions?',
       "The guy did some bitching but I acted like i'd be interested in buying something else next week and he gave it to us for free",
       'Rofl. Its true to its name'], dtype=object)

In [6]:
labels = data.label.values
labels = np.array([1 if labels[i] == 'spam' else 0 for i in range(len(labels))])
labels

array([0, 0, 1, ..., 0, 0, 0])

In [10]:
np.count_nonzero(labels) / len(labels)

0.13406317300789664

Не спама, как видно, очень мало. Наверняка алгоритмы переобучатся на спам. Посмотрим, какой меньше.

### #4 Получение матрицы признаков

In [18]:
from sklearn.feature_extraction.text import CountVectorizer

In [22]:
cv = CountVectorizer()
cv.fit(texts)
texts_matrix = cv.transform(texts)

texts_matrix

<5572x8713 sparse matrix of type '<class 'numpy.int64'>'
	with 74169 stored elements in Compressed Sparse Row format>

### #5 LogisticRegression() и sklearn.cross_validation.cross_val_score:

In [15]:
from sklearn.linear_model import LogisticRegression
from sklearn.cross_validation import cross_val_score

In [24]:
lr = LogisticRegression()
score = np.mean(cross_val_score(lr, texts_matrix, labels, cv=10, scoring='f1'))

score

0.9326402983610631

### #6 Обучение на всем и ответ для сообщений из задания:

In [51]:
test_texts = ["FreeMsg: Txt: CALL to No: 86888 & claim your reward of 3 hours talk time to use from your phone now! Subscribe6GB", 
             "FreeMsg: Txt: claim your reward of 3 hours talk time", 
             "Have you visited the last lecture on physics?", 
             "Have you visited the last lecture on physics? Just buy this book and you will have all materials! Only 99$", 
             "Only 99$"]
test_texts_matrix = cv.transform(test_texts)

In [54]:
lr = LogisticRegression().fit(texts_matrix, labels)
lr.predict(test_texts_matrix)

array([1, 1, 0, 0, 0])

Мысли по этому поводу в пункте 11

### #7 LogisticRegression с *граммами:

In [56]:
scores = []
for ngram_range in [(2, 2), (3, 3), (1, 3)]: 
    cv = CountVectorizer(ngram_range=ngram_range)
    cv.fit(texts)
    texts_matrix = cv.transform(texts)
    lr = LogisticRegression()
    scores.append(np.mean(cross_val_score(lr, texts_matrix, labels, cv=10, scoring='f1')))

In [57]:
print("%.2f %.2f %.2f" % (scores[0], scores[1], scores[2]))

0.82 0.73 0.93


### #8 MultinomialNB с *граммами:

In [58]:
from sklearn.naive_bayes import MultinomialNB

In [60]:
scores = []
for ngram_range in [(2, 2), (3, 3), (1, 3)]: 
    cv = CountVectorizer(ngram_range=ngram_range)
    cv.fit(texts)
    texts_matrix = cv.transform(texts)
    lr = MultinomialNB()
    scores.append(np.mean(cross_val_score(lr, texts_matrix, labels, cv=10, scoring='f1')))

In [61]:
print("%.2f %.2f %.2f" % (scores[0], scores[1], scores[2]))

0.65 0.38 0.89


### #9  TfidfVectorizer на униграммах:

In [12]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [22]:
from sklearn.pipeline import make_pipeline    

tfidf_model = make_pipeline (TfidfVectorizer(ngram_range=(1, 1)), LogisticRegression())
print("TFiDF: ", np.mean(cross_val_score(tfidf_model, texts, labels, cv=10, scoring='f1')))

cv_model = make_pipeline (CountVectorizer(ngram_range=(1, 1)), LogisticRegression())
print("CV: ", np.mean(cross_val_score(cv_model, texts, labels, cv=10, scoring='f1')))

TFiDF:  0.878510045534
CV:  0.932640298361


### #10:

In [56]:
cv = CountVectorizer()
cv.fit(texts)
texts_matrix = cv.transform(texts).toarray()

#### CountVectorizer + XGBClassifier:

In [49]:
from xgboost.sklearn import XGBClassifier
from sklearn.ensemble import GradientBoostingClassifier

In [58]:
score = np.mean(cross_val_score(GradientBoostingClassifier(n_estimators=100, verbose=True), 
                                texts_matrix, labels, cv=10, scoring='f1'))

      Iter       Train Loss   Remaining Time 
         1           0.6845           19.47m
         2           0.6255           17.84m
         3           0.5846           16.67m
         4           0.5492           15.80m
         5           0.5202           15.25m
         6           0.4980           14.81m
         7           0.4762           14.45m
         8           0.4594           14.16m
         9           0.4440           14.01m
        10           0.4306           13.78m
        20           0.3344           11.90m
        30           0.2791           10.32m
        40           0.2389            8.83m
        50           0.2111            7.36m
        60           0.1921            5.89m
        70           0.1784            4.42m
        80           0.1667            2.94m
        90           0.1483            1.47m
       100           0.1394            0.00s
      Iter       Train Loss   Remaining Time 
         1           0.6845           15.93m
        

In [59]:
score

0.88518514175434837

#### CountVectorizer + Random Forest Classifier:

In [60]:
from sklearn.ensemble import RandomForestClassifier

In [61]:
score = np.mean(cross_val_score(RandomForestClassifier(n_estimators=100, verbose=True), 
                                texts_matrix, labels, cv=10, scoring='f1'))

[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:   15.3s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   29.6s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.1s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:   13.7s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   28.6s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.1s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:   14.3s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   29.8s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.1s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:   15.9s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:   30.5s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jo

In [62]:
score

0.90988081359919448

#### CountVectorizer + DecisionTreeClassifier:

In [83]:
from sklearn.tree import DecisionTreeClassifier

In [87]:
score = np.mean(cross_val_score(DecisionTreeClassifier(), 
                                texts_matrix, labels, cv=10, scoring='f1'))

In [88]:
score

0.88728049422989963

Попробуем те же самые классификаторы с Tfidf:

In [93]:
tfidf = TfidfVectorizer()
tfidf.fit(texts)
texts_matrix_tfidf = tfidf.transform(texts)

#### TfidfVectorizer + XGBClassifier:

In [96]:
score = np.mean(cross_val_score(GradientBoostingClassifier(n_estimators=100, verbose=True), 
                                texts_matrix, labels, cv=10, scoring='f1'))

      Iter       Train Loss   Remaining Time 
         1           0.6845           10.78m
         2           0.6255            9.31m
         3           0.5846            8.60m
         4           0.5492            8.17m
         5           0.5202            8.35m
         6           0.4980            8.41m
         7           0.4762            8.17m
         8           0.4594            8.06m
         9           0.4440            7.90m
        10           0.4306            7.74m
        20           0.3344            6.94m
        30           0.2791            6.70m
        40           0.2400            5.93m
        50           0.2109            4.96m
        60           0.1917            4.02m
        70           0.1777            2.91m
        80           0.1649            1.89m
        90           0.1461           56.28s
       100           0.1383            0.00s
      Iter       Train Loss   Remaining Time 
         1           0.6845            7.76m
        

In [97]:
score

0.88512843717957623

#### Tfidf + DecisionTreeClassifier:

In [94]:
score = np.mean(cross_val_score(RandomForestClassifier(n_estimators=100, verbose=True), 
                                texts_matrix_tfidf, labels, cv=10, scoring='f1'))

[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    1.9s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    4.3s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    2.1s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    3.9s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    1.8s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    3.6s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    0.0s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    1.8s
[Parallel(n_jobs=1)]: Done 100 out of 100 | elapsed:    3.7s finished
[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:    0.0s
[Parallel(n_jo

In [95]:
score

0.91385408988093297

#### tfidf + DecisionTreeClassifier:

In [98]:
score = np.mean(cross_val_score(DecisionTreeClassifier(), 
                                texts_matrix_tfidf, labels, cv=10, scoring='f1'))

In [99]:
score

0.8923321061843964

C tfidf random rofest работает лучше, gradient bossting'у все равно, DecisionTreeClassifier стал чуть-чуть лучше. 
Но все равно это все не очень, хуже, чем просто logisticRegression из коробки. Поэтому попробуем лучше подобрать параметры к лучшему на данный момент классификатору: LogisticRegression:

#### GridSearchCV for LogisticRegression:

In [63]:
from sklearn.grid_search import GridSearchCV

In [76]:
tuned_parameters = {'tol': [1e-6, 1e-5, 1e-4, 1e-3],
                     'C': [0.1, 0.5, 1, 7, 10, 50, 100]}

In [77]:
clf = GridSearchCV(LogisticRegression(), tuned_parameters, cv=10, scoring='f1', verbose=True)

In [78]:
clf.fit(texts_matrix, labels)

[Parallel(n_jobs=1)]: Done  49 tasks       | elapsed:   39.7s
[Parallel(n_jobs=1)]: Done 199 tasks       | elapsed:  2.4min


Fitting 10 folds for each of 28 candidates, totalling 280 fits


[Parallel(n_jobs=1)]: Done 280 out of 280 | elapsed:  4.9min finished


GridSearchCV(cv=10, error_score='raise',
       estimator=LogisticRegression(C=1.0, class_weight=None, dual=False, fit_intercept=True,
          intercept_scaling=1, max_iter=100, multi_class='ovr', n_jobs=1,
          penalty='l2', random_state=None, solver='liblinear', tol=0.0001,
          verbose=0, warm_start=False),
       fit_params={}, iid=True, n_jobs=1,
       param_grid={'C': [0.1, 0.5, 1, 7, 10, 50, 100], 'tol': [1e-06, 1e-05, 0.0001, 0.001]},
       pre_dispatch='2*n_jobs', refit=True, scoring='f1', verbose=True)

In [24]:
clf.best_score_

0.9424520527834863


Воо, стало лучше

### #11 

Как видно из работы с \*граммами, использование iграмм, где i>1, неэффективно. Также после подбора лучшего классификатора и параметров (конечно, перебор был не очень большим, но можно все же), CountVectorizer + LogisticRegression оказались лучшшей парой. Это значит, видимо, что в спаме присутствуют характерные слова, под кторые хорошо подстраивается функция логистической регрессии. При этом характерных пар и троек слов уже намного меньше, что видно по экспериментам с *граммами. Эти догадки также подтверждает пункт 6 --- там мы смотрели на результат предсказания lr на 5 сообщениях --- первые 4 он определил верно, пятое --- нет. В первых двух сообщениях (спамах) можно видеть повторяющиеся слова, которые, видимо, и отлавливает lr. В последнем же сообщении всего 2 слова, и среди них, видимо, нет слов, которые lr в процессе обучения выделила как ключевые в спаме (выделила -- построила функцию, сильно на них опирающуюся). 

Может, в неспаме этой выборки также присутствуют характерные слова --- например, "привет" или тп, т.е. слова, характерные для диалогов (кажется, неспам этого датасета преимущественно состоит из диалгов). 