In [68]:
import pandas as pd
import numpy as np
from sklearn.svm import SVC
from sklearn.cross_validation import KFold
from sklearn.grid_search import GridSearchCV
from sklearn.feature_extraction import text

In [69]:
df = pd.read_csv("svm-data.csv", names=["target", "feature1", "feature2"])
df.head()

Unnamed: 0,target,feature1,feature2
0,0,0.7,0.29
1,1,0.23,0.55
2,0,0.72,0.42
3,0,0.98,0.68
4,0,0.48,0.39


## Task

> Обучите классификатор с линейным ядром, параметром C = 100000 и random_state=241. Такое значение параметра нужно использовать, чтобы убедиться, что SVM работает с выборкой как с линейно разделимой. При более низких значениях параметра алгоритм будет настраиваться с учетом слагаемого в функционале, штрафующего за маленькие отступы, из-за чего результат может не совпасть с решением классической задачи SVM для линейно разделимой выборки.

>Найдите номера объектов, которые являются опорными (нумерация с единицы). Они будут являться ответом на задание. Обратите внимание, что в качестве ответа нужно привести номера объектов в возрастающем порядке через запятую или пробел. Нумерация начинается с 1.

In [70]:
Y_train = df["target"].as_matrix()
X_train = df[["feature1", "feature2"]].as_matrix()
svc = SVC(C=100000, random_state=241, kernel="linear")
svc.fit(X_train, Y_train)
print(svc.support_)

[3 4 9]


## Анализ текстов

Скачиваем подборку новостей

In [71]:
from sklearn import datasets

newsgroups = datasets.fetch_20newsgroups(
                    subset='all', 
                    categories=['alt.atheism', 'sci.space']
             )
X_raw = newsgroups.data
print(len(X_raw))
y = newsgroups.target

1786


### Численное представление текстов

[TF-IDF](https://ru.wikipedia.org/wiki/TF-IDF)

In [72]:
tf_idf = text.TfidfVectorizer()
X = tf_idf.fit_transform(X_raw)

Just getting to know here

In [73]:
txt = ["Hello there", "Anybody there"]
temp = text.TfidfVectorizer()
X_temp = temp.fit_transform(txt)
temp.get_feature_names()


['anybody', 'hello', 'there']

### Подбираем параметры

> Первым аргументом в GridSearchCV передается классификатор, для которого будут подбираться значения параметров, вторым — словарь (dict), задающий сетку параметров для перебора. После того, как перебор окончен, можно проанализировать значения качества для всех значений параметров и выбрать наилучший вариант:

In [74]:
grid = {'C': np.power(10.0, np.arange(-5, 6))}  # будем тестировать эти параметры
cv = KFold(y.size, n_folds=5, shuffle=True, random_state=241)
clf = SVC(kernel='linear', random_state=241)
gs = GridSearchCV(clf, grid, scoring='accuracy', cv=cv)
gs.fit(X, y)

GridSearchCV(cv=sklearn.cross_validation.KFold(n=1786, n_folds=5, shuffle=True, random_state=241),
       error_score='raise',
       estimator=SVC(C=1.0, cache_size=200, class_weight=None, coef0=0.0,
  decision_function_shape=None, degree=3, gamma='auto', kernel='linear',
  max_iter=-1, probability=False, random_state=241, shrinking=True,
  tol=0.001, verbose=False),
       fit_params={}, iid=True, n_jobs=1,
       param_grid={'C': array([  1.00000e-05,   1.00000e-04,   1.00000e-03,   1.00000e-02,
         1.00000e-01,   1.00000e+00,   1.00000e+01,   1.00000e+02,
         1.00000e+03,   1.00000e+04,   1.00000e+05])},
       pre_dispatch='2*n_jobs', refit=True, scoring='accuracy', verbose=0)

### Ищем оптимальные параметры

In [75]:
mean_score = None
prameters = None
for x in gs.grid_scores_:
    if mean_score is None or x.mean_validation_score < mean_score:
        mean_score = x.mean_validation_score
        parameters = x.parameters
C = parameters['C']
print(C)

1e-05


> Обучите SVM по всей выборке с оптимальным параметром C, найденным на предыдущем шаге.

>Найдите 10 слов с наибольшим абсолютным значением веса (веса хранятся в поле coef_ у svm.SVC). Они являются ответом на это задание. Укажите эти слова через запятую или пробел, в нижнем регистре, в лексикографическом порядке.

In [76]:
svc = SVC(C, kernel="linear")
svc.fit(X, y)
svc.coef_

<1x28382 sparse matrix of type '<class 'numpy.float64'>'
	with 27189 stored elements in Compressed Sparse Row format>

Достаем индексы пяти самых частых чисел в массиве

In [111]:
srt = svc.coef_.todense().argsort()
word_indexes = list(np.asarray(srt[0, -10:])[0][::-1])
words_raw = tf_idf.get_feature_names()
answer = [words_raw[x] for x in word_indexes]
print(sorted(answer))

['access', 'alaska', 'digex', 'henry', 'moon', 'nasa', 'pat', 'shuttle', 'space', 'toronto']
