# Введение

Метод опорных векторов (Support Vector Machine, SVM) — один из видов линейных классификаторов. Функционал, который он оптимизирует, направлен на максимизацию ширины разделяющей полосы между классами. Из теории статистического обучения известно, что эта ширина тесно связана с обобщающей способностью алгоритма, а ее максимизация позволяет бороться с переобучением.

Одна из причин популярности линейных методов заключается в том, что они хорошо работают на разреженных данных. Так называются выборки с большим количеством признаков, где на каждом объекте большинство признаков равны нулю. Разреженные данные возникают, например, при работе с текстами. Дело в том, что текст удобно кодировать с помощью "мешка слов" — формируется столько признаков, сколько всего уникальных слов встречается в текстах, и значение каждого признака равно числу вхождений в документ соответствующего слова. Ясно, что общее число различных слов в наборе текстов может достигать десятков тысяч, и при этом лишь небольшая их часть будет встречаться в одном конкретном тексте.

Можно кодировать тексты хитрее, и записывать не количество вхождений слова в текст, а TF-IDF. Это показатель, который равен произведению двух чисел: TF (term frequency) и IDF (inverse document frequency). Первая равна отношению числа вхождений слова в документ к общей длине документа. Вторая величина зависит от того, в скольки документах выборки встречается это слово. Чем больше таких документов, тем меньше IDF. Таким образом, TF-IDF будет иметь высокое значение для тех слов, которые много раз встречаются в данном документе, и редко встречаются в остальных.

## Данные

Как мы уже говорили выше, линейные методы часто применяются для решения различных задач анализа текстов. В этом задании мы применим метод опорных векторов для определения того, к какой из тематик относится новость: атеизм или космос.

In [1]:
#load data

from sklearn import datasets

newsgroups = datasets.fetch_20newsgroups(
                    subset='all', 
                    categories=['alt.atheism', 'sci.space']
             )

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.svm import SVC
import numpy as np
from sklearn.model_selection import train_test_split
#load cross validation algorithm
from sklearn.model_selection import cross_val_score
#load k-fold algorithm for model evaluation
from sklearn.model_selection import KFold
from sklearn.model_selection import GridSearchCV
#load metrics to evaluate the results
from sklearn.metrics import classification_report
from sklearn.metrics import confusion_matrix
from sklearn.metrics import accuracy_score

In [29]:
X = newsgroups['data']
y = newsgroups['target']

X_train, X_validation, Y_train, Y_validation = train_test_split(X, y, test_size=0.20, random_state=1)

In [12]:
vectorizer = TfidfVectorizer()
vectorizer.fit_transform(X_full)

<1786x28382 sparse matrix of type '<class 'numpy.float64'>'
	with 303138 stored elements in Compressed Sparse Row format>

In [38]:
grid = {'C': np.power(10.0, np.arange(-5, 6))}
cv = KFold(n_splits=5, shuffle=True, random_state=241)
clf = SVC(kernel='linear', random_state=241)
gs = GridSearchCV(clf, grid, scoring='accuracy', cv=cv)
gs.fit(X, y)

ValueError: could not convert string to float: "From: kempmp@phoenix.oulu.fi (Petri Pihko)\nSubject: Re: Christian Morality is\nOrganization: University of Oulu, Finland\nX-Newsreader: TIN [version 1.1 PL9]\nLines: 107\n\nDan Schaertel,,, (dps@nasa.kodak.com) wrote:\n> In article 21627@ousrvr.oulu.fi, kempmp@phoenix.oulu.fi (Petri Pihko) writes:\n\n> |>I love god just as much as she loves me. If she wants to seduce me,\n> |>she'll know what to do. \n\n> But if He/She did you would probably consider it rape.  \n\nOf course not. I would think that would be great _fun_, not having ever\nfelt the joy and peace the Christians speak of with a longing gaze.\nThis is not what I got when I believed - I just tried to hide my fear\nof getting punished for something I never was sure of. The Bible is\nhopelessly confusing for someone who wants to know for sure. God did\nnot answer. In the end, I found I had been following a mass delusion,\na lie. I can't believe in a being who refuses to give a sli

ValueError: could not convert string to float: 'From: 9051467f@levels.unisa.edu.au (The Desert Brat)\nSubject: Re: Keith Schneider - Stealth Poster?\nOrganization: Cured, discharged\nLines: 24\n\nIn article <1pa0f4INNpit@gap.caltech.edu>, keith@cco.caltech.edu (Keith Allan Schneider) writes:\n\n> But really, are you threatened by the motto, or by the people that use it?\n\nEvery time somone writes something and says it is merely describing the norm,\nit is infact re-inforcing that norm upon those programmed not to think for\nthemselves. The motto is dangerous in itself, it tells the world that every\n*true* American is god-fearing, and puts down those who do not fear gods. It\ndoesn\'t need anyone to make it dangerous, it does a good job itself by just\nexisting on your currency.\n\n> keith\n\nThe Desert Brat\n-- \nJohn J McVey, Elc&Eltnc Eng, Whyalla, Uni S Australia,    ________\n9051467f@levels.unisa.edu.au      T.S.A.K.C.            \\/Darwin o\\\nFor replies, mail to whjjm@wh.whyalla.unisa.edu.au      /\\________/\nDisclaimer: Unisa hates my opinions.                       bb  bb\n+------------------------------------------------------+-----------------------+\n|"It doesn\'t make a rainbow any less beautiful that we | "God\'s name is smack  |\n|understand the refractive mechanisms that chance to   | for some."            |\n|produce it." - Jim Perry, perry@dsinc.com             |    - Alice In Chains  |\n+------------------------------------------------------+-----------------------+\n'

In [40]:
C = gs.best_params_['C']

In [42]:
svm = SVC(C=C, kernel = 'linear', random_state=241)
svm.fit(X,y)

ValueError: could not convert string to float: 'From: 9051467f@levels.unisa.edu.au (The Desert Brat)\nSubject: Re: Keith Schneider - Stealth Poster?\nOrganization: Cured, discharged\nLines: 24\n\nIn article <1pa0f4INNpit@gap.caltech.edu>, keith@cco.caltech.edu (Keith Allan Schneider) writes:\n\n> But really, are you threatened by the motto, or by the people that use it?\n\nEvery time somone writes something and says it is merely describing the norm,\nit is infact re-inforcing that norm upon those programmed not to think for\nthemselves. The motto is dangerous in itself, it tells the world that every\n*true* American is god-fearing, and puts down those who do not fear gods. It\ndoesn\'t need anyone to make it dangerous, it does a good job itself by just\nexisting on your currency.\n\n> keith\n\nThe Desert Brat\n-- \nJohn J McVey, Elc&Eltnc Eng, Whyalla, Uni S Australia,    ________\n9051467f@levels.unisa.edu.au      T.S.A.K.C.            \\/Darwin o\\\nFor replies, mail to whjjm@wh.whyalla.unisa.edu.au      /\\________/\nDisclaimer: Unisa hates my opinions.                       bb  bb\n+------------------------------------------------------+-----------------------+\n|"It doesn\'t make a rainbow any less beautiful that we | "God\'s name is smack  |\n|understand the refractive mechanisms that chance to   | for some."            |\n|produce it." - Jim Perry, perry@dsinc.com             |    - Alice In Chains  |\n+------------------------------------------------------+-----------------------+\n'

In [43]:
svm

SVC(C=1e-05, break_ties=False, cache_size=200, class_weight=None, coef0=0.0,
    decision_function_shape='ovr', degree=3, gamma='scale', kernel='linear',
    max_iter=-1, probability=False, random_state=241, shrinking=True, tol=0.001,
    verbose=False)