# Машины опорных векторов
Машина опорНЬiх векторов (Support Vector Machine - SVМ) - это классификатор,
определенный с использованием гиперплоскости, разделяющей
классы. Разделяющая rиперruюскость представляет собой N-мерную версию
прямой линии. При условии, что в задаче бинарной классификации задан
маркированный обучающий набор данных, SVМ находит оптимальную
гиперплоскость, которая делит данные на два класса. Этот метод легко распространяется
на задачу с N классами.
Рассмотрим двумерный случай с двумя классами точек. Таким образом,
мы будем иметь дело только с точками и прямыми, расположенными на
двумерной плоскости, что значительно проще, чем визуализировать векторы
и гиперплоскости в пространстве большей размерности. Конечно же, это
упрощенная версия задачи SVМ, но очень важно рассмотреть и визуализировать
данный случай, прежде чем переходить к наборам данных более высоких
размерностей.
Рассмотрим рис. 2.8.
Как видите, мы имеем два класса точек и хотим найти оптимальную гиперплоскость,
разделяющую эти классы. Однако что именно следует считать
критерием оптимальности? На рисунке сплошная линия представляет
оптимальную гиперплоскость. Можно провести множество прямых линий,
разделяющих данные классы точек, но эта линия является наилучшим разделителем,
поскольку она максимизирует расстояния, на которые точки
удалены от разделяющей их линии. Точки, расположенные на пунктирных
линиях, называются опорными векторами. Расстояние между двумя пунктирными
линиями называется максимальным Зазором.

### Классификация данных о доходах
с помощью машин опорных векторов
Создадим классификатор в виде машины опорных векторов, предназначенный
для прогнозирования границ дохода заданного физического лица на
основе 14 атрибутов. Нашей целью является выяснение условий, при которых
ежегодный доход человека превышает $50000 или меньше этой величины.
Следовательно, мы имеем дело с задачей бинарной классификации. Мы
воспользуемся набором данных о доходах, предоставленным Бюро переписи
населения США по адресу https: //archive .ics.uc i.edu /ml /da tasets/
Census+ Income. Следует отметить одну особенность этого набора, которая
заключается в том, что каждая точка данных представляет собой сочетание
текста и чисел. Мы не можем использовать эти данные в необработанном
виде, поскольку алгоритмам неизвестно, как обрабатывать слова. Мы также
не можем преобразовать все данные, используя кодирование меток, поскольку
числовые данные также содержат ценную информацию . Следовательно,
чтобы создать эффективный классификатор, мы должны использовать комбинацию
кодировщиков меток и необработанных числовых данных.

In [1]:
import numpy as np 
import matplotlib.pyplot as plt 
from sklearn import preprocessing
from sklearn.svm import LinearSVC
from sklearn.multiclass import OneVsOneClassifier

In [2]:
# входные файлы
input_file = 'income_data.txt'

Загружаемые из файла данные нужно подготовить к классификации, подвергнув
их предварительной обработке. Для каждою класса мы будем использовать
не более 25000 точек данных.

In [3]:
# чтение данных
X = []
y = []
count_class1 = 0
count_class2 = 0
max_datapoints = 25000

In [None]:
with open(input_file, 'r') as f:
    for line in f.readlines():
        if count_class1 >= max_datapoints and count_class2 >= max_datapoints:
            break
        
        if '?' in line:
            continue
        
        data = line[:-1].split(', ')
        
        if data[-1] == '<=50K' and count_class1 < max_datapoints:
            X.append(data)
            count_class1 += 1
            
        if data[-1] == '>50K' and count_class2 < max_datapoints:
            X.append(data)
            count_class2 += 1
# Преобразование в массив numpy 
X = np.array(X)
print(X)

Преобразуем список в массив array, чтобы его можно было использовать
в качестве входных данных функций sklearn
Если атрибут - строка, то он нуждается в кодировании. Если атрибут -
число, мы можем оставить его в том виде, как он есть. Заметьте, что в конечном
счете мы получим несколько кодировщиков меток, которые нам нужно
будет отслеживать.

In [None]:
# Преобразование стоковых данных в числовые
label_encoder = []
X_encoded = np.empty(X.shape)
for i, item in enumerate(X[0]):
    if item.isdigit():
        X_encoded[:, 1] = X[:, i]
    else:
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoded[:, i] = label_encoder[-1].fit_transform(X[:, i])
                

In [2]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.svm import LinearSVC
from sklearn.multiclass import OneVsOneClassifier
from sklearn.model_selection import train_test_split 
from sklearn.model_selection import cross_val_score
# Input file containing data
input_file = 'income_data.txt'

# Read the data
X = []
y = []
count_class1 = 0
count_class2 = 0
max_datapoints = 25000

with open(input_file, 'r') as f:
    for line in f.readlines():
        if count_class1 >= max_datapoints and count_class2 >= max_datapoints:
            break

        if '?' in line:
            continue

        data = line[:-1].split(', ')

        if data[-1] == '<=50K' and count_class1 < max_datapoints:
            X.append(data)
            count_class1 += 1

        if data[-1] == '>50K' and count_class2 < max_datapoints:
            X.append(data)
            count_class2 += 1

# Convert to numpy array
X = np.array(X)

# Convert string data to numerical data
label_encoder = [] 
X_encoded = np.empty(X.shape)
for i,item in enumerate(X[0]):
    if item.isdigit(): 
        X_encoded[:, i] = X[:, i]
    else:
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoded[:, i] = label_encoder[-1].fit_transform(X[:, i])

X = X_encoded[:, :-1].astype(int)
y = X_encoded[:, -1].astype(int)

# Create SVM classifier
classifier = OneVsOneClassifier(LinearSVC(random_state=0))

# Train the classifier
classifier.fit(X, y)

# Cross validation
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=5)
classifier = OneVsOneClassifier(LinearSVC(random_state=0))
classifier.fit(X_train, y_train)
y_test_pred = classifier.predict(X_test)

# Compute the F1 score of the SVM classifier
f1 = cross_val_score(classifier, X, y, scoring='f1_weighted', cv=3)
print("F1 score: " + str(round(100*f1.mean(), 2)) + "%")

# Predict output for a test datapoint
input_data = ['37', 'Private', '215646', 'HS-grad', '9', 'Never-married', 'Handlers-cleaners', 'Not-in-family', 'White', 'Male', '0', '0', '40', 'United-States']

# Encode test datapoint
input_data_encoded = [-1] * len(input_data)
count = 0
for i, item in enumerate(input_data):
    if item.isdigit():
        input_data_encoded[i] = int(input_data[i])
    else:
        input_data_encoded[i] = int(label_encoder[count].transform(input_data[i]))
        count += 1 

input_data_encoded = np.array(input_data_encoded)

# Run classifier on encoded datapoint and print output
predicted_class = classifier.predict(input_data_encoded)
print(label_encoder[-1].inverse_transform(predicted_class)[0])





F1 score: 56.15%




ValueError: y should be a 1d array, got an array of shape () instead.