# Máquinas de Vetores de suporte

Uma Máquina de Vetor de Suporte (SVM) é um classificador definido usando um hiperplano de separação entre as classes. Este hiperplano é a versão N-dimensional de uma linha. Dados de treinamento rotulados e um problema de classificação binária, o SVM encontra o hiperplano ideal que separa os dados de treinamento em duas classes. Isso pode ser facilmente estendido para o problema com N classes.

Vamos considerar um caso bidimensional com duas classes de pontos. Dado que é 2D, nós só temos que lidar com pontos e linhas em um plano 2D. Isso é mais fácil de visualizar do que vetores e hiperplanes em um espaço de alta dimensão. É claro que esta é uma versão simplificada do problema de SVM, mas é importante entendê-lo e visualizá-lo antes de aplicá-lo a dados de alta dimensão.

Existem duas classes de pontos e queremos encontrar o hiperplano ideal para separar as duas classes. Mas como definimos o ideal? Nesta foto, a linha sólida representa o melhor hiperplano. Você pode desenhar várias linhas diferentes para separar as duas classes de pontos, mas essa linha é o melhor separador, porque maximiza a distância de cada ponto da linha de separação. Os pontos nas linhas pontilhadas são chamados de vetores de suporte. A distância perpendicular entre as duas linhas pontilhadas é chamada margem máxima.

# Classificando Dados de receita usando Support Vector Machines

Construiremos um classificador Support Vector Machine para prever a faixa de renda de uma determinada pessoa com base em 14 atributos. Nosso objetivo é ver onde a renda é maior ou menor que US $ 50.000 por ano. Portanto, este é um problema de classificação binária. Usaremos o conjunto de dados de receita do censo disponível em https://archive.ics.uci.edu/ml/datasets/Census+Income . Uma coisa a notar neste conjunto de dados é que cada datapointum é uma mistura de palavras e números. Não podemos usar os dados em seu formato bruto, porque os algoritmos não sabem como lidar com palavras. Não podemos converter tudo usando o codificador de etiquetas porque os dados numéricos são valiosos. Portanto, precisamos usar uma combinação de codificadores de rótulo e dados numéricos brutos para criar um classificador eficaz.

In [1]:
import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing
from sklearn.svm import LinearSVC
from sklearn.multiclass import OneVsOneClassifier
from sklearn import cross_validation



In [2]:
#input file containing data
input_file = 'income_data.txt'

Para carregar os dados do arquivo, precisamos pré-processá-lo para que possamos prepará-lo para classificação. Nós usaremos no máximo 25.000 pontos de dados para cada classe:

In [3]:
# Read the data
X = []
y = []
count_class1 = 0
count_class2 = 0
max_datapoints = 25000

Abra o arquivo e comece a ler as linhas:

In [4]:
with open(input_file,'r') as f:
    for line in f.readlines():
        if count_class1 >= max_datapoints and count_class2 >= max_datapoints:
            break
        if '?' in line:
            continue
            
        data = line[:-1].split(', ')
        #print(data)
        #print(data[-1])
        if data[-1] == '<=50K' and count_class1 < max_datapoints:
            print("ENTROU")
            X.append(data)
            count_class1 += 1
        if data[-1] == '>50K' and count_class2 < max_datapoints:
            X.append(data)
            count_class2 +=1

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU
ENTROU

convertendo a lista em uma numpy matriz para que possa ser fornecida como entrada para a sklearn

In [5]:
X = np.array(X)

Se algum atributo é uma string, então precisamos codificá-lo. Se for um número, podemos mantê-lo como está. Note que teremos vários codificadores de etiquetas e precisamos acompanhar todos eles:

In [6]:
# Convert string data to numerical data
label_encoder = []
X_encoded = np.empty(X.shape)
for i, item in enumerate(X[0]):
    if item.isdigit():
        X_encoded[:,i] = X[:,i]
    else:
        label_encoder.append(preprocessing.LabelEncoder())
        X_encoded[:,i] = label_encoder[-1].fit_transform(X[:,i])
        
X = X_encoded[:,:-1].astype(int)
y = X_encoded[:,-1].astype(int)

criando o SVM classificador com um kernel linear

In [7]:
#SVM classificador
classifier = OneVsOneClassifier(LinearSVC(random_state=0))

Treinando o classificador

In [8]:
# Treino do classificador
classifier.fit(X,y)

OneVsOneClassifier(estimator=LinearSVC(C=1.0, class_weight=None, dual=True, fit_intercept=True,
     intercept_scaling=1, loss='squared_hinge', max_iter=1000,
     multi_class='ovr', penalty='l2', random_state=0, tol=0.0001,
     verbose=0),
          n_jobs=1)

Validação cruzada usanod uma divisão 80/20 para treinamento e teste. E predição para dados de treinamento:

In [9]:
# Cross validation
X_train, X_test, y_train, y_test = cross_validation.train_test_split(X,y,test_size=0.2,random_state=5)
classifier = OneVsOneClassifier(LinearSVC(random_state=0))
classifier.fit(X_train,y_train)
y_test_pred = classifier.predict(X_test)

Pontuação F1 para o classificador:

In [10]:
# Compute the F1 score of the SVM classifier
f1 = cross_validation.cross_val_score(classifier,X,y,scoring='f1_weighted',cv=3)
print("F1 score: " + str(round(100*f1.mean(), 2)) + '%')

F1 score: 71.35%


Com o classificador pronto, vamos ver como obter um ponto de dados de entrada aleatório e prever a saída , definindo um desses pontos de dados:

In [11]:
# Predict output for a test datapoint 
input_data = ['37', 'Private', '215646', 'HS-grad', '9', 'Never-married', 'Handlers-cleaners', 'Not-in-family', 'White', 'Male', '0', '0', '40', 'United-States']

antes de fazer a previsão, precisamos codificar esse ponto de dados usando os codificadores de rótulo que criamos anteriormente:

In [39]:
# Encode test datapoint 
input_data_encoded = [-1] * len(input_data) 
count = 0 
for i, item in enumerate(input_data): 
    if item.isdigit(): 
        input_data_encoded[i] = int(input_data[i]) 
    else: 
        input_data_encoded[i] = int(label_encoder[count].transform([input_data[i]])) 
        count += 1  
 
input_data_encoded = np.array(input_data_encoded)

Agora vamos prever a saída:

In [43]:
# Run classifier on encoded datapoint and print output 
predicted_class = classifier.predict(input_data_encoded.reshape(1,-1))
print(label_encoder[-1].inverse_transform(predicted_class)[0])

<=50K


  if diff:


In [44]:
num_folds = 3
accuracy_values = cross_validation.cross_val_score(classifier,X,y,scoring='accuracy',cv=num_folds)
print("Accuracy: "+str(round(100*accuracy_values.mean(),2)) + "%")

Accuracy: 78.1%


In [45]:
precision_values = cross_validation.cross_val_score(classifier,X,y,scoring='precision_weighted',cv=num_folds)
print("Precision: " + str(round(100*precision_values.mean(),2)) + "%")

Precision: 80.93%


In [46]:
recall_values = cross_validation.cross_val_score(classifier,X, y, scoring='recall_weighted', cv=num_folds) 
print("Recall: " + str(round(100*recall_values.mean(), 2)) + "%") 

Recall: 78.1%
