                                Máquina de vetor Suporte
-> A máquina de vetor suporte (svm) é um modelo de machine learning que pode
ser usado tanto para classificação quanto para regressão. No contexto de
classificação, a svm busca encontrar a melhor maneira de separar os dados
em diferentes classes.

-> Ideia Principal: Imagine que você tem um conjunto de dados com 2 tipos
de pontos (por exemplo, "maçãs" e "laranjas") espelhados em um gráfico.
A svm tenta encontrar uma linha (ou um "hiperplano", em dimensões superiores)
que não só separe as duas classes, mas que faça isso da forma mais otimizada
possivel.

-> O grande diferencial da SVM é que ela não se contenta em encontrar
qualquer linha de separação; ela busca a linha que tenha a maior margem
de segurança possivel entre as classes.

-> margem: É a distância entre o hiperplano (a linha de separação) e
os pontos de dados mais próximos de cada classe.

-> Vetor de Suporte: São esses pontos de dados mais próximos a linha de
separação. Eles são os "vetores de suporte" do modelo, pois são os únicos
pontos que realmente importam para definir a margem e o hiperplano. O restante dos pontos pode ser ignorado.

primeiro, vamos criar a função que irá realizar a predição do modelo

In [None]:
# Função que irá retornar a predição do modelo. A função retorna
# como argumento:
# classificador: Irá conter o modelo treinado.
# xtest: Irá conter os dados necessários para realizar
# a predição.
def predicaoModelo(classificador, xtest):
    
    # Retorno da predição do modelo usando os dados do
    # xtest como argumento da função predict. 
    return classificador.predict(xtest[0])

Função que irá criar a matriz de confusão que tem como objetivo mostrar a quantidade de erros e acertos do modelo

In [None]:
# Função que irá construir a matriz de confusão. A função irá receber como
# argumento:
# classificador: Contém o modelo treinado
# ytest: Ira conter os dados reais que serão comparados com a
# predição do modelo.
# ypredicao: Ira conter as classificações do modelo.
def matriz_confusao(classificador, ytest, ypredicao):
    
    # Import da classe confusion_matrix da biblioteca metrics do
    # módulo sklearn que tem como objetivo criar matrizes de confusão.
    from sklearn.metrics import confusion_matrix
    
    # Instância da classe de matriz de confusão. Ela irá receber
    # no seu construtor os dados reais (ytest) e a predição do 
    # modelo (ypredicao)
    matriz = confusion_matrix(ytest, ypredicao)
    
    # Retorno da matriz de confusão construida    
    return matriz

Função que irá construir o modelo de máquina vetor de suporte

In [None]:
# Função que irá construir o modelo. A função recebe como argumento:
# xtrain: Dados de treino do conjunto x (caracteristicas)
# ytrain: Dados de treino do conjunto y (variável alvo)
# kernel: Algoritmo que o modelo usará para classificar os dados.
def computarSVC(xtrain, ytrain, kernel):

    # Import da classe SVC da biblioteca svm do módulo sklearn
    # que tem como objetivo criar o modelo de máquina de vetor
    # suporte para classificação.
    from sklearn.svm import SVC
    
    # Instância da classe de máquina de vetor suporte. O construtor
    # da classe irá receber como argumento o kernel que será utilizado
    # pelo modelo.
    classificador = SVC(kernel=kernel)
    
    # Treinamento do modelo usando os dados de treino com o objetivo
    # de identificar padrões e tendências.
    classificador.fit(xtrain[0], ytrain)
    
    # Retorno do modelo treinado
    return classificador
    

Função que irá acessar os datasets e utilizar a função que constrói o
modelo de máquina de vetor suporte

In [None]:
# Import do nosso arquivo de funções
from minhasfuncoes import funcoes

# Criação da função que irá acessar os datasets e aplicar o modelo de
# classificação. A função recebe como argumento:
# nome_do_arquivo: Local que a base de dados está armazenada.

# delimitador: Sinal que separa os dados no arquivo csv. Ele terá como
# valor padrão a ',' que é o sinal padrão de arquivos csv.

# inicio_coluna_preenchimento: Indice da coluna inicial que terá os seus
# dados faltantes preenchidos. O argumento irá receber como valor padrão
# o None, dessa maneira não precisaremos atribuir um valor ao parametro
# caso o dataset não possua valores faltantes.

# fim_coluna_preenchimento: Indice da coluba final que terá os seus dados
# faltantes preenchidos. O argumento irá receber como valor padrão o None
# dessa maneira não precisaremos atribuir um valor ao parametro caso o
# dataset não possua valores faltantes.

# lista_rotulacao: ira conter a lista de indices das colunas categóricas
# que devem ser numericamente rotuladas. O argumento recebe como valor 
# padrão o None, dessa maneira, não precisaremos atribuir um valor ao
# parametro caso o dataset não possua colunas categóricas
def SVC(nome_do_arquivo, delimitador = ',', inicio_coluna_preenchimento = None, fim_coluna_preenchimento = None, lista_rotulacao = None):
    
    
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    
    if inicio_coluna_preenchimento and fim_coluna_preenchimento != None:
        
        x = funcoes.preencherDadosFaltantes(x, inicio_coluna_preenchimento, fim_coluna_preenchimento)
    
    if lista_rotulacao != None:
        
        for i in lista_rotulacao:
            
            x = funcoes.rotulacao(x, i)
    
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    
    xtrain = funcoes.normalizacao(xtrain)
    
    xtest = funcoes.normalizacao(xtest)
    
    classificador = computarSVC(xtrain, ytrain, 'linear')
    
    ypredicao = predicaoModelo(classificador, xtest)
    
    return matriz_confusao(classificador, ytest, ypredicao)
    

    
    
    

Aplicando a função no dataset titanic

In [30]:
matriz_titanic = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_coluna_preenchimento=2, fim_coluna_preenchimento=2, lista_rotulacao=[1,0])

print(matriz_titanic)

[[89 18]
 [23 49]]


Aplicando a função no dataset pc

In [31]:
matriz_pc = SVC(nome_do_arquivo='Dados/pc.csv')

print(matriz_pc)

[[15  2]
 [ 1  2]]


Vamos agora comparar o modelo de maquina de vetor com o knn usando o arquivo pc

Primeiro vamos importar os arquivos jupyter que convertemos para py (o arquivo que contém os modelos knn e regressão logistica)

                                                            Passo a Passo para conversão de arquivos
-> 1.Copie os arquivos que serão convertidos e cole-os em uma pasta

-> 2.Acesse via terminal a pasta que contém as cópias dos notebooks

-> 3.Utilize o comando "jupyter nbconvert --to script nome do arquivo.ipynb" para converter os
arquivos para o formato .py 

In [32]:
from arquivospy import knn as knn

from arquivospy import Regressaologistica as rl

Realizando as classficações usando os modelos que serão comparados

In [33]:
modelo_knn = knn.knn('Dados/pc.csv')

print(modelo_knn)

[[16  0]
 [ 4  0]]


In [34]:
modelo_maquina_vetor_suporte = SVC(nome_do_arquivo='Dados/pc.csv')

print(modelo_maquina_vetor_suporte)

[[16  1]
 [ 1  2]]


In [35]:
modelo_regressao_logistica = rl.computarRegressaoLogistica('Dados/pc.csv')

print(modelo_regressao_logistica)

[[16  0]
 [ 4  0]]


Agora vamos realizar a comparação de acurácias desses modelos. Para garantirmos a eficiência do teste de 
comparação, devemos repetir o processo de execução dos modelos várias vezes

In [36]:
import numpy as np

array_knn = []

for i in range(0, 100):
        
        classificacao_knn = modelo_knn
        
        array_knn.append(funcoes.acuracia(modelo_knn))

print("Média das acurácias do modelo knn: %.2f "% np.mean(array_knn))


array_maquina_vetor_suporte = []

for i in range(0, 100):
    
    classificacao_maquina_vetor_suporte = modelo_maquina_vetor_suporte
    
    array_maquina_vetor_suporte.append(funcoes.acuracia(classificacao_maquina_vetor_suporte))
    

print("Média das acurácias do modelo de máquina de vetor suporte: %.2f "% np.mean(array_maquina_vetor_suporte))
        

array_regressao_logistica = []

for i in range(0, 100):
    
    classificacao_regressao_logistica = modelo_regressao_logistica
    
    array_regressao_logistica.append(funcoes.acuracia(classificacao_regressao_logistica))
    
print("Média das acurácias do modelo de regressão logistica: %.2f "% np.mean(array_regressao_logistica))

        

Média das acurácias do modelo knn: 0.80 
Média das acurácias do modelo de máquina de vetor suporte: 0.90 
Média das acurácias do modelo de regressão logistica: 0.80 
