                                Máquina de vetor Suporte
-> A máquina de vetor suporte (svm) é um modelo de machine learning que pode
ser usado tanto para classificação quanto para regressão. No contexto de
classificação, a svm busca encontrar a melhor maneira de separar os dados
em diferentes classes.

-> Ideia Principal: Imagine que você tem um conjunto de dados com 2 tipos
de pontos (por exemplo, "maçãs" e "laranjas") espelhados em um gráfico.
A svm tenta encontrar uma linha (ou um "hiperplano", em dimensões superiores)
que não só separe as duas classes, mas que faça isso da forma mais otimizada
possivel.

-> O grande diferencial da SVM é que ela não se contenta em encontrar
qualquer linha de separação; ela busca a linha que tenha a maior margem
de segurança possivel entre as classes.

-> margem: É a distância entre o hiperplano (a linha de separação) e
os pontos de dados mais próximos de cada classe.

-> Vetor de Suporte: São esses pontos de dados mais próximos a linha de
separação. Eles são os "vetores de suporte" do modelo, pois são os únicos
pontos que realmente importam para definir a margem e o hiperplano. O restante dos pontos pode ser ignorado.

primeiro, vamos criar a função que irá realizar a predição do modelo

In [18]:
# Função que irá retornar a predição do modelo. A função retorna
# como argumento:
# classificador: Irá conter o modelo treinado.
# xtest: Irá conter os dados necessários para realizar
# a predição.
def predicaoModelo(classificador, xtest):
    
    # Retorno da predição do modelo usando os dados do
    # xtest como argumento da função predict. 
    return classificador.predict(xtest[0])

Função que irá criar a matriz de confusão que tem como objetivo mostrar a quantidade de erros e acertos do modelo

In [19]:
# Função que irá construir a matriz de confusão. A função irá receber como
# argumento:
# ytest: Ira conter os dados reais que serão comparados com a
# predição do modelo.
# ypredicao: Ira conter as classificações do modelo.
def matriz_confusao(ytest, ypredicao):
    
    # Import da classe confusion_matrix da biblioteca metrics do
    # módulo sklearn que tem como objetivo criar matrizes de confusão.
    from sklearn.metrics import confusion_matrix
    
    # Instância da classe de matriz de confusão. Ela irá receber
    # no seu construtor os dados reais (ytest) e a predição do 
    # modelo (ypredicao)
    matriz = confusion_matrix(ytest, ypredicao)
    
    # Retorno da matriz de confusão construida    
    return matriz

Função que irá construir o modelo de máquina vetor de suporte

In [20]:
# Função que irá construir o modelo. A função recebe como argumento:
# xtrain: Dados de treino do conjunto x (caracteristicas)
# ytrain: Dados de treino do conjunto y (variável alvo)
# kernel: Algoritmo que o modelo usará para classificar os dados.
def computarSVC(xtrain, ytrain, kernel):

    # Import da classe SVC da biblioteca svm do módulo sklearn
    # que tem como objetivo criar o modelo de máquina de vetor
    # suporte para classificação.
    from sklearn.svm import SVC
    
    # Instância da classe de máquina de vetor suporte. O construtor
    # da classe irá receber como argumento o kernel que será utilizado
    # pelo modelo.
    classificador = SVC(kernel=kernel)
    
    # Treinamento do modelo usando os dados de treino com o objetivo
    # de identificar padrões e tendências.
    classificador.fit(xtrain[0], ytrain)
    
    # Retorno do modelo treinado
    return classificador
    

Função que irá acessar os datasets e utilizar a função que constrói o
modelo de máquina de vetor suporte

In [21]:
# Import do nosso arquivo de funções
from minhasfuncoes import funcoes

# Criação da função que irá acessar os datasets e aplicar o modelo de
# classificação. A função recebe como argumento:
# nome_do_arquivo: Local que a base de dados está armazenada.

# delimitador: Sinal que separa os dados no arquivo csv. Ele terá como
# valor padrão a ',' que é o sinal padrão de arquivos csv.

# inicio_coluna_preenchimento: Indice da coluna inicial que terá os seus
# dados faltantes preenchidos. O argumento irá receber como valor padrão
# o None, dessa maneira não precisaremos atribuir um valor ao parametro
# caso o dataset não possua valores faltantes.

# fim_coluna_preenchimento: Indice da coluba final que terá os seus dados
# faltantes preenchidos. O argumento irá receber como valor padrão o None
# dessa maneira não precisaremos atribuir um valor ao parametro caso o
# dataset não possua valores faltantes.

# lista_rotulacao: ira conter a lista de indices das colunas categóricas
# que devem ser numericamente rotuladas. O argumento recebe como valor 
# padrão o None, dessa maneira, não precisaremos atribuir um valor ao
# parametro caso o dataset não possua colunas categóricas
def SVC(nome_do_arquivo, delimitador = ',', inicio_coluna_preenchimento = None, fim_coluna_preenchimento = None, lista_rotulacao = None):
    
    # Trecho que irá carregar o dataset na memória: Como no arquivo
    # de funções nós dividimos os dados em x (caracteristicas) e y
    # (variável alvo) usando a função values do pandas (que trans
    # formará os dados em um array numpy) será necessário atraibuir
    # o valor da coluna carregar_dataset em duas variáveis.
    
    # x: Variáveis caracteristicas da base de dados.
    # y: Variável alvo da base de dados. 
    # Carregar_dataset: Função que irá carregar o dataset na memória usando
    # como argumento o nome do arquivo e o seu delimitador. 
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    # Nessa etapa iremos verificar se será necessário ou não utilizar os
    # argumentos que preenchem dados faltantes ou rotulam colunas categó
    # ricas.

    # Primeiro, vamos verificar se os argumentos inicio_coluna_preenchimento
    # e fim_coluna_preenchimento são diferentes do valor padrão None, ou
    # seja, se o argumento possui algum valor.
    if inicio_coluna_preenchimento and fim_coluna_preenchimento != None:
        
        # Se essa condição for verdadeira, vamos chamar a função que 
        # preenche os dados faltantes usando o simpleimputer com os
        # seguintes argumentos:
        # x: Conjunto de dados que serão preenchidos
        # inicio_coluna_preenchimento: Coluna inicial do preenchimento
        # fim_coluna_preenchimento: Coluna final do preenchimento
        x = funcoes.preencherDadosFaltantes(x, inicio_coluna_preenchimento, fim_coluna_preenchimento)
    
    # Agora, iremos verificar se será necessário utilizar a função de
    # rotulação com o argumento lista_rotulacao. Basicamente, iremos
    # verificar se o valor do argumento é diferente do padrão definido
    # (None), ou seja, se o argumento possui um valor definido na chamada
    # do método
    if lista_rotulacao != None:
        
        # Se essa condição for verdadeira, iremos percorrer o argumento
        # lista_rotulacao que irá conter uma lista com os indices das
        # variáveis categóricas que serão numericamente rotuladas
        for i in lista_rotulacao:
            
            # Atribuição do método nos indices listados. 
            # x: Conjunto que será rotulado
            # i: Indice da coluna que será rotulada.
            x = funcoes.rotulacao(x, i)
    
    # Trecho que irá dividir os dados em treino e teste.
    # xtrain: Irá conter o conjunto de treino das caracteristicas
    # que irá ensinar o modelo a perceber padrões e tendências.
    
    # xtest: Irá conter o conjunto de caracteristicas que o modelo
    # usará para realizar a predição/classificação.
    
    # Ytrain: Dados de treino de y (variável alvo) que ensinará como
    # o modelo deve classificar os dados após a análise das caracter
    # isticas
    
    # ytest: Dados reais que serão comparados com a predição do modelo.
    
    # treino_teste: Função do nosso arquivo de funções que irá separa
    # os dados. A função ira receber como argumento:
    # x: Caracteristicas que serão separadas em treino e teste
    # y: Variável alvo que será separada em treino e teste.
    # 0.2: Tamanho do conjunto de teste (20% para testes e 80% para
    # treino).
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    # Função que irá normalizar os dados de treino e teste de x
    # com o objetivo de criar escalas que padronizam os dados e
    # evitam dados discrepantes criando uma média zero e um desvio
    # padrão 1 
    xtrain = funcoes.normalizacao(xtrain)
    
    xtest = funcoes.normalizacao(xtest)
    
    # Variável que irá conter a função computarSVC que tem como objetivo
    # retornar o modelo treinado e pronto para realizar predições. A função
    # irá conter como o argumento:
    # xtrain: Dados de treino de x
    # ytrain: Dados de treino de y
    # linear: kernel (modelo) escolhido para realizar o cálculo
    # que irá definir a classificação dos dados.
    classificador = computarSVC(xtrain, ytrain, 'linear')
    
    # Variável que irá conter a predição do modelo. A função irá receber
    # como argumento o classificador (modelo treinado que contém a função
    # computarSVC) e os dados necessários para a predição (dados no
    # conjunto de xtest).
    ypredicao = predicaoModelo(classificador, xtest)
    
    # Retorno da matriz confusão que irá conter a quantidade de erros e acertos
    # do sistema usando a predição do modelo e os dados reais.
    return matriz_confusao(ytest, ypredicao)

Aplicando a função no dataset titanic

In [22]:
# Como o delimitador do arquivo é a virgula (delimitador padrão) não será
# necessário especificar esse argumento na chamada do método
matriz_titanic = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_coluna_preenchimento=2, fim_coluna_preenchimento=2, lista_rotulacao=[1,0])

print(matriz_titanic)

[[91 20]
 [20 48]]


        Interpretação dos resultados da matriz do arquivo titanic

-> 91: Numero de pessoas que o modelo classificou corretamente como
não sobreviventes

-> 20: Numero de pessoas que o modelo classificou incorretamente como
sobreviventes

-> 20: Numero de pessoas que o modelo classificou incorretamente como
 não sobreviventes

 -> 48:  Numero de pessoas que o modelo classificou corretamente como 
 sobreviventes

Aplicando a função no dataset admission

In [23]:
# Como no nosso caso não necessidade de preencher dados faltantes
# vamos passar como argumento apenas o nome do arquivo, o delimitador
# e a lista que contém os indices das colunas categóricas que serão
# numericamente rotuladas
matriz_pc = SVC(nome_do_arquivo='Dados/admission.csv', delimitador=';',lista_rotulacao=[0])

print(matriz_pc)

[[1 0]
 [0 1]]


        Interpretação dos resultados da matriz do arquivo admission

-> 0: Numero de pessoas que o modelo classificou corretamente como não
aprovados

-> 0: Numero de pessoas que o modelo classificou incorretamente como aprovados

-> 1: Numero de pessoas que o modelo classificou incorretamente como não
aprovado

-> 1: Numero de pessoas que o modelo classificou corretamente como aprovado


Vamos agora comparar o modelo de maquina de vetor com o knn usando o arquivo admission

Primeiro vamos importar os arquivos jupyter que convertemos para py (arquivo que contém o modelo knn)

                                                            Passo a Passo para conversão de arquivos
-> 1.Copie os arquivos que serão convertidos e cole-os em uma pasta

-> 2.Acesse via terminal a pasta que contém as cópias dos notebooks

-> 3.Utilize o comando "jupyter nbconvert --to script nome do arquivo.ipynb" para converter os
arquivos para o formato .py 

In [None]:
# Import do arquivo que contém a função do modelo knn
from arquivospy import knn as knn

Realizando as classficações usando os modelos que serão comparados

In [25]:
# Observação: Essa função já contém o trecho que rotula variáveis categóricas 
modelo_knn = knn.knn(nome_arquivo='Dados/admission.csv', delimitador=';')

print(modelo_knn)

[[0 0]
 [1 1]]


In [26]:
modelo_maquina_vetor_suporte = SVC(nome_do_arquivo='Dados/admission.csv', delimitador=';', lista_rotulacao=[0])

print(modelo_maquina_vetor_suporte)

[[1 0]
 [0 1]]


Agora vamos realizar a comparação de acurácias desses modelos. Para garantirmos a eficiência do teste de 
comparação, devemos repetir o processo de execução dos modelos várias vezes

In [30]:
# Import da biblioteca numpy que possibilita realizar cálculos
# matemáticos e manipular arrays. Vamos usar ela para calcular
# a média das acurácias do modelo
import numpy as np

# Criação do array que irá conter os valores da acurácia do modelo knn
array_knn = []

# Loop que irá executar e coletar a acurácia do modelo knn 100 vezes
for i in range(0, 100):
        
        # Ira executar o modelo knn 100 vezes
        classificacao_knn = knn.knn('Dados/admission.csv', ';')
        
        # Ira adicionar os resultados da função acurácia (que 
        # recebe como argumento a variável classificação_knn
        # que contém a predição do modelo) no array_knn.
        array_knn.append(funcoes.acuracia(classificacao_knn))

# Impressão da média das acurácias coletadas usando a função mean
# do numpy que recebe como argumento o array_knn
print("Média das acurácias do modelo knn: %.2f "% np.mean(array_knn))


# criação do array que ira conter as acurácias do modelo de maquina de vetor suporte.
array_maquina_vetor_suporte = []

# Loop que irá executar e coletar a acurácia do modelo de vetor
# suporte 100 vezes
for i in range(0, 100):
    
    # Ira conter o resultado do modelo maquina de vetorsuporte 100 vezes
    classificacao_maquina_vetor_suporte = SVC(nome_do_arquivo='Dados/admission.csv', delimitador=';', lista_rotulacao=[0])
    
    # Ira adicionar os resultados da função acurácia (que 
    # recebe como argumento a variável classificacao_maquina_vetor_suporte
    # que contém a predição do modelo) no array_maquina_vetor_suporte.
    array_maquina_vetor_suporte.append(funcoes.acuracia(classificacao_maquina_vetor_suporte))
    
# Impressão da média das acurácias coletadas usando a função mean
# do numpy que recebe como argumento o array_maquina_vetor_suporte
print("Média das acurácias do modelo de máquina de vetor suporte: %.2f "% np.mean(array_maquina_vetor_suporte))
        

Média das acurácias do modelo knn: 0.45 
Média das acurácias do modelo de máquina de vetor suporte: 0.76 


                            Interpretação das acurácias
-> Podemos observar que o modelo de máquina vetor suporte é superior nas predições desse dataset.

-> Vale sempre lembrar que o desempenho dos modelos podem variar de acordo 
com a base de dados análisada