                                    Kernel
-> O kernel é uma função que transformaa sua visão dos dados, levando-os para
um "novo quarto" (ou seja, um espaço de dimensão diferente). Nesse novo espaço,
os grupos que antes estavam misturados agora se tornam facilmente separáveis
por uma linha ou um plano.

-> O mais interessante é que o kernel faz essa transformação de forma 
"mágica", sem a necessidade de calcular a posição exata da pessoa no
novo quarto. Ele simplesmente usa um truque matemático para encontrar
a melhor separação de forma muito mais rápida e eficiente.

                                    Resumo
-> Problema: Dados que não podem ser separados por uma linha.

-> Solução: O kernel "move" os dados para um espaço de dimensão
maior.

-> Resultado: No novo espaço, a separaçaõ se torna simples e linear

Basicamente, iremos utilizar 2 kernels diferentes para classificar os dados do arquivo titanic. Após a classificação
iremos comparar os kernels para definir qual é o mais eficiente na classificação desses dados.

Função que irá treinar os dados e construir o modelo

In [1]:
# Função que irá treinar e construir o modelo SVC (máquina de vetor
# suporte para classificação). A função irá receber como argumento:

# xtrain: Dados de treino do conjunto x (caracteristicas)

# ytrain: Dados de treino do conjunto y (variável alvo).

# kernel: Modelo/tipo de cálxulo que o modelo irá usar para
# classificar os modelos

# degree: Grau do polinomio para modelos polinomiais. A
# função tem como valor padrão o None, já que alguns kernel
# não utilizam valores polinomiais. Os graus do polinomio
# basicamente, definem a intensidade da curva que percorre
# os dados do arquivo.
def  computarModelo(xtrain, ytrain, kernel, degree = None):
    
    # Import da classe SVC da biblioteca svm do módulo sklearn que tem
    # como objetivo construir maquinas de vetor suporte para classificação
    # (SVC).
    from sklearn.svm import SVC
    
    # Antes de instânciar o objeto, vamos verificar se o kernel escolhido
    # é o polinomial.
    if kernel == 'poly':
        
        # Se essa condição for verdadeira, vamos instansciar o modelo
        # SVC e passar como argumento para o construtor o kernel (no
        # caso será o polinomial) e o degree (grau do polinomio)
        classificador = SVC(kernel=kernel, degree=degree)

    else:
        
        # Se a condição não for verdadeira, vamos passar para o
        # o construtor do objeto apenas o kernel escolhido.
        classificador = SVC(kernel = kernel)
    
    # Função que irá treinar o modelo usando os dados de treino
    # com o objetivo de ensinar o modelo a identificar padrões
    # e tendências
    classificador.fit(xtrain[0], ytrain)
    
    # Retorno do modelo treinado e pronto para realizar predições  
    return classificador

Função que irá realizar a predição do modelo

In [2]:
# Função que irá conter a classificação do modelo. A função recebe
# como argumento:
# classificador: Modelo instanciado e treinado
# xtest: Dados que serão utilizados na predição 
# modelo.
def predicao_modelo(classificador, xtest):
    
    # Retorno da predição do modelo usando a função
    # predict que irá receber como argumento o xtest
    return classificador.predict(xtest[0])

Função que irá construir a matriz de confusão

In [3]:
# Função que irá construir a matriz confusão do modelo que tem como
# objetivo mostrar a quantidade de erros e acertos. A função recebe
# como argumento:
# ypredicao: Predição do modelo
# ytest: Dados reais que serão comparados com a classificação
# do modelo.
def matriz_confusao(ypredicao, ytest):
    
    # Import da classe confusion_matrix da biblioteca metrics do
    # módulo sklearn que tem como objetivo construir matrizes de
    # confusão.
    from sklearn.metrics import confusion_matrix
    
    # Instância (criação do objeto) da matriz de confusão. O
    # construtor da classe ira conter como argumento a predição
    # do modelo (ypredicao) e os dados reais das classificações
    # (ytest) 
    matriz = confusion_matrix(ytest, ypredicao)
    
    # Retorno da matriz construida.
    return matriz

Função que irá construir o modelo de classificação SVC

In [4]:

from minhasfuncoes import funcoes

def SVC(nome_do_arquivo, kernel, delimitador=',', inicio_preenchimento = None, fim_preenchimento = None, lista_rotulacao = None,degree=None):
    
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    
    if inicio_preenchimento != None and fim_preenchimento != None:
        
        x = funcoes.preencherDadosFaltantes(x, inicio_preenchimento, fim_preenchimento)
    
    if lista_rotulacao != None:
        
        for i in lista_rotulacao:
            
            x = funcoes.rotulacao(x, i)
    
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    xtrain = funcoes.normalizacao(xtrain)
    
    xtest = funcoes.normalizacao(xtest)
    
    
    classificador = computarModelo(xtrain, ytrain, kernel, degree)
    
    ypredicao = predicao_modelo(classificador, xtest)
    
    return matriz_confusao(ypredicao, ytest)
        
        
    

In [5]:
matriz_modelo = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento=2, fim_preenchimento=2, lista_rotulacao = [1,0], kernel='linear')

print(matriz_modelo)

[[85 22]
 [26 46]]


In [6]:
matriz_modelo_polinomial = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento=2, fim_preenchimento=2, lista_rotulacao = [1,0], kernel='poly', degree= 3)

print(matriz_modelo_polinomial)

[[96 15]
 [26 42]]


Comparando os resultados dos kernels

In [7]:
from tqdm import tqdm

import numpy as np

In [None]:
array_linear = []

for i in tqdm(range(0,100), desc='Construindo o modelo de kernel linear'):
    
    modelo_linear = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2, lista_rotulacao=[1,0], kernel='linear')
    
    array_linear.append(funcoes.acuracia(modelo_linear))
    

print("Média das acurácias da kerenl linear: %.2f "% np.mean(array_linear))

Construindo o modelo de kernel linear:  64%|██████▍   | 64/100 [00:20<00:01, 30.26it/s]

In [None]:
array_polinomial= []

for i in tqdm(range(0,100), desc='Construindo o modelo de kernel polinomial'):
    
    modelo_polinomial= SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2, lista_rotulacao=[1,0], kernel='poly', degree=3)
    
    array_polinomial.append(funcoes.acuracia(modelo_polinomial))
    

print("Média das acurácias da kerenl linear: %.2f "% np.mean(array_polinomial))

Construindo o modelo de kernel polinomial:   5%|▌         | 5/100 [00:11<00:04, 21.78it/s]