                                    Kernel
-> O kernel é uma função que transformaa sua visão dos dados, levando-os para
um "novo quarto" (ou seja, um espaço de dimensão diferente). Nesse novo espaço,
os grupos que antes estavam misturados agora se tornam facilmente separáveis
por uma linha ou um plano.

-> O mais interessante é que o kernel faz essa transformação de forma 
"mágica", sem a necessidade de calcular a posição exata da pessoa no
novo quarto. Ele simplesmente usa um truque matemático para encontrar
a melhor separação de forma muito mais rápida e eficiente.

                                    Resumo
-> Problema: Dados que não podem ser separados por uma linha.

-> Solução: O kernel "move" os dados para um espaço de dimensão
maior.

-> Resultado: No novo espaço, a separaçaõ se torna simples e linear

Basicamente, iremos utilizar 2 kernels diferentes para classificar os dados do arquivo titanic. Após a classificação
iremos comparar os kernels para definir qual é o mais eficiente na classificação desses dados.

Função que irá treinar os dados e construir o modelo

In [1]:
# Função que irá treinar e construir o modelo SVC (máquina de vetor
# suporte para classificação). A função irá receber como argumento:

# xtrain: Dados de treino do conjunto x (caracteristicas)

# ytrain: Dados de treino do conjunto y (variável alvo).

# kernel: Modelo/tipo de cálxulo que o modelo irá usar para
# classificar os modelos

# degree: Grau do polinomio para modelos polinomiais. A
# função tem como valor padrão o None, já que alguns kernel
# não utilizam valores polinomiais. Os graus do polinomio
# basicamente, definem a intensidade da curva que percorre
# os dados do arquivo.
def  computarModelo(xtrain, ytrain, kernel, degree = None):
    
    # Import da classe SVC da biblioteca svm do módulo sklearn que tem
    # como objetivo construir maquinas de vetor suporte para classificação
    # (SVC).
    from sklearn.svm import SVC
    
    # Antes de instânciar o objeto, vamos verificar se o kernel escolhido
    # é o polinomial.
    if kernel == 'poly':
        
        # Se essa condição for verdadeira, vamos instansciar o modelo
        # SVC e passar como argumento para o construtor o kernel (no
        # caso será o polinomial) e o degree (grau do polinomio)
        classificador = SVC(kernel=kernel, degree=degree)

    else:
        
        # Se a condição não for verdadeira, vamos passar para o
        # o construtor do objeto apenas o kernel escolhido.
        classificador = SVC(kernel = kernel)
    
    # Função que irá treinar o modelo usando os dados de treino
    # com o objetivo de ensinar o modelo a identificar padrões
    # e tendências
    classificador.fit(xtrain[0], ytrain)
    
    # Retorno do modelo treinado e pronto para realizar predições  
    return classificador

Função que irá realizar a predição do modelo

In [2]:
# Função que irá conter a classificação do modelo. A função recebe
# como argumento:
# classificador: Modelo instanciado e treinado
# xtest: Dados que serão utilizados na predição 
# modelo.
def predicao_modelo(classificador, xtest):
    
    # Retorno da predição do modelo usando a função
    # predict que irá receber como argumento o xtest
    return classificador.predict(xtest[0])

Função que irá construir a matriz de confusão

In [3]:
# Função que irá construir a matriz confusão do modelo que tem como
# objetivo mostrar a quantidade de erros e acertos. A função recebe
# como argumento:
# ypredicao: Predição do modelo
# ytest: Dados reais que serão comparados com a classificação
# do modelo.
def matriz_confusao(ypredicao, ytest):
    
    # Import da classe confusion_matrix da biblioteca metrics do
    # módulo sklearn que tem como objetivo construir matrizes de
    # confusão.
    from sklearn.metrics import confusion_matrix
    
    # Instância (criação do objeto) da matriz de confusão. O
    # construtor da classe ira conter como argumento a predição
    # do modelo (ypredicao) e os dados reais das classificações
    # (ytest) 
    matriz = confusion_matrix(ytest, ypredicao)
    
    # Retorno da matriz construida.
    return matriz

Função que irá construir o modelo de classificação SVC

In [None]:
# Import do nosso arquivo de funções 
from minhasfuncoes import funcoes

# Criação da função que irá construir o modelo de classificação máquina
# de vetor suporte. A função irá receber como argumento:
# nome_do_arquivo: Local que a base de dados utilizada está armazenada

# kernel: Tipo de cálculo que o modelo usará para classificar os dados

# delimitador: Sinal que separa os dados no arquivos csv. O argumento irá
# receber como valor padrão a ',' que é o sinal comumente usado em arquivos
# csv.

# inicio_preenchimento: Irá receber o indice da coluna que será a primeira
# ser preenchida no intervalo. Como posteriormente iremos verificar se é
# necessário ou nao passar esse parametro, vamos definir o valor padrão
# como None.

# fim_preenchimento: Irá receber o indice da ultima coluna que será
# preenchida no intervalo. Posteriormente iremos verificar se é necessário
# passar esse argumento para a função, logo, ele terá como valor padrão o
# None.
def SVC(nome_do_arquivo, kernel, delimitador=',', inicio_preenchimento = None, fim_preenchimento = None, lista_rotulacao = None,degree=None):
    
    # Trecho que irá carregar o dataset: Como no arquivo de funções nós 
    # dividimos os dados em x e y usando o values do pandas ( que trans
    # forma x e y em um array numpy), precisamos atribuir o valor da 
    # função carregar_Dataset nas 2 variaveis x e y.
    
    # carregar_dataset: Função que irá carregar a base de dados na memória
    # ram. A função irá receber como argumento o nome do arquivo e o seu
    # delimitador.
    # x: Ira receber as caracteristicas
    # y: Irá receber a variável alvo da classificação/predição
    x, y = funcoes.carregar_Dataset(nome_do_arquivo, delimitador)
    
    # Como nem sempre precisaremos preencher dados faltantes, vamos verificar
    # se os argumentos inicio_preenchimento e fim_preenchimento possuem
    # um valor diferente de None.
    if inicio_preenchimento != None and fim_preenchimento != None:
        
        # Se a condição for verdadeira, vamos chamar a função de
        # preenchimento que irá receber como argumento o conjunto
        # de dados que será preenchido(x), o inicio do intervalo
        # que será preenchido (inicio_preenchimento) e o fim do
        # intervalo(fim_preenchimento).
        x = funcoes.preencherDadosFaltantes(x, inicio_preenchimento, fim_preenchimento)
    
    # Agora iremos verificar se a lista de rotulação de variáveis categóricas
    # possui algum valor diferente do None.
    if lista_rotulacao != None:
        
        # Se a condição for verdadeira, iremos percorrer a lista aplicando
        # a função de rotulação em cada coluna presente na lista.
        for i in lista_rotulacao:
            
            # Chamada da função que irá rotular numéricamente cada coluna
            # da lista. A função ira receber como argumento:
            # x: Conjunto que será rotulado
            # i: Indice da coluna categórica que será convertida.
            x = funcoes.rotulacao(x, i)
    
    # Trecho que irá separar os dados em treino e teste
    
    # Xtrain: Irá receber os dados de treino do conjunto x
    # (caracteristicas) que irão ensinar o modelo a identificar
    # padrões
    
    # xtest: Irá receber os dados que serão utilizados na
    # classificação do modelo
    
    # ytrain: Ira receber os dados de treino de y (variável alvo) que irão ensinar como o modelo deve classificar os dados.
    
    # ytest: Dados reais que serão comparados com a predição do modelo.
    
    # treino_teste: Função que irá realizar a separação dos dados. A função
    # irá receber como argumento:
    
    # x: Caracteristicas
    # y: Variável alvo
    # 0.2: Tamanho do conjunto de teste, os outros 80% irão para o 
    # conjunto de treino
    xtrain, xtest, ytrain, ytest = funcoes.treino_teste(x, y, 0.2)
    
    # Função que irá normalizar os dados com o objetivo de criar escalas
    # que padronizam os dados e evitam outliers. A função irá criar para
    # os dados uma média zero e um desvio padrão 1. A função recebe como
    # argumento o conjunto que será normalizado 
    xtrain = funcoes.normalizacao(xtrain)
    
    xtest = funcoes.normalizacao(xtest)
    
    # Ira criar o modelo treinado e pronto para realizar predições. A
    # função irá receber como argumento os dados de treino de x (xtrain),
    # os dados de treino de y (ytrain), o tipo de calculo que será utilizado
    # na classificação (kernel) e o grau do polinomio (degree não obrigatório).
    classificador = computarModelo(xtrain, ytrain, kernel, degree)
    
    # Ira conter a predição do modelo. A função irá receber como argumento
    # o modelo treinado(classificador) e os dados que serão utilizado na 
    # predição (xtest)
    ypredicao = predicao_modelo(classificador, xtest)
    
    # retorno da função que cria matrizes de confusão com a quantidade
    # de erros e acertos do modelo. A função irá usar como argumento
    # os dados reais e a predição do modelo.
    return matriz_confusao(ytest, ypredicao)
        
        
    

Aplicando o kernel linear no arquivo titanic

In [13]:
matriz_modelo = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento=2, fim_preenchimento=2, lista_rotulacao = [1,0], kernel='linear')

print(matriz_modelo)

[[85 22]
 [23 49]]


                    Interpretação dos resultados da kernel linear
-> 85: Quantidade de pessoas que o modelo classificou corretamente como
não sobrevivente.

-> 22: Quantidade de pessoas que o modelo classificou incorretamente como
sobreviventes

-> 23: Quantidade de pessoas que o modelo classificou incorretamente como
não sobrevivente

-> 49: Quantidade de pessoas que o modelo classificou corretamente como
sobreviventes

Aplicando o kernel polinomial ao arquivo titanic

In [14]:
matriz_modelo_polinomial = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento=2, fim_preenchimento=2, lista_rotulacao = [1,0], kernel='poly', degree= 3)

print(matriz_modelo_polinomial)

[[97 26]
 [19 37]]


                Interpretando os resultados da kernel polinomial
-> 97: Quantidade de pessoas que o modelo classificou corretamente como
não sobreviventes.

-> 26: Quantidade de pessoas que o modelo classificou incorretamente
como sobreviventes

-> 19: Quantidade de pessoas que o modelo classificou incorretamente
como não sobreviventes.

-> 37: Quantidade de pessoas que o modelo classificou corretamente como
sobreviventes

Comparando os resultados dos kernels. A idéia será executar os métodos
20 vezes e tirar uma média das acurácias para definir qual modelo foi o 
o mais eficiente

In [None]:
# imoport da função tqdm da biblioteca tqdm que tem como objetivo
# criar uma barra de progresso que mostra a porcentagem da execução
# de um loop
from tqdm import tqdm

# Import da boblioteca numpy que permite realizar cálculos matematicos
# e manipular arrays
import numpy as np

In [None]:
# Criação do array que irá conter os resultados das acurácias
# do kernel linear. 
array_linear = []

# For que irá possibilitar que o modelo seja executado 20 vezes. O for
# utilizara na construção do loop a função tqdm que irá receber como
# argumento o range (que define o tamanho do loop) e o desc (que contém
# a descrição da barra de projetos).
for i in tqdm(range(0,20), desc='Construindo o modelo de kernel linear'):
    
    # Irá executar o modelo SVC 20 vezes 
    modelo_linear = SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2, lista_rotulacao=[1,0], kernel='linear')
    
    # Ira adicionar no array as acurácias das execuções feitas pelo loop
    array_linear.append(funcoes.acuracia(modelo_linear))
    
# Impressão da média das acurácias usando a função mean que irá receber
# como argumento o array que contém as acurácias do modelo
print("Média das acurácias da kerenl linear: %.2f "% np.mean(array_linear))

Construindo o modelo de kernel linear:   0%|          | 0/20 [00:00<?, ?it/s]

Construindo o modelo de kernel linear: 100%|██████████| 20/20 [00:00<00:00, 54.10it/s]

Média das acurácias da kerenl linear: 0.78 





In [None]:
# Criação do array que irá conter os resultados das acurácias
# do kernel polinomial. 
array_polinomial= []

# For que irá possibilitar que o modelo seja executado 20 vezes. O for
# utilizara na construção do loop a função tqdm que irá receber como
# argumento o range (que define o tamanho do loop) e o desc (que contém
# a descrição da barra de projetos).
for i in tqdm(range(0,20), desc='Construindo o modelo de kernel polinomial'):
    
     # Irá executar o modelo SVC 20 vezes 
    modelo_polinomial= SVC(nome_do_arquivo='Dados/titanic.csv', inicio_preenchimento = 2, fim_preenchimento = 2, lista_rotulacao=[1,0], kernel='poly', degree=3)
    
    # Ira adicionar no array as acurácias das execuções feitas pelo loop
    array_polinomial.append(funcoes.acuracia(modelo_polinomial))
    
# Impressão da média das acurácias usando a função mean que irá receber
# como argumento o array que contém as acurácias do modelo
print("Média das acurácias da kerenl linear: %.2f "% np.mean(array_polinomial))

Construindo o modelo de kernel polinomial: 100%|██████████| 20/20 [00:00<00:00, 52.88it/s]

Média das acurácias da kerenl linear: 0.80 



