<a href="https://colab.research.google.com/github/alvarofpinheiro/support_vector_machine/blob/main/Simulacao1_Cenario3_SVM.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

Support Vector Machine (SVM): método desenvolvido nos laboratórios da AT&T por Vapnik e Cortes em 1995 é um método de previsão baseado em aprendizagem estatística, que consiste em um conjunto de exemplos de treinamento, onde cada dados é rotulado como pertencente a uma das classes, classificando os dados, mapeando os pontos no espaço, objetivando maximizar a largura da lacuna entre as classes.

Cortes, C.; Vapnik, V. Support-vector networks. Machine Learning. 20 (3): 273–297, Springer. https://doi.org/10.1007/BF00994018, 1995.

Explicação do algoritmo SVM:

In [None]:
#instalar biblioteca Orange Canvas
!pip install Orange3

In [None]:
#importar biblioteca Orange Canvas
import Orange

In [None]:
#importar dados do disco local
from google.colab import files  
files.upload()

In [None]:
#instanciar objeto de dados com base no caminho gerado com a importação do arquivo
dados = Orange.data.Table("/content/Simulacao1.csv")

In [None]:
#exibir os primeiros 5 registros para uma rápida análise da importação dos dados
for d in dados[:5]:
  print(d)

In [None]:
#explorar os metadados da base de dados importada
qtde_campos = len(dados.domain.attributes)
qtde_cont = sum(1 for a in dados.domain.attributes if a.is_continuous)
qtde_disc = sum(1 for a in dados.domain.attributes if a.is_discrete)
print("%d metadados: %d continuos, %d discretos" % (qtde_campos, qtde_cont, qtde_disc))
print("Nome dos metadados:", ", ".join(dados.domain.attributes[i].name for i in range(qtde_campos)),)

In [None]:
#explorar domínios dos atributos (campos da base de dados)
dados.domain.attributes

In [None]:
#explorar as classes da base de dados
dados.domain.class_var

In [None]:
#explorar dados (quantidade de campos e registros da base de dados)
print("Campos:", ", ".join(c.name for c in dados.domain.attributes))
print("Registros:", len(dados))
print("Valor do registro 1 da coluna 1:", dados[0][0])
print("Valor do registro 2 da coluna 2:", dados[1][1])

In [None]:
#criar amostra de dados, sendo 70% para treinamento e teste e 30% para avaliação
qtde100 = len(dados)
qtde70 = len(dados) * 70 / 100
qtde30 = len(dados) * 30 / 100
print("Qtde 100%:", qtde100)
print("Qtde  70%:", qtde70)
print("Qtde  30%:", qtde30)
amostra = Orange.data.Table(dados.domain, [d for d in dados if d.row_index < qtde70])
print("Registros:", len(dados))
print("Registros:", len(amostra))

**Hiperparâmetros do Support Vector Machine**

C: quanto menor mais larga será a margem, porém com mais chances de violação de margem (função custo).

kernel: determina a técnica para permitir o uso do SVM não linear com o default sendo o Radial Basis Function (RBF), mas também podendo ser utiliado o Linear, Polymonial e Sigmoid.

degree: determina o grau que o kernel irá utilizar e o default é 3.

gamma: determina o gamma para o kernel com o valor recomendado de 1/k, onde k é o número de atributos, mas como pode não haver nenhum conjunto de treinamento dado ao componente o default é 0 sendo necessário sua especificação.

coef0: controla o quanto o modelo é influenciado por polinômios de alto grau versus polinômios de baixo grau.

shrinking: ativa/desativa o método heurístico de escolha.

probability: ativa/desativa a construção de um modelo propabilítico.

tol: taxa de tolerância do critério de rescisão.

cache_size: tamanho da memória cache em MB

max_iter: número máximo de iterações.

preprocessors: é usado o pré-processamento padrão quando nenhum outro pré-processador é fornecido. Ele os executa na seguinte ordem: remove instâncias com valores de destino desconhecidos; continua variáveis categóricas (com codificação one-hot); remove colunas vazias; imputa valores ausentes com valores médios.

In [None]:
#inicializar a instância com os seus hiperparâmetros para a técnica Random Forest (SVM) Cenário1
svm = Orange.classification.SVMLearner(
    C=1.0, 
    kernel='rbf', 
    degree=3, 
    gamma='auto', 
    coef0=0.0, 
    shrinking=True, 
    probability=False, 
    tol=0.001, 
    cache_size=200, 
    max_iter=2000, 
    preprocessors=None)

In [None]:
#ligar técnica SVM com os dados da simulação
dados_svm = svm(dados)

In [None]:
#treinar e testar técnica SVM com os dados com 5 partes (folders)
avalia_svm = Orange.evaluation.CrossValidation(dados, [svm], k=5)

In [None]:
#avaliar os indicadores para o SVM com base nas métricas de classificação
print("Acurácia:  %.3f" % Orange.evaluation.scoring.CA(avalia_svm)[0])
print("Precisão:  %.3f" % Orange.evaluation.scoring.Precision(avalia_svm)[0])
print("Revocação: %.3f" % Orange.evaluation.scoring.Recall(avalia_svm)[0])
print("F1:        %.3f" % Orange.evaluation.scoring.F1(avalia_svm)[0])
print("ROC:       %.3f" % Orange.evaluation.scoring.AUC(avalia_svm)[0])

In [None]:
#inicializar a instância com os seus hiperparâmetros para a técnica K-Nearest Neighbors (KNN) Cenário2
knn = Orange.classification.KNNLearner(
    n_neighbors=5, 
    metric='euclidean', 
    weights='distance', 
    algorithm='auto', 
    metric_params=None, 
    preprocessors=None)

In [None]:
#inicializar a instância com os seus hiperparâmetros para a técnica Support Vector Machine (RF) Cenário3
rf = Orange.classification.RandomForestLearner(
    n_estimators=10, 
    criterion='gini', 
    max_depth=None, 
    min_samples_split=2, 
    min_samples_leaf=1, 
    min_weight_fraction_leaf=0.0, 
    max_features='auto', 
    max_leaf_nodes=None, 
    bootstrap=True, 
    oob_score=False, 
    n_jobs=1, 
    random_state=None, 
    verbose=0, 
    class_weight=None, 
    preprocessors=None)

In [None]:
#validar o aprendizado para as 3 técnicas
aprendizado = [svm, knn, rf]
avaliacao = Orange.evaluation.CrossValidation(dados, aprendizado, k=5)

In [None]:
#imprimir os indicadores para as 3 técnicas
print(" " * 10 + " | ".join("%-4s" % learner.name for learner in aprendizado))
print("Acurácia  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.CA(avaliacao)))
print("Precisão  %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Precision(avaliacao)))
print("Revocação %s" % " | ".join("%.2f" % s for s in Orange.evaluation.Recall(avaliacao)))
print("F1        %s" % " | ".join("%.2f" % s for s in Orange.evaluation.F1(avaliacao)))
print("ROC       %s" % " | ".join("%.2f" % s for s in Orange.evaluation.AUC(avaliacao)))