In [2]:
# importa as bibliotecas necessárias
from sklearn.datasets import load_wine
from sklearn import svm
import matplotlib.pyplot as plt
import numpy as np

A sklearn é uma biblioteca Python que oferece ferramentas para aprendizado de máquina. O SVM (Support Vector Machine) é um desses algoritmos, utilizado para classificar dados ao criar um hiperplano que separa diferentes classes, maximizando a margem entre elas para garantir maior precisão.

Abaixo será tratado o problema de classificação dos vinhos (base Wine).

In [3]:
#carrega a base de dados wine
wine_x , wine_y = load_wine(return_X_y=True)

#separa os dados em entrada e saida(classificação)
entrada = wine_x
saida = wine_y

Para saber qual modelo de treinamento escolher, deve-se optar por aquele que apresenta uma acurácia mais próxima de 1.0, ou seja, 100%.

Os testes são realizados avaliando várias configurações até chegarmos a um valor satisfatório para a resolução do problema de classificação em questão.

In [7]:
# cria o modelo de classificação
model = svm.SVC(kernel='poly', degree=7, gamma='auto', C=0.3)

# treina o modelo
model.fit(entrada, saida)
# realiza a predição
model.score(entrada, saida)

1.0

In [20]:
#aqui estao mais alguns exemplox de treino do modelo, utilizando diferentes kernel e graus de polinomio

# Exemplo 1
model = svm.SVC(kernel='linear', degree=5, gamma='auto', C=0.6)

model.fit(entrada, saida)
print("Exemplo 1 : ", model.score(entrada, saida))

# Exemplo 2
model = svm.SVC(kernel='sigmoid', degree=7, gamma='scale', C=0.3)

model.fit(entrada, saida)
print("Exemplo 2 : ", model.score(entrada, saida))

# Exemplo 3
model = svm.SVC(kernel='rbf', degree=5, gamma='scale', C=0.5)

model.fit(entrada, saida)
print("Exemplo 3 : ",model.score(entrada, saida))

# Exemplo 4
model = svm.SVC(kernel='poly', degree=7, gamma='auto', C=0.3)

model.fit(entrada, saida)
print("Exemplo 4 : ",model.score(entrada, saida))

Exemplo 1 :  0.9943820224719101
Exemplo 2 :  0.398876404494382
Exemplo 3 :  0.6853932584269663
Exemplo 4 :  1.0


Após realizar diversos testes, pode-se concluir que o melhor modelo de treinamento é kernel='poly', degree=7, gamma='auto', C=0.3. Assim, agora podemos prosseguir para a próxima etapa.

Para garantir a efetividade do modelo treinado, separamos o dataset em duas partes. De forma aleatória, reservamos de 20% a 30% das amostras que seriam utilizadas no treinamento e as deixamos de fora. Posteriormente, utilizamos essas amostras para verificar a acurácia do modelo.

In [38]:
from sklearn.model_selection import train_test_split

#separa os dados em treino e teste
entrada_treino, entrada_teste, saida_treino, saida_teste = train_test_split(entrada, saida, test_size=0.2)

#cria o modelo de classificação e treina
model = svm.SVC(kernel='poly', degree=7, gamma='auto', C=0.3)
model.fit(entrada_treino, saida_treino)

Utilizando o método disponibilizado pela própria biblioteca sklearn, podemos imprimir os resultados obtidos ao testarmos os dados que não foram utilizados no treinamento. Como já sabemos quais deveriam ser seus resultados, podemos analisar se algum vinho foi classificado erroneamente.

In [39]:
from sklearn.metrics import classification_report

#realiza a predição e imprime o relatório de classificação
print(classification_report(saida_teste, model.predict(entrada_teste)) )

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       0.79      1.00      0.88        11
           2       1.00      0.79      0.88        14

    accuracy                           0.92        36
   macro avg       0.93      0.93      0.92        36
weighted avg       0.93      0.92      0.92        36



In [40]:
# Exemplo 1
model = svm.SVC(kernel='linear', degree=5, gamma='auto', C=0.6)

model.fit(entrada, saida)
print(classification_report(saida_teste, model.predict(entrada_teste)))

              precision    recall  f1-score   support

           0       1.00      1.00      1.00        11
           1       1.00      1.00      1.00        11
           2       1.00      1.00      1.00        14

    accuracy                           1.00        36
   macro avg       1.00      1.00      1.00        36
weighted avg       1.00      1.00      1.00        36



In [35]:
# Exemplo 2
model = svm.SVC(kernel='sigmoid', degree=7, gamma='scale', C=0.3)

model.fit(entrada, saida)
print(classification_report(saida_teste, model.predict(entrada_teste)))

              precision    recall  f1-score   support

           0       0.00      0.00      0.00        11
           1       0.42      1.00      0.59        15
           2       0.00      0.00      0.00        10

    accuracy                           0.42        36
   macro avg       0.14      0.33      0.20        36
weighted avg       0.17      0.42      0.25        36



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


Em suma, ao analisar os resultados obtidos com diferentes modelos, fomos surpreendidos. Era de se esperar que o modelo que obteve um score de 1.0 fosse o que apresentaria o melhor desempenho. No entanto, foi observado que o modelo com score de 0.98, mesmo após repetidos testes, não apresentou falhas. 

Outro ponto importante foi que, embora o esperado fosse que o melhor kernel fosse o polinomial, o kernel linear foi o que realmente apresentou os melhores resultados.

Concluímos, portanto, que o fator com maior impacto no treinamento é o kernel, assim como o ajuste do grau do polinômio. Além disso, o parâmetro gamma e o coeficiente C podem ajudar a refinar a acurácia do modelo.