# Aplicações SVM

Descrição: A ideia deste notebook é colocar em prática os conceitos estudados sobre as Máquinas de Vetor Suporte (SVM), utilizando dados diversos.
Autor:
Data:

> ### Aplicação 01 - Prevendo Pulsares com o dataset 'pulsar-star'

O dataset pode ser encontrado em: https://www.kaggle.com/datasets/spacemod/pulsar-dataset?resource=download

A referência da Aplicação 01 é: https://github.com/pb111/Support-Vector-Machines-Project/blob/master/Support%20Vector%20Machines%20with%20Python%20and%20Scikit-Learn.ipynb

In [None]:
# Importando as bibliotecas necessárias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
# Importação do dataset

data = './datasets/pulsar_stars.csv'
df = pd.read_csv(data)

In [None]:
# Análise exploratória dos dados
df.shape
print('O dataset possui {} instâncias e {} variáveis'.format(df.shape[0],df.shape[1]))

In [None]:
df.head()

In [None]:
# Renomeando as colunas para formatação dos dados


df.columns = ['IP Mean','IP Sd', 'IP Kurtosis', 'IP Skewness',
              'DM-SNR Mean','DM-SNR Sd','DM-SNR Kurtosis','DM-SNR Skewness',
              'target_class']

In [None]:
nome_colunas = df.columns
nome_colunas

In [None]:
df.info()

In [None]:
# Verificação se há dados ausentes
df.isnull().sum()

### Criando os vetores

In [None]:
X = df.drop(['target_class'], axis=1) #remove a coluna target do dataframe
y = df['target_class'] # atribui à y a coluna target_class do dataframe

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train,y_test = train_test_split(X,y, test_size=0.2, random_state = 42)
X_train.shape, X_test.shape

### Escalonando Características

Essa etapa prepara os dados de treino (X_train) pelo classificador da regressão logística.

In [None]:
cols = X_train.columns

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
X_train = pd.DataFrame(X_train, columns=[cols])
X_test = pd.DataFrame(X_test, columns=[cols])
X_train.describe()

In [None]:
fig, ax = plt.subplots()

ax.scatter(X_train['IP Mean'], X_train['IP Sd'],c=y_train,s=60)
#ax.plot(X_train['IP Mean'], y_train,'r')

#ax.set(ylim=(-2,6)) # melhora a visualização 
plt.show()

### Hyperparâmetros padrão do SVM

In [None]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Instância da classe SVC
classificador = SVC()

# Treina o classificador com os dados préprocessados
classificador.fit(X_train,y_train)

# Faz uma predição nos dados de teste
y_pred = classificador.predict(X_test)

# calcula e imprime a Acurácia
print('Acurácia do modelo com os hiperparâmetros padrões: {0:0.4f}'.format(accuracy_score(y_test, y_pred)))



In [None]:
X_test

In [None]:
from sklearn.decomposition import PCA
from sklearn import svm
import numpy as np
import matplotlib.pyplot as plt

# Reduzindo para 2D com PCA
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)

# Treinando o SVM com os dados transformados
clf = svm.SVC(kernel='linear')  # Use o kernel que você treinou
clf.fit(X_train_pca, y_train)

# Criando uma malha de pontos no espaço PCA
x_min, x_max = X_train_pca[:, 0].min() - 1, X_train_pca[:, 0].max() + 1
y_min, y_max = X_train_pca[:, 1].min() - 1, X_train_pca[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 500),
                     np.linspace(y_min, y_max, 500))

# Classificando cada ponto na malha
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Visualizando graficamente
fig, ax = plt.subplots()
ax.contourf(xx, yy, Z, alpha=0.8)  # Regiões de decisão
ax.scatter(X_train_pca[:, 0], X_train_pca[:, 1], c=y_train, s=60, edgecolors='k')  # Dados de treino

plt.xlabel('PCA 1')
plt.ylabel('PCA 2')
plt.title('Hiperplano do SVM após PCA')
plt.show()


### Executando o SVM com o kernel linear

In [None]:
classificador2 = SVC(kernel='linear').fit(X_train, y_train)

In [None]:
classificador2.coef_

In [None]:
# instantiate classifier with linear kernel and C=1.0
linear_svc=SVC(kernel='linear', C=100.0) 


# fit classifier to training set
linear_svc.fit(X_train,y_train)


# make predictions on test set
y_pred_test=linear_svc.predict(X_test)


# compute and print accuracy score
print('Model accuracy score with linear kernel and C=1.0 : {0:0.4f}'. format(accuracy_score(y_test, y_pred_test)))

In [None]:
linear_svc.predict([[1.227131,0.348453,-1.274718,-0.308276,-0.324496,-0.437893,-0.045197,-0.248413]])

### Matriz de Confusão

In [None]:
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred_test)

cm_matrix = pd.DataFrame(data=cm, columns=['Actual Positive:1', 'Actual Negative:0'], 
                                 index=['Predict Positive:1', 'Predict Negative:0'])

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')

### Métricas de Classificação

#### Precisão, recall, f1 e support

In [None]:
from sklearn.metrics import classification_report
print(classification_report(y_test, y_pred_test))

> ## Aplicação 02 - Classificação de Frutas (Laranja ou Maçã?)

O dataset utilizado está presente em: https://github.com/SnehaShukla937/SupportVectorMachine


#### Etapa 01 - Importando Bibliotecas e Preparando o Dataset

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import LabelEncoder

#leitura do csv
dataset = './datasets/apples_and_oranges.csv'
data = pd.read_csv(dataset)

In [None]:
data.head(10)

In [None]:
# Divisão do dataset e criando os vetores para o SVM
training_set, test_set = train_test_split(data, test_size=0.2,random_state=1)
x_train = training_set.iloc[:,0:2].values #dados de treino
y_train = training_set.iloc[:,2].values # classe de treino
x_test = test_set.iloc[:,0:2].values #dados de teste
y_test = test_set.iloc[:,2].values #classe de teste

#### Etapa 02 - Treinando o modelo

In [None]:
classificador = SVC(kernel='rbf', random_state=1,C=1,gamma ='auto')
classificador.fit(x_train, y_train)

#### Etapa 03 - Analisando as métricas do classificador

In [None]:
import seaborn as sns

y_pred = classificador.predict(x_test)
matriz_confusao = confusion_matrix(y_test,y_pred)

# Graficos da matriz de confusão usando seaborn

cm_matrix = pd.DataFrame(data=matriz_confusao, 
                         columns=['Actual Positive:1', 'Actual Negative:0'], 
                                 index=['Predict Positive:1', 'Predict Negative:0'])

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')


In [None]:
acuracia = float(matriz_confusao.diagonal().sum())/len(y_test)
print('A acurácia do modelo é: ', acuracia*100,'%')

#### Etapa 06 - Visualizando o hiperplano

In [None]:
import matplotlib.pyplot as plt
import numpy as np

lb = LabelEncoder()
y_train = lb.fit_transform(y_train)
classificador = SVC(kernel='rbf', random_state=1,C=1,gamma ='auto')
classificador.fit(x_train, y_train)

In [None]:
from matplotlib.colors import ListedColormap

# visualizing the training data after model fitting
plt.figure(figsize=(7,7))
x_set,y_set = x_train,y_train
x1,x2 = np.meshgrid(np.arange(start=x_set[:,0].min()-1,stop = x_set[:,0].max()+1,step = 0.01),
                    np.arange(start = x_set[:,1].min()-1,stop = x_set[:,1].max()+1,step = 0.01))
plt.contourf(x1,x2,classificador.predict(np.array([x1.ravel(),x2.ravel()]).T).reshape(x1.shape),alpha = 0.75,cmap =
             ListedColormap(('black','white')))
plt.xlim(x1.min(),x1.max())
plt.ylim(x2.min(),x2.max())
for i,j in enumerate(np.unique(y_set)):
    plt.scatter(x_set[y_set == j,0],
                x_set[y_set == j,1],
                c =ListedColormap(('red','orange'))(i),
                label = j)

plt.title('Maçã Vs Laranja')
plt.xlabel('Peso em gramas')
plt.ylabel('Tamanho em cm')
plt.legend()
plt.show()


#### Etapa 05 - Fazendo Predições

In [None]:
def analise(instancia):
    return ('Maçã' if classificador.predict(instancia) == 0 else 'Laranja')

peso = float(input("Digite o peso: "))
tamanho = float(input("Digite o tamanho: "))
instancia = [[peso,tamanho]]

print("A jugar o peso e tamanho trata-se de: {}".format(analise(instancia)))

>## Aplicação 03 - Sobreviventes do Titanic

O dataset utilizado está presente em: https://www.kaggle.com/datasets/yasserh/titanic-dataset

Objetivos:
    <li> Entender o conjunto de dados e a limpeza (se necessário).
    <li> Construir um modelo de classificação forte para prever se o passageiro sobreviverá ou não.
    <li> Ajustar os hiperparâmetros e comparar as métricas de avaliação 




#### Etapa 01 - Importação das bibliotecas e pre-processamento dos dados

In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import LabelEncoder

#leitura do csv
dataset = './datasets/titanic.csv'
data = pd.read_csv(dataset)

In [None]:
data.head()

In [None]:
data.info()

In [None]:
# Elimina as colunas

data.drop(['PassengerId','Name','Cabin','Ticket'],axis=1,inplace=True)
data.head()

In [None]:
# Verifica se possu dados nulos

data.isna().sum()

In [None]:
train_set, test_set = train_test_split(data, test_size=0.2, random_state=1)

In [None]:
# Transformando o sexo em 0 e 1 (labeling)

train_set['Sex'] = train_set['Sex'].map({'male':0, 'female':1}).astype(int)
test_set['Sex'] = test_set['Sex'].map({'male':0, 'female':1}).astype(int)

In [None]:
train_set.head()

In [None]:
test_set.head()

In [None]:
train_set = train_set[train_set.Age.notnull()]
test_set = test_set[test_set.Age.notnull()]

train_set.drop('Embarked', axis=1, inplace=True)
test_set.drop('Embarked', axis=1, inplace=True)

In [None]:
# O método pop remove a coluna e retorna a uma variável

y_train = train_set.pop('Survived')
y_test = test_set.pop('Survived')

#### Utilizando os parâmetros default do SVC

In [None]:
# Treinamento do classificador de sobrevivência

clf_sobre = SVC()
clf_sobre.fit(train_set,y_train)
prediction = clf_sobre.predict(test_set)

In [None]:
# Predicting the result and giving the accuracy
score = clf_sobre.score(test_set, y_test)

print(score)

#### Utilizando um Kernel linear

In [None]:
# Treinamento do classificador de sobrevivência

clf_sobre = SVC(kernel='linear')
clf_sobre.fit(train_set,y_train)
prediction = clf_sobre.predict(test_set)

In [None]:
# Predicting the result and giving the accuracy
score = clf_sobre.score(test_set, y_test)

print(score)

#### Utilziando um Kernel polinomial

In [None]:
# Treinamento do classificador de sobrevivência

clf_sobre = SVC(kernel='poly')
clf_sobre.fit(train_set,y_train)
prediction = clf_sobre.predict(test_set)

In [None]:
# Predicting the result and giving the accuracy
score = clf_sobre.score(test_set, y_test)

print(score)

#### Utilizando um Kernel RBF

In [None]:
# Treinamento do classificador de sobrevivência

clf_sobre = SVC(kernel='rbf')
clf_sobre.fit(train_set,y_train)
prediction = clf_sobre.predict(test_set)

In [None]:
# Predicting the result and giving the accuracy
score = clf_sobre.score(test_set, y_test)

print(score)

In [None]:
# Treinamento do classificador de sobrevivência

clf_sobre = SVC(kernel='rbf',C=2000)
clf_sobre.fit(train_set,y_train)
prediction = clf_sobre.predict(test_set)

In [None]:
# Predicting the result and giving the accuracy
score = clf_sobre.score(test_set, y_test)

print(score)

>## Aplicação 04 - Classificação de flores

In [None]:
import pandas as pd
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix
from sklearn.preprocessing import LabelEncoder

#leitura do csv
dataset = './datasets/IRIS.csv'
data = pd.read_csv(dataset)


In [None]:
data.head()

In [None]:
data['species'].unique()

In [None]:
data.info()

> <li> Temos 3 classes de flores: Iris-setosa, Iris-versicolor e Iris-virginica.</li>
> <li> A ideia é, dados os valores de entrada (comprimento da petala, largura da pétala, comprimento da sepala, largura da sepala), classificar no tipo de flor.</li>
> <li> A ideia é utilizar o SVM Linear em 2 características e, sem seguida, em todas as 4.</li>

### Previsão com quatro características

Analisando a correlação das características com a matriz de correlação do pandas

In [None]:
# Verificação da correlação entre as características pelo coeficiente de Person. 
# A coluna da espécie foi removida para melhor visualização e por simplicidade (string)

data.drop('species',axis=1).corr(method='pearson', min_periods=1, numeric_only=False)

O comprimento e largura da pétala possuem correlação positiva e maior que zero com a maioria das demais características. Portanto, indicam serem bons pontos para o treinamento do modelo.
O comprimento da sépala também apresentou bons números.

In [None]:
lb = LabelEncoder()
classes_cdf = lb.fit(data['species'])

# Exibe a codificação do LabelEncoder
print(classes_cdf.classes_)
print(classes_cdf.transform(['Iris-setosa','Iris-versicolor','Iris-virginica']))

In [None]:
# Realiza a troca da String para valores inteiros e Ajusta o LabelEncoder com a coluna 'species'

data['species'] = classes_cdf.fit_transform(data['species'])
data.head()

In [None]:
# Aqui são criados X_train e y_test, que são os subconjuntos de treino e teste

X_train, x_test = train_test_split(data, test_size=0.2)

In [None]:
# Subconjunto de treino

# y_train contém a classe de treino
y_train = X_train.pop('species')
y_test = x_test.pop('species')

In [None]:
# X_train agora possui apenas as caracteristas de treinamento do modelo.
# y_train possui o alvo.
X_train.head()

In [None]:
# Uma vez preprocessados os dados, é hora do treino
cl_flor = SVC(kernel='linear')
cl_flor.fit(X_train,y_train)

In [None]:
# Agora, para testar os pesos obtidos com o treinamento, vamos usar o x_test. Assim, serão criadas as probabilidades da instância com os dados de teste
# As probabilidades ficarão armazenadas na variável y_pred (previsões)

y_pred = cl_flor.predict(x_test)

In [None]:
# Por fim, a fim de verificar as métricas, podemos usar a matriz de confusão.

# Aqui entra, finalmente, o y_test, que são os valores REAIS do banco de dados, sendo utilizados com os valores PREVISTOS anteriormente pelo modelo
matriz_confusao = confusion_matrix(y_test,y_pred)

# Graficos da matriz de confusão usando seaborn

cm_matrix = pd.DataFrame(data=matriz_confusao, 
                         columns=['Iris-setosa:0', 'Iris-versicolor:1','Iris-virginica:2'], 
                                 index=['Iris-setosa:0', 'Iris-versicolor:1','Iris-virginica:2'] )

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')

In [None]:
# Predicting the result and giving the accuracy
score = cl_flor.score(x_test, y_test)

print(score)

In [None]:
import warnings

# Suprimir aviso
warnings.filterwarnings("ignore", message="X does not have valid feature names")


#Função que recebe o conjunto de caracteristicas da instancia, faz a previsão da classe e, utilizando o encoder inverso, retorna a espécie
def previsao_flor(instancia):
    
    # Transforma a lista de dados de entrada em um DataFrame com os nomes das colunas corretos
    instancia_df = pd.DataFrame([instancia], columns=['sepal_length','sepal_width',
                                                      'petal_length','petal_width'])
    # Realiza a previsão e reverte a codificação  
    p = classes_cdf.inverse_transform(cl_flor.predict([instancia]))
    return p[0]

c_petala = float(input("Digite o comprimento da pétala da flor: "))
l_petala = float(input("Digite a largura da pétala da flor: "))

c_sepala = float(input("Digite o comprimento da sépala da flor: "))
l_sepala = float(input("Digite a largura da sépala da flor: "))

dados = [c_petala,l_petala,c_sepala,l_sepala]

print("Essa flor é uma {}".format(previsao_flor(dados)))