> ### Aplicação 01 - Prevendo Pulsares com o dataset 'pulsar-star'

O dataset pode ser encontrado em: https://www.kaggle.com/datasets/spacemod/pulsar-dataset?resource=download

A referência da Aplicação 01 é: https://github.com/pb111/Support-Vector-Machines-Project/blob/master/Support%20Vector%20Machines%20with%20Python%20and%20Scikit-Learn.ipynb

In [None]:
# Importando as bibliotecas necessárias

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

In [None]:
# Importação do dataset

data = './datasets/pulsar_stars.csv'
df = pd.read_csv(data)

In [None]:
# Análise exploratória dos dados
df.shape
print('O dataset possui {} instâncias e {} variáveis'.format(df.shape[0],df.shape[1]))

In [None]:
df.head()

In [None]:
# Renomeando as colunas para formatação dos dados


df.columns = ['IP Mean','IP Sd', 'IP Kurtosis', 'IP Skewness',
              'DM-SNR Mean','DM-SNR Sd','DM-SNR Kurtosis','DM-SNR Skewness',
              'target_class']

In [None]:
nome_colunas = df.columns
nome_colunas

In [None]:
df.info()

In [None]:
# Verificação se há dados ausentes
df.isnull().sum()

### Criando os vetores

In [None]:
X = df.drop(['target_class'], axis=1) #remove a coluna target do dataframe
y = df['target_class'] # atribui à y a coluna target_class do dataframe

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train,y_test = train_test_split(X,y, test_size=0.2, random_state = 42)
X_train.shape, X_test.shape

In [None]:
### Escalonando Características

Essa etapa prepara os dados de treino (X_train) pelo classificador da regressão logística.

In [None]:
cols = X_train.columns

In [None]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

In [None]:
X_train = pd.DataFrame(X_train, columns=[cols])
X_test = pd.DataFrame(X_test, columns=[cols])
X_train.describe()

In [None]:
fig, ax = plt.subplots()

ax.scatter(X_train['IP Mean'], X_train['IP Sd'],c=y_train,s=60)
#ax.plot(X_train['IP Mean'], y_train,'r')

#ax.set(ylim=(-2,6)) # melhora a visualização 
plt.show()

### Hyperparâmetros padrão do SVM

In [None]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

# Instância da classe SVC
classificador = SVC()

# Treina o classificador com os dados préprocessados
classificador.fit(X_train,y_train)

# Faz uma predição nos dados de teste
y_pred = classificador.predict(X_test)

# calcula e imprime a Acurácia
print('Acurácia do modelo com os hiperparâmetros padrões: {0:0.4f}'.format(accuracy_score(y_test, y_pred)))

In [None]:
X_test

In [None]:
from sklearn.decomposition import PCA
from sklearn import svm
import numpy as np
import matplotlib.pyplot as plt

# Reduzindo para 2D com PCA
pca = PCA(n_components=2)
X_train_pca = pca.fit_transform(X_train)

# Treinando o SVM com os dados transformados
clf = svm.SVC(kernel='linear')  # Use o kernel que você treinou
clf.fit(X_train_pca, y_train)

# Criando uma malha de pontos no espaço PCA
x_min, x_max = X_train_pca[:, 0].min() - 1, X_train_pca[:, 0].max() + 1
y_min, y_max = X_train_pca[:, 1].min() - 1, X_train_pca[:, 1].max() + 1
xx, yy = np.meshgrid(np.linspace(x_min, x_max, 500),
                     np.linspace(y_min, y_max, 500))

# Classificando cada ponto na malha
Z = clf.predict(np.c_[xx.ravel(), yy.ravel()])
Z = Z.reshape(xx.shape)

# Visualizando graficamente
fig, ax = plt.subplots()
ax.contourf(xx, yy, Z, alpha=0.8)  # Regiões de decisão
ax.scatter(X_train_pca[:, 0], X_train_pca[:, 1], c=y_train, s=60, edgecolors='k')  # Dados de treino

plt.xlabel('PCA 1')
plt.ylabel('PCA 2')
plt.title('Hiperplano do SVM após PCA')
plt.show()

### Executando o SVM com o kernel linear

In [None]:
classificador2 = SVC(kernel='linear').fit(X_train, y_train)

In [None]:
classificador2.coef_

In [None]:
# instantiate classifier with linear kernel and C=1.0
linear_svc=SVC(kernel='linear', C=100.0) 


# fit classifier to training set
linear_svc.fit(X_train,y_train)


# make predictions on test set
y_pred_test=linear_svc.predict(X_test)


# compute and print accuracy score
print('Model accuracy score with linear kernel and C=1.0 : {0:0.4f}'. format(accuracy_score(y_test, y_pred_test)))

In [None]:
linear_svc.predict([[1.227131,0.348453,-1.274718,-0.308276,-0.324496,-0.437893,-0.045197,-0.248413]])

### Matriz de Confusão

In [None]:
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred_test)

cm_matrix = pd.DataFrame(data=cm, columns=['Actual Positive:1', 'Actual Negative:0'], 
                                 index=['Predict Positive:1', 'Predict Negative:0'])

sns.heatmap(cm_matrix, annot=True, fmt='d', cmap='YlGnBu')