In [None]:
# Cargue de librerias

import numpy as np
import pandas as pd  
from sklearn import svm     #Import svm model
import matplotlib.pyplot as plt

In [None]:
# Lectura de datos de entrenamiento
# Estos datos fueron generados aleatoriamente para representar datos que fueran linealmente separables

dat = pd.read_csv(r'C:\Users\jgarcia.d\datos\dataNL.csv', delimiter=';', decimal=',')  # Cargar el dataset
dat.head()

In [None]:
plt.scatter(dat.x1, dat.x2, c=dat.y, cmap=plt.cm.coolwarm);

In [None]:
dat.shape

In [None]:
# Separamos las variables independientes de la dependiente, en diferentes datasets

X = dat.drop('y', axis=1)
y = dat['y']

In [None]:
# Preparación de datos de entrenamiento y datos de prueba

# Importamos la función train_test_split
from sklearn.model_selection import train_test_split

# Dividimos los datasets en entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.50,random_state=109) # 50% training and 50% test

In [None]:
plt.scatter(X_train.x1, X_train.x2, c=y_train, cmap=plt.cm.coolwarm);

In [None]:
plt.scatter(X_test.x1, X_test.x2, c=y_test, cmap=plt.cm.coolwarm);

In [None]:
print(X_train.shape)
print(X_test.shape)

In [None]:
# Generamos un primer modelo LINEAL
clf = svm.SVC(kernel='linear', C=10, random_state=109) # Linear Kernel

#Entrenamos el modelo usando el dataset de entrenamiento
clf.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
y_predl = clf.predict(X_test)

#Importamos la librería para cálculo de métricas de desempeño 
from sklearn import metrics

# Cálculo de accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?  Con el dataset de prueba.
print("Accuracy:",metrics.accuracy_score(y_test, y_predl))

In [None]:
#Importamos la librería para cálculo de la matriz de confusión 
from sklearn.metrics import confusion_matrix

cml = confusion_matrix(y_test, y_predl)
print('Confusion Matrix : \n', cml)

total1=sum(sum(cml))
##### A partir de la matriz de confusión calculamos accuracy, sensitivity, specificity
accuracyl=(cml[0,0]+cml[1,1])/total1
print ('Accuracy : ', accuracyl)

sensitivityl = cml[0,0]/(cml[0,0]+cml[0,1])
print('Sensitivity : ', sensitivityl )

specificityl = cml[1,1]/(cml[1,0]+cml[1,1])
print('Specificity : ', specificityl)

In [None]:
from sklearn.metrics import classification_report

print (classification_report(y_test, y_predl))

In [None]:
# Datos del hiperplano de separación

w = clf.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(-5, 5)
yy = a * xx - (clf.intercept_[0]) / w[1]

In [None]:
w

In [None]:
clf.intercept_[0]

In [None]:
# Gráfico del hiperplano y el margen de sepración
# 
b = clf.support_vectors_[0]
yy_down = a * xx + (b[1] - a * b[0])
b = clf.support_vectors_[-1]
yy_up = a * xx + (b[1] - a * b[0])

plt.plot(xx, yy, 'k-')
plt.plot(xx, yy_down, 'k--')
plt.plot(xx, yy_up, 'k--')

plt.scatter(clf.support_vectors_[:, 0], clf.support_vectors_[:, 1],
            s=80, facecolors='none')
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.Paired)

plt.axis('tight')
plt.show()

In [None]:
# Graficamos el SVM con el hiperplano de separación, y el margen

def plot_svc_decision_function(model, ax=None, plot_support=True):
    """Plot the decision function for a 2D SVC"""
    if ax is None:
        ax = plt.gca()
    xlim = ax.get_xlim()
    ylim = ax.get_ylim()
    
    # create grid to evaluate model
    x = np.linspace(xlim[0], xlim[1], 30)
    y = np.linspace(ylim[0], ylim[1], 30)
    Y, X = np.meshgrid(y, x)
    xy = np.vstack([X.ravel(), Y.ravel()]).T
    P = model.decision_function(xy).reshape(X.shape)
    
    # plot decision boundary and margins
    ax.contour(X, Y, P, colors='k',
               levels=[-1, 0, 1], alpha=0.5,
               linestyles=['--', '-', '--'])
    
    # plot support vectors
    if plot_support:
        ax.scatter(model.support_vectors_[:, 0],
                   model.support_vectors_[:, 1],
                   s=300, linewidth=1, facecolors='none');
    ax.set_xlim(xlim)
    ax.set_ylim(ylim)

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clf);

In [None]:
#Generamos un primer clasificador svm RADIAL
clfr = svm.SVC(kernel='rbf')
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)
print("gamma: ",clfr._gamma)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento: ",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba: ",metrics.accuracy_score(y_test, y_predr))

In [None]:
#Analisis de desempeño del modelo con datos de prueba

cmr = confusion_matrix(y_test, y_predr)
print('Confusion Matrix : \n', cmr)
total1=sum(sum(cmr))

#A partir de la matriz de confusion calculamos accuracy, sensitivity y specificity

accuracyr=(cmr[0,0]+cmr[1,1])/total1
print ('Accuracy : ', accuracyr)

sensitivityr = cmr[0,0]/(cmr[0,0]+cmr[0,1])
print('Sensitivity : ', sensitivityr )

specificityr = cmr[1,1]/(cmr[1,0]+cmr[1,1])
print('Specificity : ', specificityr)

print (classification_report(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
#Generamos un segundo clasificador svm RADIAL
clfr = svm.SVC(kernel='rbf', C=1, gamma=0.05)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))

In [None]:
#Analisis de desempeño del modelo con datos de prueba

cmr = confusion_matrix(y_test, y_predr)
print('Confusion Matrix : \n', cmr)
total1=sum(sum(cmr))

#A partir de la matriz de confusion calculamos accuracy, sensitivity y specificity

accuracyr=(cmr[0,0]+cmr[1,1])/total1
print ('Accuracy : ', accuracyr)

sensitivityr = cmr[0,0]/(cmr[0,0]+cmr[0,1])
print('Sensitivity : ', sensitivityr )

specificityr = cmr[1,1]/(cmr[1,0]+cmr[1,1])
print('Specificity : ', specificityr)

print (classification_report(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
#Generamos un TERCER clasificador svm RADIAL
clfr = svm.SVC(kernel='rbf', C=1, gamma=1)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
#Generamos un CUARTO clasificador svm RADIAL
clfr = svm.SVC(kernel='rbf', C=1, gamma=5)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
#Generamos un QUINTO clasificador svm RADIAL
clfr = svm.SVC(kernel='rbf', C=10)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
#Generamos un SEXTO clasificador svm RADIAL
clfr = svm.SVC(kernel='rbf', C=10, gamma=0.2)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
#Hacemos tuning de los parametros del SVM RADIAL: Costo y gamma

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC

# Set the parameters by cross-validation
tuned_parameters = [{'kernel': ['rbf'], 'gamma': [0.05, 0.1, 0.2, 0.5], 'C': [0.1, 1, 5, 10]}]
scores = ['precision', 'recall']

for score in scores:
    print("# Tuning hyper-parameters for %s" % score)
    print()

    clf = GridSearchCV(
        SVC(), tuned_parameters, cv=5, scoring='%s_macro' % score
    )
    clf.fit(X_train, y_train)

    print("Best parameters set found on development set:")
    print()
    print(clf.best_params_)
    print()
    print("Grid scores on development set:")
    print()
    means = clf.cv_results_['mean_test_score']
    stds = clf.cv_results_['std_test_score']
    for mean, std, params in zip(means, stds, clf.cv_results_['params']):
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))
    print()

    print("Detailed classification report:")
    print()
    print("The model is trained on the full development set.")
    print("The scores are computed on the full evaluation set.")
    print()
    y_true, y_pred = y_test, clf.predict(X_test)
    print(classification_report(y_true, y_pred))
    print()


In [None]:
#clasificador svm RADIAL FINAL
clfr = svm.SVC(kernel='rbf', C=5, gamma=0.05)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))

In [None]:
#Analisis de desempeño del modelo con datos de prueba

cmr = confusion_matrix(y_test, y_predr)
print('Confusion Matrix : \n', cmr)
total1=sum(sum(cmr))

#A partir de la matriz de confusion calculamos accuracy, sensitivity y specificity

accuracyr=(cmr[0,0]+cmr[1,1])/total1
print ('Accuracy : ', accuracyr)

sensitivityr = cmr[0,0]/(cmr[0,0]+cmr[0,1])
print('Sensitivity : ', sensitivityr )

specificityr = cmr[1,1]/(cmr[1,0]+cmr[1,1])
print('Specificity : ', specificityr)

print (classification_report(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
#Hacemos tuning de los parametros del SVM POLINOMIAL: Costo, gamma, degree

from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.metrics import accuracy_score
from sklearn.svm import SVC

# Set the parameters by cross-validation
tuned_parameters = [{'kernel': ['poly'], 'gamma': [0.05, 0.1, 0.2, 0.5], 'C': [0.1, 1, 5, 10], 'degree' : [2, 3] }]
scores = ['precision', 'recall']

for score in scores:
    print("# Tuning hyper-parameters for %s" % score)
    print()

    clf = GridSearchCV(
        SVC(), tuned_parameters, scoring='%s_macro' % score
    )
    clf.fit(X_train, y_train)

    print("Best parameters set found on development set:")
    print()
    print(clf.best_params_)
    print()
    print("Grid scores on development set:")
    print()
    means = clf.cv_results_['mean_test_score']
    stds = clf.cv_results_['std_test_score']
    for mean, std, params in zip(means, stds, clf.cv_results_['params']):
        print("%0.3f (+/-%0.03f) for %r"
              % (mean, std * 2, params))
    print()

    print("Detailed classification report:")
    print()
    print("The model is trained on the full development set.")
    print("The scores are computed on the full evaluation set.")
    print()
    y_true, y_pred = y_test, clf.predict(X_test)
    print(classification_report(y_true, y_pred))
    print()


In [None]:
#clasificador svm POLINOMIAL FINAL
clfr = svm.SVC(kernel='poly', C=5, gamma=0.05, degree=2)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))

In [None]:
#Analisis de desempeño del modelo con datos de prueba

cmr = confusion_matrix(y_test, y_predr)
print('Confusion Matrix : \n', cmr)
total1=sum(sum(cmr))

#A partir de la matriz de confusion calculamos accuracy, sensitivity y specificity

accuracyr=(cmr[0,0]+cmr[1,1])/total1
print ('Accuracy : ', accuracyr)

sensitivityr = cmr[0,0]/(cmr[0,0]+cmr[0,1])
print('Sensitivity : ', sensitivityr )

specificityr = cmr[1,1]/(cmr[1,0]+cmr[1,1])
print('Specificity : ', specificityr)

print (classification_report(y_test, y_predr))

In [None]:
plt.scatter(X.x1, X.x2, c=y, cmap=plt.cm.coolwarm)
plot_svc_decision_function(clfr);

In [None]:
from sklearn.model_selection import GridSearchCV

clf = svm.SVC(kernel='rbf', random_state=101)

C_options = np.array([0.5, 0.8, 1, 1.2, 1.5])
gamma_options = np.array([0.8, 0.9, 1.0, 1.1, 1.2])

hyperparameter_search_space = [{
    'kernel': ['rbf'], 
    'C': C_options, 
    'gamma': gamma_options
}]

gridsearch = GridSearchCV(estimator=clf, 
                          param_grid=hyperparameter_search_space, 
                          cv=5)
gridsearch.fit(X_train, y_train)


cv_performance = gridsearch.best_score_
test_performance = gridsearch.score(X_test, y_test)


print('Best parameter: {}'.format(str(gridsearch.best_params_)))
print('Cross-validation accuracy score: {0:0.3f}'.format(cv_performance))
print('Test accuracy score: {0:0.3f}'.format(test_performance))

In [None]:
#clasificador svm RADIAL FINAL 2
clfr = svm.SVC(kernel='rbf', C=1, gamma=0.8)
#Entrenamos el modelo usando los datos de entrenamiento
clfr.fit(X_train, y_train)

#Pronosticamos la respuesta para el dataset de prueba
#En entrenamiento
y_predr_e = clfr.predict(X_train)
#En prueba
y_predr = clfr.predict(X_test)

#Accuracy del modelo:  Qué tan frecuentemente el clasificador es correcto?
#En entrenamiento: 
print("Accuracy - entrenamiento:",metrics.accuracy_score(y_train, y_predr_e))
#En prueba: 
print("Accuracy - prueba:",metrics.accuracy_score(y_test, y_predr))