# SVM con validación cruzada K-Fold

## Importación de Librerias

In [5]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

## Obteniendo los datos

In [6]:
mammographic_masses = pd.read_csv('./processed/mammographic_masses_standard.csv')

In [12]:
mammographic_masses.head()

Unnamed: 0,Age,Shape,Margin,Density,Severity
0,0.765804,0.17446,1.395631,0.240313,1
1,0.151666,0.979883,1.395631,0.240313,1
2,-1.895458,-1.436386,-1.158927,0.240313,0
3,0.083429,-1.436386,1.395631,0.240313,1
4,1.379941,-1.436386,0.756992,0.240313,1


In [106]:
mammographic_masses.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 831 entries, 0 to 830
Data columns (total 5 columns):
Age         831 non-null float64
Shape       831 non-null float64
Margin      831 non-null float64
Density     831 non-null float64
Severity    831 non-null int64
dtypes: float64(4), int64(1)
memory usage: 32.5 KB


## Construyendo las matrices

In [14]:
X = mammographic_masses.iloc[:,0:4].values
y = mammographic_masses.iloc[:,4].values
X

array([[ 0.76580356,  0.17445989,  1.39563127,  0.24031298],
       [ 0.15166622,  0.97988304,  1.39563127,  0.24031298],
       [-1.89545824, -1.43638642, -1.15892729,  0.24031298],
       ...,
       [ 0.56109111,  0.97988304,  1.39563127,  0.24031298],
       [ 0.69756608,  0.97988304,  1.39563127,  0.24031298],
       [ 0.42461615,  0.17445989,  0.11835199,  0.24031298]])

## Entrenar el clasificador con Vectores de Soporte

In [47]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

In [60]:
model = SVC(gamma = 1)

## Validación Cruzada KFold

La solución a este problema es usar la validación cruzada K-Fold para la evaluación del desempeño, donde K es cualquier número. El proceso de validación cruzada K-Fold es sencillo. Se dividen los datos en K pliegues. De los pliegues K, los conjuntos K-1 se usan para entrenamiento mientras que el resto se usa para pruebas. El algoritmo se entrena y se prueba K veces, cada vez que se utiliza un nuevo conjunto como conjunto de prueba, mientras que los conjuntos restantes se utilizan para el entrenamiento. Finalmente, el resultado de la validación cruzada K-Fold es el promedio de los resultados obtenidos en cada conjunto.

In [61]:
from sklearn.model_selection import KFold

In [62]:
kf = KFold(n_splits=10)

In [80]:
i=1
accuracy = 0

for train_index, test_index in kf.split(X):
    print("Iteración", i)
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]
    model.fit(X_train,y_train)
    predictions = model.predict(X_test)
    print(accuracy_score(y_test, predictions))
    if(accuracy_score(y_test, predictions)>accuracy):
        accuracy = accuracy_score(y_test, predictions)
        final_prediction = predictions
        final_y_test = y_test
    i+=1

Iteración 1
0.75
Iteración 2
0.7469879518072289
Iteración 3
0.8313253012048193
Iteración 4
0.8072289156626506
Iteración 5
0.8674698795180723
Iteración 6
0.7469879518072289
Iteración 7
0.7951807228915663
Iteración 8
0.8433734939759037
Iteración 9
0.8313253012048193
Iteración 10
0.7228915662650602


In [84]:
print("Datos de prediccion Iteración 5: ",final_prediction)
print("Datos de prueba Iteración 5: ",final_y_test)

Datos de prediccion Iteración 5:  [1 0 1 1 0 0 1 0 1 1 1 1 1 0 1 1 0 0 1 1 1 0 1 1 1 0 0 0 1 1 1 0 1 0 0 1 1
 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 0 1 1 1 1 0 1 1 0 1 1 0 0 0 0 0 0 1 1
 1 0 0 1 1 1 0 0 1]
Datos de prueba Iteración 5:  [0 1 0 1 1 0 1 0 1 1 1 1 1 0 1 1 1 0 1 1 0 0 1 1 1 0 0 0 1 1 1 0 1 0 0 1 1
 0 1 0 1 0 0 0 0 0 1 0 1 0 0 0 0 0 0 1 1 0 1 1 1 1 1 0 0 1 0 0 0 0 0 1 1 1
 1 0 0 1 1 1 0 0 1]


## Predicciones y evaluaciones

Ahora vamos a predecir haciendo uso del modelo entrenado.

In [81]:
from sklearn.metrics import classification_report,confusion_matrix

In [82]:
print(confusion_matrix(final_y_test,final_prediction))

[[35  5]
 [ 6 37]]


In [83]:
print(classification_report(final_y_test,final_prediction))

              precision    recall  f1-score   support

           0       0.85      0.88      0.86        40
           1       0.88      0.86      0.87        43

   micro avg       0.87      0.87      0.87        83
   macro avg       0.87      0.87      0.87        83
weighted avg       0.87      0.87      0.87        83

