# Clasificación sobre Dataset de Autenticacion

### 1. Realizamos las importaciones necesarias

In [3]:
from sklearn.model_selection import train_test_split
from sklearn import datasets, svm, metrics
import matplotlib.pyplot as plt 
import seaborn as sns
import pandas as pd
import numpy as np

### 2. Cargamos el dataset y mostramos su contenido

In [4]:
datos = pd.read_csv('data_banknote_authentication.csv')
datos = pd.DataFrame(datos)
datos

Unnamed: 0,Variance,Skewness,Curtosis,Entropy,Class
0,3.62160,8.66610,-2.8073,-0.44699,0
1,4.54590,8.16740,-2.4586,-1.46210,0
2,3.86600,-2.63830,1.9242,0.10645,0
3,3.45660,9.52280,-4.0112,-3.59440,0
4,0.32924,-4.45520,4.5718,-0.98880,0
...,...,...,...,...,...
1367,0.40614,1.34920,-1.4501,-0.55949,1
1368,-1.38870,-4.87730,6.4774,0.34179,1
1369,-3.75030,-13.45860,17.5932,-2.77710,1
1370,-3.56370,-8.38270,12.3930,-1.28230,1


### 3. Creamos un cojunto de datos de entrenamiento y uno de prueba

In [5]:
# Dividir el conjunto de datos en conjunto de entrenamiento y conjunto de prueba
X_train, X_test, y_train, y_test = train_test_split(
                                        datos.drop(columns = "Class"),
                                        datos['Class'],
                                        test_size=0.3,
                                        random_state=109) # 70% training and 30% test

### 4. Creamos el modelo SVM con kernel lineal y lo entrenamos

In [6]:
# Crear un clasificador svm
clf = svm.SVC(kernel='linear') # Linear Kernel

# Entrene el modelo usando los conjuntos de entrenamiento
clf.fit(X_train, y_train)

SVC(kernel='linear')

### 5. Realizamos una prediccion utilizando el SVM anterior con los datos para testeo y mostramos diferentes metricas

In [9]:
# Predecir la respuesta para el conjunto de datos de prueba
y_pred = clf.predict(X_test)

# Exactitud del modelo: ¿con qué frecuencia es correcto el clasificador?
print("Exactitud:",metrics.accuracy_score(y_test, y_pred))

# Precisión del modelo: ¿qué porcentaje de tuplas positivas se etiquetan como tales?
print("Presición:",metrics.precision_score(y_test, y_pred))

# Recordatorio de modelos: ¿qué porcentaje de tuplas positivas se etiquetan como tales?
print("Recuperacion:",metrics.recall_score(y_test, y_pred))

# La puntuación F1 se puede interpretar como un promedio ponderado de la precisión
#y la recuperación, donde una puntuación F1 alcanza su mejor valor en 1 y la peor puntuación en 0. 
print("F equilibrada:",metrics.f1_score(y_test, y_pred))

print("Pérdida de registros:",metrics.log_loss(y_test, y_pred))

print("Área bajo la curva de la curva:",metrics.roc_auc_score(y_test, y_pred))

Exactitud: 0.9927184466019418
Presición: 0.98989898989899
Recuperacion: 0.9949238578680203
F equilibrada: 0.9924050632911392
Pérdida de registros: 0.25149982616406025
Área bajo la curva de la curva: 0.9928107661433124


### 6. Graficamos el resultado

In [7]:
#Se importan los datos
X = X_train
y = y_train

h = .02


#Se crean los marcos para las gráficas
x_min, x_max = X.iloc[:, 0].min() - 1, X.iloc[:, 0].max() + 1
y_min, y_max = X.iloc[:, 1].min() - 1, X.iloc[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),np.arange(y_min, y_max, h))


Xpred = np.array([xx.ravel(), yy.ravel()] + [np.repeat(0, xx.ravel().size) for _ in range(30)]).T

# Xpred ahora tiene una cuadrícula para x1 y x2 y un valor promedio (0) para x3 a x13
pred = clf.predict(Xpred).reshape(yy.shape)   # es una matriz de 0 y 1!
plt.contourf(xx, yy, pred,
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))

plt.show()

ValueError: X.shape[1] = 32 should be equal to 4, the number of features at training time

### 7. Creamos el modelo SVM con kernel polinomico y lo entrenamos

In [10]:
# Crear un clasificador svm
svclassifier = svm.SVC(kernel='poly', degree=8) # Polinomial Kernel

# Entrene el modelo usando los conjuntos de entrenamiento
svclassifier.fit(X_train, y_train)

SVC(degree=8, kernel='poly')

### 8. Realizamos una prediccion utilizando el SVM anterior con los datos para testeo y mostramos diferentes metricas

In [11]:
# Predecir la respuesta para el conjunto de datos de prueba
y_pred = svclassifier.predict(X_test)

# Exactitud del modelo: ¿con qué frecuencia es correcto el clasificador?
print("Exactitud:",metrics.accuracy_score(y_test, y_pred))

# Precisión del modelo: ¿qué porcentaje de tuplas positivas se etiquetan como tales?
print("Presición:",metrics.precision_score(y_test, y_pred))

# Recordatorio de modelos: ¿qué porcentaje de tuplas positivas se etiquetan como tales?
print("Recuperacion:",metrics.recall_score(y_test, y_pred))

# La puntuación F1 se puede interpretar como un promedio ponderado de la precisión
#y la recuperación, donde una puntuación F1 alcanza su mejor valor en 1 y la peor puntuación en 0. 
print("F equilibrada:",metrics.f1_score(y_test, y_pred))

print("Pérdida de registros:",metrics.log_loss(y_test, y_pred))

print("Área bajo la curva de la curva:",metrics.roc_auc_score(y_test, y_pred))

Exactitud: 0.7160194174757282
Presición: 0.9878048780487805
Recuperacion: 0.41116751269035534
F equilibrada: 0.5806451612903226
Pérdida de registros: 9.808343781072766
Área bajo la curva de la curva: 0.7032581749498288


In [11]:
#Se importan los datos
X = X_train
y = y_train

h = .02

#Se crean los marcos para las gráficas
x_min, x_max = X.iloc[:, 0].min() - 1, X.iloc[:, 0].max() + 1
y_min, y_max = X.iloc[:, 1].min() - 1, X.iloc[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, h),np.arange(y_min, y_max, h))


Xpred = np.array([xx.ravel(), yy.ravel()] + [np.repeat(0, xx.ravel().size) for _ in range(4)]).T

# Xpred ahora tiene una cuadrícula para x1 y x2 y un valor promedio (0) para x3 a x13
pred = svclassifier.predict(Xpred).reshape(yy.shape)   # es una matriz de 0 y 1!
plt.contourf(xx, yy, pred,
             alpha = 0.75, cmap = ListedColormap(('red', 'green')))

plt.show()

ValueError: X.shape[1] = 6 should be equal to 4, the number of features at training time