In [41]:
import numpy as np
from sklearn import datasets
from sklearn.dummy import DummyClassifier
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

In [42]:
# Carga de datos
iris = datasets.load_iris()
print(iris.target_names)

['setosa' 'versicolor' 'virginica']


In [43]:
# Mostrar características de la tabla de datos.
print("Tabla de datos: %d instancias y %d atributos" % (iris.data.shape[0], iris.data.shape[1]))
print("Valores de la clase:", set(iris.target))

# Cuantificamos el número de instancias que contiene el dataset por clase
valores, ocurrencias = np.unique(iris.target, return_counts=True)
print(valores, ocurrencias)

Tabla de datos: 150 instancias y 4 atributos
Valores de la clase: {0, 1, 2}
[0 1 2] [50 50 50]


In [44]:
X = iris.data
y = iris.target

In [45]:
# Test: hold-out split 80-20%. # Partición externa
X_training, X_test, y_training, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Test
valores_test, ocur_test = np.unique(y_test, return_counts=True)
print('Test ->     ', 'clases:', valores_test, ' ocurrencias: ', ocur_test)

# Training
valores_training, ocur_training = np.unique(y_training, return_counts=True)
print('Training -> ', 'clases:', valores_training, ' ocurrencias: ', ocur_training)

Test ->      clases: [0 1 2]  ocurrencias:  [10  9 11]
Training ->  clases: [0 1 2]  ocurrencias:  [40 41 39]


In [46]:
# Estandarizar las características de entrenamiento y de test
standardizer = StandardScaler()
X_training = standardizer.fit_transform(X_training)

In [47]:
# Validación: hold-out split 80-20%. # Partición interna
X_train, X_val, y_train, y_val = train_test_split(X_training, y_training, test_size=0.2, random_state=42)
valores_train, ocur_train = np.unique(y_train, return_counts=True)
print('Train ->      ', ' clases:', valores_train, '  ocurrencias:', ocur_train)

valores_val, ocur_val = np.unique(y_val, return_counts=True)
print('Validation -> ', ' clases:', valores_val, '  ocurrencias:', ocur_val)

Train ->        clases: [0 1 2]   ocurrencias: [32 30 34]
Validation ->   clases: [0 1 2]   ocurrencias: [ 8 11  5]


In [48]:
# Construcción del objeto que contiene el algoritmo de aprendizaje.
clf = DummyClassifier(strategy='prior', random_state=42)

In [49]:
# Entrenamiento del algoritmo de aprendizaje.
clf = clf.fit(X_train, y_train)

In [50]:
# Evaluación del algoritmo de aprendizaje con el método "score" que devuelve directamente la métrica de 'accuracy'
val_accuracy = clf.score(X_val, y_val)
print("Exactitud en validación: ", val_accuracy)

test_accuracy = clf.score(X_test, y_test)
print("Exactitud en test: ", test_accuracy)

Exactitud en validación:  0.20833333333333334
Exactitud en test:  0.36666666666666664


In [51]:
# Obtenemos las predicciones sobre conjunto de validación y de test
y_pred_val = clf.predict(X_val)
print('Predicciones de validación ', y_pred_val)
print('Etiquetas reales validación', y_val)

y_pred_test = clf.predict(X_test)
print('\nPredicciones de test ', y_pred_test)
print('Etiquetas reales test', y_test)

Predicciones de validación  [2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
Etiquetas reales validación [1 1 0 0 0 2 1 2 2 2 1 1 1 1 1 0 2 0 1 0 1 1 0 0]

Predicciones de test  [2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
Etiquetas reales test [1 0 2 1 1 0 1 2 1 1 2 0 0 0 0 1 2 1 1 2 0 2 0 2 2 2 2 2 0 0]


In [52]:
# Importamos un clasificador más complejo que el anterior
from sklearn.svm import SVC

# Definir el algoritmo
clf = SVC(C=1, gamma='scale', kernel='rbf')

# Entrenar el modelo
clf = clf.fit(X_train, y_train)

# Calcular el accuracy y volvemos a parametrizar para mejorar los resultados
val_accuracy = clf.score(X_val, y_val)
print("Exactitud en validación: ", val_accuracy)

Exactitud en validación:  0.9166666666666666


In [53]:
# Calcular el accuracy en el test utilizando el mejor de los modelos anteriores. En nuestro caso, el segundo
X_test = standardizer.transform(X_test)
test_accuracy = clf.score(X_test, y_test)
print("Exactitud en test: ", test_accuracy)

Exactitud en test:  0.9666666666666667


In [None]:
# Guardar modelo
import pickle
with open('../models/model.pickle', 'wb') as fw:
    pickle.dump(model, fw)

# Cargar modelo
with open('../models/model.pickle', 'rb') as fr:
    pickle.load(fr)