In [12]:
import numpy as np # Para procesamiento de arrays
from sklearn import datasets
from sklearn.dummy import DummyClassifier # Modelo de machine learning (tampoco aprende mucho)
# Clasificador "aleatorio" no tiene en cuenta patrones obtenidos en base a los atributos.
# Saca un resultado en base una característica - Ejemplo: obten valor más repetído.
from sklearn.model_selection import train_test_split # Herramientoas para la seleccion de modelos
from sklearn.preprocessing import StandardScaler #

In [11]:
# Carga de datos
iris = datasets.load_iris()
print(iris.keys()) # esta organizado en formato diccionario, saber las "cabeceras"
print(iris["data"].shape) # saber el tamaño del array = 150 muestras y 4 atributos

print(iris.target_names) # lo mismo que: iris["data"]

dict_keys(['data', 'target', 'frame', 'target_names', 'DESCR', 'feature_names', 'filename', 'data_module'])
(150, 4)
['setosa' 'versicolor' 'virginica']


In [10]:
# Mostrar características de la tabla de datos.
print("Tabla de datos: %d instancias y %d atributos" % (iris.data.shape[0], iris.data.shape[1])) # display número de muestras (numero de filas y columnas)
print("Valores de la clase:", set(iris.target)) # display numero de valores posibles en la variable objetivo

# Cuantificamos el número de instancias que contiene el dataset por clase -- distribución marginal: número de muestras (ocurrencias) en cada clase
valores, ocurrencias = np.unique(iris.target, return_counts=True)
print(valores, ocurrencias) # 50 = 50 = 50, esta balanceado, todas las muestras igual

Tabla de datos: 150 instancias y 4 atributos
Valores de la clase: {np.int64(0), np.int64(1), np.int64(2)}
[0 1 2] [50 50 50]


In [13]:
# Empezamos con -> Test: hold-out (externo) split 80-20%. # Partición externa
X_training, X_test, y_training, y_test = train_test_split(iris.data, iris.target, test_size=0.2, random_state=42) #train_test_split train_test_split(la matriz de datos, el target, el porcentaje de test (20-30%),  una medida de reprodubilidad: una semilla aleatoria que marca como toma los datos y parametros de incio, en caso que haya fold añadimos su número)
  # nos va adevolver:
    # X_training --> la matriz de muestras y atributos para el entrenamiento
    # X_test --> la mtriz de datos para test - lo reservamos para la evaluación
    # y_training --> el target para entrenamiento
    # y_test --> el target para test
valores_test, ocur_test = np.unique(y_test, return_counts=True)
  # valores_test: Guarda los valores únicos que aparecen en y_test (por ejemplo, si es clasificación binaria, serían [0, 1], o las clases que tengas)
  # ocur_test: Guarda cuántas veces aparece cada uno de esos valores (las ocurrencias/frecuencias)
print('Test: ', 'clases:', valores_test, ' ocurrencias: ', ocur_test)

Test:  clases: [0 1 2]  ocurrencias:  [10  9 11]


In [16]:
# Validación: hold-out (interno) split 80-20%. # Partición interna (la particion de la particion)
X_train, X_val, y_train, y_val = train_test_split(X_training, y_training, test_size=0.2, random_state=42) # Hacemos un nuevo holdout para obtener los datos finales de train y de validacion
valores_train, ocur_train = np.unique(y_train, return_counts=True)
print('Entrenamiento: ', ' clases:', valores_train, '  ocurrencias:', ocur_train)

# Estandarizar las características de entrenamiento y de test
standardizer = StandardScaler() # Crear el modelo
X_training = standardizer.fit_transform(X_training) # ajustar con los datos de entrenamiento
X_test = standardizer.transform(X_test) # transformar con los datos de test
X_val = standardizer.transform(X_val)

valores_val, ocur_val = np.unique(y_val, return_counts=True)
print('Validation:    ', ' clases:', valores_val, '  ocurrencias:', ocur_val)

Entrenamiento:   clases: [0 1 2]   ocurrencias: [32 30 34]
Validation:      clases: [0 1 2]   ocurrencias: [ 8 11  5]


In [18]:
# Construcción del objeto que contiene el algoritmo de aprendizaje.
clf = DummyClassifier(strategy='prior', random_state=42) # instancia del algoritmo a crear

In [19]:
# Entrenamiento del algoritmo de aprendizaje.
clf = clf.fit(X_train, y_train) # ajustar el algoritmo con los parámetros: ahi tenemos los atributos

In [21]:
preds_val = clf.predict(X_val) # para gacer la inducción a los datos de validación (predicciones)
print(preds_val)
preds_prob = clf.predict_proba(X_val) # devuelve un score de pertenecia a cada una de las clases
print(preds_prob)

[2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
[[0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]
 [0.33333333 0.3125     0.35416667]]


In [22]:
# Evaluación del algoritmo de aprendizaje con el método "score" que devuelve directamente la métrica de 'accuracy'-- al metodo score siempre le damos las etiquetas
 # En este caso la evaluación consiste en darle unos datos (X) al modelo y que prediga la clase (Y)
val_accuracy = clf.score(X_val, y_val)
print("Exactitud en validación: ", val_accuracy)

test_accuracy = clf.score(X_test, y_test)
print("Exactitud en test: ", test_accuracy)

Exactitud en validación:  0.20833333333333334
Exactitud en test:  0.36666666666666664


In [23]:
# Obtenemos las predicciones sobre conjunto de validación y de test
y_pred_val = clf.predict(X_val)
print('Predicciones de validación ', y_pred_val)
print('Etiquetas reales validación', y_val)

y_pred_test = clf.predict(X_test)
print('\nPredicciones de test ', y_pred_val)
print('Etiquetas reales test', y_val)

Predicciones de validación  [2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
Etiquetas reales validación [1 1 0 0 0 2 1 2 2 2 1 1 1 1 1 0 2 0 1 0 1 1 0 0]

Predicciones de test  [2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2]
Etiquetas reales test [1 1 0 0 0 2 1 2 2 2 1 1 1 1 1 0 2 0 1 0 1 1 0 0]


In [26]:
# Aplicamos un ejemplo con un clasificador más complejo que el "dummyclassifier"
from sklearn.svm import SVC
svc = SVC(C=0.5) # Definimos algoritmo - instanciar objeto de clase SVC -- (C=0.5) son sus hiperparámetros
svc.fit(X_train, y_train) # Entrenamos modelo - hacemos el fit a los datos de entrenamiento

val_accuracy = svc.score(X_val, y_val) # Evaluamos modelo en validación
print('Exactitud en validación ', np.round(val_accuracy*100, 4), '%') # dara el acuracy en validación

test_accuracy = svc.score(X_test, y_test) # Evaluamos modelo en test
print('Exactitud en test ', np.round(test_accuracy*100, 4), '%') # dara el acuracy en test (evaluación)

Exactitud en validación  91.6667 %
Exactitud en test  96.6667 %


In [None]:
# Guardar modelo
import pickle
with open('../models/model.pickle', 'wb') as fw:
    pickle.dump(model, fw)

# Cargar modelo
with open('../models/model.pickle', 'rb') as fr:
    pickle.load(fr)