<h1>Ejemplo de uso de la librería de AutoML Auto-Sklearn</h1>

<hr>

<h3>En este Notebook se va a preparar y ejecutar un ejemplo básico de clasificación mediante AutoML a través de la librería Auto-Sklearn, con el fin de tener una primera toma de contacto con ella y comprobar su correcto funcionamiento. El ejemplo aquí mostrado ha sido extraído de la documentación de Auto-Sklearn (https://automl.github.io/auto-sklearn/master/examples/20_basic/example_classification.html#sphx-glr-examples-20-basic-example-classification-py).</h3>

<hr>

<h2>1. Importación de librerías y preparación del <i>dataset</i></h2>

<p>Se importan las librerías necesarias:</p>

In [1]:
import sklearn.datasets
import sklearn.metrics

import autosklearn.classification

Carga de un dataset de ejemplo de la librería sklearn y separación de este en conjuntos de entrenamiento y test mediante el método <i>train_test_split</i>.

In [2]:
X, y = sklearn.datasets.load_breast_cancer(return_X_y=True)
X_train, X_test, y_train, y_test = sklearn.model_selection.train_test_split(X, y, random_state=1)

<h2>2. Declaración del clasificador de aprendizaje automático automatizado y búsqueda del mejor modelo</h2>

Declaración del clasificador de aprendizaje automático automatizado y entrenamiento con los datos. Buscará la mejor configuración durante 2 minutos (120 segundos), con un tiempo máximo de cada ejecución de 30 segundos.

In [3]:
automl = autosklearn.classification.AutoSklearnClassifier(
    time_left_for_this_task=120,
    per_run_time_limit=30
)
automl.fit(X_train, y_train, dataset_name='breast_cancer')

AutoSklearnClassifier(per_run_time_limit=30, time_left_for_this_task=120)

<p>Se muestran los modelos obtenidos por el algoritmo de clasificación:</p>

In [4]:
print(automl.show_models())

[(0.200000, SimpleClassificationPipeline({'balancing:strategy': 'none', 'classifier:__choice__': 'passive_aggressive', 'data_preprocessing:categorical_transformer:categorical_encoding:__choice__': 'no_encoding', 'data_preprocessing:categorical_transformer:category_coalescence:__choice__': 'minority_coalescer', 'data_preprocessing:numerical_transformer:imputation:strategy': 'most_frequent', 'data_preprocessing:numerical_transformer:rescaling:__choice__': 'none', 'feature_preprocessor:__choice__': 'no_preprocessing', 'classifier:passive_aggressive:C': 0.14268277711454813, 'classifier:passive_aggressive:average': 'False', 'classifier:passive_aggressive:fit_intercept': 'True', 'classifier:passive_aggressive:loss': 'hinge', 'classifier:passive_aggressive:tol': 0.0002600768160857831, 'data_preprocessing:categorical_transformer:category_coalescence:minority_coalescer:minimum_fraction': 0.0070580904199417415},
dataset_properties={
  'task': 1,
  'sparse': False,
  'multilabel': False,
  'multi

<p>Por último, se calcula la precisión del mejor modelo mediante la predicción de los datos de prueba:</p>

In [5]:
predictions = automl.predict(X_test)
print("Precisión:", sklearn.metrics.accuracy_score(y_test, predictions))

Precisión: 0.9440559440559441
