<h1>Ejemplo de uso de la librería de AutoML TPOT</h1>

<hr>

<h3>En este Notebook se va a preparar y ejecutar un ejemplo básico de clasificación mediante AutoML a través de la librería TPOT, con el fin de tener una primera toma de contacto con ella y comprobar su correcto funcionamiento. El ejemplo aquí mostrado ha sido extraído de la documentación de TPOT (http://epistasislab.github.io/tpot/examples/#iris-flower-classification).</h3>

<hr>

<h2>1. Importación de librerías y preparación del <i>dataset</i></h2>

<p>Se importan las librerías necesarias:</p>

In [1]:
from tpot import TPOTClassifier
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
import numpy as np

Se cargan los datos del dataset de ejemplo desde la librería Sklearn y se separan en conjuntos de prueba y entrenamiento mediante el método <i>traint_test_split</i> de Sklearn.

In [2]:
iris = load_iris()
X_train, X_test, y_train, y_test = train_test_split(iris.data.astype(np.float64),
    iris.target.astype(np.float64), train_size=0.75, test_size=0.25, random_state=42)

<h2>2. Declaración del clasificador de aprendizaje automático automatizado y búsqueda del mejor modelo</h2>

Se crea el clasificador automático de TPOT para la búsqueda del mejor modelo con un tamaño de población por cada generación de 50, mientras que las generaciones que se ejecutarán serán 5. Una vez creado, se procede al entrenamiento del clasificador pasándole los datos de entrenamiento (características y variable objetivo).

In [3]:
tpot = TPOTClassifier(generations=5, population_size=50, verbosity=2, random_state=42)
tpot.fit(X_train, y_train)

Optimization Progress:   0%|          | 0/300 [00:00<?, ?pipeline/s]


Generation 1 - Current best internal CV score: 0.9727272727272727

Generation 2 - Current best internal CV score: 0.9727272727272727

Generation 3 - Current best internal CV score: 0.9727272727272727

Generation 4 - Current best internal CV score: 0.9731225296442687

Generation 5 - Current best internal CV score: 0.9731225296442687

Best pipeline: RandomForestClassifier(PolynomialFeatures(MultinomialNB(input_matrix, alpha=100.0, fit_prior=True), degree=2, include_bias=False, interaction_only=False), bootstrap=True, criterion=gini, max_features=0.7000000000000001, min_samples_leaf=11, min_samples_split=10, n_estimators=100)


TPOTClassifier(generations=5, population_size=50, random_state=42, verbosity=2)

Una vez entrenado el clasificador, se procede a comprobar su precisión a través del método <i>score</i>, al cual se le deberán pasar los datos de prueba (características y variable objetivo).

In [4]:
print(tpot.score(X_test, y_test))

0.9736842105263158


<p>Si se desea es posible exportar la mejor <i>pipeline</i> a un fichero '.py' externo.</p>

In [5]:
tpot.export('tpot_approach_pipeline.py')