# Tubería de entrenamiento

En los sistemas de aprendizaje automatico usualmente se crean utilizando diferentes modulos, la biblioteca scikit-learn tiene funciones que nos permiten juntar modulos y construir las llamadas tuberias.

La canalización puede incluir módulos que realizan varias funciones como la selección de características,preprocesamiento, bosques aleatorios, agrupamiento, etc.

In [2]:
import numpy as np
import matplotlib.pyplot as plt

from sklearn.datasets import samples_generator
from sklearn.feature_selection import SelectKBest, f_regression
from sklearn.pipeline import Pipeline
from sklearn.ensemble import ExtraTreesClassifier
from sklearn.metrics import classification_report

In [3]:
#Creamos 150 puntos de 25 dimensiones y de 3 clases distintas
X, y = samples_generator.make_classification(n_samples=150, n_features=25, n_classes=3, n_informative=6,
                        n_redundant=0, random_state=7)

In [4]:
#El primer componente de la tuberia es el selector de caracteristicas 
#este selecciona las mejores caracteristicas de K caracteristicas.
#establecemos k como 9 
k_best_selector = SelectKBest(f_regression, k=9)

#Creamos el clasificador de bosque extremadamente aleatorio
classifier = ExtraTreesClassifier(n_estimators=60, max_depth=4)

#Construimos la tuberia
processor_pipeline = Pipeline([('selector', k_best_selector),('erf', classifier)])

#Podemos cambiar ls parametros de los bloques individuales
#cambiemos k del primer bloque
#cambiemos los estimadores en el segundo bloque
processor_pipeline.set_params(selector__k=7, erf__n_estimators=30)

#Entrenamos la tuberia 
processor_pipeline.fit(X,y)

Pipeline(steps=[('selector',
                 SelectKBest(k=7,
                             score_func=<function f_regression at 0x7f5f7dc8a430>)),
                ('erf', ExtraTreesClassifier(max_depth=4, n_estimators=30))])

In [5]:
#Predecir la salida de los datos de entrada 
output = processor_pipeline.predict(X)
print("\nPredicted output:\n", output)
print("\nCalificación:", processor_pipeline.score(X,y))


Predicted output:
 [0 2 2 0 2 0 2 1 0 1 1 2 2 0 2 2 1 0 1 1 0 2 1 0 2 2 0 0 1 2 1 0 1 0 2 2 1
 1 2 2 2 0 1 0 2 1 1 2 1 0 1 2 2 2 2 0 2 2 0 2 2 0 1 0 2 2 1 1 1 2 0 1 0 2
 0 0 1 2 2 0 0 1 2 2 2 0 0 0 2 2 2 1 2 0 2 0 2 2 1 0 1 1 1 1 2 2 2 2 0 1 1
 0 2 1 0 0 1 1 1 1 0 0 0 1 2 0 0 0 2 1 2 0 0 0 0 1 1 0 1 1 1 1 2 0 0 1 2 0
 2 2]

Calificación: 0.8866666666666667


In [7]:
print(classification_report(y, output))

              precision    recall  f1-score   support

           0       0.90      0.86      0.88        51
           1       0.91      0.84      0.87        50
           2       0.85      0.96      0.90        49

    accuracy                           0.89       150
   macro avg       0.89      0.89      0.89       150
weighted avg       0.89      0.89      0.89       150



In [10]:
#Extraemos las caracteristicas elegidas por el bloque selector, se definio que se usaran 7 de las 25 
status = processor_pipeline.named_steps['selector'].get_support()

#Extraemos los indices de los caracteristicas elegidas
selected = [i for i , x in enumerate(status) if x]

print("\nIndices de caracteristias elegidas:", ','.join([str(x) for x in selected]))


Indices de caracteristias elegidas: 4,7,8,12,14,17,22
