# Pipeline ANOVA SVM 

Este ejemplo muestra cómo una selección de funciones se puede integrar fácilmente dentro de una canalización de aprendizaje automático. También mostramos que puede inspeccionar fácilmente parte de la tubería.

In [1]:
from sklearn import set_config
set_config(display="diagram")

Comenzaremos generando un conjunto de datos de clasificación binaria. Posteriormente, dividiremos el conjunto de datos en dos subconjuntos.

In [2]:
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split

X, y = make_classification(
    n_features=20,
    n_informative=3,
    n_redundant=0,
    n_classes=2,
    n_clusters_per_class=2,
    random_state=42,
)
X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=42)

Un error común que se comete con la selección de características es buscar un subconjunto de características discriminatorias en el conjunto de datos completo en lugar de usar solo el conjunto de entrenamiento. El uso de scikit-learn Pipeline evita cometer tal error.

Aquí, demostraremos cómo construir una canalización donde el primer paso será la selección de funciones.

Al solicitar fitlos datos de entrenamiento, se seleccionará un subconjunto de funciones y se almacenará el índice de estas funciones seleccionadas. El selector de características reducirá posteriormente el número de características y pasará este subconjunto al clasificador que será entrenado.

In [6]:
from sklearn.feature_selection import SelectKBest, f_classif
from sklearn.pipeline import make_pipeline
from sklearn.svm import LinearSVC

anova_filter = SelectKBest(f_classif, k=3)
clf = LinearSVC()
anova_svm = make_pipeline(anova_filter, clf)
anova_svm.fit(X_train, y_train)

Una vez que se completa el entrenamiento, podemos predecir nuevas muestras no vistas. En este caso, el selector de funciones solo seleccionará las funciones más discriminatorias en función de la información almacenada durante el entrenamiento. Luego, los datos se pasarán al clasificador que hará la predicción.

Aquí, informamos las métricas finales a través de un informe de clasificación.


In [7]:
from sklearn.metrics import classification_report

y_pred = anova_svm.predict(X_test)
print(classification_report(y_test, y_pred))

              precision    recall  f1-score   support

           0       0.92      0.80      0.86        15
           1       0.75      0.90      0.82        10

    accuracy                           0.84        25
   macro avg       0.84      0.85      0.84        25
weighted avg       0.85      0.84      0.84        25



Tenga en cuenta que puede inspeccionar un paso en la canalización. Por ejemplo, nos podrían interesar los parámetros del clasificador. Dado que seleccionamos tres características, esperamos tener tres coeficientes.

In [8]:
anova_svm[-1].coef_

array([[0.75791147, 0.27159612, 0.26108957]])

Sin embargo, no sabemos qué características se seleccionaron del conjunto de datos original. Podríamos proceder de varias maneras. Aquí, invertiremos la transformación de estos coeficientes para obtener información sobre el espacio original.

In [9]:
anova_svm[:-1].inverse_transform(anova_svm[-1].coef_)

array([[0.        , 0.        , 0.75791147, 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.27159612,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.26108957]])

Podemos ver que las tres primeras funciones fueron las funciones seleccionadas en el primer paso.