Selección de características con scores más altos usando percentiles (SelectPercentil) --- 3:17 min
===

* 3:17 min | Última modificación: Octubre 11, 2021 | [YouTube](https://youtu.be/eqNZAO3uBJk)

Esta metodología permite seleccionar las variables independientes que están en el percentil de scores más altos.

Esta es una metodología que permite realizar la selección independiente de cada característica. Es decir, no se tienen en cuenta interacciones entre características.

Para seleccionar las características se debe especificar una función que tome `X` y `y`, y retorne los scores y los valores críticos asociados.

Las disponibles funciones para computar la importancia de cada variable independiente son:

* f_classif()

* f_regression()

* mutual_info_classif()

* mutual_info_regression()

* chi2() (únicamente para clasificación)

In [1]:
#
# Carga el dataset de prueba
#
import numpy as np
from sklearn.datasets import load_digits

X, y = load_digits(return_X_y=True)

X = np.hstack((X, 2 * np.random.random((X.shape[0], 36))))

X.shape

(1797, 100)

In [2]:
from sklearn.feature_selection import SelectPercentile, chi2

selectPercentile = SelectPercentile(
    # -------------------------------------------------------------------------
    # Function taking two arrays X and y, and returning a pair of arrays
    # (scores, pvalues) or a single array with scores.
    score_func=chi2,
    # -------------------------------------------------------------------------
    # Percent of features to keep.
    percentile=10,
)

selectPercentile.fit(X, y)
X_new = selectPercentile.transform(X)

X_new.shape

(1797, 10)

In [3]:
selectPercentile.scores_

array([           nan, 8.11907004e+02, 3.50128250e+03, 6.98925257e+02,
       4.38529699e+02, 3.87981926e+03, 3.96945823e+03, 1.19356082e+03,
       2.47952140e+01, 2.95383109e+03, 2.58365199e+03, 3.88242059e+02,
       8.24690949e+02, 3.67648925e+03, 1.98357961e+03, 5.97241982e+02,
       8.95886124e+00, 1.92421690e+03, 2.40927141e+03, 3.55631595e+03,
       4.87194195e+03, 4.78219922e+03, 2.15517379e+03, 3.76765833e+02,
       7.90090158e+00, 2.47182418e+03, 4.51548150e+03, 2.98664315e+03,
       3.72409568e+03, 3.20864687e+03, 5.13807412e+03, 3.57127072e+01,
                  nan, 5.68825080e+03, 5.26246647e+03, 3.16506059e+03,
       3.23163943e+03, 2.53299696e+03, 3.28881404e+03,            nan,
       1.42850829e+02, 3.86385788e+03, 6.41608672e+03, 5.44825154e+03,
       4.07973153e+03, 2.13402540e+03, 4.48634098e+03, 3.13538981e+02,
       7.03992739e+01, 4.49723273e+02, 2.80197224e+03, 1.52754520e+03,
       1.65315892e+03, 3.07399804e+03, 5.25121749e+03, 6.83882273e+02,
      

In [4]:
selectPercentile.pvalues_

array([            nan, 5.81310493e-169, 0.00000000e+000, 1.17740541e-144,
       8.11314242e-089, 0.00000000e+000, 0.00000000e+000, 2.97727113e-251,
       3.20626273e-003, 0.00000000e+000, 0.00000000e+000, 4.41344943e-078,
       1.02825052e-171, 0.00000000e+000, 0.00000000e+000, 8.18335060e-123,
       4.41080315e-001, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 1.23435651e-075,
       5.44163062e-001, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 4.45801029e-005,
                   nan, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000,             nan,
       2.65875300e-026, 0.00000000e+000, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0.00000000e+000, 0.00000000e+000, 3.49452723e-062,
       1.27145348e-011, 3.28604761e-091, 0.00000000e+000, 0.00000000e+000,
       0.00000000e+000, 0