# Kernel Density Estimation

$$
    p(x) = \frac{K}{NV} = \frac{1}{N}\sum_{n=1}^N \frac{k({\bf x}, {\bf x}_n)}{V}
$$

<h2 style="color:crimson">Ejercicio</h2>

**Entrenando un modelo con PCA**  
Considerando  `xtrain`, `ytrain` definido en las céldas de arriba, crea dos modelos: 
1. Un pipeline considerando PCA con `n_components=0.7` seguido de un modelo `KNeighborsClassifier` con `n_neighbors=5`
2. `KNeighborsClassifier` con `n_neighbors=5`

Realiza un *cross validation* con `n_components=3`.
* ¿Qué resultados arroja cada modelo?
* ¿que ventajas tiene cada modelo?
* ¿Cuánto tarda en correr cada *cross-validation*?

In [1]:
# Biblioteca necesarias para los ejercicios
from sklearn.decomposition import PCA
from sklearn.neighbors import KNeighborsClassifier
from sklearn.pipeline import Pipeline
from numpy.linalg import svd
from tensorflow.keras import datasets
from sklearn.model_selection import cross_validate, train_test_split

  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])
  _np_qint8 = np.dtype([("qint8", np.int8, 1)])
  _np_quint8 = np.dtype([("quint8", np.uint8, 1)])
  _np_qint16 = np.dtype([("qint16", np.int16, 1)])
  _np_quint16 = np.dtype([("quint16", np.uint16, 1)])
  _np_qint32 = np.dtype([("qint32", np.int32, 1)])
  np_resource = np.dtype([("resource", np.ubyte, 1)])


In [2]:
train, test = datasets.mnist.load_data()
xtrain, ytrain = train
N, M1, M2 = xtrain.shape

# 1.
modelo1 = Pipeline([
    ("PCA", PCA(n_components=0.7)),
    ("K-N", KNeighborsClassifier(n_neighbors=5))
])

modelo2 = Pipeline([
    ("K-N", KNeighborsClassifier(n_neighbors=5))
])


In [3]:
X = xtrain.reshape(N, -1)
y = ytrain

In [4]:
# Entrenamiento de los modelos
modelo1.fit(X, y)
modelo2.fit(X, y)

Pipeline(memory=None,
         steps=[('K-N',
                 KNeighborsClassifier(algorithm='auto', leaf_size=30,
                                      metric='minkowski', metric_params=None,
                                      n_jobs=None, n_neighbors=5, p=2,
                                      weights='uniform'))],
         verbose=False)

Validación de los modelos con Cross-Validation

In [6]:
%%time
scores1 = cross_validate(modelo1, X, y, cv=3, return_train_score=True)

Wall time: 3min 27s


In [7]:
scores1

{'fit_time': array([3.66017389, 3.41489339, 3.0508554 ]),
 'score_time': array([26.73332143, 27.85849023, 18.90240526]),
 'test_score': array([0.9727, 0.9707, 0.9701]),
 'train_score': array([0.982325, 0.98215 , 0.9823  ])}

In [None]:
%%time
scores2 = cross_validate(modelo2, X, y, cv=3, return_train_score=True)

Tiempo de ejecución excedío más de dos horas.

In [7]:
scores2

{'fit_time': array([3.66017389, 3.41489339, 3.0508554 ]),
 'score_time': array([26.73332143, 27.85849023, 18.90240526]),
 'test_score': array([0.9727, 0.9707, 0.9701]),
 'train_score': array([0.982325, 0.98215 , 0.9823  ])}

La clara ventaja de usar PCA es la evidente reducción de del conjunto de atributos del los datos con el que se trabaja, manteniendo la mayor cantidad de información (varianza) dentro del nuevo conjunto reducido de datos.

Lo anterior ayuda en primera instancia a minimizar el tiempo de entrenamiento con el conjunto de datos reducido y a minimizar el costo computacional del modelo.