# Aprendizaje basado en instancias

## Procesado de los datos

El conjunto de datos sobre cáncer de mama está incluido en *Scikit-learn*, se obtiene usando la función `load_breast_cancer` incluida en la librería `sklearn.datasets`. Este conjunto de datos contiene 569 ejemplos con 30 características sobre clasificaciones de cáncer de mama, con dos clasificaciones posibles.

In [10]:
from sklearn.datasets import load_breast_cancer

cancer = load_breast_cancer()

Este conjunto de datos es un diccionario con varios campos:
* `data`: Es el conjunto de datos, se trata de un array en el que cada componente es un array con las características de cada instancia.
* `target`: Es el conjunto de valores de clasificación para cada instancia. Es un array del mismo tamaño que `data`, en el que se indica el valor de clasificación de cada instancia, en el mismo orden en que éstas se encuentran en el array `data`.
* `DESCR`: Es una descripción del conjunto de datos.
* `target_names`: Es un array con los nombres de cada valor de clasificación.
* `feature_names`: Es un array con los nombres de cada característica.

Almacenamos los datos en las variables `X_data`, `y_data`, `X_names` e `y_names`.

In [11]:
X_data, y_data, X_names, y_names = \
    cancer.data, cancer.target, cancer.feature_names, cancer.target_names

## Ejemplos aislados (*outliers*)

Un ejemplo aislado (*outlier* en inglés) es un ejemplo de entrenamiento que está rodeado por ejemplos que no pertenecen a su misma clase. La presencia de ejemplos aislados en un conjunto de entrenamiento puede deberse a:

* Un error en los datos
* Una cantidad insuficiente de ejemplos de la clase de los ejemplos aislados
* La existencia de características que no se están teniendo en cuenta
* Clases desbalanceadas 

En el contexto de la clasificación basada en instancias mediante el algoritmo **k**-*NN*, los ejemplos aislados generan ruido que disminuye el rendimiento del clasificador. Dados dos números naturales, $k$ y $r$, con $k>r$, decimos que un ejemplo es ($k$,$r$)-aislado si en sus $k$ vecinos más cercanos hay más de $r$ ejemplos que no pertenecen a su misma clase.

En este ejercicio vamos a identificar ejemplos ($k$,$r$)-aislados en el conjunto de datos y vamos a comparar el rendimiento del clasificador **K**-*NN* con y sin estos ejemplos. Para ello vamos a utilizar la clase `NearestNeighbors` de *Scikit-learn*, incluida en la librería `sklearn.neighbors`.

In [12]:
from sklearn.neighbors import NearestNeighbors

## Contenido del ejercicio

El ejercicio consiste en

* Investigar la clase `NearestNeighbors` de *Scikit-learn* y cómo se usa para obtener los vecinos más cercanos a un ejemplo dado dentro de un conjunto de datos, con respecto a una medida de distancia.
* Definir la función `buscaOutliers` que dados dos números naturales `k` y `r`, devuelve la lista de los índices de los ejemplos del conjunto de entrenamiento sobre el cáncer que son (`k`,`r`)-aislados. Es decir, la lista de los índices de los ejemplos del conjunto de entrenamiento `X_data` para los que en sus `k` vecinos más cercanos hay más de `r` ejemplos con una clasificación distinta a la del propio ejemplo.
* Construir un segundo conjunto de datos `Xo_data` obtenido a partir del inicial eliminando todos los ejemplos (5,3)-aislados.
* Construir dos modelos de decisión (para valores de `p` y `k` coherentes con la búsqueda de ejemplos aislados), uno para cada conjunto de datos considerado `X_data` y `Xo_data`, realizando en ambos casos una separación del $30$% de datos de prueba y $70$% de datos de entrenamiento.
* Comparar el rendimiento de ambos modelos sobre su correspondiente conjunto de prueba.

El **desarrollo tiene que estar razonado**, indicando en cada apartado qué se está haciendo, **demostrando así el conocimiento adquirido en este módulo**. ¿Qué conclusiones puedes sacar de lo aprendido sobre aprendizaje basado en instancias?